pyspider.fetcher.Fetcher.http_fetch() - Code Metrics - Inspection of "code style fix and apply merge to @config" - binux/pyspider - Measure and Improve Code Quality continuously with Scrutinizer

Completed

Push — ihipop-master ( 1c53cc )

by Roy

created 2015-12-13 18:29 UTC

pyspider.fetcher.Fetcher.http_fetch() F

↳ Parent: pyspider.fetcher.Fetcher

Complexity

Conditions

Size

Total Lines

158

Duplication

Lines	0
Ratio	0 %

Metric	Value
cc	45
dl	0
loc	158
rs	2

1 Method

Rating	Name	Duplication	Size	Complexity
B	pyspider.fetcher.Fetcher.make_request()	0	18	6

How to fix Long Method Complexity

#!/usr/bin/env python
# -*- encoding: utf-8 -*-
# vim: set et sw=4 ts=4 sts=4 ff=unix fenc=utf8:
# Author: Binux<[email protected]>
#         http://binux.me
# Created on 2012-12-17 11:07:19

from __future__ import unicode_literals

import six
import copy
import time
import json
import logging
import threading
import tornado.ioloop
import tornado.httputil
import tornado.httpclient
import pyspider

from six.moves import http_cookies
from requests import cookies
from six.moves.urllib.parse import urljoin, urlsplit
from tornado.curl_httpclient import CurlAsyncHTTPClient
from tornado.simple_httpclient import SimpleAsyncHTTPClient
from pyspider.libs import utils, dataurl, counter
from pyspider.libs.queue import Queue as queue
from .cookie_utils import extract_cookies_to_jar
logger = logging.getLogger('fetcher')


class MyCurlAsyncHTTPClient(CurlAsyncHTTPClient):

    def free_size(self):
        return len(self._free_list)

    def size(self):
        return len(self._curls) - self.free_size()


class MySimpleAsyncHTTPClient(SimpleAsyncHTTPClient):

    def free_size(self):
        return self.max_clients - self.size()

    def size(self):
        return len(self.active)

fetcher_output = {
    "status_code": int,
    "orig_url": str,
    "url": str,
    "headers": dict,
    "content": str,
    "cookies": dict,
}


class Fetcher(object):
    user_agent = "pyspider/%s (+http://pyspider.org/)" % pyspider.__version__
    default_options = {
        'method': 'GET',
        'headers': {
        },
        'use_gzip': True,
        'timeout': 120,
    }
    phantomjs_proxy = None

    def __init__(self, inqueue, outqueue, poolsize=100, proxy=None, async=True):
        self.inqueue = inqueue
        self.outqueue = outqueue

        self.poolsize = poolsize
        self._running = False
        self._quit = False
        self.proxy = proxy
        self.async = async
        self.ioloop = tornado.ioloop.IOLoop()

        # binding io_loop to http_client here
        if self.async:
            self.http_client = MyCurlAsyncHTTPClient(max_clients=self.poolsize,
                                                     io_loop=self.ioloop)
        else:
            self.http_client = tornado.httpclient.HTTPClient(
                MyCurlAsyncHTTPClient, max_clients=self.poolsize
            )

        self._cnt = {
            '5m': counter.CounterManager(
                lambda: counter.TimebaseAverageWindowCounter(30, 10)),
            '1h': counter.CounterManager(
                lambda: counter.TimebaseAverageWindowCounter(60, 60)),
        }

    def send_result(self, type, task, result):
        '''Send fetch result to processor'''
        if self.outqueue:
            try:
                self.outqueue.put((task, result))
            except Exception as e:
                logger.exception(e)

    def fetch(self, task, callback=None):
        '''Do one fetch'''
        url = task.get('url', 'data:,')
        if callback is None:
            callback = self.send_result
        if url.startswith('data:'):
            return self.data_fetch(url, task, callback)
        elif task.get('fetch', {}).get('fetch_type') in ('js', 'phantomjs'):
            return self.phantomjs_fetch(url, task, callback)
        else:
            return self.http_fetch(url, task, callback)

    def sync_fetch(self, task):
        '''Synchronization fetch'''
        wait_result = threading.Condition()
        _result = {}

        def callback(type, task, result):
            wait_result.acquire()
            _result['type'] = type
            _result['task'] = task
            _result['result'] = result
            wait_result.notify()
            wait_result.release()

        wait_result.acquire()
        self.fetch(task, callback=callback)
        while 'result' not in _result:
            wait_result.wait()
        wait_result.release()
        return _result['result']

    def data_fetch(self, url, task, callback):
        '''A fake fetcher for dataurl'''
        self.on_fetch('data', task)
        result = {}
        result['orig_url'] = url
        result['content'] = dataurl.decode(url)
        result['headers'] = {}
        result['status_code'] = 200
        result['url'] = url
        result['cookies'] = {}
        result['time'] = 0
        result['save'] = task.get('fetch', {}).get('save')
        if len(result['content']) < 70:
            logger.info("[200] %s:%s %s 0s", task.get('project'), task.get('taskid'), url)
        else:
            logger.info(
                "[200] %s:%s data:,%s...[content:%d] 0s",
                task.get('project'), task.get('taskid'),
                result['content'][:70],
                len(result['content'])
            )

        callback('data', task, result)
        self.on_result('data', task, result)
        return task, result

    def handle_error(self, type, url, task, start_time, callback, error):
        result = {
            'status_code': getattr(error, 'code', 599),
            'error': utils.text(error),
            'content': "",
            'time': time.time() - start_time,
            'orig_url': url,
            'url': url,
        }
        logger.error("[%d] %s:%s %s, %r %.2fs",
                     result['status_code'], task.get('project'), task.get('taskid'),
                     url, error, result['time'])
        callback(type, task, result)
        self.on_result(type, task, result)
        return task, result

    allowed_options = ['method', 'data', 'timeout', 'cookies', 'use_gzip', 'validate_cert']

    def http_fetch(self, url, task, callback):
        '''HTTP fetcher'''
        start_time = time.time()

        self.on_fetch('http', task)
        fetch = copy.deepcopy(self.default_options)
        fetch['url'] = url
        fetch['headers'] = tornado.httputil.HTTPHeaders(fetch['headers'])
        fetch['headers']['User-Agent'] = self.user_agent
        task_fetch = task.get('fetch', {})
        for each in self.allowed_options:
            if each in task_fetch:
                fetch[each] = task_fetch[each]
        fetch['headers'].update(task_fetch.get('headers', {}))

        if task.get('track'):
            track_headers = tornado.httputil.HTTPHeaders(
                task.get('track', {}).get('fetch', {}).get('headers') or {})
            track_ok = task.get('track', {}).get('process', {}).get('ok', False)
        else:
            track_headers = {}
            track_ok = False
        # proxy
        proxy_string = None
        if isinstance(task_fetch.get('proxy'), six.string_types):
            proxy_string = task_fetch['proxy']
        elif self.proxy and task_fetch.get('proxy', True):
            proxy_string = self.proxy
        if proxy_string:
            if '://' not in proxy_string:
                proxy_string = 'http://' + proxy_string
            proxy_splited = urlsplit(proxy_string)
            if proxy_splited.username:
                fetch['proxy_username'] = proxy_splited.username
                if six.PY2:
                    fetch['proxy_username'] = fetch['proxy_username'].encode('utf8')
            if proxy_splited.password:
                fetch['proxy_password'] = proxy_splited.password
                if six.PY2:
                    fetch['proxy_password'] = fetch['proxy_password'].encode('utf8')
            fetch['proxy_host'] = proxy_splited.hostname.encode('utf8')
            if six.PY2:
                fetch['proxy_host'] = fetch['proxy_host'].encode('utf8')
            fetch['proxy_port'] = proxy_splited.port or 8080

        # etag
        if task_fetch.get('etag', True):
            _t = None
            if isinstance(task_fetch.get('etag'), six.string_types):
                _t = task_fetch.get('etag')
            elif track_ok:
                _t = track_headers.get('etag')
            if _t:
                fetch['headers'].setdefault('If-None-Match', _t)
        # last modifed
        if task_fetch.get('last_modified', True):
            _t = None
            if isinstance(task_fetch.get('last_modifed'), six.string_types):
                _t = task_fetch.get('last_modifed')
            elif track_ok:
                _t = track_headers.get('last-modified')
            if _t:
                fetch['headers'].setdefault('If-Modified-Since', _t)

        session = cookies.RequestsCookieJar()

        # fix for tornado request obj
        if 'Cookie' in fetch['headers']:
            c = http_cookies.SimpleCookie()
            try:
                c.load(fetch['headers']['Cookie'])
            except AttributeError:
                c.load(utils.utf8(fetch['headers']['Cookie']))
            for key in c:
                session.set(key, c[key])
            del fetch['headers']['Cookie']
        fetch['follow_redirects'] = False
        if 'timeout' in fetch:
            fetch['connect_timeout'] = fetch['request_timeout'] = fetch['timeout']
            del fetch['timeout']
        if 'data' in fetch:
            fetch['body'] = fetch['data']
            del fetch['data']
        if 'cookies' in fetch:
            session.update(fetch['cookies'])
            del fetch['cookies']

        store = {}
        store['max_redirects'] = task_fetch.get('max_redirects', 5)

        def handle_response(response):
            extract_cookies_to_jar(session, response.request, response.headers)
            if (response.code in (301, 302, 303, 307)
                    and response.headers.get('Location')
                    and task_fetch.get('allow_redirects', True)):
                if store['max_redirects'] <= 0:
                    error = tornado.httpclient.HTTPError(
                        599, 'Maximum (%d) redirects followed' % task_fetch.get('max_redirects', 5),
                        response)
                    return handle_error(error)
                if response.code in (302, 303):
                    fetch['method'] = 'GET'
                    if 'body' in fetch:
                        del fetch['body']
                fetch['url'] = urljoin(fetch['url'], response.headers['Location'])
                fetch['request_timeout'] -= time.time() - start_time
                if fetch['request_timeout'] < 0:
                    fetch['request_timeout'] = 0.1
                fetch['connect_timeout'] = fetch['request_timeout']
                store['max_redirects'] -= 1
                return make_request(fetch)

            result = {}
            result['orig_url'] = url
            result['content'] = response.body or ''
            result['headers'] = dict(response.headers)
            result['status_code'] = response.code
            result['url'] = response.effective_url or url
            result['cookies'] = session.get_dict()
            result['time'] = time.time() - start_time
            result['save'] = task_fetch.get('save')
            if response.error:
                result['error'] = utils.text(response.error)
            if 200 <= response.code < 300:
                logger.info("[%d] %s:%s %s %.2fs", response.code,
                            task.get('project'), task.get('taskid'),
                            url, result['time'])
            else:
                logger.warning("[%d] %s:%s %s %.2fs", response.code,
                               task.get('project'), task.get('taskid'),
                               url, result['time'])
            callback('http', task, result)
            self.on_result('http', task, result)
            return task, result

        handle_error = lambda x: self.handle_error('http',
                                                   url, task, start_time, callback, x)

        def make_request(fetch):
            try:
                request = tornado.httpclient.HTTPRequest(**fetch)
                cookie_header = cookies.get_cookie_header(session, request)
                if cookie_header:
                    request.headers['Cookie'] = cookie_header
                if self.async:
                    self.http_client.fetch(request, handle_response)
                else:
                    return handle_response(self.http_client.fetch(request))
            except tornado.httpclient.HTTPError as e:
                if e.response:
                    return handle_response(e.response)
                else:
                    return handle_error(e)
            except Exception as e:
                logger.exception(fetch)
                return handle_error(e)

        return make_request(fetch)

    def phantomjs_fetch(self, url, task, callback):
        '''Fetch with phantomjs proxy'''
        start_time = time.time()

        self.on_fetch('phantomjs', task)
        if not self.phantomjs_proxy:
            result = {
                "orig_url": url,
                "content": "phantomjs is not enabled.",
                "headers": {},
                "status_code": 501,
                "url": url,
                "cookies": {},
                "time": 0,
                "save": task.get('fetch', {}).get('save')
            }
            logger.warning("[501] %s:%s %s 0s", task.get('project'), task.get('taskid'), url)
            callback('http', task, result)
            self.on_result('http', task, result)
            return task, result

        request_conf = {
            'follow_redirects': False
        }

        fetch = copy.deepcopy(self.default_options)
        fetch['url'] = url
        fetch['headers'] = tornado.httputil.HTTPHeaders(fetch['headers'])
        fetch['headers']['User-Agent'] = self.user_agent
        task_fetch = task.get('fetch', {})
        for each in task_fetch:
            if each != 'headers':
                fetch[each] = task_fetch[each]
        fetch['headers'].update(task_fetch.get('headers', {}))

        if 'timeout' in fetch:
            request_conf['connect_timeout'] = fetch['timeout']
            request_conf['request_timeout'] = fetch['timeout'] + 1

        session = cookies.RequestsCookieJar()
        request = tornado.httpclient.HTTPRequest(url=fetch['url'])
        if fetch.get('cookies'):
            session.update(fetch['cookies'])
            if 'Cookie' in request.headers:
                del request.headers['Cookie']
            fetch['headers']['Cookie'] = cookies.get_cookie_header(session, request)

        def handle_response(response):
            if not response.body:
                return handle_error(Exception('no response from phantomjs'))

            try:
                result = json.loads(utils.text(response.body))
                if response.error:
                    result['error'] = utils.text(response.error)
            except Exception as e:
                return handle_error(e)

            if result.get('status_code', 200):
                logger.info("[%d] %s:%s %s %.2fs", result['status_code'],
                            task.get('project'), task.get('taskid'), url, result['time'])
            else:
                logger.error("[%d] %s:%s %s, %r %.2fs", result['status_code'],
                             task.get('project'), task.get('taskid'),
                             url, result['content'], result['time'])
            callback('phantomjs', task, result)
            self.on_result('phantomjs', task, result)
            return task, result

        handle_error = lambda x: self.handle_error('phantomjs',
                                                   url, task, start_time, callback, x)

        fetch['headers'] = dict(fetch['headers'])
        try:
            request = tornado.httpclient.HTTPRequest(
                url="%s" % self.phantomjs_proxy, method="POST",
                body=json.dumps(fetch), **request_conf)
            if self.async:
                self.http_client.fetch(request, handle_response)
            else:
                return handle_response(self.http_client.fetch(request))
        except tornado.httpclient.HTTPError as e:
            if e.response:
                return handle_response(e.response)
            else:
                return handle_error(e)
        except Exception as e:
            return handle_error(e)

    def run(self):
        '''Run loop'''
        logger.info("fetcher starting...")

        def queue_loop():
            if not self.outqueue or not self.inqueue:
                return
            while not self._quit:
                try:
                    if self.outqueue.full():
                        break
                    if self.http_client.free_size() <= 0:
                        break
                    task = self.inqueue.get_nowait()
                    # FIXME: decode unicode_obj should used after data selete from
                    # database, it's used here for performance
                    task = utils.decode_unicode_obj(task)
                    self.fetch(task)
                except queue.Empty:
                    break
                except KeyboardInterrupt:
                    break
                except Exception as e:
                    logger.exception(e)
                    break

        tornado.ioloop.PeriodicCallback(queue_loop, 100, io_loop=self.ioloop).start()
        self._running = True

        try:
            self.ioloop.start()
        except KeyboardInterrupt:
            pass

        logger.info("fetcher exiting...")

    def quit(self):
        '''Quit fetcher'''
        self._running = False
        self._quit = True
        self.ioloop.stop()

    def size(self):
        return self.http_client.size()

    def xmlrpc_run(self, port=24444, bind='127.0.0.1', logRequests=False):
        '''Run xmlrpc server'''
        import umsgpack
        try:
            from xmlrpc.server import SimpleXMLRPCServer
            from xmlrpc.client import Binary
        except ImportError:
            from SimpleXMLRPCServer import SimpleXMLRPCServer
            from xmlrpclib import Binary

        server = SimpleXMLRPCServer((bind, port), allow_none=True, logRequests=logRequests)
        server.register_introspection_functions()
        server.register_multicall_functions()

        server.register_function(self.quit, '_quit')
        server.register_function(self.size)

        def sync_fetch(task):
            result = self.sync_fetch(task)
            result = Binary(umsgpack.packb(result))
            return result
        server.register_function(sync_fetch, 'fetch')

        def dump_counter(_time, _type):
            return self._cnt[_time].to_dict(_type)
        server.register_function(dump_counter, 'counter')

        server.timeout = 0.5
        while not self._quit:
            server.handle_request()
        server.server_close()

    def on_fetch(self, type, task):
        '''Called before task fetch'''
        pass

    def on_result(self, type, task, result):
        '''Called after task fetched'''
        status_code = result.get('status_code', 599)
        if status_code != 599:
            status_code = (int(status_code) / 100 * 100)
        self._cnt['5m'].event((task.get('project'), status_code), +1)
        self._cnt['1h'].event((task.get('project'), status_code), +1)

        if type == 'http' and result.get('time'):
            content_len = len(result.get('content', ''))
            self._cnt['5m'].event((task.get('project'), 'speed'),
                                  float(content_len) / result.get('time'))
            self._cnt['1h'].event((task.get('project'), 'speed'),
                                  float(content_len) / result.get('time'))
            self._cnt['5m'].event((task.get('project'), 'time'), result.get('time'))
            self._cnt['1h'].event((task.get('project'), 'time'), result.get('time'))


1			#!/usr/bin/env python
2			# -- encoding: utf-8 --
3			# vim: set et sw=4 ts=4 sts=4 ff=unix fenc=utf8:
4			# Author: Binux<[email protected]>
5			# http://binux.me
6			# Created on 2012-12-17 11:07:19
7
8			from __future__ import unicode_literals
9
10			import six
11			import copy
12			import time
13			import json
14			import logging
15			import threading
16			import tornado.ioloop
17			import tornado.httputil
18			import tornado.httpclient
19			import pyspider
20
21			from six.moves import http_cookies
22			from requests import cookies
23			from six.moves.urllib.parse import urljoin, urlsplit
24			from tornado.curl_httpclient import CurlAsyncHTTPClient
25			from tornado.simple_httpclient import SimpleAsyncHTTPClient
26			from pyspider.libs import utils, dataurl, counter
27			from pyspider.libs.queue import Queue as queue
28			from .cookie_utils import extract_cookies_to_jar
29			logger = logging.getLogger('fetcher')
30
31
32			class MyCurlAsyncHTTPClient(CurlAsyncHTTPClient):
33
34			def free_size(self):
35			return len(self._free_list)
36
37			def size(self):
38			return len(self._curls) - self.free_size()
39
40
41			class MySimpleAsyncHTTPClient(SimpleAsyncHTTPClient):
42
43			def free_size(self):
44			return self.max_clients - self.size()
45
46			def size(self):
47			return len(self.active)
48
49			fetcher_output = {
50			"status_code": int,
51			"orig_url": str,
52			"url": str,
53			"headers": dict,
54			"content": str,
55			"cookies": dict,
56			}
57
58
59			class Fetcher(object):
60			user_agent = "pyspider/%s (+http://pyspider.org/)" % pyspider.__version__
61			default_options = {
62			'method': 'GET',
63			'headers': {
64			},
65			'use_gzip': True,
66			'timeout': 120,
67			}
68			phantomjs_proxy = None
69
70			def __init__(self, inqueue, outqueue, poolsize=100, proxy=None, async=True):
71			self.inqueue = inqueue
72			self.outqueue = outqueue
73
74			self.poolsize = poolsize
75			self._running = False
76			self._quit = False
77			self.proxy = proxy
78			self.async = async
79			self.ioloop = tornado.ioloop.IOLoop()
80
81			# binding io_loop to http_client here
82			if self.async:
83			self.http_client = MyCurlAsyncHTTPClient(max_clients=self.poolsize,
84			io_loop=self.ioloop)
85			else:
86			self.http_client = tornado.httpclient.HTTPClient(
87			MyCurlAsyncHTTPClient, max_clients=self.poolsize
88			)
89
90			self._cnt = {
91			'5m': counter.CounterManager(
92			lambda: counter.TimebaseAverageWindowCounter(30, 10)),
93			'1h': counter.CounterManager(
94			lambda: counter.TimebaseAverageWindowCounter(60, 60)),
95			}
96
97			def send_result(self, type, task, result):
98			'''Send fetch result to processor'''
99			if self.outqueue:
100			try:
101			self.outqueue.put((task, result))
102			except Exception as e:
103			logger.exception(e)
104
105			def fetch(self, task, callback=None):
106			'''Do one fetch'''
107			url = task.get('url', 'data:,')
108			if callback is None:
109			callback = self.send_result
110			if url.startswith('data:'):
111			return self.data_fetch(url, task, callback)
112			elif task.get('fetch', {}).get('fetch_type') in ('js', 'phantomjs'):
113			return self.phantomjs_fetch(url, task, callback)
114			else:
115			return self.http_fetch(url, task, callback)
116
117			def sync_fetch(self, task):
118			'''Synchronization fetch'''
119			wait_result = threading.Condition()
120			_result = {}
121
122			def callback(type, task, result):
123			wait_result.acquire()
124			_result['type'] = type
125			_result['task'] = task
126			_result['result'] = result
127			wait_result.notify()
128			wait_result.release()
129
130			wait_result.acquire()
131			self.fetch(task, callback=callback)
132			while 'result' not in _result:
133			wait_result.wait()
134			wait_result.release()
135			return _result['result']
136
137			def data_fetch(self, url, task, callback):
138			'''A fake fetcher for dataurl'''
139			self.on_fetch('data', task)
140			result = {}
141			result['orig_url'] = url
142			result['content'] = dataurl.decode(url)
143			result['headers'] = {}
144			result['status_code'] = 200
145			result['url'] = url
146			result['cookies'] = {}
147			result['time'] = 0
148			result['save'] = task.get('fetch', {}).get('save')
149			if len(result['content']) < 70:
150			logger.info("[200] %s:%s %s 0s", task.get('project'), task.get('taskid'), url)
151			else:
152			logger.info(
153			"[200] %s:%s data:,%s...[content:%d] 0s",
154			task.get('project'), task.get('taskid'),
155			result['content'][:70],
156			len(result['content'])
157			)
158
159			callback('data', task, result)
160			self.on_result('data', task, result)
161			return task, result
162
163			def handle_error(self, type, url, task, start_time, callback, error):
164			result = {
165			'status_code': getattr(error, 'code', 599),
166			'error': utils.text(error),
167			'content': "",
168			'time': time.time() - start_time,
169			'orig_url': url,
170			'url': url,
171			}
172			logger.error("[%d] %s:%s %s, %r %.2fs",
173			result['status_code'], task.get('project'), task.get('taskid'),
174			url, error, result['time'])
175			callback(type, task, result)
176			self.on_result(type, task, result)
177			return task, result
178
179			allowed_options = ['method', 'data', 'timeout', 'cookies', 'use_gzip', 'validate_cert']
180
181			def http_fetch(self, url, task, callback):
182			'''HTTP fetcher'''
183			start_time = time.time()
184
185			self.on_fetch('http', task)
186			fetch = copy.deepcopy(self.default_options)
187			fetch['url'] = url
188			fetch['headers'] = tornado.httputil.HTTPHeaders(fetch['headers'])
189			fetch['headers']['User-Agent'] = self.user_agent
190			task_fetch = task.get('fetch', {})
191			for each in self.allowed_options:
192			if each in task_fetch:
193			fetch[each] = task_fetch[each]
194			fetch['headers'].update(task_fetch.get('headers', {}))
195
196			if task.get('track'):
197			track_headers = tornado.httputil.HTTPHeaders(
198			task.get('track', {}).get('fetch', {}).get('headers') or {})
199			track_ok = task.get('track', {}).get('process', {}).get('ok', False)
200			else:
201			track_headers = {}
202			track_ok = False
203			# proxy
204			proxy_string = None
205			if isinstance(task_fetch.get('proxy'), six.string_types):
206			proxy_string = task_fetch['proxy']
207			elif self.proxy and task_fetch.get('proxy', True):
208			proxy_string = self.proxy
209			if proxy_string:
210			if '://' not in proxy_string:
211			proxy_string = 'http://' + proxy_string
212			proxy_splited = urlsplit(proxy_string)
213			if proxy_splited.username:
214			fetch['proxy_username'] = proxy_splited.username
215			if six.PY2:
216			fetch['proxy_username'] = fetch['proxy_username'].encode('utf8')
217			if proxy_splited.password:
218			fetch['proxy_password'] = proxy_splited.password
219			if six.PY2:
220			fetch['proxy_password'] = fetch['proxy_password'].encode('utf8')
221			fetch['proxy_host'] = proxy_splited.hostname.encode('utf8')
222			if six.PY2:
223			fetch['proxy_host'] = fetch['proxy_host'].encode('utf8')
224			fetch['proxy_port'] = proxy_splited.port or 8080
225
226			# etag
227			if task_fetch.get('etag', True):
228			_t = None
229			if isinstance(task_fetch.get('etag'), six.string_types):
230			_t = task_fetch.get('etag')
231			elif track_ok:
232			_t = track_headers.get('etag')
233			if _t:
234			fetch['headers'].setdefault('If-None-Match', _t)
235			# last modifed
236			if task_fetch.get('last_modified', True):
237			_t = None
238			if isinstance(task_fetch.get('last_modifed'), six.string_types):
239			_t = task_fetch.get('last_modifed')
240			elif track_ok:
241			_t = track_headers.get('last-modified')
242			if _t:
243			fetch['headers'].setdefault('If-Modified-Since', _t)
244
245			session = cookies.RequestsCookieJar()
246
247			# fix for tornado request obj
248			if 'Cookie' in fetch['headers']:
249			c = http_cookies.SimpleCookie()
250			try:
251			c.load(fetch['headers']['Cookie'])
252			except AttributeError:
253			c.load(utils.utf8(fetch['headers']['Cookie']))
254			for key in c:
255			session.set(key, c[key])
256			del fetch['headers']['Cookie']
257			fetch['follow_redirects'] = False
258			if 'timeout' in fetch:
259			fetch['connect_timeout'] = fetch['request_timeout'] = fetch['timeout']
260			del fetch['timeout']
261			if 'data' in fetch:
262			fetch['body'] = fetch['data']
263			del fetch['data']
264			if 'cookies' in fetch:
265			session.update(fetch['cookies'])
266			del fetch['cookies']
267
268			store = {}
269			store['max_redirects'] = task_fetch.get('max_redirects', 5)
270
271			def handle_response(response):
272			extract_cookies_to_jar(session, response.request, response.headers)
273			if (response.code in (301, 302, 303, 307)
274			and response.headers.get('Location')
275			and task_fetch.get('allow_redirects', True)):
276			if store['max_redirects'] <= 0:
277			error = tornado.httpclient.HTTPError(
278			599, 'Maximum (%d) redirects followed' % task_fetch.get('max_redirects', 5),
279			response)
280			return handle_error(error)
281			if response.code in (302, 303):
282			fetch['method'] = 'GET'
283			if 'body' in fetch:
284			del fetch['body']
285			fetch['url'] = urljoin(fetch['url'], response.headers['Location'])
286			fetch['request_timeout'] -= time.time() - start_time
287			if fetch['request_timeout'] < 0:
288			fetch['request_timeout'] = 0.1
289			fetch['connect_timeout'] = fetch['request_timeout']
290			store['max_redirects'] -= 1
291			return make_request(fetch)
292
293			result = {}
294			result['orig_url'] = url
295			result['content'] = response.body or ''
296			result['headers'] = dict(response.headers)
297			result['status_code'] = response.code
298			result['url'] = response.effective_url or url
299			result['cookies'] = session.get_dict()
300			result['time'] = time.time() - start_time
301			result['save'] = task_fetch.get('save')
302			if response.error:
303			result['error'] = utils.text(response.error)
304			if 200 <= response.code < 300:
305			logger.info("[%d] %s:%s %s %.2fs", response.code,
306			task.get('project'), task.get('taskid'),
307			url, result['time'])
308			else:
309			logger.warning("[%d] %s:%s %s %.2fs", response.code,
310			task.get('project'), task.get('taskid'),
311			url, result['time'])
312			callback('http', task, result)
313			self.on_result('http', task, result)
314			return task, result
315
316			handle_error = lambda x: self.handle_error('http',
317			url, task, start_time, callback, x)
318
319			def make_request(fetch):
320			try:
321			request = tornado.httpclient.HTTPRequest(**fetch)
322			cookie_header = cookies.get_cookie_header(session, request)
323			if cookie_header:
324			request.headers['Cookie'] = cookie_header
325			if self.async:
326			self.http_client.fetch(request, handle_response)
327			else:
328			return handle_response(self.http_client.fetch(request))
329			except tornado.httpclient.HTTPError as e:
330			if e.response:
331			return handle_response(e.response)
332			else:
333			return handle_error(e)
334			except Exception as e:
335			logger.exception(fetch)
336			return handle_error(e)
337
338			return make_request(fetch)
339
340			def phantomjs_fetch(self, url, task, callback):
341			'''Fetch with phantomjs proxy'''
342			start_time = time.time()
343
344			self.on_fetch('phantomjs', task)
345			if not self.phantomjs_proxy:
346			result = {
347			"orig_url": url,
348			"content": "phantomjs is not enabled.",
349			"headers": {},
350			"status_code": 501,
351			"url": url,
352			"cookies": {},
353			"time": 0,
354			"save": task.get('fetch', {}).get('save')
355			}
356			logger.warning("[501] %s:%s %s 0s", task.get('project'), task.get('taskid'), url)
357			callback('http', task, result)
358			self.on_result('http', task, result)
359			return task, result
360
361			request_conf = {
362			'follow_redirects': False
363			}
364
365			fetch = copy.deepcopy(self.default_options)
366			fetch['url'] = url
367			fetch['headers'] = tornado.httputil.HTTPHeaders(fetch['headers'])
368			fetch['headers']['User-Agent'] = self.user_agent
369			task_fetch = task.get('fetch', {})
370			for each in task_fetch:
371			if each != 'headers':
372			fetch[each] = task_fetch[each]
373			fetch['headers'].update(task_fetch.get('headers', {}))
374
375			if 'timeout' in fetch:
376			request_conf['connect_timeout'] = fetch['timeout']
377			request_conf['request_timeout'] = fetch['timeout'] + 1
378
379			session = cookies.RequestsCookieJar()
380			request = tornado.httpclient.HTTPRequest(url=fetch['url'])
381			if fetch.get('cookies'):
382			session.update(fetch['cookies'])
383			if 'Cookie' in request.headers:
384			del request.headers['Cookie']
385			fetch['headers']['Cookie'] = cookies.get_cookie_header(session, request)
386
387			def handle_response(response):
388			if not response.body:
389			return handle_error(Exception('no response from phantomjs'))
390
391			try:
392			result = json.loads(utils.text(response.body))
393			if response.error:
394			result['error'] = utils.text(response.error)
395			except Exception as e:
396			return handle_error(e)
397
398			if result.get('status_code', 200):
399			logger.info("[%d] %s:%s %s %.2fs", result['status_code'],
400			task.get('project'), task.get('taskid'), url, result['time'])
401			else:
402			logger.error("[%d] %s:%s %s, %r %.2fs", result['status_code'],
403			task.get('project'), task.get('taskid'),
404			url, result['content'], result['time'])
405			callback('phantomjs', task, result)
406			self.on_result('phantomjs', task, result)
407			return task, result
408
409			handle_error = lambda x: self.handle_error('phantomjs',
410			url, task, start_time, callback, x)
411
412			fetch['headers'] = dict(fetch['headers'])
413			try:
414			request = tornado.httpclient.HTTPRequest(
415			url="%s" % self.phantomjs_proxy, method="POST",
416			body=json.dumps(fetch), **request_conf)
417			if self.async:
418			self.http_client.fetch(request, handle_response)
419			else:
420			return handle_response(self.http_client.fetch(request))
421			except tornado.httpclient.HTTPError as e:
422			if e.response:
423			return handle_response(e.response)
424			else:
425			return handle_error(e)
426			except Exception as e:
427			return handle_error(e)
428
429			def run(self):
430			'''Run loop'''
431			logger.info("fetcher starting...")
432
433			def queue_loop():
434			if not self.outqueue or not self.inqueue:
435			return
436			while not self._quit:
437			try:
438			if self.outqueue.full():
439			break
440			if self.http_client.free_size() <= 0:
441			break
442			task = self.inqueue.get_nowait()
443			# FIXME: decode unicode_obj should used after data selete from
444			# database, it's used here for performance
445			task = utils.decode_unicode_obj(task)
446			self.fetch(task)
447			except queue.Empty:
448			break
449			except KeyboardInterrupt:
450			break
451			except Exception as e:
452			logger.exception(e)
453			break
454
455			tornado.ioloop.PeriodicCallback(queue_loop, 100, io_loop=self.ioloop).start()
456			self._running = True
457
458			try:
459			self.ioloop.start()
460			except KeyboardInterrupt:
461			pass
462
463			logger.info("fetcher exiting...")
464
465			def quit(self):
466			'''Quit fetcher'''
467			self._running = False
468			self._quit = True
469			self.ioloop.stop()
470
471			def size(self):
472			return self.http_client.size()
473
474			def xmlrpc_run(self, port=24444, bind='127.0.0.1', logRequests=False):
475			'''Run xmlrpc server'''
476			import umsgpack
477			try:
478			from xmlrpc.server import SimpleXMLRPCServer
479			from xmlrpc.client import Binary
480			except ImportError:
481			from SimpleXMLRPCServer import SimpleXMLRPCServer
482			from xmlrpclib import Binary
483
484			server = SimpleXMLRPCServer((bind, port), allow_none=True, logRequests=logRequests)
485			server.register_introspection_functions()
486			server.register_multicall_functions()
487
488			server.register_function(self.quit, '_quit')
489			server.register_function(self.size)
490
491			def sync_fetch(task):
492			result = self.sync_fetch(task)
493			result = Binary(umsgpack.packb(result))
494			return result
495			server.register_function(sync_fetch, 'fetch')
496
497			def dump_counter(_time, _type):
498			return self._cnt[_time].to_dict(_type)
499			server.register_function(dump_counter, 'counter')
500
501			server.timeout = 0.5
502			while not self._quit:
503			server.handle_request()
504			server.server_close()
505
506			def on_fetch(self, type, task):
507			'''Called before task fetch'''
508			pass
509
510			def on_result(self, type, task, result):
511			'''Called after task fetched'''
512			status_code = result.get('status_code', 599)
513			if status_code != 599:
514			status_code = (int(status_code) / 100 * 100)
515			self._cnt['5m'].event((task.get('project'), status_code), +1)
516			self._cnt['1h'].event((task.get('project'), status_code), +1)
517
518			if type == 'http' and result.get('time'):
519			content_len = len(result.get('content', ''))
520			self._cnt['5m'].event((task.get('project'), 'speed'),
521			float(content_len) / result.get('time'))
522			self._cnt['1h'].event((task.get('project'), 'speed'),
523			float(content_len) / result.get('time'))
524			self._cnt['5m'].event((task.get('project'), 'time'), result.get('time'))
525			self._cnt['1h'].event((task.get('project'), 'time'), result.get('time'))
526

binux / pyspider

Push — ihipop-master ( 1c53cc )

pyspider.fetcher.Fetcher.http_fetch() F

Complexity

Size

Duplication

1 Method

How to fix Long Method Complexity

Long Method

Complexity

Duplication Side-by-Side

Filter issues like