pyspider.fetcher.Fetcher.quit() - Code Metrics - Inspection of "capture error message for async_fetch" - binux/pyspider - Measure and Improve Code Quality continuously with Scrutinizer

Completed

Push — master ( 1aa254...d5cc3f )

by Roy

created 2016-01-17 18:05 UTC

pyspider.fetcher.Fetcher.quit() A

↳ Parent: pyspider.fetcher.Fetcher

Complexity

Conditions

Size

Total Lines

Duplication

Lines	0
Ratio	0 %

Metric	Value
cc	1
dl	0
loc	5
rs	9.4285

#!/usr/bin/env python
# -*- encoding: utf-8 -*-
# vim: set et sw=4 ts=4 sts=4 ff=unix fenc=utf8:
# Author: Binux<[email protected]>
#         http://binux.me
# Created on 2012-12-17 11:07:19

from __future__ import unicode_literals

import six
import copy
import time
import json
import logging
import functools
import threading
import tornado.ioloop
import tornado.httputil
import tornado.httpclient
import pyspider

from six.moves import queue, http_cookies
from six.moves.urllib.robotparser import RobotFileParser
from requests import cookies
from six.moves.urllib.parse import urljoin, urlsplit
from tornado import gen
from tornado.curl_httpclient import CurlAsyncHTTPClient
from tornado.simple_httpclient import SimpleAsyncHTTPClient
from pyspider.libs import utils, dataurl, counter
from .cookie_utils import extract_cookies_to_jar
logger = logging.getLogger('fetcher')


class MyCurlAsyncHTTPClient(CurlAsyncHTTPClient):

    def free_size(self):
        return len(self._free_list)

    def size(self):
        return len(self._curls) - self.free_size()


class MySimpleAsyncHTTPClient(SimpleAsyncHTTPClient):

    def free_size(self):
        return self.max_clients - self.size()

    def size(self):
        return len(self.active)

fetcher_output = {
    "status_code": int,
    "orig_url": str,
    "url": str,
    "headers": dict,
    "content": str,
    "cookies": dict,
}


class Fetcher(object):
    user_agent = "pyspider/%s (+http://pyspider.org/)" % pyspider.__version__
    default_options = {
        'method': 'GET',
        'headers': {
        },
        'use_gzip': True,
        'timeout': 120,
    }
    phantomjs_proxy = None
    robot_txt_age = 60*60  # 1h

    def __init__(self, inqueue, outqueue, poolsize=100, proxy=None, async=True):
        self.inqueue = inqueue
        self.outqueue = outqueue

        self.poolsize = poolsize
        self._running = False
        self._quit = False
        self.proxy = proxy
        self.async = async
        self.ioloop = tornado.ioloop.IOLoop()

        self.robots_txt_cache = {}

        # binding io_loop to http_client here
        self.http_client = MyCurlAsyncHTTPClient(max_clients=self.poolsize,
                                                 io_loop=self.ioloop)

        self._cnt = {
            '5m': counter.CounterManager(
                lambda: counter.TimebaseAverageWindowCounter(30, 10)),
            '1h': counter.CounterManager(
                lambda: counter.TimebaseAverageWindowCounter(60, 60)),
        }

    def send_result(self, type, task, result):
        '''Send fetch result to processor'''
        if self.outqueue:
            try:
                self.outqueue.put((task, result))
            except Exception as e:
                logger.exception(e)

    def fetch(self, task, callback=None):
        if self.async:
            return self.async_fetch(task, callback)
        else:
            return self.ioloop.run_sync(functools.partial(self.async_fetch, task, callback))

    @gen.coroutine
    def async_fetch(self, task, callback=None):
        '''Do one fetch'''
        url = task.get('url', 'data:,')
        if callback is None:
            callback = self.send_result

        try:
            if url.startswith('data:'):
                ret = yield gen.maybe_future(self.data_fetch(url, task, callback))
            elif task.get('fetch', {}).get('fetch_type') in ('js', 'phantomjs'):
                ret = yield self.phantomjs_fetch(url, task, callback)
            else:
                ret = yield self.http_fetch(url, task, callback)
        except Exception as e:
            logger.exception(e)
            raise e

        raise gen.Return(ret)

    def sync_fetch(self, task):
        '''Synchronization fetch, usually used in xmlrpc thread'''
        if not self._running:
            return self.ioloop.run_sync(functools.partial(self.async_fetch, task, lambda t, _, r: True))

        wait_result = threading.Condition()
        _result = {}

        def callback(type, task, result):
            wait_result.acquire()
            _result['type'] = type
            _result['task'] = task
            _result['result'] = result
            wait_result.notify()
            wait_result.release()

        wait_result.acquire()
        self.fetch(task, callback=callback)
        while 'result' not in _result:
            wait_result.wait()
        wait_result.release()
        return _result['result']

    def data_fetch(self, url, task, callback):
        '''A fake fetcher for dataurl'''
        self.on_fetch('data', task)
        result = {}
        result['orig_url'] = url
        result['content'] = dataurl.decode(url)
        result['headers'] = {}
        result['status_code'] = 200
        result['url'] = url
        result['cookies'] = {}
        result['time'] = 0
        result['save'] = task.get('fetch', {}).get('save')
        if len(result['content']) < 70:
            logger.info("[200] %s:%s %s 0s", task.get('project'), task.get('taskid'), url)
        else:
            logger.info(
                "[200] %s:%s data:,%s...[content:%d] 0s",
                task.get('project'), task.get('taskid'),
                result['content'][:70],
                len(result['content'])
            )

        callback('data', task, result)
        self.on_result('data', task, result)
        return task, result

    def handle_error(self, type, url, task, start_time, callback, error):
        result = {
            'status_code': getattr(error, 'code', 599),
            'error': utils.text(error),
            'content': "",
            'time': time.time() - start_time,
            'orig_url': url,
            'url': url,
        }
        logger.error("[%d] %s:%s %s, %r %.2fs",
                     result['status_code'], task.get('project'), task.get('taskid'),
                     url, error, result['time'])
        callback(type, task, result)
        self.on_result(type, task, result)
        return task, result

    allowed_options = ['method', 'data', 'timeout', 'cookies', 'use_gzip', 'validate_cert']

    def pack_tornado_request_parameters(self, url, task):
        fetch = copy.deepcopy(self.default_options)
        fetch['url'] = url
        fetch['headers'] = tornado.httputil.HTTPHeaders(fetch['headers'])
        fetch['headers']['User-Agent'] = self.user_agent
        task_fetch = task.get('fetch', {})
        for each in self.allowed_options:
            if each in task_fetch:
                fetch[each] = task_fetch[each]
        fetch['headers'].update(task_fetch.get('headers', {}))

        if task.get('track'):
            track_headers = tornado.httputil.HTTPHeaders(
                task.get('track', {}).get('fetch', {}).get('headers') or {})
            track_ok = task.get('track', {}).get('process', {}).get('ok', False)
        else:
            track_headers = {}
            track_ok = False
        # proxy
        proxy_string = None
        if isinstance(task_fetch.get('proxy'), six.string_types):
            proxy_string = task_fetch['proxy']
        elif self.proxy and task_fetch.get('proxy', True):
            proxy_string = self.proxy
        if proxy_string:
            if '://' not in proxy_string:
                proxy_string = 'http://' + proxy_string
            proxy_splited = urlsplit(proxy_string)
            if proxy_splited.username:
                fetch['proxy_username'] = proxy_splited.username
                if six.PY2:
                    fetch['proxy_username'] = fetch['proxy_username'].encode('utf8')
            if proxy_splited.password:
                fetch['proxy_password'] = proxy_splited.password
                if six.PY2:
                    fetch['proxy_password'] = fetch['proxy_password'].encode('utf8')
            fetch['proxy_host'] = proxy_splited.hostname.encode('utf8')
            if six.PY2:
                fetch['proxy_host'] = fetch['proxy_host'].encode('utf8')
            fetch['proxy_port'] = proxy_splited.port or 8080

        # etag
        if task_fetch.get('etag', True):
            _t = None
            if isinstance(task_fetch.get('etag'), six.string_types):
                _t = task_fetch.get('etag')
            elif track_ok:
                _t = track_headers.get('etag')
            if _t and 'If-None-Match' not in fetch['headers']:
                fetch['headers']['If-None-Match'] = _t
        # last modifed
        if task_fetch.get('last_modified', True):
            _t = None
            if isinstance(task_fetch.get('last_modifed'), six.string_types):
                _t = task_fetch.get('last_modifed')
            elif track_ok:
                _t = track_headers.get('last-modified')
            if _t and 'If-Modified-Since' not in fetch['headers']:
                fetch['headers']['If-Modified-Since'] = _t
        # timeout
        if 'timeout' in fetch:
            fetch['connect_timeout'] = fetch['request_timeout'] = fetch['timeout']
            del fetch['timeout']
        # data rename to body
        if 'data' in fetch:
            fetch['body'] = fetch['data']
            del fetch['data']

        return fetch

    @gen.coroutine
    def can_fetch(self, user_agent, url):
        parsed = urlsplit(url)
        domain = parsed.netloc
        if domain in self.robots_txt_cache:
            robot_txt = self.robots_txt_cache[domain]
            if time.time() - robot_txt.mtime() > self.robot_txt_age:
                robot_txt = None
        else:
            robot_txt = None

        if robot_txt is None:
            robot_txt = RobotFileParser()
            try:
                response = yield self.http_client.fetch(urljoin(url, '/robots.txt'),
                                                        connect_timeout=10, request_timeout=30)
                content = response.body
            except tornado.httpclient.HTTPError as e:
                logger.error('load robots.txt from %s error: %r', domain, e)
                content = ''

            try:
                content = content.decode('utf8', 'ignore')
            except UnicodeDecodeError:
                content = ''

            robot_txt.parse(content.splitlines())
            self.robots_txt_cache[domain] = robot_txt

        raise gen.Return(robot_txt.can_fetch(user_agent, url))

    def clear_robot_txt_cache(self):
        now = time.time()
        for domain, robot_txt in self.robots_txt_cache.items():
            if now - robot_txt.mtime() > self.robot_txt_age:
                del self.robots_txt_cache[domain]

    @gen.coroutine
    def http_fetch(self, url, task, callback):
        '''HTTP fetcher'''
        start_time = time.time()

        self.on_fetch('http', task)
        handle_error = lambda x: self.handle_error('http', url, task, start_time, callback, x)

        # setup request parameters
        fetch = self.pack_tornado_request_parameters(url, task)
        task_fetch = task.get('fetch', {})

        session = cookies.RequestsCookieJar()
        # fix for tornado request obj
        if 'Cookie' in fetch['headers']:
            c = http_cookies.SimpleCookie()
            try:
                c.load(fetch['headers']['Cookie'])
            except AttributeError:
                c.load(utils.utf8(fetch['headers']['Cookie']))
            for key in c:
                session.set(key, c[key])
            del fetch['headers']['Cookie']
        if 'cookies' in fetch:
            session.update(fetch['cookies'])
            del fetch['cookies']

        max_redirects = task_fetch.get('max_redirects', 5)
        # we will handle redirects by hand to capture cookies
        fetch['follow_redirects'] = False

        # making requests
        while True:
            # robots.txt
            if task_fetch.get('robots_txt', False):
                can_fetch = yield self.can_fetch(fetch['headers']['User-Agent'], fetch['url'])
                if not can_fetch:
                    error = tornado.httpclient.HTTPError(403, 'Disallowed by robots.txt')
                    raise gen.Return(handle_error(error))

            try:
                request = tornado.httpclient.HTTPRequest(**fetch)
                cookie_header = cookies.get_cookie_header(session, request)
                if cookie_header:
                    request.headers['Cookie'] = cookie_header
            except Exception as e:
                logger.exception(fetch)
                raise gen.Return(handle_error(e))

            try:
                response = yield self.http_client.fetch(request)
            except tornado.httpclient.HTTPError as e:
                if e.response:
                    response = e.response
                else:
                    raise gen.Return(handle_error(e))

            extract_cookies_to_jar(session, response.request, response.headers)
            if (response.code in (301, 302, 303, 307)
                    and response.headers.get('Location')
                    and task_fetch.get('allow_redirects', True)):
                if max_redirects <= 0:
                    error = tornado.httpclient.HTTPError(
                        599, 'Maximum (%d) redirects followed' % task_fetch.get('max_redirects', 5),
                        response)
                    raise gen.Return(handle_error(error))
                if response.code in (302, 303):
                    fetch['method'] = 'GET'
                    if 'body' in fetch:
                        del fetch['body']
                fetch['url'] = urljoin(fetch['url'], response.headers['Location'])
                fetch['request_timeout'] -= time.time() - start_time
                if fetch['request_timeout'] < 0:
                    fetch['request_timeout'] = 0.1
                fetch['connect_timeout'] = fetch['request_timeout']
                max_redirects -= 1
                continue

            result = {}
            result['orig_url'] = url
            result['content'] = response.body or ''
            result['headers'] = dict(response.headers)
            result['status_code'] = response.code
            result['url'] = response.effective_url or url
            result['cookies'] = session.get_dict()
            result['time'] = time.time() - start_time
            result['save'] = task_fetch.get('save')
            if response.error:
                result['error'] = utils.text(response.error)
            if 200 <= response.code < 300:
                logger.info("[%d] %s:%s %s %.2fs", response.code,
                            task.get('project'), task.get('taskid'),
                            url, result['time'])
            else:
                logger.warning("[%d] %s:%s %s %.2fs", response.code,
                               task.get('project'), task.get('taskid'),
                               url, result['time'])

            callback('http', task, result)
            self.on_result('http', task, result)
            raise gen.Return((task, result))

    @gen.coroutine
    def phantomjs_fetch(self, url, task, callback):
        '''Fetch with phantomjs proxy'''
        start_time = time.time()

        self.on_fetch('phantomjs', task)
        handle_error = lambda x: self.handle_error('phantomjs', url, task, start_time, callback, x)

        # check phantomjs proxy is enabled
        if not self.phantomjs_proxy:
            result = {
                "orig_url": url,
                "content": "phantomjs is not enabled.",
                "headers": {},
                "status_code": 501,
                "url": url,
                "cookies": {},
                "time": 0,
                "save": task.get('fetch', {}).get('save')
            }
            logger.warning("[501] %s:%s %s 0s", task.get('project'), task.get('taskid'), url)
            callback('http', task, result)
            self.on_result('http', task, result)
            raise gen.Return((task, result))

        # setup request parameters
        fetch = self.pack_tornado_request_parameters(url, task)
        task_fetch = task.get('fetch', {})
        for each in task_fetch:
            if each not in fetch:
                fetch[each] = task_fetch[each]

        # robots.txt
        if task_fetch.get('robots_txt', False):
            user_agent = fetch['headers']['User-Agent']
            can_fetch = yield self.can_fetch(user_agent, url)
            if not can_fetch:
                error = tornado.httpclient.HTTPError(403, 'Disallowed by robots.txt')
                raise gen.Return(handle_error(error))

        request_conf = {
            'follow_redirects': False
        }
        if 'timeout' in task_fetch:
            request_conf['connect_timeout'] = task_fetch['timeout']
            request_conf['request_timeout'] = task_fetch['timeout'] + 1

        session = cookies.RequestsCookieJar()
        request = tornado.httpclient.HTTPRequest(url=fetch['url'])
        if fetch.get('cookies'):
            session.update(fetch['cookies'])
            if 'Cookie' in request.headers:
                del request.headers['Cookie']
            fetch['headers']['Cookie'] = cookies.get_cookie_header(session, request)

        # making requests
        fetch['headers'] = dict(fetch['headers'])
        try:
            request = tornado.httpclient.HTTPRequest(
                url="%s" % self.phantomjs_proxy, method="POST",
                body=json.dumps(fetch), **request_conf)
        except Exception as e:
            raise gen.Return(handle_error(e))

        try:
            response = yield self.http_client.fetch(request)
        except tornado.httpclient.HTTPError as e:
            if e.response:
                response = e.response

        if not response.body:
            raise gen.Return(handle_error(Exception('no response from phantomjs')))

        try:
            result = json.loads(utils.text(response.body))
            if response.error:
                result['error'] = utils.text(response.error)
        except Exception as e:
            raise gen.Return(handle_error(e))

        if result.get('status_code', 200):
            logger.info("[%d] %s:%s %s %.2fs", result['status_code'],
                        task.get('project'), task.get('taskid'), url, result['time'])
        else:
            logger.error("[%d] %s:%s %s, %r %.2fs", result['status_code'],
                         task.get('project'), task.get('taskid'),
                         url, result['content'], result['time'])

        callback('phantomjs', task, result)
        self.on_result('phantomjs', task, result)
        raise gen.Return((task, result))

    def run(self):
        '''Run loop'''
        logger.info("fetcher starting...")

        def queue_loop():
            if not self.outqueue or not self.inqueue:
                return
            while not self._quit:
                try:
                    if self.outqueue.full():
                        break
                    if self.http_client.free_size() <= 0:
                        break
                    task = self.inqueue.get_nowait()
                    # FIXME: decode unicode_obj should used after data selete from
                    # database, it's used here for performance
                    task = utils.decode_unicode_obj(task)
                    self.fetch(task)
                except queue.Empty:
                    break
                except KeyboardInterrupt:
                    break
                except Exception as e:
                    logger.exception(e)
                    break

        tornado.ioloop.PeriodicCallback(queue_loop, 100, io_loop=self.ioloop).start()
        tornado.ioloop.PeriodicCallback(self.clear_robot_txt_cache, 10000, io_loop=self.ioloop).start()
        self._running = True

        try:
            self.ioloop.start()
        except KeyboardInterrupt:
            pass

        logger.info("fetcher exiting...")

    def quit(self):
        '''Quit fetcher'''
        self._running = False
        self._quit = True
        self.ioloop.stop()

    def size(self):
        return self.http_client.size()

    def xmlrpc_run(self, port=24444, bind='127.0.0.1', logRequests=False):
        '''Run xmlrpc server'''
        import umsgpack
        try:
            from xmlrpc.server import SimpleXMLRPCServer
            from xmlrpc.client import Binary
        except ImportError:
            from SimpleXMLRPCServer import SimpleXMLRPCServer
            from xmlrpclib import Binary

        server = SimpleXMLRPCServer((bind, port), allow_none=True, logRequests=logRequests)
        server.register_introspection_functions()
        server.register_multicall_functions()

        server.register_function(self.quit, '_quit')
        server.register_function(self.size)

        def sync_fetch(task):
            result = self.sync_fetch(task)
            result = Binary(umsgpack.packb(result))
            return result
        server.register_function(sync_fetch, 'fetch')

        def dump_counter(_time, _type):
            return self._cnt[_time].to_dict(_type)
        server.register_function(dump_counter, 'counter')

        server.timeout = 0.5
        while not self._quit:
            server.handle_request()
        server.server_close()

    def on_fetch(self, type, task):
        '''Called before task fetch'''
        pass

    def on_result(self, type, task, result):
        '''Called after task fetched'''
        status_code = result.get('status_code', 599)
        if status_code != 599:
            status_code = (int(status_code) / 100 * 100)
        self._cnt['5m'].event((task.get('project'), status_code), +1)
        self._cnt['1h'].event((task.get('project'), status_code), +1)

        if type == 'http' and result.get('time'):
            content_len = len(result.get('content', ''))
            self._cnt['5m'].event((task.get('project'), 'speed'),
                                  float(content_len) / result.get('time'))
            self._cnt['1h'].event((task.get('project'), 'speed'),
                                  float(content_len) / result.get('time'))
            self._cnt['5m'].event((task.get('project'), 'time'), result.get('time'))
            self._cnt['1h'].event((task.get('project'), 'time'), result.get('time'))


1			#!/usr/bin/env python
2			# -- encoding: utf-8 --
3			# vim: set et sw=4 ts=4 sts=4 ff=unix fenc=utf8:
4			# Author: Binux<[email protected]>
5			# http://binux.me
6			# Created on 2012-12-17 11:07:19
7
8			from __future__ import unicode_literals
9
10			import six
11			import copy
12			import time
13			import json
14			import logging
15			import functools
16			import threading
17			import tornado.ioloop
18			import tornado.httputil
19			import tornado.httpclient
20			import pyspider
21
22			from six.moves import queue, http_cookies
23			from six.moves.urllib.robotparser import RobotFileParser
24			from requests import cookies
25			from six.moves.urllib.parse import urljoin, urlsplit
26			from tornado import gen
27			from tornado.curl_httpclient import CurlAsyncHTTPClient
28			from tornado.simple_httpclient import SimpleAsyncHTTPClient
29			from pyspider.libs import utils, dataurl, counter
30			from .cookie_utils import extract_cookies_to_jar
31			logger = logging.getLogger('fetcher')
32
33
34			class MyCurlAsyncHTTPClient(CurlAsyncHTTPClient):
35
36			def free_size(self):
37			return len(self._free_list)
38
39			def size(self):
40			return len(self._curls) - self.free_size()
41
42
43			class MySimpleAsyncHTTPClient(SimpleAsyncHTTPClient):
44
45			def free_size(self):
46			return self.max_clients - self.size()
47
48			def size(self):
49			return len(self.active)
50
51			fetcher_output = {
52			"status_code": int,
53			"orig_url": str,
54			"url": str,
55			"headers": dict,
56			"content": str,
57			"cookies": dict,
58			}
59
60
61			class Fetcher(object):
62			user_agent = "pyspider/%s (+http://pyspider.org/)" % pyspider.__version__
63			default_options = {
64			'method': 'GET',
65			'headers': {
66			},
67			'use_gzip': True,
68			'timeout': 120,
69			}
70			phantomjs_proxy = None
71			robot_txt_age = 60*60 # 1h
72
73			def __init__(self, inqueue, outqueue, poolsize=100, proxy=None, async=True):
74			self.inqueue = inqueue
75			self.outqueue = outqueue
76
77			self.poolsize = poolsize
78			self._running = False
79			self._quit = False
80			self.proxy = proxy
81			self.async = async
82			self.ioloop = tornado.ioloop.IOLoop()
83
84			self.robots_txt_cache = {}
85
86			# binding io_loop to http_client here
87			self.http_client = MyCurlAsyncHTTPClient(max_clients=self.poolsize,
88			io_loop=self.ioloop)
89
90			self._cnt = {
91			'5m': counter.CounterManager(
92			lambda: counter.TimebaseAverageWindowCounter(30, 10)),
93			'1h': counter.CounterManager(
94			lambda: counter.TimebaseAverageWindowCounter(60, 60)),
95			}
96
97			def send_result(self, type, task, result):
98			'''Send fetch result to processor'''
99			if self.outqueue:
100			try:
101			self.outqueue.put((task, result))
102			except Exception as e:
103			logger.exception(e)
104
105			def fetch(self, task, callback=None):
106			if self.async:
107			return self.async_fetch(task, callback)
108			else:
109			return self.ioloop.run_sync(functools.partial(self.async_fetch, task, callback))
110
111			@gen.coroutine
112			def async_fetch(self, task, callback=None):
113			'''Do one fetch'''
114			url = task.get('url', 'data:,')
115			if callback is None:
116			callback = self.send_result
117
118			try:
119			if url.startswith('data:'):
120			ret = yield gen.maybe_future(self.data_fetch(url, task, callback))
121			elif task.get('fetch', {}).get('fetch_type') in ('js', 'phantomjs'):
122			ret = yield self.phantomjs_fetch(url, task, callback)
123			else:
124			ret = yield self.http_fetch(url, task, callback)
125			except Exception as e:
126			logger.exception(e)
127			raise e
128
129			raise gen.Return(ret)
130
131			def sync_fetch(self, task):
132			'''Synchronization fetch, usually used in xmlrpc thread'''
133			if not self._running:
134			return self.ioloop.run_sync(functools.partial(self.async_fetch, task, lambda t, _, r: True))
135
136			wait_result = threading.Condition()
137			_result = {}
138
139			def callback(type, task, result):
140			wait_result.acquire()
141			_result['type'] = type
142			_result['task'] = task
143			_result['result'] = result
144			wait_result.notify()
145			wait_result.release()
146
147			wait_result.acquire()
148			self.fetch(task, callback=callback)
149			while 'result' not in _result:
150			wait_result.wait()
151			wait_result.release()
152			return _result['result']
153
154			def data_fetch(self, url, task, callback):
155			'''A fake fetcher for dataurl'''
156			self.on_fetch('data', task)
157			result = {}
158			result['orig_url'] = url
159			result['content'] = dataurl.decode(url)
160			result['headers'] = {}
161			result['status_code'] = 200
162			result['url'] = url
163			result['cookies'] = {}
164			result['time'] = 0
165			result['save'] = task.get('fetch', {}).get('save')
166			if len(result['content']) < 70:
167			logger.info("[200] %s:%s %s 0s", task.get('project'), task.get('taskid'), url)
168			else:
169			logger.info(
170			"[200] %s:%s data:,%s...[content:%d] 0s",
171			task.get('project'), task.get('taskid'),
172			result['content'][:70],
173			len(result['content'])
174			)
175
176			callback('data', task, result)
177			self.on_result('data', task, result)
178			return task, result
179
180			def handle_error(self, type, url, task, start_time, callback, error):
181			result = {
182			'status_code': getattr(error, 'code', 599),
183			'error': utils.text(error),
184			'content': "",
185			'time': time.time() - start_time,
186			'orig_url': url,
187			'url': url,
188			}
189			logger.error("[%d] %s:%s %s, %r %.2fs",
190			result['status_code'], task.get('project'), task.get('taskid'),
191			url, error, result['time'])
192			callback(type, task, result)
193			self.on_result(type, task, result)
194			return task, result
195
196			allowed_options = ['method', 'data', 'timeout', 'cookies', 'use_gzip', 'validate_cert']
197
198			def pack_tornado_request_parameters(self, url, task):
199			fetch = copy.deepcopy(self.default_options)
200			fetch['url'] = url
201			fetch['headers'] = tornado.httputil.HTTPHeaders(fetch['headers'])
202			fetch['headers']['User-Agent'] = self.user_agent
203			task_fetch = task.get('fetch', {})
204			for each in self.allowed_options:
205			if each in task_fetch:
206			fetch[each] = task_fetch[each]
207			fetch['headers'].update(task_fetch.get('headers', {}))
208
209			if task.get('track'):
210			track_headers = tornado.httputil.HTTPHeaders(
211			task.get('track', {}).get('fetch', {}).get('headers') or {})
212			track_ok = task.get('track', {}).get('process', {}).get('ok', False)
213			else:
214			track_headers = {}
215			track_ok = False
216			# proxy
217			proxy_string = None
218			if isinstance(task_fetch.get('proxy'), six.string_types):
219			proxy_string = task_fetch['proxy']
220			elif self.proxy and task_fetch.get('proxy', True):
221			proxy_string = self.proxy
222			if proxy_string:
223			if '://' not in proxy_string:
224			proxy_string = 'http://' + proxy_string
225			proxy_splited = urlsplit(proxy_string)
226			if proxy_splited.username:
227			fetch['proxy_username'] = proxy_splited.username
228			if six.PY2:
229			fetch['proxy_username'] = fetch['proxy_username'].encode('utf8')
230			if proxy_splited.password:
231			fetch['proxy_password'] = proxy_splited.password
232			if six.PY2:
233			fetch['proxy_password'] = fetch['proxy_password'].encode('utf8')
234			fetch['proxy_host'] = proxy_splited.hostname.encode('utf8')
235			if six.PY2:
236			fetch['proxy_host'] = fetch['proxy_host'].encode('utf8')
237			fetch['proxy_port'] = proxy_splited.port or 8080
238
239			# etag
240			if task_fetch.get('etag', True):
241			_t = None
242			if isinstance(task_fetch.get('etag'), six.string_types):
243			_t = task_fetch.get('etag')
244			elif track_ok:
245			_t = track_headers.get('etag')
246			if _t and 'If-None-Match' not in fetch['headers']:
247			fetch['headers']['If-None-Match'] = _t
248			# last modifed
249			if task_fetch.get('last_modified', True):
250			_t = None
251			if isinstance(task_fetch.get('last_modifed'), six.string_types):
252			_t = task_fetch.get('last_modifed')
253			elif track_ok:
254			_t = track_headers.get('last-modified')
255			if _t and 'If-Modified-Since' not in fetch['headers']:
256			fetch['headers']['If-Modified-Since'] = _t
257			# timeout
258			if 'timeout' in fetch:
259			fetch['connect_timeout'] = fetch['request_timeout'] = fetch['timeout']
260			del fetch['timeout']
261			# data rename to body
262			if 'data' in fetch:
263			fetch['body'] = fetch['data']
264			del fetch['data']
265
266			return fetch
267
268			@gen.coroutine
269			def can_fetch(self, user_agent, url):
270			parsed = urlsplit(url)
271			domain = parsed.netloc
272			if domain in self.robots_txt_cache:
273			robot_txt = self.robots_txt_cache[domain]
274			if time.time() - robot_txt.mtime() > self.robot_txt_age:
275			robot_txt = None
276			else:
277			robot_txt = None
278
279			if robot_txt is None:
280			robot_txt = RobotFileParser()
281			try:
282			response = yield self.http_client.fetch(urljoin(url, '/robots.txt'),
283			connect_timeout=10, request_timeout=30)
284			content = response.body
285			except tornado.httpclient.HTTPError as e:
286			logger.error('load robots.txt from %s error: %r', domain, e)
287			content = ''
288
289			try:
290			content = content.decode('utf8', 'ignore')
291			except UnicodeDecodeError:
292			content = ''
293
294			robot_txt.parse(content.splitlines())
295			self.robots_txt_cache[domain] = robot_txt
296
297			raise gen.Return(robot_txt.can_fetch(user_agent, url))
298
299			def clear_robot_txt_cache(self):
300			now = time.time()
301			for domain, robot_txt in self.robots_txt_cache.items():
302			if now - robot_txt.mtime() > self.robot_txt_age:
303			del self.robots_txt_cache[domain]
304
305			@gen.coroutine
306			def http_fetch(self, url, task, callback):
307			'''HTTP fetcher'''
308			start_time = time.time()
309
310			self.on_fetch('http', task)
311			handle_error = lambda x: self.handle_error('http', url, task, start_time, callback, x)
312
313			# setup request parameters
314			fetch = self.pack_tornado_request_parameters(url, task)
315			task_fetch = task.get('fetch', {})
316
317			session = cookies.RequestsCookieJar()
318			# fix for tornado request obj
319			if 'Cookie' in fetch['headers']:
320			c = http_cookies.SimpleCookie()
321			try:
322			c.load(fetch['headers']['Cookie'])
323			except AttributeError:
324			c.load(utils.utf8(fetch['headers']['Cookie']))
325			for key in c:
326			session.set(key, c[key])
327			del fetch['headers']['Cookie']
328			if 'cookies' in fetch:
329			session.update(fetch['cookies'])
330			del fetch['cookies']
331
332			max_redirects = task_fetch.get('max_redirects', 5)
333			# we will handle redirects by hand to capture cookies
334			fetch['follow_redirects'] = False
335
336			# making requests
337			while True:
338			# robots.txt
339			if task_fetch.get('robots_txt', False):
340			can_fetch = yield self.can_fetch(fetch['headers']['User-Agent'], fetch['url'])
341			if not can_fetch:
342			error = tornado.httpclient.HTTPError(403, 'Disallowed by robots.txt')
343			raise gen.Return(handle_error(error))
344
345			try:
346			request = tornado.httpclient.HTTPRequest(**fetch)
347			cookie_header = cookies.get_cookie_header(session, request)
348			if cookie_header:
349			request.headers['Cookie'] = cookie_header
350			except Exception as e:
351			logger.exception(fetch)
352			raise gen.Return(handle_error(e))
353
354			try:
355			response = yield self.http_client.fetch(request)
356			except tornado.httpclient.HTTPError as e:
357			if e.response:
358			response = e.response
359			else:
360			raise gen.Return(handle_error(e))
361
362			extract_cookies_to_jar(session, response.request, response.headers)
363			if (response.code in (301, 302, 303, 307)
364			and response.headers.get('Location')
365			and task_fetch.get('allow_redirects', True)):
366			if max_redirects <= 0:
367			error = tornado.httpclient.HTTPError(
368			599, 'Maximum (%d) redirects followed' % task_fetch.get('max_redirects', 5),
369			response)
370			raise gen.Return(handle_error(error))
371			if response.code in (302, 303):
372			fetch['method'] = 'GET'
373			if 'body' in fetch:
374			del fetch['body']
375			fetch['url'] = urljoin(fetch['url'], response.headers['Location'])
376			fetch['request_timeout'] -= time.time() - start_time
377			if fetch['request_timeout'] < 0:
378			fetch['request_timeout'] = 0.1
379			fetch['connect_timeout'] = fetch['request_timeout']
380			max_redirects -= 1
381			continue
382
383			result = {}
384			result['orig_url'] = url
385			result['content'] = response.body or ''
386			result['headers'] = dict(response.headers)
387			result['status_code'] = response.code
388			result['url'] = response.effective_url or url
389			result['cookies'] = session.get_dict()
390			result['time'] = time.time() - start_time
391			result['save'] = task_fetch.get('save')
392			if response.error:
393			result['error'] = utils.text(response.error)
394			if 200 <= response.code < 300:
395			logger.info("[%d] %s:%s %s %.2fs", response.code,
396			task.get('project'), task.get('taskid'),
397			url, result['time'])
398			else:
399			logger.warning("[%d] %s:%s %s %.2fs", response.code,
400			task.get('project'), task.get('taskid'),
401			url, result['time'])
402
403			callback('http', task, result)
404			self.on_result('http', task, result)
405			raise gen.Return((task, result))
406
407			@gen.coroutine
408			def phantomjs_fetch(self, url, task, callback):
409			'''Fetch with phantomjs proxy'''
410			start_time = time.time()
411
412			self.on_fetch('phantomjs', task)
413			handle_error = lambda x: self.handle_error('phantomjs', url, task, start_time, callback, x)
414
415			# check phantomjs proxy is enabled
416			if not self.phantomjs_proxy:
417			result = {
418			"orig_url": url,
419			"content": "phantomjs is not enabled.",
420			"headers": {},
421			"status_code": 501,
422			"url": url,
423			"cookies": {},
424			"time": 0,
425			"save": task.get('fetch', {}).get('save')
426			}
427			logger.warning("[501] %s:%s %s 0s", task.get('project'), task.get('taskid'), url)
428			callback('http', task, result)
429			self.on_result('http', task, result)
430			raise gen.Return((task, result))
431
432			# setup request parameters
433			fetch = self.pack_tornado_request_parameters(url, task)
434			task_fetch = task.get('fetch', {})
435			for each in task_fetch:
436			if each not in fetch:
437			fetch[each] = task_fetch[each]
438
439			# robots.txt
440			if task_fetch.get('robots_txt', False):
441			user_agent = fetch['headers']['User-Agent']
442			can_fetch = yield self.can_fetch(user_agent, url)
443			if not can_fetch:
444			error = tornado.httpclient.HTTPError(403, 'Disallowed by robots.txt')
445			raise gen.Return(handle_error(error))
446
447			request_conf = {
448			'follow_redirects': False
449			}
450			if 'timeout' in task_fetch:
451			request_conf['connect_timeout'] = task_fetch['timeout']
452			request_conf['request_timeout'] = task_fetch['timeout'] + 1
453
454			session = cookies.RequestsCookieJar()
455			request = tornado.httpclient.HTTPRequest(url=fetch['url'])
456			if fetch.get('cookies'):
457			session.update(fetch['cookies'])
458			if 'Cookie' in request.headers:
459			del request.headers['Cookie']
460			fetch['headers']['Cookie'] = cookies.get_cookie_header(session, request)
461
462			# making requests
463			fetch['headers'] = dict(fetch['headers'])
464			try:
465			request = tornado.httpclient.HTTPRequest(
466			url="%s" % self.phantomjs_proxy, method="POST",
467			body=json.dumps(fetch), **request_conf)
468			except Exception as e:
469			raise gen.Return(handle_error(e))
470
471			try:
472			response = yield self.http_client.fetch(request)
473			except tornado.httpclient.HTTPError as e:
474			if e.response:
475			response = e.response
476
477			if not response.body:
478			raise gen.Return(handle_error(Exception('no response from phantomjs')))
479
480			try:
481			result = json.loads(utils.text(response.body))
482			if response.error:
483			result['error'] = utils.text(response.error)
484			except Exception as e:
485			raise gen.Return(handle_error(e))
486
487			if result.get('status_code', 200):
488			logger.info("[%d] %s:%s %s %.2fs", result['status_code'],
489			task.get('project'), task.get('taskid'), url, result['time'])
490			else:
491			logger.error("[%d] %s:%s %s, %r %.2fs", result['status_code'],
492			task.get('project'), task.get('taskid'),
493			url, result['content'], result['time'])
494
495			callback('phantomjs', task, result)
496			self.on_result('phantomjs', task, result)
497			raise gen.Return((task, result))
498
499			def run(self):
500			'''Run loop'''
501			logger.info("fetcher starting...")
502
503			def queue_loop():
504			if not self.outqueue or not self.inqueue:
505			return
506			while not self._quit:
507			try:
508			if self.outqueue.full():
509			break
510			if self.http_client.free_size() <= 0:
511			break
512			task = self.inqueue.get_nowait()
513			# FIXME: decode unicode_obj should used after data selete from
514			# database, it's used here for performance
515			task = utils.decode_unicode_obj(task)
516			self.fetch(task)
517			except queue.Empty:
518			break
519			except KeyboardInterrupt:
520			break
521			except Exception as e:
522			logger.exception(e)
523			break
524
525			tornado.ioloop.PeriodicCallback(queue_loop, 100, io_loop=self.ioloop).start()
526			tornado.ioloop.PeriodicCallback(self.clear_robot_txt_cache, 10000, io_loop=self.ioloop).start()
527			self._running = True
528
529			try:
530			self.ioloop.start()
531			except KeyboardInterrupt:
532			pass
533
534			logger.info("fetcher exiting...")
535
536			def quit(self):
537			'''Quit fetcher'''
538			self._running = False
539			self._quit = True
540			self.ioloop.stop()
541
542			def size(self):
543			return self.http_client.size()
544
545			def xmlrpc_run(self, port=24444, bind='127.0.0.1', logRequests=False):
546			'''Run xmlrpc server'''
547			import umsgpack
548			try:
549			from xmlrpc.server import SimpleXMLRPCServer
550			from xmlrpc.client import Binary
551			except ImportError:
552			from SimpleXMLRPCServer import SimpleXMLRPCServer
553			from xmlrpclib import Binary
554
555			server = SimpleXMLRPCServer((bind, port), allow_none=True, logRequests=logRequests)
556			server.register_introspection_functions()
557			server.register_multicall_functions()
558
559			server.register_function(self.quit, '_quit')
560			server.register_function(self.size)
561
562			def sync_fetch(task):
563			result = self.sync_fetch(task)
564			result = Binary(umsgpack.packb(result))
565			return result
566			server.register_function(sync_fetch, 'fetch')
567
568			def dump_counter(_time, _type):
569			return self._cnt[_time].to_dict(_type)
570			server.register_function(dump_counter, 'counter')
571
572			server.timeout = 0.5
573			while not self._quit:
574			server.handle_request()
575			server.server_close()
576
577			def on_fetch(self, type, task):
578			'''Called before task fetch'''
579			pass
580
581			def on_result(self, type, task, result):
582			'''Called after task fetched'''
583			status_code = result.get('status_code', 599)
584			if status_code != 599:
585			status_code = (int(status_code) / 100 * 100)
586			self._cnt['5m'].event((task.get('project'), status_code), +1)
587			self._cnt['1h'].event((task.get('project'), status_code), +1)
588
589			if type == 'http' and result.get('time'):
590			content_len = len(result.get('content', ''))
591			self._cnt['5m'].event((task.get('project'), 'speed'),
592			float(content_len) / result.get('time'))
593			self._cnt['1h'].event((task.get('project'), 'speed'),
594			float(content_len) / result.get('time'))
595			self._cnt['5m'].event((task.get('project'), 'time'), result.get('time'))
596			self._cnt['1h'].event((task.get('project'), 'time'), result.get('time'))
597

binux / pyspider

Push — master ( 1aa254...d5cc3f )

pyspider.fetcher.Fetcher.quit() A

Complexity

Size

Duplication

Duplication Side-by-Side

Filter issues like