scrapy 数据收集stats collection

作者: zenos876 | 来源:发表于2019-08-14 10:01 被阅读0次

scrapy 数据收集stats collection
scrapy信号(Signals)和数据收集(Stats Col
(十三) Stats Collection
scrapy 爬虫
2018-10-02容器、尝试写ArrayList-数组扩容、r
4、scrapy内置服务
shell脚本获取docker stats数据并添加时间
爬虫框架哪家强？
8个最高效的Python爬虫框架，你用过几个？
8个最高效的Python爬虫框架，你用过几个？

Scrapy提供了一种方便的工具，用于以键/值的形式收集统计数据，其中值通常是计数器。该工具称为统计收集器.
统计收集器为每个打开的spider保留一个统计表，当spider打开时它会自动打开，当spider关闭时它会关闭。

现为了统计404页面, 并收集404页面的数量和url

简单的例子

在scrapy的spider middleware httperror中有个参数handle_httpstatus_list, 这个列表主要用来判断哪些相应状态的response需要处理

先在spider中定义handle_httpstatus_list,并初始化failed_urls

class CnblogsSpider(scrapy.Spider):
    name = 'cnblogs'
    allowed_domains = ['news.cnblogs.com']
    start_urls = ['http://news.cnblogs.com/abc'] #404页面
    curr_page = 1

    handle_httpstatus_list = [404]

    def __init__(self, **kwargs):
        super().__init__(**kwargs)
        self.failed_urls = []

在parse函数中定义使用统计stats对象的方法

    def parse(self, response):
        if response.status == 404:
            self.failed_urls.append(response.url)
            self.crawler.stats.inc_value('failed_url')