Scrapy 教程

作者: 踏云小子 | 来源:发表于2017-05-27 15:27 被阅读16次
  • 安装scrapy
    这里提示一个技巧,我们用douban的源,这样安装快些
pip install -i https://pypi.douban.com/simple virtualenv 
  • 用scrapy新建一个工程
scrapy startproject yourProject
  • 新建一个爬虫
scrapy genspider 爬虫名称 example.com(爬虫网址)
  • 这里我是用pycharm和virtualenv,开发的,我在pycharm设置下编译环境,一般在你环境下的bin目录下python2.7
image.png image.png
  • 由于pycharm没法直接调试scrapy,我们需要自己新建一个main.py来执行scrapy的命令行,新建的main.py代码如下
from scrapy.cmdline import execute

import sys
import os

sys.path.append(os.path.dirname(os.path.abspath(__file__))) #加入该模块
execute(["scrapy", "crawl", "jobbole"]) #相当于命令行 scrapy crawl jobbole(之前设置的爬虫名称)

这样就可以用断点进行调试了

  • 禁止robot协议,避免过滤了有爬虫协议的网站,导致爬的网站很少,😜
    修改settings.py,将
ROBOTSTXT_OBEY = False

相关文章

网友评论

    本文标题:Scrapy 教程

    本文链接:https://www.haomeiwen.com/subject/pexffxtx.html