美文网首页
Scrapy tutorial

Scrapy tutorial

作者: hobit | 来源:发表于2016-12-09 16:09 被阅读0次

网络中不乏优秀的scrapy教程,写这个系列更多的是为了让自己坚持写技术博客。这是scrapy官方教程,本系列就是建立在此基础上的。

Installation

对于python开发,作者喜欢在Linux下进行,开发环境是vm ware +  ubuntu16.04 ,在windows下开发总是磕磕碰碰的,要解决很多`不必要的问题`。command line: pip3 install scrapy 。 如果你用的是python2,则用pip install scrapy。关于安装不想说太多,如果遇到问题,请自行google。

查看scrapy版本

hobit@ubuntu:~$ scrapy version

Scrapy 1.2.2

哈哈,我有强迫症,我喜欢使用the lastest version. 安装完成了,有种跃跃欲试的感觉了,scrapy is a high-level python framework.对于这种高层框架,意味着很多底层的工作,scrapy 已经帮我们完成了,那么接下来我们就可以来尝试使用了。

Create a Project

hobit@ubuntu:~$ scrapy startproject myspider

小试牛刀

为了快速建立信心,我们可以先按官方教程在myspider/spiders目录下执行: vim quotes_spider.py(关于编辑器,随你喜欢),将以下代码address进入quotes_spider.py.

quotes_spider.py 

这段代码的解释我们放在后面进行。

Run our first spider

进入我们工程的最顶层目录,也就是/Path/to/myspider下执行以下命令:

scrapy crawl quotes

ok,执行完成后,进入spiders目录下,如果能开到新生成的两个html文件,那么我们的spider就跑成功了。

scrapy下载中间件

User Agent: 用户代理,是浏览器用来告诉web server 浏览器是谁的,然后web server根据浏览器的不同发送不同的现实内容。

XPATH

For the following HTML document:

ExampleSO

The xpath query/html/body//a/@href(or simply//a/@href) will return:

http://www.example.com

http://www.stackoverflow.com

To select a specific instance use/html/body//a[N]/@href,

$ /html/body//a[2]/@href

 http://www.stackoverflow.com

To test for strings contained in the attribute and return the attribute itself place the check on the tag not on the attribute:

 $ /html/body//a[contains(@href,'example')]/@href

 http://www.example.com

Mixing the two:

 $ /html/body//a[contains(@href,'com')][2]/@href

http://www.stackoverflow.com

Mongodb:

Mongodb 是NoSQL 型数据库(NoSQL就是Not Only SQL),是一种非关系型数据库,非常适用于客户服务器编程。

Mongo 概念

一个mongodb中可以建立多个数据库,mongodb的默认数据库为“db”,该数据库存储在data目录中。

相关文章

  • Scrapy at a glance

    Scrapy Tutorial Learning Notes Scrapy is an application f...

  • python爬虫之scrapy框架总结

    1.创建项目scrapy startproject projectname tutorial/scrapy.cfg...

  • scrapy爬取数据存入MySQL

    创建工程scrapy startproject tutorial 创建蜘蛛scrapy genspider cra...

  • Scrapy tutorial

    网络中不乏优秀的scrapy教程,写这个系列更多的是为了让自己坚持写技术博客。这是scrapy官方教程,本系列就是...

  • scrapy初试

    scrapy初试 创建项目打开cmd,在终端输入scrapy startproject tutorial,这里将在...

  • Scrapy简记

    摘自Scrapy 中文文档 一:入门 scrapy startproject tutorial创建新的爬虫项目 s...

  • Scrapy数据流转分析(二)

    这篇文章将简单介绍一下Scrapy的启动过程。Scrapy是如何启动的?在Scrapy的Tutorial中使用了这...

  • 爬虫框架scrapy入门

    新建项目,通过如下命令安装scrapy框架 创建scrapy项目 该命令将会创建包含下列内容的 tutorial ...

  • 使用scrapy爬取当当网商品信息

    参考文档:https://doc.scrapy.org/en/latest/intro/tutorial.html...

  • scrapy札记

    scrapy tutorial ##1.带参数的parse解析函数 Another common pattern ...

网友评论

      本文标题:Scrapy tutorial

      本文链接:https://www.haomeiwen.com/subject/zygemttx.html