认识爬虫

作者: 靳晓阳s | 来源:发表于2017-10-29 21:57 被阅读37次

前言

我的爬虫笔记

经常看别人通过爬虫分析数据,很有意思,来了兴趣,就开始了爬虫之路。

爬虫

爬虫,即网络爬虫,大家可以理解为在网络上爬行的一直蜘蛛,互联网就比作一张大网,而爬虫便是在这张网上爬来爬去的蜘蛛咯,如果它遇到资源,那么它就会抓取下来。想抓取什么?这个由你来控制它咯。

爬虫的基本步骤

  1. 爬取
  2. 分析
  3. 存储

爬取

Requests 唯一的一个非转基因的 Python HTTP 库,人类可以安全享用。 Requests文档

  1. 获取常规的页面直接做简单使用 Requests 请求就可以了(爬取网易新闻),有时候需要加个 header 头(爬取豆瓣top250)
  2. 如果需要登陆,那就费点力气搞定下cookie,破解下验证码(知乎登陆)或者接入打码平台即可,麻烦的就自习研究下登陆时候的各种规则(百度账户登陆)
  3. 有的限制IP,那就更换IP(IP池
  4. 如果实在是没法分析,我们还有下下策,可以使用无界面的浏览器(认识phantomJs),可以模拟浏览器的操作(selenuim的使用

分析

  1. 分析页面就用 xpath 或者 css, 两个都很方便, 这两个搞不定的地方再写写正则好了。

  2. 有些数据是 ajax 请求后渲染到页面上的,那就直接找到这个接口地址去模拟请求就好了,然后再获取你想要的数据

存储

直接上数据库就好了,mongoDB,MySQL都可以

值得注意的一些问题

这几个爬虫的案例没有使用框架,所以有一些值得自己多注意的问题

  1. 请求的连接需要过滤,保持请求的url是可用
  2. 及时捕获异常,并记录原因到日志
  3. 异步处理

--EOF--

相关文章

  • 认识爬虫

    前言 我的爬虫笔记 经常看别人通过爬虫分析数据,很有意思,来了兴趣,就开始了爬虫之路。 爬虫 爬虫,即网络爬虫,大...

  • 认识爬虫

    图片来自风变科技 一, 什么是爬虫? 网络爬虫又名网络蜘蛛(web crawler→spider),是一种自动浏览...

  • 认识爬虫

    1,什么是爬虫? 通过Python程序,向网页抓取我们需要的东西。 2,爬虫的工作原理 一般我们搜索资料,浏览器是...

  • 爬虫——Web Scraper

    1.认识爬虫 2.利用Excel抓取数据 3.爬虫入门 4.爬虫进阶 5.反爬虫及高阶玩法 6.制作新爬虫步骤 7...

  • python爬虫(一)

    最近开始学python爬虫,在没认识爬虫之前,觉得爬虫很高大上,浅学之后觉得爬虫也不过如此,随着学习的深放,发现爬...

  • 01 认识爬虫

    01 认识爬虫 一、HTTP与HTTPS 1、应用框架 互联网的飞速发展是商业经济推动的。目前几乎所有的商业应用都...

  • 爬虫初认识

    关于爬虫 你是否在夜深人静的时候,想看一些让你更睡不着的图片 你是否在考试前夕或者面试前夕,想看一些具有针对性的题...

  • 一、认识爬虫

    1、HTTP 与 HTTPS 1.1应用架构 互联网的飞速发展是商业经济推动的。目前几乎所有的商业应用都是基于互联...

  • python爬虫从入门到放弃(一)

    认识爬虫 一,什么是爬虫? 网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),...

  • 「Python爬虫」最细致的讲解Python爬虫之Python爬

    一、认识爬虫 1.1、什么是爬虫? 1.2、Python爬虫架构 调度器:相当于一台电脑的CPU,主要负责调度UR...

网友评论

    本文标题:认识爬虫

    本文链接:https://www.haomeiwen.com/subject/dmdupxtx.html