回顾一个月的爬虫学习

作者: 苦逼李 | 来源:发表于2018-02-19 17:28 被阅读28次

学习爬虫凑凑合合也将近一个月了吧,从一开始的一无所知(除了Python)到现在可以爬取一些网站的数据,进步也是能够看到的。作为一个回顾,我在这里把爬虫学习的路径再理一遍,也供想要学习爬虫的伙伴参考参考。

首先学习爬虫没有知乎上大家所说的那样简单,或许我们都有一个误解,听到别人所谓的简单然后自己也以为如此,这实际上是很天真的(自个先打脸了( ̄ε(# ̄))。现在看来,最基本的爬虫包含(但不限于)下面几个知识块:

0.网页三剑客(HTML、JS、CSS)+ Python基础

1.HTTP协议(如何获取网页信息)

通过urllib、requests库可以简化请求网页的过程

2.筛选方式+解析库(用于从网页信息中筛选出需要的内容)

常用解析库包含BeautifulSoup,lxml等

筛选方式包含正则、Xpath、CSS Select等

3.格式化信息(如何把获取到的信息加工成便与查看或储存的格式)

需要掌握列表、字符串、字典等数据结构(包含属性和方法的熟练运用)

一些高级的Python特性,比如生成器等

4.储存信息

包含两大类:文件存储,数据库存储

文件存储又包含TXT文件、CSV文件、Json文件,需要熟悉这几种文件的读写方式

数据库存储包含关系型和非关系型,其复杂度高于文件存储,掌握更费时,具体有:

关系型:MySQL

非关系型:MonggoDB、Redis

回头来看,除了Python语言本身之外,上面的任一一块知识都是很“硬”的(Python也很重要),需要花上大把的时间才能熟练掌握。现在看来我是用了较短的时间,通过小项目熟悉了写爬虫需要用到的知识块,做到了心中有数,好处在于心里有底了,减少了茫然,但麻烦就是许多知识掌握的还比较薄弱。不过再怎么说,这也证明了项目指引学习的方式是一种有效的入门手段。

最后再感慨下,安排好各个知识的学习次序,遇到问题知道怎样解决而不是一下子懵逼,能够在纷繁的知识中做到有条不紊的渐进,这些都是作为一个CS-learner的必要但不容易习得的自我修养啊。学习之路还很漫长,还需努力(ง •_•)ง

相关文章

  • 回顾一个月的爬虫学习

    学习爬虫凑凑合合也将近一个月了吧,从一开始的一无所知(除了Python)到现在可以爬取一些网站的数据,进步也是能够...

  • 爬虫练手项目:获取豆瓣评分最高的电影并下载

    前期回顾 上篇博文我们学习了Python爬虫的四大库urllib ,requests ,BeautifulSoup...

  • tenliu的爬虫-大纲

    爬虫看似简单,但是深入学习还是挺有意思的。我学习爬虫也有段时间了,现在开这个专题,算是一个回顾。在这里列一个大纲:...

  • 苏宁百万级商品爬取 简述

    学习回顾 首先简单概述一下自己的学习计划,在爬虫这个模块的学习过程中。可以了解到很多的知识,例如 Xpath语法(...

  • 爬虫入门

    为什么要学习爬虫? Python做爬虫优势 关于Python网络爬虫,我们需要学习的有: 什么是爬虫? 网络爬虫(...

  • 资料

    Python爬虫系列(一)初期学习爬虫的拾遗与总结(11.4更) Python爬虫学习系列教程 Python爬虫学习手册

  • Python爬虫学习(十六)初窥Scrapy

    Python爬虫学习(一)概述Python爬虫学习(二)urllib基础使用Python爬虫学习(三)urllib...

  • 网络爬虫详解:原理、工作流程及爬取策略(二)

    在上篇文章中,企通查以通用网络爬虫和聚焦网络爬虫为主,对网络爬虫的实现原理进行了介绍(上篇内容回顾:网络爬虫详解:...

  • python爬虫之爬取掘金网首页存入mysql数据库

    博主是个前端小白,最近在学习爬虫,写个实战系列也是想记录自己学习的过程,以便后续回顾 欢迎大家一起交流学习、共同进...

  • Python 网络爬虫(一)

    网络爬虫的基本介绍 学习爬虫,我想主要从以下几个方面来切入 -爬虫的原理? -爬虫的作用? -爬虫的实现? -爬虫...

网友评论

本文标题:回顾一个月的爬虫学习

本文链接:https://www.haomeiwen.com/subject/swzitftx.html