Python第三课爬虫之网页的构成与解析

作者: 晟文刀 | 来源:发表于2016-07-16 14:49 被阅读40次

Python第三课爬虫之网页的构成与解析
python爬虫系列（3）- 网页数据解析（bs4、lxml、J
Python爬虫之解析网页！
Python学习
Python爬虫学习--爬虫基本架构
Python爬虫基础
Python实战爬虫系统学习笔记一：解析网页中的元素
Python网络数据采集之图像识别与文字处理
python网页解析器
Python 爬虫第一篇（urllib+regex）

网页的构成

HTML:<>，类似于房间中的“结构”，如客厅与卧室的区别；
CSS:< div class="">，类似于房间中的“样式”，如房间的装修，墙壁什么颜色，地板是什么颜色的；
JavaScript:<script >，类似于房间中的“功能”，如房间中的电视、电灯。
我们爬虫主要是爬HTML+CSS。

<div > < /div >

div代表网页区域的意思，代表在该区域能装什么东西；
例：
< div class="a">
< p>wow!< /p>
< /div >
引申：P 写入文字；li 写入列表；img插入图；h1-h6代表不同字号的字体；a href =""写入网页链接

实际上用div来区分，主要分三个部分：header、content和footer。
在header又分LOGO和导航；
在content又分图片、title和description；

Paste_Image.png

解析网页中的元素

解析库有（html.parser / lxml HTML / lxml XML / html5lib）

爬取网站的主要分两步：

第一步是服务器与本地的交换机制

平常我们浏览页面都是先请求服务器（Request），然后服务器再回应(Response)。
向服务器请求的Request行为实际上包含了不同的方法，而我们爬取网页只需要get和post的方法。代码举例：get/page_one.html http/1.1 host:www.sample.com
服务器向我们回应的Response行为，如果反馈结果是status_code:200说明反馈成功，如果是404或者403就失败了。

第二步是解析真实网页的方法

（案例网址：http://www.tripadvisor.cn/Attractions-g60763-Activities-New_York_City_New_York.html）

导入我们需要的库
粘贴我们需要爬取的网址
使用Request向服务器请求获取网页内容
使用BeautifulSoup解析网页
描述要爬取的元素位置
整理并筛选所选信息
反爬虫处理（伪造Cookie信息，构造想服务器提交的参数：headers）
构造函数
爬取连续多页的信息
模拟手机页面获取反爬取信息

网友评论

本文标题：Python第三课爬虫之网页的构成与解析

本文链接：https://www.haomeiwen.com/subject/kwasjttx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

Python第三课爬虫之网页的构成与解析

网页的构成

<div > < /div >

解析网页中的元素

爬取网站的主要分两步：

第一步是服务器与本地的交换机制

第二步是解析真实网页的方法

相关文章

Python第三课爬虫之网页的构成与解析

python爬虫系列（3）- 网页数据解析（bs4、lxml、J

Python爬虫之解析网页！

Python学习

Python爬虫学习--爬虫基本架构

Python爬虫基础

Python实战爬虫系统学习笔记一：解析网页中的元素

Python网络数据采集之图像识别与文字处理

python网页解析器

Python 爬虫第一篇（urllib+regex）

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

Python第三课 爬虫之网页的构成与解析

网页的构成

<div > < /div >

解析网页中的元素

爬取网站的主要分两步：

第一步是服务器与本地的交换机制

第二步是解析真实网页的方法

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

Python第三课爬虫之网页的构成与解析