美文网首页
爬取百度贴吧帖子

爬取百度贴吧帖子

作者: DamienXiong | 来源:发表于2017-05-28 21:19 被阅读0次

依然是参考教程 Python爬虫实战一之爬取百度贴吧帖子。作者崔庆才写了很多关于Python爬虫的文章,大家有兴趣的话可以去他的个人博客静觅学习。

源代码还是在我的GitHub主页上。

这次将爬取的数据写入了文本文件中,并用到了re模块中其他的匹配方式。

页面源代码.PNG

由于页面中包含了图片、超链接等一些我们不需要的信息,我们利用一个方法将这些信息剔除掉。

class Tool:
    removeImg = re.compile('<img.*?>')
    removeAddr = re.compile('<a.*?>|</a>')
    replaceBR = re.compile('<br>')
    removeExtraTag = re.compile('<.*?>')
    def replace(self, x):
        x = re.sub(self.removeImg,"",x)
        x = re.sub(self.removeAddr,"",x)
        x = re.sub(self.replaceBR,"\n",x)
        x = re.sub(self.removeExtraTag,"",x)
        return x.strip()

re.sub(pattern, repl, string)将字符串string中符合正则表达式pattern的部分替换为repl。

def getTitle(self, page):
    pattern = re.compile('<h3 class="core_title_txt.*?>(.*?)</h3>',re.S)
    result = re.search(pattern, page)
    if result:
        return result.group(1).strip()
    else:
        return None

re.search()方法会返回一个MatchObject的实例,该实例有一个group属性,group(0)返回整个匹配的字符串,group(1)返回第一个子串,group(2)返回第二个子串,以此类推。以下是Python2.7官方文档中的例子:

m = re.match(r"(\w+)  (\w+)", "Isaac Newton, physicist")
m.group(0) = 'Isaac Newton'
m.group(1) = 'Isaac'
m.group(2) = 'Newton'

utf-8是unicode的实现方式之一。字符串在Python内部的表示是unicode编码。pageCode = response.read().decode('utf-8')decode('utf-8')代表将utf-8编码的字符串转换成unicode编码,然后在Python中进行处理。contents.append(content.encode('utf-8'))表示将unicode编码转换成utf-8编码的字符串,然后才能写入txt文件。self.file = open(title + ".txt", "w+")中的w+参数表示打开一个文件用于读写,如果该文件已存在则将其覆盖,如果该文件不存在,创建新文件。

以前每次在百度贴吧上看帖子想要只看楼主都要登录,这次以后知道只要在网址后面加上?see_lz=1就可以直接看了。

相关文章

  • 爬取百度贴吧帖子

    依然是参考教程 Python爬虫实战一之爬取百度贴吧帖子。作者崔庆才写了很多关于Python爬虫的文章,大家有兴趣...

  • 可视化pyecharts库初体验

    爬取学校贴吧150个帖子,统计词频,简单数据分析 一、数据采集目标站点:百度贴吧 二、分词统计词频(jieba) ...

  • python爬虫-抓取百度贴吧帖子图片

    本爬虫可以爬取百度贴吧帖子中的图片,代码有待完善,欢迎大家指教!出处:https://github.com/jin...

  • 用Python爬取百度贴吧帖子

    一、介绍 前前后后拖了很久的一个爬虫纯原创我心中的NBA2014-2015赛季现役50大,一般的抓取信息还是蛮简单...

  • python爬虫之百度贴吧

    最近又尝试着爬取了百度贴吧,发现新增的几个反爬点,故来做下记录。 爬取百度贴吧大致流程为: 1 - 构造url,h...

  • Go基础编程---web编程

    简单web服务器代码 简单客户端代码 并发爬取百度贴吧的页面 并发爬虫爬取段子

  • 百度 贴吧爬虫教程

    这几天琢磨怎么从手机app爬取帖子数据。因为网上的很多教程年久失效了,所以自己花了好些功夫才弄明白百度贴吧的请求机...

  • 爬虫第二弹 代码操作

    代码操作一 爬取 贴吧战狼2 网页信息 运行结果: 代码操作二 百度图片 爬取美女图网页 结果展示 代...

  • 第四阶段 爬虫整理

    爬虫概述 爬虫案例 案例1:爬取百度贴吧数据 分析:GET方式爬取数据抓包:设计:实现: 案例2:抓妹子图 分析:...

  • Python爬虫利器之Beautiful Soup的用法

    大家好,上次我们实验了爬取了糗事百科的段子,那么这次我们来尝试一下爬取百度贴吧的帖子。与上一篇不同的是,这次我们需...

网友评论

      本文标题:爬取百度贴吧帖子

      本文链接:https://www.haomeiwen.com/subject/ciehfxtx.html