美文网首页
爬虫小技巧

爬虫小技巧

作者: mr_酱 | 来源:发表于2018-06-12 22:15 被阅读43次
未标题-1.jpg

估算网站大小

估算网站的大小有个简便方法就是检查google、baidu、360搜索等爬虫的结果,因为很有可能这些搜索引擎已经爬取过目标网站,因此他们的收录了目标网站的页面数据。从而估算出目标网站的数据量。
示例:
在百度搜索中输入site:jianshu.com,搜索结果如下:

baidu.png
在360搜索中输入site:jianshu.com,搜索结果如下:
360so.png
对比可以发现截至当前时间简书的页面数量大概在2200W以上

在搜索的域名后面加URL路径,可以对结果进行过滤。

相关文章

网友评论

      本文标题:爬虫小技巧

      本文链接:https://www.haomeiwen.com/subject/yntdeftx.html