美文网首页初见
MJ12bot蜘蛛爬取怎么屏蔽?

MJ12bot蜘蛛爬取怎么屏蔽?

作者: 星空期盼 | 来源:发表于2020-05-15 09:54 被阅读0次

这两天在检查蜘蛛爬取记录的时候,发现了MJ12bot这个蜘蛛。

要是随便爬爬我也就认了,关键是这个爬虫爬起来太疯狂。

几分钟几十分钟之内爬我几十上百次。

是可忍孰不可忍,我决定对它下手。

可是又不敢下手,生怕这是国内按个搜索引擎的爬虫,万一不小心把它给封了不久不太好了。

在网上查了下,这个蜘蛛是国外的一个站长工具,就类似于我们在国内使用的5118、站长之家之类的,主要针对的用户是国外。

那我还怕个鬼呀,说封就封。((本文由咸鱼成长记www.xianyublog.com原创,转载请注明出处。))

虽然第一次终究是因为没有找到wordpress模板中的robots.txt文件而告终,但是当我再次看到这个爬虫疯狂爬取的时候,更坚定了要封掉它的原因。

原来wordpress模板中的robots.txt文件是虚拟的,也就是我们能够访问,但是在网站根目录下是找不到的。

为了解决这个问题,找到了一款wordpress插件,叫 Robots.txt编辑器 ,直接在网站后台输入查找,在搜索得到的结果中安装启用。

然后在robots.txt文件里网站地图上方加这么一句话就行了,像上图那样。

具体的原理比较复杂,应该是位置越靠前的范围并被当做位置靠后的命令的基础,也就是包含与被包含的关系。这么写就行了,如果想要探究蜘蛛应该怎么写的话,搜一搜教程,应该会有很多。

禁止MJ12bot爬虫爬取以后,这个家伙隔一会就访问一下robots.txt,想看看是不是可以爬取了。

简直太天真了。

先封它一段时间,等以后有机会再把它从小黑屋里放出来吧。

而且,这种方法在我们屏蔽搜索引擎蜘蛛爬取动态链接的时候也很有帮助。

在对网站内容进行伪静态设置后,由于蜘蛛同时抓取了静态链接和动态链接,有可能对造成收录重复页面的情况,对网站SEO不利。

这个时候,我们就可以在robots.txt协议中加一些限制,禁止搜索引擎抓取动态链接,将重复收录的问题解决。

需要注意的一点是,如果在robots协议中添加了禁止抓取或者允许抓取的文件或范围的话,最好在百度站长平台里验证一下,这样就可以让百度蜘蛛知道什么事儿能干,什么事儿不能干了。

更多关于网站运营、抖音运营、网上赚钱教程的精彩内容,请百度 咸鱼成长记 进行查看,希望能对您有所帮助。

相关文章

  • MJ12bot蜘蛛爬取怎么屏蔽?

    这两天在检查蜘蛛爬取记录的时候,发现了MJ12bot这个蜘蛛。 要是随便爬爬我也就认了,关键是这个爬虫爬起来太疯狂...

  • Python学习八十二天:URL 字段的解析

    1.修改爬取的目标地址 我们知道如果想要爬取网站的数据需要在spiders文件中创建一个蜘蛛,创建后这个蜘蛛中会自...

  • seo-mask -- 为单页应用创建一个适合蜘蛛爬取的seo网

    seo-mask seo-mask是利用搜索引擎蜘蛛的爬取原理(蜘蛛只会爬取网页的内容,并不会关心解析网页里的cs...

  • scrapy对爬取的内容进行更新爬取

    在爬虫爬取的过程中,第一次爬完了,下次继续爬取,接着上次的爬取,怎么办,例如爬取小说,小说更新了,爬取更新的内容 ...

  • PythonSNs(2)---Requests库的爬取性能分析

    “任意”找个url,测试一下成功爬取100次网页的时间。(某些网站对于连续爬取页面将采取屏蔽IP的策略,所以,要避...

  • 屏蔽网站对selenium的检测

    使用mitmproy可以屏蔽对selenium的检测 在爬取淘宝拉取验证码的时候,可以使用mitmproxy中的f...

  • 2018-06-24

    scrapy items.py决定爬取哪些内容 spider决定怎么爬 settings.py决定谁去处理爬取的内...

  • Py爬虫2:分类及robots协议

    1、概述 爬虫,即网页爬虫,网页蜘蛛、网络机器人、网络蚂蚁-搜索引擎,网络爬虫的应用爬取特定网站、特定类别的数据爬...

  • 蜘蛛爬

    体育课上,我们正在选星期五参加区运动会的同学。趣味运动会共有三个项目,分别是跳绳,蜘蛛爬和套圈。 我已经报名了跳绳...

  • 最通俗的 Python3 网络爬虫入门

    网络爬虫简介 网络爬虫,也叫网络蜘蛛(WebSpider)。它根据网页地址(URL)爬取网页内容,而网页地址(UR...

网友评论

    本文标题:MJ12bot蜘蛛爬取怎么屏蔽?

    本文链接:https://www.haomeiwen.com/subject/tkvqohtx.html