搜索引擎爬去我们页面的工具叫做搜索引擎机器人,也生动的叫做“蜘蛛”
蜘蛛在爬去网站页面之前,会先去访问网站根目录下面的一个文件,就是robots.txt。这个文件其实就是给“蜘蛛”的规则,如果没有这个文件,蜘蛛会认为你的网站同意全部抓取网页。
Robots.txr文件是一个纯文本文件,可以告诉蜘蛛哪些页面可以爬取(收录),哪些页面不能爬取。
举个例子:建立一个名为robots.txt的文本文件,然后输入
User-agent: * 星号说明允许所有搜索引擎收录
Disallow: index.php? 表示不允许收录以index.php?前缀的链接,比如index.php?=865
Disallow: /tmp/ 表示不允许收录根目录下的tmp目录,包括目录下的文件,比如tmp/232.html
可以的,你把robots改回去,再到百度网站提交一下。然后再几天看看,快照会不会更新。
你的解决了没得?你的robots文件有一个地方冲突,还有就是你用的网站地图后缀名不是HTML的。那是谷歌蜘蛛抓取所用的文件。你换成HTML的文件在试试。
baidu不收录了,不要怪Disallow: /*page%3D1这句,找其它原因我写的还直接是Disallow: /*?*呢要么就是baidu以前收你很多带page%3D1的,限制之后,它一时找不到路做站不是立竿见影的事,眼光放到几年今后,它就算停收一个月又有什么鸟影响看小我怎么想了。。。。。。。。。。 查看原帖
友情声明:本文内容由用户自发奉献,本站文章量较多,不能保证每篇文章的绝对合法性,若您发觉违规/侵权内容,请尽快联系我们删除。