取得 $_SERVER['HTTP_USER_AGENT'] 里面的客户信息,然后再检测的里面名称, 下面是一些常见的蜘蛛。
?php
$tmp = $_SERVER['HTTP_USER_AGENT'];
if(strpos($tmp, 'Googlebot') !== false){
echo '谷歌';
} else if(strpos($tmp, 'Baiduspider') 0){
echo '百度';
} else if(strpos($tmp, 'Yahoo! Slurp') !== false){
echo '雅虎';
} else if(strpos($tmp, 'msnbot') !== false){
echo 'Msn';
} else if(strpos($tmp, 'Sosospider') !== false){
echo '搜搜';
} else if(strpos($tmp, 'YodaoBot') !== false || strpos($tmp, 'OutfoxBot') !== false){
echo '有道';
} else if(strpos($tmp, 'Sogou web spider') !== false || strpos($tmp, 'Sogou Orion spider') !== false){
echo '搜狗';
} else if(strpos($tmp, 'fast-webcrawler') !== false){
echo 'Alltheweb';
} else if(strpos($tmp, 'Gaisbot') !== false){
echo 'Gais';
} else if(strpos($tmp, 'ia_archiver') !== false){
echo 'Alexa';
} else if(strpos($tmp, 'altavista') !== false){
echo 'AltaVista';
} else if(strpos($tmp, 'lycos_spider') !== false){
echo 'Lycos';
} else if(strpos($tmp, 'Inktomi slurp') !== false){
echo 'Inktomi';
}
?
User-agent:*Disallow:这个可以去掉。蜘蛛还是会访问你的站点的,但是,遵守协议的蜘蛛不会带走你的网页。至于蜘蛛访问了你的站点,收录没增加,也可能是有考察期之类的机制。
robots.txt是有用的,只是你得确认Sogou的UA才能准确屏蔽,在搜狗的站长平台其实有些,PPRPP网址导航写的robots.txt就是专门屏蔽Sogou蜘蛛的,这里给大家贴出来,直接复制就好,有效。
User-agent: Sogou web spider
Disallow: /
User-agent: Sogou inst spider
Disallow: /
User-agent: Sogou spider
Disallow: /
User-agent: Sogou wap spider
Disallow: /
User-agent: *
Disallow:
分为几种可能
第一是你站内基础优化做的好
第二是你网站内容质量比较高
第三用户体验做的好
第四也是最最重要的网站地图。
搜狗和百度,都是属于搜索引擎,为网民提供网上资源的检索服务。所谓的蜘蛛,其实就是这些搜索引擎为了能提供快速有效的检索服务,而派出去的在互联网上到处采集网站信息的机器人,它的作用有点类似于你用来上网的浏览器,也就是IE,只是蜘蛛不会像浏览器一样,把网站整的这么好看,它通常只是采集网站里面的核心内容,返回到百度和搜狗那边。
友情声明:本文内容由用户自发奉献,本站文章量较多,不能保证每篇文章的绝对合法性,若您发觉违规/侵权内容,请尽快联系我们删除。