1.Google蜘蛛名称
1)Googlebot:从Google的网站索引和新闻索引中抓取网页
2)Googlebot-Mobile针对Google的移动索引抓取网页
3)Googlebot-Image:针对Google的图片索引抓取网页
4)Mediapartners-Google:抓取网页确定AdSense的内容。只有在你的网站上展示AdSense广告的情况下,Google才会使用此漫游器来抓取您的网站。
5)Adsbot-Google:抓取网页来衡量AdWords目标网页的质量。只有在你使用GoogleAdWords为你的网站做广告的情况下,Google才会使用此漫游器。
2.百度蜘蛛名称:
Baiduspider首字母B大写,其余为小写
3.雅虎(Yahoo!)蜘蛛名称:
1)Yahoo!搜索蜘蛛名称:Yahoo!Slurp.
2)Yahoo!搜索引擎广告蜘蛛:Yahoo!-AdCrawler.用来抓取Yahoo!搜索引擎广告登陆页网页
4.有道蜘蛛名称:
YodaoBot
5.腾讯搜搜soso蜘蛛名称:
Sosospider首字母S大写,其余为小写
6.搜狗(sogou)蜘蛛名称:
sogouspider
7.Live蜘蛛名称
1)MSNBot:Mainwebcrawler()
2)MSNBot-Media:Imagesallothermedia(images.live.com)
3)MSNBot-NewsBlogs:Newsandblogs(search.live.com/news)
4)MSNBot-Products:Productsshopping(products.live.com)
5)MSNBot-Academic:Academicsearch(academic.live.com)
拓展阅读:搜索引擎蜘蛛抓取网页规则分析
一、爬虫框架
我们可以将网页当作是蜘蛛的晚餐,晚餐包括:
已下载的网页。已经被蜘蛛抓取到的网页内容,放在肚子里了。
已过期网页。蜘蛛每次抓取的网页很多,有一些已经坏在肚子里了。
待下载网页。看到了食物,蜘蛛就要去抓取它。
可知网页。还没被下载和发现,但蜘蛛能够感觉到他们,早晚会去抓取它。
不可知网页。互联网太大,很多页面蜘蛛无法发现,可能永远也找不到,这部份占比很高。
通过以上划分,我们可以很清楚的理解搜索引擎蜘蛛的工作及面临的挑战。大多数蜘蛛是按照这样的框架去爬行。但也不完全一定,凡事总有特殊,根据职能的'不同,蜘蛛系统存在一些差异。
二、爬虫类型
1、批量型蜘蛛。
这类蜘蛛有明确的抓取范围和目标,当蜘蛛完成目标和任务后就停止抓取。具体目标是什么?可能是抓取网页数量,网页大小,抓取时间等。
2、增量型蜘蛛
这类蜘蛛和批量型蜘蛛不同,他们会持续不断的抓取,对于抓取到的网页会定期抓取更新。因为互联网中的网页是随时处于更新状态中,增量型蜘蛛需要能够反映出这种更新。
3、垂直性蜘蛛
这种碰让蜘蛛只关注特定主题或者特定的行业网页。以健康网站为例子,这类专门的蜘蛛会只抓取健康相关主题,其它主题内容的网页则不抓取笑卜局。考验这只蜘蛛的难点是如何去更精准的识别内容所属于行业。目前来看,很多垂直类行业网站是需要这种蜘蛛去抓取的。
三、抓取策略
蜘蛛通过种子URL进行爬行拓展,列出大量待抓取URL。但是待抓取URL数量庞大,蜘蛛如何确定抓取顺序先后呢?蜘蛛抓取的策略有很多种,但最终目的是一个:优先抓取重要的网页。评价页面是否重要,蜘蛛会根据页面内容原创程度,链接权重分析等众多方式来进行计算。比较有代表性的抓取策略如下:
1、宽度优先策略
宽度优先是指:蜘蛛在抓取一个网页后,继续将该网页所包含的其它页面按顺序进行进一步抓取。这种思想看似简单,其实却很实用。因为大多数网页都弊孙是按优先级进行排序,重要的页面会优先在页面上进行推荐。
2、PageRank策略
PageRank是一种非常著名的链接分析方法,主要是用来衡量网页权重。如谷歌的PR,就是典型的PageRank算法。通过PageRank算法我们可以找出哪些页面是更重要的,然后蜘蛛优先去抓取这些重要性的页面。
3、大站优先策略
这个很容易理解,大网站通常拥有更多的`内容页面,并且质量也会更高。蜘蛛会先分析网站归类与属性。如果这个网站已经收录很多,或者在搜索引擎系统中权重很高,则优先考虑收录。
四、网页更新
互联网中的页面大多会保持更新,这样就要求蜘蛛所存储的页面也能及时更新,保持一致性。打个比喻:一个网页之前排名很好,如果页面已经被删,却还有排名,那体验就很不好。因此搜索引擎需要随时了解这些并更新页面,将最新的页面提供给用户。常用的网页更新策略在三种:历史参考策略,用户体验策略。聚类抽样策略。
1、历史参考策略
这是建立在一种假设基础上的更新策略。比如,若你的网页之前按规律一直更新,那搜索引擎也认为你的页面将来也会经常更新,蜘蛛也会按这个规律定期来网站进行抓取网页。这也是为什么点水一直强调网站内容需要有规律更新的原因。
2、用户体验策略
一般来说,用户只会查看搜索结果前三页的内容,后面的页面很少有人去看。用户体验策略就是搜索引擎根据用户的这个特点来进行更新。例如,一个网页可能发布时间较早,一段时间没更新,但是用户依然觉得有用,点击浏览它,那么搜索引擎先不去更新这些过时的网页也是可以的。这就是为什么搜索结果中,并不一定最新的页面排名一定靠前的原因。排名更多的是取决于这个页面的质量,而完全不是更新时间先后。
3、聚类抽样策略
上两种更新策略主要是参考了网页的历史信息。但存储大量历史信息对搜索引擎来说是一种负担,另外如果收录的是新网页则是没有历史信息可以参考的,那怎么办?聚类抽样策略是指:根据网页所展现出来的一些属性,来将很多相似网页进行归类,被归类的页面按照相同的规律去进行更新。
从了解搜索引擎蜘蛛工作原理的过程中,我们会知道:网站内容之间的相关性,网站与网页内容更新规律,网页上链接分布以及网站权重高低等因素都会影响到蜘蛛的抓取效率。知已知彼,让蜘蛛来得更猛烈些吧!
百氏谨度:Baiduspider
神马/歼御基一搜:YisouSpider
搜拆运狗:Sogou web spider
谷歌:Googlebot
360:360Spider或HaosouSpider
必应蜘蛛:bingbot
搜狗缺核举蜘蛛池是通过大量站点泛解析泛目录,站和站之间互链,从而形成一个搜狗池子,站点之间形成了一个搜狗蜘蛛可以得到共享,搜狗蜘蛛怎么抓取都有,这样可以加速搜狗收录。池子里的站氏好点权重越高对蜘蛛池中其它域名的贡献度越高,可以增加搜索引擎的分量,提高整站的流量,笔者通过搜狗蜘蛛池做出来的搜狗蜘蛛量伏碧都是百万起步的。
一个seo工作人员,特别是那些大型网站的seo人员来说,能独立分析网站日志是一种必不可少的技能,因为大型的网站栏目结构以及页面非常的繁杂,蜘蛛也是少不了会频繁访问,从蜘蛛给网站留下的一些痕迹上面能够掌控网站不少的信息,这对网站优化运营是一种非常必要的参考,今天肥猫科技就跟大家讲讲我们能从网站日志中获取哪些信息。
一、哪些搜索引擎来了我的网站抓取
从网站日志里面可以看出网站被哪些蜘蛛所抓取,每个搜索引擎都有自己的蜘蛛程序,各大搜索引擎的标头特征如下所示:
百度蜘蛛:spider
谷歌蜘蛛:Googlebot
360蜘蛛:360Spider
搜狗蜘蛛:sogouspider
二、网站目录的抓取数量
通过抓取总量的分析可以对比出网站哪个目录更受搜索引擎的关注,一般来说蜘蛛抓取越频繁的目录,site网站此目录的排名会相对靠前,我们也可通过目录的蜘蛛访问量来适当调整目录的结构,对于那些抓取压力较大但是不怎么重要的目录也可适当缩减链接入口,以免阻碍给其它重要目录的抓取。
三、网站页面的抓取数量
可以从中看出哪个页面蜘蛛是否抓取了一些没有被收录价值的页面,或者老是重复的抓取了这些页面等,那么同理要先采取措施予以频闭,要么是运用到nofollow标签,要么是robots文件等,这样就会降低因为搜索引擎抓取到大量相关性低或者质量度差的页面而影响到页面的权重传递这样的不利影响。
四、可以一览蜘蛛方面各网页的状态码
五、了解网站日志蜘蛛的来访时间
对网站日常日志分析总结中,可以很直观的看出每天具体是哪个时间段是蜘蛛访问的高峰时期,我们为了迎合搜索引擎,也可以相应调整网站的更新时间,争取在蜘蛛活跃度最高的肢旦答时间段更新文章,这样对自己网站迟启的收录历慧会有非常大的帮助,甚至还有可能达到秒收的效果!
肥猫科技认为,分析网站日志是一个非常有意义的技能,特别是网站建立的初期和运营遇到状况的时候,分析日志这个方面就更是尤为重要,当然再碰到信息量特别大的时候,手动操作效果不好,可以使用一些日志分析工具来查看。
搜搜引擎蜘蛛是一个自动抓取互联网上网页内容的程序,每个搜困轿索引擎都有自己的蜘蛛。
搜索引擎蜘蛛也叫搜索引擎爬虫、搜索引亩陆擎robot。
国内各大搜索引擎蜘蛛名称:
迅尺顷 百度:百度spider
谷歌:googlebot
搜狗:sogou spider
搜搜:Sosospider
360搜索:360Spider
有道:YodaoBot
雅虎:Yahoo Slurp
必应:msnbot
Msn:msnbot
以上是常见的搜索引擎蜘蛛(爬虫),如果你的网站不想让让某些蜘蛛抓取,那么可以通过robots.txt来限制爬虫的抓取。
友情声明:本文内容由用户自发奉献,本站文章量较多,不能保证每篇文章的绝对合法性,若您发觉违规/侵权内容,请尽快联系我们删除。