一. 辨别一个网站是否wordprss模板
1、查看图片或js、cs的路径是否有wp-content.
2、查看robots协议中有没有屏蔽wp-admin或wp-includes.
3、在网站的URL中输入wp-admin是否进入网站的登录页面.
二.辨别一个网站是否织梦cms模板.
1、在网站首页的URL中输入index.html或者栏目页输入index.html,看网站是否有变化,因为织梦的默认首页是index.html,虽然打开的首页没有这后缀名,但其实指做了调整.
2、查看网站的底部是否有织梦cms的版权,有些网站会把版权删除.
3、查看robots协议中是否有屏蔽/plus的.
三.辨别一个网站是否discuz论坛
1、查看网站的底部是否有discuz论坛的版权,或powered by discuz!有的网站标题本身就有powered by discuz!但也有网站会删除.
2、discuz论坛是伪静态,URL正常是forum-44-1.html或thread-2162-1-1.html结尾.
robots协议就是在ftp里,这个我觉得你还是跟做你网站的技术好好沟通。
不过一般要是网站没多大问题的,都是没有robots协议的,这个是后期网站出现一些404页面而再写的。
百度百科: robots协议也叫robots.txt (统一小写)是一种存放于网站根目录下的ASCII编码的文本文件,它通常告诉网络搜索引擎的漫游器(又称网络蜘蛛),此网站中的哪些内容是不应被搜索引擎的漫游器获取的,哪些是可以被漫游器获取的。因为一些系统中的URL是大小写敏感的,所以robots.txt的文件名应统一为小写。robots.txt应放置于网站的根目录下。如果想单独定义搜索引擎的漫游器访问子目录时的行为,那么可以将自定的设置合并到根目录下的robots.txt,或者使用robots元数据(Metadata,又称元数据)。
简单来说即:robots协议是一个君子协议,是网站所有者编写的,用来告诉搜索引擎该网站下的哪些内容可以爬取、收录,哪些内容不可以爬取和收录。
robots协议是通用共识,一般来说,大型的、有资质的搜索引擎都会遵守,robots协议是网站所有者不想要公开在网上的内容,是为了保障个人隐私,但是robots协议里规定的内容是可以获取的,只是大家默认遵守该协议,不获取协议内的内容。
robots协议是一个纯文本文件,通常是搜索引擎第一个爬取的文件,搜索引擎该文件了解该网站哪些是所有者不想被收录的内容,进行有选择的爬取和收录。
robots协议命名为robots.txt,放在网站的根目录下。
简单的robots协议如下:
其中 User-agent 代表要遵守该协议的搜索引擎,如果是通配符‘*’,代表所有搜索引擎都要遵守该协议。
Disallow 代表不允许搜索引擎访问的内容, /*?* 代表不允许搜索引擎访问所有带?的路径内容, / 代表不允许搜索引擎访问该网站所有内容。
实际环境中,网站所有者依据个人情况编写该文件,robots协议的编写会影响网站的收录情况和搜索引擎的效率。
不可爬取的页面中可显示的页面包括:购物车,登录,分类列表,个人账户页面,购物历史记录,官方信息,首页,心愿单,联系客服,联系我们,我的电子书,帮助。
亚马逊主要禁止抓取的内容是一些商业信息以及用户的个人信息,如今信息泄露现象越发普遍,作为一个线上购物平台保护用户的隐私显得尤为重要,这不仅是对用户个人财产安全的保护,也是对用户本身安全的保护。不过,同时,亚马逊也存在一些允许爬取的内容。
现在,如果在百度里搜索淘宝网,会看到的结果是“由于该网站的robots.txt文件存在限制指令,系统无法提供该页面的内容描述”。事实上,百度和淘宝都试图将中国网民培育出一种最符合自己利益用户的习惯:就是尽量让用户用自己的搜索引擎完成消费选择,如果自己能够控制用户端口,那么针对排名就可以做出多种付费推广,而淘宝如果对百度蜘蛛开放robots.txt,作为中国最大的搜索引擎,百度很可能会针对淘宝开发出相应的开放平台,蚕食淘宝的付费市场。如果强势品牌能够打造独立商城分流淘宝店铺的流量,一是可以避免身家性命全押在淘宝上需要通过竞价系统购买昂贵的首页广告(百度同理),二是可以加强品牌优势,培养用户主动搜索品牌的消费习惯。
不可爬取的页面中可显示的页面包括:游戏列表,最新好玩小游戏列表,首页,洛克王国,奥拉星,赛尔号,龙战士,造梦西游3之大闹天庭篇,爆枪英雄,勇士的信仰(正式版),造梦西游4洪荒大劫篇,奥比岛,老版首页。
不可爬取的页面中可显示的页面包括:每日最新Flash游戏列表,游戏分类列表,游戏列表,游戏分类标签列表,游戏排行榜,首页。
不可爬取的页面中可显示的页面包括:女生游戏列表,首页,老版首页,三国战纪,战神盟,三国志,三国战,游戏列表。
大部分网页小游戏网站都禁止爬取首页,游戏列表,游戏分类列表以及部分小游戏网页。
购物网站大都将注意力放在用户信息保护以及网站流量上面,网页小游戏网站在关注网站流量的同时,也会着重保护团队的创作成果。
Robots协议是网站出于安全和隐私考虑,防止搜索引擎抓取敏感信息而设置的。Robots协议代表了一种契约精神,互联网企业只有遵守这一规则,才能保证网站及用户的隐私数据不被侵犯。Robots协议是维护互联网世界隐私安全的重要规则,是一种目前为止最有效的方式,用自律维持着网站与搜索引擎之间的平衡,让两者之间的利益不至于过度倾斜。
根据协议,网站管理员可以在网站域名的根目录下放一个robots.txt 文本文件,里面可以指定不同的网络爬虫能访问的页面和禁止访问的页面,指定的页面由 正则表达式 表示。网络爬虫在采集这个网站之前,首先获取到这个文件,然后解析到其中的规则,然后根据规则来采集网站的数据。
注意,这个协议的存在更多的是需要网络爬虫去遵守,而起不到防止爬虫的功能。
互联网上的网页是通过超级链接互相关联起来的,从而形成了网页的网状结构。爬虫的工作方式就像蜘蛛在网上沿着链接爬来爬去,最基本的 流程 可以简化如下:
了解了上面的流程就能发现:对爬虫来说网站非常 被动 ,只有老老实实被抓取的份。
所以,对于网站的管理者来说,就存在这样的需求:
某些路径下是个人隐私或者网站管理使用,不想被搜索引擎抓取,比如说 日本爱情动作片 ;
不喜欢某个搜索引擎,不愿意被他抓取,最有名的就是之前 淘宝不希望被百度抓取 ;
小网站使用的是公用的虚拟主机,流量有限或者需要付费,希望搜索引擎抓的温柔点;
某些网页是动态生成的,没有直接的链接指向,但是希望内容被搜索引擎抓取和索引。
网站内容的所有者是网站管理员,搜索引擎应该尊重所有者的意愿,为了满足以上等等,就需要提供一种网站和爬虫进行沟通的途径,给网站管理员表达自己意愿的机会。有需求就有供应, robots 协议 就此诞生。
京东的Robots协议
百度的Robots协议
上面, *代表所有,/代表根目录
既然网络爬虫在爬取一个网站之前,要先获取到这个文件,然后解析到其中的规则,那么,Robots就必须要有一套通用的语法规则。
最简单的robots.txt只有两条规则:
User-agent:指定对哪些爬虫生效
Disallow:指定要屏蔽的网址
先说User-agent,爬虫抓取时会声明自己的身份,这就是User-agent,没错,就是http协议里的User-agent。robots.txt利用User-agent来区分各个引擎的爬虫,比如说google网页搜索爬虫的User-agent为Googlebot。
可能有读者要问了,我怎么知道爬虫的User-agent是什么?你还可以查 相关搜索引擎的资料 得到官方的数据,比如说百度的爬虫列表是这样的:
Disallow 行列出的是要拦截的网页,以正斜线 (/) 开头,可以列出特定的网址或模式。要屏蔽整个网站,使用正斜线即可;要屏蔽某一目录以及其中的所有内容,在目录名后添加正斜线;要屏蔽某个具体的网页,就指出这个网页。
下面介绍一些实例:
或者也可以建一个空文件 "/robots.txt" file。
我们再来结合两个真实的范例来学习一下。先看这个例子:
这个是淘宝网的Robots协议内容,相信你已经看出来了,淘宝网禁止百度的爬虫访问。
再来看一个例子:
这个稍微复杂点,京东有2个目录不希望所有的爬虫来抓。同时,京东完全屏蔽了一淘网的蜘蛛(EtaoSpider是一淘网的蜘蛛)。
sitemap
爬虫会通过网页内部的链接发现新的网页。但是如果没有链接指向的网页怎么办?或者用户输入条件生成的动态网页怎么办?能否让网站管理员通知搜索引擎他们网站上有哪些可供抓取的网页?这就是 sitemap , 最简单的 Sitepmap 形式就是 XML 文件 ,在其中列出网站中的网址以及关于每个网址的其他数据(上次更新的时间、更改的频率以及相对于网站上其他网址的重要程度等等),利用这些信息搜索引擎可以更加智能地抓取网站内容。
新的问题 来了,爬虫怎么知道这个网站有没有提供sitemap文件,或者说网站管理员生成了sitemap,(可能是多个文件),爬虫怎么知道放在哪里呢?
由于robots.txt的位置是固定的,于是大家就想到了把sitemap的位置信息放在robots.txt里。这就成为robots.txt里的新成员了。
节选一段google robots.txt:
Sitemap: ...
Sitemap: ...
插一句,考虑到一个网站的网页众多,sitemap人工维护不太靠谱,google提供了工具可以自动生成sitemap。
meta tag
其实严格来说这部分内容不属于robots.txt。
robots.txt的初衷是为了让网站管理员管理可以出现在搜索引擎里的网站内容。但是,即使使用 robots.txt文件让爬虫无法抓取这些内容,搜索引擎也可以通过其他方式找到这些网页并将它添加到索引中。例如,其他网站仍可能链接到该网站。因此,网页网址及其他公开的信息(如指向相关网站的链接中的定位文字或开放式目录管理系统中的标题)有可能会出现在引擎的搜索结果中。如果想彻底对搜索引擎 隐身 那咋整呢?答案是:元标记,即meta tag。
比如要完全阻止一个网页的内容列在搜索引擎索引中(即使有其他网站链接到此网页),可使用 noindex 元标记。只要搜索引擎查看该网页,便会看到 noindex 元标记并阻止该网页显示在索引中,这里注意 noindex 元标记提供的是一种逐页控制对网站的访问的方式。
要防止所有搜索引擎将网站中的网页编入索引,在网页的部分添加:
这里的 name取值 可以设置为某个搜索引擎的 User-agent 从而指定屏蔽某一个搜索引擎。
除了noindex外,还有其他元标记,比如说nofollow,禁止爬虫从此页面中跟踪链接。详细信息可以参考Google支持的元标记,这里提一句:noindex和nofollow在 HTML4.01规范 里有描述,但是其他tag的在不同引擎支持到什么程度各不相同,还请读者自行查阅各个引擎的说明文档。
Crawl-delay
除了控制哪些可以抓哪些不能抓之外,robots.txt还可以用来控制爬虫抓取的速率。如何做到的呢?通过设置爬虫在两次抓取之间等待的秒数。这种操作可以进行缓解服务器压力。
表示本次抓取后下一次抓取前需要等待5秒。
注意 : google已经不支持这种方式了,在webmaster tools里提供了一个功能可以更直观的控制抓取速率。
这里插一句题外话,几年前曾经有一段时间robots.txt还支持复杂的参数:Visit-time,只有在visit-time指定的时间段里,爬虫才可以访问;Request-rate:用来限制URL的读取频率,用于控制不同的时间段采用不同的抓取速率。后来估计支持的人太少,就渐渐的废掉了,目前google和baidu都已经不支持这个规则了,其他小的引擎公司貌似 从来都 没有支持过。
网络爬虫:
自动或人工识别robots.txt,再进行内容爬取
约束性:
Robots协议是建议但非约束性,网络爬虫可以不遵守,但存在法律风险。
原则:类人行为可以不参考Robots协议。
Robots协议不是什么技术壁垒,而只是一种互相尊重的协议,好比私家花园的门口挂着“闲人免进”,尊重者绕道而行,不尊重者依然可以推门而入。目前,Robots协议在实际使用中,还存在一些问题。
缓存
robots.txt本身也是需要被抓取的,出于效率考虑,一般爬虫不会每次抓取网站网页前都抓一下robots.txt,加上robots.txt更新不频繁,内容需要解析。通常爬虫的做法是先抓取一次,解析后缓存下来,而且是相当长的时间。假设网站管理员更新了robots.txt,修改了某些规则,但是对爬虫来说并不会立刻生效,只有当爬虫下次抓取robots.txt之后才能看到最新的内容。尴尬的是,爬虫下次抓取robots.txt的时间并不是由网站管理员控制的。当然,有些搜索引擎提供了web工具可以让网站管理员通知搜索引擎那个url发生了变化,建议重新抓取。注意,此处是建议,即使你通知了搜索引擎,搜索引擎何时抓取仍然是不确定的,只是比完全不通知要好点。至于好多少,那就看搜索引擎的良心和技术能力了。
ignore
不知是无意还是有意,反正有些爬虫不太遵守或者完全忽略robots.txt,不排除开发人员能力的问题,比如说根本不知道robots.txt。另外,本身robots.txt不是一种强制措施,如果网站有数据需要保密,必需采取技术措施,比如说:用户验证,加密,ip拦截,访问频率控制等。
恶意爬虫
在互联网世界中,每天都有不计其数的爬虫在日夜不息地爬取数据,其中恶意爬虫的数量甚至高于非恶意爬虫。遵守Robots协议的爬虫才是好爬虫,但是并不是每个爬虫都会主动遵守Robots协议。
恶意爬虫可以带来很多潜在威胁,比如电商网站的商品信息被爬取可能会被竞争对手利用,过多的爬虫还会占用带宽资源、甚至导致网站宕机。
你学会了吗~~~?
点个赞吧!!!
友情声明:本文内容由用户自发奉献,本站文章量较多,不能保证每篇文章的绝对合法性,若您发觉违规/侵权内容,请尽快联系我们删除。