当前位置：首页 > SEO > 网站 > 正文内容

robots协议与网站建设_如何查看网站的robots协议

网站11702022-12-14 15:44:31

查看本文收录： 查看是否已被百度收录

百度

搜狗

360

文中目录表：

1、做网站建设SEO主要注意的几点
2、robots协议
3、robots是什么以及如何正确建立robots文件
4、请织梦高手看一下robots.txt文件对于网站抓取有影响吗
5、亚马逊网站robots协议解读
6、关于购物网站及网页小游戏的robots协议

做网站建设SEO主要注意的几点

robots协议与网站建设_如何查看网站的robots协议第1张

网站建设SEO要注意点非常多，主要注意以下几点，就可以算是很优秀的网站了。

一：思维，优化之道：提高用户体验非常重要。网站打开速度快，网站内容对用户要有价值。提高转化率，转化率指的是用户通过搜索引擎进入我们的网站，在我们网站进行的访问次数与总访问次数的比率。浏览了多少页面。

转化率是一个广义的概念，主要指用户行为，可以是用户登录、用户注册、用户订阅、用户下载、用户阅读、用户分享、等一些列用户行为，转化率就是通过搜索引擎优化把进来网站的访客转化成网站的老用户，可以理解为访客到用户的转换。达成咨询与沟通与销售的目的。

二：网站基础技术方面的优化

1、站点不能有死链接【增加网站信任度】

死链接指的失效的链接、错误链接，打不开网页的链接地址，服务器回应的就是打不开的页面或友好的404错误页面。避免死链接是做好站内优化很重要的环节，不管是对搜索引擎蜘蛛还是用户体验都至关重要。要快速发现我们的网站是否有死链接，可以通过百度站长工具来查询!

2.404页面设置【增加用户体验，减少跳失率】

网站设置404页面后，如果网站出现死链接，搜索引擎蜘蛛爬行这类网址得到“404”状态回应时，即知道该URL已经失效，便不再索引该网页，并向数据中心反馈将该URL表示的网页从索引数据库中删除。用户的体验和信任度的下降。如果404页面过多，就造成了大量的重复页面，很有可能被搜索引擎认为是作弊而遭到惩罚。设置404页面用户体验会更好。

2、做好内链锚文本优化

锚文本是通过文本关键词加入链接，达到点击这个关键词可以链接到你设置的页面，锚文本在seo优化中占有非常重要的作用的。锚文本关键词是提高关键词排名的重要因素。

3、主关键词和长尾关键词定位要精准

一个网站的主要关键词也是一个网站的核心，seo的优化是围绕着目标关键词来进行网站优化布局的，目标关键词需要与网站的产品内容相符合。长尾关键词是围绕核心关键词扩展的关键词，长尾关键词也会有很多用户会通过搜索引擎搜索。从而增加网站的流量和排名。

4、制作网站地图

网站地图可以使搜索引擎更容易抓取每个页面的内容，网站地图英文意思就是sitemap，网站地图有html格式的和xml格式的，主要是为了访客和搜索引擎蜘蛛访问而制定的，做网站地图主要的目的就是给搜索引擎看，让搜索引擎更加快速的浏览你的整个网站，很好的抓取出高质量的页面内容并收录进来。

5.做好网站301重定向和302重定向

301重定向也是网址重定向，当网站的域名发生变更后，搜索引擎只对新网址进行索引，采用301重定向之后，就可以把旧地址下原有的外部链接如数转移到新地址下。不同于 301重定向是永久性的跳转，302重定向是临时性的做跳转，所以它不会传递和转移权重到新的链接上面去的，所谓临时性的跳转，就是未来可能随时都会不跳转了，显示原来的链接，搜索引擎就是这么认为的，因此一个站点做了302跳转了，搜索引擎就会认为新的跳转url是临时性的，因此不会给过多权重。同时搜索引擎还会给予降权处理。

6.协议robots.txt文件

Robots协议的全称是“网络爬虫排除标准”(Robots Exclusion Protocol)，网站通过Robots协议告诉搜索引擎蜘蛛哪些页面可以抓取，哪些页面不能抓取。Robots协议用来告知搜索引擎哪些页面能被抓取，哪些页面不能被抓取;可以屏蔽一些网站中比较大的文件，如：图片，音乐，视频等，节省服务器带宽;可以屏蔽站点的一些死链接。方便搜索引擎抓取网站内容;设置网站地图连接，方便引导蜘蛛爬取页面。

7.H1标签

H1权重标签会影响页面权重或者相关性的html标签。权重标签常用于突出页面中相对重要的内容，从而提高页面相关性，增加页面权重。

8.nofollow标签

nofollow标签常用来指示搜索引擎不要去爬行，不传递权重。那么搜索引擎看到这个标签就可能减少或完全取消该超链接的投票权重，搜索引擎就不会去收录该超链接的页面，nofollow标签目的是尽量减少垃圾链接对搜索引擎的影响。

9.使用面包屑导航

面包屑导航(或称为面包屑路径)是一种显示在网站中的位置的一层层指引的导航。面包屑为用户提供一种追踪返回最初访问页面的方式，可以清晰的为客户指引进入网站内部也和首页之间的路线。最简化的方式是，面包屑就是水平排列的被大于号""隔开的文本链接;这个符号指示该页面相对于链接到它的页面的层次。

10.网站外部链接建设，有多少平台爆了你的网站信息，和关键词的链接指向。

robots协议

百度百科： robots协议也叫robots.txt （统一小写）是一种存放于网站根目录下的ASCII编码的文本文件，它通常告诉网络搜索引擎的漫游器（又称网络蜘蛛），此网站中的哪些内容是不应被搜索引擎的漫游器获取的，哪些是可以被漫游器获取的。因为一些系统中的URL是大小写敏感的，所以robots.txt的文件名应统一为小写。robots.txt应放置于网站的根目录下。如果想单独定义搜索引擎的漫游器访问子目录时的行为，那么可以将自定的设置合并到根目录下的robots.txt，或者使用robots元数据（Metadata，又称元数据）。

简单来说即：robots协议是一个君子协议，是网站所有者编写的，用来告诉搜索引擎该网站下的哪些内容可以爬取、收录，哪些内容不可以爬取和收录。

robots协议是通用共识，一般来说，大型的、有资质的搜索引擎都会遵守，robots协议是网站所有者不想要公开在网上的内容，是为了保障个人隐私，但是robots协议里规定的内容是可以获取的，只是大家默认遵守该协议，不获取协议内的内容。

robots协议是一个纯文本文件，通常是搜索引擎第一个爬取的文件，搜索引擎该文件了解该网站哪些是所有者不想被收录的内容，进行有选择的爬取和收录。

robots协议命名为robots.txt，放在网站的根目录下。

简单的robots协议如下：

其中 User-agent 代表要遵守该协议的搜索引擎，如果是通配符‘*’，代表所有搜索引擎都要遵守该协议。

Disallow 代表不允许搜索引擎访问的内容， /*?* 代表不允许搜索引擎访问所有带？的路径内容， / 代表不允许搜索引擎访问该网站所有内容。

实际环境中，网站所有者依据个人情况编写该文件，robots协议的编写会影响网站的收录情况和搜索引擎的效率。

robots是什么以及如何正确建立robots文件

robots是什么？

robots是一个协议，是建立在网站根目录下的一个以（robots.txt）结尾的文本文件，对搜索引擎蜘蛛的一种限制指令。是蜘蛛程序爬行网站第一个要访问抓取的页面，网站可以通过robots协议来告诉搜索引擎蜘蛛程序哪些页面可以抓取，哪些页面不可以抓取。

robots协议用来告诉搜索引擎哪些页面能被抓取，哪些页面是不能被抓取的，我们通常用 robots来屏蔽网站的一些垃圾页面、重复页面、死链接通、动态和静态多路径的同一页面。这么做的好处是可以节省一部分的服务器带宽，同时也方便蜘蛛程序更好的来抓取网站内容。其实robots就像一个指路标一样，引导着蜘蛛程序爬取网站页面。

robots符号介绍

首先我们先来认识一下书写robots时常用到的几个字符

User-agent:写义搜索引擎类型，这里的首字母要大写U，结尾冒号:后要加一个空格键，如 User-agent:* 不带空格，User-agent: * 带空格的。

* 这里的星号是一个通配符，匹配0或多个任意字符

$ 是一个结束符

Disallow:表示不希望被访问的目录或URL

Allow:表示希望被访问的目录或URL

robots的确定写法

写法一：禁止所有搜索引擎来抓取网站任何页面

User-agent: *（此处*号也可以写成禁止某个蜘蛛抓取，例如百度的 User-agent: Baiduspider）

Disallow: /

写法二：允许所有搜索引擎抓取网站任何页面

User-agent: *

Allow: /

当然如果允许的话也可以写个空的robots.txt放网站根目录

其它写法举例:

User-agent: * 代表所有搜索引擎

Disallow: /abc/ 表示禁止抓取abc目录下的目录

Disallow: /abc/*.html 表示禁止抓取此目录下所有以 .html为后缀的URL包含子目录

Disallow: /*？*禁止抓取所有带？问号的URL

Disallow: /*jpg$ 禁止所有以.jpg结尾格式的图片

Disallow: /ab 禁止抓取所有以ab 开头的文件

Disallow: /ab/a.html 禁止抓取ab文件夹下面的a.html 文件

Allow: /ABC/ 表示允许抓取abc目录下的目录

百度robots的写法

淘宝robots的写法

最后附上我自己网站robots的写法

好了就先举例这些，最后让提醒各位站长，慎重写robots协议，确保网站上线之前解决所有问题后，建立robots.txt文本到根目录。

85、Mr宋 94-80 作业

请织梦高手看一下robots.txt文件对于网站抓取有影响吗

您好:

robots是一种协议，也是一种规范，robots协议是网站与搜索引擎的协议，跟其他无关，robots告诉搜索引擎哪些页面可以抓取，哪些是不能抓取的，通过这种协议，搜索引擎蜘蛛就不会抓取网站的隐私信息，如果发现网站的隐私信息在搜索结果中能查到，那就说明搜索引擎蜘蛛抓取了这些不能抓取的信息，这违背了robots协议，网站所有者可以控告搜索引擎公司要求其赔偿。

Robots协议在网站服务器中以纯文本robots.txt的形式存在，作为一个网站管理员或者SEO人员该如何利用robots协议？网站管理员或网站建设人员可以利用robots规定哪些文件是搜索引擎蜘蛛可以访问抓取的，哪些是不能的，这可以很好的保护网站隐私信息。另外一个好处是可以在robots.txt文件中，直接写入网站地图sitemap的绝对路径，网站管理人员就不需要去各大搜索引擎手动提交sitemap，给网站管理人员省却了大部分工作。

robots可以清空在根目录直接删除就可以的。

建议删除可以建立一个空的robots可以这样写

User-agent: *

allow: /

允许搜索引擎抓取网站的任何内容

欢迎追问希望对你有所帮助

亚马逊网站robots协议解读

在分析亚马逊的robots协议之前我们先应该明确的是网络爬虫会带来的风险和问题，这样才能更好的理解亚马逊为什么禁止网络爬虫访问这些内容，如果访问的话会造成什么危害。

最简单的robots.txt只有两个规则：

User-agent：指定对哪些爬虫生效

Disallow：指定要屏蔽的网址

接下来以亚马逊的robots协议为例，分析其内容。

首先，先来分析亚马逊对于网络爬虫的限制。是否有有“特殊权限”的爬虫？

爬虫抓取时会声明自己的身份，这就是User-agent，就是http协议里的User-agent。robots.txt利用User-agent来区分各个引擎的爬虫。

*代表该内容下面Disallow的部分是禁止所有爬虫爬取的。因此robots协议中提及的“禁区”是针对于所有网络爬虫的，没有单独提及的爬虫。

与之对应来看，我们会发现淘宝的robots协议中明确禁止百度的网络爬虫爬取。而百度的一些网站是允许百度爬虫任意爬取的。

接下来分析亚马逊向网络爬虫屏蔽的内容有哪些。

Disallow 行列出的是要拦截的网页，以正斜线 (/) 开头，可以列出特定的网址或模式。要屏蔽整个网站，使用正斜线即可;要屏蔽某一目录以及其中的所有内容，在目录名后添加正斜线;要屏蔽某个具体的网页，就指出这个网页。

下面代表wishlist中允许访问的目录universal*、 vendor-button* 、get-button*

仔细观察禁止访问，发现了一些“看得懂”的内容：

其中禁止了网络爬虫模仿用户的行为进行诸如给商品评分、发送电子邮件、分享到twitter的行为，这是十分合理的。试想若是不禁止网络爬虫模仿用户的行为，不仅可能会给网站的性能造成影响，可能会出现爬虫造成的恶意评分，以亚马逊名义发送内容无法保证的邮件的事件的发生。这样的行为会对亚马逊的交易环境和形象产生影响。

同时禁止爬虫访问历史、物流信息的请求可以避免用户的交易信息泄露造成麻烦。

下面禁止访问的内容诸如登陆、退出账户，身份，订单地址、详细信息、历史、修改、记录，推荐浏览，浏览量，选择支付方式，选择物流，物流查询，购物车等。

其中的很多禁止爬取的都是已登录的账户才可以访问的内容，若是不禁止网络爬虫进行访问，则可能会出现网络爬虫模拟用户操作进行操作的现象发生，造成用户隐私泄露。

禁止爬虫爬取浏览量，浏览内容，推荐浏览等内容是亚马逊防止信息被爬取后被挪作他用牟利，比如“复制网站”的情况发生。

关于购物网站及网页小游戏的robots协议

不可爬取的页面中可显示的页面包括：购物车，登录，分类列表，个人账户页面，购物历史记录，官方信息，首页，心愿单，联系客服，联系我们，我的电子书，帮助。

亚马逊主要禁止抓取的内容是一些商业信息以及用户的个人信息，如今信息泄露现象越发普遍，作为一个线上购物平台保护用户的隐私显得尤为重要，这不仅是对用户个人财产安全的保护，也是对用户本身安全的保护。不过，同时，亚马逊也存在一些允许爬取的内容。

现在，如果在百度里搜索淘宝网，会看到的结果是“由于该网站的robots.txt文件存在限制指令，系统无法提供该页面的内容描述”。事实上，百度和淘宝都试图将中国网民培育出一种最符合自己利益用户的习惯：就是尽量让用户用自己的搜索引擎完成消费选择，如果自己能够控制用户端口，那么针对排名就可以做出多种付费推广，而淘宝如果对百度蜘蛛开放robots.txt，作为中国最大的搜索引擎，百度很可能会针对淘宝开发出相应的开放平台，蚕食淘宝的付费市场。如果强势品牌能够打造独立商城分流淘宝店铺的流量，一是可以避免身家性命全押在淘宝上需要通过竞价系统购买昂贵的首页广告（百度同理），二是可以加强品牌优势，培养用户主动搜索品牌的消费习惯。

不可爬取的页面中可显示的页面包括：游戏列表，最新好玩小游戏列表，首页，洛克王国，奥拉星，赛尔号，龙战士，造梦西游3之大闹天庭篇，爆枪英雄，勇士的信仰(正式版)，造梦西游4洪荒大劫篇，奥比岛，老版首页。

不可爬取的页面中可显示的页面包括：每日最新Flash游戏列表，游戏分类列表，游戏列表，游戏分类标签列表，游戏排行榜，首页。

不可爬取的页面中可显示的页面包括：女生游戏列表，首页，老版首页，三国战纪，战神盟，三国志，三国战，游戏列表。

大部分网页小游戏网站都禁止爬取首页，游戏列表，游戏分类列表以及部分小游戏网页。

购物网站大都将注意力放在用户信息保护以及网站流量上面，网页小游戏网站在关注网站流量的同时，也会着重保护团队的创作成果。

Robots协议是网站出于安全和隐私考虑，防止搜索引擎抓取敏感信息而设置的。Robots协议代表了一种契约精神，互联网企业只有遵守这一规则，才能保证网站及用户的隐私数据不被侵犯。Robots协议是维护互联网世界隐私安全的重要规则，是一种目前为止最有效的方式，用自律维持着网站与搜索引擎之间的平衡，让两者之间的利益不至于过度倾斜。