seo优化

机器人.txt文件,机器人协议,机器人.txt有什么用

seo优化 seo教程 2020-07-13 49浏览 0

在机器人.txt文件,机器人协议,机器人.txt机器人的作用是什么?robots实际上是指robots协议。机器人协议(也称为爬虫协议、机器人协议等)的全称是“机器人排除协议”。通过机器人协议,网站告诉搜索引擎哪些页面可以获取,哪些页面不能被抓取。

携带这些协议的文件是机器人.txt文件,那么机器人.txt文件的目的是什么,如何编写机器人协议,应该采取什么预防措施?笔者将在本文中详细介绍。

1机器人.txt文件的含义,机器人.txt如前所述,这个文本文件包含robots协议,它告诉所有搜索引擎网站的哪些页面可以被爬网,哪些页面不允许被爬网。这有两个含义:

1、有些页面信息不想或者不能让外界看到,单一的搜索引擎不知道这些情况,它还是会捕捉、显示的。如果我们通过设置机器人来加以限制,搜索引擎蜘蛛将放弃爬行,外部世界将无法通过搜索引擎了解这些秘密信息。

2、调整页面获取量。我们都知道,如果我们通过,每个站点的蜘蛛配额是有限的机器人.txt该文件禁止获取一些不重要的页面,因此保存了配额,并且这些重要页面获得了更多的机会。

2机器人.txt文件写入方法

机器人协议旨在允许或不允许。此外,还可以设置特定的搜索引擎。笔者认为,在正常情况下,没有必要对搜索引擎进行区分和统一设置。

1、禁止所有搜索引擎访问网站

用户代理:

禁止://

2、允许所有搜索引擎访问网站

用户代理:

允许://

这是最基本的用法。机器人协议的使用有很多技术。作者建议你仔细阅读机器人协议。

3机器人.txt文件相关注意事项

一位朋友说我的网站没有禁止爬网的内容,所以你不应该设置它机器人.txt这是一份文件。理论上是可行的。不过,笔者建议,即使所有机器人都向公众开放,也最好建立一个机器人档案,比如这个网站上的档案:http://www.yuanmaluntan.com/robots.txt.

PS:关注过本网站的朋友应该有个印象。作者说,直到17月6日,才有一只蜘蛛在爬行。几天前你为什么没有呢?问题出在机器人文件里!之前这个网站没有建立这个档案,连续三天都没有蜘蛛抓取,笔者反复查看也没有找到限定的地方,最后意识到可能是机器人的问题。设置机器人.txt在这些文件之后,蜘蛛能在同一天抓到它们。

4机器人.txt文件位置

位于网站的根目录中,链接URL显示如下:http://www.abc.com/robots.txt在哪儿www.abc.com网站这是网站的域名。

(5) robots文件生成

一位朋友提到是否有一种工具可以直接生成robots文件。笔者认为这是完全没有必要的。机器人文件应手动设置,以发挥其作用机器人.txt文件最重要的作用。

这篇文章只是关于机器人.txt文中做了一般性说明,更多机器人协议请参考百度百科全书资料https://baike.baidu.com/item/robots%E5%8D%8F%E8%AE%AE/2483797.

郑重声明:

本站大部分资源收集于网络以及网友投稿,本不保证资源的完整性以及安全性,请下载后自行测试。
本站资源仅供下载者研究交流为目的,仅供大家参考、学习,版权归资源原作者所有,请在下载后24小时之内自觉删除。
若作商业用途或用于其他商业活动,请您购买正版授权并合法使用,由于未及时购买正版发生的侵权行为,与本站无关。
如您是版权方,本站源码有侵犯到您的权益,请及时向源码论坛提出权利通知,将身份证明、权属证明、具体链接(URL)及及详细侵权情况证明发往yuanmaluntan#qq.com 收到您的邮件后,我们将及时处理!

发表评论
广告