搜索引擎robots协议配置方法

robots协议也叫robots.txt(统一小写)是一种存放于网站根目录下的ASCII编码的文本文件,它通常告诉网络搜索引擎的漫游器(又称网络蜘蛛),此网站中的哪些内容是不应被搜索引擎的网络蜘蛛获取的,哪些是可以被网络蜘蛛获取的。因为一些系统中的URL是大小写敏感的,所以robots.txt的文件名应统一为小写。robots.txt应放置于网站的根目录下。如果想单独定义搜索引擎的网络蜘蛛访问子目录时的行为,那么可以将自定的设置合并到根目录下的robots.txt。

搜索引擎robots协议配置方法 网站建设教程 第1张

常用robots协议指令

  • User-agent表示定义哪个搜索引擎,如User-agent:Baiduspider,定义百度蜘蛛。
  • Disallow表示禁止访问。
  • Allow表示运行访问。

通过以上三个命令,可以组合多种写法,允许哪个搜索引擎访问或禁止哪个页面。

 

其他robots协议指令

  • Sitemap 指令

虽然它是可选的,但许多robots.txt文件都包含一个sitemap 指令:

网站地图:http://example.com/sitemap.xml

这指定了站点地图文件的位置。站点地图是一种特殊格式的文件,列出了您要抓取的所有网址。如果您的站点具有XML网站地图,则最好包含此指令。

  • Crawl-delay 检索间隔指令

关于robots协议的总结:robots.txt必须位于根目录中,必须以用户代理行开头,不能阻止恶意爬虫,也不应该用于保密目录。使用此文件的许多困惑源于人们期望它比它更复杂的事实。