robots.txt

robots.txt的名字,从字面上来看就是机器人文件,是给机器人看得,所谓机器人就是搜索引擎的蜘蛛。这个文件是一个纯文本的文本文档,采用的是Robots排除标准,这项标准是一个协议,有一小组命令组成。

robots.txt的用处:

告诉搜索引擎,网站的内容那些是可以索引的,哪些是不可以索引的。

注意:robots.txt仅仅只是一项指令,并不能强制阻止各种抓取工具对你的网站进行抓取。如果你的网站上有不希望被公开访问的内容,要采取其他方法来屏蔽(比如用密码,用加密等等)。

robots.txt存放的位置:

必须放在网站的根目录,文件名全部小写。

例子:

此处略去相关代码,请查看桌面标准版文章。

禁止Google的搜索蜘蛛访问抓取 /images/ 目录

从上面的这些例子里可以看到有三个重要的关键词:
User-agent: 【蜘蛛的名称,下面的这些指令都应用到这些蜘蛛】
Disallow: 【要屏蔽的网址】
Allow: 【不需要屏蔽的网址,一般是上面 Disallow 中的一个子集】

在网址部分,可以使用通配符以简化指令。通配符包括星号和$符号。
* 星号表示任意长度字符;
$ 表示结束,以特定方式结尾,比如 pdf$ 就表示以 pdf 结尾的网址。


以上为标准协议的指令。下面还有几个被多个搜索引擎支持的非标准扩展协议。

自动发现 sitemap 文件:
Sitemap: 【http://www.example.com/sitemap.xml】

各大搜索引擎的蜘蛛名称(User-agent:

Google vi
Google Web Search: Googlebot
Google News Search: Googlebot-News
Google Images Search: Googlebot-Image
Google Video Search: Googlebot-Video
Google Mobile (feature phone): Googlebot-Mobile
Google Smartphone: Googlebot
Google Mobile AdSense: Mdeiapartners-Google or Mediapartners
Google AdSense: Mediapartners-Google or Mediapartners
Google AdsBot (Landing page quality check): AdsBot-Google

Yahoo vi
Yahoo Search: Slurp
Yahoo Ad Monitoring: Monitoring


Microsoft vi
Bing Search: Bingbot
Bing Search (Old): MSNBot
Bing images and video search: MSNBot-Media
Bing Ads: AdldxBot
Bing snapshots: BingPreviewe

Baidu百度 vi
无线搜索: Baiduspider
图片搜索:Baiduspider-image
视频搜索:Baiduspider-video
新闻搜索:Baiduspider-news
百度搜藏:Baiduspider-favo
百度联盟:Baiduspider-cpro
商务搜索:Baiduspider-ads
网页以及其他搜索:Baiduspider

腾讯 搜狗
搜搜: Sosospider

360 好搜 vi
网页搜索: 360Spider
网页搜索: HaoSouSpider
图片搜索: 360Spider-Image
视频搜索: 360Spider-Video