如何让Robots.txt禁止蜘蛛抓取内页

| 2 Comments

在robots.txt的写法中有一些技巧,今天我也才注意到。

比如有一个论坛,不希望蜘蛛去抓取内容,希望之允许蜘蛛爬首页,这样要如何做呢?
原先我就是一个简单的句子,把所有的蜘蛛都屏蔽在外,什么页面也不允许。

User-agent: *
Disallow: /

在学习了Google的帮助文件后,了解到可以使用通配符来作模式匹配,以更好的达到目的。

Hosting in Chinese

就是用(*)做通配符,括号内的星号。

User-agent: *
Disallow: /*?

上面这个写法就可以,所有以域名开头,斜杠后跟一串字符,中间有问号之后再由一串字符的网址都不允许抓取。
因为这个论坛使用的是phpbb,没有使用什么特别的静态处理,所以各种网址中都含有问号,这样就都屏蔽了。而首页是没有问号的,就是一个域名,所以就会通过,可以抓取。

就是这样,有问题,查看Google网站管理员的帮助文件会找到正式的答案。

更多内容参见Google站长帮助



作者: David Yin
原载: SEO 网站优化推广
版权所有。转载时必须以链接形式注明作者和及本声明。
请订阅Feed来获得最新文章,从下面选择你喜欢的阅读器来订阅全文输出的SEO 网站优化推广。
blog comments powered by Disqus

2 Comments

Disallow: /*? 这个只是禁止不含?的URL,当然特殊情况下是禁止首页。还可以用
Allow: /$
Disallow: /
允许以 / 结尾的收录,再禁止所有。(不是 /*/$ ,所以只能是首页了)

各大SE都支持了。

Disallow: /*? 是禁止含?的URL

关于

David Yin
研究(SEO)搜索引擎优化排名和(PPC)竞价排名技术,总结搜索营销学的各种方法和趋势。
David Yin
Email:seo[AT]g2soft.net

Archives

Powered by Movable Type 5.12

关于本文

本文由 David Yin 发表于 May 12, 2009 11:17 AM

上一篇是链接的流行度是什么

下一篇是不玩SEO,玩游戏

首页查看最新内容,或者到归档页面查看所有内容。

订阅SEO 网站优化推广