如何让Robots.txt禁止蜘蛛抓取内页

作者：David Yin

最后更新于 2018年7月16日 | 最初发布于 2009年5月12日 | 分类： Google排名技术

在robots.txt的写法中有一些技巧，今天我也才注意到。

比如有一个论坛，不希望蜘蛛去抓取内容，希望之允许蜘蛛爬首页，这样要如何做呢？
原先我就是一个简单的句子，把所有的蜘蛛都屏蔽在外，什么页面也不允许。

User-agent: *
Disallow: /

在学习了Google的帮助文件后，了解到可以使用通配符来作模式匹配，以更好的达到目的。

就是用（*）做通配符，括号内的星号。

User-agent: *
Disallow: /*?

上面这个写法就可以，所有以域名开头，斜杠后跟一串字符，中间有问号之后再由一串字符的网址都不允许抓取。
因为这个论坛使用的是phpbb，没有使用什么特别的静态处理，所以各种网址中都含有问号，这样就都屏蔽了。而首页是没有问号的，就是一个域名，所以就会通过，可以抓取。

就是这样，有问题，查看Google网站管理员的帮助文件会找到正式的答案。

作者: David Yin
原载: SEO 网站优化推广
版权所有。转载时必须以链接形式注明作者和原始出处及本声明。

Disallow: /*? 这个只是禁止不含？的URL，当然特殊情况下是禁止首页。还可以用
Allow: /$
Disallow: /
允许以 / 结尾的收录，再禁止所有。（不是 /*/$ ，所以只能是首页了）

各大SE都支持了。

Disallow: /*? 是禁止含？的URL

请发表评论

搜索

关于

研究(SEO)搜索引擎优化排名和(PPC)竞价排名技术，总结搜索营销学的各种方法和趋势。专业SEO优化研究，致力于搜索引擎优化技术的普及和推广。
– David Yin
Email：seo[AT]g2soft.net

版权说明

如果想转载，而又不明白转载的条件，请看本站的详细版权说明。

评论