SEO 网站优化推广 SEO 网站优化推广

如何让Robots.txt禁止蜘蛛抓取内页

作者:


最后更新于 | 最初发布于 | 分类:


在robots.txt的写法中有一些技巧,今天我也才注意到。

比如有一个论坛,不希望蜘蛛去抓取内容,希望之允许蜘蛛爬首页,这样要如何做呢?
原先我就是一个简单的句子,把所有的蜘蛛都屏蔽在外,什么页面也不允许。
User-agent: *
Disallow: /

在学习了Google的帮助文件后,了解到可以使用通配符来作模式匹配,以更好的达到目的。

就是用(*)做通配符,括号内的星号。
User-agent: *
Disallow: /*?

上面这个写法就可以,所有以域名开头,斜杠后跟一串字符,中间有问号之后再由一串字符的网址都不允许抓取。
因为这个论坛使用的是phpbb,没有使用什么特别的静态处理,所以各种网址中都含有问号,这样就都屏蔽了。而首页是没有问号的,就是一个域名,所以就会通过,可以抓取。

就是这样,有问题,查看Google网站管理员的帮助文件会找到正式的答案。

更多内容参见Google站长帮助


分享:
Share on Facebook Share on Twitter

搜索
关于
David Yin
研究(SEO)搜索引擎优化排名和(PPC)竞价排名技术,总结搜索营销学的各种方法和趋势。专业SEO优化研究,致力于搜索引擎优化技术的普及和推广。
David Yin
Email:seo[AT]g2soft.net
版权说明
如果想转载,而又不明白转载的条件,请看本站的详细版权说明
推荐
Dreamhost Hosting
使用优惠码“save252015”,节省更多,每月只要 $2.59。
标签云
热门标签