这是谁家的蜘蛛

| 7 Comments

做搜索不是这样做的,怎么可以伪装蜘蛛成普通用户来大量抓取网页呢?
正规的蜘蛛应该告诉服务器,它是一只什么蜘蛛,来自何方,是来执行抓取页面的任务的。
这群蜘蛛却不这么做,网上搜索到说是腾讯QQ的。


不管怎样,屏蔽如下的IP
58.61.164.38
58.61.164.39
58.61.164.40
58.61.164.41
58.61.164.42

据说还有其它的IP,等我发现困扰,再屏蔽不迟。

Hosting in Chinese


作者: David Yin
原载: SEO 网站优化推广
版权所有。转载时必须以链接形式注明作者和及本声明。
请点击鲜果推荐,让更多的读者受益:
请订阅Feed来获得最新文章,从下面选择你喜欢的阅读器来订阅全文输出的SEO 网站优化推广。

7 Comments

我想应该是这样的:
Google或者百度为了防止网站程序通过[判断是否是蜘蛛],给用户和搜索引擎返回不同的页面。于是偶尔伪装一下正常用户来抓网站页面。若发现伪装后抓取的同一个页面与没有伪装时抓取的页面不一致,就认为网站作弊。

这些蜘蛛应该不是,它同时抓取了很多页面。如果是Google或者百度,我想它们不需要抓取这么多的页面,要比较只需要抓取少量的页面就可以了,它还抓取图片,所以我的判断不是常规的搜索引擎蜘蛛,而是spam蜘蛛。

可是,有蜘蛛爬过,难道不好么?

这个世界上有一种东西叫做spam,它会装扮成各种样子,有时就是像蜘蛛。
还有一种东西叫做bad behavior spider,都不是好东西。

文章能够被 David Yin 引用一次算得上三生有幸了!

言重了,互相学习,互相切磋。

Leave a comment

Name和email是必填项

关于

David Yin
研究(SEO)搜索引擎优化排名和(PPC)竞价排名技术,总结搜索营销学的各种方法和趋势。
David Yin
Email:seo[AT]g2soft.net

Archives

OpenID accepted here Learn more about OpenID
Powered by Movable Type 5.02

关于本文

本文由 David Yin 发表于 October 11, 2008 10:17 PM

上一篇是Dreamhost 新闻 2008-09

下一篇是网站优化后对网站的益处

首页查看最新内容,或者到归档页面查看所有内容。

订阅SEO 网站优化推广