这是谁家的蜘蛛
作者:
最后更新于 | 最初发布于 | 分类: 网站开发技术
做搜索不是这样做的,怎么可以伪装蜘蛛成普通用户来大量抓取网页呢?
正规的蜘蛛应该告诉服务器,它是一只什么蜘蛛,来自何方,是来执行抓取页面的任务的。
这群蜘蛛却不这么做,网上搜索到说是腾讯QQ的。
不管怎样,屏蔽如下的IP
58.61.164.38
58.61.164.39
58.61.164.40
58.61.164.41
58.61.164.42
据说还有其它的IP,等我发现困扰,再屏蔽不迟。
作者:
最后更新于 | 最初发布于 | 分类: 网站开发技术
做搜索不是这样做的,怎么可以伪装蜘蛛成普通用户来大量抓取网页呢?
正规的蜘蛛应该告诉服务器,它是一只什么蜘蛛,来自何方,是来执行抓取页面的任务的。
这群蜘蛛却不这么做,网上搜索到说是腾讯QQ的。
不管怎样,屏蔽如下的IP
58.61.164.38
58.61.164.39
58.61.164.40
58.61.164.41
58.61.164.42
据说还有其它的IP,等我发现困扰,再屏蔽不迟。
xiaobao
我想应该是这样的:
Google或者百度为了防止网站程序通过[判断是否是蜘蛛],给用户和搜索引擎返回不同的页面。于是偶尔伪装一下正常用户来抓网站页面。若发现伪装后抓取的同一个页面与没有伪装时抓取的页面不一致,就认为网站作弊。
David Yin
这些蜘蛛应该不是,它同时抓取了很多页面。如果是Google或者百度,我想它们不需要抓取这么多的页面,要比较只需要抓取少量的页面就可以了,它还抓取图片,所以我的判断不是常规的搜索引擎蜘蛛,而是spam蜘蛛。
舞羽飘渺
可是,有蜘蛛爬过,难道不好么?
David Yin
这个世界上有一种东西叫做spam,它会装扮成各种样子,有时就是像蜘蛛。
还有一种东西叫做bad behavior spider,都不是好东西。
cnzzr
文章能够被 David Yin 引用一次算得上三生有幸了!
David Yin
言重了,互相学习,互相切磋。
zhongtiekuaiyun
这个ip怎么回车