reCAPTCHA防垃圾的同时还给OCR贡献一份力量

如之前所说的,本站的在线工具采用了reCAPTCHA来防止spam。那么这个reCAPTCHA到底如何呢?让我用kxn的一段介绍来开始:

reCAPTCHA 是卡内基梅隆大学的一帮人搞出来的,它的技术并没有什么先进之处,但是创意有点意思。世界上面有很多将图书电子化的计划,基本是把书籍扫描了以后用 OCR 软件识别。有些情况下面 OCR 软件自己觉得某些词的识别结果并不是非常有把握。通常情况下面是通过雇佣劳力来肉眼校对。reCAPTCHA 项目认为这个工作不妨交给全世界大量填写认证码的人来完成。

一般图形认证码系统都是只生成一个单词的,reCAPTCHA 生成的图片里面有两个单词,其中一个是机器生成的,有正确结果的单词,另一个则是扫描出来的有问题的单词,这个词没有正确结果。如果用户提交上来的结果里面机器生成的那个是对的,那么系统就认为另外一个也很有可能是对的。一幅扫描图片展示给多个用户如果结果都是一样的,他就将这个结果作为最终校对结果。这样就实现了利用人力来分布式校对文稿的目的。更具体的细节可以看 http://recaptcha.net/learnmore.html

在使用中会显示两个单词,其中一个单词是已知正确的,必须输入正确,另外一个是未确定正确内容的,那么通过这个步骤,用户在输入验证码的过程中,就同时实现了两个功能,一个是防spam,另外一个就是人力OCR。

要安装这个工具步骤如下。
1)首先要注册获得帐号。

2)添加网站,因为reCAPTCHA是基于域名的,所以只需要添加一个域名就可以了,比如本站的网址是https://seo.g2soft.net/,我添加的就只要用g2soft.net就可以了,之后旗下的字域名都可以使用了。多个域名需要逐个添加。

3)获取公钥和私钥。在程序中会使用到。

4)程序,现在已经有很多现成的程序插件可以使用,比如针对Wordpress的插件MediaWiki的插件,也有如何在PHP下使用的说明,DavidYin就是按照这个说明来写的。
还有很多其他的Web程序插件在这里可以看到。

实际使用的过程毕竟简单,当图片实在看不清楚时,可以换图片,再不行,可以用语音提示。
总之,很好用。