你的网站被 Google 用于 AI 训练了吗?

这是我看到了 Zac 的文章《你的网站内容被用于AI训练了吗?你愿意吗?》之后,而想到的。

基本上就是, Google 所使用的 AI 训练,需要很多的语料,而各大网站,或者小网站,都会成为它的目标。我对于这些 AI 工具在最近半年内的快速出现,以及快速的病毒式传播,看法也许并不相同。我认为在科技激流猛进的时候,普通用户需要耐心等待,可以尝试,不要陷入太深,等大浪淘沙后,还能为人所用的,那一定是能提高生产力,帮助人们提高效率的工具。

二月,在 Grandpa try the new technology 一文中,我向岳父大人介绍了Midjourney,以及 ChatGPT,他觉得挺有意思的。三月,我自己在本地电脑上尝试了  Stable Diffusion, 觉得蛮痛苦的。个人普通电脑还是不要尝试了,太费时间。

暂时我还是会认为各大互联网巨头都会向 OpenAI 做出挑战,做自己的 AI 训练。今天看到的 Zac 的文章,就是说 Google AI 训练集的情况。

Google 使用的是 C4 数据集,这里面有海量的网站,当然还有更多的网站并没有包括在内。The Washington Post 有做了一个互动工具,可以查看是否被包括在内,以及使用的数量。

C4开始是由非营利组织 CommonCrawl 从2019年4月开始进行的一次抓取,这是人工智能模型的一个很出名的资源。CommonCrawl 告诉《邮报》,它试图优先考虑最重要和最有信誉的网站,但并不试图避免许可或版权内容。

根据 Zac 的测试,他的网站排名 11,196,890,有 280 Tokens

我也很好奇,看看本站的情况。

看来 SEO 网站优化推广 的排名还高一点,被用到的 tokens 有1.9K 之多。我还是开心的,毕竟有用。

我还看了 另外一个主要的英文 Blog,在 Google C4 数据集中的被使用情况。

似乎,对于英文网站更重视。

在查看了更多的网站之后,我觉得,C4 对于信誉度更加看重。而这里的 Rank,可以看作另外一种 Google PageRank,或者叫做 SiteRank。

Google 拿这些网站的数据做 AI 训练,我觉得没有大问题,如果把训练的结果拿出来作为一种服务,而且还从中获利,那么这些网站就有权要求回报,至少要有 Credit 或链接。

也许该改写一下网站的版权声明了。

查看你的网站是否在 Google C4 数据集中