才写完关于Google搜索结果中的补充材料,就看到Google Webmaster的官方Blog的文章,Duplicate content summit at SMX Advanced。
这篇文章解答了很多问题,也印证了我的一些猜测和观察。
比如当一个网站中的同一篇文章有不同的版本时,就有很大机会出现复制内容的现象,建议的方法是,使用robots.txt来阻止其中的一个版本。
举个具体例子,在Wordpress的Blog系统中,我设置robots.txt的时候,就会专门阻止这两个目录:
Disallow: /tag
Disallow: /page
我希望Google收录的是单篇归档文章的页面,而不是这些页面,如果不加的话,这些页面大多都是补充材料。
当网站内容都不是以文本为主的话,比如图片站,那么请写好title,meta,还有每个图片的alt。
对于复制内容和原创内容的判断,下面一句话要十分仔细的看:We currently rely on a number of factors such as the site's authority and the number of links to the page.
他提到了两个参数,一个是网站的权威度,一个是反向链接。
网站的权威度,就相当于DavidYin所说过的TrustRank。
而反向链接,反映出来就是PageRank的高低。
要提高反向链接的数量,请看如何寻找有效的反向链接。
由此可见,要保持自己的网站的内容不被认为是复制内容,就要不断的提高自己本身的权威度,也要大力扩展自己的链接的质量和数量。
在做大自己之后,别人就算如何的抄袭你,复制你,也都不会有多大的用处,很难影响到你了。