据Matt Cutts透露,Google新的重复内容检测算法已经启动,主要针对拷贝其他网站内容的站点和原创度很低的站点。原文如下:
My post mentioned that “we’re evaluating multiple changes that should help drive spam levels even lower, including one change that primarily affects sites that copy others’ content and sites with low levels of original content.” That change was approved at our weekly quality launch meeting last Thursday and launched earlier this week.
This was a pretty targeted launch: slightly over 2% of queries change in some way, but less than half a percent of search results change enough that someone might really notice. The net effect is that searchers are more likely to see the sites that wrote the original content rather than a site that scraped or copied the original site’s content.
也就是说,搜索引擎将给原创网站更高的权重,对于拷贝其他网站内容的站点(sites that copy others’ content)和原创度很低的网站(sites with low levels of original content)可能从搜索结果中消失。
对于搜索引擎的变化,我们做SEO的应该了解,更要理解。搜索质量一直是搜索引擎非常关注的问题,而重复内容是影响搜索质量的关键元素。很多网站不是自己原创内容,而是从其他网站采集内容放在自己网站上,这样的网站Google称为“pure webspam”。对于这种作弊行为,Google已经基本上能够识别。这次算法调整,针对的是low-quality site (sites with shallow or low-quality content),即低质量内容的网站。当然,什么为低质量内容的网站,是个值得商榷的问题。Google到底根据哪些因素来判断网站内容的质量,我们无法得知。但可以确信的是原创必然是其中非常重要的一个因素。我能想到的因素中比较重要的应该还有带有Google工具条的用户的浏览行为,因为网站内容的质量靠机器上很难识别的(如果可以识别的话,Google翻译的结果应该比现在更好),搜索引擎毕竟不是人脑,借助浏览者的行为来判断网站内容质量应该是当前比较好的方法。
算法就是算法,算法认为高质量的内容就是高质量的内容。
2010.2.10补充:今天对几个网站的排名质量分进行了一下统计分析,发现原创度比较高的网站排名质量分上升,原创度比较低的网站排名质量分下降。实践证明,Google算法确实更新了,而且对于原创的判断能力还不错。