昨天讨论了搜索引擎重复内容检测算法,应该对搜索引擎的重复内容检测算法有了一定的了解。那么如何利用算法的漏洞进行内容拷贝或伪原创,又不被搜索引擎发现呢?
首先来看第一个算法。我们先为搜索引擎考虑一下算法的复杂度。一个合理的算法,如果执行起来太慢的话,搜索引擎是不会采用的。第一个算法,决定复杂度的关键因素应该是网页集合P的大小。因为P中的任何两个网页都要用检验算法测试是否为镜像网页,其复杂度为N2。随着N的增加,算法的执行速度会急剧下降,所以这个P集合不会很大。也就是说采用这个算法,只能在一定范围内避免重复内容。当然,搜索引擎如何确定网页集合P的范围,我们是无法得知的。但我个人认为,最有可能的就是根据主题来确定,一个主题内的网页会尽量避免重复。知道了这一点,我们在拷贝内容或采集内容的时候,就应该去采集那些跟自己所处行业不是很相关网站,然后将title修改,使得采集的网页和原网页不在同一个网页集合P中。针对这种算法,如果修改采用替换常用词,如is换成was,in换成at是基本无效的。因为影响的Wj第二个因素告诉我们,越常见到词对Wj的影响越小。
其次来看第二个算法。同样需要考虑算法的复杂度,跟第一个算法一样。不同的是第二个算法是分段比对指纹,指纹算法的特点是只要有一个字母不一样,得到的签名指纹就会大大不同。所以,针对这个算法的伪原创,只要对每一句话都做细微的调整就可以了。
最后是第三个算法。这个算法需要和其他算法一起使用才能有效。以前有人说相同的内容的,只要换个模板,搜索引擎照样收录。这个可能确实发生过,但收录了并不等于搜索引擎把你当原创内容了。这个算法告诉我们,搜索引擎是可以判断网页中哪些是模板,哪些是内容的。有些换了模板的镜像网页被收录了,这不能说搜索引擎没有这些算法,而是这些算法收到了限制,没有发挥出应该有的效果。
综上所述,我们在进行内容拷贝或伪原创的时候,应该选择与自己行业不是很相关的网站进行采集,然后更换title和文中的关键字,让搜索引擎认为原文和你的文章不在一个主题下。再有就是对每一段的内容都进行细微的调整,使得每一段的签名都不一样。当然,这样做并不一定能骗过搜索引擎,因为上面的三个算法只是我自己知道的搜索引擎重复内容检测算法,搜索引擎必然还有其他的算法。如果你喜欢黒帽SEO,就必须不断摸索搜索引擎算法,并不断调整自己的SEO方式,必然有一定风险。任重而道远!!!