上一篇重复内容与镜像网页说到,网络上存在很多由于镜像页面和近似镜像页面导致的重复内容,这些重复内容造成了搜索引擎在抓取、索引和排名的时候浪费大量资源,影响搜索引擎对搜索用户的服务效果。所以,搜索引擎必然有相关的算法来规避重复内容。下面介绍两种常见的搜索引擎重复内容检测算法。
第一种是基于关键词提取的重复页面检测算法。基本原理是:有一个大的网页集合P,里面包含了很多网页为pi。每个网页pi都分别提取关键词tj,形成向量Wi=(W1,W2,…Wj)。其中Wj的影响因素有两个,一是关键词j在网页中出现的频率,二是网页集合P中出现关键词j的次数的倒数。而在判断两个网页是否为重复页面时,只需要判断表示两个页面的向量Wi和Wj的夹角的大小即可。夹角越小,两个页面的重复度越高。
第二种是基于全文分段匹配的重复页面检测算法。这类算法采用的是一种对全文分段签名的方法。这种算法把一篇网页按一定的原则分成m段,然后对每一段进行签名(即计算指纹),于是每一篇文档就可以用m个签名后的指纹来表示。对于任意两篇文档,当它们的m个签名中有t个相同时(t是系统定义的阈值),则认为它们是互为重复内容网页。
第三种是基于模板消噪的重复内容检测算法。由于大量的近似镜像网页并不是对原始网页的简单拷贝,而是将要转载的内容放在新的模板中再提供服务。因此模板中的内容就会干扰算法程序对近似镜像网页的判断,从而导致错误的检测结果。基于模板噪音消除的重复内容检测就是先对网页进行净化,去掉网页的模板噪音内容,进而提取出网页的正文,然后再结合其他重复内容检测算法对网页的正文进行消重。
以上三种都是基于内容的重复页面检测算法,也是搜索引擎正在使用的主流的重复内容检测算法。除此之外,搜索引擎还有其他的重复内容检测办法作为补充,如基于链接的重复页面检测算法等。
当我们知道了搜索引擎的重复内容检测算法之后有什么用呢?我觉得最大的作用就是我们不要再相信“原创”,“内容为王”之类的鬼话,拷贝,伪原创,只要不被搜索引擎的算法发现,在搜索引擎眼中就是很好的“原创内容”,“高质量内容”。但是如何才能做到这一点呢,明天讨论。