大家都知道网上存在网页内容转载的情况,我们把转载的网页称为原始网页的镜像网页。由于镜像网页的大量存在,就导致了搜索引擎非常头疼的问题——“重复内容”问题。今天跟大家分享一下镜像网页和重复内容的相关知识背景。
网上的现实情况是,大量的镜像网页并不是对原始网页的简单拷贝,而是将要转载的内容放在新的模板中再提供服务。我们称这样的网页为近似镜像网页。通过分析,我们将网上存在的近似镜像网页或网页集分为以下几种:
⑴ 完全重复的镜像网页。例如FAQ、法律文件、热门网站的镜像站点等等。产生这些近似镜像网页的原因一般来说有:
① 镜像站点,即完全相同的网页存在于网络的不同位置。
② 动态URL。动态网页的URL是不固定的。即同一个页面可以和多个URL相对应。我们访问该页面时,是应用URL参数来打开该内容的详细资料页面。一般情况下,整个互联网上静态网页比动态网页质量要高很多。因此,很多搜索引擎会优先收录静态网页,而在搜索结果中,静态网页往往也比相同的内容的动态网页排名要靠前。
③ 非法的重复:网络垃圾、陷阱站点等。Web服务器可以由程序动态生成网页,有些站点甚至可生成无穷无尽、对搜索引擎毫无意义的网页,这些站点构成网页搜集系统的陷阱。
⑵ 部分重复,即近似镜像的网页。这些网页可能是在模板、格式、站点管理员签名等方面有所改动,但是网页正文部分的内容是几乎完全相同的。例如,相同的文档可能在网上存在不同格式的版本。这些网页也有可能是内容部分重复的网页。例如未更新的文档。产生这些近似镜像的网页的原因可能有:
① 更新频率:一个网页集的主要备份通常被及时更新,但是其镜像备份可能几天、几周、几各月才被更新一次。这些成套网页集的镜像备份由于其更新频率过低而通常是过时的。
② 部分镜像:每个镜像网页集覆盖主要备份的程度都是不同的。大多数情况下,网页集合是被全部镜像的。在其他一些情况下,只有部分网页被拷贝,并且保留了指向其他镜像站点或是主要备份的链接。
③ 不同的格式:主要网页和备份网页的格式可能是不一样的。例如,一个网页可能用的是HTML文件,而另一个采用PostScript、Adobe PDF或者Microsoft Word格式。
④ 不同模板:商业网站中的网页通常都是由同一个模板自动生成的。这些网页被加入了一些导航条、广告、图片、版权信息等网页噪音。这样它们就会和其他网站中相同内容的网页有一些不同。
⑤ 部分抓取:搜集端可能没有足够的资源来获取所有的数据,或者搜集端本身出现错误。所以即使两个网页是完全重复的,搜集端所抓取到的网页也可能是不一样的。
随着互联网上网页的增多,近似镜像网页所占的比例也在不断增大。但对于搜索用户来说,他并不希望搜索结果页中充斥大量的镜像网页或近似镜像网页。所以搜索引擎为了增加用户体验度,必须处理这些镜像网页,对它们进行消重复处理。如果不能很好的处理这些镜像页面或近似镜像页面,必然会造成搜索引擎:
⑴ 资源的浪费:花费大量的时间抓取重复的网页并花费大量的磁盘空间存取;
⑵ 索引负担:建立索引时,必须对大量的重复网页建立索引,使倒排文件变得庞大;
⑶ 影响服务效果:庞大的倒排文件直接影响提供服务时的响应速度,并且检索结果中会出现大量的重复结果,毫无价值,降低用户满意程度。
所以,如何快速准确地发现这些内容上的镜像网页和近似镜像网页,消除重复内容已经成为提高搜索引擎服务质量的关键技术之一。明天继续介绍搜索引擎的消重复内容的相关算法。