重复内容与镜像网页

大家都知道网上存在网页内容转载的情况，我们把转载的网页称为原始网页的镜像网页。由于镜像网页的大量存在，就导致了搜索引擎非常头疼的问题——“重复内容”问题。今天跟大家分享一下镜像网页和重复内容的相关知识背景。

网上的现实情况是，大量的镜像网页并不是对原始网页的简单拷贝，而是将要转载的内容放在新的模板中再提供服务。我们称这样的网页为近似镜像网页。通过分析，我们将网上存在的近似镜像网页或网页集分为以下几种：

⑴ 完全重复的镜像网页。例如FAQ、法律文件、热门网站的镜像站点等等。产生这些近似镜像网页的原因一般来说有：

① 镜像站点，即完全相同的网页存在于网络的不同位置。

② 动态URL。动态网页的URL是不固定的。即同一个页面可以和多个URL相对应。我们访问该页面时，是应用URL参数来打开该内容的详细资料页面。一般情况下，整个互联网上静态网页比动态网页质量要高很多。因此，很多搜索引擎会优先收录静态网页，而在搜索结果中，静态网页往往也比相同的内容的动态网页排名要靠前。

③ 非法的重复：网络垃圾、陷阱站点等。Web服务器可以由程序动态生成网页，有些站点甚至可生成无穷无尽、对搜索引擎毫无意义的网页，这些站点构成网页搜集系统的陷阱。

⑵ 部分重复，即近似镜像的网页。这些网页可能是在模板、格式、站点管理员签名等方面有所改动，但是网页正文部分的内容是几乎完全相同的。例如，相同的文档可能在网上存在不同格式的版本。这些网页也有可能是内容部分重复的网页。例如未更新的文档。产生这些近似镜像的网页的原因可能有：

① 更新频率：一个网页集的主要备份通常被及时更新，但是其镜像备份可能几天、几周、几各月才被更新一次。这些成套网页集的镜像备份由于其更新频率过低而通常是过时的。

② 部分镜像：每个镜像网页集覆盖主要备份的程度都是不同的。大多数情况下，网页集合是被全部镜像的。在其他一些情况下，只有部分网页被拷贝，并且保留了指向其他镜像站点或是主要备份的链接。

③ 不同的格式：主要网页和备份网页的格式可能是不一样的。例如，一个网页可能用的是HTML文件，而另一个采用PostScript、Adobe PDF或者Microsoft Word格式。

④ 不同模板：商业网站中的网页通常都是由同一个模板自动生成的。这些网页被加入了一些导航条、广告、图片、版权信息等网页噪音。这样它们就会和其他网站中相同内容的网页有一些不同。

⑤ 部分抓取：搜集端可能没有足够的资源来获取所有的数据，或者搜集端本身出现错误。所以即使两个网页是完全重复的，搜集端所抓取到的网页也可能是不一样的。

随着互联网上网页的增多，近似镜像网页所占的比例也在不断增大。但对于搜索用户来说，他并不希望搜索结果页中充斥大量的镜像网页或近似镜像网页。所以搜索引擎为了增加用户体验度，必须处理这些镜像网页，对它们进行消重复处理。如果不能很好的处理这些镜像页面或近似镜像页面，必然会造成搜索引擎：

⑴ 资源的浪费：花费大量的时间抓取重复的网页并花费大量的磁盘空间存取；

⑵ 索引负担：建立索引时，必须对大量的重复网页建立索引，使倒排文件变得庞大；

⑶ 影响服务效果：庞大的倒排文件直接影响提供服务时的响应速度，并且检索结果中会出现大量的重复结果，毫无价值，降低用户满意程度。

所以，如何快速准确地发现这些内容上的镜像网页和近似镜像网页，消除重复内容已经成为提高搜索引擎服务质量的关键技术之一。明天继续介绍搜索引擎的消重复内容的相关算法。