Google PageRank算法

搜索引擎的算法应该是保密的,它是Google的商业秘密,所必针对Google的算法只能是一种猜想。G0ogle以前采用的算法据说是PageRank算法,该算法最早出现在其创始人的一篇论文中,是利用页面相关性得分(RelevancyScore)+页面等级得分(PageRank)来决定页面的相关性与重要性。该算法首先找到所有与查询关键词相匹配的网页,然后根据页面因素等进行排名,最后通过PageRank得分调整网站排名结果。

假设网页A有网页t1,t2,t3…tn的链接指向它,则PageRank的原始公式为:

PR(A)=(1-d)+d(PR(t1)/C(t1)+…+PR(tn)/C(tn))。

其中d为阻尼因子,一般设为0.85;公式可描述为;A网页的其PR值等于链向该页面的所有链接网面的PR值分别除以各自的外部链接数量的总和,再加上(1一d)。在此PR(A)是网页A的网页级别(PageRank);C(tn)是网页tn的外向链接的数量。

在“Google Florida”更新中,Google对其排名算法进行了大规模改动,对于Google新算法目前有两种主要理论的争论:一种是Hilltop算法;另外一种则是TSPR(Topic—Sensitive—PageRank:主题性页面级别技术)理论。两种算法都是为了克服Pagerank页面等级系统中存在的一个基本缺陷,即它根据一个网页上被链接的站点数量和质量来给该网页分配一个绝对的PR,但是PR并非针对查询词语,因而一个同页如果只是在内容中偶然提到了一个和查询主题偏离的关键词语,也会因其居高的PR值而获得一个比较高的排名。

后面将继续介绍Hilltop算法TSPR算法

贾定强微信

微信扫一下,或点击链接添加好友