前面的文章里介绍了Google PageRank算法HillTop算法,今天来介绍TSPR(Topic- Sensitive PageRank)主题性页面级别算法。

由于PageRank算法中存在的一个基本缺陷,即它根据一个网页上被链接的站点数量和质量来给该网页分配一个绝对的PR,但是PR并非针对查询词语,因而一个同页如果只是在内容中偶然提到了一个和查询主题偏离的关键词语,也会因其居高的PR值而获得一个比较高的排名。为了克服这个缺点,Google又提出了hilltop算法和TSPR算法。

TSPR算法中,网站的排名是由页面相关性得分(RelevancyScore)+页面等级得分(PageRank)+TSPR得分决定的。TSPR算法针对一个查询来确定一个URL对该查询的TSPR得分,作为排名的一个重要依据,大大提高了返回结果的主题相关性。而计算一个URL对该查询的TSPR得分是依赖于开放目录(ODP,如Yahoo, Dmoz等)的。

但是开放目录的数据量是远远不够的,而且很多url都不在开放目录中,这样就无法得到它的TSPR得分。所以,Google在2004年收购了Applied Semantics 网络广告软件公司,同时获得了他的AdSense技术和为Adsense服务的后台专利技术CIRCA。

CIRCA 技术所基于的是一个独立语言并具有高度扩展性的本体论,这个本体论中包含了上百万词语,词语含义及这些词语与其它自然语言中的词语之间的概念性关系。由复杂的搜索技术所支持的本体论是对词语的多样性含义的概念性理解的基础,它能够使计算机对信息进行更加有效的管理和检索,从而为搜索用户更好的提供探索知识的机会。CIRCA技术的作用就在于它可以确定对特定词语或短语的相关概念。该技术目前被用来从众多内容中为广告客户提供相关广告服务,亦可应用于Google的关键词词根还原系统。尤其值得一提的是:CIRCA能够计算“短语A”对“概念B”的相关程度。例如,如果用户查询“Colorado bicycle trips”, CIRCA能够将其与“Colorado”地域,“骑车”,“旅游”等主题概念性地联系起来。这意味着它们能够计算其数据库中不同的概念与用户查询条件之间的“距离”。这一点十分重要。

现在,如果用户再查询的话,则查询条件中的词语将至少与CIRCA数据库中若干主题紧密匹配。Google完全能够基于用户所使用的查询条件及数据库中所包含的主题之间的“距离”来提供TSPR得分,从而向用户提供更好的搜索结果。查询与主题的关系越密切,则主题性页面级别得分效果越佳。由于一个给定的搜索查询条件有可能与数据库中的多个主题匹配,所以页面级别计算中出现的任何小错误都将由影响该查询条件的多个主题性页面级别得分平摊,因而只需近似的主题性页面级别得分就足以提供高质量的搜索结果了。

当数据库中无任何主题与用户的查询条件匹配时,则Google可使用原来的页面级别系统。若与查询条件匹配的主题太多,则仍使用新系统计算主题性页面级别得分,尽管新算法可能会与原算法得出的分数相似。如果匹配主题与查询条件之间的相关度很低,则效果亦会大打折扣。

贾定强微信

微信扫一下,或点击链接添加好友