搜索引擎作弊最快的方法当属关键词堆砌,这源于信息检索中相关性算法本身的缺陷,为了对抗这种作弊方法,搜索引擎通过潜在语义索引 (Latent Semantic Indexing,LSI)算法来发现这些作弊页面,LSI算法也是信息检索领域一种古老的算法,1988年由S.T. Dumais等 人提出,主要用于自然语言理解,通过统计的方法对文档的进行语义分析,发掘同义词,相关词组等等。举个简单的例子:比方“汽车消费”这个词,通过分析大量页面发现这个词频繁的出现在“汽车消费贷款”,“中国汽车消费网”等等这些词组中,那么机器可以认为人们的语言习惯是将“汽车消费”和“汽车消费贷款”、 “中国汽车消费网”等等联系在一起来描述一些事情。通过这样的分析发现一些由机器生成的关键词堆砌页面,因为搜索引擎认为机器生成的页面不会出现这些相关联的词组。
LSI算法被用于 Google的很多应用,如Adwords,Google Suggest,以及上面提到的反作弊等等。
LSI算法提醒我们在搜索引擎优化的时候要注意页面的关键词密度,以及相关词组的使用,尽量使用比较自然的语言方式来提高页面的相关性。