Google中文分词

今天在看自己博客的Google管理员工具时,发现了一个问题,截图如下:

google博百优分词问题
google博百优分词问题

从图中可以看出,Google还没有发现“博百优”是一个词,分词时出现了错误,将一个词分成了三个字-“博”、“百”、“优”。

以前一直听说Google的中文分词不如百度,但一直没有证据证明,今天终于逮到证据了。“博百优”到现在已经出现了快一个月了,以Google对于速度的追求,早就应该将它识别才对,而现在并没有识别,也就是说Google的分词确实是存在问题的。

这个词没有分出来,更多的原因是Google的词库的问题。对于新词,Google的词库更新不是很及时。而百度则不一样,百度早就将“博百优”一词与SEO行业紧密联系起来了,当然我们并不知道百度是程序判断的还是人工干预的。

不知道要过多长时间,Google才能将“博百优”的分词分好。也许永远都不会了。因为Google已经宣布退出中国了,在中国它的盈利并不是很好。也许不会再投入更多的精力在中文方面了。我想这对全体中国人都是一种损失。

贾定强微信

微信扫一下,或点击链接添加好友