Matt Cutts:Google管理员工具中的“忽略的参数ignore parameters”是和canonical标签作用相同,一样有效的方法。
Eric Enge:是的。本质上说一样的。用robots.txt来屏蔽爬虫,不让爬出爬取重复的页面上一种不太好的方法。因为这样,我们将看不到重复的页面。但是如果你通过管理员工具告诉我们哪些参数不需要的话,我们将不会抓取又这些参数引起的重复页面。
Matt Cutts:让我们来谈谈KML文件吧。需要用robots.txt文件来屏蔽它,以节省抓取机会(save crawl budget)吗?
Eric Enge:最好的方法是让Google去自由抓取,Google会自动去掉重复页面。用可以用好的网站架构或301转向来节省抓取机会。如果你用robots.txt来屏蔽一部分内容的话,Google仍要查看这个URL,并在索引中保存一个引用,所以不会节省抓取机会。Google会尽量多的抓取页面,甚至非HTML的页面。KML页面Google是抓取的。
我们推荐让Google自己去抓取页面,然后自己去掉重复的页面。如果你有一定水平,你可以用好的网站结构来去掉重复页面。如果你的网站有50%是KML文件,或是有大量的字体文件,你确实不想让它们被抓取,你可以用robots.txt来屏蔽。Robots.txt允许使用通配符,所以你可以阻止它们被抓取。对于大部分网站,一般只有很少一些额外的页面或不同文件类型的页面,我推荐让Google去抓取他们。
Matt Cutts:如果只有很少一部分实际页面的话,你应该注意一下,别被判为作弊。
Eric Enge:是的。