Matt Cutts访谈-限量爬取Crawl Dudget,主机负载Host load与重复内容Duplicate Content

Matt Cutts在2000年加入Google,现任Google反垃圾组组长。Matt Cutts在自己的博客上经常谈论一些站长很关心的问题,透露一些Google内幕,因此成为SEO界定权威人物。下面是Eric Enge采访Matt Cutts的访谈内容。

Eric Enge:让我们来说说“限量爬取-Crawl Dudget”得概念吧。我的理解是Google在到达一个网站的时候就知道要爬取多少内容,爬取完成之后就离开。

Matt Cutts:我来说一下我的理解吧,可能和你的不一样。首先这是一个索引过程。很多人认为一个网站只能被索引一定数量的网页,但实际上并不是这样的。

对于爬虫来说,爬多少并没有硬性规定。实际上,爬取的网页数量和PR是成正比的。如果你有很多外链到达首页,我们肯定会抓取它。然后你的首页又链到其他页面,这些页面也得到PR,我们也会抓取这些页面。随着页面深度的增加,PR逐渐减少,抓取也逐渐减少。

另一个思路是你的低PR的网页在和互联网上PR相同或差不多的网页竞争抓取机会。互联网上有很多PR很低或是0的网页。如果你的网页外链多,则被发现和抓取的快。一般低PR的网页被抓取的频率不高。

限量爬取实际上并不是对爬虫爬取数量的硬性规定,和这个概念相关的还有一个概念,叫“主机负载”。主机负载是指你的web服务器能够同时承受的爬虫数量。假如你的主机只能同时承受一只爬虫,这将导致一次只能抓取一页,然而像Facebook,Twitter等,它们有非常高的主机负载,可以同时承受很多爬虫一起爬取。

如果你是虚拟主机用户,和其他Web站点公用这一个IP。那么你可能会遇到爬取限制。试想,如果在一个给定的时间,SE只能从你的网站上抓取两页,而且SE只抓取一定的时间,那么爬虫从这个主机上只能抓取一定数量的页面,形成了爬取限制。

Eric Enge:也就是说有两个限制因素,一个是PR,确定了爬取的数量,另一个数主机负载,可以影响爬取数量。

Matt Cutts:对。但绝大多数站点爬取数量上受PR决定的,也许主机负载也能影响,但不是主要的。这还有一个概念,就是“重复内容-Duplicate Content”。试想一下,如果爬虫从你网站上抓取了3页,其中两页是第三页的重复内容,我们将放弃其中的两页,只保留一页。那么你的站将会被少爬取。

如果你的站有限量爬取,而且又有重复内容,那么你的站点优质且唯一的内容可能由于重复页面占用爬取机会而不会被爬取,进而不会被收录。

Eric Enge:也就是说重复页面浪费爬取机会。

Matt Cutts:是的。你有一定的PR决定了我们能从你站上抓取一定数量的网页。但是有些页面也许是垃圾页面,会浪费抓取机会。如果你再有主机负责限制,那么SE将只能抓取一定数量的页面,很多好的页面也许将不会被抓取。

Eric Enge:让我们来谈谈浪费的链接汁link juice吧。我本来想用PR来,但我觉得用链接汁更可信,更有权威性。当我们链向一个重复的页面时,是不是在浪费链接汁?

Matt Cutts:也可以这么说吧。重复页面不是网页抓取数量的最大限制因素,但确实是一个因素。我的建议就是在网站建设之前就确定一个好的网站架构来避免重复内容,这样你就不用担心重复内容问题和与此相关的其他问题了。除此之外,你还可以用301转向,将重复内容的URL合并到一个URL。如果你没有权限做301,你可以用rel=canonical。但我还是推荐确定一个好的网站架构,而不是用那个301或是rel=canonical来补救。

Eric Enge:是的。这无疑是最好的标准。如果一个页面链向了十个页面,其中有三个是重复页面,是不是浪费了三次投票机会。

Matt Cutts:不是的。我们会合并三个链接到一个唯一的页面,而不是抛弃它们。这样链接汁将会被传递到合并的那一页。

贾定强微信

微信扫一下,或点击链接添加好友