最近做了好几个中文的采集站,里面有一些灰帽甚至黑帽的东西。这些站都有过一段时间的高流量,接下来就被K掉了。下面跟大家分享几个网站被K前后的百度流量统计图。
不知道大家有没有发现一个共同的特点,那就是当网站流量突然上升的比较多的时候,网站离被K就不远了。第一张图显示的网站是我今天看流量时发现的,虽然收录没有被清空,但根据下面三张流量图的对比,我可以断言,这个网站至少是被将权了,或许明天site的时候就会只剩下首页了(现在还有三千多页)。
百度现在的算法也在越来越完善,反垃圾应该是重点要完善的领域。前几天听了个讲座,是百度的工程师讲的,关于百度如何判断算法调整后搜索结果是不是更符合用户需求的。里面提到了很多搜索引擎领域的专业名词,如低位点击率,翻页率,首次点击,总点击等等。百度通过用户在搜索结果页上的行为跟踪和统计,就可以发现算法调整前后对于用户非常细微的影响。百度的算法和谷歌比,差距虽然还是很大,但百度的进步还是挺快的。
从这几次被K的经历,我发现:百度在判断垃圾站的算法应该是在学习谷歌。想判断一个站是不是垃圾站,首先会给你更多的展示,“是骡子是马,拉出来溜溜”。通过一段时间的集中展示以及在这些展示中对用户行为的分析,百度就可以判断出网站是垃圾站还是正规站。网站用户行为分析是一门很厉害的学问,这点在发百度知道的时候可以充分体现出来。机器发的百度知道、人手动发的百度知道以及用户真正发的百度知道,在用户行为分析上基本是可以区分和判断的,这就是为什么自己发的百度知道会被大量删除的原因。
对于百度的判断算法,最近正在探索有没有好的规避办法。如果大家有什么好想法的话,欢迎留言交流。