采集网站的自动更新

做SEO时间长了,总会觉得按正常套路没什么意思,总想来点省时又省力的方法。经过最近一段时间的摸索,发现采集是个不错的东西。我的思路是这样:找一个关键字列表,然后在百度或Google上进行搜索,对于搜索结果页内的网址再打开,提取正文内容,存储在数据库中。在前台网站,通过一些伪原创的手段进行伪原创。这样就实现了针对关键字列表的内容采集,而不是像火车头一样针对网站的内容采集。当然,这个采集程序暂时保密,我不想多说,我想说的是对于采集程序的一个补充:采集网站的自动更新。都说采集就像吸毒,一旦开始了就不能停下来。所以,更新对于采集站是非常重要的。

我的采集站一般都是每天都会更新的,程序一开,每天采点。目的就是想让搜索引擎看到,这网站像正常网站一样,每天都在更新内容。因为程序都是用python写的,所以每天都的开一个命令行来运行python。网站一多,每天敲这些python命令也很麻烦。后来,我把每个网站的python运行命令写在了bat文件中,双击一下就可以运行了。如果是多个网站同时开始采集的话,选中对应的bat文件,右键->打开,就可以开始多个python采集进程了。

本来以为这样就OK了,但最近发现个问题,采集进度太慢了。主要原因是我的python程序写的不是很完美,由于各种原因,运行到某个地方就会卡。一卡就没法继续了,必须人工重启程序。而我最希望的是在晚上的时候程序自动采集,白天采集的话太影响网速了。但晚上人不在,程序运行个一两小时就全卡死了。六七万关键字的网站,运行了一个多月了,才跑了不到一万个词。

今天早晨研究了一下windows的计划任务和kill进程,发现正好能解决我现在的问题。我的想法是用windows计划任务每隔一个小时把所有的采集进程重启一下。

Win7的计划任务在控制面板->系统和安全->管理工具->计划任务,打开之后选择创建任务,然后在触发器中选择时间和间隔时间,操作中加入自己写好的bat文件就可以了。

bat文件真是个不错的东西。Start命令,可以通过一个bat文件启动多个bat文件。ping -n x 127.1>nul可以让bat文件等待x秒。taskkill /f /im python.exe可以一起杀死所有的python进程。通过一连串bat文件的组合,最后通过一个bat文件,实现了对N个采集进行的控制。在windows下的命令行还是很有必要好好学习一下的。

贾定强微信

微信扫一下,或点击链接添加好友