开始建立新任务_火车采集器V2010帮助文档

任务是采集器采集数据时的基本工作单元,它一定是建立在站点中的。采集器通过运行任务来采集发布数据。任务工作的步骤总体可以分为三步:采网址,采内容,发内容。一个任务的运行可以任意选择哪几步。而采集器又可以同时运行多个任务(默认设置是同时最多运行3个任务)。任务的编辑界面如图:

采集器的使用最主要的就是对任务的设置。而采集数据可以分为两步,第一步是:采网址,第二步:采内容。

  1. 采网址

采网址,就是从列表页中提取出内容页的地址。
从页面自动分析得到地址连接:
以http://roll.news.sina.com.cn/news/gjxw/hqqw/index_1.shtml 页面为例。我们来采集这个网址上的新闻,这个页面中有很多新闻的链接,要采集每个链接中新闻内容.首先需要将每个新闻的链接地址抓取到也就是抓取内容页的地址。
先将该列表页地址添加到采集器里。点击“<<向导添加”后弹出“添加开始采集地址”对话框。我们选择“单条网址”并将要采集的网址添加进去。如图:

然后点击“添加”按钮,并点击“完成”按钮,即可添加一条采集地址。如图:

点击“完成”按钮后即可添加了一条采集网址。内容页的地址就从这条地址中提取出来。先不作任何过滤提取,在软件里测试下可以从该地址中得到哪些地址。如图:

点击“开始测试网址采集”按钮后会得到
http://roll.news.sina.com.cn/news/gjxw/hqqw/index_1.shtml页面中的所有连接地址。如图:

其中有很多链接地址不是我们想要的,观察下得到得的地址发现我们想要的地址都包含有“/w/”。如图:

点击“返回修改设置”按钮回到添加采集地址界面。在“文章内容页面的地址必要包含”处填写上“/w/”(指定内容页的地址必须包含“/w/”),然后再点“开始测试网址采集”如图:

当再次测试得到内容页地址时,就已经过滤了很多地址剩下的地址都是包含“/w/”的,如图:

在采集http://roll.news.sina.com.cn/news/gjxw/hqqw/index_1.shtml页面中的地址时,由原先的81条地址过滤后只剩下了40条地址。和页面比较发现这40条地址就是我们想要的新闻地址。如果在已经得到的地址中,还想排除一些地址可以通过“不得包含”来过滤。假如我们要排除2010-03-17日的新闻,可以如图设置:

测试地址后如图:

如果既想过滤掉含有2010-03-17的地址也想过滤掉含有2010-03-18的地址可以通过这样的设置,如果:

中间的竖线“|”代表“或”的意思,上述写法就代表了:抓取的地址不得包含2010-03-17或2010-03-18测试地址后会发现抓取到的地址不会含有2010-03-17或2010-03-18。

手动填写链接地址规则:
以百度知道的这个页面为例
http://zhidao.baidu.com/q?ct=17&tn=ikaslist&rn=10&word=%CE%EF%C1%F7&lm=0&pn=00,打开这个页面发现一种有76页。其中网址如:
第一页:http://zhidao.baidu.com/q?ct=17&tn=ikaslist&rn=10&word=%CE%EF%C1%F7&lm=0&pn=00
第二页:http://zhidao.baidu.com/q?ct=17&tn=ikaslist&rn=10&word=%CE%EF%C1%F7&lm=0&pn=10
第三页:http://zhidao.baidu.com/q?ct=17&tn=ikaslist&rn=10&word=%CE%EF%C1%F7&lm=0&pn=20