采集腾讯新闻发布DedeCMS_火车采集器V7.0帮助文档

该采集实例是采集腾讯国内新闻,然后将采集的结果Web发布到DedeCMS 5.7上去。目录起始网址http://news.qq.com/newsgn/zhxw/shizhengxinwen.htm,我们要采集5个列表的新闻,采集新闻的标题,内容,作者,时间,出处。我们按采网址,采内容,发内容的步骤依次操作,以下是具体操作过程。

首先我们新建任务,出现了任务窗口,我们点击起始网址中的添加

在出现的起始网址,添加单条网址,并点击”添加“按钮。

我们在网页中,通过分析,发现国内新闻的第二页及以后都是以数字递增的方式显示的,我们现在添加等差数列形式的网址

添加完成后,我们点击完成,就可以看到效果了。

我们按图中点击添加,出现“添加多级网址采集规则”,我们选择了新闻列表的区域代码。区域代码设置熟悉火狐的朋友可以使用Firebug扩展快速定位。

我们填写一下获取的代码的起始和结束部分,点击保存。

现在多级网址就是如下界面了,我们点击"测试网址采集“按钮.“

最终我们获取了所有正确的网址。这里的例子是比较简单,实际中可能要设置不得包含等条件,使用POST等方式获取网址。

我们双击某个网址,即可以进行内容采集规则设置。注意,下图中的使用提示部分新手是必看的,不然一些操作就不会知道。

采内容部分,页面内容标签定义是非常重要的,我们首先点击测试,查看默认规则下获取的结果如下

对于标题标签,最后 _新闻_腾讯网 这几个字是不需要的,要过滤掉,我们双击标题那一行,可以打开标题采集规则的设置界面。

我们点击数据处理那部分的添加按钮,然后选择内容替换

填写要替换的字符串,可以替换为空

保存以后,数据处理列表就有一条记录。如果我们要做多次数据处理,可以依次的添加处理的动作。也可以对处理的次序点击上图中的下下按钮进行调整。双击数据处理列表,可以对选中的记录进行编辑。添加成功的结果如下

我们点击 标签编辑 右下角的确定,就可以保存该设置了。我们点击测试,可以看到那几个字符已经没有了。我们继续设置内容的标签。在测试按钮上右键,选择获取网页源代码

可以打开源码查看器,点击开始查看按钮就可以下载网页源代码,我们查找这条新闻的开始和结束区域代码。查找方法很简单,就是找开始的字符串和结束的字符串,然后在源代码中查找分析。

在内容的前边的代码是 <div id="Cnt-Main-Article-QQ" bossZone="content"><P style="TEXT-INDENT: 2em"> ,我们再找一下后边的结束字符串。然后就可以利用前后截取的方式来采集数据了。结束字符串我们找到的是 </P></div>

经测试,获取的内容正确。现在我们再提取一下其它的标签内容。

注意时间标签我们要将年月换成-,日替换为空。

处理过程

最后的采集结果是