织梦教程-采集功能的使用方法 --- 含有分页的普通文章之一

Dedecms采集功能的使用方法 --- 含有分页的普通文章(一)

前言:这篇文章是Dedecms采集功能使用方法的第二篇,主要目的是采集含有分页的普通文章,并使用简单的过滤规则。这次选取的目标站点是中国网管联盟网络技术频道的网络协议栏目,网址是http://www.bitscn.com/network/protocol/。本文共分为三节,第一节,主要是介绍新增采集节点中的第一步:设置基本信息及网址索引页规则;第二节,主要是介绍新增采集节点中的第二步:设置字段获取规则;第三节,主要是介绍如何采集指定节点和如何导出采集内容。对于编写采集规则中一些基本的操作,本文将一带而过或不再涉及,如有疑问可参见文章Dedecms采集功能的使用方法 --- 不含分页的普通文章的采集。

下面进入第一节。

1.1 设置基本信息及网址索引页规则

建立一个新的普通文章型节点,并进入新增采集节点:第一步设置基本信息及网址索引页规则如(图1)所示,

织梦教程-采集功能的使用方法 --- 含有分页的普通文章之一

图1-新增采集节点:第一步设置基本信息及网址索引页规则

1.1.1 设置节点基本信息

织梦教程-采集功能的使用方法 --- 含有分页的普通文章之一

图2-节点基本信息

首先,定义节点名称为采集测试(二)。其次,查找目标页面编码。其操作步骤为:

(a)打开被采集的目标页:http://www.bitscn.com/network/protocol/;

(b)单击右键后选择查看源文件,找到charset, 如(图3)所示,

织梦教程-采集功能的使用方法 --- 含有分页的普通文章之一

图3-查看源文件

其等号后面的代码就是所需的编码格式,这里是gb2312。对于区域匹配模式、内容导入顺序和防盗链模式,均使用默认值。

引用网址:可以选取在文章列表里出现的任意一个文章页的网址。方便起见,一般是填入文章列表中第一篇文章的网址,但是由于第一篇文章没有涉及到分页内容,为了展示如何采集分页文章,这里使用第二篇文章作为引用网址。其网址为:http://www.bitscn.com/network/protocol/201105/193110.html。设置后的节点基本信息,如(图4)所示,

织梦教程-采集功能的使用方法 --- 含有分页的普通文章之一

图4-设置后的节点基本信息

检查无误后,进入下一步设置。

1.1.2 设置列表网址获取规则

如(图5)所示,

织梦教程-采集功能的使用方法 --- 含有分页的普通文章之一

图5-列表网址获取规则

这里是设置被采集的文章列表页的匹配规则的,也是本节的重点和难点。

具体操作步骤:

(a)首先,回到已打开的文章列表页,这时浏览器的URL地址栏中显示的网址,如(图6)所示,

织梦教程-采集功能的使用方法 --- 含有分页的普通文章之一

图6-列表首页的网址

(b)找到文章列表页的换页部分,把鼠标放在各个页码上面,同时观察其URL的变化规律。可以得出,网址的匹配规律为:http://www.bitscn.com/network/protocol/list_(*).html。因此,在匹配网址中,应填入http://www.bitscn.com/network/protocol/list_(*).html,为了能够快速演示采集过程,这里设定页面是从1开始到1结束,也就是说只采集第一页。

设置后的 列表网址获取规则,如(图7)所示,

织梦教程-采集功能的使用方法 --- 含有分页的普通文章之一

图7-设置后的列表网址获取规则

检查无误后,进入下一步设置。

1.1.3 设置文章网址匹配规则

如(图8)所示,

织梦教程-采集功能的使用方法 --- 含有分页的普通文章之一

图8-文章网址匹配规则

这里是设置被采集文章列表页的匹配规则。

具体操作步骤:

(a)对于区域开始的HTML,可通过在打开的文章列表首页上,单击右键后选择查看源文件。在源文件中,找到第一篇文章的标题OpenFlow网络是空谈吗?,如(图9)所示,