织梦教程-采集功能的使用方法 --- 不含分页的普通文章之三

Dedecms采集功能的使用方法 --- 不含分页的普通文章(三)

前言:本文是不含分页的普通文章的采集方法的第三节,在前两节的基础上,将会对如何采集指定节点和如何导出采集内容做详细的说明。为了与前文保持一致,本文将延续使用前文的章节标记。

上接第二节。

3.1采集指定节点

单击保存并开始采集后,将会进入采集指定节点界面,如(图34)所示,

织梦教程-采集功能的使用方法 --- 不含分页的普通文章之三

图34-采集指定节点

每页采集:设置每页所需采集的条数,并可根据网站是否有防刷新功能,设置采集间隔时间。

特殊选项:设置是否检测重复图片,默认为检测。

附加选项:此选项一共有3种采集模式可供选择:第一种为监控采集模式(检测当前或所有节点是否有新内容),选取后,系统只会采集指定节点中更新的内容;第二种为重新下载全部内容,选取后,系统会采集指定节点中的全部内容;第三种为下载种子网站的未下载内容,选取后,系统只会采集指定节点中未下载过的内容,包括以前没下载的和更新的内容。

设置完成并确定无误后,可单击开始采集网页或者查看种子网址。此时,如果单击查看种子网址会看到列表是空的,这是因为新建立的采集节点从未采集过,如(图35)所示,

织梦教程-采集功能的使用方法 --- 不含分页的普通文章之三

图35-查看节点的种子网址

单击开始采集网页后,系统便会开始采集节点中设置的网址,并出现相关提示,如(图36)所示,

织梦教程-采集功能的使用方法 --- 不含分页的普通文章之三

织梦教程-采集功能的使用方法 --- 不含分页的普通文章之三

织梦教程-采集功能的使用方法 --- 不含分页的普通文章之三

图36-采集进程中提示信息

采集结束后,再次单击查看种子网址或者单击页面右上角的查看已下载,便可看到已采集到的网址信息,如(图37)所示,

织梦教程-采集功能的使用方法 --- 不含分页的普通文章之三

图37-查看节点的种子网址

成功采集以后,可以根据实际需要选择页面右上角的单击采集节点管理或者导出数据。单击导出数据后,便可进入 采集管理 采集内容导出界面,如(图38)所示,

织梦教程-采集功能的使用方法 --- 不含分页的普通文章之三

图38-采集内容导出

默认导出栏目:设置要把采集到的内容导入到的栏目

批量采集选项:如果在采集规则中已指定栏目ID,则可使用此功能,若指定的栏目ID为0,系统会把采集内容导入到默认导出栏目所选择的栏目中。

发布选项:有发布成普通文档和保存为草稿可供选择。

每批导入:设置每批导入的条数,此数不宜过大。

附带选项:此处为多选。如果不希望采集到重复的文章标题,可选中排除重复标题;如果希望被采集到的内容直接生成HTML的话,可选中完成后自动生成导入内容HTML;如果希望系统在采集列表页时自动识别标题名,可选中使用列表索引的标题,一般不建议勾选。

随机推荐:填入一个数字,代表文档篇数。在所填入的文档篇数内随机出现一篇推荐文档,若填入0,则表示为不推荐。

设置完成后,可单击确定,就可以把下载的导入到所选的栏目中了,如(图39)所示,

织梦教程-采集功能的使用方法 --- 不含分页的普通文章之三

图39-设置完成后的采集内容导出页面

同时,系统将会有导出进程提示,如(图40)所示,

织梦教程-采集功能的使用方法 --- 不含分页的普通文章之三