采集相关术语_火车采集器V7.0帮助文档

1.采集规则

简称规则,V7以前版本采集规则分为站点规则和任务规则,通常是指任务规则。V7版及以后采用无限级分组管理任务规则,所以不再有站点规则的概念。所谓采集规则就是要采集一个网站或某一网站栏目网页需要在软件里进行的设置。这个设置可以从软件里导出保存成一个文件并可以再导入到软件里。V7版的任务规则文件后缀名为.ljobx,以前的站点规则文件的后缀名为:.lsite;任务规则文件的后缀名为:.ljob。

2.采集任务

采集任务又简称为任务。它是采集规则和发布规则的总和。也是采集规则和发布规则的载体。采集规则和发布规则的设置通过在任务编辑框里进行设置。从采集器里导出的采集规则文件(.ljobx后缀的)也可称为任务规则。导入导出任务规则就是指导入导出.ljobx文件。

3.发布模块

发布模块又称模块、发布规则,分为WEB发布模块和数据库发布模块。所谓发布模块就是在需要将已经采集的数据发布到目的地(比如:网站/后台中或指定数据库中)时在软件里进行的设置。这个设置可以保存成一个文件并可以导入到采集器里使用。数据库发布模块文件的后缀名为:.dpm;WEB在线发布模块文件的后缀名为:.wpm。(采集规则和发布模块都可以从采集器里导出,也都可以导入到采集器中使用。采集规则负责将网页上的数据采集下来,发布模块负责将采集的数据发布到网站中。可见,采集规则的编写和修改和被采集的网站有关系,而发布模块的编写和修改和要发布数据的网站有关系。如从不同的网站栏目采集数据往同一个网站的某个板块(频道)里发布,需要多个采集规则和一个发布模块。从一个网站栏目采集数据往不同的网站系统里发布,需要一个采集规则和多个发布模块。注意这里的说的采集规则是指采集网站和抓取内容的设置。)

4.标签

标签是指用来提取某项内容信息的一个字段名字,由用户在编辑规则的时候指定。比如标题,手机号,邮件,作者,内容标签,采集到的信息则在发布模块中就可以通过该标签名对应获取到,格式为[标签:标签名]如[标签:标题],标签在火车采集器里面有分为两种:分别为列表页标签和内容页标签,顾名思义,列表页标签就是在获取列表页时(即采网址时)就获取到内容信息,内容页标签是在获取内容页或多页内容时(采内容)才获取内容信息。

注:通常还有一种说法为 html标签,这里的标签是指一些html代码里面的属性标识符,如:<a href里面的a标签,里面的font标签为html标签,该术语在内容处理的html标签排除项出现。

5.起始网址

用来获取下级链接地址的入口网址,可以为一条或多条,可以通过添加起始网址向导添加同格式多条网址或导入文本网址。这里的起始网址相当于2010版以前的0级网址的概念。如果没有定义多级网址的获取方法,这些地址即作为内容页网址进行内容采集。

6.多级网址

依次根据列表里面的多级网址顺序采集分析地址,多级网址相当于2010版以前的1级,2级,3级到N级的概念。通过依次采集分析到最后一级得到内容页地址。多级网址的获取可以使用自动分析,手工分析及Xpath可视化提取方法采集下级网址,在采集的过程中,可以同时采集列表分页及提取列表页附加参数。

7.Cookie

简单地说,就是在Http请求访问中记录您的用户信息即登录信息的一段用于与服务器进行交互的字符串。在浏览器中使用时通常还会以文本形式记录到您的IE缓存目录中以便下次在有效期内不用输入用户信息即可继续访问验证权限的网页。

8.User-Agent

这是用来向服务器通知您使用的客户端是IE6,IE7,FireFox或是某某抓取蜘蛛,在某些需要登录的网页可能同时验证Cookie和User-Agent所以可能需要您将其设置为与本机浏览器同样的格式。

9.分页

比如这篇文章页面:http://ent.qq.com/music/a/20050516/000026.htm它的内容比较长,分成了7页显示出来,而真正的内容需要将7页的内容组合起来。这样的7个子页面就是分页。

10.多页