使用正则匹配模式采集数据_火车采集器V2010帮助文档

使用正则匹配模式采集数据 

  正则表达式很强大,利用它我们可以获得一定格式的数据,比如网址,E-mail地址,数字,字母等等.可喜的是,从3.2版开始,火车采集器就支持正则规则的编写了,这给喜欢用正则来实现不同需求的朋友带来福音。火车采集器里支持两种正则,一个纯正则,一个参数正则。我们下边分开讲一下。

 1.纯正则:

先看一下图正则采集

在标签中用正则表达式采内容的格式是这样:

开始代码(?<content>正则表达式)结束代码

其中在开始代码和结束代码中如有需要转义的字符就要用\转义。

比如我们要获取火车论坛的版块,我们从首页获取,正则可以这样写

使用正则采版块

 

然后就可以获得我们需要的版块名称了。

2.参数正则

这个不算是正则,和网址采集那块的参数使用原理是一样的,可以对采到的内容进行组合。输入框两边都不得为空,后边的组合结果 [参数N] 是按匹配内容的顺序来写的,我们还是以http://bbs.locoy.com/为例,来获得栏目ID和栏目名称。

测试一下,是可以获得我们需要的结果了。^_^  。

正则基本就这样,主要是写表达式的问题。如果您对这有兴趣,可以下载相关一些资料研究一下。