火车采集器2010新特性_火车采集器V2010帮助文档

火车采集器2010版相对旧版做了重大改进。添加了许多新功能。同时软件更稳定快速。添加的功能如下:

添加的功能:
1.丰富的插件功能:新版中PHP插件和C#插件可以在采网址时,采内容时,采完内容后使用插件,而不限是什么插件.同时对对插件开发提供了更加详细的开发手册,可以方便用户实现自己的特殊要求.
2.任务运行日志:程序将对运行的日志进行保存,方便用户在自动更新时查看采集器的工作情况.
3.更多的数据保存方式.程序可以将数据保存在access,sqlite,mssql,mysql,oracle数据库中,更快的速度,更方便的管理.
4.更方便的升级及.程序对文件目录格式进行了重新设置,用户如果不使用升级程序,只需要复制几个文件夹就可以经松完成升级.
5.支持可选的加密狗授权方式.
6.命令行模式.可以使用参数启动程序执行任务.可以通过计划任务的来实验定时采集,在采集结束后退出程序
7.中文分词增加用户词库,可以添加用户排除的词库.可以只使用用户词库.
8.本地采集数据管理里加入了图片预览功能.
9.标签可以上下进行排序.生成CSV时,就按该排序生成csv文件.测试时,返回的结果也以标签的排序进行显示.
10.图片和flash下载排除功能.对于符合条件的文件不进行下载.
11.文件上传标签里可以针对多个标签进行文件上传.
12.采网址部分在使用2级网址时可以设置列表页包含区域
13.循环采集时可以使用提取关键字,摘要等功能。
14.列表标签可以进行编辑,如排除和过滤,下载等。
其它更多小细节......


优化的项目:
1.任务列表树加载速度提高.
2.系统配置即时更新,不需要手工重新加载配置.
3.采集数据不符合要求过滤掉后不会再下载图片和其它文件.
4.PHP插件处理数据不限数据大小.
5.支持64位操作系统.
6.数据库发布模块支持八条以上的语句
7.自动分词增加了一倍的词库,加载词库只需1,2秒.
8.商业版授权方式,如硬件小的更改不会提示已更换电脑,仍可继续使用.
9.采网址采内容时可以暂停,程序将保存原来的采集状态.
10.列表页不使用自定义网址也可以配置提取内容中第一张图片为缩略图.
其它更多小细节......

修复的Bug:
1.有时双击列表无反应的bug.
2.保存特殊cookie时失败的bug.
3.无法处理韩文的Bug.
4.不添加新发布配置法删除原任务中发布配置的bug.
5.部分情况下程序直接退出的bug.
6.图片地址中出现&字符无法下载图片的bug.
7.部分文本编辑框中粘贴后光标位置错误的bug.
8,其它已知BUG。