火车头采集器：编辑任务中常见问题

1.标题前面大量空白，应该如何采集？

　答：程序里有html过滤选项，你可以选中过滤这些空白字符 ,如果有些空白字符不在html过虑里,你可以在过滤选项里添加那些字符。

　2.同一个页面，很多相同内容，怎么分做为多条记录保存？

　答：程序有循环匹配的功能，在选中循环后，再选下边的添加为新记录就可以了。

　3.如何把采集内容页的网址也采集下来 ?

　答:程序默认是将采集页的网址保存在数据库里，在模块或模板里可以使用[采集页地址]来将它发布或显示出去。

　4.内容页上有个链接，如何把这个链接页面上的内容采过来？

　答:可以使用多页采集，。具体用法参见技术文档相关部分。

　5.采集要登陆的网站怎么办？

　答:在采集网址那一块，你可以选择是默认获取cookie 或者是手动获取登陆信息。获取到正确的cookie后，就可以了.

　6.采集时出现乱码,怎么办?

　答:程序默认是自动识别网页编码。如果有些网页编码识别出错，请在‘文件保存及部分高级设置’那里手动指定编码。

　7.采集网页源码中需要的内容结尾不固定怎么办？网站有多个风格怎么办?

　答:这种情况下，使用正则表达式就可以很好的解决问题。这个适于有相关经验的朋友。具体是在编辑规则时，编辑标签那里，选"使用正则匹配内容“。具体用法见技术文档正则相关部分.

　8.如何过滤空格或回车等字符？

　答：在任务的标签编辑里，在过滤那里，你敲个回车进去程序会过滤掉回车符，你敲个空格进去会过滤空格，以此类推。

　9.采集器.是先排除,还是先替换啊?

　答：先排除再替换。

　10.为什么我不能下载文件或论坛附件？

答：因为这功能在个人版以上才有，免费版只能下载图片和flash.

　11.循环采集时，分页内容合并链接代码不起作用了？

　答：这个是程序特意设计的，因为你循环时，一定是用间隔符连接的，比如采论坛回复时需要使用循环，一个主题下主题及所有的回复和是应放在一块的。

　12.对于网址深度多于2级的怎么办？

　答：火车采集器有网址导出导入的功能，你可以用这个实现无限级的网址采集。在测试网址那一块，你选测试网址，然后就可以导出二级或二级网址。

　13.采集器里那里都支持正则表达式？

　答：一是规则制作那块，使用content来存储获得的内容如 (?<content>d+),这个是获取数字的。二是多页那块网址替换那里，是用$1,$2这样的形式来在下边引用。具体用法见技术文档正则相关部分.