实用软件资讯

火车头采集器:编辑任务中常见问题

1.标题前面大量空白,应该如何采集?

 答:程序里有html过滤选项,你可以选中过滤这些空白字符 ,如果有些空白字符不在html过虑里,你可以在过滤选项里添加那些字符。

 2.同一个页面,很多相同内容,怎么分做为多条记录保存?

 答:程序有循环匹配的功能,在选中循环后,再选下边的添加为新记录就可以了。

     

 3.如何把采集内容页的网址也采集下来 ?

 答:程序默认是将采集页的网址保存在数据库里,在模块或模板里可以使用[采集页地址]来将它发布或显示出去。

 4.内容页上有个链接,如何把这个链接页面上的内容采过来?

 答:可以使用多页采集,。具体用法参见技术文档相关部分。

 5.采集要登陆的网站怎么办?

 答:在采集网址那一块,你可以选择是默认获取cookie 或者是 手动获取登陆信息。获取到正确的cookie后,就可以了.

 6.采集时出现乱码,怎么办?

 答:程序默认是自动识别网页编码。如果有些网页编码识别出错,请在‘文件保存及部分高级设置’那里手动指定编 码。

 7.采集网页源码中需要的内容结尾不固定怎么办?网站有多个风格怎么办?

 答:这种情况下,使用正则表达式就可以很好的解决问题。这个适于有相关经验的朋友。具体是在编辑规则时,编辑标签那里,选"使用正则匹配内容“。具体用法见技术文档正则相关部分.

 8.如何过滤空格或回车等字符?

 答:在任务的标签编辑里,在过滤那里,你敲个回车进去程序会过滤掉回车符,你敲个空格进去会过滤空格,以此类推。

 9.采集器.是先排除,还是先替换啊?

 答:先排除再替换。

 10.为什么我不能下载文件或论坛附件?

答:因为这功能在个人版以上才有,免费版只能下载图片和flash.

 11.循环采集时,分页内容合并链接代码不起作用了?

 答:这个是程序特意设计的,因为你循环时,一定是用间隔符连接的,比如采论坛回复时需要使用循环,一个主题 下主题及所有的回复和是应放在一块的。

 12.对于网址深度多于2级的怎么办?

 答:火车采集器有网址导出导入的功能,你可以用这个实现无限级的网址采集。在测试网址那一块,你选测试网址,然后就可以导出二级或二级网址。

 13.采集器里那里都支持正则表达式?

 答:一是规则制作那块,使用content来存储获得的内容如 (?<content>d+),这个是获取数字的。二是多页那块网址替换那里,是用$1,$2这样的形式来在下边引用。具体用法见技术文档 正则相关部分.

 

希望看到您的想法,请您发表评论x