过滤、替换、去除无用信息
使用过滤,替换,可以去除采集到的内容里我们不需要的东西,如干扰码,白色字等。
程序自带的htm标签排除功能已什么全面,可以大面积去除不需要的标签,比如第一个就可以去除所有的链接。
这里的排除支持(*),
这里支持参数型替换,注意这个是标准版有的功能。
需要注意的一点是:程序是先排除后替换。最后使用html标签排除。还有就是替换和排除里的顺序。
看上边的图,这里的替换和排除是有顺序的。可以自己调顺序的。
过滤、替换、去除无用信息
使用过滤,替换,可以去除采集到的内容里我们不需要的东西,如干扰码,白色字等。
程序自带的htm标签排除功能已什么全面,可以大面积去除不需要的标签,比如第一个就可以去除所有的链接。
这里的排除支持(*),
这里支持参数型替换,注意这个是标准版有的功能。
需要注意的一点是:程序是先排除后替换。最后使用html标签排除。还有就是替换和排除里的顺序。
看上边的图,这里的替换和排除是有顺序的。可以自己调顺序的。