使用分页采集有分页的数据
分页就是目标网站上一个文章分为好几页,我们需要设置规则将其全部采到。采集要点:
1.采集规则要对每个分页都适用。
2.分页规则如果是全部列出,只要第一个页面的分页规则就可以了。如果是上下页,每个页面的分页规则也要都适用。
具体操作流程:先测试获得所有分页,再对每个分页里的内容进行获取。
下边我们以http://www.pconline.com.cn/diy/graphics/hq/gz/0802/1226877.html为 例来说明一下具体的使用方法。
我们先解释第一点:采集规则要对每个分页都适用
我们先看一下,这里分页有两个,前一页[1] [2] 下 一页 ,我们要做的是要使所写的规则在两个页面中都可以正常采到内容,写个规则,测试第一页,成功获 取内容,然后改写网址为第二个,测试,同样可以获得我们要的内容,那么,说明这一步你已经成功了。进入下一步。我的规则是这样写的,两个页面都通过。规则下 载.
现在我们看分页这里的设置,全部列出是在第一页或每一页上都有全部的颁布文章的网址,上下页是没有将全部的列出。我们这个规则里选全部列出。因此, 我们只要在第一页里找好包含所有网址的区域就可以了。
看一下,上边是有分页网址的区域,选个开头结尾,就可以正常采到分页了。
火车的新版是可以直观的看到分页网址的,这对做分页规则很有用。
看吧,这样全部采集到了。。规则下 载。
注意:分页设置下边有个分页内容合并连接代码,你可以设置成你想要的东西,比如你CMS的手动分页标签。
下边我们来讲一个上下页的分页处理方法及如何使用手动链接地地规则.我们以 http://www.inpai.com.cn/doc/hard/86643.htm 这 个页面为例.我们来找一下分页的开头和结尾,这个分页很明显.
开始:<div id="divSubPageNav" class="doctext08"> 结束:</div>. 使用上一页,下一页的形式就可以采到所有地址.不过你会发现有一个地址是我们不需要的,看下边:
████████████████████████████████████
█此页面包含多个分页:
█1:http://www.inpai.com.cn/doc/hard/86643.htm
█2:http://www.inpai.com.cn/doc/hard/86643_2.htm
█3:http://www.inpai.com.cn/doc/hard/86643_3.htm
█4:http://www.inpai.com.cn/doc/hard/86643_4.htm
█5:http://www.inpai.com.cn/doc/hard/86643_5.htm
█6:http://www.inpai.com.cn/doc/hard/86643_6.htm
█7:http://www.inpai.com.cn/doc/hard/86643_7.htm
█8:http://www.inpai.com.cn/doc/hard/86643_8.htm
█9:http://www.inpai.com.cn/doc/hard/86643_9.htm
█10:http://www.inpai.com.cn/doc/hard/86643_10.htm
█11:http://www.inpai.com.cn/doc/hard/86643_11.htm
█12:http://www.inpai.com.cn/doc/hard/86643_12.htm
█13:http://www.inpai.com.cn/doc/hard/86643_13.htm
█14:http://www.inpai.com.cn/doc/hard/86643_14.htm
█15:http://www.inpai.com.cn/doc/hard/86643_15.htm
█16:http://www.inpai.com.cn/doc/hard/86643_16.htm
█17:http://www.inpai.com.cn/doc/hard/86643_17.htm
█18:http://www.inpai.com.cn/doc/hard/86643_18.htm
█19:http://product.inpai.com.cn/Product_default_1041.htm
█ 有分页匹配的标签,比如内容注意选中标签编辑框中的[该标签在分页中匹配]
████████████████████████████████████
最后一个不是的,我们可以看到,前边的网址和后边的是不一样的.现在是我们使用手动填写链接地址规则的时候了.在分页链接地址样式里边,我们写 http://www.inpai.com.cn/[参数].htm 分页网址里写http://www.inpai.com.cn/[参数 1].htm,现在看一下,正确了.
技巧:在使用自定义地址样式时,程序会自动补全网址,请看这个规则