当需要采集同样格式的多条数据时,可以根据其中一条信息格式进行设置,然后使用循环匹配。
我们以网址http://bbs.locoy.com/spider-140339-1-1.html为例,
来获取获取它的主题内容和回复内容。查看源代码,分析得到:
主题内容开始字符串为id=”postmessage_649823″> 因为不同的帖子,ID不同,
所以我们把649823这个数字设置为(*)通配符.即开头字符串为id=”postmessage_(*)”>
结尾字符串为</td></tr></table>
然后勾选下图中的循环匹配,即可实现主题和回复的内容采集。
循环设置——添加为新记录
此方式采集到的每条记录都为单独的行存储在数据库中
循环设置——用分隔符连接在上条记录后
此方式采集到的多条记录用分隔符(默认###,可自行修改)连接在一起存储在一个字段内,如下图:
声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。