通过采集网页抓取工具火车采集器官网的faq为例来说明采集器采集的原理和过程。 (1)新建个采集规则 选择一个分组上右击,选择“新建任务”,如下图: 分析网址变量规律(2)添加起始网址 第一页地址:http://faq.locoy.com/qc-12.html?p=1 第二页地址:http://faq.locoy.com/qc-12.html?p=2 第三页地址:http://faq.locoy.com/qc-12.html?p=3 由此我们可以推算出p=后的数字就是分页的意思,我们用[地址参数]表示: 所以设置如下: 数字变化:从1开始,即第一页;每次递增1,即每次分页的变化规律数字; 共5项,即一共采集5页。地址格式:把变化的分页数字用[地址参数]表示。 预览:采集器会按照上面设置的生成一部分网址,让你来判读添加的是否正确。 然后确定即可 (3)[常规模式]获取内容网址 在这里给大家演示用 自动获取地址链接 +设置区域 的 方式来获取。 查看页面源代码找到文章地址所在的区域: 注:更详细的分析说明可以参考本手册:设置如下: 操作指南 > 软件操作 > 网址采集规则 > 获取内容网址 点击网址采集测试,看看测试效果 (3)内容采集网址以 http://faq.locoy.com/q-1184.html 为例讲解标签采集 注:更详细的分析说明可以下载参考官网的用户手册。 操作指南 > 软件操作 > 内容采集规则 > 标签编辑 我们首先查看它的页面源代码,找到我们“标题”所在位置的代码: <title>导入Excle是跳出对话框~打开Excle出错 - 火车采集器帮助中心</title> 分析得出: 开头字符串为:<title> 分析得出: 开头字符串为:<div id="cmsContent">内容标签的设置原理也是类似的,找到内容所在源码中的位置 结尾字符串为:</div> 再设置个“来源”字段 这样一个简单的文章采集规则就做好了,使用通用的网页抓取工具火车采集器并按照这个示例的步骤就可以进行其它类型数据采集的扩展啦。 |
|广告服务|关于我们|Archiver|手机版|小黑屋|大数据人 ( 鄂ICP备14012176号-2 )
GMT+8, 2024-4-24 22:24 , Processed in 0.177796 second(s), 21 queries .
Powered by 小雄! X3.2
© 2014-2020 bigdataer Inc.