请先安装爬虫软件。爬虫软件安装 先回顾一下单页采集所讲到的内容。 以微博博主主页采集为例,目标是采集博主名称、微博内容、发博日期、微博内容、转发数、评论数和点赞数。 单页采集的流程共分为四步——加载页面、内容映射、样例复制、存规则和抓数据。 本次讲解的翻页采集的流程相较于单页采集而言,只增加了一个步骤,如图—— 前三个步骤与单页采集前三个步骤一样,这里不进行赘述了,可以回顾原来的文章《【02】基础:单页采集(以微博博主主页采集为例》。 现在重点讲解如何设定翻页采集。 四、通过‘爬虫路线’来设定翻页通过新建爬虫路线来设定采集的翻页路线——
(网页结构中的@id属性每个页面不同的几率较大,如果线索定位偏好@id,容易导致在后续的抓取中翻页失败。所以一般我们手工修改选择较为稳定不变的@class属性,作为线索定位的首选项。) 接下来的操作——
前面的操作,一是先定义爬虫路线,选择了连贯抓取和记号线索,二是找到翻页标志“下一页”所在的text节点。 接下来,右击“下一页”对应的text节点,选择线索映射后点击记号映射,对应的爬虫路线工作台记号值中就可以看到“下一页”了。 同时,记号定位编号也会相应显示“下一页”在网页结构窗口中的对应编号。 然后就是给翻页线索进行定位了。
不要纠结于翻页线索是什么,给翻页线索进行定位相当于是确定记号线索的大范围,记号线索的理解就是告诉爬虫点击哪里可以翻到下一页。 到这里不着急测试,我们先停下来捋一捋爬虫的采集路线。 首先,MS规则制定工作台中的“创建规则”告诉了爬虫在当前页要采集的信息有哪些。 接着,MS规则制定工作台中的“爬虫路线”中的记号线索告诉爬虫采集完当前页之后点击“下一页”(相当于一次‘模拟点击’),连贯抓取告诉翻到新的页面之后继续套用这个采集规则。 整个流程相当于是这样的:(采集线索网址的当前页的内容->翻页到新的页面)->(采集新页面的内容->翻页到新的页面)—>(采集新页面的内容-> 翻页到新的页面)... ... ->最后一页采集完毕。 连贯抓取相当于将整个循环路线串起来了,这样整个爬虫流程就通畅了。 五、保存规则,运行DS打数机抓取数据保存完规则之后,就可以启动DS打数机了。 在爬数据之前,我们先要设置一下滚屏的参数。 在最开始制作规则的时候就可以看到,微博下方需要加载两次才能完全显示一页的所有微博数量,会出现“正在加载中”的字样,这种情况下就可能需要设置滚屏的参数。(默认值为:次数2,速度2) 滚屏次数与滚屏速度分别是5和3,通过测试之后,这个组合是最优组合。 这些数字不是固定的,可根据情况进行调整。
最后获取到的采集结果(节选部分)如下图: 接下来回顾下如何将采集结果转成Excel。 六、将采集结果转成Excel
已转换为excel格式的数据请看下图: |
|广告服务|关于我们|Archiver|手机版|小黑屋|大数据人 ( 鄂ICP备14012176号-2 )
GMT+8, 2024-4-26 17:08 , Processed in 0.185280 second(s), 22 queries .
Powered by 小雄! X3.2
© 2014-2020 bigdataer Inc.