大数据人|大数据第一社区

 找回密码
 注册会员

扫一扫,访问微社区

【06】中级:图片采集(以优美网图片采集为例)

2016-9-13 15:24| 发布者: 集搜客GooSeeker| 查看: 760| 评论: 0|原作者: 集搜客GooSeeker|来自: gooseeker.com

摘要: 一起学习集搜客网络爬虫不深入程序讲原理,利用现成的爬虫软件去抓取,试想一下,在图片网站找素材的时候,看到第一张图,先做个内容映射,勾选图片下载,再做个样例复制批量采集本页图片,最后做个翻页把全部页面的 ...

请先安装爬虫软件。爬虫软件安装

前言

还是老样子,本教程的流程图先过目一下:

自学爬虫的人,似乎很喜欢拿知乎来练手,用自己写的程序去爬妹纸图。

一起学习集搜客网络爬虫不深入程序讲原理,利用现成的爬虫软件去抓取,试想一下,在图片网站找素材的时候,看到第一张图,先做个内容映射,勾选图片下载,再做个样例复制批量采集本页图片,最后做个翻页把全部页面的图片都采集下来了。

所以归根结底,原理都是一样的,就是多了一步勾选图片下载而已。

一、加载页面,定义主题名

样本网址:http://www.topit.me/

一个图片素材网站,收录图片的质量较高,无水印。

我们就拿当前推荐页面的100页图片来练练手,观察下布局,1页20张图片,总共100页,所以最终会采集到2000张图片。

是不是再也不用担心没有素材了~

是的,懒得打字了,操作看图。

加载页面.jpg

二、建立整理箱进行内容映射

点击操作栏中的“创建规则”,点击新建,给整理箱取个名字,取啥都可以。箱子必须有,否则程序不知道把采集下来的数据放在哪里。

接着告诉整理箱要采集哪些数据,这个案例主要就是采集图片,所以我只要图片名称和作者以及下载地址。

在网页标签结构页面找到“图片名称”和“收录员”分别对应的#text节点,因为这两个字段要采集的是文本内容,然后分别内容映射给它们。

接着点击第一张图片,会定位到img节点,将img节点向下展开,找到attributes(属性的意思)里头的src,将它内容映射给“下载地址”。

记得将其中一个采集字段设置为“关键内容”。

内容映射.jpg

为什么要将src映射给下载地址呢?

试想下,平时我们下载图片都是通过下载地址来下载的,所以映射下载地址的目的就是找到图片的下载地址(即img的src),勾选图片下载之后,给爬虫下的指令就是——

“爬虫同志,我映射了下载地址,你把src采集下来的同时把图片也一并把图片下载了吧”。然后爬虫就明白了。

三、样例复制采集多张图片

前面的操作只能抓一张图片的信息并且将其采集下来,要实现当前页面所有图片的采集及下载,就要交给样例复制了。

样例复制
  1. 点击第一张图片,往上逐层点击找到能框住整个样例的div区块节点,右击样例复制映射给第一个
  2. 如果你没找错区块节点的话,顺着你刚刚找的div区块节点下的第二个区块节点能够框住第二张图,同理,将该节点右击样例复制映射给第二个

测试一下,样例复制成功。

测试结果

就是这么简单。

四、通过‘爬虫路线’设定翻页

最后,别忘记设定翻页了。不然爬虫抓完当前页就会认为完成工作了。

上一个教程就是讲怎么做翻页的。

翻页设置
  1. 这里,在工作台“爬虫路线”页面中新建一个线索,因为每翻一页就要套用当前的规则,所以勾选连贯抓取。
  2. 选择记号线索,这里翻页的记号是“>>”,在#text中能够找到,所以勾选文本记号。#text找不到就不用勾选。
  3. 将翻页记号“>>”对应的#text节点右击选择“线索映射>记号映射”。
  4. 找到包含整个页面范围的区块节点,这里对应的div节点,右击选择“线索映射>定位>线索1”

可以了,整个采集流程走通了——

''(采集线索网址的当前页内容及下载图片->翻到新的页面)->(采集新页面的内容及下载图片->翻页到新的页面)->(采集新页面的内容及下载图片->翻页到新的页面)->... ...->第100页采集完毕''

五、保存规则,运行DS打数机抓取

保存完规则之后,就可以启动DS打数机了。

一气呵成,采集结果如下图,除了.meta和temping文件夹之外,有200个文件,100个是xml文件(每页对应一个),另外100个文件夹分别存放着100页的图片。

采集结果1

打开其中一个存放图片的文件夹,看看图片。

采集结果2

将XML结果转成Excel参看:【04】基础:将采集结果转成Excel

我就把结果放出来瞄瞄,Excel计数结果为2001,除去标题行,剩下2000条数据分别对应2000张图片的信息。

XML转Excel

鲜花

握手

雷人

路过

鸡蛋

相关阅读

最新评论

关闭

站长推荐上一条 /2 下一条


id="mn_portal" >首页Portalid="mn_P18" onmouseover="navShow('P18')">应用id="mn_P15" onmouseover="navShow('P15')">技术id="mn_P37" onmouseover="showMenu({'ctrlid':this.id,'ctrlclass':'hover','duration':2})">前沿id="mn_P36" onmouseover="navShow('P36')">宝箱id="mn_P61" onmouseover="showMenu({'ctrlid':this.id,'ctrlclass':'hover','duration':2})">专栏id="mn_P65" >企业id="mn_Nd633" >导航 折叠导航 关注微信 关注微博 关注我们

QQ|广告服务|关于我们|Archiver|手机版|小黑屋|大数据人 ( 鄂ICP备14012176号-2  

GMT+8, 2024-3-29 13:38 , Processed in 0.183802 second(s), 22 queries .

Powered by 小雄! X3.2

© 2014-2020 bigdataer Inc.

返回顶部