请先安装爬虫软件。爬虫软件安装。 前言还是老样子,本教程的流程图先过目一下: 自学爬虫的人,似乎很喜欢拿知乎来练手,用自己写的程序去爬妹纸图。 一起学习集搜客网络爬虫不深入程序讲原理,利用现成的爬虫软件去抓取,试想一下,在图片网站找素材的时候,看到第一张图,先做个内容映射,勾选图片下载,再做个样例复制批量采集本页图片,最后做个翻页把全部页面的图片都采集下来了。 所以归根结底,原理都是一样的,就是多了一步勾选图片下载而已。 一、加载页面,定义主题名样本网址:http://www.topit.me/ 一个图片素材网站,收录图片的质量较高,无水印。 我们就拿当前推荐页面的100页图片来练练手,观察下布局,1页20张图片,总共100页,所以最终会采集到2000张图片。 是不是再也不用担心没有素材了~ 是的,懒得打字了,操作看图。 二、建立整理箱进行内容映射点击操作栏中的“创建规则”,点击新建,给整理箱取个名字,取啥都可以。箱子必须有,否则程序不知道把采集下来的数据放在哪里。 接着告诉整理箱要采集哪些数据,这个案例主要就是采集图片,所以我只要图片名称和作者以及下载地址。 在网页标签结构页面找到“图片名称”和“收录员”分别对应的#text节点,因为这两个字段要采集的是文本内容,然后分别内容映射给它们。 接着点击第一张图片,会定位到img节点,将img节点向下展开,找到attributes(属性的意思)里头的src,将它内容映射给“下载地址”。 记得将其中一个采集字段设置为“关键内容”。 为什么要将src映射给下载地址呢? 试想下,平时我们下载图片都是通过下载地址来下载的,所以映射下载地址的目的就是找到图片的下载地址(即img的src),勾选图片下载之后,给爬虫下的指令就是—— “爬虫同志,我映射了下载地址,你把src采集下来的同时把图片也一并把图片下载了吧”。然后爬虫就明白了。 三、样例复制采集多张图片前面的操作只能抓一张图片的信息并且将其采集下来,要实现当前页面所有图片的采集及下载,就要交给样例复制了。
测试一下,样例复制成功。 就是这么简单。 四、通过‘爬虫路线’设定翻页最后,别忘记设定翻页了。不然爬虫抓完当前页就会认为完成工作了。 上一个教程就是讲怎么做翻页的。
可以了,整个采集流程走通了—— ''(采集线索网址的当前页内容及下载图片->翻到新的页面)->(采集新页面的内容及下载图片->翻页到新的页面)->(采集新页面的内容及下载图片->翻页到新的页面)->... ...->第100页采集完毕'' 五、保存规则,运行DS打数机抓取保存完规则之后,就可以启动DS打数机了。 一气呵成,采集结果如下图,除了.meta和temping文件夹之外,有200个文件,100个是xml文件(每页对应一个),另外100个文件夹分别存放着100页的图片。 打开其中一个存放图片的文件夹,看看图片。 将XML结果转成Excel参看:【04】基础:将采集结果转成Excel 我就把结果放出来瞄瞄,Excel计数结果为2001,除去标题行,剩下2000条数据分别对应2000张图片的信息。 |
|广告服务|关于我们|Archiver|手机版|小黑屋|大数据人 ( 鄂ICP备14012176号-2 )
GMT+8, 2024-3-29 13:38 , Processed in 0.183802 second(s), 22 queries .
Powered by 小雄! X3.2
© 2014-2020 bigdataer Inc.