cover_image

用rvest包来抓取Google学术搜索数据

雪晴数据网大数据人

大数据 人

报道DT时代应用资讯及动态，爆料剖析行业热点新闻

本文系雪晴数据网投稿于大数据人发布。欢迎更多优质原创文章投稿给大数据人：289585305@qq.com

在这篇文章，主要展示的是如何抓取Google学术网页。示例展示的是用rvest包来抓取作者博士指导老师的个人学术数据。我们可以看到他的合著者，论文被引用了多少次以及它们的附属机构。Hadley Wickham在RStudio Blog中写道：“rvest的灵感来源于类似beautiful soup这样可以轻易的从HTML网页抓取数据的一些库”。因为它被设计成跟magrittr一起使用。我们可以通过一些简单和易于理解的代码块组成的管道操作来表示复杂的操作。

注：要完成以下案例演示需具备科学上网的条件

加载R包：

用ggplot2包来作图

他的论文被引用了多少次？

使用SelectorGadget的CSS选择器来找出"cited by"列。

在html_nodes()中指定CSS选择器，html_text()用来提取文本。最后，用as.numernic()将字符串类型转换为数值类型。

查看引用此次数：
绘制引用次数的条形图：

合著者，他们的附属单位以及被引用的次数

同样，我们使用SelecotGadget的CSS选择器来找出匹配的合著者：

查看下合著者

截止到2016年1月1日，他的合著者共有27人。

他的合著者被引用了多少次？

通过全局替代提取数值字符串

将字符串转成数值型，再得到ggplot2可用的数据框格式：

合著者的附属机构
创建一个由coauthors,citations和affiliation组成的数据框

根据引用次数，对合著者重新排序

根据引用次数对合著者重新排序，以便得到递减的顺序图：

与他合著的科学家中，有引用超过了12000次。他的学生中像我（图中最后一个）这样的刚处在"学走路的阶段"。

总结

在这篇文章，我们看到了如何抓取Google学术数据。我抓取了我导师的账户，获得了论文引用次数数据，合著者的附属机构以及他们被引用的次数。

正如我们在这篇文章所看到的一样，利用rvest包可以很容易的抓取HTML网页数据。同样重要的是，SelectorGadget通过CSS选择器可以帮助我们找出感兴趣的数据。

修正：我的导师告诉我Google学术只收录了他的小部分合著者。跟他合作发表的一些科学家以及一些引用很多次文章并没有显示出来。进一步，上面得到的结果对于有些人来说是不符合常理的（如：资历更深的人发表了更多的文章却比资历浅的人引用的次数更少）。因此，Google学术数据应该谨慎使用。

版权声明：本文由雪晴数据网投稿于大数据人（www.bigdata.ren），转载请注明出处！

原文地址：http://www.bigdata.ren/portal.php?mod=view&aid=1180

千人QQ群：325414822

投稿邮箱：admin@bigdata.ren

继续滑动看下一个

大数据人

向上滑动看下一个