admin 发表于 2014-9-16 19:23:11

R语言实战(中文完整版).pdf

(一本全面而细致的R指南!从大数据中获取有用信息的绝佳工具!)




电子书回帖可见下载地址:

**** Hidden Message *****

书籍配套源码下载:http://www.bigdata.ren/forum.php?mod=viewthread&tid=540



数据时代已经到来,但数据分析、数据挖掘人才却十分短缺。由于“大数据”对每个领域的决定性影响, 相对于经验和直觉,在商业、经济及其他领域中基于数据和分析去发现问题并作出科学、客观的决策越来越重要。开源软件R是世界上最流行的数据分析、统计计算及制图语言,几乎能够完成任何数据处理任务,可安装并运行于所有主流平台,为我们提供了成千上万的专业模块和实用工具,是从大数据中获取有用信息的绝佳工具。 
内容简介
  数据时代已经到来,但数据分析、数据挖掘人才却十分短缺。由于“大数据”对每个领域的决定性影响,相对于经验和直觉,在商业、经济及其他领域中基于数据和分析去发现问题并作出科学、客观的决策越来越重要。开源软件R是世界上最流行的数据分析、统计计算及制图语言,几乎能够完成任何数据处理任务,可安装并运行于所有主流平台,为我们提供了成千上万的专业模块和实用工具,是从大数据中获取有用信息的绝佳工具。
  《R语言实战》从解决实际问题入手,尽量跳脱统计学的理论阐述来讨论R语言及其应用,讲解清晰透澈,极具实用性。作者不仅高度概括了R语言的强大功能、展示了各种实用的统计示例,而且对于难以用传统方法分析的凌乱、不完整和非正态的数据也给出了完备的处理方法。通读本书,你将全面掌握使用R语言进行数据分析、数据挖掘的技巧,并领略大量探索和展示数据的图形功能,从而更加高效地进行分析与沟通。
  想要成为倍受高科技企业追捧的、炙手可热的数据分析师吗?想要科学分析数据并正确决策吗?不妨从本书开始,挑战大数据,用R开始炫酷的数据统计与分析吧!
  《R语言实战》内容:
  R安装与操作
  数据导入/导出及格式化
  双变量关系的描述性分析
  回归分析
  模型适用性的评价方法以及结果的可视化
  用图形实现变量关系的可视化
  在给定置信度的前提下确定样本量
  高级统计分析方法和高级绘图



作者简介
  Robert I. Kabacoff,R语言社区著名学习网站的幕后维护者,现为全球化开发与咨询公司Management研究集团研发副总裁。此前,Kabacoff博士是佛罗里达诺瓦东南大学的教授,讲授定量方法和统计编程的研究生课程。Kabacoff还是临床心理学博士、统计顾问,擅长数据分析,在健康、金融服务、制造业、行为科学、政府和学术界有20余年的研究和统计咨询经验。



精彩书评
  “本书从务实的角度出发,清晰阐释了R的基本知识及统计数据分析,为我提供了很大帮助。”
  ——读者评论



目录
第一部分 入  门
第1章 R语言介绍
1.1  为何要使用R?
1.2  R的获取和安装
1.3  R的使用
1.3.1  新手上路
1.3.2  获取帮助
1.3.3  工作空间
1.3.4  输入和输出
1.4  包
1.4.1  什么是包
1.4.2  包的安装
1.4.3  包的载入
1.4.4  包的使用方法
1.5  批处理
1.6  将输出用为输入——结果的重用
1.7  处理大数据集
1.8  示例实践
1.9  小结
第2章 创建数据集
2.1  数据集的概念
2.2  数据结构
2.2.1  向量
2.2.2  矩阵
2.2.3  数组
2.2.4  数据框
2.2.5  因子
2.2.6  列表
2.3  数据的输入
2.3.1  使用键盘输入数据
2.3.2  从带分隔符的文本文件导入数据
2.3.3  导入Excel数据
2.3.4  导入XML数据
2.3.5  从网页抓取数据
2.3.6  导入SPSS数据
2.3.7  导入SAS数据
2.3.8  导入Stata数据
2.3.9  导入netCDF数据
2.3.10  导入HDF5数据
2.3.11  访问数据库管理系统
2.3.12  通过Stat/Transfer导入数据
2.4  数据集的标注
2.4.1  变量标签
2.4.2  值标签
2.5  处理数据对象的实用函数
2.6  小结
第3章 图形初阶
3.1  使用图形
3.2  一个简单的例子
3.3  图形参数
3.3.1  符号和线条
3.3.2  颜色
3.3.3  文本属性
3.3.4  图形尺寸与边界尺寸
3.4  添加文本、自定义坐标轴和图例
3.4.1  标题
3.4.2  坐标轴
3.4.3  参考线
3.4.4  图例
3.4.5  文本标注
3.5  图形的组合
3.6  小结
第4章 基本数据管理
4.1  一个示例
4.2  创建新变量
4.3  变量的重编码
4.4  变量的重命名
4.5  缺失值
4.5.1  重编码某些值为缺失值
4.5.2  在分析中排除缺失值
4.6  日期值
4.6.1  将日期转换为字符型变量
4.6.2  更进一步
4.7  类型转换
4.8  数据排序
4.9  数据集的合并
4.9.1  添加列
4.9.2  添加行
4.10  数据集取子集
4.10.1  选入(保留)变量
4.10.2  剔除(丢弃)变量
4.10.3  选入观测
4.10.4  subset()函数
4.10.5  随机抽样
4.11  使用SQL语句操作数据框
4.12  小结
第5章 高级数据管理
5.1  一个数据处理难题
5.2  数值和字符处理函数
5.2.1  数学函数
5.2.2  统计函数
5.2.3  概率函数
5.2.4  字符处理函数
5.2.5  其他实用函数
5.2.6  将函数应用于矩阵和数据框
5.3  数据处理难题的一套解决方案
5.4  控制流
5.4.1  重复和循环
5.4.2  条件执行
5.5  用户自编函数
5.6  整合与重构
5.6.1  转置
5.6.2  整合数据
5.6.3  reshape包
5.7  小结
第二部分 基本方法
第6章 基本图形
6.1  条形图
6.1.1  简单的条形图
6.1.2  堆砌条形图和分组条形图
6.1.3  均值条形图
6.1.4  条形图的微调
6.1.5  棘状图
6.2  饼图
6.3  直方图
6.4  核密度图
6.5  箱线图
6.5.1  使用并列箱线图进行跨组比较
6.5.2  小提琴图
6.6  点图
6.7  小结
第7章 基本统计分析
7.1  描述性统计分析
7.1.1  方法云集
7.1.2  分组计算描述性统计量
7.1.3  结果的可视化
7.2  频数表和列联表
7.2.1  生成频数表
7.2.2  独立性检验
7.2.3  相关性的度量
7.2.4  结果的可视化
7.2.5  将表转换为扁平格式
7.3  相关
7.3.1  相关的类型
7.3.2  相关性的显著性检验
7.3.3  相关关系的可视化
7.4  t检验
7.4.1  独立样本的t检验
7.4.2  非独立样本的t检验
7.4.3  多于两组的情况
7.5  组间差异的非参数检验
7.5.1  两组的比较
7.5.2  多于两组的比较
7.6  组间差异的可视化
7.7  小结
第三部分 中级方法
第8章 回归
8.1  回归的多面性
8.1.1  OLS回归的适用情境
8.1.2  基础回顾
8.2  OLS回归
8.2.1  用lm()拟合回归模型
8.2.2  简单线性回归
8.2.3  多项式回归
8.2.4  多元线性回归
8.2.5  有交互项的多元线性回归
8.3  回归诊断
8.3.1  标准方法
8.3.2  改进的方法
8.3.3  线性模型假设的综合验证
8.3.4  多重共线性
8.4  异常观测值
8.4.1  离群点
8.4.2  高杠杆值点
8.4.3  强影响点
8.5  改进措施
8.5.1  删除观测点
8.5.2  变量变换
8.5.3  增删变量
8.5.4  尝试其他方法
8.6  选择“最佳”的回归模型
8.6.1  模型比较
8.6.2  变量选择
8.7  深层次分析
8.7.1  交叉验证
8.7.2  相对重要性
8.8  小结
第9章 方差分析
9.1  术语速成
9.2  ANOVA模型拟合
9.2.1  aov()函数
9.2.2  表达式中各项的顺序
9.3  单因素方差分析
9.3.1  多重比较
9.3.2  评估检验的假设条件
9.4  单因素协方差分析
9.4.1  评估检验的假设条件
9.4.2  结果可视化
9.5  双因素方差分析
9.6  重复测量方差分析
9.7  多元方差分析
9.7.1  评估假设检验
9.7.2  稳健多元方差分析
9.8  用回归来做ANOVA
9.9  小结
第10章 功效分析
10.1  假设检验速览
10.2  用pwr包做功效分析
10.2.1  t检验
10.2.2  方差分析
10.2.3  相关性
10.2.4  线性模型
10.2.5  比例检验
10.2.6  卡方检验
10.2.7  在新情况中选择合适的效应值
10.3  绘制功效分析图形
10.4  其他软件包
10.5  小结
第11章 中级绘图
11.1  散点图
11.1.1  散点图矩阵
11.1.2  高密度散点图
11.1.3  三维散点图
11.1.4  气泡图
11.2  折线图
11.3  相关图
11.4  马赛克图
11.5  小结
第12章 重抽样与自助法
12.1  置换检验
12.2  用coin包做置换检验
12.2.1  独立两样本和K样本检验
12.2.2  列联表中的独立性
12.2.3  数值变量间的独立性
12.2.4  两样本和K样本相关性检验
12.2.5  深入探究
12.3  lmPerm包的置换检验
12.3.1  简单回归和多项式回归
12.3.2  多元回归
12.3.3  单因素方差分析和协方差分析
12.3.4  双因素方差分析
12.4  置换检验点评
12.5  自助法
12.6  boot包中的自助法
12.6.1  对单个统计量使用自助法
12.6.2  多个统计量的自助法
12.7  小结
第四部分 高级方法
第13章 广义线性模型
13.1  广义线性模型和glm()函数
13.1.1  glm()函数
13.1.2  连用的函数
13.1.3  模型拟合和回归诊断
13.2  Logistic回归
13.2.1  解释模型参数
13.2.2  评价预测变量对结果概率的影响
13.2.3  过度离势
13.2.4  扩展
13.3  泊松回归
13.3.1  解释模型参数
13.3.2  过度离势
13.3.3  扩展
13.4  小结
第14章 主成分和因子分析
14.1  R中的主成分和因子分析
14.2  主成分分析
14.2.1  判断主成分的个数
14.2.2  提取主成分
14.2.3  主成分旋转
14.2.4  获取主成分得分
14.3  探索性因子分析
14.3.1  判断需提取的公共因子数
14.3.2  提取公共因子
14.3.3  因子旋转
14.3.4  因子得分
14.3.5  其他与EFA相关的包
14.4  其他潜变量模型
14.5  小结
第15章 处理缺失数据的高级方法
15.1  处理缺失值的步骤
15.2  识别缺失值
15.3  探索缺失值模式
15.3.1  列表显示缺失值
15.3.2  图形探究缺失数据
15.3.3  用相关性探索缺失值
15.4  理解缺失数据的来由和影响
15.5  理性处理不完整数据
15.6  完整实例分析(行删除)
15.7  多重插补
15.8  处理缺失值的其他方法
15.8.1  成对删除
15.8.2  简单(非随机)插补
15.9  小结
第16章 高级图形进阶
16.1  R中的四种图形系统
16.2  lattice包
16.2.1  条件变量
16.2.2  面板函数
16.2.3  分组变量
16.2.4  图形参数
16.2.5  页面摆放
16.3  ggplot2包
16.4  交互式图形
16.4.1  与图形交互:鉴别点
16.4.2  playwith
16.4.3  latticist
16.4.4  iplots包的交互图形
16.4.5  rggobi
16.5  小结
后记:探索R的世界
附录A  图形用户界面
附录B  自定义启动环境
附录C  从R中导出数据
附录D  制作出版级品质的输出
附录E  R中的矩阵运算
附录F  本书中用到的扩展包
附录G  处理大数据
附录H  更新R
参考文献
精彩书摘
  要是一本书里没有图画和对话,那还有什么意思呢?
  ——爱丽丝,《爱丽丝梦游仙境》
  它太神奇了,满载珍宝,可以让那些聪明狡猾和粗野胆大的人得到充分满足;但并不适合胆小者。
  ——Q,“Q Who?”,《星际迷航:下一代》
  在开始写这本书时,我花了很多时间搜索适合于开始本书的名言警句。最后,我找到了这两句话。R是一个非常灵活的平台,是专用于探索、展示和理解数据的语言,因此我引用了《爱丽丝梦游仙境》的句子来表示当今统计分析的潮流——一个探索、展示和理解的交互式过程。
  第二句话反映了大部分人对R的看法:难学。但你完全没必要这样想。虽然R很强大,应用广泛,不论你是新手还是略有经验的用户,众多的分析和绘图函数(超过50 000个)都很容易让你望而却步,但实际上并非无规律可循。只要有合适的指导,你就可以畅游其中,选择所需的工具,用最优雅、最简洁、最高效的方式来完成工作——那真的很酷!
  多年前,我在申请一个统计咨询职位时,第一次遇到了R。雇主在正式面试前发来的材料中问我是否熟悉R。根据猎头的建议,我立马回答“是的,我很熟悉”,然后开始恶补R。在统计和研究方面我有丰富的经验,作为SAS和SPSS程序员也有25年的工作经验,而且对各种编程语言也颇为精通。学习R能有多难?但事与愿违。
  在学习这门语言的过程中(因为要面试,我要尽可能地快),我发现这门语言无论是底层的结构还是各种高级的统计方法,都是由各具体领域的专家为同行专家编写的。看在线帮助简直就是折磨,那不是教程,都是参考手册。每当我觉得自己已经对R的结构和功能有足够把握时,就会发现一些闻所未闻的新东西,它们让我感觉自己很渺小。
  为了解决这些问题,我开始以数据科学家的角度学习R。我开始思考如何才能成功地处理、分析和理解数据,包括:
  获取数据(从各种数据源将数据导入程序);
  整理数据(编码缺失值、修复或删除错误数据、将变量转换成更方便的格式);
  注释数据(以记住每段数据的含义);
  总结数据(通过描述性统计量了解数据的概况);
  数据可视化(一图胜千言);
  数据建模(解释数据间的关系,检验假设);
  整理结果(创建具有出版水平的表格和图形)。
  然后,我试图用R来完成这些任务。通过教授别人来学习是最好的方式,所以我创建了一个网站,不断把我学到的东西放在上面。
  大概一年后,Marjan Bace(Manning的出版人)打电话给我,问我是不是能写一本关于R的书。那时我已经写了50篇期刊文章、4份技术手册,以及大量章节的内容,还写了一本关于研究方法的书,所以,写一本关于R的书能有多难?结果依然是事与愿违。
  你现在捧着的这本书是我多年来梦寐以求的。我试图提供一份R的指南,让你能尽快感受到R的强大以及开源的魅力,不再感到沮丧和忧虑。我希望你能喜欢本书。
  另外,虽然当年我成功地申请到了那个职位,但并未入职。不过,学习R的经历改变了我的职业方向,这是我未曾想到的。真可谓人生如戏。
  致谢
  很多人都对本书精益求精并付出了辛勤的劳动,在此让我对他们一一表示感谢。
  Marjan Bace,Manning出版人,最初劝说我撰写本书的人。
  Sebastian Stirling,进度编辑,花了大量时间与我电话沟通,帮我组织材料、理清概念,帮我润色文字,在整个出版过程中给了我很多帮助。
  Karen Tegtmeyer,评审编辑,帮助寻找审稿人并协调评审进度。
  Mary Piergies及其团队成员Liz Welch、Susan Harkins和Rachel Schroeder,他们指导了本书的出版过程。
  Pablo Domínguez Vaselli,技术审读人,帮我理清了很多易混淆的地方,从独立而专业的角度测试了代码。
  所有花费时间审读本书内容,寻找书写错误和提供了宝贵建议的审稿人:Chris Williams、Charles Malpas、Angela Staples、Daniel Reis Pereira博士、D. H. van Rijn博士、Christian Marquardt博士、Amos Folarin、Stuart Jefferys、Dror Berel、Patrick Breen、Elizabeth Ostrowski、Atef Ouni博士、Carles Fenollosa、Ricardo Pietrobon、Samuel McQuillin、Landon Cox、Austin Ziegler、Rick Wagner、Ryan Cox、Sumit Pal、Philipp K. Janert、Deepak Vohra和Sophie Mormede。
  在本书完成前参与MEAP(Manning早期试读计划)的同仁,他们提出了重要的问题、指出了书中的错误并提供了有益的建议。
  他们每个人的贡献都让本书的质量更上一层楼。
  我还想感谢为R成为如此强大的数据分析平台而做出卓越贡献的软件开发人员。这其中有R的核心开发者,还有那些开发R包和维护各种软件包的个人,他们极大地扩展了R的功能。附录F罗列了本书中涉及的软件包的作者。其中,我要特别感谢John Fox、Hadley Wickham、Frank E. Harrell、Deepayan Sarkar和William Revelle。我会尽可能准确地介绍他们的贡献,并为本书中所有可能存在的错误或是误导性描述负责。
  在本书开头,我还应该感谢我的妻子,同时她也是我的合作者:Carol Lynn。她对统计学和编程都没有太多兴趣,但却反复阅读了每一章的内容,帮助纠正了很多问题并提出了大量建议。为了他人而研读多元统计学实在是一件很有爱的事情。同样重要的是,她容忍我在深夜和周末编写此书,给予我无限的包容、支持和关怀。我真的感到非常幸运。
  我还要感谢两个人。一位是我父亲,他对科学的热爱影响了我,还让我认识到了数据的价值。另一位是Gary K. Burger——我读研究生时的导师。我有段时间觉得自己想成为一名医生,是Gary引领我进入统计学和教育领域,这一切都是他赐予的。
  ……











请叫我猴子 发表于 2014-9-16 21:18:34

rterrterrterrter

Freeter 发表于 2014-9-16 22:21:14

哈哈哈哈哈

月剑影 发表于 2014-9-17 08:32:49

哇,好棒~:D:D

yuki0601 发表于 2014-9-17 09:03:47

回帖下载!

Sparty 发表于 2014-9-17 09:07:43

{:2_31:}{:2_31:}

whq39 发表于 2014-9-17 09:38:10

多谢分享~~~~~

man_zu 发表于 2014-9-17 10:02:17

多谢分享   

oki_124 发表于 2014-9-17 10:06:05

哈哈,为了好资源,顶!

一箭封尘 发表于 2014-9-17 12:47:17

放水,只是为了下载东东
页: [1] 2 3 4 5 6 7
查看完整版本: R语言实战(中文完整版).pdf