写给专业数据分析师的丛书之【如虎添翼！数据处理的SPSS和SAS EG实现（第2版）】

博文视点 发表于 2017-2-24 14:05:58

本帖最后由博文视点于 2017-2-24 14:07 编辑

写给专业数据分析师的丛书之
如虎添翼！数据处理的SPSS和SAS EG实现（第2版）

经管之家主编畅销书升级版

京东链接：https://item.jd.com/11920130.html
当当链接：http://product.dangdang.com/23644910.html
亚马逊链接：https://www.amazon.cn/%E5%9B%BE%E4%B9%A6/dp/B01F70P9EE/ref=sr_1_1?ie=UTF8&qid=1487914824&sr=8-1&keywords=%E5%A6%82%E8%99%8E%E6%B7%BB%E7%BF%BC

编辑推荐：
“CDA数据分析师系列丛书”依照数据分析师规范化学习体系而定。满足了CDA数据分析师等级认证学习的需要，也兼顾了大数据的热点动态。
从策划之初一直坚持以“读者需求”为主线，结合企业实际案例和业务场景来谈大数据思维和小数据分析。实现技术扎实，业务精通，策略接地气！

内容简介：
《如虎添翼！数据处理的SPSS和SAS EG实现（第2版）》作为SAS EG 和SPSS 数据处理比较的首本实战中文教材，本书并非单纯地逐个讲解菜单的操作，而是将数据分析的基本思路、流程融入到软件的操作之中。每章通过设置商业背景，配以SAS EG 和SPSS 的实战演练，讲解形式更贴近读者的实际工作，使读者真正理解数据分析、数据处理的精髓。本书除讲解软件操作，还同时介绍了对应菜单操作的SAS 程序语言实现过程，读者可以根据自己的需要逐步学习，进而走进用SAS 程序处理数据的大门。
《如虎添翼！数据处理的SPSS和SAS EG实现（第2版）》适合那些想了解数据预处理，或者被数据的预处理占去大部分时间而想提高效率，或者囿于菜单操作的局限性而希望通过程序实现的数据分析人员。

作者简介：
经管之家（www.jg.com.cn）：原人大经济论坛，于2003年成立，致力于推动经管学科的进步，传播优秀教育资源，目前已经发展成为国内优秀的经济、管理、金融、统计类的在线教育和咨询网站，也是国内活跃和具影响力的经管类网络社区。
经管之家从2006年起在国内开展数据分析培训，累计培训学员数万人。在大数据的趋势背景下，创新“CDA数据分析师”品牌，致力于为社会各界数据分析爱好者提供优质、科学、系统的数据分析教育。截至2016年3月已成功举办40多期系统培训，培训学员达3千余名；CDA认证考试已成功举办三届，报考人数上千人；中国数据分析师俱乐部（CDA CLUB），每周线下免费沙龙活动，已举力40多期，累积会员2千余名；中国数据分析师行业峰会（CDA　Summit），一年两届，参会人数皆达2千余名，在大数据领域影响力超前。“CDA数据分析师”队伍在业界不断壮大，对数据分析人才产业起到了巨大的推动作用。

徐筱刚，统计学硕士。拥有近十年的丰富的数据分析、数据挖掘实战经验，曾就职于咨询公司、金融机构等多家著名企业，目前在一家金融机构担任资深数据分析顾问，具有零售、电信、金融等多个数据挖掘的项目经验和行业背景。

常国珍，北京大学商学博士，法学硕士。曾就职于亚信科技BOC部门、方正国际金融事业部、德勤管理咨询信息技术系统咨询部。SAS公司资深讲师，Oracle大数据讲师，多家金融信息部门和金融高科技公司数据挖掘技术顾问。从事征信数据集市与信用风险建模、客户价值提升等数据挖掘项目。擅长基于个体行为分析的价值发现和信用建模。研究方向为宏微观接合研究，兴趣点在于宏观环境变化对微观主体行为的经济后果分析及价值投资。

丁亚军，曲阜师范大学心理学硕士。现任职于南京上度市场咨询数据分析总监，经管之家数据分析研究院数据分析师。主要从事市场调查，数据挖掘咨询等市场客户行为方面的数据分析工作，比较熟悉SAS、SPSS两款软件。

精彩书摘：
需要清理的数据类型
缺失值（Missing）
〈1〉缺失值的来源
在数据收集阶段，没有收集到相关的信息，原因可能是问卷收集者忘记询问，或者碍于隐私原因，应答者没有回答。也有可能不同数据库之间对接时产生缺失。
〈2〉缺失值的处理方式
?忽略观测值，当数据量较大，而缺失值较少，忽略观测值对分析结果影响不大时，可以采用这种方式；
人工填写，找到缺失值的关系，通过人工调查得到并填写缺失值，当缺失值量比较大时不适用；
使用一个全局常量来填写缺失值；使用属性的中心度量（如均值和中位数）来填充缺失值；
单独作为一类。
〈3〉缺失值在SAS 中的表现方式
?数值型的为“.”；
?字符型的缺失值为空。
异常值
〈1〉异常值（Outlier）
异常值也称为离群值、极端值（Extreme）。
明显偏大或偏小的值，异常值不一定为错误值。
〈2〉识别异常值的常用方法有三种：
第一种方法是为每个变量设定一个正常的取值范围，然后可以用简单的探索性统计分析进行识别。例如，连续变量，借助经验法则2可以设定为±3 个标准差，对于类别变量或者顺序变量，如果某一列别的频数超过1%或者更多被认为是正常。本方法的优点是简单快捷，缺点是只考虑了单个变量，没有考虑变量之间的相互影响。
第二种方法建立在生成数据的过程中是否具有特定函数形式的模型，如假定服从线性模型，则利用线性模型拟合后，严重偏离模型的即为异常值。本方法的优点是考虑了变量之间的相互作用，缺点是需要有一个事先的假设，若假设错误，则有可能误判正常的点为异常值。
第三种方法是用聚类算法将数据分为较小的子集，即簇或者群，只包含较小数量的观测值的群，被认定为极端值。聚类算法根据统计距离指标将相似的观测值分布在同一个簇。这个方法结合了以上两个方法的优点，但是在数据量较大的情况下，聚类对系统的资源要求比较大。
〈3〉箱线图（Box Plot）
箱线图是对数据分布的一种常用表示方法。在一张图上可以表示多种类型的统计量，通过图形的形状，可以了解数据的分布，异常值、极端值的情况等.
〈4〉异常值的处理方法
大多数情况下，被认定为极端值的观测值或者被删除，或者将其替换为某个更符合的值。但当被认定的异常值超过 10%以上时，异常值可能暗示其数据产生模式与其他数据不同，通过分析异常数据可以得到有用的信息，在对数据集进行建模或者分析时，应当分开分析......

页: [1]

大数据人|大数据第一社区's Archiver

写给专业数据分析师的丛书之【如虎添翼！数据处理的SPSS和SAS EG实现（第2版）】