大数据人|大数据第一社区

 找回密码
 注册会员

扫一扫,访问微社区

查看: 1293|回复: 0
打印 上一主题 下一主题

[其它] 写给专业数据分析师的书

[复制链接]

该用户从未签到

19

主题

21

帖子

114

积分

注册会员

Rank: 2

积分
114
跳转到指定楼层
楼主
发表于 2017-2-24 13:21:34 | 只看该作者 |只看大图 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 博文视点 于 2017-2-24 13:36 编辑

写给专业数据分析师的丛书之
从零进阶!数据分析的统计基础(第2版)


经管之家主编,畅销书升级版
  

京东链接https://item.jd.com/11912317.html
当当链接http://product.dangdang.com/23959583.html
亚马逊链接https://www.amazon.cn/%E5%9B%BE%E4%B9%A6/dp/B01F70P9PS/ref=sr_1_1?ie=UTF8&qid=1487906636&sr=8-1&keywords=%E4%BB%8E%E9%9B%B6%E8%BF%9B%E9%98%B6


编辑推荐:
      
                           
“CDA数据分析师系列丛书”依照数据分析师规范化学习体系而定。满足了CDA数据分析师等级认证学习的需要,也兼顾了大数据的热点动态。
从策划之初一直坚持以“读者需求”为主线,结合企业实际案例和业务场景来谈大数据思维和小数据分析。实现技术扎实,业务精通,策略接地气!


内容简介:
《从零进阶!数据分析的统计基础(第2 版)》共7 章,分别讲解了数据分析的步骤和方法、描述性统计分析、数理统计基础、抽样估计、假设检验、方差分析、相关与回归分析。本书使用简单的语言介绍了这些数据分析基本方法的核心思想和涉及的统计学、概率论等方面的理论内容,并使用图示的方法详细介绍了使用Excel 2013 进行简单的描述性统计分析和使用SPSS 进行相关的数据分析的过程与结果分析。
《从零进阶!数据分析的统计基础(第2 版)》适合需要提升自身数据分析理论和实践能力的职场新人;在市场营销、金融、财务、人力资源管理中需要数据分析的人士,从事咨询、研究、分析等的专业人士。也可以作为数据分析师职业培训的教材,普通高等院校非统计专业数据分析的选修教材。


作者简介
经管之家(www.jg.com.cn:原人大经济论坛,于2003年成立,致力于推动经管学科的进步,传播优秀教育资源,目前已经发展成为国内优秀的经济、管理、金融、统计类的在线教育和咨询网站,也是国内活跃和具影响力的经管类网络社区。
经管之家从2006年起在国内开展数据分析培训,累计培训学员数万人。在大数据的趋势背景下,创新“CDA数据分析师”品牌,致力于为社会各界数据分析爱好者提供优质、科学、系统的数据分析教育。截至2016年3月已成功举办40多期系统培训,培训学员达3千余名;CDA认证考试已成功举办三届,报考人数上千人;中国数据分析师俱乐部(CDA CLUB),每周线下免费沙龙活动,已举力40多期,累积会员2千余名;中国数据分析师行业峰会(CDA Summit),一年两届,参会人数皆达2千余名,在大数据领域影响力超前。“CDA数据分析师”队伍在业界不断壮大,对数据分析人才产业起到了巨大的推动作用。


曹正凤,统计学博士,经管之家(原人大经济论坛)大数据中心总工程师,经管之家(原人大经济论坛)CDA大数据分析师培训负责人,北京博宇通达科技有限公司技术总监。致力于大数据分析前沿领域研究,主持人大经济论坛基于Hadoop架构的论坛主题推荐系统项目,参与国家社科基金项目《基于大数据整合的空气质量测度方法研究》,发表多篇论文,且发表的EI核心收录论文受到多次检索。


精彩书摘        
单纯的数据加工方法
这种数据分析方法侧重于数据的加工和预处理,使用的工具一般是SQL 和Excel,这是现在市场上大部分企业所使用的数据分析工具,有的公司干脆就仅使用Excel。该种方法一般是从企业的管理信息数据库系统或数据仓库中,对相关数据进行提取、加工、衍生处理和生成各种业务报表。在我们的经济生活中,经常看到关于同比发展速度、环比发展速度、今年比去年净增加了多少等新闻报道,这些统计数据计算起来比较简单,理论难度很低。这种方法最典型的代表就是描述性统计分析和相关分析。
1.描述性统计分析
描述性统计分析是通过图表或数学方法,对数据资料进行整理、分析,并对数据的分布状态、数字特征和随机变量之间的关系进行估计和描述的方法。通俗地讲,描述性统计就是当数据分析师需要分析一万个数时,他仅需要用八个数就把这一万个数说清楚了,这样进行决策管理时才不用再看一万个数,而只看这八个数就能解决问题。描述性数据分析的关键就是要看明白这八个数,能解释清楚其背后的含义。描述性统计分析分为集中趋势分析、离中趋势分析和数据分布分析三大部分。
集中趋势分析主要靠平均数、中数、众数等统计指标来表示数据的集中趋势,例如测试班级的平均成绩是多少。离中趋势分析主要靠全距、四分位距、方差、标准差等统计指标来研究数据的离中趋势。例如,当我们想知道两个教学班的语文成绩哪个班级的成绩分布更分散时,就可以用两个班级的方差来比较。数据分布分析是指和正态分布相比,所得数据的直方图从形态上看是左偏的还是右偏的,从峰度上看是尖峰的还是扁平的,这些内容会在第2 章详细介绍。
2.相关分析
相关分析是研究现象之间是否存在某种依存关系,并对具体有依存关系的现象进行相关方向及相关程度的研究。这种关系既包括两个数据之间的单一相关关系一一例如年龄与个人领域空间之间的关系,也包括多个数据之间的多重相关关系一一例如年龄、抑郁症发生率和个人领域空间之间的关系;既可以是A 大B 就大(小),A 小B 就小(大)的直线相关关系,也可以是复杂相关关系;既可以是A、B 变量同时增大的正相关关系,也可以是A 变量增大时B 变量减小的负相关关系,还包括两变量共同变化的紧密程度一一相关系数。
基于数理统计的数据分析方法
数理统计的理论基础比较复杂,也就是概率论和高等数学中的微积分。当然这里的微积分只是简单的一元函数积分,即根据概率论和微积分引出数据的分布,从数据的分布出发,进行数据的抽样推断和假设检验,由此引出方差分析、回归分析、因子分析等基于数理统计的数据分析方法。此种分析方法一般使用SPSS Statistics、SAS EG 等分析工具就可以实现。
1.方差分析
方差分析(Analysis of Variance, ANOVA)又称“变异数分析”、“F 检验”,它是R.A.Fisher 发明的分析方法,用于两个及两个以上样本均数差别的显著性检验。由于受各种因素的影响,方差分析研究所得的数据呈现波动状。造成波动的因素可分成两类,一类是不可控的随机因素,另一类是研究中施加的对结果形成影响的可控因素。方差分析是从观测变量的方差入手,研究诸多控制变量中哪些变量是对观测变量有显著影响的变量。
2.回归分析
回归分析(Regression)是确定两个或两个以上变量之间相互依赖的定量关系的一种统计分析方法,它主要研究一个随机变量Y 对另一个变量(X)或一组(X1,X2,…,Xk)变量的相依关系,回归分析按照涉及的自变量的数量,可分为一元回归分析和多元回归分析。按照自变量和因变量之间的关系类型,可分为线性回归分析和非线性回归分析。此处所讲的回归分析是指一元线性回归,区别于数据挖掘方法里的多元线性回归和逻辑斯蒂回归。
3.因子分析
因子分析(Factor Analysis)是指研究从变量群中提取共性因子的统计技术。因子分析就是从大量的数据中寻找内在的联系,减轻决策困难的分析方法。因子分析的方法有十多种,例如重心法、影像分析法、最大似然解法、最小平方法、阿尔法抽因法、拉奥典型抽因法等。这些方法在本质上大都属于近似方法,是以相关系数矩阵为基础的,所不同的是相关系数矩阵对角线上的值,采用不同的共同性估值。在社会经济统计研究中,因子分析常以主成分分析为基础。



        

        
            
        
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 注册会员

本版积分规则

关闭

站长推荐上一条 /2 下一条


id="mn_portal" >首页Portalid="mn_P18" onmouseover="navShow('P18')">应用id="mn_P15" onmouseover="navShow('P15')">技术id="mn_P37" onmouseover="showMenu({'ctrlid':this.id,'ctrlclass':'hover','duration':2})">前沿id="mn_P36" onmouseover="navShow('P36')">宝箱id="mn_P61" onmouseover="showMenu({'ctrlid':this.id,'ctrlclass':'hover','duration':2})">专栏id="mn_P65" >企业id="mn_Nd633" >导航 折叠导航 关注微信 关注微博 关注我们

QQ|广告服务|关于我们|Archiver|手机版|小黑屋|大数据人 ( 鄂ICP备14012176号-2  

GMT+8, 2024-4-27 02:59 , Processed in 0.274945 second(s), 32 queries .

Powered by 小雄! X3.2

© 2014-2020 bigdataer Inc.

快速回复 返回顶部 返回列表