aishuly 发表于 2016-9-14 08:33:56

漫谈数据可视化(三)历史与未来共存

本帖最后由 aishuly 于 2016-9-14 08:36 编辑

   最近看到一篇文章,题目是“认知运用:大数据的下个转折点”。文章链接https://www.oreilly.com.cn/ideas/?p=339。 这一篇我着重讲文章里的图二。   图二是一张2005到2020年全球非结构化数据量的趋势图。这篇文章发表在2016年,所以我们可以判断出图中一部分信息是根据历史记录得来的,另一部分则是对未来的预测。那么从哪一年开始是预测信息呢? 我们从图中找不到答案。在这张图上一行的文字里有一句“我们已经从在2014年产生大约5泽字节… ”,所以初步判断从2015开始都是预测值。如果是真的,这个仅是一年的滞后,还可以接受。
          那是不是真的呢? 根据这张 图片的出处, http://www1.unece.org/stat/platform/display/msis/Big+Data, 我没有在联合国欧洲经济委员会的网页上找到进一步的确认信息。
      我在网上进一步搜索,发现美国易安信公司(EMC )从差不多十年前开始赞助国际数据公司(IDC)对全球每年的数据量做统计并同时做预测。易安信网站上说这是全球唯一一个做此研究的项目 (“The EMC Digital Universe study, created in conjunctionwith IDC, is the world’s only study to quantify data produced annually.”www.emc.com/leadership/digital-universe/index.htm?pid=landing-digitaluniverse-131212 )。 他们2012年出的报告预测2020年的全球数据量是40泽字节,报告里能查到的全球数据量可以追溯到2005年(www.emc.com/collateral/analyst-reports/idc-the-digital-universe-in-2020.pdf )(“The Digital Universe in 2020:Big Data, Bigger DigitalShadows, and Biggest Growth in the Far East); 联合国欧洲经济委员会大数据小组是在2013年成立的,那张图就放在介绍中;在2014年EMC/IDC给出的报告中, 2020年的全球数据量预测会达到44泽字节(www.emc.com/collateral/analyst-reports/idc-digital-universe-2014.pdf)(“ The Digital Universe of Opportunities”)。所以从以上的信息可以推断出图中至少从2012年开始的信息都是预测的,即至少四年的滞后。这也就是说如果图上没有明确标出从哪一年开始是预测值,很容易导致我们拿一份过期很久的文件去做计划。古人说,差之毫厘,失之千里, 这对有的公司有的行业是很致命的。 所以我们画图的时候,一定要让历史数据和预测数据有明显的区分。
   对于这张图来说,一种改进方法是换成线图,然后用较深的颜色表示历史数据,较浅的颜色表示预测数据;或者用同一种颜色,实线表示历史数据,虚线表示预测数据。另外,这张图的纵坐标正好截止在数据的最大值。这会引起看图人的疑惑:数据的最大值恰好与纵坐标的最大值相等,还是因为纵坐标的设置导致超出纵坐标的部分被截去?所以,Y轴的设置区间一定要比数据区间大。
--AISHULY

页: [1]
查看完整版本: 漫谈数据可视化(三)历史与未来共存