如果你对这个标题问题的回答是“是”,那么理所当然的,你就是正确的。你之所以是正确的原因在于,一旦你知道相关的开放源Apache Hadoop项目(或是任何相关开放源项目)的信息,你就可以从平台上下载免费的软件,使用免费授权并且在低成本的商品硬件上运行它。 但是,如果你对这个问题的回答是"否",那么也可以说你是正确的。当出现系统成本和基础设施成本时,你可以凭借Hadoop的相关技术节省(许多)花费;当你看着应用成本和开发成本的时候,之前的那些节约成本就可以很快的消失了。这些都取决于你想要试着解决什么样的数据分析。 在这篇文章中,我们将仔细看一看两个大数据案例,并对两个案例分别进行分析以决定企业数据仓库(EDW)和Hadoop中,随着时间的推移,哪一个平台的成本有效性才是最高的。之后,我将向你介绍数据总成本(TCOD)机制,同时向你展示你应该从何处进行该机制的免费下载。 两个大数据案例 这两个案例均来自于WinterCorp的专题报告“大数据——它的真实成本是多少?”,在这一报告中它介绍了数据总成本(TCOD)机制。第一个案例是建立一个企业数据仓库,第二个案例是建立一个数据提炼。在这里,我们将要首先看一下每个案例所要的需求,之后再对比其各自的数据成本。再强调一次,我们想要回答的问题是:EDW和Hadoop中,随着时间的推移,哪一个平台的成本有效性才是最高的。 案例1:建立一个企业数据仓库 案例2:建立一个数据提炼 ▲ 目标: 完善大型工业柴油发动机的传感器输出 ▲ 数据数量:500 TB ▲ 公司要求: ①能够快速、密集的处理小部分关系密切的数据集; ②读取全部数据集的分析; ③原始数据的使用寿命较短; ④由小型专家组合作进行数据提炼分析。 成本对比:5年期总结 这份总结的结果也许会吓到你。请记住,因为必须要进行许多假设,所以这些只是估测出的结果。但是这些估测的结果却可以成功的测出任一天的数据。 案例1:胜者——数据仓库 比起Hadoop的解决方案(7.4亿美元),企业数据仓库平台(2.65亿美元)的成本花费更少,明显具有更高的成本有效性。在这个案例中,选择数据仓库平台降低了的成本费用因素数量是原先全部的2.8倍。而更多的分析表明,即使按50 TB到2 PB的数据大小排列,你也将会在数据仓库平台中得到基本相同的结果。 复杂查询与分析的发展是案例中主要的成本费用因素。从估测中能够看出,企业数据仓库平台的系统成本为0.44亿美元,而0.108亿美元为最初取得成本——这接近是数据总成本的4%。 虽然通常来说,人们主要是关注项目中的第一大项支出——例如购置一个平台的花费;但是项目的总成本费用却更为重要,且其他因素也大大超过所有系统花费的总额。 案例2:胜者——Hadoop Hadoop的成本花费(0.95亿美元)要远远少于数据仓库专用平台的花费(0.3亿美元),即Hadoop的成本有效性要高于数据仓库平台。数据仓库专用平台的系统成本是这个案例中的主要因素。从上表中标出的包容性系统成本概念及其分类中可以看出,数据仓库专用平台中的2.27亿美元的系统成本中只有0.55亿美元是在第一年发生的。 关于数据总成本(TCOD)机制 数据总成本(TCOD)机制建立的目的是用以帮助组织预估解决大数据分析问题的总成本花费。它考虑了目前主要的两个实现大数据分析的平台,即企业数据仓库(EDW)和Hadoop,并同时帮助客户认识到每一种大数据平台架构的优缺点和如何使其工作的更好。 除了为每个平台估计系统成本之外,数据总成本(TCOD)机制也考虑可使用数据的时期阶段的成本,尤其是5年阶段内的成本。这些使用成本包括了系统和数据管理、数据集成、查询的发展以及过程式程序和分析应用等部分的成本。 数据总成本(TCOD)机制有理查德·温特(Richard Winter)以及他在WinterCorp的工作团队研发,是一家专注于大规模数据管理挑战的咨询服务公司。WinterCorp公司在其2013年推出的专题报告“大数据——它的真实成本是多少”中介绍推出了数据总成本(TCOD)机制。 |
|广告服务|关于我们|Archiver|手机版|小黑屋|大数据人 ( 鄂ICP备14012176号-2 )
GMT+8, 2024-4-27 10:01 , Processed in 0.196891 second(s), 21 queries .
Powered by 小雄! X3.2
© 2014-2020 bigdataer Inc.