大数据人|大数据第一社区

 找回密码
 注册会员

扫一扫,访问微社区

Hadoop 3.0新特性预览

2016-5-31 06:53| 发布者: admin| 查看: 10045| 评论: 0|来自: 董西成

摘要: Hadoop 2.0是基于JDK 1.7开发的,而JDK 1.7在2015年4月已停止更新,这直接迫使Hadoop社区基于JDK 1.8重新发布一个新的Hadoop版本,而这正是hadoop 3.0。 Hadoop 3.0的alpha版预计今年夏天发布,GA版本11月或12月 ...

1. Hadoop 3.0简介


Hadoop 2.0是基于JDK 1.7开发的,而JDK 1.720154月已停止更新,这直接迫使Hadoop社区基于JDK 1.8重新发布一个新的Hadoop版本,而这正是hadoop 3.0。


Hadoop 3.0alpha版预计今年夏天发布,GA版本11月或12月发布。


Hadoop 3.0中引入了一些重要的功能和优化,包括HDFS 可擦除编码、多Namenode支持、MR Native Task优化、YARN基于cgroup的内存和磁盘IO隔离、YARN container resizing等。

 

2. Hadoop 3.0新特性

 

Hadoop 3.0在功能和性能方面,对hadoop内核进行了多项重大改进,主要包括:


2.1 Hadoop Common

1)精简Hadoop内核,包括剔除过期的API和实现,将默认组件实现替换成最高效的实现(比如将FileOutputCommitter缺省实现换为v2版本,废除hftp转由webhdfs替代,移除Hadoop子实现序列化库org.apache.hadoop.Records

2Classpath isolation以防止不同版本jar包冲突,比如google Guava在混合使用HadoopHBaseSpark时,很容易产生冲突。(https://issues.apache.org/jira/browse/HADOOP-11656

3Shell脚本重构。 Hadoop 3.0Hadoop的管理脚本进行了重构,修复了大量bug,增加了新特性,支持动态命令等。https://issues.apache.org/jira/browse/HADOOP-9902

 

2.2 Hadoop HDFS

 

1HDFS支持数据的擦除编码,这使得HDFS在不降低可靠性的前提下,节省一半存储空间。(https://issues.apache.org/jira/browse/HDFS-7285

2)多NameNode支持,即支持一个集群中,一个active、多个standby namenode部署方式。注:多ResourceManager特性在hadoop 2.0中已经支持。(https://issues.apache.org/jira/browse/HDFS-6440

 

2.3 Hadoop MapReduce

 

1Tasknative优化。为MapReduce增加了C/C++map output collector实现(包括SpillSortIFile等),通过作业级别参数调整就可切换到该实现上。对于shuffle密集型应用,其性能可提高约30%。(https://issues.apache.org/jira/browse/MAPREDUCE-2841

2MapReduce内存参数自动推断。在Hadoop 2.0中,为MapReduce作业设置内存参数非常繁琐,涉及到两个参数:mapreduce.{map,reduce}.memory.mbmapreduce.{map,reduce}.java.opts,一旦设置不合理,则会使得内存资源浪费严重,比如将前者设置为4096MB,但后者却是“-Xmx2g”,则剩余2g实际上无法让java heap使用到。(https://issues.apache.org/jira/browse/MAPREDUCE-5785

 

2.4 Hadoop YARN


1)基于cgroup的内存隔离和IO Disk隔离(https://issues.apache.org/jira/browse/YARN-2619

2curator实现RM leader选举(https://issues.apache.org/jira/browse/YARN-4438

3containerresizinghttps://issues.apache.org/jira/browse/YARN-1197

4Timelineserver next generation https://issues.apache.org/jira/browse/YARN-2928

 

3.   Hadoop3.0总结


Hadoop 3.0alpha版预计今年夏天发布,GA版本11月或12月发布。


Hadoop 3.0中引入了一些重要的功能和优化,包括HDFS 可擦除编码、多Namenode支持、MR Native Task优化、YARN基于cgroup的内存和磁盘IO隔离、YARN container resizing等。



鲜花

握手

雷人

路过

鸡蛋

最新评论

关闭

站长推荐上一条 /2 下一条


id="mn_portal" >首页Portalid="mn_P18" onmouseover="navShow('P18')">应用id="mn_P15" onmouseover="navShow('P15')">技术id="mn_P37" onmouseover="showMenu({'ctrlid':this.id,'ctrlclass':'hover','duration':2})">前沿id="mn_P36" onmouseover="navShow('P36')">宝箱id="mn_P61" onmouseover="showMenu({'ctrlid':this.id,'ctrlclass':'hover','duration':2})">专栏id="mn_P65" >企业id="mn_Nd633" >导航 折叠导航 关注微信 关注微博 关注我们

QQ|广告服务|关于我们|Archiver|手机版|小黑屋|大数据人 ( 鄂ICP备14012176号-2  

GMT+8, 2024-7-27 15:04 , Processed in 0.191776 second(s), 21 queries .

Powered by 小雄! X3.2

© 2014-2020 bigdataer Inc.

返回顶部