CCA Spark and Hadoop Developer (CCA175) 公开课信息
CCA Spark and Hadoop Developer (CCA175) 开发者认证认证准备建议:Spark andHadoop开发者培训考试形式:120分钟;70%通过;解决10~12基于CDH5机群上需通过实际操作的问题线上:长期开课线下北京、上海定期开课(最近一次培训时间:北京6月22-25日Cloudera Developer training for Sparkand Hadoop(CCA-175) ,上海6月27-30日Cloudera Developer training for Spark and Hadoop(CCA-175))课时:28h/4天咨询:Q1438118790课程介绍 Hadoop及生态系统介绍 •传统大规模系统的问题 • Hadoop ! • Hadoop 生态系统 Hadoop体系结构及 HDFS •机群环境下的分布式处理 •存储:HDFS 体系结构 •存储:使用 HDFS •资源管理:YARN 体系结构 •资源管理:使用 YARN 使用Apache Sqoop 导入关系数据 • Sqoop 简介 •数据的基本导入导出 •减少传输的数据量 •改善 Sqoop 性能 • Sqoop 2 Impala及 Hive 介绍 •简介 •为什么使用 Impala 及 Hive • Hive 和传统数据库的比较 • Hive 应用场景 使用Impala 及 Hive 管理数据及建模 •数据存储 •创建数据库及表 •表数据导入 • HCatalog • Impala 元数据缓存数据格式 •选择文件格式 • 支持不同文件格式的工具 • Avro 数据格式定义模式 • 在 Hive 及 Sqoop 里使用 Avro • Avro 格式数据模式变更 • 压缩 数据分区 • 分区概述 • Impala 及 Hive 里的数据分区ApacheFlume 实时数据采集 •什么是 Apache Flume • Flume 基本体系结构 • Flume 源 • Flume 槽 •Flume 通道 • Flume 配置 Spark基础 •什么是 Apache Spark •使用 Spark Shell • RDDs( 可恢复的分布式数据集) • Spark 里的函数式编程 Spark RDD • RDD •键值对 RDD • MapReduce •其他键值对 RDD 操作 编写和部署 Spark 应用 • Spark 应用对比 Spark Shell •创建 SparkContext •创建 Spark 应用(Scala 和Java) •运行 Spark 应用 • Spark 应用 WebUI •配置 Spark 属性 •运行日志Spark的并行处理 •回顾:机群环境里的 Spark • RDD 分区 •基于文件 RDD 的分区 • HDFS 和本地化数据 •执行并行操作 •执行阶段及任务Spark缓存和持久化 • RDD 演变 •缓存 •分布式持久化Spark数据处理的常见模式 •常见 Spark 应用案例 •迭代式算法 •图处理及分析 •机器学习 •例子:K-Means 预览:SparkSQL • Spark SQL 和 SQL Context •创建 DataFrames •变更及查询 DataFrames •保存 DataFrames • Spark SQL 对比 Impala
页:
[1]