数源 发表于 2017-5-9 15:22:09

CCA Spark and Hadoop Developer (CCA175) 公开课信息

CCA Spark and Hadoop Developer (CCA175) 开发者认证认证准备建议:Spark andHadoop开发者培训考试形式:120分钟;70%通过;解决10~12基于CDH5机群上需通过实际操作的问题线上:长期开课线下北京、上海定期开课(最近一次培训时间:北京6月22-25日Cloudera Developer training for Sparkand Hadoop(CCA-175) ,上海6月27-30日Cloudera Developer training for Spark and Hadoop(CCA-175))课时:28h/4天咨询:Q1438118790课程介绍 Hadoop及生态系统介绍    •传统大规模系统的问题    • Hadoop !   • Hadoop 生态系统 Hadoop体系结构及 HDFS    •机群环境下的分布式处理    •存储:HDFS 体系结构   •存储:使用 HDFS    •资源管理:YARN 体系结构   •资源管理:使用 YARN 使用Apache Sqoop 导入关系数据   • Sqoop 简介   •数据的基本导入导出    •减少传输的数据量    •改善 Sqoop 性能   • Sqoop 2 Impala及 Hive 介绍    •简介    •为什么使用 Impala 及 Hive    • Hive 和传统数据库的比较   • Hive 应用场景 使用Impala 及 Hive 管理数据及建模    •数据存储    •创建数据库及表    •表数据导入    • HCatalog    • Impala 元数据缓存数据格式    •选择文件格式    • 支持不同文件格式的工具    • Avro 数据格式定义模式    • 在 Hive 及 Sqoop 里使用 Avro    • Avro 格式数据模式变更    • 压缩 数据分区    • 分区概述    • Impala 及 Hive 里的数据分区ApacheFlume 实时数据采集    •什么是 Apache Flume    • Flume 基本体系结构   • Flume 源   • Flume 槽   •Flume 通道   • Flume 配置 Spark基础    •什么是 Apache Spark    •使用 Spark Shell    • RDDs( 可恢复的分布式数据集)    • Spark 里的函数式编程 Spark RDD    • RDD    •键值对 RDD    • MapReduce    •其他键值对 RDD 操作 编写和部署 Spark 应用   • Spark 应用对比 Spark Shell    •创建 SparkContext    •创建 Spark 应用(Scala 和Java)    •运行 Spark 应用   • Spark 应用 WebUI   •配置 Spark 属性   •运行日志Spark的并行处理    •回顾:机群环境里的 Spark    • RDD 分区    •基于文件 RDD 的分区   • HDFS 和本地化数据   •执行并行操作    •执行阶段及任务Spark缓存和持久化    • RDD 演变    •缓存    •分布式持久化Spark数据处理的常见模式    •常见 Spark 应用案例    •迭代式算法    •图处理及分析    •机器学习    •例子:K-Means 预览:SparkSQL    • Spark SQL 和 SQL Context    •创建 DataFrames    •变更及查询 DataFrames    •保存 DataFrames    • Spark SQL 对比 Impala
页: [1]
查看完整版本: CCA Spark and Hadoop Developer (CCA175) 公开课信息