課程簡(jiǎn)介
本次課程主要針對(duì)大數(shù)據(jù)平臺(tái)中MapReduce,Spark中的Spark core、Spark SQL 、SparkStreaming這些內(nèi)容進(jìn)行講解,通過(guò)這些內(nèi)容的學(xué)習(xí),可以掌握MapReduce的編程思想,以及掌握Spark中的離線計(jì)算和實(shí)時(shí)計(jì)算。
目標(biāo)收益
?了解大數(shù)據(jù)中MapReduce的核心原理
?掌握MapReduce核心編程
?了解Spark性能優(yōu)化
?掌握Spark中的離線計(jì)算和實(shí)時(shí)計(jì)算
?掌握Spark SQL的使用
?掌握HBase的高級(jí)特性
培訓(xùn)對(duì)象
1. 有一定編程基礎(chǔ),想學(xué)習(xí)和了解大數(shù)據(jù)的學(xué)員
2. 計(jì)算機(jī)相關(guān)專業(yè),未來(lái)向大數(shù)據(jù)領(lǐng)域方向發(fā)展的學(xué)員
課程大綱
第一天上午:Hadoop原理及HDFS實(shí)操 |
1 快速了解Hadoop 2 Hadoop3.x的核心細(xì)節(jié)優(yōu)化 3 Hadoop大數(shù)據(jù)平臺(tái)的選型和安裝 4 HDFS核心原理詳解 5 HDFS的常見(jiàn)shell操作 6 Java代碼操作HDFS |
第一天上午:HDFS高級(jí)內(nèi)容 |
7 HDFS體系結(jié)構(gòu)原理詳細(xì)剖析 8 HDFS的回收站和安全模式 9 HDFS的高可用和高擴(kuò)展架構(gòu)剖析 |
第一天下午:MapReduce核心編程 |
1 MapReduce原理深度剖析 2 MapReduce實(shí)戰(zhàn)案例開(kāi)發(fā) 3 Shuffle過(guò)程詳解 4 Hadoop中的序列化機(jī)制分析 5 YARN資源管理模型分析 6 YARN中的多資源隊(duì)列配置和使用 |
第一天下午:MapReduce源碼剖析及性能優(yōu)化解決方案 |
7 Inputformat源碼分析 8 Outputformat源碼分析 9 小文件問(wèn)題剖析及實(shí)戰(zhàn) 10 數(shù)據(jù)傾斜問(wèn)題剖析及實(shí)戰(zhàn) |
第二天上午:Spark原理及案例開(kāi)發(fā) |
1 Spark核心原理剖析 2 Spark集群安裝部署模式剖析 3 Spark架構(gòu)原理分析 4 Spark 程序開(kāi)發(fā) 5 Spark任務(wù)的三種提交模式 |
第二天上午:Spark核心編程及高級(jí)特性剖析 |
6 Spark常用Transformation算子分析及實(shí)戰(zhàn) 7 Spark常用Action算子分析及實(shí)戰(zhàn) 8 RDD持久化原理剖析及應(yīng)用 9 寬依賴和窄依賴剖析 10 checkpoint原理剖析及應(yīng)用 |
第二天下午:Spark性能優(yōu)化原理分析及實(shí)戰(zhàn) |
1 Spark中高性能序列化類庫(kù)的使用 2 Spark JVM垃圾回收調(diào)憂 3 Spark數(shù)據(jù)本地化策略剖析 4 Spark 任務(wù)并行度調(diào)憂 5 Spark常用算子調(diào)憂 6 Spark SQL核心功能應(yīng)用 7 SparkStreaming實(shí)時(shí)計(jì)算引擎的應(yīng)用 |
第二天下午:案例實(shí)戰(zhàn) |
8 Spark批處理案例 9 Spark Streaming流處理案例 10 基于SparkSQL的一站式SQL開(kāi)發(fā)引擎 |
第一天上午:Hadoop原理及HDFS實(shí)操 1 快速了解Hadoop 2 Hadoop3.x的核心細(xì)節(jié)優(yōu)化 3 Hadoop大數(shù)據(jù)平臺(tái)的選型和安裝 4 HDFS核心原理詳解 5 HDFS的常見(jiàn)shell操作 6 Java代碼操作HDFS |
第一天上午:HDFS高級(jí)內(nèi)容 7 HDFS體系結(jié)構(gòu)原理詳細(xì)剖析 8 HDFS的回收站和安全模式 9 HDFS的高可用和高擴(kuò)展架構(gòu)剖析 |
第一天下午:MapReduce核心編程 1 MapReduce原理深度剖析 2 MapReduce實(shí)戰(zhàn)案例開(kāi)發(fā) 3 Shuffle過(guò)程詳解 4 Hadoop中的序列化機(jī)制分析 5 YARN資源管理模型分析 6 YARN中的多資源隊(duì)列配置和使用 |
第一天下午:MapReduce源碼剖析及性能優(yōu)化解決方案 7 Inputformat源碼分析 8 Outputformat源碼分析 9 小文件問(wèn)題剖析及實(shí)戰(zhàn) 10 數(shù)據(jù)傾斜問(wèn)題剖析及實(shí)戰(zhàn) |
第二天上午:Spark原理及案例開(kāi)發(fā) 1 Spark核心原理剖析 2 Spark集群安裝部署模式剖析 3 Spark架構(gòu)原理分析 4 Spark 程序開(kāi)發(fā) 5 Spark任務(wù)的三種提交模式 |
第二天上午:Spark核心編程及高級(jí)特性剖析 6 Spark常用Transformation算子分析及實(shí)戰(zhàn) 7 Spark常用Action算子分析及實(shí)戰(zhàn) 8 RDD持久化原理剖析及應(yīng)用 9 寬依賴和窄依賴剖析 10 checkpoint原理剖析及應(yīng)用 |
第二天下午:Spark性能優(yōu)化原理分析及實(shí)戰(zhàn) 1 Spark中高性能序列化類庫(kù)的使用 2 Spark JVM垃圾回收調(diào)憂 3 Spark數(shù)據(jù)本地化策略剖析 4 Spark 任務(wù)并行度調(diào)憂 5 Spark常用算子調(diào)憂 6 Spark SQL核心功能應(yīng)用 7 SparkStreaming實(shí)時(shí)計(jì)算引擎的應(yīng)用 |
第二天下午:案例實(shí)戰(zhàn) 8 Spark批處理案例 9 Spark Streaming流處理案例 10 基于SparkSQL的一站式SQL開(kāi)發(fā)引擎 |