課程簡介
第一天涵蓋大數據平臺架構演變、湖倉一體數據架構實戰(zhàn)、StarRocks高性能MPP、數據湖工具Hudi實戰(zhàn)及Flink DataStream原理。第二天則聚焦Flink狀態(tài)和容錯、Flink SQL和Table開發(fā)、Flink CDC實戰(zhàn)解析及流批一體項目實戰(zhàn),包括RDBMS、Kafka、Flink CDC、FlinkSQL、ES和Kibana的整合應用。通過豐富案例分享,幫助學員掌握流批一體典型技術架構與應用場景,適用于大數據架構師及開發(fā)人員。
目標收益
培訓對象
課程大綱
Day1 大數據平臺的架構演變 |
數據湖架構案例實戰(zhàn) 離線計算大數據平臺架構 實時計算應用場景介紹 新一代湖倉一體架構 基于Flink實時數倉數倉解決方案 基于Flink+Hudi流批一體數據架構解決方案 |
Day1 湖倉一體數據架構實戰(zhàn)解析 |
數據接入大數據平臺 —離線數據接入 —實時的數據接入 數據處理過程 —數據的ETL —數據分層(ODS、DW和DM等) —數據建模 —數據校驗 ?數據應用 —數據離線應用 —數據實時應用 —數據實驗室 數據展示工具(BI工具) |
Day1 StarRocks高性能MPP介紹 |
StarRocks架構和原理 StarRocks高性能MPP的特性 StarRocks的表設計介紹 — 數據模型 — 排序和前綴索引 — 分區(qū)和分桶 — 數據類型 — 列級別索引 — 視圖 StarRocks應用場景介紹 StarRocks數據導入 — insert into — Stream Load — Routine Load — Flink CDC StarRocks+Flink實時數倉解決方案介紹 |
Day1 數據湖工具實戰(zhàn)解析 |
什么是Hudi 為什么會有Hudi Hudi整體架構 Hudi的文件結構介紹 Hudi數據存儲 Hudi數據合并的原理介紹 Hudi表格式介紹 Hudi的索引設計介紹 Hudi的元數據表介紹 Hudi表的存儲類型介紹 — COW存儲類型 — MOR存儲類型 Hudi時間軸服務介紹 Flink+Hudi整合實操 |
Day1 Flink DataStream原理 |
實時計算應用場景介紹 實時處理框架Flink簡介 Flink on Yarn運行機制介紹 Flink DataStream原理 Flink并行計算和DAG Flink API邏輯層次 DataStream轉換操作 數據分區(qū) Flink中的時間EventTime和ProcessingTime WateMark原理和實戰(zhàn) DataStream Window原理和實戰(zhàn) CountWindow介紹和實戰(zhàn) TimeWindow介紹和實戰(zhàn) |
Day2 Flink狀態(tài)和容錯 |
分布式流計算原理 流計算的狀態(tài) 快照和全局快照 全局一致性原理介紹和實戰(zhàn) Exactly once語義原理和實戰(zhàn) Flink故障恢復原理和實戰(zhàn) Flink Checkpoint原理和實實現 Flink快照Barrier原理和實戰(zhàn) Flink狀態(tài)管理介紹 MemoryStateBackend介紹 FSStateBackend介紹 RocksDBStateBackend介紹 |
Day2 Flink SQL和Table開發(fā)實戰(zhàn) |
Flink SQL和Table開發(fā)實戰(zhàn) Flink SQL功能介紹 Flink SQL Kafka+FlinkSQL整合 Flink Table介紹 Flink Table DSL語法介紹 |
Day2 數據離線和增量同步工具Flink CDC實戰(zhàn)解析 |
Flink CDC實戰(zhàn)解析 傳統(tǒng)CDC工具實戰(zhàn)解析 CDC工具實戰(zhàn)解析和比較 Flink CDC支持的功能 基于日志CDC的數據同步流程 ETL—傳統(tǒng)CDC ETL分析 ETL—基于Flink CDC 聚合分析 Flink CDC 數據寬表 Flink SQL如何集成CDC Flink CDC 作為數據采集層的優(yōu)勢 實操:老師演練項目 |
Day2 流批一體項目實戰(zhàn)RDBMS+Kafka+Flink CDC+FlinkSQL+ES+Kibana項目實戰(zhàn) |
RDBMS+Kafka+Flink CDC+FlinkSQL+ES+Kibana項目實戰(zhàn): Docker演示環(huán)境介紹 項目需求分析和解決方案設計 流式數倉分層模型設計 Flink CDC mysql實戰(zhàn) Flink CDC postgres實戰(zhàn) Flink CDC Kafka實戰(zhàn) Flink CDC ES實現 Kibana結果展示 RDBMS+Kafka+Flink CDC+FlinkSQL+ES+Kibana完整項目實戰(zhàn) 實操:老師演練項目 |
Day2 流批一體大數據案例分享 |
流批一體典型的技術架構和應用場景介紹 大型互聯網Flink+hudi流批一體大數據架構和案例介紹 某銀行基于Flink的流批一體大數據架構和案例介紹 |
Day1 大數據平臺的架構演變 數據湖架構案例實戰(zhàn) 離線計算大數據平臺架構 實時計算應用場景介紹 新一代湖倉一體架構 基于Flink實時數倉數倉解決方案 基于Flink+Hudi流批一體數據架構解決方案 |
Day1 湖倉一體數據架構實戰(zhàn)解析 數據接入大數據平臺 —離線數據接入 —實時的數據接入 數據處理過程 —數據的ETL —數據分層(ODS、DW和DM等) —數據建模 —數據校驗 ?數據應用 —數據離線應用 —數據實時應用 —數據實驗室 數據展示工具(BI工具) |
Day1 StarRocks高性能MPP介紹 StarRocks架構和原理 StarRocks高性能MPP的特性 StarRocks的表設計介紹 — 數據模型 — 排序和前綴索引 — 分區(qū)和分桶 — 數據類型 — 列級別索引 — 視圖 StarRocks應用場景介紹 StarRocks數據導入 — insert into — Stream Load — Routine Load — Flink CDC StarRocks+Flink實時數倉解決方案介紹 |
Day1 數據湖工具實戰(zhàn)解析 什么是Hudi 為什么會有Hudi Hudi整體架構 Hudi的文件結構介紹 Hudi數據存儲 Hudi數據合并的原理介紹 Hudi表格式介紹 Hudi的索引設計介紹 Hudi的元數據表介紹 Hudi表的存儲類型介紹 — COW存儲類型 — MOR存儲類型 Hudi時間軸服務介紹 Flink+Hudi整合實操 |
Day1 Flink DataStream原理 實時計算應用場景介紹 實時處理框架Flink簡介 Flink on Yarn運行機制介紹 Flink DataStream原理 Flink并行計算和DAG Flink API邏輯層次 DataStream轉換操作 數據分區(qū) Flink中的時間EventTime和ProcessingTime WateMark原理和實戰(zhàn) DataStream Window原理和實戰(zhàn) CountWindow介紹和實戰(zhàn) TimeWindow介紹和實戰(zhàn) |
Day2 Flink狀態(tài)和容錯 分布式流計算原理 流計算的狀態(tài) 快照和全局快照 全局一致性原理介紹和實戰(zhàn) Exactly once語義原理和實戰(zhàn) Flink故障恢復原理和實戰(zhàn) Flink Checkpoint原理和實實現 Flink快照Barrier原理和實戰(zhàn) Flink狀態(tài)管理介紹 MemoryStateBackend介紹 FSStateBackend介紹 RocksDBStateBackend介紹 |
Day2 Flink SQL和Table開發(fā)實戰(zhàn) Flink SQL和Table開發(fā)實戰(zhàn) Flink SQL功能介紹 Flink SQL Kafka+FlinkSQL整合 Flink Table介紹 Flink Table DSL語法介紹 |
Day2 數據離線和增量同步工具Flink CDC實戰(zhàn)解析 Flink CDC實戰(zhàn)解析 傳統(tǒng)CDC工具實戰(zhàn)解析 CDC工具實戰(zhàn)解析和比較 Flink CDC支持的功能 基于日志CDC的數據同步流程 ETL—傳統(tǒng)CDC ETL分析 ETL—基于Flink CDC 聚合分析 Flink CDC 數據寬表 Flink SQL如何集成CDC Flink CDC 作為數據采集層的優(yōu)勢 實操:老師演練項目 |
Day2 流批一體項目實戰(zhàn)RDBMS+Kafka+Flink CDC+FlinkSQL+ES+Kibana項目實戰(zhàn) RDBMS+Kafka+Flink CDC+FlinkSQL+ES+Kibana項目實戰(zhàn): Docker演示環(huán)境介紹 項目需求分析和解決方案設計 流式數倉分層模型設計 Flink CDC mysql實戰(zhàn) Flink CDC postgres實戰(zhàn) Flink CDC Kafka實戰(zhàn) Flink CDC ES實現 Kibana結果展示 RDBMS+Kafka+Flink CDC+FlinkSQL+ES+Kibana完整項目實戰(zhàn) 實操:老師演練項目 |
Day2 流批一體大數據案例分享 流批一體典型的技術架構和應用場景介紹 大型互聯網Flink+hudi流批一體大數據架構和案例介紹 某銀行基于Flink的流批一體大數據架構和案例介紹 |