課程簡介
本課程是基于金融行業(yè)技術實踐和業(yè)務應用場景,結合當前企業(yè)級應用場景進行綜合性課程設計。從專業(yè)知識,專業(yè)技能,通用技能多維度全面培養(yǎng)數據庫優(yōu)化人才的綜合能力。
目標收益
培訓對象
課程大綱
流批一體以及數據湖技術講解 4小時 |
1.Flink流批一體架構、原理與實踐 (1)讀寫模型 2.數據湖數據湖理念介紹 3.Hudi批流一體架構、原理與實踐 4.Hudi核心組件 (1)有序的時間軸元數據 (2)分層布局的數據文件 (3)索引(多種實現方式) 5.Hudi表設計 (1)Timeline (2)數據文件--Hoodie key (3)索引 6.Hudi表類型(讀寫時模式區(qū)分) (1)Copy-On-Write 寫時復制表 (2)Merge-On-Read 讀時合并表 7.數據湖Iceberg對比和技術實現 8.Trino技術和方案實踐 9.presto查詢引擎應用 10.多庫多表實時入湖最佳實踐 11.數據湖并發(fā)控制實踐 12.數據湖最佳實踐 |
實戰(zhàn)案例 4小時 |
1.金融行業(yè)Top客戶應用場景、規(guī)模建設等情況 2.OLAP實時化業(yè)務場景實踐(深度講解) (1)大數據金融信貸項目 ①項目需求分析 1)用戶信用卡持卡用戶特征分析 2)信用卡用戶消費行為分析 3)用戶信用卡管理行為分析 4)頁面訪問Top實時 5)動賬管理行為分析 6)…… (2)系統(tǒng)架構設計 (3)數據流程設計 (4)離線分析 (5)實時分析 (6)實時化探索 3.某行基于hudi的數據湖構建實踐 (1)業(yè)務痛點 ①當前數倉架構:批流雙鏈路對應不同的存儲和計算組件,維護和資源成本高 ②痛點:數據調度、數據同步和修復回刷等場景 (2)為什么選擇數據湖Hudi (3)方案:技術選型(實時化、離線) ①如何使用Hudi解決業(yè)務問題 ②Hudi模型設計與傳統(tǒng)的離線數倉模型設計 ③基于Hudi的模式設計(寫模型設計) ④確定合適的分區(qū)和文件大小來解決數據更新中毛刺問題 (4)應用場景:數據一鍵入湖、流量日志分流、物化查詢加速、實時數倉演進 (5)生產環(huán)境最優(yōu)選擇 ①表類型選擇 1)存儲類型 2)索引類型:支持多索引 3)Bucket數量:bucket index設計實踐 4)主鍵列 5)索引列 (6)數據寫入方式:通過數據寫入的瓶頸進行綜合分析以及Flink On Hudi 的更新瓶頸 (7)數據查詢方式:無法使用數據時間進行快照查詢以及異步物化視圖、數據緩存等 (8)合并寬表能力不足解決、維表 JOIN延長 (9)優(yōu)化文件布局 (10)數據湖并發(fā)控制缺陷解決 (11)多流合并優(yōu)化實踐 (12)實時數倉并進:基于Kafka的ETL到基于視圖的ETL、Flink、Hudi、Trino應用; 4.某銀行借鑒某互聯網數據湖應用案例剖析 |
使用經驗(針對源碼缺陷進行分析) 1小時 |
1.Hudi Pipelines模塊,支持流寫Hudi在線同步源碼schema變更 2.Hudi項目對Timestamp字段類型的支持,使Presto能正常查詢Hudi表 3.確保Presto查詢Hudi MOR多分區(qū)表查詢正常 4.確保FlinkSQL增刪改查Hudi多分區(qū)表功能正常 5.hudi-common模塊,解決TaskManager NPE異常 |
流批一體以及數據湖技術講解 4小時 1.Flink流批一體架構、原理與實踐 (1)讀寫模型 2.數據湖數據湖理念介紹 3.Hudi批流一體架構、原理與實踐 4.Hudi核心組件 (1)有序的時間軸元數據 (2)分層布局的數據文件 (3)索引(多種實現方式) 5.Hudi表設計 (1)Timeline (2)數據文件--Hoodie key (3)索引 6.Hudi表類型(讀寫時模式區(qū)分) (1)Copy-On-Write 寫時復制表 (2)Merge-On-Read 讀時合并表 7.數據湖Iceberg對比和技術實現 8.Trino技術和方案實踐 9.presto查詢引擎應用 10.多庫多表實時入湖最佳實踐 11.數據湖并發(fā)控制實踐 12.數據湖最佳實踐 |
實戰(zhàn)案例 4小時 1.金融行業(yè)Top客戶應用場景、規(guī)模建設等情況 2.OLAP實時化業(yè)務場景實踐(深度講解) (1)大數據金融信貸項目 ①項目需求分析 1)用戶信用卡持卡用戶特征分析 2)信用卡用戶消費行為分析 3)用戶信用卡管理行為分析 4)頁面訪問Top實時 5)動賬管理行為分析 6)…… (2)系統(tǒng)架構設計 (3)數據流程設計 (4)離線分析 (5)實時分析 (6)實時化探索 3.某行基于hudi的數據湖構建實踐 (1)業(yè)務痛點 ①當前數倉架構:批流雙鏈路對應不同的存儲和計算組件,維護和資源成本高 ②痛點:數據調度、數據同步和修復回刷等場景 (2)為什么選擇數據湖Hudi (3)方案:技術選型(實時化、離線) ①如何使用Hudi解決業(yè)務問題 ②Hudi模型設計與傳統(tǒng)的離線數倉模型設計 ③基于Hudi的模式設計(寫模型設計) ④確定合適的分區(qū)和文件大小來解決數據更新中毛刺問題 (4)應用場景:數據一鍵入湖、流量日志分流、物化查詢加速、實時數倉演進 (5)生產環(huán)境最優(yōu)選擇 ①表類型選擇 1)存儲類型 2)索引類型:支持多索引 3)Bucket數量:bucket index設計實踐 4)主鍵列 5)索引列 (6)數據寫入方式:通過數據寫入的瓶頸進行綜合分析以及Flink On Hudi 的更新瓶頸 (7)數據查詢方式:無法使用數據時間進行快照查詢以及異步物化視圖、數據緩存等 (8)合并寬表能力不足解決、維表 JOIN延長 (9)優(yōu)化文件布局 (10)數據湖并發(fā)控制缺陷解決 (11)多流合并優(yōu)化實踐 (12)實時數倉并進:基于Kafka的ETL到基于視圖的ETL、Flink、Hudi、Trino應用; 4.某銀行借鑒某互聯網數據湖應用案例剖析 |
使用經驗(針對源碼缺陷進行分析) 1小時 1.Hudi Pipelines模塊,支持流寫Hudi在線同步源碼schema變更 2.Hudi項目對Timestamp字段類型的支持,使Presto能正常查詢Hudi表 3.確保Presto查詢Hudi MOR多分區(qū)表查詢正常 4.確保FlinkSQL增刪改查Hudi多分區(qū)表功能正常 5.hudi-common模塊,解決TaskManager NPE異常 |