工程師
其他
大數(shù)據(jù)
大數(shù)據(jù)平臺
大數(shù)據(jù)、實時計算、Flink、Spark
推薦課程
average > 0 ? $model->average . '分' : '10.0分' ?>

實時計算工程實踐

李虎翼

前阿里巴巴 計算平臺Staff Engineer

硅谷海歸軟件工程師、架構師,主要研究方向是分布式系統(tǒng)、大數(shù)據(jù)系統(tǒng)及數(shù)據(jù)挖掘;
10年以上從事大數(shù)據(jù)基礎設施研發(fā);
曾供職阿里巴巴云梯、飛天及計算平臺任高級技術專家;
參與阿里云梯、飛天、5K、計算平臺等系統(tǒng)研發(fā)并任核心成員;
曾在硅谷TangoMe從事數(shù)據(jù)基礎設施研發(fā),是國內最早參與大數(shù)據(jù)研究的軟件工程師之一;
擁有《Hadoop硬實戰(zhàn)》《Hadoop MapReduce實戰(zhàn)手冊》等多本著作,及MPICH2-Yarn、大數(shù)據(jù)恢復系統(tǒng)等多項專利。

硅谷海歸軟件工程師、架構師,主要研究方向是分布式系統(tǒng)、大數(shù)據(jù)系統(tǒng)及數(shù)據(jù)挖掘; 10年以上從事大數(shù)據(jù)基礎設施研發(fā); 曾供職阿里巴巴云梯、飛天及計算平臺任高級技術專家; 參與阿里云梯、飛天、5K、計算平臺等系統(tǒng)研發(fā)并任核心成員; 曾在硅谷TangoMe從事數(shù)據(jù)基礎設施研發(fā),是國內最早參與大數(shù)據(jù)研究的軟件工程師之一; 擁有《Hadoop硬實戰(zhàn)》《Hadoop MapReduce實戰(zhàn)手冊》等多本著作,及MPICH2-Yarn、大數(shù)據(jù)恢復系統(tǒng)等多項專利。

課程費用

6800.00 /人

課程時長

2

成為教練

課程簡介

結合講師在阿里大數(shù)據(jù)平臺十年的工作經(jīng)驗和在阿里計算平臺實時計算組三年的工作經(jīng)驗,通過實踐和工程角度出發(fā),介紹不一樣的實時計算。計算從基礎到深入,并結合真實案例和客戶自己的問題,全程干貨。

目標收益

通過培訓,可以讓學員對實時數(shù)據(jù)處理有更深入和全面的理解,掌握實時數(shù)據(jù)平臺建設思路,了解實時數(shù)據(jù)處理技術,并能夠在實際應用中解決實時計算預到的工程問題。
熟悉互聯(lián)網(wǎng)公司(如阿里巴巴、Uber、華為)的所面臨的問題和工程實踐經(jīng)驗。

培訓對象

了解大數(shù)據(jù)的軟件架構師。
中級和高級軟件工程師。

課程大綱

實時計算現(xiàn)狀和分析 實時計算相關概念
實時數(shù)據(jù)特點
實時計算相關技術介紹
國內外企業(yè)典型實時計算架構
實時計算應用場景總結
1. EL(Extract Load):異構系統(tǒng)數(shù)據(jù)同步、增量數(shù)據(jù)歸集
2. ETL(Extract Transform Load):數(shù)據(jù)預處理(清洗、集成、轉換)
3. EMT(Extract Match Trigger):CEP、SQL
4. EAT(Extract Algorithm Trigger)

實時計算應用場景總結
實時計算平臺應該具備功能
1. 數(shù)據(jù)采集
2. 數(shù)據(jù)加工
3. 數(shù)據(jù)寫入
4. 運維監(jiān)控
5. 可視化操作
6. 數(shù)據(jù)安全
7. 多租戶

數(shù)據(jù)加工能做什么
1. 預處理
(1) SQL
(2) UDF
(3) 插件
2. 規(guī)則匹配
(1) UDAF
(2) CEP
(3) SQL
(4) 插件
3. 多個流上數(shù)據(jù)關聯(lián)
4. 流上數(shù)據(jù)與外部數(shù)據(jù)關聯(lián)(Lookup)

實時計算平臺建設痛點
1. 技術問題
2. 人才問題
3. 投入產(chǎn)出效率問題
實時計算平臺落地實踐 實時計算平臺設計思想
1. 實時計算平臺設計目標
2. 實時計算平臺設計規(guī)范

實時計算平臺架構設計

數(shù)據(jù)采集平臺
1. 數(shù)據(jù)采集平臺架構設計
2. 數(shù)據(jù)采集平臺功能設計
(1) 全量數(shù)據(jù)拉取設計:MYSQL、ORACLE
(2) 增量數(shù)據(jù)拉取方案:MYSQL數(shù)據(jù)接入、ORACLE數(shù)據(jù)接入
3. 數(shù)據(jù)采集平臺特性解析
(1) ORACLE表結構變更
(2) 全量拉取分片策略
(3) 數(shù)據(jù)追源ums_id_
(4) 數(shù)據(jù)鏈路心跳

數(shù)據(jù)計算平臺
1. 數(shù)據(jù)計算平臺架構設計
2. 數(shù)據(jù)計算平臺功能設計
(1) 平臺管理
(2) 數(shù)據(jù)安全
(3) 運維監(jiān)控
(4) 數(shù)據(jù)解析
(5) 數(shù)據(jù)加工
(6) 數(shù)據(jù)寫入
3. 數(shù)據(jù)計算平臺特性解析
(1) 冪等寫入
(2) 多Flow支持(Spark/Flink)
(3) 動態(tài)Flow指令(Spark/Flink)
(4) 監(jiān)控數(shù)據(jù)采集(Spark/Flink)(Error和統(tǒng)計)
(5) HDFS小文件(Spark)
(6) 業(yè)務時間策略(Spark)(流上Join和Lookup)
(7) Flow漂移(Spark)
(8) 熱加載Topic變化(Spark)
(9) Lookup性能優(yōu)化(Spark)
(10) UDF熱加載(Spark)
(11) 自定義數(shù)據(jù)格式(Spark/Flink?)
(12) CEP可視化(Flink)
(13) 啟動加載數(shù)據(jù)Schema (Flink)


案例解析
1. 阿里案例
2. 華為案例
3. Uber案例
流批一體化 流批一體化產(chǎn)品
1. 阿里流批一體化產(chǎn)品
2. 華為流批一體化產(chǎn)品
3. Uber流批一體化產(chǎn)品
4. Apache Pulsar
5. Delta Lake

流批一體化總結
實時數(shù)據(jù)湖 數(shù)據(jù)湖的概念
數(shù)據(jù)湖與數(shù)據(jù)倉庫、數(shù)據(jù)中臺區(qū)別
實時數(shù)據(jù)湖實踐
實時數(shù)據(jù)湖總結

實時計算現(xiàn)狀和分析
實時計算相關概念
實時數(shù)據(jù)特點
實時計算相關技術介紹
國內外企業(yè)典型實時計算架構
實時計算應用場景總結
1. EL(Extract Load):異構系統(tǒng)數(shù)據(jù)同步、增量數(shù)據(jù)歸集
2. ETL(Extract Transform Load):數(shù)據(jù)預處理(清洗、集成、轉換)
3. EMT(Extract Match Trigger):CEP、SQL
4. EAT(Extract Algorithm Trigger)

實時計算應用場景總結
實時計算平臺應該具備功能
1. 數(shù)據(jù)采集
2. 數(shù)據(jù)加工
3. 數(shù)據(jù)寫入
4. 運維監(jiān)控
5. 可視化操作
6. 數(shù)據(jù)安全
7. 多租戶

數(shù)據(jù)加工能做什么
1. 預處理
(1) SQL
(2) UDF
(3) 插件
2. 規(guī)則匹配
(1) UDAF
(2) CEP
(3) SQL
(4) 插件
3. 多個流上數(shù)據(jù)關聯(lián)
4. 流上數(shù)據(jù)與外部數(shù)據(jù)關聯(lián)(Lookup)

實時計算平臺建設痛點
1. 技術問題
2. 人才問題
3. 投入產(chǎn)出效率問題
實時計算平臺落地實踐
實時計算平臺設計思想
1. 實時計算平臺設計目標
2. 實時計算平臺設計規(guī)范

實時計算平臺架構設計

數(shù)據(jù)采集平臺
1. 數(shù)據(jù)采集平臺架構設計
2. 數(shù)據(jù)采集平臺功能設計
(1) 全量數(shù)據(jù)拉取設計:MYSQL、ORACLE
(2) 增量數(shù)據(jù)拉取方案:MYSQL數(shù)據(jù)接入、ORACLE數(shù)據(jù)接入
3. 數(shù)據(jù)采集平臺特性解析
(1) ORACLE表結構變更
(2) 全量拉取分片策略
(3) 數(shù)據(jù)追源ums_id_
(4) 數(shù)據(jù)鏈路心跳

數(shù)據(jù)計算平臺
1. 數(shù)據(jù)計算平臺架構設計
2. 數(shù)據(jù)計算平臺功能設計
(1) 平臺管理
(2) 數(shù)據(jù)安全
(3) 運維監(jiān)控
(4) 數(shù)據(jù)解析
(5) 數(shù)據(jù)加工
(6) 數(shù)據(jù)寫入
3. 數(shù)據(jù)計算平臺特性解析
(1) 冪等寫入
(2) 多Flow支持(Spark/Flink)
(3) 動態(tài)Flow指令(Spark/Flink)
(4) 監(jiān)控數(shù)據(jù)采集(Spark/Flink)(Error和統(tǒng)計)
(5) HDFS小文件(Spark)
(6) 業(yè)務時間策略(Spark)(流上Join和Lookup)
(7) Flow漂移(Spark)
(8) 熱加載Topic變化(Spark)
(9) Lookup性能優(yōu)化(Spark)
(10) UDF熱加載(Spark)
(11) 自定義數(shù)據(jù)格式(Spark/Flink?)
(12) CEP可視化(Flink)
(13) 啟動加載數(shù)據(jù)Schema (Flink)


案例解析
1. 阿里案例
2. 華為案例
3. Uber案例
流批一體化
流批一體化產(chǎn)品
1. 阿里流批一體化產(chǎn)品
2. 華為流批一體化產(chǎn)品
3. Uber流批一體化產(chǎn)品
4. Apache Pulsar
5. Delta Lake

流批一體化總結
實時數(shù)據(jù)湖
數(shù)據(jù)湖的概念
數(shù)據(jù)湖與數(shù)據(jù)倉庫、數(shù)據(jù)中臺區(qū)別
實時數(shù)據(jù)湖實踐
實時數(shù)據(jù)湖總結

活動詳情

提交需求