工程師
其他
SQL
Docker
推薦課程
average > 0 ? $model->average . '分' : '10.0分' ?>

核心大數(shù)據(jù)組件原理和開發(fā)實戰(zhàn)

劉老師

某知名咨詢公司 云平臺系統(tǒng)架構(gòu)師

畢業(yè)于?連理??學(xué)
簡介:
精通開源的?數(shù)據(jù)?態(tài)技術(shù)和架構(gòu),Hadoop、Hive、Hbase、 Spark、Flink等開源技術(shù)棧。
有10年左右基于?數(shù)據(jù)解決?案平臺、數(shù)據(jù)架構(gòu)、數(shù)據(jù)中臺、數(shù)據(jù)治理、數(shù)據(jù)分析和挖掘的?型數(shù)據(jù)湖和數(shù)
據(jù)中臺項?架構(gòu)實施經(jīng)驗,
?前任職國內(nèi)知名咨詢公司,先后服務(wù)于北京?學(xué)軟件研究所、阿?巴巴、Teradata,實施過基于開源?數(shù)據(jù)技術(shù)
棧的數(shù)據(jù)湖解決?案和實施、湖倉?體架構(gòu)咨詢和實施、數(shù)據(jù)中臺的咨詢和設(shè)施
最近主要項?介紹:
某移動?數(shù)據(jù)平臺架構(gòu)設(shè)計和設(shè)施 (Hadoop、Spark)
四??之?的數(shù)據(jù)湖咨詢和實施
某?型商業(yè)銀?數(shù)據(jù)中臺咨詢
某銀?基于開源?數(shù)據(jù)技術(shù)棧數(shù)據(jù)中臺的咨詢和實施
某航空公司數(shù)據(jù)平臺流批?體解決?案和實施
特長:
在?數(shù)據(jù)架構(gòu)、開發(fā)、運維和優(yōu)化、數(shù)據(jù)集成、 數(shù)據(jù)湖(Data Lake)、數(shù)據(jù)建模、數(shù)據(jù)挖掘/機(jī)器學(xué)習(xí)、數(shù)據(jù)
中臺等??有豐富經(jīng) 驗。

畢業(yè)于?連理??學(xué) 簡介: 精通開源的?數(shù)據(jù)?態(tài)技術(shù)和架構(gòu),Hadoop、Hive、Hbase、 Spark、Flink等開源技術(shù)棧。 有10年左右基于?數(shù)據(jù)解決?案平臺、數(shù)據(jù)架構(gòu)、數(shù)據(jù)中臺、數(shù)據(jù)治理、數(shù)據(jù)分析和挖掘的?型數(shù)據(jù)湖和數(shù) 據(jù)中臺項?架構(gòu)實施經(jīng)驗, ?前任職國內(nèi)知名咨詢公司,先后服務(wù)于北京?學(xué)軟件研究所、阿?巴巴、Teradata,實施過基于開源?數(shù)據(jù)技術(shù) 棧的數(shù)據(jù)湖解決?案和實施、湖倉?體架構(gòu)咨詢和實施、數(shù)據(jù)中臺的咨詢和設(shè)施 最近主要項?介紹: 某移動?數(shù)據(jù)平臺架構(gòu)設(shè)計和設(shè)施 (Hadoop、Spark) 四??之?的數(shù)據(jù)湖咨詢和實施 某?型商業(yè)銀?數(shù)據(jù)中臺咨詢 某銀?基于開源?數(shù)據(jù)技術(shù)棧數(shù)據(jù)中臺的咨詢和實施 某航空公司數(shù)據(jù)平臺流批?體解決?案和實施 特長: 在?數(shù)據(jù)架構(gòu)、開發(fā)、運維和優(yōu)化、數(shù)據(jù)集成、 數(shù)據(jù)湖(Data Lake)、數(shù)據(jù)建模、數(shù)據(jù)挖掘/機(jī)器學(xué)習(xí)、數(shù)據(jù) 中臺等??有豐富經(jīng) 驗。

課程費用

5800.00 /人

課程時長

2

成為教練

課程簡介

Flink SQL 是基于流處理和批處理的強(qiáng)大工具,通過多表關(guān)聯(lián)、自定義 TableSource 和 Table Sink 等實戰(zhàn),實現(xiàn)數(shù)據(jù)統(tǒng)計分析。同時,結(jié)合 Watermark 和窗口函數(shù)處理時間序列數(shù)據(jù)。此外,F(xiàn)link 還與 Hive、RDBMS、Kafka、CDC、ES 等集成,滿足各種數(shù)據(jù)源需求。項目實戰(zhàn)涵蓋了流批一體、Kafka、Elasticsearch、Docker 演示等環(huán)境,提供完整的解決方案。

目標(biāo)收益

培訓(xùn)對象

課程大綱

主流大數(shù)據(jù)的整體技術(shù)架構(gòu) ?開源大數(shù)據(jù)技術(shù)架構(gòu)
?開源大數(shù)據(jù)常用組件之間的依賴關(guān)系
?離線計算框架介紹
—Mapreduce、Hive、Tez、Impala、Presto
?實時查詢框架介紹
—NoSQL、Hbase
?實時計算框架介紹
—Kafka、Flink、Spark Streaming
?內(nèi)存計算框架介紹
—Spark、SparkSQL、SparkMllib、SparkR
?實時OLAP技術(shù)介紹
—Clickhouse、StarRocks等
?海量日志快速檢索架構(gòu)
—ELK(Elasticsearch、Logstash、Kibana)等
?數(shù)據(jù)湖工具介紹
Hudi、IceBerg
大數(shù)據(jù)平臺的架構(gòu)演變 ?數(shù)據(jù)湖架構(gòu)案例實戰(zhàn)
?離線計算大數(shù)據(jù)平臺架構(gòu)
?實時計算應(yīng)用場景介紹
?新一代湖倉一體架構(gòu)
?基于Flink實時數(shù)倉數(shù)倉解決方案
—Kafka+Flink+clickhouse
—Flink CDC+Flink+StarRocks
基于Flink CDC+Flink+Hudi流批一體數(shù)據(jù)架構(gòu)解決方案
實時數(shù)倉和湖倉一體數(shù)據(jù)架構(gòu)實戰(zhàn)解析 ?數(shù)據(jù)接入大數(shù)據(jù)平臺
-離線數(shù)據(jù)接入
-實時的數(shù)據(jù)接入
?數(shù)據(jù)處理過程
-數(shù)據(jù)的ETL
-數(shù)據(jù)分層(ODS、DW和DM等)
-數(shù)據(jù)建模
-數(shù)據(jù)校驗
?數(shù)據(jù)應(yīng)用
-數(shù)據(jù)離線應(yīng)用
-數(shù)據(jù)實時應(yīng)用
-數(shù)據(jù)實驗室
數(shù)據(jù)展示工具(BI工具)
Hadoop開發(fā)實戰(zhàn) ?HDFS架構(gòu)介紹
?HDFS原理介紹
?NameNode功能詳解
?DataNode功能詳
?HDFS HA功能詳解
?HSFD的fsimage和editslog詳解
?HDFS的block詳解
?HDFS的block的備份策略
?Mapreduce原理
?MapReduce流程
?剖析一個MapReduce程序
?Mapper和Reducer抽象類詳解
?Combiner詳解
Partitioner詳解
Hive數(shù)倉工具開發(fā)實戰(zhàn) ?Hive的作用和原理說明
?Hadoop倉庫和傳統(tǒng)數(shù)據(jù)倉庫的協(xié)作關(guān)系
?Hadoop/Hive倉庫數(shù)據(jù)數(shù)據(jù)流
?Hive的MetaStore詳解
?Hive的基本用法
?Hive的server啟動
?HQL基本語法
?Hive的加載數(shù)據(jù)本地加載和HDFS加載
?Hive的partition詳解
?Hive的存儲方式詳解
RCFILE、TEXTFILE和SEQUEUEFILE
Hbase原理和開發(fā)實戰(zhàn) ?NoSQL介紹
?NoSQL應(yīng)用場景
?Hbase的架構(gòu)原理
?Hbase核心概念詳解(HMaster、HRegionServer、Store、StoreFile、HFile、HLog和MetaStore)
?Hbase自帶的namesapce和Meta表詳解
?HBase邏輯視圖介紹
?HBase物理視圖介紹
?HBase的RowKey設(shè)計原則
?HBase BloomFilter的介紹
?手動設(shè)置Split和Compaction操作
?Pre-Split的介紹
?HBase使用場景介紹
Hbase shell增刪改查實戰(zhàn)
Spark原理和開發(fā)實戰(zhàn) ?Spark的編程模型
?Spark編程模型解析
?Partition實現(xiàn)機(jī)制
?RDD的特點、操作、依賴關(guān)系
?Transformation RDD詳解
?Action RDD詳解
?Spark容錯機(jī)制
?lineage和checkpoint詳解
?Spark的運行方式
?Spark DataFrame和DateSet介紹
?Spark SQL原理
?Spark SQL和Hive連接
?DataFrame和DataSet架構(gòu)
?Fataframe、DataSet和Spark SQL的比較
?SparkSQL parquet格式實戰(zhàn)
Spark SQL開發(fā)
Flink原理和開發(fā)實戰(zhàn) ?DataStream API介紹與使用
?DataStream編程模型
?DataStream類型與轉(zhuǎn)換
?Pipeline與StreamGraph轉(zhuǎn)換
?Transformation
?時間概念與Watermark
?Windows窗口計算和多流合并
?Flink table API原理和使用
?Flink SQL原理和使用
?TimeStamp與Watermark原理和實戰(zhàn)
?多表關(guān)聯(lián)實戰(zhàn)
?與Hive的集成實戰(zhàn)
?自定義TableSource、Table Sink和Table Factory實戰(zhàn)
項目實戰(zhàn):基于Flink SQL實現(xiàn)數(shù)據(jù)統(tǒng)計分析
流批一體項目實戰(zhàn)RDBMS
+Kafka+Flink CDC+FlinkSQL+ES+Kibana項目實戰(zhàn)
RDBMS+Kafka+Flink CDC+FlinkSQL+ES+Kibana項目實戰(zhàn):
?Docker演示環(huán)境介紹
?項目需求分析和解決方案設(shè)計
?流式數(shù)倉分層模型設(shè)計
?Flink CDC mysql實戰(zhàn)
?Flink CDC postgres實戰(zhàn)
?Flink CDC Kafka實戰(zhàn)
?Flink CDC ES實現(xiàn)
?Kibana結(jié)果展示
?RDBMS+Kafka+Flink CDC+FlinkSQL+ES+Kibana完整項目實戰(zhàn)
實操:老師演練項目
大數(shù)據(jù)平臺實施和運維 ?大數(shù)據(jù)平臺規(guī)劃
?大數(shù)據(jù)平臺實施的步驟及構(gòu)建
?大數(shù)據(jù)平臺權(quán)限認(rèn)證和授權(quán)解決方案
?Kerberos+Openldap+sssd+knox+Ranger實現(xiàn)企業(yè)級大數(shù)據(jù)平臺安全控制和實操
?Yarn資源分配策略詳解和實操
?yarn replacement rules權(quán)限控制和實操
?Yarn 隊列+Ranger控制詳解和實操
?HDFS+Ranger權(quán)限控制和實操
?跨集群數(shù)據(jù)訪問的安全和資源控制案例分享
某大型銀行大數(shù)據(jù)平臺深度解析
主流大數(shù)據(jù)的整體技術(shù)架構(gòu)
?開源大數(shù)據(jù)技術(shù)架構(gòu)
?開源大數(shù)據(jù)常用組件之間的依賴關(guān)系
?離線計算框架介紹
—Mapreduce、Hive、Tez、Impala、Presto
?實時查詢框架介紹
—NoSQL、Hbase
?實時計算框架介紹
—Kafka、Flink、Spark Streaming
?內(nèi)存計算框架介紹
—Spark、SparkSQL、SparkMllib、SparkR
?實時OLAP技術(shù)介紹
—Clickhouse、StarRocks等
?海量日志快速檢索架構(gòu)
—ELK(Elasticsearch、Logstash、Kibana)等
?數(shù)據(jù)湖工具介紹
Hudi、IceBerg
大數(shù)據(jù)平臺的架構(gòu)演變
?數(shù)據(jù)湖架構(gòu)案例實戰(zhàn)
?離線計算大數(shù)據(jù)平臺架構(gòu)
?實時計算應(yīng)用場景介紹
?新一代湖倉一體架構(gòu)
?基于Flink實時數(shù)倉數(shù)倉解決方案
—Kafka+Flink+clickhouse
—Flink CDC+Flink+StarRocks
基于Flink CDC+Flink+Hudi流批一體數(shù)據(jù)架構(gòu)解決方案
實時數(shù)倉和湖倉一體數(shù)據(jù)架構(gòu)實戰(zhàn)解析
?數(shù)據(jù)接入大數(shù)據(jù)平臺
-離線數(shù)據(jù)接入
-實時的數(shù)據(jù)接入
?數(shù)據(jù)處理過程
-數(shù)據(jù)的ETL
-數(shù)據(jù)分層(ODS、DW和DM等)
-數(shù)據(jù)建模
-數(shù)據(jù)校驗
?數(shù)據(jù)應(yīng)用
-數(shù)據(jù)離線應(yīng)用
-數(shù)據(jù)實時應(yīng)用
-數(shù)據(jù)實驗室
數(shù)據(jù)展示工具(BI工具)
Hadoop開發(fā)實戰(zhàn)
?HDFS架構(gòu)介紹
?HDFS原理介紹
?NameNode功能詳解
?DataNode功能詳
?HDFS HA功能詳解
?HSFD的fsimage和editslog詳解
?HDFS的block詳解
?HDFS的block的備份策略
?Mapreduce原理
?MapReduce流程
?剖析一個MapReduce程序
?Mapper和Reducer抽象類詳解
?Combiner詳解
Partitioner詳解
Hive數(shù)倉工具開發(fā)實戰(zhàn)
?Hive的作用和原理說明
?Hadoop倉庫和傳統(tǒng)數(shù)據(jù)倉庫的協(xié)作關(guān)系
?Hadoop/Hive倉庫數(shù)據(jù)數(shù)據(jù)流
?Hive的MetaStore詳解
?Hive的基本用法
?Hive的server啟動
?HQL基本語法
?Hive的加載數(shù)據(jù)本地加載和HDFS加載
?Hive的partition詳解
?Hive的存儲方式詳解
RCFILE、TEXTFILE和SEQUEUEFILE
Hbase原理和開發(fā)實戰(zhàn)
?NoSQL介紹
?NoSQL應(yīng)用場景
?Hbase的架構(gòu)原理
?Hbase核心概念詳解(HMaster、HRegionServer、Store、StoreFile、HFile、HLog和MetaStore)
?Hbase自帶的namesapce和Meta表詳解
?HBase邏輯視圖介紹
?HBase物理視圖介紹
?HBase的RowKey設(shè)計原則
?HBase BloomFilter的介紹
?手動設(shè)置Split和Compaction操作
?Pre-Split的介紹
?HBase使用場景介紹
Hbase shell增刪改查實戰(zhàn)
Spark原理和開發(fā)實戰(zhàn)
?Spark的編程模型
?Spark編程模型解析
?Partition實現(xiàn)機(jī)制
?RDD的特點、操作、依賴關(guān)系
?Transformation RDD詳解
?Action RDD詳解
?Spark容錯機(jī)制
?lineage和checkpoint詳解
?Spark的運行方式
?Spark DataFrame和DateSet介紹
?Spark SQL原理
?Spark SQL和Hive連接
?DataFrame和DataSet架構(gòu)
?Fataframe、DataSet和Spark SQL的比較
?SparkSQL parquet格式實戰(zhàn)
Spark SQL開發(fā)
Flink原理和開發(fā)實戰(zhàn)
?DataStream API介紹與使用
?DataStream編程模型
?DataStream類型與轉(zhuǎn)換
?Pipeline與StreamGraph轉(zhuǎn)換
?Transformation
?時間概念與Watermark
?Windows窗口計算和多流合并
?Flink table API原理和使用
?Flink SQL原理和使用
?TimeStamp與Watermark原理和實戰(zhàn)
?多表關(guān)聯(lián)實戰(zhàn)
?與Hive的集成實戰(zhàn)
?自定義TableSource、Table Sink和Table Factory實戰(zhàn)
項目實戰(zhàn):基于Flink SQL實現(xiàn)數(shù)據(jù)統(tǒng)計分析
流批一體項目實戰(zhàn)RDBMS
+Kafka+Flink CDC+FlinkSQL+ES+Kibana項目實戰(zhàn)
RDBMS+Kafka+Flink CDC+FlinkSQL+ES+Kibana項目實戰(zhàn):
?Docker演示環(huán)境介紹
?項目需求分析和解決方案設(shè)計
?流式數(shù)倉分層模型設(shè)計
?Flink CDC mysql實戰(zhàn)
?Flink CDC postgres實戰(zhàn)
?Flink CDC Kafka實戰(zhàn)
?Flink CDC ES實現(xiàn)
?Kibana結(jié)果展示
?RDBMS+Kafka+Flink CDC+FlinkSQL+ES+Kibana完整項目實戰(zhàn)
實操:老師演練項目
大數(shù)據(jù)平臺實施和運維
?大數(shù)據(jù)平臺規(guī)劃
?大數(shù)據(jù)平臺實施的步驟及構(gòu)建
?大數(shù)據(jù)平臺權(quán)限認(rèn)證和授權(quán)解決方案
?Kerberos+Openldap+sssd+knox+Ranger實現(xiàn)企業(yè)級大數(shù)據(jù)平臺安全控制和實操
?Yarn資源分配策略詳解和實操
?yarn replacement rules權(quán)限控制和實操
?Yarn 隊列+Ranger控制詳解和實操
?HDFS+Ranger權(quán)限控制和實操
?跨集群數(shù)據(jù)訪問的安全和資源控制案例分享
某大型銀行大數(shù)據(jù)平臺深度解析

活動詳情

提交需求