課程簡介
深入理解數(shù)據(jù)網(wǎng)格的核心概念、原則和優(yōu)勢。
掌握數(shù)據(jù)網(wǎng)格的關(guān)鍵技術(shù)和實(shí)踐方法。
學(xué)習(xí)如何設(shè)計(jì)和構(gòu)建數(shù)據(jù)網(wǎng)格架構(gòu)。
了解數(shù)據(jù)網(wǎng)格的實(shí)施步驟和最佳實(shí)踐。
能夠評估企業(yè)是否適合采用數(shù)據(jù)網(wǎng)格,并制定實(shí)施計(jì)劃。
目標(biāo)收益
培訓(xùn)對象
數(shù)據(jù)架構(gòu)師、數(shù)據(jù)工程師、業(yè)務(wù)負(fù)責(zé)人、數(shù)據(jù)治理專家、以及對數(shù)據(jù)網(wǎng)格感興趣的技術(shù)人員。
課程大綱
第一天:數(shù)據(jù)網(wǎng)格核心概念與原則 模塊 1:傳統(tǒng)數(shù)據(jù)架構(gòu)的挑戰(zhàn)與數(shù)據(jù)網(wǎng)格的興起 (上午) |
傳統(tǒng)數(shù)據(jù)倉庫、數(shù)據(jù)湖的局限性:集中式、煙囪式、響應(yīng)慢 數(shù)據(jù)孤島、數(shù)據(jù)蔓延、數(shù)據(jù)質(zhì)量差等數(shù)據(jù)管理難題 數(shù)據(jù)網(wǎng)格的定義、目標(biāo)和優(yōu)勢:面向業(yè)務(wù)、自治性、可擴(kuò)展性 數(shù)據(jù)網(wǎng)格的核心原則: 領(lǐng)域所有權(quán)(Domain Ownership) 數(shù)據(jù)即產(chǎn)品(Data as a Product) 自服務(wù)數(shù)據(jù)平臺(Self-Serve Data Platform) 聯(lián)合計(jì)算治理(Federated Computational Governance) |
模塊 2:數(shù)據(jù)網(wǎng)格與領(lǐng)域驅(qū)動設(shè)計(jì) (DDD) (上午) |
領(lǐng)域驅(qū)動設(shè)計(jì) (DDD) 的核心概念:領(lǐng)域、子領(lǐng)域、限界上下文 DDD在數(shù)據(jù)網(wǎng)格中的應(yīng)用:領(lǐng)域劃分、數(shù)據(jù)建模、服務(wù)設(shè)計(jì) 如何識別和定義數(shù)據(jù)網(wǎng)格中的數(shù)據(jù)領(lǐng)域 領(lǐng)域?qū)<以跀?shù)據(jù)網(wǎng)格中的角色與職責(zé) 動手實(shí)踐:根據(jù)業(yè)務(wù)場景進(jìn)行領(lǐng)域劃分和限界上下文定義 |
模塊 3:數(shù)據(jù)即產(chǎn)品 (Data as a Product) (下午) |
什么是數(shù)據(jù)即產(chǎn)品? 數(shù)據(jù)作為獨(dú)立的服務(wù)單元 數(shù)據(jù)產(chǎn)品的特性:可發(fā)現(xiàn)性、可尋址性、可理解性、可信賴性、互操作性、安全性 數(shù)據(jù)產(chǎn)品所有者的職責(zé):數(shù)據(jù)質(zhì)量、數(shù)據(jù)安全、數(shù)據(jù)文檔、數(shù)據(jù)服務(wù) 如何設(shè)計(jì)和開發(fā)數(shù)據(jù)產(chǎn)品 數(shù)據(jù)產(chǎn)品的價(jià)值評估與運(yùn)營 動手實(shí)踐:設(shè)計(jì)一個(gè)數(shù)據(jù)產(chǎn)品,并定義其特性和評估指標(biāo) |
模塊 4:自服務(wù)數(shù)據(jù)平臺 (Self-Serve Data Platform) (下午) |
自服務(wù)數(shù)據(jù)平臺的定義和目標(biāo):簡化數(shù)據(jù)訪問、降低技術(shù)門檻 自服務(wù)數(shù)據(jù)平臺的核心功能: 數(shù)據(jù)發(fā)現(xiàn)與目錄 數(shù)據(jù)攝取與集成 數(shù)據(jù)轉(zhuǎn)換與清洗 數(shù)據(jù)分析與可視化 數(shù)據(jù)安全與治理 如何選擇和構(gòu)建自服務(wù)數(shù)據(jù)平臺 開源工具與云平臺服務(wù):Apache Atlas, AWS Glue, Azure Purview, Google Cloud Dataproc 動手實(shí)踐:評估和選擇適用于特定場景的自服務(wù)數(shù)據(jù)平臺工具 |
第二天:數(shù)據(jù)網(wǎng)格實(shí)施與治理 模塊 5:聯(lián)合計(jì)算治理 (Federated Computational Governance) (上午) |
計(jì)算治理的必要性:保障數(shù)據(jù)質(zhì)量、數(shù)據(jù)安全、數(shù)據(jù)合規(guī) 聯(lián)合計(jì)算治理的原則:領(lǐng)域自治、全局一致、協(xié)作治理 計(jì)算治理的具體措施: 定義數(shù)據(jù)標(biāo)準(zhǔn)與規(guī)范 實(shí)施數(shù)據(jù)質(zhì)量監(jiān)控與改進(jìn) 建立數(shù)據(jù)安全與訪問控制策略 遵循數(shù)據(jù)合規(guī)要求 動手實(shí)踐:制定數(shù)據(jù)標(biāo)準(zhǔn)和規(guī)范,以及訪問控制策略 |
模塊 6:數(shù)據(jù)網(wǎng)格實(shí)施步驟與最佳實(shí)踐 (上午) |
評估企業(yè)是否適合采用數(shù)據(jù)網(wǎng)格:文化、組織、技術(shù) 制定數(shù)據(jù)網(wǎng)格實(shí)施計(jì)劃:范圍、階段、里程碑 選擇合適的試點(diǎn)項(xiàng)目:價(jià)值高、風(fēng)險(xiǎn)低 構(gòu)建跨職能團(tuán)隊(duì):領(lǐng)域?qū)<?、?shù)據(jù)工程師、數(shù)據(jù)科學(xué)家 培訓(xùn)與賦能:提升團(tuán)隊(duì)的數(shù)據(jù)素養(yǎng)和技能 持續(xù)改進(jìn)與迭代:根據(jù)反饋調(diào)整實(shí)施策略 動手實(shí)踐:根據(jù)企業(yè)自身情況評估是否適合數(shù)據(jù)網(wǎng)格 |
模塊 7:數(shù)據(jù)網(wǎng)格的技術(shù)實(shí)現(xiàn) (下午) |
數(shù)據(jù)集成技術(shù):ETL, ELT, CDC, 數(shù)據(jù)虛擬化 數(shù)據(jù)存儲技術(shù):對象存儲, 分布式文件系統(tǒng), 數(shù)據(jù)庫, 數(shù)據(jù)湖存儲 (如Delta Lake, Iceberg) 數(shù)據(jù)計(jì)算技術(shù):Apache Spark, Presto, Flink, Dask, Serverless計(jì)算 API網(wǎng)關(guān):Kong, Apigee, Tyk 元數(shù)據(jù)管理:Apache Atlas, Amundsen, DataHub 數(shù)據(jù)質(zhì)量管理:Deequ, Great Expectations 動手實(shí)踐:選擇適合不同數(shù)據(jù)產(chǎn)品的數(shù)據(jù)集成技術(shù),并進(jìn)行簡單配置 |
模塊 8:數(shù)據(jù)網(wǎng)格的組織結(jié)構(gòu)與文化變革 (下午) |
傳統(tǒng)數(shù)據(jù)團(tuán)隊(duì)與數(shù)據(jù)網(wǎng)格團(tuán)隊(duì)的對比 領(lǐng)域數(shù)據(jù)團(tuán)隊(duì)的組建與職責(zé) 數(shù)據(jù)平臺團(tuán)隊(duì)的職責(zé)與定位:提供自服務(wù)數(shù)據(jù)基礎(chǔ)設(shè)施 組織結(jié)構(gòu)調(diào)整:適應(yīng)數(shù)據(jù)網(wǎng)格的去中心化模式 數(shù)據(jù)文化的培養(yǎng):數(shù)據(jù)驅(qū)動決策、數(shù)據(jù)共享、數(shù)據(jù)協(xié)作 動手實(shí)踐:設(shè)計(jì)適合特定企業(yè)的數(shù)據(jù)團(tuán)隊(duì)組織結(jié)構(gòu) |
第三天:數(shù)據(jù)網(wǎng)格高級議題與未來展望 (可選) 模塊 9:數(shù)據(jù)網(wǎng)格的自動化與智能化 (上午) |
利用AI技術(shù)自動化數(shù)據(jù)質(zhì)量監(jiān)控與改進(jìn) 利用機(jī)器學(xué)習(xí)實(shí)現(xiàn)智能數(shù)據(jù)發(fā)現(xiàn)與推薦 自動化數(shù)據(jù)血緣分析與影響分析 自動化安全策略配置與漏洞檢測 動手實(shí)踐:探索使用AI技術(shù)提升數(shù)據(jù)網(wǎng)格的自動化水平 |
模塊 10:數(shù)據(jù)網(wǎng)格的安全與隱私 (上午) |
數(shù)據(jù)網(wǎng)格的安全挑戰(zhàn):去中心化帶來的安全風(fēng)險(xiǎn) 數(shù)據(jù)安全的最佳實(shí)踐:身份驗(yàn)證、授權(quán)、加密、數(shù)據(jù)脫敏、數(shù)據(jù)審計(jì) 差分隱私 (Differential Privacy) 聯(lián)邦學(xué)習(xí) (Federated Learning) 多方安全計(jì)算 (Secure Multi-Party Computation) 動手實(shí)踐:設(shè)計(jì)數(shù)據(jù)網(wǎng)格的安全策略 |
模塊 11:數(shù)據(jù)網(wǎng)格的治理框架與實(shí)踐 (下午) |
數(shù)據(jù)治理的挑戰(zhàn):統(tǒng)一標(biāo)準(zhǔn)、協(xié)調(diào)沖突、保障合規(guī) 聯(lián)合計(jì)算治理的實(shí)現(xiàn): 定義全局?jǐn)?shù)據(jù)標(biāo)準(zhǔn)與規(guī)范 建立領(lǐng)域自治的治理流程 實(shí)施跨領(lǐng)域的數(shù)據(jù)質(zhì)量監(jiān)控與改進(jìn) 使用元數(shù)據(jù)管理工具進(jìn)行治理協(xié)作 合規(guī)性需求:GDPR, CCPA等 動手實(shí)踐:設(shè)計(jì)適用于數(shù)據(jù)網(wǎng)格的治理框架 |
模塊 12:數(shù)據(jù)網(wǎng)格的未來發(fā)展趨勢 (下午) |
數(shù)據(jù)網(wǎng)格與云原生技術(shù)的融合 數(shù)據(jù)網(wǎng)格與實(shí)時(shí)數(shù)據(jù)處理的結(jié)合 數(shù)據(jù)網(wǎng)格與AI技術(shù)的深度集成 數(shù)據(jù)網(wǎng)格的應(yīng)用案例分享:金融、零售、醫(yī)療、制造 開放討論:學(xué)員分享對數(shù)據(jù)網(wǎng)格未來發(fā)展的看法 |
可選模塊 (根據(jù)客戶需求調(diào)整): |
特定數(shù)據(jù)網(wǎng)格平臺的實(shí)踐: 例如,使用AWS Lake Formation構(gòu)建數(shù)據(jù)網(wǎng)格。 領(lǐng)域驅(qū)動設(shè)計(jì)進(jìn)階: 深入學(xué)習(xí)DDD的戰(zhàn)略和戰(zhàn)術(shù)設(shè)計(jì)。 數(shù)據(jù)產(chǎn)品管理: 如何像管理產(chǎn)品一樣管理數(shù)據(jù),進(jìn)行版本控制,發(fā)布和迭代。 |
工具與技術(shù): |
數(shù)據(jù)集成: Apache Kafka, Debezium, Airbyte, Fivetran, dbt 數(shù)據(jù)存儲: AWS S3, Azure Blob Storage, Google Cloud Storage, Delta Lake, Apache Iceberg, Apache Hudi 數(shù)據(jù)計(jì)算: Apache Spark, Presto, Trino, Dask, AWS Lambda, Azure Functions API 網(wǎng)關(guān): Kong, Apigee, Tyk 元數(shù)據(jù)管理: Apache Atlas, Amundsen, DataHub, AWS Glue Data Catalog, Azure Purview, Google Cloud Data Catalog 數(shù)據(jù)質(zhì)量: Deequ, Great Expectations, Soda SQL |
第一天:數(shù)據(jù)網(wǎng)格核心概念與原則 模塊 1:傳統(tǒng)數(shù)據(jù)架構(gòu)的挑戰(zhàn)與數(shù)據(jù)網(wǎng)格的興起 (上午) 傳統(tǒng)數(shù)據(jù)倉庫、數(shù)據(jù)湖的局限性:集中式、煙囪式、響應(yīng)慢 數(shù)據(jù)孤島、數(shù)據(jù)蔓延、數(shù)據(jù)質(zhì)量差等數(shù)據(jù)管理難題 數(shù)據(jù)網(wǎng)格的定義、目標(biāo)和優(yōu)勢:面向業(yè)務(wù)、自治性、可擴(kuò)展性 數(shù)據(jù)網(wǎng)格的核心原則: 領(lǐng)域所有權(quán)(Domain Ownership) 數(shù)據(jù)即產(chǎn)品(Data as a Product) 自服務(wù)數(shù)據(jù)平臺(Self-Serve Data Platform) 聯(lián)合計(jì)算治理(Federated Computational Governance) |
模塊 2:數(shù)據(jù)網(wǎng)格與領(lǐng)域驅(qū)動設(shè)計(jì) (DDD) (上午) 領(lǐng)域驅(qū)動設(shè)計(jì) (DDD) 的核心概念:領(lǐng)域、子領(lǐng)域、限界上下文 DDD在數(shù)據(jù)網(wǎng)格中的應(yīng)用:領(lǐng)域劃分、數(shù)據(jù)建模、服務(wù)設(shè)計(jì) 如何識別和定義數(shù)據(jù)網(wǎng)格中的數(shù)據(jù)領(lǐng)域 領(lǐng)域?qū)<以跀?shù)據(jù)網(wǎng)格中的角色與職責(zé) 動手實(shí)踐:根據(jù)業(yè)務(wù)場景進(jìn)行領(lǐng)域劃分和限界上下文定義 |
模塊 3:數(shù)據(jù)即產(chǎn)品 (Data as a Product) (下午) 什么是數(shù)據(jù)即產(chǎn)品? 數(shù)據(jù)作為獨(dú)立的服務(wù)單元 數(shù)據(jù)產(chǎn)品的特性:可發(fā)現(xiàn)性、可尋址性、可理解性、可信賴性、互操作性、安全性 數(shù)據(jù)產(chǎn)品所有者的職責(zé):數(shù)據(jù)質(zhì)量、數(shù)據(jù)安全、數(shù)據(jù)文檔、數(shù)據(jù)服務(wù) 如何設(shè)計(jì)和開發(fā)數(shù)據(jù)產(chǎn)品 數(shù)據(jù)產(chǎn)品的價(jià)值評估與運(yùn)營 動手實(shí)踐:設(shè)計(jì)一個(gè)數(shù)據(jù)產(chǎn)品,并定義其特性和評估指標(biāo) |
模塊 4:自服務(wù)數(shù)據(jù)平臺 (Self-Serve Data Platform) (下午) 自服務(wù)數(shù)據(jù)平臺的定義和目標(biāo):簡化數(shù)據(jù)訪問、降低技術(shù)門檻 自服務(wù)數(shù)據(jù)平臺的核心功能: 數(shù)據(jù)發(fā)現(xiàn)與目錄 數(shù)據(jù)攝取與集成 數(shù)據(jù)轉(zhuǎn)換與清洗 數(shù)據(jù)分析與可視化 數(shù)據(jù)安全與治理 如何選擇和構(gòu)建自服務(wù)數(shù)據(jù)平臺 開源工具與云平臺服務(wù):Apache Atlas, AWS Glue, Azure Purview, Google Cloud Dataproc 動手實(shí)踐:評估和選擇適用于特定場景的自服務(wù)數(shù)據(jù)平臺工具 |
第二天:數(shù)據(jù)網(wǎng)格實(shí)施與治理 模塊 5:聯(lián)合計(jì)算治理 (Federated Computational Governance) (上午) 計(jì)算治理的必要性:保障數(shù)據(jù)質(zhì)量、數(shù)據(jù)安全、數(shù)據(jù)合規(guī) 聯(lián)合計(jì)算治理的原則:領(lǐng)域自治、全局一致、協(xié)作治理 計(jì)算治理的具體措施: 定義數(shù)據(jù)標(biāo)準(zhǔn)與規(guī)范 實(shí)施數(shù)據(jù)質(zhì)量監(jiān)控與改進(jìn) 建立數(shù)據(jù)安全與訪問控制策略 遵循數(shù)據(jù)合規(guī)要求 動手實(shí)踐:制定數(shù)據(jù)標(biāo)準(zhǔn)和規(guī)范,以及訪問控制策略 |
模塊 6:數(shù)據(jù)網(wǎng)格實(shí)施步驟與最佳實(shí)踐 (上午) 評估企業(yè)是否適合采用數(shù)據(jù)網(wǎng)格:文化、組織、技術(shù) 制定數(shù)據(jù)網(wǎng)格實(shí)施計(jì)劃:范圍、階段、里程碑 選擇合適的試點(diǎn)項(xiàng)目:價(jià)值高、風(fēng)險(xiǎn)低 構(gòu)建跨職能團(tuán)隊(duì):領(lǐng)域?qū)<?、?shù)據(jù)工程師、數(shù)據(jù)科學(xué)家 培訓(xùn)與賦能:提升團(tuán)隊(duì)的數(shù)據(jù)素養(yǎng)和技能 持續(xù)改進(jìn)與迭代:根據(jù)反饋調(diào)整實(shí)施策略 動手實(shí)踐:根據(jù)企業(yè)自身情況評估是否適合數(shù)據(jù)網(wǎng)格 |
模塊 7:數(shù)據(jù)網(wǎng)格的技術(shù)實(shí)現(xiàn) (下午) 數(shù)據(jù)集成技術(shù):ETL, ELT, CDC, 數(shù)據(jù)虛擬化 數(shù)據(jù)存儲技術(shù):對象存儲, 分布式文件系統(tǒng), 數(shù)據(jù)庫, 數(shù)據(jù)湖存儲 (如Delta Lake, Iceberg) 數(shù)據(jù)計(jì)算技術(shù):Apache Spark, Presto, Flink, Dask, Serverless計(jì)算 API網(wǎng)關(guān):Kong, Apigee, Tyk 元數(shù)據(jù)管理:Apache Atlas, Amundsen, DataHub 數(shù)據(jù)質(zhì)量管理:Deequ, Great Expectations 動手實(shí)踐:選擇適合不同數(shù)據(jù)產(chǎn)品的數(shù)據(jù)集成技術(shù),并進(jìn)行簡單配置 |
模塊 8:數(shù)據(jù)網(wǎng)格的組織結(jié)構(gòu)與文化變革 (下午) 傳統(tǒng)數(shù)據(jù)團(tuán)隊(duì)與數(shù)據(jù)網(wǎng)格團(tuán)隊(duì)的對比 領(lǐng)域數(shù)據(jù)團(tuán)隊(duì)的組建與職責(zé) 數(shù)據(jù)平臺團(tuán)隊(duì)的職責(zé)與定位:提供自服務(wù)數(shù)據(jù)基礎(chǔ)設(shè)施 組織結(jié)構(gòu)調(diào)整:適應(yīng)數(shù)據(jù)網(wǎng)格的去中心化模式 數(shù)據(jù)文化的培養(yǎng):數(shù)據(jù)驅(qū)動決策、數(shù)據(jù)共享、數(shù)據(jù)協(xié)作 動手實(shí)踐:設(shè)計(jì)適合特定企業(yè)的數(shù)據(jù)團(tuán)隊(duì)組織結(jié)構(gòu) |
第三天:數(shù)據(jù)網(wǎng)格高級議題與未來展望 (可選) 模塊 9:數(shù)據(jù)網(wǎng)格的自動化與智能化 (上午) 利用AI技術(shù)自動化數(shù)據(jù)質(zhì)量監(jiān)控與改進(jìn) 利用機(jī)器學(xué)習(xí)實(shí)現(xiàn)智能數(shù)據(jù)發(fā)現(xiàn)與推薦 自動化數(shù)據(jù)血緣分析與影響分析 自動化安全策略配置與漏洞檢測 動手實(shí)踐:探索使用AI技術(shù)提升數(shù)據(jù)網(wǎng)格的自動化水平 |
模塊 10:數(shù)據(jù)網(wǎng)格的安全與隱私 (上午) 數(shù)據(jù)網(wǎng)格的安全挑戰(zhàn):去中心化帶來的安全風(fēng)險(xiǎn) 數(shù)據(jù)安全的最佳實(shí)踐:身份驗(yàn)證、授權(quán)、加密、數(shù)據(jù)脫敏、數(shù)據(jù)審計(jì) 差分隱私 (Differential Privacy) 聯(lián)邦學(xué)習(xí) (Federated Learning) 多方安全計(jì)算 (Secure Multi-Party Computation) 動手實(shí)踐:設(shè)計(jì)數(shù)據(jù)網(wǎng)格的安全策略 |
模塊 11:數(shù)據(jù)網(wǎng)格的治理框架與實(shí)踐 (下午) 數(shù)據(jù)治理的挑戰(zhàn):統(tǒng)一標(biāo)準(zhǔn)、協(xié)調(diào)沖突、保障合規(guī) 聯(lián)合計(jì)算治理的實(shí)現(xiàn): 定義全局?jǐn)?shù)據(jù)標(biāo)準(zhǔn)與規(guī)范 建立領(lǐng)域自治的治理流程 實(shí)施跨領(lǐng)域的數(shù)據(jù)質(zhì)量監(jiān)控與改進(jìn) 使用元數(shù)據(jù)管理工具進(jìn)行治理協(xié)作 合規(guī)性需求:GDPR, CCPA等 動手實(shí)踐:設(shè)計(jì)適用于數(shù)據(jù)網(wǎng)格的治理框架 |
模塊 12:數(shù)據(jù)網(wǎng)格的未來發(fā)展趨勢 (下午) 數(shù)據(jù)網(wǎng)格與云原生技術(shù)的融合 數(shù)據(jù)網(wǎng)格與實(shí)時(shí)數(shù)據(jù)處理的結(jié)合 數(shù)據(jù)網(wǎng)格與AI技術(shù)的深度集成 數(shù)據(jù)網(wǎng)格的應(yīng)用案例分享:金融、零售、醫(yī)療、制造 開放討論:學(xué)員分享對數(shù)據(jù)網(wǎng)格未來發(fā)展的看法 |
可選模塊 (根據(jù)客戶需求調(diào)整): 特定數(shù)據(jù)網(wǎng)格平臺的實(shí)踐: 例如,使用AWS Lake Formation構(gòu)建數(shù)據(jù)網(wǎng)格。 領(lǐng)域驅(qū)動設(shè)計(jì)進(jìn)階: 深入學(xué)習(xí)DDD的戰(zhàn)略和戰(zhàn)術(shù)設(shè)計(jì)。 數(shù)據(jù)產(chǎn)品管理: 如何像管理產(chǎn)品一樣管理數(shù)據(jù),進(jìn)行版本控制,發(fā)布和迭代。 |
工具與技術(shù): 數(shù)據(jù)集成: Apache Kafka, Debezium, Airbyte, Fivetran, dbt 數(shù)據(jù)存儲: AWS S3, Azure Blob Storage, Google Cloud Storage, Delta Lake, Apache Iceberg, Apache Hudi 數(shù)據(jù)計(jì)算: Apache Spark, Presto, Trino, Dask, AWS Lambda, Azure Functions API 網(wǎng)關(guān): Kong, Apigee, Tyk 元數(shù)據(jù)管理: Apache Atlas, Amundsen, DataHub, AWS Glue Data Catalog, Azure Purview, Google Cloud Data Catalog 數(shù)據(jù)質(zhì)量: Deequ, Great Expectations, Soda SQL |