久久精品国产夜色,国产精品美女久久久另类人妖

課程簡介

本課程首先從全局的視角，全面介紹了未來技術(shù)發(fā)展的趨勢，以及大數(shù)據(jù)在整個技術(shù)架構(gòu)中所處的位置。大數(shù)據(jù)的應用場景、設計思想，以及如何開發(fā)大數(shù)據(jù)的商業(yè)價值。
接著，課程由淺入深地介紹了Hadoop及其核心組件、Spark分布式計算框架與Scala語言。在此基礎上，課程詳細講解了建設大數(shù)據(jù)分析系統(tǒng)所需的各類系統(tǒng)及其開發(fā)實戰(zhàn)，包括Sqoop, Hive, HBase, Kylin, ElasticSearch, Kafka, Flink以及Zookeeper。
課程最后，站在實戰(zhàn)的角度，講解了一個傳統(tǒng)分析型系統(tǒng)的大數(shù)據(jù)轉(zhuǎn)型過程：期初遇到哪些難題，解決的思路，以及整個轉(zhuǎn)型的過程。

目標收益

培訓對象

1、系統(tǒng)架構(gòu)師、系統(tǒng)分析師、高級程序員、資深開發(fā)人員。
2、牽涉到海量數(shù)據(jù)處理的機構(gòu)數(shù)據(jù)中心運行、規(guī)劃、設計負責人。
3、云服務運營服務提供商規(guī)劃負責人。
4、高校、科研院所牽涉到大數(shù)據(jù)與分布式數(shù)據(jù)處理的項目負責人。

課程大綱

第一單元大數(shù)據(jù)分析處理技術(shù)與商業(yè)價值	什么是大數(shù)據(jù) 1.傳統(tǒng)的軟件架構(gòu) 1）傳統(tǒng)架構(gòu)的設計局限 2）用戶操作的三種類型 3）針對三種操作的優(yōu)化策略 4）基于讀寫分離的架構(gòu)設計應用案例：淘寶網(wǎng)的架構(gòu)設計 2.BI分析系統(tǒng) 1）OLTP vs. OLAP 2）面向主題的設計思想 3）數(shù)據(jù)倉庫與BI分析系統(tǒng) 4）基于傳統(tǒng)架構(gòu)的BI系統(tǒng)建設 5）基于大數(shù)據(jù)的BI系統(tǒng)建設應用案例：宏觀經(jīng)濟分析系統(tǒng)與中美貿(mào)易摩擦的分析 3.大數(shù)據(jù)分析系統(tǒng) 1）解決大并發(fā)問題的方案→讀寫分離→NoSQL數(shù)據(jù)庫應用案例：12306網(wǎng)站的余票查詢 2）解決海量數(shù)據(jù)收集與存儲→收集日志文件→分布式文件系統(tǒng) 應用案例：用戶推薦系統(tǒng)的建設 3）數(shù)據(jù)挖掘與機器學習→豐富的分析工具→組建數(shù)據(jù)分析團隊應用案例：企業(yè)征信平臺大數(shù)據(jù)時代思維的變革 1.不是隨機樣本，而是全體數(shù)據(jù) 2.不是精確性，而是混雜性 3.不是因果關(guān)系，而是相關(guān)關(guān)系大數(shù)據(jù)時代的商業(yè)價值 1.從最不可能的地方獲取數(shù)據(jù) 2.不再是數(shù)字化，而是數(shù)據(jù)化 1）文字變?yōu)閿?shù)據(jù) 2）方位變?yōu)閿?shù)據(jù) 3）溝通變?yōu)閿?shù)據(jù) 3.數(shù)據(jù)的思維創(chuàng)新 1）數(shù)據(jù)的再利用 2）數(shù)據(jù)的可擴展 3）數(shù)據(jù)的折舊值 4）數(shù)據(jù)的開放性 4.大數(shù)據(jù)的商業(yè)應用 1）大數(shù)據(jù)運營 2）用戶行為分析 3）精準營銷與推薦系統(tǒng) 4）風險控制與反欺詐 5）實時分析系統(tǒng)
第二單元 Hadoop技術(shù)框架	Hadoop的發(fā)展歷程 1.Google的MapReduce 2.Google的Bigtable 3.Facebook的Cassandra 結(jié)論：Hadoop有效地降低了大數(shù)據(jù)門檻 Hadoop的設計理念 1.分布式并行計算 2.移動計算而不是移動數(shù)據(jù) 3.單點故障可容忍 Hadoop的生態(tài)圈 1.Hadoop核心組件：MapReduce，HDFS 2.Hadoop2.0 1）Yarn與Hue 2）Cloudera vs. Hortonworks 3.并行計算框架：Spark vs. MapReduce 4.在線查詢：HBase與Impala 5.流式計算：Storm vs. Spark Stream 6.文本索引：Solr vs. ElasticSearch 7.Zookeeper與高可靠架構(gòu) 8.Kafka分布式隊列與日志收集 9.數(shù)據(jù)挖掘工具：Mahout、SparkR與Spark ML
第三單元 Hadoop核心組件	工作原理 1.HDFS的工作原理 2.MapReduce的工作原理 3.對工作原理的深度解讀 1）深度理解“移動計算” 2）Hadoop的性能問題 3）Hadoop的優(yōu)勢與劣勢 MapReduce實戰(zhàn) 實戰(zhàn)：編寫WordCount程序實戰(zhàn)：實現(xiàn)日志分析程序（Map only）實戰(zhàn)：實現(xiàn)數(shù)據(jù)關(guān)聯(lián)查詢 MapReduce的性能調(diào)優(yōu) 1.使用分布式緩存 2.處理文件的讀寫 3.Combiner, partitioner與order 4.重復使用變量原則
第四單元 Spark技術(shù)	工作原理 1.Spark在Hadoop生態(tài)圈中的位置 2.Spark vs. MapReduce 3.Spark系統(tǒng)架構(gòu)與RDD 1）RDD的運行原理 2）轉(zhuǎn)換/行動命令 3）名-值對RDD 案例：WordCount在Spark中的實現(xiàn) Spark編程 1.對RDD編程 1）轉(zhuǎn)換命令 2）行動命令 2.對名-值對RDD編程 1）聚合/分組/連接/排序 2）優(yōu)化 3.數(shù)據(jù)裝載與保存 4.SparkSQL 案例：運用Spark實現(xiàn)用戶資料的采集與展現(xiàn) Scala編程語言 1.Scala語言的編程特點 1）函數(shù)式編程風格 2）交互式解釋器 2.Scala編程基礎 1）定義變量、函數(shù)、類與對象 2）定義數(shù)組、list、set、map、元組與循環(huán)體 3）If, switch及基本操作 4）異常處理及類的層次關(guān)系 3.函數(shù)式編程 1）類成員函數(shù)、局部函數(shù) 2）函數(shù)的簡化寫法與閉包 3）可變參數(shù)、命名參數(shù)、缺省參數(shù) 4）尾遞歸 4.組合與繼承 1）抽象類與抽象方法 2）重載成員函數(shù)與方法 Spark的測試與發(fā)布 1.Spark-shell 2.本地運行調(diào)試 3.部署運行分布式系統(tǒng)
第五單元大數(shù)據(jù)系統(tǒng)轉(zhuǎn)型	傳統(tǒng)分析系統(tǒng)向大數(shù)據(jù)轉(zhuǎn)型 1.傳統(tǒng)BI系統(tǒng)面臨的難題 1）團隊大數(shù)據(jù)0基礎 2）要快速進入市場解決方案： 1）正確的技術(shù)選型降低門檻 2）演化式技術(shù)轉(zhuǎn)型 2.案例：一次稅務數(shù)據(jù)分析的演化式BI轉(zhuǎn)型過程 1）項目背景介紹 2）革命式大數(shù)據(jù)轉(zhuǎn)型的風險 3）漸進式大數(shù)據(jù)轉(zhuǎn)型的思路 4）轉(zhuǎn)型過程中的技術(shù)選型思路第一階段轉(zhuǎn)型：ETL過程的大數(shù)據(jù)轉(zhuǎn)型大數(shù)據(jù)分析系統(tǒng)的整體架構(gòu) 1.傳統(tǒng)BI分析系統(tǒng)的設計套路 1）多維建模與數(shù)據(jù)倉庫 2）數(shù)據(jù)治理與ETL過程 2.大數(shù)據(jù)分析系統(tǒng)的架構(gòu)設計 1）大數(shù)據(jù)分析系統(tǒng)的技術(shù)選型 2）大數(shù)據(jù)分析系統(tǒng)的硬件配置數(shù)據(jù)導入導出 1.sqoop工作原理 2.數(shù)據(jù)導入功能 1）導入成HDFS、Hive、HBase 2）增量導入實戰(zhàn)：數(shù)據(jù)導入的實戰(zhàn)應用 3.數(shù)據(jù)導出功能 1）導出成HDFS、Hive、HBase 2）增量導出實戰(zhàn)：數(shù)據(jù)導出的實戰(zhàn)應用 ETL過程 1.ETL的概念 2.Hive工作原理 3.Hive命令：創(chuàng)建表、導入數(shù)據(jù)、查詢數(shù)據(jù)、分區(qū) 4.Hive+SparkSQL的開發(fā)實戰(zhàn) 5.清洗、轉(zhuǎn)換、集成、裝載的應用案例數(shù)據(jù)查詢 1.離線分析、在線查詢與近線分析 2.NoSQL數(shù)據(jù)庫 1）分布式架構(gòu)CAP理論 2）BASE原則與弱一致性 3）NoSQL數(shù)據(jù)庫的特點與優(yōu)勢 3.HBase的工作原理 1）HBase的概念模型 2）HBase的物理模型 3）HBase的列式存儲 4）HBase的系統(tǒng)架構(gòu) 5）HBase存儲數(shù)據(jù)的特點 4.HBase的開發(fā)實戰(zhàn) 高可靠的架構(gòu)設計 1.Zookeeper的運行原理 2.實戰(zhàn)：Zookeeper實現(xiàn)高可靠的軟件架構(gòu) 第二階段轉(zhuǎn)型：建立ElasticSearch數(shù)據(jù)索引數(shù)據(jù)索引 1.ElasticSearch的性能分析與特點 2.ElasticSearch的應用實戰(zhàn) 1）建立ElasticSearch的Hive映射表 2）往ElasticSearch中寫入數(shù)據(jù) 3）用REST接口進行海量數(shù)據(jù)秒級查詢 3.ElasticSearch應用開發(fā)應注意的問題第三階段轉(zhuǎn)型：引入Kylin大數(shù)據(jù)多維建模數(shù)據(jù)分析 1.多維數(shù)據(jù)建模 2.Kylin的工作原理 3.Kylin的開發(fā)實戰(zhàn) 1）Kylin的數(shù)據(jù)導入 2）建立數(shù)據(jù)模型 3）建立Cube 4）使用jdbc進行數(shù)據(jù)查詢 4.Kylin的性能優(yōu)化 1）Kylin的數(shù)據(jù)膨脹率 2）強制索引、層級索引與組合索引 3）Kylin的增量導入腳本第四階段轉(zhuǎn)型：深度大數(shù)據(jù)應用實時數(shù)據(jù)分析 1.批處理 vs. 實時分析 2.實時分析系統(tǒng)應用實戰(zhàn) 1）Flink及其原理 2）Kafka及其原理 3）Kafka+Flink的應用實戰(zhàn) 案例：用戶行為分析應用舉例數(shù)據(jù)挖掘與人工智能 1.數(shù)據(jù)挖掘算法及其原理 2.數(shù)據(jù)挖掘過程及其人員配置 3.SparkML簡介案例：遠程智慧醫(yī)療平臺的人工智能建設過程

第一單元大數(shù)據(jù)分析處理技術(shù)與商業(yè)價值

什么是大數(shù)據(jù)
1.傳統(tǒng)的軟件架構(gòu)
1）傳統(tǒng)架構(gòu)的設計局限
2）用戶操作的三種類型
3）針對三種操作的優(yōu)化策略
4）基于讀寫分離的架構(gòu)設計
應用案例：淘寶網(wǎng)的架構(gòu)設計
2.BI分析系統(tǒng)
1）OLTP vs. OLAP
2）面向主題的設計思想
3）數(shù)據(jù)倉庫與BI分析系統(tǒng)
4）基于傳統(tǒng)架構(gòu)的BI系統(tǒng)建設
5）基于大數(shù)據(jù)的BI系統(tǒng)建設
應用案例：宏觀經(jīng)濟分析系統(tǒng)與中美貿(mào)易摩擦的分析
3.大數(shù)據(jù)分析系統(tǒng)
1）解決大并發(fā)問題的方案→讀寫分離→NoSQL數(shù)據(jù)庫
應用案例：12306網(wǎng)站的余票查詢
2）解決海量數(shù)據(jù)收集與存儲→收集日志文件→分布式文件系統(tǒng)
應用案例：用戶推薦系統(tǒng)的建設
3）數(shù)據(jù)挖掘與機器學習→豐富的分析工具→組建數(shù)據(jù)分析團隊
應用案例：企業(yè)征信平臺

大數(shù)據(jù)時代思維的變革
1.不是隨機樣本，而是全體數(shù)據(jù)
2.不是精確性，而是混雜性
3.不是因果關(guān)系，而是相關(guān)關(guān)系
大數(shù)據(jù)時代的商業(yè)價值
1.從最不可能的地方獲取數(shù)據(jù)
2.不再是數(shù)字化，而是數(shù)據(jù)化
1）文字變?yōu)閿?shù)據(jù)
2）方位變?yōu)閿?shù)據(jù)
3）溝通變?yōu)閿?shù)據(jù)
3.數(shù)據(jù)的思維創(chuàng)新
1）數(shù)據(jù)的再利用
2）數(shù)據(jù)的可擴展
3）數(shù)據(jù)的折舊值
4）數(shù)據(jù)的開放性
4.大數(shù)據(jù)的商業(yè)應用
1）大數(shù)據(jù)運營
2）用戶行為分析
3）精準營銷與推薦系統(tǒng)
4）風險控制與反欺詐
5）實時分析系統(tǒng)

第二單元 Hadoop技術(shù)框架

Hadoop的發(fā)展歷程
1.Google的MapReduce
2.Google的Bigtable
3.Facebook的Cassandra
結(jié)論：Hadoop有效地降低了大數(shù)據(jù)門檻

Hadoop的設計理念
1.分布式并行計算
2.移動計算而不是移動數(shù)據(jù)
3.單點故障可容忍

Hadoop的生態(tài)圈
1.Hadoop核心組件：MapReduce，HDFS
2.Hadoop2.0
1）Yarn與Hue
2）Cloudera vs. Hortonworks
3.并行計算框架：Spark vs. MapReduce
4.在線查詢：HBase與Impala
5.流式計算：Storm vs. Spark Stream
6.文本索引：Solr vs. ElasticSearch
7.Zookeeper與高可靠架構(gòu)
8.Kafka分布式隊列與日志收集
9.數(shù)據(jù)挖掘工具：Mahout、SparkR與Spark ML

第三單元 Hadoop核心組件

工作原理
1.HDFS的工作原理
2.MapReduce的工作原理
3.對工作原理的深度解讀
1）深度理解“移動計算”
2）Hadoop的性能問題
3）Hadoop的優(yōu)勢與劣勢

MapReduce實戰(zhàn)
實戰(zhàn)：編寫WordCount程序
實戰(zhàn)：實現(xiàn)日志分析程序（Map only）
實戰(zhàn)：實現(xiàn)數(shù)據(jù)關(guān)聯(lián)查詢

MapReduce的性能調(diào)優(yōu)
1.使用分布式緩存
2.處理文件的讀寫
3.Combiner, partitioner與order
4.重復使用變量原則

第四單元 Spark技術(shù)

工作原理
1.Spark在Hadoop生態(tài)圈中的位置
2.Spark vs. MapReduce
3.Spark系統(tǒng)架構(gòu)與RDD
1）RDD的運行原理
2）轉(zhuǎn)換/行動命令
3）名-值對RDD
案例：WordCount在Spark中的實現(xiàn)

Spark編程
1.對RDD編程
1）轉(zhuǎn)換命令
2）行動命令
2.對名-值對RDD編程
1）聚合/分組/連接/排序
2）優(yōu)化
3.數(shù)據(jù)裝載與保存
4.SparkSQL
案例：運用Spark實現(xiàn)用戶資料的采集與展現(xiàn)

Scala編程語言
1.Scala語言的編程特點
1）函數(shù)式編程風格
2）交互式解釋器
2.Scala編程基礎
1）定義變量、函數(shù)、類與對象
2）定義數(shù)組、list、set、map、元組與循環(huán)體
3）If, switch及基本操作
4）異常處理及類的層次關(guān)系
3.函數(shù)式編程
1）類成員函數(shù)、局部函數(shù)
2）函數(shù)的簡化寫法與閉包
3）可變參數(shù)、命名參數(shù)、缺省參數(shù)
4）尾遞歸
4.組合與繼承
1）抽象類與抽象方法
2）重載成員函數(shù)與方法

Spark的測試與發(fā)布
1.Spark-shell
2.本地運行調(diào)試
3.部署運行分布式系統(tǒng)

第五單元大數(shù)據(jù)系統(tǒng)轉(zhuǎn)型

傳統(tǒng)分析系統(tǒng)向大數(shù)據(jù)轉(zhuǎn)型
1.傳統(tǒng)BI系統(tǒng)面臨的難題
1）團隊大數(shù)據(jù)0基礎
2）要快速進入市場
解決方案：
1）正確的技術(shù)選型降低門檻
2）演化式技術(shù)轉(zhuǎn)型
2.案例：一次稅務數(shù)據(jù)分析的演化式BI轉(zhuǎn)型過程
1）項目背景介紹
2）革命式大數(shù)據(jù)轉(zhuǎn)型的風險
3）漸進式大數(shù)據(jù)轉(zhuǎn)型的思路
4）轉(zhuǎn)型過程中的技術(shù)選型思路

第一階段轉(zhuǎn)型：ETL過程的大數(shù)據(jù)轉(zhuǎn)型

大數(shù)據(jù)分析系統(tǒng)的整體架構(gòu)
1.傳統(tǒng)BI分析系統(tǒng)的設計套路
1）多維建模與數(shù)據(jù)倉庫
2）數(shù)據(jù)治理與ETL過程
2.大數(shù)據(jù)分析系統(tǒng)的架構(gòu)設計
1）大數(shù)據(jù)分析系統(tǒng)的技術(shù)選型
2）大數(shù)據(jù)分析系統(tǒng)的硬件配置

數(shù)據(jù)導入導出
1.sqoop工作原理
2.數(shù)據(jù)導入功能
1）導入成HDFS、Hive、HBase
2）增量導入
實戰(zhàn)：數(shù)據(jù)導入的實戰(zhàn)應用
3.數(shù)據(jù)導出功能
1）導出成HDFS、Hive、HBase
2）增量導出
實戰(zhàn)：數(shù)據(jù)導出的實戰(zhàn)應用

ETL過程
1.ETL的概念
2.Hive工作原理
3.Hive命令：創(chuàng)建表、導入數(shù)據(jù)、查詢數(shù)據(jù)、分區(qū)
4.Hive+SparkSQL的開發(fā)實戰(zhàn)
5.清洗、轉(zhuǎn)換、集成、裝載的應用案例

數(shù)據(jù)查詢
1.離線分析、在線查詢與近線分析
2.NoSQL數(shù)據(jù)庫
1）分布式架構(gòu)CAP理論
2）BASE原則與弱一致性
3）NoSQL數(shù)據(jù)庫的特點與優(yōu)勢
3.HBase的工作原理
1）HBase的概念模型
2）HBase的物理模型
3）HBase的列式存儲
4）HBase的系統(tǒng)架構(gòu)
5）HBase存儲數(shù)據(jù)的特點
4.HBase的開發(fā)實戰(zhàn)

高可靠的架構(gòu)設計
1.Zookeeper的運行原理
2.實戰(zhàn)：Zookeeper實現(xiàn)高可靠的軟件架構(gòu)

第二階段轉(zhuǎn)型：建立ElasticSearch數(shù)據(jù)索引

數(shù)據(jù)索引
1.ElasticSearch的性能分析與特點
2.ElasticSearch的應用實戰(zhàn)
1）建立ElasticSearch的Hive映射表
2）往ElasticSearch中寫入數(shù)據(jù)
3）用REST接口進行海量數(shù)據(jù)秒級查詢
3.ElasticSearch應用開發(fā)應注意的問題

第三階段轉(zhuǎn)型：引入Kylin大數(shù)據(jù)多維建模

數(shù)據(jù)分析
1.多維數(shù)據(jù)建模
2.Kylin的工作原理
3.Kylin的開發(fā)實戰(zhàn)
1）Kylin的數(shù)據(jù)導入
2）建立數(shù)據(jù)模型
3）建立Cube
4）使用jdbc進行數(shù)據(jù)查詢
4.Kylin的性能優(yōu)化
1）Kylin的數(shù)據(jù)膨脹率
2）強制索引、層級索引與組合索引
3）Kylin的增量導入腳本

第四階段轉(zhuǎn)型：深度大數(shù)據(jù)應用

實時數(shù)據(jù)分析
1.批處理 vs. 實時分析
2.實時分析系統(tǒng)應用實戰(zhàn)
1）Flink及其原理
2）Kafka及其原理
3）Kafka+Flink的應用實戰(zhàn)
案例：用戶行為分析應用舉例

數(shù)據(jù)挖掘與人工智能
1.數(shù)據(jù)挖掘算法及其原理
2.數(shù)據(jù)挖掘過程及其人員配置
3.SparkML簡介
案例：遠程智慧醫(yī)療平臺的人工智能建設過程

大數(shù)據(jù)技術(shù)轉(zhuǎn)型案例分析和最佳實踐

獨立咨詢顧問架構(gòu)師

課程費用

6800.00 /人

課程時長

3天

課程簡介

目標收益

培訓對象

課程大綱

課程評論

課程費用

6800.00 /人

課程時長

3天

近期公開課推薦

近期公開課推薦

AI大模型驅(qū)動下研發(fā)應用場景最佳實踐

持續(xù)測試：DevOps時代的測試全路徑解析

大數(shù)據(jù)技術(shù)轉(zhuǎn)型案例分析和最佳實踐

獨立咨詢顧問 架構(gòu)師

課程費用

6800.00 /人

課程時長

3天

課程簡介

目標收益

培訓對象

課程大綱

課程評論

課程費用

6800.00 /人

課程時長

3天

近期公開課推薦

近期公開課推薦

AI大模型驅(qū)動下研發(fā)應用場景最佳實踐

持續(xù)測試：DevOps時代的測試全路徑解析

獨立咨詢顧問架構(gòu)師