工程師
互聯(lián)網(wǎng)
其他
大數(shù)據(jù)
數(shù)據(jù)挖掘
Python
SQL
數(shù)據(jù)分析
Spark
大數(shù)據(jù)平臺
推薦課程
average > 0 ? $model->average . '分' : '10.0分' ?>

數(shù)據(jù)分析技能培訓(xùn)

劉老師

某知名咨詢公司 云平臺系統(tǒng)架構(gòu)師

畢業(yè)于?連理??學(xué)
簡介:
精通開源的?數(shù)據(jù)?態(tài)技術(shù)和架構(gòu),Hadoop、Hive、Hbase、 Spark、Flink等開源技術(shù)棧。
有10年左右基于?數(shù)據(jù)解決?案平臺、數(shù)據(jù)架構(gòu)、數(shù)據(jù)中臺、數(shù)據(jù)治理、數(shù)據(jù)分析和挖掘的?型數(shù)據(jù)湖和數(shù)
據(jù)中臺項?架構(gòu)實施經(jīng)驗,
?前任職國內(nèi)知名咨詢公司,先后服務(wù)于北京?學(xué)軟件研究所、阿?巴巴、Teradata,實施過基于開源?數(shù)據(jù)技術(shù)
棧的數(shù)據(jù)湖解決?案和實施、湖倉?體架構(gòu)咨詢和實施、數(shù)據(jù)中臺的咨詢和設(shè)施
最近主要項?介紹:
某移動?數(shù)據(jù)平臺架構(gòu)設(shè)計和設(shè)施 (Hadoop、Spark)
四??之?的數(shù)據(jù)湖咨詢和實施
某?型商業(yè)銀?數(shù)據(jù)中臺咨詢
某銀?基于開源?數(shù)據(jù)技術(shù)棧數(shù)據(jù)中臺的咨詢和實施
某航空公司數(shù)據(jù)平臺流批?體解決?案和實施
特長:
在?數(shù)據(jù)架構(gòu)、開發(fā)、運維和優(yōu)化、數(shù)據(jù)集成、 數(shù)據(jù)湖(Data Lake)、數(shù)據(jù)建模、數(shù)據(jù)挖掘/機(jī)器學(xué)習(xí)、數(shù)據(jù)
中臺等??有豐富經(jīng) 驗。

畢業(yè)于?連理??學(xué) 簡介: 精通開源的?數(shù)據(jù)?態(tài)技術(shù)和架構(gòu),Hadoop、Hive、Hbase、 Spark、Flink等開源技術(shù)棧。 有10年左右基于?數(shù)據(jù)解決?案平臺、數(shù)據(jù)架構(gòu)、數(shù)據(jù)中臺、數(shù)據(jù)治理、數(shù)據(jù)分析和挖掘的?型數(shù)據(jù)湖和數(shù) 據(jù)中臺項?架構(gòu)實施經(jīng)驗, ?前任職國內(nèi)知名咨詢公司,先后服務(wù)于北京?學(xué)軟件研究所、阿?巴巴、Teradata,實施過基于開源?數(shù)據(jù)技術(shù) 棧的數(shù)據(jù)湖解決?案和實施、湖倉?體架構(gòu)咨詢和實施、數(shù)據(jù)中臺的咨詢和設(shè)施 最近主要項?介紹: 某移動?數(shù)據(jù)平臺架構(gòu)設(shè)計和設(shè)施 (Hadoop、Spark) 四??之?的數(shù)據(jù)湖咨詢和實施 某?型商業(yè)銀?數(shù)據(jù)中臺咨詢 某銀?基于開源?數(shù)據(jù)技術(shù)棧數(shù)據(jù)中臺的咨詢和實施 某航空公司數(shù)據(jù)平臺流批?體解決?案和實施 特長: 在?數(shù)據(jù)架構(gòu)、開發(fā)、運維和優(yōu)化、數(shù)據(jù)集成、 數(shù)據(jù)湖(Data Lake)、數(shù)據(jù)建模、數(shù)據(jù)挖掘/機(jī)器學(xué)習(xí)、數(shù)據(jù) 中臺等??有豐富經(jīng) 驗。

課程費用

5800.00 /人

課程時長

2

成為教練

課程簡介

數(shù)據(jù)分析技能培訓(xùn)的培訓(xùn)時長為2天,培訓(xùn)內(nèi)容涵蓋數(shù)據(jù)思維的概念、特點、方法論和應(yīng)用價值,以及基于大數(shù)據(jù)平臺落地數(shù)據(jù)思維的案例分享。此外,還介紹了數(shù)據(jù)分析和挖掘流程,包括數(shù)據(jù)取樣、探索、預(yù)處理和特征工程構(gòu)建等。在Python和Spark編程方面,學(xué)員將學(xué)習(xí)Python數(shù)據(jù)挖掘常用模塊、Numpy、pandas和Matplotlib等庫,以及Spark編程模型、RDD操作和Spark SQL原理和實踐等內(nèi)容。這些內(nèi)容將幫助學(xué)員掌握數(shù)據(jù)分析技能,提高數(shù)據(jù)處理和分析能力,為大數(shù)據(jù)時代的業(yè)務(wù)發(fā)展打下堅實基礎(chǔ)

目標(biāo)收益

培訓(xùn)對象

課程大綱

數(shù)據(jù)分析和數(shù)據(jù)挖掘體系及方法論 ?數(shù)據(jù)思維的概念
?數(shù)據(jù)思維的特點
?數(shù)據(jù)思維的方法論
?數(shù)據(jù)思維的應(yīng)用價值
?數(shù)據(jù)思維的應(yīng)用流程
?數(shù)據(jù)思維的模式
— 全量數(shù)據(jù)思維
— 容錯性思維
— 相關(guān)性思維
基于大數(shù)據(jù)平臺落地數(shù)據(jù)思維的案例分享 ?數(shù)據(jù)采集
?數(shù)據(jù)存儲
?數(shù)據(jù)處理
?數(shù)據(jù)建模( 數(shù)據(jù)指標(biāo)和維度)
數(shù)據(jù)分析和可視化
數(shù)據(jù)分析和挖掘流程介紹 ?數(shù)據(jù)挖掘的基本任務(wù)
?定義分析和挖掘目標(biāo)
?數(shù)據(jù)取樣
?數(shù)據(jù)探索
?單變量數(shù)據(jù)探索
?數(shù)據(jù)關(guān)聯(lián)性分析
?數(shù)據(jù)預(yù)處理
?數(shù)據(jù)特征工程構(gòu)建和選擇
?挖掘建模
模型評價
Python數(shù)據(jù)分析庫實戰(zhàn) ?Python數(shù)據(jù)挖掘常用模塊
?Numpy
?pandas
?Matplotlib
Python機(jī)器學(xué)習(xí)庫:Scikit-learn
Spark編程模型和解析 ?Spark的編程模型
?Spark編程模型解析
?Partition實現(xiàn)機(jī)制
?RDD的特點、操作、依賴關(guān)系
?Transformation RDD詳解
?Action RDD詳解
?Spark的累加器詳解
?Spark的廣播變量詳解
?Spark容錯機(jī)制
—lineage和checkpoint詳解
?Spark的運行方式
?Spark的Shuffle原理詳解
—Sort-Based原理
—Hash-Based原理
Spark Partition詳解
Spark SQL原理和實踐 ?Spark SQL原理
?Spark SQL的Catalyst優(yōu)化器
?Spark SQL內(nèi)核
?Spark SQL和Hive連接
?DataFrame和DataSet架構(gòu)
?Fataframe、DataSet和Spark SQL的比較
?SparkSQL parquet格式實戰(zhàn)
?Spark SQL的實例和編程
?Spark SQL的實例操作demo
?Spark SQL的編程
Spark SQL實操演示
PySpark原理和基礎(chǔ)操作 ?Pyspark實例創(chuàng)建
1.引入庫
2.轉(zhuǎn)換實現(xiàn)
pyspark pandas series創(chuàng)建
pyspark pandas dataframe創(chuàng)建
from_pandas轉(zhuǎn)換
Spark DataFrame轉(zhuǎn)換
?PySpark Pandas操作
1.讀取行列索引
2.內(nèi)容轉(zhuǎn)換為數(shù)組
3.DataFrame統(tǒng)計描述
4.轉(zhuǎn)置
5.排序
按行索引排序
按某列值排序
PySpark數(shù)據(jù)分析營銷案例實戰(zhàn) ?一、數(shù)據(jù)概況分析
? 數(shù)據(jù)概況
? 數(shù)據(jù)清洗
?二、單變量分析
? 觀察樣本0、1的平衡性
? 觀察均值大小
? 可視化
?三、相關(guān)性分析和可視化
?四、邏輯回歸模型的建立和評估
? 模型建立
? 模型評估
? 模型優(yōu)化
?五、業(yè)務(wù)價值
?六、模型管理、發(fā)布和調(diào)用
七、MLFlow模型管理工具介紹和實戰(zhàn)
數(shù)據(jù)分析和數(shù)據(jù)挖掘體系及方法論
?數(shù)據(jù)思維的概念
?數(shù)據(jù)思維的特點
?數(shù)據(jù)思維的方法論
?數(shù)據(jù)思維的應(yīng)用價值
?數(shù)據(jù)思維的應(yīng)用流程
?數(shù)據(jù)思維的模式
— 全量數(shù)據(jù)思維
— 容錯性思維
— 相關(guān)性思維
基于大數(shù)據(jù)平臺落地數(shù)據(jù)思維的案例分享
?數(shù)據(jù)采集
?數(shù)據(jù)存儲
?數(shù)據(jù)處理
?數(shù)據(jù)建模( 數(shù)據(jù)指標(biāo)和維度)
數(shù)據(jù)分析和可視化
數(shù)據(jù)分析和挖掘流程介紹
?數(shù)據(jù)挖掘的基本任務(wù)
?定義分析和挖掘目標(biāo)
?數(shù)據(jù)取樣
?數(shù)據(jù)探索
?單變量數(shù)據(jù)探索
?數(shù)據(jù)關(guān)聯(lián)性分析
?數(shù)據(jù)預(yù)處理
?數(shù)據(jù)特征工程構(gòu)建和選擇
?挖掘建模
模型評價
Python數(shù)據(jù)分析庫實戰(zhàn)
?Python數(shù)據(jù)挖掘常用模塊
?Numpy
?pandas
?Matplotlib
Python機(jī)器學(xué)習(xí)庫:Scikit-learn
Spark編程模型和解析
?Spark的編程模型
?Spark編程模型解析
?Partition實現(xiàn)機(jī)制
?RDD的特點、操作、依賴關(guān)系
?Transformation RDD詳解
?Action RDD詳解
?Spark的累加器詳解
?Spark的廣播變量詳解
?Spark容錯機(jī)制
—lineage和checkpoint詳解
?Spark的運行方式
?Spark的Shuffle原理詳解
—Sort-Based原理
—Hash-Based原理
Spark Partition詳解
Spark SQL原理和實踐
?Spark SQL原理
?Spark SQL的Catalyst優(yōu)化器
?Spark SQL內(nèi)核
?Spark SQL和Hive連接
?DataFrame和DataSet架構(gòu)
?Fataframe、DataSet和Spark SQL的比較
?SparkSQL parquet格式實戰(zhàn)
?Spark SQL的實例和編程
?Spark SQL的實例操作demo
?Spark SQL的編程
Spark SQL實操演示
PySpark原理和基礎(chǔ)操作
?Pyspark實例創(chuàng)建
1.引入庫
2.轉(zhuǎn)換實現(xiàn)
pyspark pandas series創(chuàng)建
pyspark pandas dataframe創(chuàng)建
from_pandas轉(zhuǎn)換
Spark DataFrame轉(zhuǎn)換
?PySpark Pandas操作
1.讀取行列索引
2.內(nèi)容轉(zhuǎn)換為數(shù)組
3.DataFrame統(tǒng)計描述
4.轉(zhuǎn)置
5.排序
按行索引排序
按某列值排序
PySpark數(shù)據(jù)分析營銷案例實戰(zhàn)
?一、數(shù)據(jù)概況分析
? 數(shù)據(jù)概況
? 數(shù)據(jù)清洗
?二、單變量分析
? 觀察樣本0、1的平衡性
? 觀察均值大小
? 可視化
?三、相關(guān)性分析和可視化
?四、邏輯回歸模型的建立和評估
? 模型建立
? 模型評估
? 模型優(yōu)化
?五、業(yè)務(wù)價值
?六、模型管理、發(fā)布和調(diào)用
七、MLFlow模型管理工具介紹和實戰(zhàn)

活動詳情

提交需求