開發(fā)經(jīng)理
互聯(lián)網(wǎng)
數(shù)據(jù)建模
推薦課程
average > 0 ? $model->average . '分' : '10.0分' ?>

大數(shù)據(jù)分析與挖掘綜合能力提升實戰(zhàn)

課程費用

5800.00 /人

課程時長

2

成為教練

課程簡介

本系列課程從實際的業(yè)務需求出發(fā),結(jié)合行業(yè)的典型應用特點,圍繞實際的商業(yè)問題,對數(shù)據(jù)預測建模的過程進行了全面的介紹(從模型選擇,到特征選擇,再到訓練模型,評估模型,以及優(yōu)化模型和模型解讀),通過大量的操作演練,幫助學員掌握數(shù)據(jù)建模的思路、方法、技巧,以提升學員的數(shù)據(jù)建模的能力,支撐運營決策的目的。

目標收益

1、了解數(shù)據(jù)建模的標準過程
2、明白時序預測的基本思想,熟悉常用的時序預測模型
3、掌握常用的分類預測模型,理解模型基本原理
4、學會解讀分類預測模型的含義
5、理解并掌握定性預測模型的質(zhì)量評估指標
6、了解分類預測模型的集成優(yōu)化思想

培訓對象

產(chǎn)品銷量部、業(yè)務支撐部、運營分析部、數(shù)據(jù)分析部、大數(shù)據(jù)系統(tǒng)開發(fā)部等對業(yè)務數(shù)據(jù)分析有較高要求的相關人員。

課前準備

1、每個學員自備一臺便攜機(必須)。
2、便攜機中事先安裝好Microsoft Office Excel 2013版本及以上。
3、便攜機中事先安裝好IBM SPSS Statistics v19版本及以上。
注:講師可以提供試用版本軟件及分析數(shù)據(jù)源。

課程大綱

第一部分:數(shù)據(jù)建模過程—流程步驟篇 1、預測建模六步法
?選擇模型:基于業(yè)務選擇恰當?shù)臄?shù)據(jù)模型
?特征工程:選擇對目標變量有顯著影響的屬性來建模
?訓練模型:采用合適的算法對模型進行訓練,尋找到最優(yōu)參數(shù)
?評估模型:進行評估模型的質(zhì)量,判斷模型是否可用
?優(yōu)化模型:如果評估結(jié)果不理想,則需要對模型進行優(yōu)化
?應用模型:如果評估結(jié)果滿足要求,則可應用模型于業(yè)務場景
2、數(shù)據(jù)挖掘常用的模型
?定量預測模型:回歸預測、時序預測等
?定性預測模型:邏輯回歸、決策樹、神經(jīng)網(wǎng)絡、支持向量機等
?市場細分:聚類、RFM、PCA等
?產(chǎn)品推薦:關聯(lián)分析、協(xié)同過濾等
?產(chǎn)品優(yōu)化:回歸、隨機效用等
?產(chǎn)品定價:定價策略/最優(yōu)定價等
3、特征工程/特征選擇/變量降維
?基于變量本身特征
?基于相關性判斷
?因子合并(PCA等)
?IV值篩選(評分卡使用)
?基于信息增益判斷(決策樹使用)
4、模型評估
?模型質(zhì)量評估指標:R^2、正確率/查全率/查準率/特異性等
?預測值評估指標:MAD、MSE/RMSE、MAPE、概率等
?模型評估方法:留出法、K拆交叉驗證、自助法等
?其它評估:過擬合評估、殘差檢驗
5、模型優(yōu)化
?優(yōu)化模型:選擇新模型/修改模型
?優(yōu)化數(shù)據(jù):新增顯著自變量
?優(yōu)化公式:采用新的計算公式
?集成思想:Bagging/Boosting/Stacking
6、常用預測模型介紹
?時序預測模型
?回歸預測模型
?分類預測模型
第二部分:定量預測模型—時序預測篇 營銷問題:像利率/CPI/GDP等按時序變化的指標如何預測?當銷量隨季節(jié)周期變動時該如何預測?
1、回歸預測vs時序預測
2、因素分解思想
3、時序預測常用模型
?趨勢擬合
?季節(jié)擬合
?平均序列擬合
4、評估預測值的準確度指標:MAD、RMSE、MAPE
5、移動平均(MA)
?應用場景及原理
?移動平均種類
?一次移動平均
?二次移動平均
?加權(quán)移動平均
?移動平均比率法
?移動平均關鍵問題
?如何選取最優(yōu)參數(shù)N
?如何確定最優(yōu)權(quán)重系數(shù)
演練:平板電腦銷量預測及評估
演練:快銷產(chǎn)品季節(jié)銷量預測及評估
6、指數(shù)平滑(ES)
?應用場景及原理
?最優(yōu)平滑系數(shù)的選取原則
?指數(shù)平滑種類
?一次指數(shù)平滑
?二次指數(shù)平滑(Brown線性、Holt線性、Holt指數(shù)、阻尼線性、阻尼指數(shù))
?三次指數(shù)平滑
演練:煤炭產(chǎn)量預測
演練:航空旅客量預測及評估
7、溫特斯季節(jié)預測模型
?適用場景及原理
?Holt-Winters加法模型
?Holt-Winters乘法模型
演練:汽車銷量預測及評估
8、平穩(wěn)序列模型(ARIMA)
?序列的平穩(wěn)性檢驗
?平穩(wěn)序列的擬合模型
?AR(p)自回歸模型
?MA(q)移動模型
?ARMA(p,q)自回歸移動模型
?模型的識別與定階
?ACF圖/PACF圖
?最小信息準則
?序列平穩(wěn)化處理
?變量變換
?k次差分
?d階差分
?ARIMA(p,d,q)模型
演練:上海證券交易所綜合指數(shù)收益率序列分析
演練:服裝銷售數(shù)據(jù)季節(jié)性趨勢預測分析
?平穩(wěn)序列的建模流程
第三部分:定性預測模型—分類預測篇 問題:如何評估客戶購買產(chǎn)品的可能性?如何預測客戶的購買行為?如何提取某類客戶的典型特征?如何向客戶精準推薦產(chǎn)品或業(yè)務?
1、分類模型概述及其應用場景
2、常見分類預測模型
3、邏輯回歸(LR)
?邏輯回歸的適用場景
?邏輯回歸的模型原理
?邏輯回歸分類的幾何意義
?邏輯回歸的種類
?二項邏輯回歸
?多項邏輯回歸
?如何解讀邏輯回歸方程
?帶分類自變量的邏輯回歸分析
?多項邏輯回歸/多分類邏輯回歸
案例:如何評估用戶是否會購買某產(chǎn)品(二項邏輯回歸)
案例:多品牌選擇模型分析(多項邏輯回歸)
4、分類決策樹(DT)
問題:如何預測客戶行為?如何識別潛在客戶?
風控:如何識別欠貸者的特征,以及預測欠貸概率?
客戶保有:如何識別流失客戶特征,以及預測客戶流失概率?
?決策樹分類簡介
案例:美國零售商(Target)如何預測少女懷孕
演練:識別銀行欠貨風險,提取欠貸者的特征
?決策樹分類的幾何意義
?構(gòu)建決策樹的三個關鍵問題
?如何選擇最佳屬性來構(gòu)建節(jié)點
?如何分裂變量
?修剪決策樹
?選擇最優(yōu)屬性生長
?熵、基尼索引、分類錯誤
?屬性劃分增益
?如何分裂變量
?多元劃分與二元劃分
?連續(xù)變量離散化(最優(yōu)分割點)
?修剪決策樹
?剪枝原則
?預剪枝與后剪枝
?構(gòu)建決策樹的四個算法
?C5.0、CHAID、CART、QUEST
?各種算法的比較
?如何選擇最優(yōu)分類模型?
案例:商場用戶的典型特征提取
案例:客戶流失預警與客戶挽留
案例:識別拖欠銀行貨款者的特征,避免不良貨款
案例:識別電信詐騙者嘴臉,讓通信更安全
?多分類決策樹
案例:不同套餐用戶的典型特征
?決策樹模型的保存與應用
5、人工神經(jīng)網(wǎng)絡(ANN)
?神經(jīng)網(wǎng)絡概述
?神經(jīng)網(wǎng)絡基本原理
?神經(jīng)網(wǎng)絡的結(jié)構(gòu)
?神經(jīng)網(wǎng)絡分類的幾何意義
?神經(jīng)網(wǎng)絡的建立步驟
?神經(jīng)網(wǎng)絡的關鍵問題
?BP反向傳播網(wǎng)絡(MLP)
?徑向基網(wǎng)絡(RBF)
案例:評估銀行用戶拖欠貨款的概率
6、判別分析(DA)
?判別分析原理
?判別分析種類
?Fisher線性判別分析
案例:MBA學生錄取判別分析
案例:上市公司類別評估
7、最近鄰分類(KNN)
?KNN模型的基本原理
?KNN分類的幾何意義
?K近鄰的關鍵問題
8、支持向量機(SVM)
?SVM基本原理
?線性可分問題:最大邊界超平面
?線性不可分問題:特征空間的轉(zhuǎn)換
?維災難與核函數(shù)
9、貝葉斯分類(NBN)
?貝葉斯分類原理
?計算類別屬性的條件概率
?估計連續(xù)屬性的條件概率
?預測分類概率(計算概率)
?拉普拉斯修正
案例:評估銀行用戶拖欠貨款的概率
第四部分:定性預測模型—模型評估篇 1、模型的評估指標
?兩大矩陣:混淆矩陣,代價矩陣
?六大指標:Acc,P,R,Spec,F1,lift
?三條曲線:
?ROC曲線和AUC
?PR曲線和BEP
?KS曲線和KS值
2、模型的評估方法
?原始評估法
?留出法(Hold-Out)
?交叉驗證法(k-fold cross validation)
?自助采樣法(Bootstrapping)
第五部分:定性預測模型—集成優(yōu)化篇 1、模型的優(yōu)化思路
2、集成算法基本原理
?單獨構(gòu)建多個弱分類器
?多個弱分類器組合投票,決定預測結(jié)果
3、集成方法的種類
?Bagging
?Boosting
?Stacking
4、Bagging集成
?數(shù)據(jù)/屬性重抽樣
?決策依據(jù):少數(shù)服從多數(shù)
?典型模型:隨機森林RF
5、Boosting集成
?基于誤分數(shù)據(jù)建模
?樣本選擇權(quán)重更新公式
?決策依據(jù):加權(quán)投票
?典型模型:AdaBoost模型
第一部分:數(shù)據(jù)建模過程—流程步驟篇
1、預測建模六步法
?選擇模型:基于業(yè)務選擇恰當?shù)臄?shù)據(jù)模型
?特征工程:選擇對目標變量有顯著影響的屬性來建模
?訓練模型:采用合適的算法對模型進行訓練,尋找到最優(yōu)參數(shù)
?評估模型:進行評估模型的質(zhì)量,判斷模型是否可用
?優(yōu)化模型:如果評估結(jié)果不理想,則需要對模型進行優(yōu)化
?應用模型:如果評估結(jié)果滿足要求,則可應用模型于業(yè)務場景
2、數(shù)據(jù)挖掘常用的模型
?定量預測模型:回歸預測、時序預測等
?定性預測模型:邏輯回歸、決策樹、神經(jīng)網(wǎng)絡、支持向量機等
?市場細分:聚類、RFM、PCA等
?產(chǎn)品推薦:關聯(lián)分析、協(xié)同過濾等
?產(chǎn)品優(yōu)化:回歸、隨機效用等
?產(chǎn)品定價:定價策略/最優(yōu)定價等
3、特征工程/特征選擇/變量降維
?基于變量本身特征
?基于相關性判斷
?因子合并(PCA等)
?IV值篩選(評分卡使用)
?基于信息增益判斷(決策樹使用)
4、模型評估
?模型質(zhì)量評估指標:R^2、正確率/查全率/查準率/特異性等
?預測值評估指標:MAD、MSE/RMSE、MAPE、概率等
?模型評估方法:留出法、K拆交叉驗證、自助法等
?其它評估:過擬合評估、殘差檢驗
5、模型優(yōu)化
?優(yōu)化模型:選擇新模型/修改模型
?優(yōu)化數(shù)據(jù):新增顯著自變量
?優(yōu)化公式:采用新的計算公式
?集成思想:Bagging/Boosting/Stacking
6、常用預測模型介紹
?時序預測模型
?回歸預測模型
?分類預測模型
第二部分:定量預測模型—時序預測篇
營銷問題:像利率/CPI/GDP等按時序變化的指標如何預測?當銷量隨季節(jié)周期變動時該如何預測?
1、回歸預測vs時序預測
2、因素分解思想
3、時序預測常用模型
?趨勢擬合
?季節(jié)擬合
?平均序列擬合
4、評估預測值的準確度指標:MAD、RMSE、MAPE
5、移動平均(MA)
?應用場景及原理
?移動平均種類
?一次移動平均
?二次移動平均
?加權(quán)移動平均
?移動平均比率法
?移動平均關鍵問題
?如何選取最優(yōu)參數(shù)N
?如何確定最優(yōu)權(quán)重系數(shù)
演練:平板電腦銷量預測及評估
演練:快銷產(chǎn)品季節(jié)銷量預測及評估
6、指數(shù)平滑(ES)
?應用場景及原理
?最優(yōu)平滑系數(shù)的選取原則
?指數(shù)平滑種類
?一次指數(shù)平滑
?二次指數(shù)平滑(Brown線性、Holt線性、Holt指數(shù)、阻尼線性、阻尼指數(shù))
?三次指數(shù)平滑
演練:煤炭產(chǎn)量預測
演練:航空旅客量預測及評估
7、溫特斯季節(jié)預測模型
?適用場景及原理
?Holt-Winters加法模型
?Holt-Winters乘法模型
演練:汽車銷量預測及評估
8、平穩(wěn)序列模型(ARIMA)
?序列的平穩(wěn)性檢驗
?平穩(wěn)序列的擬合模型
?AR(p)自回歸模型
?MA(q)移動模型
?ARMA(p,q)自回歸移動模型
?模型的識別與定階
?ACF圖/PACF圖
?最小信息準則
?序列平穩(wěn)化處理
?變量變換
?k次差分
?d階差分
?ARIMA(p,d,q)模型
演練:上海證券交易所綜合指數(shù)收益率序列分析
演練:服裝銷售數(shù)據(jù)季節(jié)性趨勢預測分析
?平穩(wěn)序列的建模流程
第三部分:定性預測模型—分類預測篇
問題:如何評估客戶購買產(chǎn)品的可能性?如何預測客戶的購買行為?如何提取某類客戶的典型特征?如何向客戶精準推薦產(chǎn)品或業(yè)務?
1、分類模型概述及其應用場景
2、常見分類預測模型
3、邏輯回歸(LR)
?邏輯回歸的適用場景
?邏輯回歸的模型原理
?邏輯回歸分類的幾何意義
?邏輯回歸的種類
?二項邏輯回歸
?多項邏輯回歸
?如何解讀邏輯回歸方程
?帶分類自變量的邏輯回歸分析
?多項邏輯回歸/多分類邏輯回歸
案例:如何評估用戶是否會購買某產(chǎn)品(二項邏輯回歸)
案例:多品牌選擇模型分析(多項邏輯回歸)
4、分類決策樹(DT)
問題:如何預測客戶行為?如何識別潛在客戶?
風控:如何識別欠貸者的特征,以及預測欠貸概率?
客戶保有:如何識別流失客戶特征,以及預測客戶流失概率?
?決策樹分類簡介
案例:美國零售商(Target)如何預測少女懷孕
演練:識別銀行欠貨風險,提取欠貸者的特征
?決策樹分類的幾何意義
?構(gòu)建決策樹的三個關鍵問題
?如何選擇最佳屬性來構(gòu)建節(jié)點
?如何分裂變量
?修剪決策樹
?選擇最優(yōu)屬性生長
?熵、基尼索引、分類錯誤
?屬性劃分增益
?如何分裂變量
?多元劃分與二元劃分
?連續(xù)變量離散化(最優(yōu)分割點)
?修剪決策樹
?剪枝原則
?預剪枝與后剪枝
?構(gòu)建決策樹的四個算法
?C5.0、CHAID、CART、QUEST
?各種算法的比較
?如何選擇最優(yōu)分類模型?
案例:商場用戶的典型特征提取
案例:客戶流失預警與客戶挽留
案例:識別拖欠銀行貨款者的特征,避免不良貨款
案例:識別電信詐騙者嘴臉,讓通信更安全
?多分類決策樹
案例:不同套餐用戶的典型特征
?決策樹模型的保存與應用
5、人工神經(jīng)網(wǎng)絡(ANN)
?神經(jīng)網(wǎng)絡概述
?神經(jīng)網(wǎng)絡基本原理
?神經(jīng)網(wǎng)絡的結(jié)構(gòu)
?神經(jīng)網(wǎng)絡分類的幾何意義
?神經(jīng)網(wǎng)絡的建立步驟
?神經(jīng)網(wǎng)絡的關鍵問題
?BP反向傳播網(wǎng)絡(MLP)
?徑向基網(wǎng)絡(RBF)
案例:評估銀行用戶拖欠貨款的概率
6、判別分析(DA)
?判別分析原理
?判別分析種類
?Fisher線性判別分析
案例:MBA學生錄取判別分析
案例:上市公司類別評估
7、最近鄰分類(KNN)
?KNN模型的基本原理
?KNN分類的幾何意義
?K近鄰的關鍵問題
8、支持向量機(SVM)
?SVM基本原理
?線性可分問題:最大邊界超平面
?線性不可分問題:特征空間的轉(zhuǎn)換
?維災難與核函數(shù)
9、貝葉斯分類(NBN)
?貝葉斯分類原理
?計算類別屬性的條件概率
?估計連續(xù)屬性的條件概率
?預測分類概率(計算概率)
?拉普拉斯修正
案例:評估銀行用戶拖欠貨款的概率
第四部分:定性預測模型—模型評估篇
1、模型的評估指標
?兩大矩陣:混淆矩陣,代價矩陣
?六大指標:Acc,P,R,Spec,F1,lift
?三條曲線:
?ROC曲線和AUC
?PR曲線和BEP
?KS曲線和KS值
2、模型的評估方法
?原始評估法
?留出法(Hold-Out)
?交叉驗證法(k-fold cross validation)
?自助采樣法(Bootstrapping)
第五部分:定性預測模型—集成優(yōu)化篇
1、模型的優(yōu)化思路
2、集成算法基本原理
?單獨構(gòu)建多個弱分類器
?多個弱分類器組合投票,決定預測結(jié)果
3、集成方法的種類
?Bagging
?Boosting
?Stacking
4、Bagging集成
?數(shù)據(jù)/屬性重抽樣
?決策依據(jù):少數(shù)服從多數(shù)
?典型模型:隨機森林RF
5、Boosting集成
?基于誤分數(shù)據(jù)建模
?樣本選擇權(quán)重更新公式
?決策依據(jù):加權(quán)投票
?典型模型:AdaBoost模型

活動詳情

提交需求