架構(gòu)師
互聯(lián)網(wǎng)
產(chǎn)品設(shè)計
用戶體驗
大數(shù)據(jù)
數(shù)據(jù)挖掘
推薦課程
average > 0 ? $model->average . '分' : '10.0分' ?>

大數(shù)據(jù)高級實戰(zhàn)研修:深入大數(shù)據(jù)智能分析和挖掘產(chǎn)品和技術(shù)

風(fēng)清揚(yáng)

Dataware 數(shù)據(jù)挖掘博士

原58同城數(shù)據(jù)智能部總監(jiān)負(fù)責(zé)人,英國帝國理工數(shù)據(jù)挖掘博士。他長期從事推薦引擎、社交圖譜及興趣圖譜挖掘、計算廣告等方面深入研發(fā)工作,是大數(shù)據(jù)挖掘和智能系統(tǒng)的資深專家。他目前全面負(fù)責(zé)58同城大數(shù)據(jù)智能分析和挖掘的建設(shè)。曾擔(dān)任人人網(wǎng)應(yīng)用研究中心負(fù)責(zé)人,兼任人人網(wǎng)清華聯(lián)合實驗室負(fù)責(zé)人,總體負(fù)責(zé)人人網(wǎng)社交網(wǎng)絡(luò)中社交關(guān)系鏈挖掘、好友推薦、興趣偏好及熱點(diǎn)趨勢挖掘、圖像處理和識別的研發(fā)工作。曾從事百度商務(wù)搜索部鳳巢廣告系統(tǒng)研發(fā)。他擅長產(chǎn)品技術(shù)創(chuàng)新,目前擁有10多個相關(guān)專利。他是中科院大學(xué)工程與信息技術(shù)學(xué)院大數(shù)據(jù)方向?qū)<椅瘑T會特聘委員。

原58同城數(shù)據(jù)智能部總監(jiān)負(fù)責(zé)人,英國帝國理工數(shù)據(jù)挖掘博士。他長期從事推薦引擎、社交圖譜及興趣圖譜挖掘、計算廣告等方面深入研發(fā)工作,是大數(shù)據(jù)挖掘和智能系統(tǒng)的資深專家。他目前全面負(fù)責(zé)58同城大數(shù)據(jù)智能分析和挖掘的建設(shè)。曾擔(dān)任人人網(wǎng)應(yīng)用研究中心負(fù)責(zé)人,兼任人人網(wǎng)清華聯(lián)合實驗室負(fù)責(zé)人,總體負(fù)責(zé)人人網(wǎng)社交網(wǎng)絡(luò)中社交關(guān)系鏈挖掘、好友推薦、興趣偏好及熱點(diǎn)趨勢挖掘、圖像處理和識別的研發(fā)工作。曾從事百度商務(wù)搜索部鳳巢廣告系統(tǒng)研發(fā)。他擅長產(chǎn)品技術(shù)創(chuàng)新,目前擁有10多個相關(guān)專利。他是中科院大學(xué)工程與信息技術(shù)學(xué)院大數(shù)據(jù)方向?qū)<椅瘑T會特聘委員。

課程費(fèi)用

7800.00 /人

課程時長

2

成為教練

課程簡介

大數(shù)據(jù)分析和挖掘在互聯(lián)網(wǎng)公司中已經(jīng)得到實質(zhì)性的推進(jìn)和應(yīng)用,典型的應(yīng)用場景包括搜索引擎的搜索結(jié)果和搜索廣告排序、電商網(wǎng)站的商品推薦和虛假信息檢測、電子郵件服務(wù)中垃圾郵件檢測、互聯(lián)網(wǎng)安全公司的病毒和木馬檢測、視頻和新聞分享網(wǎng)站中視頻和新聞推薦、互聯(lián)網(wǎng)金融服務(wù)中的用戶信譽(yù)評估等。
特別的場景包裹,社交網(wǎng)絡(luò)的火爆可以看成是促使大數(shù)據(jù)技術(shù)迅猛發(fā)展的直接驅(qū)動原因。社交網(wǎng)絡(luò)的數(shù)據(jù)呈現(xiàn)大規(guī)模、異構(gòu)、網(wǎng)狀相連的特征,為大數(shù)據(jù)挖掘提供了更復(fù)雜、更有挑戰(zhàn)的案例。在社交網(wǎng)絡(luò)中,大數(shù)據(jù)挖掘的應(yīng)用更是覆蓋了70%左右的場景。經(jīng)典的使用場景諸如好友新鮮事(tweets)智能排序、好友推薦、好友搜索、社交廣告等。
當(dāng)前,本地生活服務(wù)、O2O、互聯(lián)網(wǎng)金融、企業(yè)級服務(wù)等的火爆,更是大數(shù)據(jù)的用武之地,成為成為助推業(yè)務(wù)發(fā)展最有效的技術(shù)利器和產(chǎn)品設(shè)計及運(yùn)營的思維。
大數(shù)據(jù)受到廣泛認(rèn)可,究其原因,主要是如果大數(shù)據(jù)相關(guān)技術(shù)得到較好的使用,會帶來從服務(wù)的訪問量到收入變現(xiàn)能力等關(guān)鍵數(shù)據(jù)指標(biāo)的實質(zhì)提升。以講師親身項目經(jīng)驗為例:一個新的好友推薦算法的上線可能帶來80%以上的“關(guān)注量”或者“加好友申請量”的提高;對手機(jī)通訊錄匹配算法的優(yōu)化升級,可使手機(jī)號對應(yīng)的社交網(wǎng)絡(luò)的用戶帳號匹配量增加55%以上;社交廣告中用戶定向和廣告排序算法的引入,可使廣告收入暴漲100%以上。又如,用戶社交圈智能劃分算法的上線,使很多用戶的三四百個好友被自動合理分到合適的社交圈中,免去他們手動逐個操作的麻煩,提升了用戶體驗,他們評價“真心覺得做到了我的心里”、“給數(shù)據(jù)挖掘跪了”。

目標(biāo)收益

本課程將圍繞大數(shù)據(jù)最本質(zhì)的特點(diǎn)—智能化為主線,從大數(shù)據(jù)的產(chǎn)品思維、數(shù)據(jù)分析重要工具、數(shù)據(jù)挖掘核心技術(shù)等層面深入講述
數(shù)據(jù)挖掘的高階話題,包括有偏數(shù)據(jù)挖掘、數(shù)據(jù)流挖掘、在線學(xué)習(xí)、高級數(shù)據(jù)預(yù)處理技術(shù)等。同時課程案例豐富,重點(diǎn)從社交網(wǎng)絡(luò)圖譜挖掘、推薦引擎等做實站案例講解。該課程使學(xué)員:
理解大數(shù)據(jù)基本概率、理解大數(shù)據(jù)產(chǎn)品設(shè)計思維、理解大數(shù)據(jù)基礎(chǔ)技術(shù)架構(gòu)
掌握社交圖譜挖掘的一到兩個經(jīng)典數(shù)據(jù)挖掘案例的解決方案
掌握社交好友推薦中一到兩個經(jīng)典案例的解決方案
掌握如何搭建一個實用的推薦引擎的方法;
掌握數(shù)據(jù)挖掘的經(jīng)典方法論:數(shù)據(jù)挖掘過程、模型評估標(biāo)準(zhǔn)等
側(cè)重掌握最普遍使用的分類預(yù)測技術(shù)的方法,

培訓(xùn)對象

重點(diǎn)面向產(chǎn)品和技術(shù)人員,包括數(shù)據(jù)挖掘工程師、數(shù)據(jù)分析師、大數(shù)據(jù)工程師、算法專家、項目經(jīng)理、技術(shù)經(jīng)理、數(shù)據(jù)產(chǎn)品經(jīng)理以及其他具有一定數(shù)據(jù)挖掘經(jīng)驗的人員。

課程大綱

1.大數(shù)據(jù)時代概述 1.1 大數(shù)據(jù)解決的問題是什么?
1.2 大數(shù)據(jù)公司(部門)的都在做什么?
1.3 如何建立自己的大數(shù)據(jù)能力?
2.數(shù)據(jù)挖掘過程和實用工具使用 2.1 數(shù)據(jù)挖掘過程的方法及其思想介紹
2.1.1 常見的數(shù)據(jù)收集途徑和方式
2.1.2 數(shù)據(jù)探索與可視化技巧
2.1.3 數(shù)據(jù)準(zhǔn)備
2.1.4 特征選擇
2.1.5 樣本選擇
2.1.6 機(jī)器學(xué)習(xí)實用算法羅列與思想介紹(側(cè)重分類算法)
2.1.7 提高模型準(zhǔn)確率方法
2.1.8 模型評估和比較
2.1.9 如何選擇合適的評估指標(biāo)
2.1.10 模型可視化
2.2 挖掘工具Weka使用實踐
2.2.1 數(shù)據(jù)挖掘常用工具介紹及優(yōu)缺點(diǎn)對比
2.2.2 Weka使用介紹
2.2.3 Weka使用舉例:金融服務(wù)中用戶信譽(yù)評估
3.深入分類挖掘新技術(shù) 3.1 產(chǎn)業(yè)實戰(zhàn)中如何研發(fā)一個新的數(shù)據(jù)挖掘算法
3.1.1 算法建模的思路
3.1.1.1 需求驅(qū)動的算法建模
3.1.1.2 理論驅(qū)動的算法建模
3.1.2 產(chǎn)業(yè)實戰(zhàn)一個新算法的通用流程
3.2 機(jī)器學(xué)習(xí)算法理論深入
3.2.1 Bias Variance困境
3.2.2 Under fitting, Over fitting
3.3 常用多模型算法詳解
3.3.1 Ensemble Selection
3.3.2 Bagging
3.3.3 Boosting
3.3.4 Stacking
3.3.5 Meta-learning
3.3.6 Random Forest
3.3.7 Random Trees
3.3.8 Error-Correcting Output Codes(ECOC)
3.4 Dynamic Data Mining(DDM):分而治之的多模型框架研發(fā)過程
3.4.1 理論驅(qū)動
3.4.2 DMM建模研發(fā)
3.4.3 算法驗證及上線
3.5 模型評估高級話題
3.5.1 模型評估方法
3.5.2 模型評估指標(biāo)深入討論
3.5.2.1 Accuracy, Errorrate
3.5.2.2 Recall, Precision, F-?‐measure
3.5.2.3 Specificity, Sensitivity, G-?‐mean
3.5.2.3 ROC,AUC
4.深入常用實戰(zhàn)數(shù)據(jù)預(yù)處理與有偏挖掘技術(shù) 4.1 有偏數(shù)據(jù)挖掘
4.1.1 有偏數(shù)據(jù)挖掘的場景
4.1.2 有偏數(shù)據(jù)挖掘的問題根源
4.1.3 有偏數(shù)據(jù)挖掘的解決方案
4.1.3.1 Under sampling, Oversampling
4.1.3.2 Weighting
4.1.3.3 Data Synthesis
4.1.3.4 Cost-sensitive learning
4.2 高級數(shù)據(jù)預(yù)處理實戰(zhàn)策略
4.2.1 重視Missing Values
4.2.2 合理抽取特征
4.2.3 數(shù)據(jù)清洗:數(shù)據(jù)一致性檢測
4.2.4 噪聲平滑
4.2.5 特征泛化
5.深入在線學(xué)習(xí)與數(shù)據(jù)流挖掘 5.1 在線數(shù)據(jù)流挖掘基本概念
5.1.1 Batch Learningvs. Online Mining
5.2 數(shù)據(jù)流挖掘的關(guān)鍵挑戰(zhàn)
5.2.1 概念、概念漂移、數(shù)據(jù)規(guī)模Stream Mining, Online
5.3 兩類經(jīng)典在線流挖掘算法匯總
5.3.1 基于概念漂移主動監(jiān)測的算法
5.3.2 基于概念漂移自適應(yīng)的算法
5.3.3 個人創(chuàng)新性方法:DDM-T,DDM-P
5.4 進(jìn)階:有偏在線數(shù)據(jù)流挖掘的解決方案
5.4.1 DDM-T的有偏流挖掘的改進(jìn)
5.5 在線數(shù)據(jù)流挖掘總結(jié)
6.深入社交圖譜及推薦引擎實戰(zhàn) 6.1 推薦引擎解決的問題
6.2 推薦系統(tǒng)歷史
6.3 通用推薦引擎基礎(chǔ)架構(gòu)
6.3.1 統(tǒng)一展示邏輯
6.3.2 實驗分流平臺
6.3.3 推薦結(jié)果預(yù)處理
6.3.4 推薦結(jié)果召回
6.3.5 推薦過濾去重
6.3.6 推薦排序
6.3.7 推薦解釋
6.3.8 實時數(shù)據(jù)統(tǒng)計分析平臺
6.3.9 系統(tǒng)監(jiān)控平臺
6.3.10 數(shù)據(jù)挖掘和推薦算法管理
6.4 社會化推薦引擎
6.4.1 好友推薦使用場景舉例
6.4.2 好友推薦主要挑戰(zhàn)
6.4.3 好友推薦引擎架構(gòu)
6.5 社會化推薦引擎算法案例講解
6.5.1 Online Learning的特點(diǎn)和一般流程
6.5.1.1 在線挖掘數(shù)據(jù)特點(diǎn)
6.5.1.2 在線挖掘基本過程
6.5.2 二度好友模型:案例講解
6.5.2.1 二度好友模型解決的問題
6.5.2.2 二度好友模型的建模過程
6.5.2.3 二度好友模型的效果評估
6.5.3 好友簇算法:案例講解
6.5.3.1 好友簇算法解決的問題
6.5.3.2 聚類方法原理
6.5.3.3 好友簇算法的建模過程
6.5.3.4 好友簇算法的效果評估
6.5.4 加好友申請接受率預(yù)估模型:案例講解
6.5.4.1 加好友申請接受率預(yù)估解決的問題
6.5.4.2 加好友申請接受率預(yù)估的建模過程
6.5.4.3 加好友申請接受率預(yù)估的效果評估
6.6 社交圖譜挖掘介紹
6.6.1 社交網(wǎng)絡(luò)數(shù)據(jù)挑戰(zhàn)
6.6.2 社交網(wǎng)絡(luò)中的數(shù)據(jù)挖掘意義
6.6.3 社交圖譜挖掘主要任務(wù)
6.6.4 社交圖譜挖掘通用路標(biāo)
6.7 社交圖譜挖掘案例講解:好友親密度模型
6.7.1 好友親密度模型的意義
6.7.2 經(jīng)典用戶行為分析建模方法簡介
6.7.3 好友親密度建模過程
6.7.4 好友親密度模型效果分析
6.8 社交圖譜挖掘案例講解:好友自動分組
6.8.1 好友智能分組的意義
6.8.2 社區(qū)發(fā)現(xiàn)簡介
6.8.3 好友自動分組建模過程
6.8.4 好友自動分組效果評估
7.學(xué)員問題解答
1.大數(shù)據(jù)時代概述
1.1 大數(shù)據(jù)解決的問題是什么?
1.2 大數(shù)據(jù)公司(部門)的都在做什么?
1.3 如何建立自己的大數(shù)據(jù)能力?
2.數(shù)據(jù)挖掘過程和實用工具使用
2.1 數(shù)據(jù)挖掘過程的方法及其思想介紹
2.1.1 常見的數(shù)據(jù)收集途徑和方式
2.1.2 數(shù)據(jù)探索與可視化技巧
2.1.3 數(shù)據(jù)準(zhǔn)備
2.1.4 特征選擇
2.1.5 樣本選擇
2.1.6 機(jī)器學(xué)習(xí)實用算法羅列與思想介紹(側(cè)重分類算法)
2.1.7 提高模型準(zhǔn)確率方法
2.1.8 模型評估和比較
2.1.9 如何選擇合適的評估指標(biāo)
2.1.10 模型可視化
2.2 挖掘工具Weka使用實踐
2.2.1 數(shù)據(jù)挖掘常用工具介紹及優(yōu)缺點(diǎn)對比
2.2.2 Weka使用介紹
2.2.3 Weka使用舉例:金融服務(wù)中用戶信譽(yù)評估
3.深入分類挖掘新技術(shù)
3.1 產(chǎn)業(yè)實戰(zhàn)中如何研發(fā)一個新的數(shù)據(jù)挖掘算法
3.1.1 算法建模的思路
3.1.1.1 需求驅(qū)動的算法建模
3.1.1.2 理論驅(qū)動的算法建模
3.1.2 產(chǎn)業(yè)實戰(zhàn)一個新算法的通用流程
3.2 機(jī)器學(xué)習(xí)算法理論深入
3.2.1 Bias Variance困境
3.2.2 Under fitting, Over fitting
3.3 常用多模型算法詳解
3.3.1 Ensemble Selection
3.3.2 Bagging
3.3.3 Boosting
3.3.4 Stacking
3.3.5 Meta-learning
3.3.6 Random Forest
3.3.7 Random Trees
3.3.8 Error-Correcting Output Codes(ECOC)
3.4 Dynamic Data Mining(DDM):分而治之的多模型框架研發(fā)過程
3.4.1 理論驅(qū)動
3.4.2 DMM建模研發(fā)
3.4.3 算法驗證及上線
3.5 模型評估高級話題
3.5.1 模型評估方法
3.5.2 模型評估指標(biāo)深入討論
3.5.2.1 Accuracy, Errorrate
3.5.2.2 Recall, Precision, F-?‐measure
3.5.2.3 Specificity, Sensitivity, G-?‐mean
3.5.2.3 ROC,AUC
4.深入常用實戰(zhàn)數(shù)據(jù)預(yù)處理與有偏挖掘技術(shù)
4.1 有偏數(shù)據(jù)挖掘
4.1.1 有偏數(shù)據(jù)挖掘的場景
4.1.2 有偏數(shù)據(jù)挖掘的問題根源
4.1.3 有偏數(shù)據(jù)挖掘的解決方案
4.1.3.1 Under sampling, Oversampling
4.1.3.2 Weighting
4.1.3.3 Data Synthesis
4.1.3.4 Cost-sensitive learning
4.2 高級數(shù)據(jù)預(yù)處理實戰(zhàn)策略
4.2.1 重視Missing Values
4.2.2 合理抽取特征
4.2.3 數(shù)據(jù)清洗:數(shù)據(jù)一致性檢測
4.2.4 噪聲平滑
4.2.5 特征泛化
5.深入在線學(xué)習(xí)與數(shù)據(jù)流挖掘
5.1 在線數(shù)據(jù)流挖掘基本概念
5.1.1 Batch Learningvs. Online Mining
5.2 數(shù)據(jù)流挖掘的關(guān)鍵挑戰(zhàn)
5.2.1 概念、概念漂移、數(shù)據(jù)規(guī)模Stream Mining, Online
5.3 兩類經(jīng)典在線流挖掘算法匯總
5.3.1 基于概念漂移主動監(jiān)測的算法
5.3.2 基于概念漂移自適應(yīng)的算法
5.3.3 個人創(chuàng)新性方法:DDM-T,DDM-P
5.4 進(jìn)階:有偏在線數(shù)據(jù)流挖掘的解決方案
5.4.1 DDM-T的有偏流挖掘的改進(jìn)
5.5 在線數(shù)據(jù)流挖掘總結(jié)
6.深入社交圖譜及推薦引擎實戰(zhàn)
6.1 推薦引擎解決的問題
6.2 推薦系統(tǒng)歷史
6.3 通用推薦引擎基礎(chǔ)架構(gòu)
6.3.1 統(tǒng)一展示邏輯
6.3.2 實驗分流平臺
6.3.3 推薦結(jié)果預(yù)處理
6.3.4 推薦結(jié)果召回
6.3.5 推薦過濾去重
6.3.6 推薦排序
6.3.7 推薦解釋
6.3.8 實時數(shù)據(jù)統(tǒng)計分析平臺
6.3.9 系統(tǒng)監(jiān)控平臺
6.3.10 數(shù)據(jù)挖掘和推薦算法管理
6.4 社會化推薦引擎
6.4.1 好友推薦使用場景舉例
6.4.2 好友推薦主要挑戰(zhàn)
6.4.3 好友推薦引擎架構(gòu)
6.5 社會化推薦引擎算法案例講解
6.5.1 Online Learning的特點(diǎn)和一般流程
6.5.1.1 在線挖掘數(shù)據(jù)特點(diǎn)
6.5.1.2 在線挖掘基本過程
6.5.2 二度好友模型:案例講解
6.5.2.1 二度好友模型解決的問題
6.5.2.2 二度好友模型的建模過程
6.5.2.3 二度好友模型的效果評估
6.5.3 好友簇算法:案例講解
6.5.3.1 好友簇算法解決的問題
6.5.3.2 聚類方法原理
6.5.3.3 好友簇算法的建模過程
6.5.3.4 好友簇算法的效果評估
6.5.4 加好友申請接受率預(yù)估模型:案例講解
6.5.4.1 加好友申請接受率預(yù)估解決的問題
6.5.4.2 加好友申請接受率預(yù)估的建模過程
6.5.4.3 加好友申請接受率預(yù)估的效果評估
6.6 社交圖譜挖掘介紹
6.6.1 社交網(wǎng)絡(luò)數(shù)據(jù)挑戰(zhàn)
6.6.2 社交網(wǎng)絡(luò)中的數(shù)據(jù)挖掘意義
6.6.3 社交圖譜挖掘主要任務(wù)
6.6.4 社交圖譜挖掘通用路標(biāo)
6.7 社交圖譜挖掘案例講解:好友親密度模型
6.7.1 好友親密度模型的意義
6.7.2 經(jīng)典用戶行為分析建模方法簡介
6.7.3 好友親密度建模過程
6.7.4 好友親密度模型效果分析
6.8 社交圖譜挖掘案例講解:好友自動分組
6.8.1 好友智能分組的意義
6.8.2 社區(qū)發(fā)現(xiàn)簡介
6.8.3 好友自動分組建模過程
6.8.4 好友自動分組效果評估
7.學(xué)員問題解答

活動詳情

提交需求