工程師
其他
機器學習
數(shù)據(jù)挖掘
數(shù)據(jù)分析
深度學習
強化學習
推薦課程
average > 0 ? $model->average . '分' : '10.0分' ?>

深度強化學習:原理、算法以及應用

課程費用

5800.00 /人

課程時長

2

成為教練

課程簡介

課程強調(diào)從零開始,動手操作;內(nèi)容以代碼落地為主,以理論講解為根,以公式推導為輔。講解強化學習的模型理論和代碼實踐,梳理強化學習的技術(shù)框架,從根本上解決如何使用模型、優(yōu)化模型的問題;每次課中,首先闡述算法理論和少量公式推導,然后使用真實和模擬數(shù)據(jù),進行數(shù)據(jù)挖掘、機器學習、深度學習、強化學習的數(shù)據(jù)分析、特征選擇、調(diào)參和結(jié)果比較。

目標收益

數(shù)據(jù)挖掘、機器學習、深度學習的技術(shù)工程師; 對強化學習有一定基礎(chǔ)或致力于該方向研究的技術(shù)人員

培訓對象

課程內(nèi)容

第一章 強化學習概述,0.5小時
1.強化學習的定義和原理
2.智能體的組成
3.強化學習和其他機器學習的關(guān)系
4.強化學習的分類
5.強化學習的研究方法
6.強化學習的重點概念
第二章 馬爾可夫決策過程,1。5小時
1.馬爾可夫性 ?
2.馬爾可夫過程 ?
3.馬爾可夫決策過程 ?
4.貝爾曼期望方程 ?
5.貝爾曼最優(yōu)方程 ?
6.最優(yōu)策略
第三章 動態(tài)規(guī)劃,1小時
1.動態(tài)規(guī)劃基本思想
2.策略評估
3.策略改進
4.策略迭代算法
5.值迭代算法
代碼和案例實踐:網(wǎng)格世界尋寶
6.網(wǎng)格世界環(huán)境描述
7.策略迭代算法運行流程
8.值迭代算法運行流程
9.核心代碼演示
10.算法小結(jié)
第四章 蒙特卡羅,1.5小時
1.蒙特卡羅核心思想
2.蒙特卡羅評估
3.增量式方法
4.蒙特卡羅控制
5.在線策略/離線策略
6.在線策略蒙特卡羅算法
7.重要性采樣離線策略蒙特卡羅算法
8.加權(quán)重要性采樣離線策略蒙特卡羅算法
代碼和案例實踐: “十點半”游戲
9.游戲介紹及環(huán)境描述
10.在線策略蒙特卡羅算法運行流程
11.加權(quán)重要性采樣離線策略蒙特卡羅算法運行流程
12.核心代碼演示
13.算法小結(jié)

第五章 時序差分,1.5小時
1.時序差分簡介、TD目標值 / TD 誤差
2.DP/MC/TD對比
3.在線策略TD:Sarsa算法
4.離線策略TD:Q-learning算法
代碼和案例實踐:帶陷阱的網(wǎng)格世界尋寶
5.環(huán)境描述
6.Sarsa算法運行流程
7.Q-learning算法運行流程
8.核心代碼演示
9.算法小結(jié)

進階篇:
第六章 資格跡,0.5小時
1.前向視角/后向視角
2.多步TD?
3.前向TD(λ)算法
4.后向TD(λ)算法
5.前向Sarsa(λ)算法
6.后向Sarsa(λ)算法
7.前向Watkins’s Q(λ)算法
8.后向Watkins’s Q(λ)算法
代碼和案例實踐:風格子世界
9.環(huán)境描述
10.后向Sarsa (λ) 算法運行流程
11.后向Watkins’s Q(λ)算法運行流程
12.核心代碼演示
13.算法小結(jié)

第七章 值函數(shù)逼近,1小時
1.表格型強化學習/函數(shù)近似型強化學習
2.線性逼近/非線性逼近?
3.增量法
4.值函數(shù)逼近-Sarsa算法
5.批量法
6.值函數(shù)逼近-Q-learning算法
7.人工神經(jīng)網(wǎng)絡(luò)(卷積、池化、全連接)
8.DQN方法
9.Double DQN方法
10.Dueling DQN方法
代碼和案例實踐飛翔的小鳥
11.游戲簡介及環(huán)境描述
12.DQN算法運行流程
13.核心代碼演示
14.算法小結(jié)

第八章 隨機策略梯度,1小時
1.隨機策略梯度簡介
2.策略梯度優(yōu)缺點
3.策略梯度方法分類
4.隨機策略梯度定理
5.REINFORCE方法
6.帶基線的REINFORCE方法
代碼和案例實踐:小車上山
7.游戲簡介及環(huán)境描述
8.REINFORCE算法運行流程
9.核心代碼演示
10.算法小結(jié)

第九章 Actor-Critic及變種,1小時
1.AC與帶基線 REINFORCE的不同
2.在線策略AC方法
3.離線策略AC方法
4.兼容性近似函數(shù)定理
5.A2C方法
6.異步方法簡介及核心思想
7.異步 Q-learning 方法
8.異步 Sarsa 方法?
9.異步 n步 Q-learning方法
10.A3C方法
代碼和案例實踐:小車倒立擺
11.游戲簡介及環(huán)境描述
12.AC算法運行流程
13.核心代碼演示
14.算法小結(jié)
代碼和案例實踐:鐘擺
15.游戲簡介及環(huán)境描述
16.A3C算法運行流程
17.核心代碼演示
18.算法小結(jié)

第十章 確定性策略梯度,0.5小時
1.確定性策略
2.隨機策略梯度的缺陷
3.確定性策略梯度定理
4.在線策略確定性AC方法
5.離線策略確定性AC方法
6.兼容性近似函數(shù)定理
7.DDPG方法
代碼和案例實踐鐘擺
8.游戲簡介及環(huán)境描述
9.DDPG算法運行流程
10.核心代碼演示
11.算法小結(jié)

第十一章 逆強化學習,0.5小時
背景(沒有獎勵的場景)
有監(jiān)督思維下的建模方式
行為監(jiān)督的問題
逆強化學習(IRL)框架
IRL vs GAN
模仿學習

第十二章 博弈強化學習,0.5小時
1.博弈及博弈樹
2.極大極小搜索
3.Alpha-Beta 搜 索
4.蒙特卡羅樹搜索
5.AlphaGo基本原理
6.AlphaGo神經(jīng)網(wǎng)絡(luò)
7.AlphaGo蒙特卡羅樹搜索
8.AlphaGo的整體思路
9.AlphaGo Zero下棋原理
10.AlphaGo Zero的網(wǎng)絡(luò)結(jié)構(gòu)
11.AlphaGo Zero的蒙特卡羅樹搜索
12.AlphaGo Zero總結(jié)
13.AlphaZero
代碼和案例實踐:五子棋
14.游戲簡介及環(huán)境描述
15.算法運行流程(MCTS算法和 MCTS+神經(jīng)網(wǎng)絡(luò)算法)
16.核心代碼演示
17.算法小結(jié)

活動詳情

提交需求