欧美日韩一级片,中文午夜人妻无码看片,白丝无内液液酱夹腿自慰

課程簡(jiǎn)介

課程強(qiáng)調(diào)從零開始，動(dòng)手操作；內(nèi)容以代碼落地為主，以理論講解為根，以公式推導(dǎo)為輔。講解強(qiáng)化學(xué)習(xí)的模型理論和代碼實(shí)踐，梳理強(qiáng)化學(xué)習(xí)的技術(shù)框架，從根本上解決如何使用模型、優(yōu)化模型的問題；每次課中，首先闡述算法理論和少量公式推導(dǎo)，然后使用真實(shí)和模擬數(shù)據(jù)，進(jìn)行數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)、強(qiáng)化學(xué)習(xí)的數(shù)據(jù)分析、特征選擇、調(diào)參和結(jié)果比較。

目標(biāo)收益

數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)的技術(shù)工程師；對(duì)強(qiáng)化學(xué)習(xí)有一定基礎(chǔ)或致力于該方向研究的技術(shù)人員

培訓(xùn)對(duì)象

課程內(nèi)容

第一章強(qiáng)化學(xué)習(xí)概述，0.5小時(shí)
1.強(qiáng)化學(xué)習(xí)的定義和原理
2.智能體的組成
3.強(qiáng)化學(xué)習(xí)和其他機(jī)器學(xué)習(xí)的關(guān)系
4.強(qiáng)化學(xué)習(xí)的分類
5.強(qiáng)化學(xué)習(xí)的研究方法
6.強(qiáng)化學(xué)習(xí)的重點(diǎn)概念
第二章馬爾可夫決策過程，1。5小時(shí)
1.馬爾可夫性 ?
2.馬爾可夫過程 ?
3.馬爾可夫決策過程 ?
4.貝爾曼期望方程 ?
5.貝爾曼最優(yōu)方程 ?
6.最優(yōu)策略
第三章動(dòng)態(tài)規(guī)劃，1小時(shí)
1.動(dòng)態(tài)規(guī)劃基本思想
2.策略評(píng)估
3.策略改進(jìn)
4.策略迭代算法
5.值迭代算法
代碼和案例實(shí)踐：網(wǎng)格世界尋寶
6.網(wǎng)格世界環(huán)境描述
7.策略迭代算法運(yùn)行流程
8.值迭代算法運(yùn)行流程
9.核心代碼演示
10.算法小結(jié)
第四章蒙特卡羅，1.5小時(shí)
1.蒙特卡羅核心思想
2.蒙特卡羅評(píng)估
3.增量式方法
4.蒙特卡羅控制
5.在線策略/離線策略
6.在線策略蒙特卡羅算法
7.重要性采樣離線策略蒙特卡羅算法
8.加權(quán)重要性采樣離線策略蒙特卡羅算法
代碼和案例實(shí)踐： “十點(diǎn)半”游戲
9.游戲介紹及環(huán)境描述
10.在線策略蒙特卡羅算法運(yùn)行流程
11.加權(quán)重要性采樣離線策略蒙特卡羅算法運(yùn)行流程
12.核心代碼演示
13.算法小結(jié)

第五章時(shí)序差分，1.5小時(shí)
1.時(shí)序差分簡(jiǎn)介、TD目標(biāo)值 / TD 誤差
2.DP/MC/TD對(duì)比
3.在線策略TD：Sarsa算法
4.離線策略TD：Q-learning算法
代碼和案例實(shí)踐：帶陷阱的網(wǎng)格世界尋寶
5.環(huán)境描述
6.Sarsa算法運(yùn)行流程
7.Q-learning算法運(yùn)行流程
8.核心代碼演示
9.算法小結(jié)

進(jìn)階篇：
第六章資格跡，0.5小時(shí)
1.前向視角/后向視角
2.多步TD?
3.前向TD(λ)算法
4.后向TD(λ)算法
5.前向Sarsa(λ)算法
6.后向Sarsa(λ)算法
7.前向Watkins’s Q(λ)算法
8.后向Watkins’s Q(λ)算法
代碼和案例實(shí)踐：風(fēng)格子世界
9.環(huán)境描述
10.后向Sarsa (λ) 算法運(yùn)行流程
11.后向Watkins’s Q(λ)算法運(yùn)行流程
12.核心代碼演示
13.算法小結(jié)

第七章值函數(shù)逼近，1小時(shí)
1.表格型強(qiáng)化學(xué)習(xí)/函數(shù)近似型強(qiáng)化學(xué)習(xí)
2.線性逼近/非線性逼近?
3.增量法
4.值函數(shù)逼近-Sarsa算法
5.批量法
6.值函數(shù)逼近-Q-learning算法
7.人工神經(jīng)網(wǎng)絡(luò)（卷積、池化、全連接）
8.DQN方法
9.Double DQN方法
10.Dueling DQN方法
代碼和案例實(shí)踐飛翔的小鳥
11.游戲簡(jiǎn)介及環(huán)境描述
12.DQN算法運(yùn)行流程
13.核心代碼演示
14.算法小結(jié)

第八章隨機(jī)策略梯度，1小時(shí)
1.隨機(jī)策略梯度簡(jiǎn)介
2.策略梯度優(yōu)缺點(diǎn)
3.策略梯度方法分類
4.隨機(jī)策略梯度定理
5.REINFORCE方法
6.帶基線的REINFORCE方法
代碼和案例實(shí)踐：小車上山
7.游戲簡(jiǎn)介及環(huán)境描述
8.REINFORCE算法運(yùn)行流程
9.核心代碼演示
10.算法小結(jié)

第九章 Actor-Critic及變種，1小時(shí)
1.AC與帶基線 REINFORCE的不同
2.在線策略AC方法
3.離線策略AC方法
4.兼容性近似函數(shù)定理
5.A2C方法
6.異步方法簡(jiǎn)介及核心思想
7.異步 Q-learning 方法
8.異步 Sarsa 方法?
9.異步 n步 Q-learning方法
10.A3C方法
代碼和案例實(shí)踐：小車倒立擺
11.游戲簡(jiǎn)介及環(huán)境描述
12.AC算法運(yùn)行流程
13.核心代碼演示
14.算法小結(jié)
代碼和案例實(shí)踐：鐘擺
15.游戲簡(jiǎn)介及環(huán)境描述
16.A3C算法運(yùn)行流程
17.核心代碼演示
18.算法小結(jié)

第十章確定性策略梯度，0.5小時(shí)
1.確定性策略
2.隨機(jī)策略梯度的缺陷
3.確定性策略梯度定理
4.在線策略確定性AC方法
5.離線策略確定性AC方法
6.兼容性近似函數(shù)定理
7.DDPG方法
代碼和案例實(shí)踐鐘擺
8.游戲簡(jiǎn)介及環(huán)境描述
9.DDPG算法運(yùn)行流程
10.核心代碼演示
11.算法小結(jié)

第十一章逆強(qiáng)化學(xué)習(xí)，0.5小時(shí)
背景（沒有獎(jiǎng)勵(lì)的場(chǎng)景）
有監(jiān)督思維下的建模方式
行為監(jiān)督的問題
逆強(qiáng)化學(xué)習(xí)（IRL）框架
IRL vs GAN
模仿學(xué)習(xí)

第十二章博弈強(qiáng)化學(xué)習(xí)，0.5小時(shí)
1.博弈及博弈樹
2.極大極小搜索
3.Alpha-Beta 搜索
4.蒙特卡羅樹搜索
5.AlphaGo基本原理
6.AlphaGo神經(jīng)網(wǎng)絡(luò)
7.AlphaGo蒙特卡羅樹搜索
8.AlphaGo的整體思路
9.AlphaGo Zero下棋原理
10.AlphaGo Zero的網(wǎng)絡(luò)結(jié)構(gòu)
11.AlphaGo Zero的蒙特卡羅樹搜索
12.AlphaGo Zero總結(jié)
13.AlphaZero
代碼和案例實(shí)踐：五子棋
14.游戲簡(jiǎn)介及環(huán)境描述
15.算法運(yùn)行流程（MCTS算法和 MCTS+神經(jīng)網(wǎng)絡(luò)算法）
16.核心代碼演示
17.算法小結(jié)

深度強(qiáng)化學(xué)習(xí)：原理、算法以及應(yīng)用

鄒老師

長(zhǎng)春工業(yè)大學(xué) 人工智能學(xué)院院長(zhǎng)

課程費(fèi)用

5800.00 /人

課程時(shí)長(zhǎng)

2天

課程簡(jiǎn)介

目標(biāo)收益

培訓(xùn)對(duì)象

課程內(nèi)容

課程評(píng)論

課程費(fèi)用

5800.00 /人

課程時(shí)長(zhǎng)

2天

近期公開課推薦

近期公開課推薦

研發(fā)企業(yè)管理干部技術(shù)領(lǐng)導(dǎo)力進(jìn)階課程

DeepSeek賦能產(chǎn)品創(chuàng)新、規(guī)劃、需求分析及驗(yàn)證實(shí)踐

深度強(qiáng)化學(xué)習(xí)：原理、算法以及應(yīng)用

鄒老師

長(zhǎng)春工業(yè)大學(xué) 人工智能學(xué)院院長(zhǎng)

課程費(fèi)用

5800.00 /人

課程時(shí)長(zhǎng)

2天

課程簡(jiǎn)介

目標(biāo)收益

培訓(xùn)對(duì)象

課程內(nèi)容

課程評(píng)論

課程費(fèi)用

5800.00 /人

課程時(shí)長(zhǎng)

2天

近期公開課推薦

近期公開課推薦

研發(fā)企業(yè)管理干部技術(shù)領(lǐng)導(dǎo)力進(jìn)階課程

DeepSeek賦能產(chǎn)品創(chuàng)新、規(guī)劃、需求分析及驗(yàn)證實(shí)踐

DeepSeek賦能產(chǎn)品創(chuàng)新、規(guī)劃、需求分析及驗(yàn)證實(shí)踐