課程簡(jiǎn)介
■SFT(Supervised Fine-tuning,監(jiān)督微調(diào))的原理、數(shù)據(jù)構(gòu)建與常見(jiàn)問(wèn)題。
■參數(shù)高效微調(diào)(PEFT)方法:
■LoRA、QLoRA、Prompt Tuning、P-Tuning等核心PEFT技術(shù)講解。
■不同PEFT方法的選擇與適用場(chǎng)景。
■結(jié)合PyTorch/TensorFlow等框架實(shí)現(xiàn)PEFT的案例分析。
目標(biāo)收益
培訓(xùn)對(duì)象
課程大綱
第一單元 提示工程學(xué)習(xí)(完成時(shí)長(zhǎng):0.5小時(shí)) |
1.1 提示工程原理及意義 1.2 提示工程Prompt模板設(shè)計(jì)原則及相關(guān)技巧 1.3 提示工程師學(xué)習(xí)成長(zhǎng)路徑 |
第二單元 大模型SFT微調(diào)關(guān)鍵技術(shù)(完成時(shí)長(zhǎng)1.5小時(shí)) |
2.1 全量微調(diào)技術(shù)分析 2.2 lora與Qlora技術(shù)分析 2.3 Prompt tuning與P-Tuning技術(shù)分析 2.4 各類SFT綜合對(duì)比分析 |
第三單元 大模型RL對(duì)齊關(guān)鍵技術(shù)(完成時(shí)長(zhǎng)1小時(shí)) |
3.1強(qiáng)化學(xué)習(xí)理論綜述 3.2 RLHF關(guān)鍵技術(shù)解析 3.3 PPO關(guān)鍵技術(shù)解析 3.4 DPO關(guān)鍵技術(shù)解析 3.5 GRPO 關(guān)鍵技術(shù)研究 3.6 強(qiáng)化學(xué)習(xí)算法綜合對(duì)比分析 |
第四單元 大模型開(kāi)發(fā)技術(shù)棧介紹(完成時(shí)長(zhǎng):1小時(shí)) |
4.1pytorch實(shí)戰(zhàn)介紹 4.2transformers框架介紹 4.3trl訓(xùn)練類庫(kù)介紹 4.4華為昇騰框架介紹 |
第五單元 大模型微調(diào)實(shí)戰(zhàn)(完成時(shí)長(zhǎng):如:2小時(shí)) |
5.1 TRL框架介紹 5.2 LLM-SFT微調(diào)代碼解讀(全量與lora) 5.3 LLM-RL微調(diào)代碼解讀(PPO與GRPO) 5.4 分布式訓(xùn)練代碼解讀 |
第一單元 提示工程學(xué)習(xí)(完成時(shí)長(zhǎng):0.5小時(shí)) 1.1 提示工程原理及意義 1.2 提示工程Prompt模板設(shè)計(jì)原則及相關(guān)技巧 1.3 提示工程師學(xué)習(xí)成長(zhǎng)路徑 |
第二單元 大模型SFT微調(diào)關(guān)鍵技術(shù)(完成時(shí)長(zhǎng)1.5小時(shí)) 2.1 全量微調(diào)技術(shù)分析 2.2 lora與Qlora技術(shù)分析 2.3 Prompt tuning與P-Tuning技術(shù)分析 2.4 各類SFT綜合對(duì)比分析 |
第三單元 大模型RL對(duì)齊關(guān)鍵技術(shù)(完成時(shí)長(zhǎng)1小時(shí)) 3.1強(qiáng)化學(xué)習(xí)理論綜述 3.2 RLHF關(guān)鍵技術(shù)解析 3.3 PPO關(guān)鍵技術(shù)解析 3.4 DPO關(guān)鍵技術(shù)解析 3.5 GRPO 關(guān)鍵技術(shù)研究 3.6 強(qiáng)化學(xué)習(xí)算法綜合對(duì)比分析 |
第四單元 大模型開(kāi)發(fā)技術(shù)棧介紹(完成時(shí)長(zhǎng):1小時(shí)) 4.1pytorch實(shí)戰(zhàn)介紹 4.2transformers框架介紹 4.3trl訓(xùn)練類庫(kù)介紹 4.4華為昇騰框架介紹 |
第五單元 大模型微調(diào)實(shí)戰(zhàn)(完成時(shí)長(zhǎng):如:2小時(shí)) 5.1 TRL框架介紹 5.2 LLM-SFT微調(diào)代碼解讀(全量與lora) 5.3 LLM-RL微調(diào)代碼解讀(PPO與GRPO) 5.4 分布式訓(xùn)練代碼解讀 |