課程簡(jiǎn)介
■回顧Transformer架構(gòu)及其在大模型中的演進(jìn)(強(qiáng)調(diào)非基礎(chǔ)部分,如稀疏Attention、長(zhǎng)上下文處理等)。
■大模型訓(xùn)練范式概述:預(yù)訓(xùn)練(Pre-training)、指令微調(diào)(Instruction Tuning)與對(duì)齊。
■CPT(Continual Pre-training,持續(xù)預(yù)訓(xùn)練)的理論與實(shí)踐:
■持續(xù)預(yù)訓(xùn)練的必要性與應(yīng)用場(chǎng)景(如領(lǐng)域適應(yīng))。
■數(shù)據(jù)準(zhǔn)備與策略(高質(zhì)量數(shù)據(jù)篩選、去重等)。
■常用的CPT方法與工具。
■企業(yè)內(nèi)部特定領(lǐng)域數(shù)據(jù)進(jìn)行CPT的實(shí)戰(zhàn)考量。
目標(biāo)收益
培訓(xùn)對(duì)象
課程大綱
引子(完成時(shí)長(zhǎng)0.5小時(shí)) | 介紹大模型的起源,背景,AGI的發(fā)展歷程。 |
第一單元 ai技術(shù)導(dǎo)論(完成時(shí)長(zhǎng):0.5小時(shí)) |
1.1人工智能基礎(chǔ)定義 1.2深度學(xué)習(xí)引發(fā)變革【CNN/RNN】 1.3Bert模型進(jìn)入預(yù)訓(xùn)練時(shí)代 1.4大模型綜述【GPT、LLAMA、文心、百川、零一、千問(wèn)】 1.5多模態(tài)大模型發(fā)展歷程 1.6ReasonLLM演進(jìn)思路 1.7LLM訓(xùn)練前沿技術(shù)介紹(稀疏注意力,RoPE長(zhǎng)上下文) |
第二單元 Chatgpt理論解析(完成時(shí)長(zhǎng):1小時(shí)) |
2.1 chatgpt技術(shù)架構(gòu)介紹 2.2 P-tuning技術(shù) 2.3 強(qiáng)化學(xué)習(xí)PPO算法 2.4 RLHF建??蚣? |
第三單元 Deepseek理論解析(完成時(shí)長(zhǎng):1小時(shí)) |
3.1 模型蒸餾(從V3走向R1) 3.2 強(qiáng)化學(xué)習(xí)新路徑(GRPO) 3.3 數(shù)據(jù)合成與構(gòu)造策略 3.4 deepseek開源庫(kù)代碼解讀 |
第四單元 CPT關(guān)鍵技術(shù)研究(完成時(shí)長(zhǎng):1.5小時(shí)) |
4.1 CPT場(chǎng)景選擇依據(jù) 4.2 CPT基模評(píng)測(cè)與選擇 4.3 樣本構(gòu)造與數(shù)據(jù)合成 4.4 CPT模型評(píng)測(cè)策略概述 |
第五單元 大模型CPT實(shí)戰(zhàn)(完成時(shí)長(zhǎng):如:1.5小時(shí)) |
5.1 transformers框架介紹 5.2 transformers針對(duì)CPT代碼解讀 5.3 模型訓(xùn)練注意事項(xiàng)講解 |
引子(完成時(shí)長(zhǎng)0.5小時(shí)) 介紹大模型的起源,背景,AGI的發(fā)展歷程。 |
第一單元 ai技術(shù)導(dǎo)論(完成時(shí)長(zhǎng):0.5小時(shí)) 1.1人工智能基礎(chǔ)定義 1.2深度學(xué)習(xí)引發(fā)變革【CNN/RNN】 1.3Bert模型進(jìn)入預(yù)訓(xùn)練時(shí)代 1.4大模型綜述【GPT、LLAMA、文心、百川、零一、千問(wèn)】 1.5多模態(tài)大模型發(fā)展歷程 1.6ReasonLLM演進(jìn)思路 1.7LLM訓(xùn)練前沿技術(shù)介紹(稀疏注意力,RoPE長(zhǎng)上下文) |
第二單元 Chatgpt理論解析(完成時(shí)長(zhǎng):1小時(shí)) 2.1 chatgpt技術(shù)架構(gòu)介紹 2.2 P-tuning技術(shù) 2.3 強(qiáng)化學(xué)習(xí)PPO算法 2.4 RLHF建??蚣? |
第三單元 Deepseek理論解析(完成時(shí)長(zhǎng):1小時(shí)) 3.1 模型蒸餾(從V3走向R1) 3.2 強(qiáng)化學(xué)習(xí)新路徑(GRPO) 3.3 數(shù)據(jù)合成與構(gòu)造策略 3.4 deepseek開源庫(kù)代碼解讀 |
第四單元 CPT關(guān)鍵技術(shù)研究(完成時(shí)長(zhǎng):1.5小時(shí)) 4.1 CPT場(chǎng)景選擇依據(jù) 4.2 CPT基模評(píng)測(cè)與選擇 4.3 樣本構(gòu)造與數(shù)據(jù)合成 4.4 CPT模型評(píng)測(cè)策略概述 |
第五單元 大模型CPT實(shí)戰(zhàn)(完成時(shí)長(zhǎng):如:1.5小時(shí)) 5.1 transformers框架介紹 5.2 transformers針對(duì)CPT代碼解讀 5.3 模型訓(xùn)練注意事項(xiàng)講解 |