工程師
互聯(lián)網(wǎng)
推薦課程
average > 0 ? $model->average . '分' : '10.0分' ?>

多模態(tài)技術(shù)深度培訓(xùn):理論與實(shí)踐的融合

某互聯(lián)網(wǎng)大廠 AIGC負(fù)責(zé)人

任某互聯(lián)網(wǎng)公司AIGC負(fù)責(zé)人,負(fù)責(zé)大模型、多模態(tài)、產(chǎn)研落地與知識管理與評估等多個(gè)團(tuán)隊(duì)工作。
多年百度搜索、大數(shù)據(jù)工作經(jīng)驗(yàn),專注于自然語言處理與人工智能方向,曾獲CCKS中文知識圖譜大賽第一名,就職期間輸出數(shù)十篇專利。
帶領(lǐng)團(tuán)隊(duì)發(fā)布內(nèi)容行業(yè)垂類模型,并通過網(wǎng)信辦備案。在多模態(tài)內(nèi)容理解、角色對話、視頻生成等多個(gè)方向有場景落地,有大量一線實(shí)操經(jīng)驗(yàn),AIGC業(yè)務(wù)單日服務(wù)用戶超50萬。
對市面上大部分大模型基座有比較深入的了解,能判斷模型的能力邊界。擅長結(jié)合行業(yè)垂類的實(shí)際情況,挖掘大模型可賦能的業(yè)務(wù)場景。有落地AIGC與大模型業(yè)務(wù)的一手經(jīng)驗(yàn),從模型的訓(xùn)練微調(diào),到算力部署推理,以及線上實(shí)際用戶case的反饋跟進(jìn),熟悉生產(chǎn)環(huán)境的具體實(shí)施。此外,也掌握大模型風(fēng)控和網(wǎng)信辦備案過程,能有效幫助企業(yè)在生產(chǎn)環(huán)境中落地大模型。

任某互聯(lián)網(wǎng)公司AIGC負(fù)責(zé)人,負(fù)責(zé)大模型、多模態(tài)、產(chǎn)研落地與知識管理與評估等多個(gè)團(tuán)隊(duì)工作。 多年百度搜索、大數(shù)據(jù)工作經(jīng)驗(yàn),專注于自然語言處理與人工智能方向,曾獲CCKS中文知識圖譜大賽第一名,就職期間輸出數(shù)十篇專利。 帶領(lǐng)團(tuán)隊(duì)發(fā)布內(nèi)容行業(yè)垂類模型,并通過網(wǎng)信辦備案。在多模態(tài)內(nèi)容理解、角色對話、視頻生成等多個(gè)方向有場景落地,有大量一線實(shí)操經(jīng)驗(yàn),AIGC業(yè)務(wù)單日服務(wù)用戶超50萬。 對市面上大部分大模型基座有比較深入的了解,能判斷模型的能力邊界。擅長結(jié)合行業(yè)垂類的實(shí)際情況,挖掘大模型可賦能的業(yè)務(wù)場景。有落地AIGC與大模型業(yè)務(wù)的一手經(jīng)驗(yàn),從模型的訓(xùn)練微調(diào),到算力部署推理,以及線上實(shí)際用戶case的反饋跟進(jìn),熟悉生產(chǎn)環(huán)境的具體實(shí)施。此外,也掌握大模型風(fēng)控和網(wǎng)信辦備案過程,能有效幫助企業(yè)在生產(chǎn)環(huán)境中落地大模型。

課程費(fèi)用

6800.00 /人

課程時(shí)長

2

成為教練

課程簡介

第一天重點(diǎn)介紹多模態(tài)技術(shù)的背景、應(yīng)用場景、技術(shù)原理以及在內(nèi)容型公司的應(yīng)用實(shí)踐。內(nèi)容包括生成式AI、基礎(chǔ)大模型技術(shù)、圖片和視頻生產(chǎn)技術(shù)、ASR技術(shù)、虛擬人技術(shù)等。第二天則深入探討多技術(shù)原理,多模態(tài)在影視漫游類的應(yīng)用,以及高質(zhì)量視頻生產(chǎn)的多模態(tài)工具使用。課程旨在通過理論與實(shí)踐相結(jié)合的方式,幫助學(xué)員全面理解并掌握多模態(tài)技術(shù)。

目標(biāo)收益

1,掌握多模態(tài)大模型的基本原理和技術(shù)框架,理解多模態(tài)數(shù)據(jù)處理的核心技術(shù)和方法。
2,深入了解多模態(tài)大模型在文字、音頻、影視等多個(gè)內(nèi)容賽道的應(yīng)用場景和市場需求,為實(shí)際應(yīng)用提供有力支持。
3,學(xué)會運(yùn)用多模態(tài)大模型進(jìn)行內(nèi)容理解、內(nèi)容生成等關(guān)鍵技術(shù)操作,提升在相關(guān)領(lǐng)域的工作效率和創(chuàng)新能力。

培訓(xùn)對象

課程大綱

模塊一:多模態(tài)基礎(chǔ)(第一天)
理論向(上午):多模態(tài)技術(shù)背景與應(yīng)用介紹
1.熱身暖場:自我介紹&引子(Sora/LumaAI/多模態(tài)效果展示)
2.生成式AI與多模態(tài)技術(shù)背景:探討生成模型類型、工作原理及應(yīng)用場景,包括文本、圖像、視頻生成等。
a.基礎(chǔ)大模型技術(shù)(性能、價(jià)格、速度)
b.圖片可控生產(chǎn)技術(shù)(填充、涂抹、增強(qiáng))
c.Sora類視頻化技術(shù)(運(yùn)動、實(shí)體一致性、3D化)
d.ASR、有聲、音樂技術(shù)(情感、旋律、音質(zhì))
e.虛擬人、具身智能與基礎(chǔ)算力服務(wù)
3.多模態(tài)業(yè)界前沿產(chǎn)品介紹。
a.多模態(tài)應(yīng)用行業(yè)地圖(工具向 & 娛樂向)
b.基礎(chǔ)類視覺圖片應(yīng)用(美圖、稿定、MJ等)
c.基礎(chǔ)類視頻應(yīng)用(Runway、Pika、Pixelverse & 快手可靈、LumaAI)
d.辦公泛工具類(AI-PPT、效率、創(chuàng)意)
e.垂直場景類2B應(yīng)用(客服、營銷、培訓(xùn)等)
f.情感陪伴類C端應(yīng)用(星野、talkie、筑夢島等)
4.互動:自由問答
實(shí)踐向(下午):多模態(tài)在內(nèi)容型公司的應(yīng)用路徑 1.多模態(tài)應(yīng)用開發(fā)實(shí)踐范式(整體開發(fā)流程介紹)
2.落地技術(shù)選型(提示詞工程、開源模型微調(diào)與私有化部署)
3.開發(fā)資源與團(tuán)隊(duì)構(gòu)成(人員配置、開發(fā)工具、創(chuàng)作者生態(tài))
4.當(dāng)前內(nèi)部應(yīng)用示例(垂類模型、可控生圖、規(guī)模化成本)
5.圖像實(shí)踐展開:
a.文生圖:Lora概念與常用推薦、提示詞書寫規(guī)則 等;
b.圖生圖:關(guān)鍵詞反推、局部重繪、畫風(fēng)轉(zhuǎn)化 等;
c.ControlNet:插件原理、字體設(shè)計(jì)、AI模特服裝 等;
6.SD-WebUI與ComfyUI實(shí)踐展示
模塊二:多模態(tài)生產(chǎn)環(huán)境落地(第二天)
理論(上午):多技術(shù)原理概覽
1.世界模型的起源?
a.AI視頻模型技術(shù)演進(jìn)(VDM/MAV/AnimateDiff/SVD/DIT/Sora)
b.大模型發(fā)展:多模態(tài)輸入、多模態(tài)輸出
2.生產(chǎn)環(huán)境下多模態(tài)落地
a.圖片:IP衍生品/社區(qū)配圖/多格漫
b.有聲:多播、音樂、情感、模仿
c.虛擬人:數(shù)字分身、互動唱歌、直播
3.成本與收益(GPU選型、推理加速框架、極限成本、市場價(jià)格)
4.互動:自由問答
實(shí)踐(下午):多模態(tài)在影視漫游類的應(yīng)用 1.拆解高質(zhì)量“AI我中華”視頻生產(chǎn)用到了哪些多模態(tài)工具
a.創(chuàng)意文案部分:劇本與創(chuàng)意模板提示詞;
b.圖片部分:可控重繪、高質(zhì)超分、插幀渲染 等;
c.視頻部分:SVD、Dreamina、Runway等;
d.音樂部分:Suno、韻律模型、聲音克隆 等;
e.整體合成:市場成本、實(shí)際成本;
2.實(shí)踐Dify/Coze 類Agent平臺:
a.簡介:Workflow工作流與調(diào)試 介紹;
b.驗(yàn)證:打造帶Function Call能力的Agent(創(chuàng)建Bot與使用插件);
c.多模態(tài):Coze 圖像流 操作手冊;
d.場景實(shí)踐(知識庫問答、毛胚房裝修、電商廣告圖像流 等);
3.互動:
a.自由問答
分組練習(xí):結(jié)合自己工作的業(yè)務(wù)特點(diǎn)進(jìn)行智能體建模。
模塊一:多模態(tài)基礎(chǔ)(第一天)
理論向(上午):多模態(tài)技術(shù)背景與應(yīng)用介紹
1.熱身暖場:自我介紹&引子(Sora/LumaAI/多模態(tài)效果展示)
2.生成式AI與多模態(tài)技術(shù)背景:探討生成模型類型、工作原理及應(yīng)用場景,包括文本、圖像、視頻生成等。
a.基礎(chǔ)大模型技術(shù)(性能、價(jià)格、速度)
b.圖片可控生產(chǎn)技術(shù)(填充、涂抹、增強(qiáng))
c.Sora類視頻化技術(shù)(運(yùn)動、實(shí)體一致性、3D化)
d.ASR、有聲、音樂技術(shù)(情感、旋律、音質(zhì))
e.虛擬人、具身智能與基礎(chǔ)算力服務(wù)
3.多模態(tài)業(yè)界前沿產(chǎn)品介紹。
a.多模態(tài)應(yīng)用行業(yè)地圖(工具向 & 娛樂向)
b.基礎(chǔ)類視覺圖片應(yīng)用(美圖、稿定、MJ等)
c.基礎(chǔ)類視頻應(yīng)用(Runway、Pika、Pixelverse & 快手可靈、LumaAI)
d.辦公泛工具類(AI-PPT、效率、創(chuàng)意)
e.垂直場景類2B應(yīng)用(客服、營銷、培訓(xùn)等)
f.情感陪伴類C端應(yīng)用(星野、talkie、筑夢島等)
4.互動:自由問答
實(shí)踐向(下午):多模態(tài)在內(nèi)容型公司的應(yīng)用路徑
1.多模態(tài)應(yīng)用開發(fā)實(shí)踐范式(整體開發(fā)流程介紹)
2.落地技術(shù)選型(提示詞工程、開源模型微調(diào)與私有化部署)
3.開發(fā)資源與團(tuán)隊(duì)構(gòu)成(人員配置、開發(fā)工具、創(chuàng)作者生態(tài))
4.當(dāng)前內(nèi)部應(yīng)用示例(垂類模型、可控生圖、規(guī)模化成本)
5.圖像實(shí)踐展開:
a.文生圖:Lora概念與常用推薦、提示詞書寫規(guī)則 等;
b.圖生圖:關(guān)鍵詞反推、局部重繪、畫風(fēng)轉(zhuǎn)化 等;
c.ControlNet:插件原理、字體設(shè)計(jì)、AI模特服裝 等;
6.SD-WebUI與ComfyUI實(shí)踐展示
模塊二:多模態(tài)生產(chǎn)環(huán)境落地(第二天)
理論(上午):多技術(shù)原理概覽
1.世界模型的起源?
a.AI視頻模型技術(shù)演進(jìn)(VDM/MAV/AnimateDiff/SVD/DIT/Sora)
b.大模型發(fā)展:多模態(tài)輸入、多模態(tài)輸出
2.生產(chǎn)環(huán)境下多模態(tài)落地
a.圖片:IP衍生品/社區(qū)配圖/多格漫
b.有聲:多播、音樂、情感、模仿
c.虛擬人:數(shù)字分身、互動唱歌、直播
3.成本與收益(GPU選型、推理加速框架、極限成本、市場價(jià)格)
4.互動:自由問答
實(shí)踐(下午):多模態(tài)在影視漫游類的應(yīng)用
1.拆解高質(zhì)量“AI我中華”視頻生產(chǎn)用到了哪些多模態(tài)工具
a.創(chuàng)意文案部分:劇本與創(chuàng)意模板提示詞;
b.圖片部分:可控重繪、高質(zhì)超分、插幀渲染 等;
c.視頻部分:SVD、Dreamina、Runway等;
d.音樂部分:Suno、韻律模型、聲音克隆 等;
e.整體合成:市場成本、實(shí)際成本;
2.實(shí)踐Dify/Coze 類Agent平臺:
a.簡介:Workflow工作流與調(diào)試 介紹;
b.驗(yàn)證:打造帶Function Call能力的Agent(創(chuàng)建Bot與使用插件);
c.多模態(tài):Coze 圖像流 操作手冊;
d.場景實(shí)踐(知識庫問答、毛胚房裝修、電商廣告圖像流 等);
3.互動:
a.自由問答
分組練習(xí):結(jié)合自己工作的業(yè)務(wù)特點(diǎn)進(jìn)行智能體建模。

活動詳情

提交需求