架構(gòu)師
互聯(lián)網(wǎng)
推薦課程
average > 0 ? $model->average . '分' : '10.0分' ?>

深度學(xué)習(xí)時(shí)代的跨模態(tài)信息建模

前Keep首席科學(xué)家 北京航空航天大學(xué)副教授

現(xiàn)任北京航空航天大學(xué)自動(dòng)化學(xué)院副教授、北航科技傳播研究中心主任。 2001畢業(yè)于黑龍江大學(xué)自動(dòng)化系獲學(xué)士學(xué)位,并與2002年和2005年獲得英國布里斯托(Bristol)大學(xué)碩士、博士。美國加州大學(xué)伯克利分校 (UC Berkeley) 博士后、牛津 (Oxford) 大學(xué)與卡內(nèi)基梅隆大學(xué) (CMU) 訪問學(xué)者。目前主要研究方向?yàn)槿斯ぶ悄?、機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘、跨媒體檢索與自然語言理解。出版英文專著1本;編輯論文集2本;在WSDM,CVPR,ICASSP,EMNLP等國際會(huì)議與Information Sciences, Neurocomputing等期刊共發(fā)表論文100余篇。10年教育部新世紀(jì)優(yōu)秀人才獲得者。同時(shí)廣泛參與信息產(chǎn)業(yè)界的技術(shù)咨詢工作,并曾任馬上金融人工智能研究院副院長、Keep首席科學(xué)家兼人工智能研究院院長。

現(xiàn)任北京航空航天大學(xué)自動(dòng)化學(xué)院副教授、北航科技傳播研究中心主任。 2001畢業(yè)于黑龍江大學(xué)自動(dòng)化系獲學(xué)士學(xué)位,并與2002年和2005年獲得英國布里斯托(Bristol)大學(xué)碩士、博士。美國加州大學(xué)伯克利分校 (UC Berkeley) 博士后、牛津 (Oxford) 大學(xué)與卡內(nèi)基梅隆大學(xué) (CMU) 訪問學(xué)者。目前主要研究方向?yàn)槿斯ぶ悄?、機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘、跨媒體檢索與自然語言理解。出版英文專著1本;編輯論文集2本;在WSDM,CVPR,ICASSP,EMNLP等國際會(huì)議與Information Sciences, Neurocomputing等期刊共發(fā)表論文100余篇。10年教育部新世紀(jì)優(yōu)秀人才獲得者。同時(shí)廣泛參與信息產(chǎn)業(yè)界的技術(shù)咨詢工作,并曾任馬上金融人工智能研究院副院長、Keep首席科學(xué)家兼人工智能研究院院長。

課程費(fèi)用

5800.00 /人

課程時(shí)長

3小時(shí)

成為教練

課程簡介

Feature representation of different modalities is the main focus of current cross-modal information retrieval research. Existing models typically project texts and images into the same embedding space. In this talk, we will introduce some basic ideas of text and image modeling and how can we build cross-modal relations using deep learning models. In details, we will discuss a joint model by using metric learning to minimize the similarity of the same content from different modalities. We will also introduce some recent research developments in image captioning and vision question answering (VQA)

【工作坊大綱】
1. 語義鴻溝
2. 圖像建模與CNN
3. 文本模型與詞向量
4. 聯(lián)合模型
5. 自動(dòng)標(biāo)注
6. 文本生成
7. 視覺問答

目標(biāo)收益

了解到深度學(xué)習(xí)的前沿研究,了解如何利用深度學(xué)習(xí)進(jìn)行圖像、文本信息的聯(lián)合建模并如何跨模態(tài)的實(shí)現(xiàn)語義搜索和圖像問答系統(tǒng)。

培訓(xùn)對(duì)象

課程內(nèi)容

Feature representation of different modalities is the main focus of current cross-modal information retrieval research. Existing models typically project texts and images into the same embedding space. In this talk, we will introduce some basic ideas of text and image modeling and how can we build cross-modal relations using deep learning models. In details, we will discuss a joint model by using metric learning to minimize the similarity of the same content from different modalities. We will also introduce some recent research developments in image captioning and vision question answering (VQA)。

outline:
-語義鴻溝
-圖像建模與CNN
-文本模型與詞向量
-聯(lián)合模型
-自動(dòng)標(biāo)注
-文本生成
-視覺問答

活動(dòng)詳情

提交需求