多模態(tài)大模型最全綜述來了!
由微軟7位華人研究員撰寫,足足119頁——

它從目前已經(jīng)完善的和還處于最前沿的兩類多模態(tài)大模型研究方向出發(fā),全面總結(jié)了五個具體研究主題:
視覺理解
視覺生成
統(tǒng)一視覺模型
LLM加持的多模態(tài)大模型
多模態(tài)agent

?并重點關(guān)注到一個現(xiàn)象:
多模態(tài)基礎(chǔ)模型已經(jīng)從專用走向通用
Ps. 這也是為什么論文開頭作者就直接畫了一個哆啦A夢的形象。
誰適合閱讀這份綜述(報告)?
用微軟的原話來說:
只要你想學(xué)習(xí)多模?態(tài)基礎(chǔ)模型的基礎(chǔ)知識和最新進展,不管你是專業(yè)研究員,還是在校學(xué)生,它都是你的“菜”。
一起來看看~
一文摸清多模態(tài)大模型現(xiàn)狀
這五個具體主題中的前2個為目前已經(jīng)成熟的領(lǐng)域,后3個則還屬于前沿領(lǐng)域。
1、視覺理解
這部分的核心問題是如何預(yù)訓(xùn)練一個強大的圖像理解backbone。
如下圖所示,根據(jù)用于訓(xùn)練模型的監(jiān)督信號的不同,我們可以將方法分為三類:
標(biāo)簽監(jiān)督、語言監(jiān)督(以CLIP為代表)和只有圖像的自監(jiān)督。
其中最后一個表示監(jiān)督信號是從圖像本身中挖掘出來的,流行的方法包括對比學(xué)習(xí)、非對比學(xué)習(xí)和masked image建模。
在這些方法之外,文章也進一步討論了多模態(tài)融合、區(qū)域級和像素級圖像理解等類別的預(yù)訓(xùn)練方法。

還列出了以上這些方法各自的代表作品。

2、視覺生成
這個主題是AIGC的核心,不限于圖像生成,還包括視頻、3D點云圖等等。
并且它的用處不止于藝術(shù)、設(shè)計等領(lǐng)域——還非常有助于合成訓(xùn)練數(shù)據(jù),直接幫助我們實現(xiàn)多模態(tài)內(nèi)容理解和生成的閉環(huán)。
在這部分,作者重點討論了生成與人類意圖嚴(yán)格一致的效果的重要性和方法(重點是圖像生成)。
具體則從空間可控生成、基于文本再編輯、更好地遵循文本提示和生成概念定制(concept customization)四個方面展開。

在本節(jié)最后,作者還分享了他們對當(dāng)前研究趨勢和短期未來研究方向的看法。
即,開發(fā)一個通用的文生圖模型,它可以更好地遵循人類的意圖,并使上述四個方向都能應(yīng)用得更加靈活并可替代。
同樣列出了四個方向的各自代表作:

3、統(tǒng)一視覺模型
這部分討論了構(gòu)建統(tǒng)一視覺模型的挑戰(zhàn):
?一是輸入類型不同;
二是不同的任務(wù)需要不同的粒度,輸出也要求不同的格式;
三是在建模之外,數(shù)據(jù)也有挑戰(zhàn)。
比如不同類型的標(biāo)簽注釋成本差異很大,收集成本比文本數(shù)據(jù)高得多,這導(dǎo)致視覺數(shù)據(jù)的規(guī)模通常比文本語料庫小得多。
不過,盡管挑戰(zhàn)多多,作者指出:
CV領(lǐng)域?qū)τ陂_發(fā)通用、統(tǒng)一的視覺系統(tǒng)的興趣是越來越高漲,還衍生出來三類趨勢:

一是從閉集(closed-set)到開集(open-set),它可以更好地將文本和視覺匹配起來。
二是從特定任務(wù)到通用能力,這個轉(zhuǎn)變最重要的原因還是因為為每一項新任務(wù)都開發(fā)一個新模型的成本實在太高了;
三是從靜態(tài)模型到可提示模型,LLM可以采用不同的語言和上下文提示作為輸入,并在不進行微調(diào)的情況下產(chǎn)生用戶想要的輸出。我們要打造的通用視覺模型應(yīng)該具有相同的上下文學(xué)習(xí)能力。
4、LLM加持的多模態(tài)大模型
本節(jié)全面探討多模態(tài)大模型。
先是深入研究背景和代表實例,并討論OpenAI的多模態(tài)研究進展,確定該領(lǐng)域現(xiàn)有的研究空白。
接下來作者詳細考察了大語言模型中指令微調(diào)的重要性。
再接著,作者探討了多模態(tài)大模型中的指令微調(diào)工作,包括原理、意義和應(yīng)用。
最后,涉及多模態(tài)模型領(lǐng)域中的一些高階主題,方便我們進行更深入的了解,包括:
更多超越視覺和語言的模態(tài)、多模態(tài)的上下文學(xué)習(xí)、參數(shù)高效訓(xùn)練以及Benchmark等內(nèi)容。
5、多模態(tài)agent
所謂多模態(tài)agent,就是一種將不同的多模態(tài)專家與LLM聯(lián)系起來解決復(fù)雜多模態(tài)理解問題的辦法。
這部分,作者主要先帶大家回顧了這種模式的轉(zhuǎn)變,總結(jié)該方法與傳統(tǒng)方法的根本差異。
然后以MM-REACT為代表帶大家看了這種方法的具體運作方式。
接著全面總結(jié)了如何構(gòu)建多模態(tài)agent,它在多模態(tài)理解方面的新興能力,以及如何輕松擴展到包含最新、最強的LLM和潛在的數(shù)百萬種工具中。
當(dāng)然,最后也是一些高階主題討論,包括如何改進/評估多多模態(tài)agent,由它建成的各種應(yīng)用程序等。

作者介紹
本報告一共7位作者。
發(fā)起人和整體負責(zé)人為Chunyuan Li。
他是微軟雷德蒙德首席研究員,博士畢業(yè)于杜克大學(xué),最近研究興趣為CV和NLP中的大規(guī)模預(yù)訓(xùn)練。
他負責(zé)了開頭介紹和結(jié)尾總結(jié)以及“利用LLM訓(xùn)練的多模態(tài)大模型”這章的撰寫。
核心作者一共4位:
Zhe Gan
目前已進入Apple AI/ML工作,負責(zé)大規(guī)模視覺和多模態(tài)基礎(chǔ)模型研究。此前是Microsoft Azure AI的首席研究員,北大本碩畢業(yè),杜克大學(xué)博士畢業(yè)。
Zhengyuan Yang
微軟高級研究員,羅切斯特大學(xué)博士畢業(yè),獲得了ACM SIGMM杰出博士獎等榮譽,本科就讀于中科大。
Jianwei Yang
微軟雷德蒙德研究院深度學(xué)習(xí)小組首席研究員。佐治亞理工學(xué)院博士畢業(yè)。
Linjie Li(女)
Microsoft Cloud & AI計算機視覺組研究員,普渡大學(xué)碩士畢業(yè)。
他們分別負責(zé)了剩下四個主題章節(jié)的撰寫。
-
圖像
+關(guān)注
關(guān)注
2文章
1096瀏覽量
42437 -
AIGC
+關(guān)注
關(guān)注
1文章
393瀏覽量
3269 -
大模型
+關(guān)注
關(guān)注
2文章
3759瀏覽量
5269
原文標(biāo)題:綜述 | 多模態(tài)大模型最全綜述來了!
文章出處:【微信號:zenRRan,微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
愛芯通元NPU適配Qwen2.5-VL-3B視覺多模態(tài)大模型
蛋白質(zhì)能量模型的多模態(tài)優(yōu)化算法綜述
多模態(tài)圖像合成與編輯方法
更強更通用:智源「悟道3.0」Emu多模態(tài)大模型開源,在多模態(tài)序列中「補全一切」
探究編輯多模態(tài)大語言模型的可行性
大模型+多模態(tài)的3種實現(xiàn)方法
從Google多模態(tài)大模型看后續(xù)大模型應(yīng)該具備哪些能力
機器人基于開源的多模態(tài)語言視覺大模型
螞蟻推出20億參數(shù)多模態(tài)遙感模型SkySense
螞蟻集團推出20億參數(shù)多模態(tài)遙感基礎(chǔ)模型SkySense
利用OpenVINO部署Qwen2多模態(tài)模型
商湯日日新多模態(tài)大模型權(quán)威評測第一
??低暟l(fā)布多模態(tài)大模型文搜存儲系列產(chǎn)品
亞馬遜云科技上線Amazon Nova多模態(tài)嵌入模型
多模態(tài)大模型最全綜述來了!
評論