以O(shè)penAI CLIP為代表的多模態(tài)預(yù)訓(xùn)練模型,為安防、電商等應(yīng)用場景提供了強(qiáng)大的跨模態(tài)理解基礎(chǔ),但也存在多種技術(shù)局限性。
格靈深瞳參與研究的3項最新技術(shù)成果,涵蓋圖文檢索、高質(zhì)量圖文對數(shù)據(jù)集、組合概念理解等多模態(tài)研究關(guān)鍵領(lǐng)域,突破了現(xiàn)有CLIP框架的局限,多項任務(wù)性能達(dá)到最先進(jìn)水平,有效提升多模態(tài)表達(dá)能力。
3篇論文已入選第33屆ACM國際多媒體大會(ACM MM),獲得國際頂級學(xué)術(shù)會議認(rèn)可。以下是論文的核心內(nèi)容:
圖文互搜更精準(zhǔn)!新框架UniME判別力up
對比語言-圖像預(yù)訓(xùn)練框架CLIP已成為多模態(tài)領(lǐng)域的主流方法,廣泛應(yīng)用于“以圖搜文”或“以文搜圖”等任務(wù)中。但CLIP存在三個明顯短板:無法處理過長的文本;圖像和文本編碼器各自獨(dú)立,交互不足;組合推理能力不足,例如只能看懂單詞,卻讀不懂句子。
盡管最近的多模態(tài)大型語言模型(MLLMs)在通用視覺-語言理解方面取得了顯著進(jìn)展,但在學(xué)習(xí)可遷移的多模態(tài)表征方面,潛力尚未充分發(fā)揮。
為此,研究團(tuán)隊提出了UniME(Universal Multimodal Embedding,通用多模態(tài)嵌入),一個新穎的兩階段訓(xùn)練框架,利用MLLMs學(xué)習(xí)判別性強(qiáng)、可應(yīng)用到多樣化下游任務(wù)的表征向量。在第一階段,團(tuán)隊借助強(qiáng)大的基于LLM的教師模型,通過知識蒸餾技術(shù),提升多模態(tài)大語言模型中的文本嵌入能力;在第二階段,團(tuán)隊引入困難負(fù)樣本增強(qiáng)指令微調(diào),進(jìn)一步增強(qiáng)判別性表示學(xué)習(xí)。
經(jīng)過MMEB基準(zhǔn)測試和在多個檢索任務(wù)(包括短長標(biāo)題檢索和組合檢索)上的大量實驗,結(jié)果表明UniME在所有任務(wù)中均實現(xiàn)了穩(wěn)定的性能提升,展現(xiàn)了卓越的判別能力和組合理解能力。
論文題目:Breaking the Modality Barrier:Universal Embedding Learning with Multimodal LLMs
研究團(tuán)隊:格靈深瞳、悉尼大學(xué)、通義實驗室、帝國理工學(xué)院
報告鏈接:https://arxiv.org/abs/2504.17432
項目主頁:https://garygutc.github.io/UniME/
多模態(tài)學(xué)習(xí)新范式:數(shù)據(jù)集RealSyn解鎖海量未配對文檔
在海量圖文對上進(jìn)行預(yù)訓(xùn)練后,CLIP在各種基準(zhǔn)測試中表現(xiàn)出色。但現(xiàn)實中還存在大量非配對的多模態(tài)數(shù)據(jù),例如圖文交織的文檔,它們蘊(yùn)藏豐富的視覺-語言語義信息,尚未得到有效挖掘。
為了充分利用這些未配對文檔,研究團(tuán)隊構(gòu)建了RealSyn數(shù)據(jù)集——一種高效且可擴(kuò)展的多模態(tài)文檔轉(zhuǎn)換新范式。團(tuán)隊首先建立了一套真實數(shù)據(jù)提取流程,能夠從圖文交錯的文檔中提取高質(zhì)量的圖像和文本。在此基礎(chǔ)上,通過分層檢索方法,高效地將每個圖像與多個語義相關(guān)的現(xiàn)實文本關(guān)聯(lián)起來。
為進(jìn)一步增強(qiáng)視覺信息的細(xì)粒度表達(dá),RealSyn還引入了圖像語義增強(qiáng)生成模塊,可生成與圖像內(nèi)容高度契合的合成文本。同時,借助語義均衡采樣策略來提高數(shù)據(jù)集的多樣性,讓模型更好地學(xué)習(xí)長尾概念。
基于以上技術(shù)突破,團(tuán)隊構(gòu)建了不同規(guī)模的RealSyn數(shù)據(jù)集(15M、30M 和 100M),融合了真實與合成文本。廣泛的實驗表明,RealSyn有效地提升了視覺-語言表示學(xué)習(xí)性能,并展現(xiàn)出強(qiáng)大的可擴(kuò)展性。相較于現(xiàn)有大規(guī)模圖文對數(shù)據(jù)集,模型在RealSyn上預(yù)訓(xùn)練后,在多項下游任務(wù)中達(dá)到了最先進(jìn)的性能。
論文題目:RealSyn:An Effective and Scalable Multimodal Interleaved Document Transformation Paradigm
研究團(tuán)隊:格靈深瞳、悉尼大學(xué)、帝國理工學(xué)院
報告鏈接:https://arxiv.org/abs/2502.12513
項目主頁:https://garygutc.github.io/RealSyn/
新框架DeGLA:既保留模型通用能力,又提升組合理解性能
通過對齊圖像和文本模態(tài),CLIP在多項下游任務(wù)中表現(xiàn)出色。然而,全局對比學(xué)習(xí)的特性限制了CLIP對于組合概念(例如關(guān)系和屬性)的理解能力。盡管有研究采用困難負(fù)樣本的方法來提高組合理解能力,但這類方法是在嵌入空間內(nèi)強(qiáng)制使文本負(fù)樣本遠(yuǎn)離圖像,會顯著損害模型已經(jīng)掌握的通用能力。
為了解決這一矛盾,研究團(tuán)隊提出了一種名為“ 解耦全局-局部對齊(DeGLA)”的新訓(xùn)練框架,能夠顯著提升組合理解能力的同時,最大限度保留模型的通用能力。
首先,為保留模型的通用能力,團(tuán)隊在全局對齊過程中整合了自我蒸餾機(jī)制,能夠有效減輕在微調(diào)過程中預(yù)訓(xùn)練知識的災(zāi)難性遺忘;接下來,為了提高組合理解能力,團(tuán)隊利用大語言模型的上下文學(xué)習(xí)能力,構(gòu)建了約200萬個高質(zhì)量、涵蓋五種類型的困難負(fù)樣本,進(jìn)而提出了基于圖像的局部對比(IGC)損失和基于文本的局部對比(TGC)損失,以此增強(qiáng)視覺-語言組合理解能力。
廣泛的實驗結(jié)果證明了DeGLA框架的有效性。與先前的最先進(jìn)方法相比,DeGLA在VALSE、SugarCrepe和ARO基準(zhǔn)測試中平均提升了3.5%。同時,在11個數(shù)據(jù)集上的零樣本分類任務(wù)中,性能平均提升了13.0%。
論文題目:Decoupled Global-Local Alignment for Improving Compositional Understanding
研究團(tuán)隊:格靈深瞳、北京理工大學(xué)、浙江大學(xué)
報告鏈接:https://arxiv.org/abs/2504.16801
項目主頁:https://xiaoxing2001.github.io/DeGLA.github.io/
未來,格靈深瞳將在Glint Tech技術(shù)專欄分享更多前沿動態(tài)與創(chuàng)新成果,歡迎持續(xù)關(guān)注。
-
模型
+關(guān)注
關(guān)注
1文章
3609瀏覽量
51414 -
格靈深瞳
+關(guān)注
關(guān)注
1文章
72瀏覽量
5853
原文標(biāo)題:格靈深瞳3項成果入選ACM MM25,聚焦多模態(tài)表征、圖文對數(shù)據(jù)集及跨模態(tài)組合理解 | Glint Tech
文章出處:【微信號:shentongzhineng,微信公眾號:格靈深瞳】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
格靈深瞳與奧瑞德達(dá)成戰(zhàn)略合作
格靈深瞳突破文本人物檢索技術(shù)難題

格靈深瞳視覺基礎(chǔ)模型Glint-MVT的發(fā)展脈絡(luò)

評論