一字无码中文字幕,下药真实迷奷在线大学生视频,亚洲精品456在线播放不卡

以O(shè)penAI CLIP為代表的多模態(tài)預(yù)訓(xùn)練模型，為安防、電商等應(yīng)用場景提供了強(qiáng)大的跨模態(tài)理解基礎(chǔ)，但也存在多種技術(shù)局限性。

格靈深瞳參與研究的3項最新技術(shù)成果，涵蓋圖文檢索、高質(zhì)量圖文對數(shù)據(jù)集、組合概念理解等多模態(tài)研究關(guān)鍵領(lǐng)域，突破了現(xiàn)有CLIP框架的局限，多項任務(wù)性能達(dá)到最先進(jìn)水平，有效提升多模態(tài)表達(dá)能力。

3篇論文已入選第33屆ACM國際多媒體大會(ACM MM)，獲得國際頂級學(xué)術(shù)會議認(rèn)可。以下是論文的核心內(nèi)容：

圖文互搜更精準(zhǔn)!新框架UniME判別力up

對比語言-圖像預(yù)訓(xùn)練框架CLIP已成為多模態(tài)領(lǐng)域的主流方法，廣泛應(yīng)用于“以圖搜文”或“以文搜圖”等任務(wù)中。但CLIP存在三個明顯短板：無法處理過長的文本;圖像和文本編碼器各自獨(dú)立，交互不足;組合推理能力不足，例如只能看懂單詞，卻讀不懂句子。

盡管最近的多模態(tài)大型語言模型(MLLMs)在通用視覺-語言理解方面取得了顯著進(jìn)展，但在學(xué)習(xí)可遷移的多模態(tài)表征方面，潛力尚未充分發(fā)揮。

為此，研究團(tuán)隊提出了UniME(Universal Multimodal Embedding，通用多模態(tài)嵌入)，一個新穎的兩階段訓(xùn)練框架，利用MLLMs學(xué)習(xí)判別性強(qiáng)、可應(yīng)用到多樣化下游任務(wù)的表征向量。在第一階段，團(tuán)隊借助強(qiáng)大的基于LLM的教師模型，通過知識蒸餾技術(shù)，提升多模態(tài)大語言模型中的文本嵌入能力;在第二階段，團(tuán)隊引入困難負(fù)樣本增強(qiáng)指令微調(diào)，進(jìn)一步增強(qiáng)判別性表示學(xué)習(xí)。

經(jīng)過MMEB基準(zhǔn)測試和在多個檢索任務(wù)(包括短長標(biāo)題檢索和組合檢索)上的大量實驗，結(jié)果表明UniME在所有任務(wù)中均實現(xiàn)了穩(wěn)定的性能提升，展現(xiàn)了卓越的判別能力和組合理解能力。

論文題目：Breaking the Modality Barrier：Universal Embedding Learning with Multimodal LLMs

研究團(tuán)隊：格靈深瞳、悉尼大學(xué)、通義實驗室、帝國理工學(xué)院

報告鏈接：https://arxiv.org/abs/2504.17432

項目主頁：https://garygutc.github.io/UniME/

多模態(tài)學(xué)習(xí)新范式：數(shù)據(jù)集RealSyn解鎖海量未配對文檔

在海量圖文對上進(jìn)行預(yù)訓(xùn)練后，CLIP在各種基準(zhǔn)測試中表現(xiàn)出色。但現(xiàn)實中還存在大量非配對的多模態(tài)數(shù)據(jù)，例如圖文交織的文檔，它們蘊(yùn)藏豐富的視覺-語言語義信息，尚未得到有效挖掘。

為了充分利用這些未配對文檔，研究團(tuán)隊構(gòu)建了RealSyn數(shù)據(jù)集——一種高效且可擴(kuò)展的多模態(tài)文檔轉(zhuǎn)換新范式。團(tuán)隊首先建立了一套真實數(shù)據(jù)提取流程，能夠從圖文交錯的文檔中提取高質(zhì)量的圖像和文本。在此基礎(chǔ)上，通過分層檢索方法，高效地將每個圖像與多個語義相關(guān)的現(xiàn)實文本關(guān)聯(lián)起來。

為進(jìn)一步增強(qiáng)視覺信息的細(xì)粒度表達(dá)，RealSyn還引入了圖像語義增強(qiáng)生成模塊，可生成與圖像內(nèi)容高度契合的合成文本。同時，借助語義均衡采樣策略來提高數(shù)據(jù)集的多樣性，讓模型更好地學(xué)習(xí)長尾概念。

基于以上技術(shù)突破，團(tuán)隊構(gòu)建了不同規(guī)模的RealSyn數(shù)據(jù)集(15M、30M 和 100M)，融合了真實與合成文本。廣泛的實驗表明，RealSyn有效地提升了視覺-語言表示學(xué)習(xí)性能，并展現(xiàn)出強(qiáng)大的可擴(kuò)展性。相較于現(xiàn)有大規(guī)模圖文對數(shù)據(jù)集，模型在RealSyn上預(yù)訓(xùn)練后，在多項下游任務(wù)中達(dá)到了最先進(jìn)的性能。

論文題目：RealSyn：An Effective and Scalable Multimodal Interleaved Document Transformation Paradigm

研究團(tuán)隊：格靈深瞳、悉尼大學(xué)、帝國理工學(xué)院

報告鏈接：https://arxiv.org/abs/2502.12513

項目主頁：https://garygutc.github.io/RealSyn/

新框架DeGLA：既保留模型通用能力，又提升組合理解性能

通過對齊圖像和文本模態(tài)，CLIP在多項下游任務(wù)中表現(xiàn)出色。然而，全局對比學(xué)習(xí)的特性限制了CLIP對于組合概念(例如關(guān)系和屬性)的理解能力。盡管有研究采用困難負(fù)樣本的方法來提高組合理解能力，但這類方法是在嵌入空間內(nèi)強(qiáng)制使文本負(fù)樣本遠(yuǎn)離圖像，會顯著損害模型已經(jīng)掌握的通用能力。

為了解決這一矛盾，研究團(tuán)隊提出了一種名為“ 解耦全局-局部對齊(DeGLA)”的新訓(xùn)練框架，能夠顯著提升組合理解能力的同時，最大限度保留模型的通用能力。

首先，為保留模型的通用能力，團(tuán)隊在全局對齊過程中整合了自我蒸餾機(jī)制，能夠有效減輕在微調(diào)過程中預(yù)訓(xùn)練知識的災(zāi)難性遺忘;接下來，為了提高組合理解能力，團(tuán)隊利用大語言模型的上下文學(xué)習(xí)能力，構(gòu)建了約200萬個高質(zhì)量、涵蓋五種類型的困難負(fù)樣本，進(jìn)而提出了基于圖像的局部對比(IGC)損失和基于文本的局部對比(TGC)損失，以此增強(qiáng)視覺-語言組合理解能力。

廣泛的實驗結(jié)果證明了DeGLA框架的有效性。與先前的最先進(jìn)方法相比，DeGLA在VALSE、SugarCrepe和ARO基準(zhǔn)測試中平均提升了3.5%。同時，在11個數(shù)據(jù)集上的零樣本分類任務(wù)中，性能平均提升了13.0%。

論文題目：Decoupled Global-Local Alignment for Improving Compositional Understanding

研究團(tuán)隊：格靈深瞳、北京理工大學(xué)、浙江大學(xué)

報告鏈接：https://arxiv.org/abs/2504.16801

項目主頁：https://xiaoxing2001.github.io/DeGLA.github.io/

未來，格靈深瞳將在Glint Tech技術(shù)專欄分享更多前沿動態(tài)與創(chuàng)新成果，歡迎持續(xù)關(guān)注。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

模型

模型

+關(guān)注

關(guān)注
1

文章
3609

瀏覽量
51414
格靈深瞳

格靈深瞳

+關(guān)注

關(guān)注
1

文章
72

瀏覽量
5853

原文標(biāo)題：格靈深瞳3項成果入選ACM MM25，聚焦多模態(tài)表征、圖文對數(shù)據(jù)集及跨模態(tài)組合理解 | Glint Tech

文章出處：【微信號：shentongzhineng，微信公眾號：格靈深瞳】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛兴趣闲谈,欧美亚洲精品 8区,国产精品久久久久精品免费

搜索歷史

格靈深瞳三項成果獲得國際頂級學(xué)術(shù)會議認(rèn)可

評論