chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

格靈深瞳三項成果獲得國際頂級學(xué)術(shù)會議認(rèn)可

格靈深瞳 ? 來源:格靈深瞳 ? 2025-09-15 14:43 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

以O(shè)penAI CLIP為代表的多模態(tài)預(yù)訓(xùn)練模型,為安防、電商等應(yīng)用場景提供了強(qiáng)大的跨模態(tài)理解基礎(chǔ),但也存在多種技術(shù)局限性。

格靈深瞳參與研究的3項最新技術(shù)成果,涵蓋圖文檢索、高質(zhì)量圖文對數(shù)據(jù)集、組合概念理解等多模態(tài)研究關(guān)鍵領(lǐng)域,突破了現(xiàn)有CLIP框架的局限,多項任務(wù)性能達(dá)到最先進(jìn)水平,有效提升多模態(tài)表達(dá)能力。

3篇論文已入選第33屆ACM國際多媒體大會(ACM MM),獲得國際頂級學(xué)術(shù)會議認(rèn)可。以下是論文的核心內(nèi)容:

圖文互搜更精準(zhǔn)!新框架UniME判別力up

對比語言-圖像預(yù)訓(xùn)練框架CLIP已成為多模態(tài)領(lǐng)域的主流方法,廣泛應(yīng)用于“以圖搜文”或“以文搜圖”等任務(wù)中。但CLIP存在三個明顯短板:無法處理過長的文本;圖像和文本編碼器各自獨(dú)立,交互不足;組合推理能力不足,例如只能看懂單詞,卻讀不懂句子。

盡管最近的多模態(tài)大型語言模型(MLLMs)在通用視覺-語言理解方面取得了顯著進(jìn)展,但在學(xué)習(xí)可遷移的多模態(tài)表征方面,潛力尚未充分發(fā)揮。

為此,研究團(tuán)隊提出了UniME(Universal Multimodal Embedding,通用多模態(tài)嵌入),一個新穎的兩階段訓(xùn)練框架,利用MLLMs學(xué)習(xí)判別性強(qiáng)、可應(yīng)用到多樣化下游任務(wù)的表征向量。在第一階段,團(tuán)隊借助強(qiáng)大的基于LLM的教師模型,通過知識蒸餾技術(shù),提升多模態(tài)大語言模型中的文本嵌入能力;在第二階段,團(tuán)隊引入困難負(fù)樣本增強(qiáng)指令微調(diào),進(jìn)一步增強(qiáng)判別性表示學(xué)習(xí)。

經(jīng)過MMEB基準(zhǔn)測試和在多個檢索任務(wù)(包括短長標(biāo)題檢索和組合檢索)上的大量實驗,結(jié)果表明UniME在所有任務(wù)中均實現(xiàn)了穩(wěn)定的性能提升,展現(xiàn)了卓越的判別能力和組合理解能力。

論文題目:Breaking the Modality Barrier:Universal Embedding Learning with Multimodal LLMs

研究團(tuán)隊:格靈深瞳、悉尼大學(xué)、通義實驗室、帝國理工學(xué)院

報告鏈接:https://arxiv.org/abs/2504.17432

項目主頁:https://garygutc.github.io/UniME/

多模態(tài)學(xué)習(xí)新范式:數(shù)據(jù)集RealSyn解鎖海量未配對文檔

在海量圖文對上進(jìn)行預(yù)訓(xùn)練后,CLIP在各種基準(zhǔn)測試中表現(xiàn)出色。但現(xiàn)實中還存在大量非配對的多模態(tài)數(shù)據(jù),例如圖文交織的文檔,它們蘊(yùn)藏豐富的視覺-語言語義信息,尚未得到有效挖掘。

為了充分利用這些未配對文檔,研究團(tuán)隊構(gòu)建了RealSyn數(shù)據(jù)集——一種高效且可擴(kuò)展的多模態(tài)文檔轉(zhuǎn)換新范式。團(tuán)隊首先建立了一套真實數(shù)據(jù)提取流程,能夠從圖文交錯的文檔中提取高質(zhì)量的圖像和文本。在此基礎(chǔ)上,通過分層檢索方法,高效地將每個圖像與多個語義相關(guān)的現(xiàn)實文本關(guān)聯(lián)起來。

為進(jìn)一步增強(qiáng)視覺信息的細(xì)粒度表達(dá),RealSyn還引入了圖像語義增強(qiáng)生成模塊,可生成與圖像內(nèi)容高度契合的合成文本。同時,借助語義均衡采樣策略來提高數(shù)據(jù)集的多樣性,讓模型更好地學(xué)習(xí)長尾概念。

基于以上技術(shù)突破,團(tuán)隊構(gòu)建了不同規(guī)模的RealSyn數(shù)據(jù)集(15M、30M 和 100M),融合了真實與合成文本。廣泛的實驗表明,RealSyn有效地提升了視覺-語言表示學(xué)習(xí)性能,并展現(xiàn)出強(qiáng)大的可擴(kuò)展性。相較于現(xiàn)有大規(guī)模圖文對數(shù)據(jù)集,模型在RealSyn上預(yù)訓(xùn)練后,在多項下游任務(wù)中達(dá)到了最先進(jìn)的性能。

論文題目:RealSyn:An Effective and Scalable Multimodal Interleaved Document Transformation Paradigm

研究團(tuán)隊:格靈深瞳、悉尼大學(xué)、帝國理工學(xué)院

報告鏈接:https://arxiv.org/abs/2502.12513

項目主頁:https://garygutc.github.io/RealSyn/

新框架DeGLA:既保留模型通用能力,又提升組合理解性能

通過對齊圖像和文本模態(tài),CLIP在多項下游任務(wù)中表現(xiàn)出色。然而,全局對比學(xué)習(xí)的特性限制了CLIP對于組合概念(例如關(guān)系和屬性)的理解能力。盡管有研究采用困難負(fù)樣本的方法來提高組合理解能力,但這類方法是在嵌入空間內(nèi)強(qiáng)制使文本負(fù)樣本遠(yuǎn)離圖像,會顯著損害模型已經(jīng)掌握的通用能力。

為了解決這一矛盾,研究團(tuán)隊提出了一種名為“ 解耦全局-局部對齊(DeGLA)”的新訓(xùn)練框架,能夠顯著提升組合理解能力的同時,最大限度保留模型的通用能力。

首先,為保留模型的通用能力,團(tuán)隊在全局對齊過程中整合了自我蒸餾機(jī)制,能夠有效減輕在微調(diào)過程中預(yù)訓(xùn)練知識的災(zāi)難性遺忘;接下來,為了提高組合理解能力,團(tuán)隊利用大語言模型的上下文學(xué)習(xí)能力,構(gòu)建了約200萬個高質(zhì)量、涵蓋五種類型的困難負(fù)樣本,進(jìn)而提出了基于圖像的局部對比(IGC)損失和基于文本的局部對比(TGC)損失,以此增強(qiáng)視覺-語言組合理解能力。

廣泛的實驗結(jié)果證明了DeGLA框架的有效性。與先前的最先進(jìn)方法相比,DeGLA在VALSE、SugarCrepe和ARO基準(zhǔn)測試中平均提升了3.5%。同時,在11個數(shù)據(jù)集上的零樣本分類任務(wù)中,性能平均提升了13.0%。

論文題目:Decoupled Global-Local Alignment for Improving Compositional Understanding

研究團(tuán)隊:格靈深瞳、北京理工大學(xué)、浙江大學(xué)

報告鏈接:https://arxiv.org/abs/2504.16801

項目主頁:https://xiaoxing2001.github.io/DeGLA.github.io/

未來,格靈深瞳將在Glint Tech技術(shù)專欄分享更多前沿動態(tài)與創(chuàng)新成果,歡迎持續(xù)關(guān)注。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3609

    瀏覽量

    51414
  • 格靈深瞳
    +關(guān)注

    關(guān)注

    1

    文章

    72

    瀏覽量

    5853

原文標(biāo)題:格靈深瞳3項成果入選ACM MM25,聚焦多模態(tài)表征、圖文對數(shù)據(jù)集及跨模態(tài)組合理解 | Glint Tech

文章出處:【微信號:shentongzhineng,微信公眾號:格靈深瞳】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    與奧瑞德達(dá)成戰(zhàn)略合作

    近日,與奧瑞德光電股份有限公司達(dá)成戰(zhàn)略合作。雙方將重點(diǎn)圍繞大模型技術(shù)應(yīng)用及解決方案,整合各自優(yōu)勢,向國內(nèi)外客戶提供高效能的智能算力服務(wù),共同構(gòu)建“端-邊-云”一體化算力網(wǎng)絡(luò),打
    的頭像 發(fā)表于 10-11 17:32 ?1203次閱讀

    突破文本人物檢索技術(shù)難題

    參與研究的GA-DMS框架,為攻破上述技術(shù)難題提供了全新解決方案。研究團(tuán)隊通過數(shù)據(jù)構(gòu)建和模型架構(gòu)的協(xié)同改進(jìn),推動CLIP在人物表征學(xué)習(xí)中的應(yīng)用,顯著提升了基于文本的人物檢索效果
    的頭像 發(fā)表于 09-28 09:42 ?228次閱讀
    <b class='flag-5'>格</b><b class='flag-5'>靈</b><b class='flag-5'>深</b><b class='flag-5'>瞳</b>突破文本人物檢索技術(shù)難題

    視覺基礎(chǔ)模型Glint-MVT的發(fā)展脈絡(luò)

    此前,8月28-30日,2025百度云智大會在北京舉辦。在算力平臺專題論壇上,技術(shù)副總裁、算法研究院院長馮子勇分享了《視覺基座:通向世界模型之路——
    的頭像 發(fā)表于 09-05 17:13 ?1069次閱讀
    <b class='flag-5'>格</b><b class='flag-5'>靈</b><b class='flag-5'>深</b><b class='flag-5'>瞳</b>視覺基礎(chǔ)模型Glint-MVT的發(fā)展脈絡(luò)

    加入海光產(chǎn)業(yè)生態(tài)合作組織

    近日,正式加入海光產(chǎn)業(yè)生態(tài)合作組織(簡稱“光合組織”),成為該組織成員單位。
    的頭像 發(fā)表于 08-25 16:10 ?398次閱讀

    智慧金融產(chǎn)品家族全新升級

    智能體時代,如何打造能用、好用、有持續(xù)成長性的智慧金融產(chǎn)品?這是探索 AI+金融深度融合的實踐方向。
    的頭像 發(fā)表于 08-19 17:53 ?900次閱讀

    智慧體育產(chǎn)品全新升級

    智慧體育產(chǎn)品家族,近期迎來全新升級。
    的頭像 發(fā)表于 08-14 11:51 ?1034次閱讀

    視覺基礎(chǔ)模型Glint-MVT升級

    近日,靈感實驗室和華為倫敦研究所發(fā)布最新版視覺基礎(chǔ)模型——Glint-MVT v1.5(RICE)。
    的頭像 發(fā)表于 07-31 11:01 ?1033次閱讀
    <b class='flag-5'>格</b><b class='flag-5'>靈</b><b class='flag-5'>深</b><b class='flag-5'>瞳</b>視覺基礎(chǔ)模型Glint-MVT升級

    與您相約WAIC 2025

    7月26-29日,2025世界人工智能大會(WAIC)將在上海世博中心和世博展覽館舉行。將在第一現(xiàn)場,聯(lián)合華為昇騰、百度、飛騰等生態(tài)合作伙伴,展示金融全系列整體解決方案、墨刃A
    的頭像 發(fā)表于 07-26 16:14 ?815次閱讀

    六篇論文入選ICCV 2025

    近日,國際頂級會議ICCV 2025(計算機(jī)視覺國際大會)公布論文錄用結(jié)果,
    的頭像 發(fā)表于 07-07 18:23 ?1122次閱讀

    亮相AICon 2025全球人工智能開發(fā)與應(yīng)用大會

    此前,6月27-28日,由極客邦科技旗下InfoQ中國主辦的“AICon全球人工智能開發(fā)與應(yīng)用大會”在北京舉辦。作為行業(yè)領(lǐng)先的視覺AI公司,受邀參會。
    的頭像 發(fā)表于 07-05 16:15 ?1113次閱讀

    入選量子位2025年AIGC雙榜單

    4月16日,第屆中國AIGC產(chǎn)業(yè)峰會在京召開。大會由量子位主辦,以“萬物皆可AI”為主題,峰會C位焦點(diǎn)——“2025年值得關(guān)注的AIGC企業(yè)”與“2025年值得關(guān)注的AIGC產(chǎn)品”雙榜單正式發(fā)布!
    的頭像 發(fā)表于 04-18 09:20 ?732次閱讀

    發(fā)布全國產(chǎn)超融合大模型一體機(jī)

    近日,人工智能領(lǐng)域的創(chuàng)新者宣布推出全國產(chǎn)化的超融合大模型一體機(jī),該產(chǎn)品在業(yè)界引起了廣泛關(guān)注。這款一體機(jī)不僅展現(xiàn)了
    的頭像 發(fā)表于 02-19 15:37 ?967次閱讀

    近期接連斬獲8大獎

    年關(guān)將至,喜事連連。憑借前沿的技術(shù)產(chǎn)品和行業(yè)領(lǐng)先的市場表現(xiàn),接連斬獲八大獎,持續(xù)獲得
    的頭像 發(fā)表于 12-26 10:20 ?717次閱讀

    列車巡檢機(jī)器人順利通過科創(chuàng)課題結(jié)題評審

    近日,自研的列車巡檢機(jī)器人,在西北某鐵路局動車段牽頭的課題中順利通過結(jié)題評審。憑借領(lǐng)
    的頭像 發(fā)表于 12-25 09:25 ?817次閱讀

    擬控股國科億道

    近日發(fā)布公告,宣布了一重要的股權(quán)投資計劃。公司計劃通過增資及收購股權(quán)的方式,取得深圳市國科億道科技有限公司的部分股權(quán),從而進(jìn)一步拓
    的頭像 發(fā)表于 11-26 11:00 ?728次閱讀