chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

格靈深瞳三項成果獲得國際頂級學(xué)術(shù)會議認可

格靈深瞳 ? 來源:格靈深瞳 ? 2025-09-15 14:43 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

以O(shè)penAI CLIP為代表的多模態(tài)預(yù)訓(xùn)練模型,為安防、電商等應(yīng)用場景提供了強大的跨模態(tài)理解基礎(chǔ),但也存在多種技術(shù)局限性。

格靈深瞳參與研究的3項最新技術(shù)成果,涵蓋圖文檢索、高質(zhì)量圖文對數(shù)據(jù)集、組合概念理解等多模態(tài)研究關(guān)鍵領(lǐng)域,突破了現(xiàn)有CLIP框架的局限,多項任務(wù)性能達到最先進水平,有效提升多模態(tài)表達能力。

3篇論文已入選第33屆ACM國際多媒體大會(ACM MM),獲得國際頂級學(xué)術(shù)會議認可。以下是論文的核心內(nèi)容:

圖文互搜更精準!新框架UniME判別力up

對比語言-圖像預(yù)訓(xùn)練框架CLIP已成為多模態(tài)領(lǐng)域的主流方法,廣泛應(yīng)用于“以圖搜文”或“以文搜圖”等任務(wù)中。但CLIP存在三個明顯短板:無法處理過長的文本;圖像和文本編碼器各自獨立,交互不足;組合推理能力不足,例如只能看懂單詞,卻讀不懂句子。

盡管最近的多模態(tài)大型語言模型(MLLMs)在通用視覺-語言理解方面取得了顯著進展,但在學(xué)習(xí)可遷移的多模態(tài)表征方面,潛力尚未充分發(fā)揮。

為此,研究團隊提出了UniME(Universal Multimodal Embedding,通用多模態(tài)嵌入),一個新穎的兩階段訓(xùn)練框架,利用MLLMs學(xué)習(xí)判別性強、可應(yīng)用到多樣化下游任務(wù)的表征向量。在第一階段,團隊借助強大的基于LLM的教師模型,通過知識蒸餾技術(shù),提升多模態(tài)大語言模型中的文本嵌入能力;在第二階段,團隊引入困難負樣本增強指令微調(diào),進一步增強判別性表示學(xué)習(xí)。

經(jīng)過MMEB基準測試和在多個檢索任務(wù)(包括短長標題檢索和組合檢索)上的大量實驗,結(jié)果表明UniME在所有任務(wù)中均實現(xiàn)了穩(wěn)定的性能提升,展現(xiàn)了卓越的判別能力和組合理解能力。

論文題目:Breaking the Modality Barrier:Universal Embedding Learning with Multimodal LLMs

研究團隊:格靈深瞳、悉尼大學(xué)、通義實驗室、帝國理工學(xué)院

報告鏈接:https://arxiv.org/abs/2504.17432

項目主頁:https://garygutc.github.io/UniME/

多模態(tài)學(xué)習(xí)新范式:數(shù)據(jù)集RealSyn解鎖海量未配對文檔

在海量圖文對上進行預(yù)訓(xùn)練后,CLIP在各種基準測試中表現(xiàn)出色。但現(xiàn)實中還存在大量非配對的多模態(tài)數(shù)據(jù),例如圖文交織的文檔,它們蘊藏豐富的視覺-語言語義信息,尚未得到有效挖掘。

為了充分利用這些未配對文檔,研究團隊構(gòu)建了RealSyn數(shù)據(jù)集——一種高效且可擴展的多模態(tài)文檔轉(zhuǎn)換新范式。團隊首先建立了一套真實數(shù)據(jù)提取流程,能夠從圖文交錯的文檔中提取高質(zhì)量的圖像和文本。在此基礎(chǔ)上,通過分層檢索方法,高效地將每個圖像與多個語義相關(guān)的現(xiàn)實文本關(guān)聯(lián)起來。

為進一步增強視覺信息的細粒度表達,RealSyn還引入了圖像語義增強生成模塊,可生成與圖像內(nèi)容高度契合的合成文本。同時,借助語義均衡采樣策略來提高數(shù)據(jù)集的多樣性,讓模型更好地學(xué)習(xí)長尾概念。

基于以上技術(shù)突破,團隊構(gòu)建了不同規(guī)模的RealSyn數(shù)據(jù)集(15M、30M 和 100M),融合了真實與合成文本。廣泛的實驗表明,RealSyn有效地提升了視覺-語言表示學(xué)習(xí)性能,并展現(xiàn)出強大的可擴展性。相較于現(xiàn)有大規(guī)模圖文對數(shù)據(jù)集,模型在RealSyn上預(yù)訓(xùn)練后,在多項下游任務(wù)中達到了最先進的性能。

論文題目:RealSyn:An Effective and Scalable Multimodal Interleaved Document Transformation Paradigm

研究團隊:格靈深瞳、悉尼大學(xué)、帝國理工學(xué)院

報告鏈接:https://arxiv.org/abs/2502.12513

項目主頁:https://garygutc.github.io/RealSyn/

新框架DeGLA:既保留模型通用能力,又提升組合理解性能

通過對齊圖像和文本模態(tài),CLIP在多項下游任務(wù)中表現(xiàn)出色。然而,全局對比學(xué)習(xí)的特性限制了CLIP對于組合概念(例如關(guān)系和屬性)的理解能力。盡管有研究采用困難負樣本的方法來提高組合理解能力,但這類方法是在嵌入空間內(nèi)強制使文本負樣本遠離圖像,會顯著損害模型已經(jīng)掌握的通用能力。

為了解決這一矛盾,研究團隊提出了一種名為“ 解耦全局-局部對齊(DeGLA)”的新訓(xùn)練框架,能夠顯著提升組合理解能力的同時,最大限度保留模型的通用能力。

首先,為保留模型的通用能力,團隊在全局對齊過程中整合了自我蒸餾機制,能夠有效減輕在微調(diào)過程中預(yù)訓(xùn)練知識的災(zāi)難性遺忘;接下來,為了提高組合理解能力,團隊利用大語言模型的上下文學(xué)習(xí)能力,構(gòu)建了約200萬個高質(zhì)量、涵蓋五種類型的困難負樣本,進而提出了基于圖像的局部對比(IGC)損失和基于文本的局部對比(TGC)損失,以此增強視覺-語言組合理解能力。

廣泛的實驗結(jié)果證明了DeGLA框架的有效性。與先前的最先進方法相比,DeGLA在VALSE、SugarCrepe和ARO基準測試中平均提升了3.5%。同時,在11個數(shù)據(jù)集上的零樣本分類任務(wù)中,性能平均提升了13.0%。

論文題目:Decoupled Global-Local Alignment for Improving Compositional Understanding

研究團隊:格靈深瞳、北京理工大學(xué)、浙江大學(xué)

報告鏈接:https://arxiv.org/abs/2504.16801

項目主頁:https://xiaoxing2001.github.io/DeGLA.github.io/

未來,格靈深瞳將在Glint Tech技術(shù)專欄分享更多前沿動態(tài)與創(chuàng)新成果,歡迎持續(xù)關(guān)注。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3687

    瀏覽量

    51942
  • 格靈深瞳
    +關(guān)注

    關(guān)注

    1

    文章

    88

    瀏覽量

    5913

原文標題:格靈深瞳3項成果入選ACM MM25,聚焦多模態(tài)表征、圖文對數(shù)據(jù)集及跨模態(tài)組合理解 | Glint Tech

文章出處:【微信號:shentongzhineng,微信公眾號:格靈深瞳】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    榮獲量子位2025人工智能年度領(lǐng)航企業(yè)

    12月10日,量子位發(fā)布“2025人工智能年度榜單”。入選“2025人工智能年度領(lǐng)航企業(yè)”。
    的頭像 發(fā)表于 12-17 15:23 ?433次閱讀

    科微電子榮膺三項權(quán)威認可

    近期,獲得由政府、媒體與專業(yè)機構(gòu)頒發(fā)的三項權(quán)威認可,覆蓋CMOS圖像傳感器細分市場競爭力、技術(shù)創(chuàng)新成果和質(zhì)量管理體系建設(shè)
    的頭像 發(fā)表于 12-01 16:30 ?342次閱讀

    精彩亮相百度世界2025大會

    11月13日,百度世界2025大會在北京國家會議中心二期舉辦?;顒悠陂g,與百度進行深入交流,并圍繞VLM、AI Infra、應(yīng)用場景
    的頭像 發(fā)表于 11-19 17:09 ?666次閱讀

    受邀參加百度世界2025大會

    11月13日,百度世界2025大會將在北京國家會議中心二期舉行。在分論壇環(huán)節(jié),靈感實驗室負責人馮子勇、
    的頭像 發(fā)表于 11-14 15:47 ?537次閱讀

    邀您相約百度世界2025大會

    11月13日,百度世界2025大會將在北京國家會議中心二期舉行,主題為“效果涌現(xiàn) | AI In Action”。在公開課環(huán)節(jié),副總
    的頭像 發(fā)表于 11-12 16:57 ?821次閱讀

    與奧瑞德達成戰(zhàn)略合作

    近日,與奧瑞德光電股份有限公司達成戰(zhàn)略合作。雙方將重點圍繞大模型技術(shù)應(yīng)用及解決方案,整合各自優(yōu)勢,向國內(nèi)外客戶提供高效能的智能算力服務(wù),共同構(gòu)建“端-邊-云”一體化算力網(wǎng)絡(luò),打
    的頭像 發(fā)表于 10-11 17:32 ?1662次閱讀

    突破文本人物檢索技術(shù)難題

    參與研究的GA-DMS框架,為攻破上述技術(shù)難題提供了全新解決方案。研究團隊通過數(shù)據(jù)構(gòu)建和模型架構(gòu)的協(xié)同改進,推動CLIP在人物表征學(xué)習(xí)中的應(yīng)用,顯著提升了基于文本的人物檢索效果
    的頭像 發(fā)表于 09-28 09:42 ?544次閱讀
    <b class='flag-5'>格</b><b class='flag-5'>靈</b><b class='flag-5'>深</b><b class='flag-5'>瞳</b>突破文本人物檢索技術(shù)難題

    視覺基礎(chǔ)模型Glint-MVT的發(fā)展脈絡(luò)

    此前,8月28-30日,2025百度云智大會在北京舉辦。在算力平臺專題論壇上,技術(shù)副總裁、算法研究院院長馮子勇分享了《視覺基座:通向世界模型之路——
    的頭像 發(fā)表于 09-05 17:13 ?1501次閱讀
    <b class='flag-5'>格</b><b class='flag-5'>靈</b><b class='flag-5'>深</b><b class='flag-5'>瞳</b>視覺基礎(chǔ)模型Glint-MVT的發(fā)展脈絡(luò)

    加入海光產(chǎn)業(yè)生態(tài)合作組織

    近日,正式加入海光產(chǎn)業(yè)生態(tài)合作組織(簡稱“光合組織”),成為該組織成員單位。
    的頭像 發(fā)表于 08-25 16:10 ?735次閱讀

    智慧金融產(chǎn)品家族全新升級

    智能體時代,如何打造能用、好用、有持續(xù)成長性的智慧金融產(chǎn)品?這是探索 AI+金融深度融合的實踐方向。
    的頭像 發(fā)表于 08-19 17:53 ?1197次閱讀

    智慧體育產(chǎn)品全新升級

    智慧體育產(chǎn)品家族,近期迎來全新升級。
    的頭像 發(fā)表于 08-14 11:51 ?1304次閱讀

    視覺基礎(chǔ)模型Glint-MVT升級

    近日,靈感實驗室和華為倫敦研究所發(fā)布最新版視覺基礎(chǔ)模型——Glint-MVT v1.5(RICE)。
    的頭像 發(fā)表于 07-31 11:01 ?1364次閱讀
    <b class='flag-5'>格</b><b class='flag-5'>靈</b><b class='flag-5'>深</b><b class='flag-5'>瞳</b>視覺基礎(chǔ)模型Glint-MVT升級

    與您相約WAIC 2025

    7月26-29日,2025世界人工智能大會(WAIC)將在上海世博中心和世博展覽館舉行。將在第一現(xiàn)場,聯(lián)合華為昇騰、百度、飛騰等生態(tài)合作伙伴,展示金融全系列整體解決方案、墨刃A
    的頭像 發(fā)表于 07-26 16:14 ?1052次閱讀

    六篇論文入選ICCV 2025

    近日,國際頂級會議ICCV 2025(計算機視覺國際大會)公布論文錄用結(jié)果,
    的頭像 發(fā)表于 07-07 18:23 ?1435次閱讀

    發(fā)布全國產(chǎn)超融合大模型一體機

    近日,人工智能領(lǐng)域的創(chuàng)新者宣布推出全國產(chǎn)化的超融合大模型一體機,該產(chǎn)品在業(yè)界引起了廣泛關(guān)注。這款一體機不僅展現(xiàn)了
    的頭像 發(fā)表于 02-19 15:37 ?1166次閱讀