對計算機來說,理解“穿紅色上衣的長發(fā)女性”這類特征性描述,并在海量圖片中精準找到對應(yīng)人物,是一項復(fù)雜的技術(shù)難題。盡管多模態(tài)預(yù)訓練模型CLIP在多種視覺任務(wù)中展示出強大的性能,但其在人物表征學習的應(yīng)用中,也就是“以文找人”時,面臨兩個關(guān)鍵挑戰(zhàn):
一是缺乏專注于人物中心圖像的大規(guī)模訓練數(shù)據(jù);二是容易受到噪聲文本標記的影響。
格靈深瞳參與研究的GA-DMS框架,為攻破上述技術(shù)難題提供了全新解決方案。研究團隊通過數(shù)據(jù)構(gòu)建和模型架構(gòu)的協(xié)同改進,推動CLIP在人物表征學習中的應(yīng)用,顯著提升了基于文本的人物檢索效果。該成果已入選EMNLP 2025 主會(自然語言處理領(lǐng)域的頂級國際會議之一)。
首先,團隊開發(fā)了一個抗噪聲的數(shù)據(jù)構(gòu)建管道,利用機器學習語言模型(MLLMs)的上下文學習能力,自動過濾和標注網(wǎng)絡(luò)來源的圖像。這產(chǎn)生了一個大規(guī)模數(shù)據(jù)集WebPerson,包含500萬高質(zhì)量的人物中心圖像-文本對。
其次,團隊引入了梯度-注意力引導(dǎo)的雙重遮蔽協(xié)同(GA-DMS)框架,用來改善跨模態(tài)對齊。
此外,團隊還加入了遮蔽標記預(yù)測目標,讓模型能夠預(yù)測信息豐富的文本標記,增強細粒度語義表征學習。
廣泛的實驗表明,GA-DMS在多個基準測試中達到了最先進的性能,實現(xiàn)了更精準的“以文找人”檢索能力——在CUHK-PEDES數(shù)據(jù)集上的準確率達到77.6%,在RSTPReid上準確率達到71.25%。
GA-DMS技術(shù)示意圖
關(guān)于技術(shù)報告的更多細節(jié),可點擊下方鏈接體驗。
論文題目:Gradient-Attention Guided Dual-Masking Synergetic Framework for Robust Text-based Person Retrieval
研究團隊:格靈深瞳、東北大學、華南理工大學
報告鏈接:https://arxiv.org/pdf/2509.09118
項目主頁:https://github.com/Multimodal-Representation-Learning-MRL/GA-DMS
-
AI
+關(guān)注
關(guān)注
88文章
37012瀏覽量
289995 -
機器學習
+關(guān)注
關(guān)注
66文章
8528瀏覽量
135861 -
格靈深瞳
+關(guān)注
關(guān)注
1文章
72瀏覽量
5853
原文標題:讓AI讀懂人物描寫!新框架GA-DMS突破“以文找人”技術(shù)難題 | Glint Tech
文章出處:【微信號:shentongzhineng,微信公眾號:格靈深瞳】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
格靈深瞳與奧瑞德達成戰(zhàn)略合作
格靈深瞳視覺基礎(chǔ)模型Glint-MVT的發(fā)展脈絡(luò)

評論