格靈深瞳突破文本人物檢索技術(shù)難題

對計算機來說，理解“穿紅色上衣的長發(fā)女性”這類特征性描述，并在海量圖片中精準找到對應(yīng)人物，是一項復(fù)雜的技術(shù)難題。盡管多模態(tài)預(yù)訓練模型CLIP在多種視覺任務(wù)中展示出強大的性能，但其在人物表征學習的應(yīng)用中，也就是“以文找人”時，面臨兩個關(guān)鍵挑戰(zhàn)：

一是缺乏專注于人物中心圖像的大規(guī)模訓練數(shù)據(jù);二是容易受到噪聲文本標記的影響。

格靈深瞳參與研究的GA-DMS框架，為攻破上述技術(shù)難題提供了全新解決方案。研究團隊通過數(shù)據(jù)構(gòu)建和模型架構(gòu)的協(xié)同改進，推動CLIP在人物表征學習中的應(yīng)用，顯著提升了基于文本的人物檢索效果。該成果已入選EMNLP 2025 主會(自然語言處理領(lǐng)域的頂級國際會議之一)。

首先，團隊開發(fā)了一個抗噪聲的數(shù)據(jù)構(gòu)建管道，利用機器學習語言模型(MLLMs)的上下文學習能力，自動過濾和標注網(wǎng)絡(luò)來源的圖像。這產(chǎn)生了一個大規(guī)模數(shù)據(jù)集WebPerson，包含500萬高質(zhì)量的人物中心圖像-文本對。

其次，團隊引入了梯度-注意力引導(dǎo)的雙重遮蔽協(xié)同(GA-DMS)框架，用來改善跨模態(tài)對齊。

此外，團隊還加入了遮蔽標記預(yù)測目標，讓模型能夠預(yù)測信息豐富的文本標記，增強細粒度語義表征學習。

廣泛的實驗表明，GA-DMS在多個基準測試中達到了最先進的性能，實現(xiàn)了更精準的“以文找人”檢索能力——在CUHK-PEDES數(shù)據(jù)集上的準確率達到77.6%，在RSTPReid上準確率達到71.25%。

GA-DMS技術(shù)示意圖

關(guān)于技術(shù)報告的更多細節(jié)，可點擊下方鏈接體驗。

論文題目：Gradient-Attention Guided Dual-Masking Synergetic Framework for Robust Text-based Person Retrieval

研究團隊：格靈深瞳、東北大學、華南理工大學

報告鏈接：https://arxiv.org/pdf/2509.09118

項目主頁：https://github.com/Multimodal-Representation-Learning-MRL/GA-DMS

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

AI

AI

+關(guān)注

關(guān)注
88

文章
37012

瀏覽量
289995
機器學習

機器學習

+關(guān)注

關(guān)注
66

文章
8528

瀏覽量
135861
格靈深瞳

格靈深瞳

+關(guān)注

關(guān)注
1

文章
72

瀏覽量
5853

原文標題：讓AI讀懂人物描寫！新框架GA-DMS突破“以文找人”技術(shù)難題 | Glint Tech

文章出處：【微信號：shentongzhineng，微信公眾號：格靈深瞳】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛兴趣闲谈,欧美亚洲精品 8区,国产精品久久久久精品免费

搜索歷史

格靈深瞳突破文本人物檢索技術(shù)難題

評論