近日,國際頂級會議ICCV 2025(計算機(jī)視覺國際大會)公布論文錄用結(jié)果,格靈深瞳團(tuán)隊共有6篇論文入選。
作為CV領(lǐng)域最具國際影響力的三大頂級會議之一,本屆ICCV競爭十分激烈。據(jù)公開信息,今年大會共收到11239份有效投稿,數(shù)量為史上最多。經(jīng)過評審后,僅接受2698篇論文,錄用率為24%。
格靈深瞳此次入選的6篇論文,涉及視覺基座模型、人臉3D重建、文檔幾何校正、人體動作生成、魯棒三維重建等多個視覺AI研究關(guān)鍵方向,展現(xiàn)了格靈深瞳深耕多年的核心技術(shù)積累和前沿創(chuàng)新實(shí)力,每一項成果都具有前瞻的科研價值和實(shí)際應(yīng)用意義。
此次入選的6篇論文核心內(nèi)容如下:
視覺基座模型
格靈深瞳與華為諾亞研究院合作的論文Region-based Cluster Discrimination for Visual Representation Learning中稿,其創(chuàng)新性在于,通過引入?yún)^(qū)域Transformer層和高效的區(qū)域聚類判別損失,有效提升視覺模型對局部區(qū)域信息的感知與表達(dá)能力,使其在OCR、目標(biāo)檢測和分割等密集視覺任務(wù)中表現(xiàn)突出。
同時,RICE采用大規(guī)模候選區(qū)域數(shù)據(jù)集,統(tǒng)一目標(biāo)識別與OCR學(xué)習(xí)。在多項下游任務(wù)中,RICE均優(yōu)于SigLIP2、AIMv2,無需顯式語言監(jiān)督,即可成為強(qiáng)大的多模態(tài)視覺大模型基座,展現(xiàn)出卓越的通用性和擴(kuò)展?jié)摿Α?/p>
人臉3D重建、膚色估計
格靈深瞳與悉尼科技大學(xué)、浙江大學(xué)、帝國理工學(xué)院合作的HUST,方法創(chuàng)新性體現(xiàn)在:無需昂貴的光場采集數(shù)據(jù),僅憑單張圖片即可實(shí)現(xiàn)高保真、無偏見的人臉漫反射反照率重建。
該論文通過提出“反照率即去光照紋理”的新見解,結(jié)合VQGAN預(yù)訓(xùn)練和有限UV紋理微調(diào),模型有效利用大規(guī)模高分辨率人臉數(shù)據(jù)??缈臻g自適應(yīng)與群體身份損失實(shí)現(xiàn)域遷移,提升了不同膚色的泛化能力。HUST在FAIR基準(zhǔn)上取得了當(dāng)前最優(yōu)的準(zhǔn)確性和公平性指標(biāo)。
文檔幾何校正
格靈深瞳與360移動算法部合作的ForCenNet,其創(chuàng)新性體現(xiàn)在:提出了前景為中心的標(biāo)簽生成方法和掩碼機(jī)制,顯著提升了對文檔可讀區(qū)域的幾何校正能力。
同時,該論文方法設(shè)計了曲率一致性損失,有效約束線性結(jié)構(gòu)的變形,提升了校正精度。實(shí)驗結(jié)果表明方法在多個真實(shí)基準(zhǔn)上均取得了新的最優(yōu)表現(xiàn)。
人體動作生成
格靈深瞳與浙江大學(xué)合作的MotionStreamer,提出了一種全新的流式人體動作生成框架。通過在連續(xù)的因果潛空間中進(jìn)行自回歸,并使用擴(kuò)散模型建模每個潛在變量的概率分布,實(shí)現(xiàn)高效的流式生成。
流式框架天然支持多輪交互式動作生成、長序列動作生成、動態(tài)動作組合等多種應(yīng)用。
人體動作生成
格靈深瞳與浙江大學(xué)合作的Motion-2-to-3,創(chuàng)新性地使用大量的人類二維視頻,以提升文本驅(qū)動的三維運(yùn)動生成。研究通過解耦局部關(guān)節(jié)運(yùn)動與全局運(yùn)動,從二維數(shù)據(jù)高效學(xué)習(xí)局部運(yùn)動先驗。先在大規(guī)模文本-二維運(yùn)動數(shù)據(jù)集上訓(xùn)練單視角生成器,再用三維數(shù)據(jù)微調(diào)為多視角生成器,預(yù)測視角一致的局部關(guān)節(jié)運(yùn)動和根節(jié)點(diǎn)動態(tài)。
實(shí)驗表明,該方法能高效利用二維數(shù)據(jù),生成更廣泛,更多類型的真實(shí)三維人體運(yùn)動,為相關(guān)行業(yè)帶來新機(jī)遇。
魯棒三維重建
格靈深瞳與浙江大學(xué)合作的UniVerse,首次將視頻擴(kuò)散模型引入到魯棒3D重建中,通過先把不一致的多視圖圖像轉(zhuǎn)化為一致視頻幀,再進(jìn)行高質(zhì)量神經(jīng)場重建,有效解耦了“修復(fù)”和“重建”兩大任務(wù)。
近年來,格靈深瞳大力投入視覺基礎(chǔ)模型、多模態(tài)大模型等AI核心技術(shù)研發(fā),積極與各大高校、企業(yè)開展研究合作,聚合產(chǎn)學(xué)研力量,促進(jìn)學(xué)術(shù)深度交流。此次亮相國際頂級學(xué)術(shù)平臺,是對團(tuán)隊科研實(shí)力與成果的檢驗和肯定。
未來,格靈深瞳將持續(xù)發(fā)力前沿技術(shù)創(chuàng)新研究,促進(jìn)科研成果轉(zhuǎn)化應(yīng)用,引領(lǐng)行業(yè)共同發(fā)展進(jìn)步。
-
計算機(jī)
+關(guān)注
關(guān)注
19文章
7724瀏覽量
92292 -
模型
+關(guān)注
關(guān)注
1文章
3611瀏覽量
51432 -
格靈深瞳
+關(guān)注
關(guān)注
1文章
72瀏覽量
5853
原文標(biāo)題:格靈深瞳6篇論文亮相國際頂級學(xué)術(shù)舞臺,涵蓋視覺基座模型、人臉3D重建等領(lǐng)域
文章出處:【微信號:shentongzhineng,微信公眾號:格靈深瞳】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
格靈深瞳與奧瑞德達(dá)成戰(zhàn)略合作
格靈深瞳突破文本人物檢索技術(shù)難題

格靈深瞳視覺基礎(chǔ)模型Glint-MVT的發(fā)展脈絡(luò)

評論