本文是 ICCV 2023 入選 Oral 論文 Grounded Entity-Landmark Adaptive Pre-training for Vision-and-Language Navigation 的解讀。本論文是某智能人機交互團(tuán)隊在視覺-語言導(dǎo)航(Vision-and-Language Navigation, VLN)領(lǐng)域的最新工作。該工作構(gòu)建了 VLN 中首個帶有高質(zhì)量實體-標(biāo)志物對齊標(biāo)注的數(shù)據(jù)集,并提出實體-標(biāo)志物對齊的自適應(yīng)預(yù)訓(xùn)練方法,從而顯著提高了智能體的導(dǎo)航性能。
ICCV 是“計算機視覺三大頂級會議”之一,ICCV 2023 于今年 10 月 2 日至 6 日在法國巴黎舉行,本屆會議共收到全球 8260 篇論文投稿,2161 篇被接收,接收率為 26.16%,其中 152 篇論文被選為口頭報告展示(Oral Presentation),Oral 接收率僅為 1.8%。
論文題目:
Grounded Entity-Landmark Adaptive Pre-training for Vision-and-Language Navigation
論文地址:
https://arxiv.org/abs/2308.12587開源數(shù)據(jù)集:
https://pan.baidu.com/s/12WTzZ05T8Uxy85znn28dfQ?pwd=64t7代碼地址:
https://github.com/csir1996/vln-gela

引言
視覺-語言導(dǎo)航(Vision-and-Language Navigation, VLN)任務(wù)旨在構(gòu)建一種能夠用自然語言與人類交流并在真實 3D 環(huán)境中自主導(dǎo)航的具身智能體。自提出以來,VLN 越來越受到計算機視覺、自然語言處理和機器人等領(lǐng)域的廣泛關(guān)注。 如圖 1 所示,將自然語言指令中提過的標(biāo)志物(物體或者場景)對應(yīng)到環(huán)境中能夠極大的幫助智能體理解環(huán)境和指令,由此跨模態(tài)對齊是 VLN 中的關(guān)鍵步驟。然而,大多數(shù)可用的數(shù)據(jù)集只能提供粗粒度的文本-圖像對齊信號,比如整條指令與整條軌跡的對應(yīng)或者子指令與子路徑之間的對應(yīng),而跨模態(tài)對齊監(jiān)督也都停留在句子級別(sentence-level)。因此,VLN 需要更細(xì)粒度(entity-level)的跨模態(tài)對齊數(shù)據(jù)和監(jiān)督方法以促進(jìn)智能體更準(zhǔn)確地導(dǎo)航。
為解決以上問題,我們提出了一種面向 VLN 的實體-標(biāo)志物自適應(yīng)預(yù)訓(xùn)練方法,主要工作與貢獻(xiàn)如下:
1. 我們基于 Room-to-Room(R2R)數(shù)據(jù)集 [1] 標(biāo)注實體-標(biāo)志物對齊,構(gòu)建了第一個帶有高質(zhì)量實體-標(biāo)志物對齊標(biāo)注的 VLN 數(shù)據(jù)集,命名為 GEL-R2R;
2. 我們提出一種實體-標(biāo)志物自適應(yīng)預(yù)訓(xùn)練 (Grounded Entity-Landmark Adaptive,GELA) 方法,利用 GEL-R2R 數(shù)據(jù)集顯式監(jiān)督 VLN 模型學(xué)習(xí)實體名詞和環(huán)境標(biāo)志物之間的細(xì)粒度跨模態(tài)對齊;
3. 我們構(gòu)建的 GELA 模型在兩個 VLN 下游任務(wù)上取得了最佳的導(dǎo)航性能,證明了我們數(shù)據(jù)集和方法的有效性和泛化性。

GEL-R2R數(shù)據(jù)集
為了建立指令中實體短語與其周圍環(huán)境中相應(yīng)標(biāo)志物之間的對齊,我們在 R2R 數(shù)據(jù)集的基礎(chǔ)上進(jìn)行了實體-標(biāo)志物對齊的人工標(biāo)注,整個流程包括五個階段:
1. 原始數(shù)據(jù)準(zhǔn)備。我們從 Matterport3D 模擬器中采集每個可導(dǎo)航點的全景圖。為了提高標(biāo)注的效率和準(zhǔn)確性,我們在全景圖中標(biāo)注下一個動作方向,并根據(jù) FG-R2R 數(shù)據(jù)集 [2] 將每個全景圖與相應(yīng)的子指令進(jìn)行對應(yīng);
2. 標(biāo)注工具開發(fā)。我們基于 Label-Studio 開發(fā)了一個跨模態(tài)標(biāo)注平臺,如圖 2 所示;
3. 標(biāo)注指南建立。為確保標(biāo)注的一致性,我們經(jīng)過預(yù)標(biāo)注之后建立了四個準(zhǔn)則來標(biāo)準(zhǔn)化標(biāo)注指南:
-
對齊準(zhǔn)則:指令中的實體短語應(yīng)與全景圖中的標(biāo)志物準(zhǔn)確匹配
-
自由文本準(zhǔn)則:標(biāo)注自由文本而不是類別
-
文本共指準(zhǔn)則:指代相同標(biāo)志物的實體短語用相同的標(biāo)簽標(biāo)注
-
唯一標(biāo)志物準(zhǔn)則:對于一個實體短語,在全景圖中只應(yīng)標(biāo)注一個對應(yīng)的標(biāo)志物
4. 數(shù)據(jù)標(biāo)注與修訂;
5. 數(shù)據(jù)整合與處理。


GELA方法

如圖 4 所示,方法流程分為三個階段:預(yù)訓(xùn)練(pre-training)、自適應(yīng)預(yù)訓(xùn)練(adaptive pre-training)和微調(diào)(fine-tuning)。我們直接在預(yù)訓(xùn)練模型 HAMT [3] 的基礎(chǔ)上進(jìn)行自適應(yīng)預(yù)訓(xùn)練,HAMT 模型由文本編碼器、圖像編碼器、歷史編碼器和跨模態(tài)編碼器構(gòu)成。我們將跨模態(tài)編碼器輸出的文本向量、歷史向量和圖像向量分別記為 Z、Y 和 S。我們設(shè)計了三種自適應(yīng)預(yù)訓(xùn)練任務(wù):
1. 實體短語預(yù)測。在這個任務(wù)中,我們通過標(biāo)注的環(huán)境標(biāo)志物預(yù)測其對應(yīng)的實體短語在指令中的位置。首先將人工標(biāo)注的實體位置轉(zhuǎn)化為 L+1 維的掩碼向量 (與 維度相同),并將人工標(biāo)注的標(biāo)志物邊界框轉(zhuǎn)化為 37 維的掩碼向量 (與 維度相同)。然后,我們將標(biāo)志物圖像 patch 的特征平均化,并將其輸入一個兩層前饋網(wǎng)絡(luò)(Feedforward Network, FFN)中,預(yù)測指令序列中 token 位置的概率分布,用掩碼向量 作監(jiān)督,具體損失函數(shù)為:


實驗結(jié)果
如圖 5 所示,GELA 模型在 R2R 數(shù)據(jù)集上與先前 SOTA 模型的性能進(jìn)行比較。GELA 模型在所有子集上的主要指標(biāo)(SR 和 SPL)均優(yōu)于所有其他模型。具體地,在已知驗證集上,GELA 的性能與 HAMT 模型相當(dāng),而在未知驗證集和測試集上,GELA 模型分別取得了 5% 、2% (SR) 和 4% 、2% (SPL) 的提高。因此,GELA 模型具有更好的未知環(huán)境泛化能力,這主要是由于 GELA 模型在學(xué)習(xí)實體-標(biāo)志物對齊后,具有較強的語義特征捕捉能力。


參考文獻(xiàn)
[1] Peter Anderson, Qi Wu, Damien Teney, Jake Bruce, Mark Johnson, Niko S ? underhauf, Ian D. Reid, Stephen Gould, and Anton van den Hengel. Vision-and-language navigation: Interpreting visually-grounded navigation instructions in real environments. In CVPR, pages 3674–3683, 2018.
[2] Yicong Hong, Cristian Rodriguez Opazo, Qi Wu, and Stephen Gould. Sub-instruction aware vision-and-language navigation. In EMNLP, pages 3360–3376, 2020.
[3] Shizhe Chen, Pierre-Louis Guhur, Cordelia Schmid, and Ivan Laptev. History aware multimodal transformer for vision-and-language navigation. In NeurIPS, pages 58345847, 2021.
·
原文標(biāo)題:ICCV 2023 | 面向視覺-語言導(dǎo)航的實體-標(biāo)志物對齊自適應(yīng)預(yù)訓(xùn)練方法
文章出處:【微信公眾號:智能感知與物聯(lián)網(wǎng)技術(shù)研究所】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
-
物聯(lián)網(wǎng)
+關(guān)注
關(guān)注
2938文章
46912瀏覽量
402336
原文標(biāo)題:ICCV 2023 | 面向視覺-語言導(dǎo)航的實體-標(biāo)志物對齊自適應(yīng)預(yù)訓(xùn)練方法
文章出處:【微信號:tyutcsplab,微信公眾號:智能感知與物聯(lián)網(wǎng)技術(shù)研究所】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
基于FPGA LMS算法的自適應(yīng)濾波器設(shè)計

無刷直流電機雙閉環(huán)模糊自適應(yīng)控制方法研究
暨南大學(xué):鐵電極化調(diào)控的自供電、高靈敏PEC型腫瘤標(biāo)志物傳感技術(shù)

格靈深瞳六篇論文入選ICCV 2025
永磁同步電機自適應(yīng)高階滑模Type-2模糊控制
用PaddleNLP為GPT-2模型制作FineWeb二進(jìn)制預(yù)訓(xùn)練數(shù)據(jù)集

GLAD應(yīng)用:大氣像差與自適應(yīng)光學(xué)
用PaddleNLP在4060單卡上實踐大模型預(yù)訓(xùn)練技術(shù)

騰訊公布大語言模型訓(xùn)練新專利
基于自適應(yīng)優(yōu)化的高速交叉矩陣設(shè)計
《具身智能機器人系統(tǒng)》第7-9章閱讀心得之具身智能機器人與大模型
基于視覺語言模型的導(dǎo)航框架VLMnav
LLM和傳統(tǒng)機器學(xué)習(xí)的區(qū)別
AGV激光導(dǎo)航定位技術(shù)與構(gòu)建地圖

評論