久久久婷婷五月影视导航,国产丝袜,久久777国产线看观免费直播

本文是 ICCV 2023 入選 Oral 論文 Grounded Entity-Landmark Adaptive Pre-training for Vision-and-Language Navigation 的解讀。本論文是某智能人機交互團(tuán)隊在視覺-語言導(dǎo)航（Vision-and-Language Navigation, VLN）領(lǐng)域的最新工作。該工作構(gòu)建了 VLN 中首個帶有高質(zhì)量實體-標(biāo)志物對齊標(biāo)注的數(shù)據(jù)集，并提出實體-標(biāo)志物對齊的自適應(yīng)預(yù)訓(xùn)練方法，從而顯著提高了智能體的導(dǎo)航性能。

ICCV 是“計算機視覺三大頂級會議”之一，ICCV 2023 于今年 10 月 2 日至 6 日在法國巴黎舉行，本屆會議共收到全球 8260 篇論文投稿，2161 篇被接收，接收率為 26.16%，其中 152 篇論文被選為口頭報告展示（Oral Presentation），Oral 接收率僅為 1.8%。

論文題目：

Grounded Entity-Landmark Adaptive Pre-training for Vision-and-Language Navigation

論文地址：

https://arxiv.org/abs/2308.12587

開源數(shù)據(jù)集：

https://pan.baidu.com/s/12WTzZ05T8Uxy85znn28dfQ?pwd=64t7

代碼地址：

https://github.com/csir1996/vln-gela

引言

視覺-語言導(dǎo)航（Vision-and-Language Navigation, VLN）任務(wù)旨在構(gòu)建一種能夠用自然語言與人類交流并在真實 3D 環(huán)境中自主導(dǎo)航的具身智能體。自提出以來，VLN 越來越受到計算機視覺、自然語言處理和機器人等領(lǐng)域的廣泛關(guān)注。如圖 1 所示，將自然語言指令中提過的標(biāo)志物（物體或者場景）對應(yīng)到環(huán)境中能夠極大的幫助智能體理解環(huán)境和指令，由此跨模態(tài)對齊是 VLN 中的關(guān)鍵步驟。然而，大多數(shù)可用的數(shù)據(jù)集只能提供粗粒度的文本-圖像對齊信號，比如整條指令與整條軌跡的對應(yīng)或者子指令與子路徑之間的對應(yīng)，而跨模態(tài)對齊監(jiān)督也都停留在句子級別（sentence-level）。因此，VLN 需要更細(xì)粒度（entity-level）的跨模態(tài)對齊數(shù)據(jù)和監(jiān)督方法以促進(jìn)智能體更準(zhǔn)確地導(dǎo)航。

為解決以上問題，我們提出了一種面向 VLN 的實體-標(biāo)志物自適應(yīng)預(yù)訓(xùn)練方法，主要工作與貢獻(xiàn)如下：

1. 我們基于 Room-to-Room（R2R）數(shù)據(jù)集 [1] 標(biāo)注實體-標(biāo)志物對齊，構(gòu)建了第一個帶有高質(zhì)量實體-標(biāo)志物對齊標(biāo)注的 VLN 數(shù)據(jù)集，命名為 GEL-R2R；

2. 我們提出一種實體-標(biāo)志物自適應(yīng)預(yù)訓(xùn)練 (Grounded Entity-Landmark Adaptive，GELA) 方法，利用 GEL-R2R 數(shù)據(jù)集顯式監(jiān)督 VLN 模型學(xué)習(xí)實體名詞和環(huán)境標(biāo)志物之間的細(xì)粒度跨模態(tài)對齊；

3. 我們構(gòu)建的 GELA 模型在兩個 VLN 下游任務(wù)上取得了最佳的導(dǎo)航性能，證明了我們數(shù)據(jù)集和方法的有效性和泛化性。

▲圖1. 具身智能體在3D真實環(huán)境中的導(dǎo)航示例

GEL-R2R數(shù)據(jù)集

為了建立指令中實體短語與其周圍環(huán)境中相應(yīng)標(biāo)志物之間的對齊，我們在 R2R 數(shù)據(jù)集的基礎(chǔ)上進(jìn)行了實體-標(biāo)志物對齊的人工標(biāo)注，整個流程包括五個階段：

1. 原始數(shù)據(jù)準(zhǔn)備。我們從 Matterport3D 模擬器中采集每個可導(dǎo)航點的全景圖。為了提高標(biāo)注的效率和準(zhǔn)確性，我們在全景圖中標(biāo)注下一個動作方向，并根據(jù) FG-R2R 數(shù)據(jù)集 [2] 將每個全景圖與相應(yīng)的子指令進(jìn)行對應(yīng)；

2. 標(biāo)注工具開發(fā)。我們基于 Label-Studio 開發(fā)了一個跨模態(tài)標(biāo)注平臺，如圖 2 所示；

3. 標(biāo)注指南建立。為確保標(biāo)注的一致性，我們經(jīng)過預(yù)標(biāo)注之后建立了四個準(zhǔn)則來標(biāo)準(zhǔn)化標(biāo)注指南：

對齊準(zhǔn)則：指令中的實體短語應(yīng)與全景圖中的標(biāo)志物準(zhǔn)確匹配
自由文本準(zhǔn)則：標(biāo)注自由文本而不是類別
文本共指準(zhǔn)則：指代相同標(biāo)志物的實體短語用相同的標(biāo)簽標(biāo)注
唯一標(biāo)志物準(zhǔn)則：對于一個實體短語，在全景圖中只應(yīng)標(biāo)注一個對應(yīng)的標(biāo)志物

4. 數(shù)據(jù)標(biāo)注與修訂；

5. 數(shù)據(jù)整合與處理。

▲圖2. GEL-R2R數(shù)據(jù)集標(biāo)注界面如圖 3 所示，GEL-R2R 數(shù)據(jù)集共包含：71467 個實體短語，其中訓(xùn)練集 57788 個，已見環(huán)境驗證集 4196 個，未見環(huán)境驗證集 9483 個；150183 個標(biāo)志物，其中訓(xùn)練集 121146 個，已見環(huán)境驗證集 8741 個，未見環(huán)境驗證集 20296 個。

▲圖3. GEL-R2R數(shù)據(jù)集統(tǒng)計分析

GELA方法

▲圖4. GELA方法概覽

如圖 4 所示，方法流程分為三個階段：預(yù)訓(xùn)練（pre-training）、自適應(yīng)預(yù)訓(xùn)練（adaptive pre-training）和微調(diào)（fine-tuning）。我們直接在預(yù)訓(xùn)練模型 HAMT [3] 的基礎(chǔ)上進(jìn)行自適應(yīng)預(yù)訓(xùn)練，HAMT 模型由文本編碼器、圖像編碼器、歷史編碼器和跨模態(tài)編碼器構(gòu)成。我們將跨模態(tài)編碼器輸出的文本向量、歷史向量和圖像向量分別記為 Z、Y 和 S。我們設(shè)計了三種自適應(yīng)預(yù)訓(xùn)練任務(wù)：

1. 實體短語預(yù)測。在這個任務(wù)中，我們通過標(biāo)注的環(huán)境標(biāo)志物預(yù)測其對應(yīng)的實體短語在指令中的位置。首先將人工標(biāo)注的實體位置轉(zhuǎn)化為 L+1 維的掩碼向量（與維度相同），并將人工標(biāo)注的標(biāo)志物邊界框轉(zhuǎn)化為 37 維的掩碼向量（與維度相同）。然后，我們將標(biāo)志物圖像 patch 的特征平均化，并將其輸入一個兩層前饋網(wǎng)絡(luò)（Feedforward Network, FFN）中，預(yù)測指令序列中 token 位置的概率分布，用掩碼向量作監(jiān)督，具體損失函數(shù)為：

2. 標(biāo)志物邊界框預(yù)測。在這個任務(wù)中，我們通過標(biāo)注的實體名詞預(yù)測其對應(yīng)的標(biāo)志物邊界框坐標(biāo)。首先平均實體短語 token 的特征向量，然后將其輸入兩層 FFN 和 Sigmoid 函數(shù)預(yù)測坐標(biāo) ：

最后，將人工標(biāo)注的 box=(x,y,w,h) 和 box’ 作 smooth-l1 損失和 GIoU 損失：

3. 實體-標(biāo)志物語義對齊。上述兩個單向預(yù)測任務(wù)使用位置信息來匹配實體和標(biāo)志物，而此任務(wù)在跨模態(tài)編碼器輸出端強制對齊相對應(yīng)的標(biāo)志物和實體的特征向量。這個任務(wù)的約束比上面兩個單向預(yù)測任務(wù)更強，因為它直接作用于表示，而不是僅僅基于位置信息。具體損失函數(shù)如下：

自適應(yīng)預(yù)訓(xùn)練最終的損失函數(shù)為：

經(jīng)過自適應(yīng)預(yù)訓(xùn)練后，我們利用模仿學(xué)習(xí) (Imitation Learning，IL) 和強化學(xué)習(xí) (Reinforcement Learning，RL) 訓(xùn)練策略對 GELA 模型在兩個 VLN 下游任務(wù)（R2R 和 CVDN）上進(jìn)行微調(diào)。IL 監(jiān)督智能體克隆專家的行為，RL 鼓勵智能體根據(jù)學(xué)習(xí)策略探索軌跡。

實驗結(jié)果

如圖 5 所示，GELA 模型在 R2R 數(shù)據(jù)集上與先前 SOTA 模型的性能進(jìn)行比較。GELA 模型在所有子集上的主要指標(biāo)（SR 和 SPL）均優(yōu)于所有其他模型。具體地，在已知驗證集上，GELA 的性能與 HAMT 模型相當(dāng)，而在未知驗證集和測試集上，GELA 模型分別取得了 5% 、2% (SR) 和 4% 、2% (SPL) 的提高。因此，GELA 模型具有更好的未知環(huán)境泛化能力，這主要是由于 GELA 模型在學(xué)習(xí)實體-標(biāo)志物對齊后，具有較強的語義特征捕捉能力。

▲ 圖5. R2R數(shù)據(jù)集上的性能對比我們同樣在 CVDN 數(shù)據(jù)集上對比了 GELA 模型與先前 SOTA 模型的性能，如圖 6 所示，該數(shù)據(jù)集使用以米為單位的目標(biāo)進(jìn)度 (Goal Progress，GP) 作為關(guān)鍵性能指標(biāo)。結(jié)果表明，GELA 模型在驗證集和測試集上的性能都明顯優(yōu)于其他模型。因此，GELA 模型對不同的 VLN 下游任務(wù)具有良好的泛化能力。

▲圖6. CVDN數(shù)據(jù)集上的性能對比

參考文獻(xiàn)

[1] Peter Anderson, Qi Wu, Damien Teney, Jake Bruce, Mark Johnson, Niko S ? underhauf, Ian D. Reid, Stephen Gould, and Anton van den Hengel. Vision-and-language navigation: Interpreting visually-grounded navigation instructions in real environments. In CVPR, pages 3674–3683, 2018.

[2] Yicong Hong, Cristian Rodriguez Opazo, Qi Wu, and Stephen Gould. Sub-instruction aware vision-and-language navigation. In EMNLP, pages 3360–3376, 2020.

[3] Shizhe Chen, Pierre-Louis Guhur, Cordelia Schmid, and Ivan Laptev. History aware multimodal transformer for vision-and-language navigation. In NeurIPS, pages 58345847, 2021.

原文標(biāo)題：ICCV 2023 | 面向視覺-語言導(dǎo)航的實體-標(biāo)志物對齊自適應(yīng)預(yù)訓(xùn)練方法

文章出處：【微信公眾號：智能感知與物聯(lián)網(wǎng)技術(shù)研究所】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

物聯(lián)網(wǎng)

物聯(lián)網(wǎng)

+關(guān)注

關(guān)注
2938

文章
46912

瀏覽量
402336

原文標(biāo)題：ICCV 2023 | 面向視覺-語言導(dǎo)航的實體-標(biāo)志物對齊自適應(yīng)預(yù)訓(xùn)練方法

文章出處：【微信號：tyutcsplab，微信公眾號：智能感知與物聯(lián)網(wǎng)技術(shù)研究所】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛兴趣闲谈,欧美亚洲精品 8区,国产精品久久久久精品免费

搜索歷史

ICCV 2023 | 面向視覺-語言導(dǎo)航的實體-標(biāo)志物對齊自適應(yīng)預(yù)訓(xùn)練方法