国产高清视频一区三区嫩模,精品久久久久久久久久久97,国产丝袜一区二区三区

視覺-語言導(dǎo)航任務(wù)（Vision-Language Navigation， VLN）是指在陌生環(huán)境中，無人系統(tǒng)依據(jù)語言指示和觀測圖像之間的跨模態(tài)匹配信息，進(jìn)行自主智能路徑導(dǎo)航的方法。不同于前進(jìn)、后退等簡單操控指令，VLN采用類似人人交互的語言指示，比如“走出右側(cè)大門，穿過臥室和客廳，在綠色地毯上的餐桌旁停下”。VLN是一種新型的跨模態(tài)智能人機交互方法，能夠極大地提升無人系統(tǒng)的自主能力，能夠為無人系統(tǒng)走向?qū)嵱锰峁╆P(guān)鍵技術(shù)支撐。

序列到序列（Sequence to Sequence， Seq2Seq）模型是VLN最常見的模型之一。Seq2Seq首先對語言指令進(jìn)行序列編碼，再根據(jù)逐步觀測的視覺圖像，進(jìn)行序列移動方向預(yù)測解碼，從而實現(xiàn)智能導(dǎo)航。最新的研究表明：在解碼時，利用Beam-Search進(jìn)行多條路徑探索，通過路徑評價函數(shù)獲得最優(yōu)導(dǎo)航路徑，可以獲得更好的導(dǎo)航精度。但現(xiàn)有工作使用的路徑評價函數(shù)是由局部方向選擇算子組合構(gòu)建的，在全局多條路徑對比上能力不足，可能會出現(xiàn)嚴(yán)重偏差，如圖1。

圖1 VLN分?jǐn)?shù)偏差問題示例

為了解決該問題，軍事科學(xué)院國防科技創(chuàng)新研究院智能人機交互團隊設(shè)計了新型全局路徑評估函數(shù)，提出了一種全局對比訓(xùn)練的策略，大幅提升了VLN的導(dǎo)航精度。相關(guān)論文《Vision-Language Navigation with Beam-Constrained Global Normalization》已被國際知名期刊 IEEE Transactions on Neural Networks and Learning Systems錄用；該論文在提交時，算法性能在公開VLN數(shù)據(jù)集R2R（Room-to-Room）上排名第一。

榜單地址：https://eval.ai/web/challenges/challenge-page/97/leaderboard/270

主要工作與貢獻(xiàn)該論文提出了一種基于全局對比訓(xùn)練的視覺-語言導(dǎo)航方法，可以對候選路徑進(jìn)行跨模態(tài)全局匹配評估。不同于傳統(tǒng)方法，該論文主要聚集在如何利用正確路徑和錯誤路徑進(jìn)行對比訓(xùn)練，獲得較優(yōu)的全局語言-路徑匹配評估函數(shù)，有效提升VLN的導(dǎo)航精度。論文算法框架可以分為兩個部分：（1）Baseline：Seq2Seq模型，基于局部訓(xùn)練的序列動作預(yù)測，用于訓(xùn)練語言-路徑匹配的局部評估函數(shù)；（2）全局對比訓(xùn)練模型：基于全局對比訓(xùn)練的全局評估函數(shù)。在測試時，將局部評估函數(shù)和全局評估函數(shù)進(jìn)行結(jié)合，實現(xiàn)高精度的導(dǎo)航路徑預(yù)測，如圖2所示。

圖2 基于全局對比訓(xùn)練的VLN框架

A Baseline 如圖2所示，該論文選擇Seq2Seq模型作為Baseline，首先將語言信息進(jìn)行編碼，再基于視覺信息進(jìn)行動作預(yù)測解碼。語言編碼：利用LSTM對輸入的自然語言文本進(jìn)行編碼，獲得文本指令的特征向量。視覺編碼：利用ResNet-152對觀測圖像進(jìn)行特征提取，結(jié)合運動方向特征進(jìn)行視覺編碼。動作預(yù)測：采用Seq2Seq模型進(jìn)行動作解碼，獲得序列導(dǎo)航動作。進(jìn)度監(jiān)視器：作為一項必不可少的輔助推理任務(wù)，進(jìn)度監(jiān)視器可以提供來自環(huán)境的額外訓(xùn)練信息。訓(xùn)練：局部對比訓(xùn)練，只考慮當(dāng)前環(huán)境及下一步動作。局部評估函數(shù)：通過將局部方向選擇概率值累加，獲得整個路徑與描述語言的匹配度。B 基于Beam-Search的全局對比訓(xùn)練策略

Baseline將一個路徑的匹配度計算分解為單步方向選擇得分累加，由于單步方向得分是單獨計算的，沒有明確涵蓋全局信息，因此將Baseline評估函數(shù)稱為局部評估函數(shù)。由于局部評估函數(shù)沒有從全局視角考慮路徑和語言的匹配度，所以局部得分累加的方式容易出現(xiàn)匹配錯誤，為了緩解這一問題，本文提出了明確的全局匹配評估函數(shù)，并設(shè)計了全局訓(xùn)練策略進(jìn)行優(yōu)化訓(xùn)練，從而獲得高效的全局匹配評估函數(shù)。

具體來說，本文訓(xùn)練了一個全局評估子模型，主要用來進(jìn)行路徑-語言全局匹配評估，從而使得不同路徑的評估得分更加具有可比性。

圖3 深度多模態(tài)相似性模塊和speaker模塊示意圖

DMSM模塊：計算語言的整體描述特征與路徑視覺的整體描述特征之間的距離；距離越近，則路徑和語言越匹配。Speaker模塊：根據(jù)路徑反向生成指令語言的概率，是VLN的逆命題，可以反映全局路徑和語言的匹配度。全局對比訓(xùn)練：在訓(xùn)練時，利用Beam-Search搜索出多條正確路徑和多條錯誤路徑，設(shè)計對比損失函數(shù)，使得正確路徑得分高于錯誤路徑，可以有效地對全局評估模塊DMSM和Speaker模塊進(jìn)行訓(xùn)練。全局評估函數(shù)：在測試時，對于任意一對路徑和語言，分別利用DMSM和Speaker模塊對二者之間的匹配度進(jìn)行計算，通過線性疊加，可以獲得該路徑的全局評估得分。

實驗結(jié)果算法的測試是在VLN公開數(shù)據(jù)集上進(jìn)行的。本文對比了多個現(xiàn)有經(jīng)典VLN算法，實驗結(jié)果表明，本文提出的算法導(dǎo)航精度比Baseline高出13%，顯著度較高；在同期VLN算法的導(dǎo)航精度最高，證明了本文算法的有效性。

總結(jié)與展望本研究提出了一種 VLN 全局對比訓(xùn)練方法，用于緩解現(xiàn)有局部評估函數(shù)在全局路徑-語言匹配評估方面的不足。該方法核心要點是如何從錯誤路徑/負(fù)樣本中學(xué)到有用的信息，這是現(xiàn)有其他VLN算法關(guān)注較少的地方，也是本文的落腳點，實驗結(jié)果表明了本文方法的有效性。

最近，通過視覺-語言跨模態(tài)預(yù)訓(xùn)練模型在VLN中性能表現(xiàn)優(yōu)越，比如VLN BERT，相對于傳統(tǒng)LSTM模型，預(yù)訓(xùn)練能夠獲得更多的先驗知識，能夠為VLN提供更魯棒的基礎(chǔ)框架，本文未來工作將在VLN BERT等預(yù)訓(xùn)練模型的基礎(chǔ)上，進(jìn)一步利用全局對比訓(xùn)練方法，實現(xiàn)更高效的VLN算法。

原文標(biāo)題：VLN：基于全局對比訓(xùn)練的視覺-語言導(dǎo)航方法

文章出處：【微信公眾號：深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

審核編輯：彭靜

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴