chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

如何實現(xiàn)更高效的VLN算法

深度學(xué)習(xí)自然語言處理 ? 來源:CAAI認(rèn)知系統(tǒng)與信息處理專 ? 作者:CAAI認(rèn)知系統(tǒng)與信息 ? 2022-07-13 14:54 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

視覺-語言導(dǎo)航任務(wù)(Vision-Language Navigation, VLN)是指在陌生環(huán)境中,無人系統(tǒng)依據(jù)語言指示和觀測圖像之間的跨模態(tài)匹配信息,進(jìn)行自主智能路徑導(dǎo)航的方法。不同于前進(jìn)、后退等簡單操控指令,VLN采用類似人人交互的語言指示,比如“走出右側(cè)大門,穿過臥室和客廳,在綠色地毯上的餐桌旁停下”。VLN是一種新型的跨模態(tài)智能人機交互方法,能夠極大地提升無人系統(tǒng)的自主能力,能夠為無人系統(tǒng)走向?qū)嵱锰峁╆P(guān)鍵技術(shù)支撐。

序列到序列(Sequence to Sequence, Seq2Seq)模型是VLN最常見的模型之一。Seq2Seq首先對語言指令進(jìn)行序列編碼,再根據(jù)逐步觀測的視覺圖像,進(jìn)行序列移動方向預(yù)測解碼,從而實現(xiàn)智能導(dǎo)航。最新的研究表明:在解碼時,利用Beam-Search進(jìn)行多條路徑探索,通過路徑評價函數(shù)獲得最優(yōu)導(dǎo)航路徑,可以獲得更好的導(dǎo)航精度。但現(xiàn)有工作使用的路徑評價函數(shù)是由局部方向選擇算子組合構(gòu)建的,在全局多條路徑對比上能力不足,可能會出現(xiàn)嚴(yán)重偏差,如圖1。

d1536476-01c9-11ed-ba43-dac502259ad0.png

圖1 VLN分?jǐn)?shù)偏差問題示例

為了解決該問題,軍事科學(xué)院國防科技創(chuàng)新研究院智能人機交互團隊設(shè)計了新型全局路徑評估函數(shù),提出了一種全局對比訓(xùn)練的策略,大幅提升了VLN的導(dǎo)航精度。相關(guān)論文《Vision-Language Navigation with Beam-Constrained Global Normalization》已被國際知名期刊 IEEE Transactions on Neural Networks and Learning Systems錄用;該論文在提交時,算法性能在公開VLN數(shù)據(jù)集R2R(Room-to-Room)上排名第一。

d16cc222-01c9-11ed-ba43-dac502259ad0.jpg

榜單地址:https://eval.ai/web/challenges/challenge-page/97/leaderboard/270

主要工作與貢獻(xiàn)該論文提出了一種基于全局對比訓(xùn)練的視覺-語言導(dǎo)航方法,可以對候選路徑進(jìn)行跨模態(tài)全局匹配評估。不同于傳統(tǒng)方法,該論文主要聚集在如何利用正確路徑和錯誤路徑進(jìn)行對比訓(xùn)練,獲得較優(yōu)的全局語言-路徑匹配評估函數(shù),有效提升VLN的導(dǎo)航精度。論文算法框架可以分為兩個部分:(1)Baseline:Seq2Seq模型,基于局部訓(xùn)練的序列動作預(yù)測,用于訓(xùn)練語言-路徑匹配的局部評估函數(shù);(2)全局對比訓(xùn)練模型:基于全局對比訓(xùn)練的全局評估函數(shù)。在測試時,將局部評估函數(shù)和全局評估函數(shù)進(jìn)行結(jié)合,實現(xiàn)高精度的導(dǎo)航路徑預(yù)測,如圖2所示。

d1a03f94-01c9-11ed-ba43-dac502259ad0.png

圖2 基于全局對比訓(xùn)練的VLN框架

A Baseline 如圖2所示,該論文選擇Seq2Seq模型作為Baseline,首先將語言信息進(jìn)行編碼,再基于視覺信息進(jìn)行動作預(yù)測解碼。語言編碼:利用LSTM對輸入的自然語言文本進(jìn)行編碼,獲得文本指令的特征向量。視覺編碼:利用ResNet-152對觀測圖像進(jìn)行特征提取,結(jié)合運動方向特征進(jìn)行視覺編碼。動作預(yù)測:采用Seq2Seq模型進(jìn)行動作解碼,獲得序列導(dǎo)航動作。進(jìn)度監(jiān)視器:作為一項必不可少的輔助推理任務(wù),進(jìn)度監(jiān)視器可以提供來自環(huán)境的額外訓(xùn)練信息。訓(xùn)練:局部對比訓(xùn)練,只考慮當(dāng)前環(huán)境及下一步動作。局部評估函數(shù):通過將局部方向選擇概率值累加,獲得整個路徑與描述語言的匹配度。B 基于Beam-Search的全局對比訓(xùn)練策略

Baseline將一個路徑的匹配度計算分解為單步方向選擇得分累加,由于單步方向得分是單獨計算的,沒有明確涵蓋全局信息,因此將Baseline評估函數(shù)稱為局部評估函數(shù)。由于局部評估函數(shù)沒有從全局視角考慮路徑和語言的匹配度,所以局部得分累加的方式容易出現(xiàn)匹配錯誤,為了緩解這一問題,本文提出了明確的全局匹配評估函數(shù),并設(shè)計了全局訓(xùn)練策略進(jìn)行優(yōu)化訓(xùn)練,從而獲得高效的全局匹配評估函數(shù)。

具體來說,本文訓(xùn)練了一個全局評估子模型,主要用來進(jìn)行路徑-語言全局匹配評估,從而使得不同路徑的評估得分更加具有可比性。

d1b792b6-01c9-11ed-ba43-dac502259ad0.png

圖3 深度多模態(tài)相似性模塊和speaker模塊示意圖

DMSM模塊:計算語言的整體描述特征與路徑視覺的整體描述特征之間的距離;距離越近,則路徑和語言越匹配。Speaker模塊:根據(jù)路徑反向生成指令語言的概率,是VLN的逆命題,可以反映全局路徑和語言的匹配度。全局對比訓(xùn)練:在訓(xùn)練時,利用Beam-Search搜索出多條正確路徑和多條錯誤路徑,設(shè)計對比損失函數(shù),使得正確路徑得分高于錯誤路徑,可以有效地對全局評估模塊DMSM和Speaker模塊進(jìn)行訓(xùn)練。全局評估函數(shù):在測試時,對于任意一對路徑和語言,分別利用DMSM和Speaker模塊對二者之間的匹配度進(jìn)行計算,通過線性疊加,可以獲得該路徑的全局評估得分。

實驗結(jié)果算法的測試是在VLN公開數(shù)據(jù)集上進(jìn)行的。本文對比了多個現(xiàn)有經(jīng)典VLN算法,實驗結(jié)果表明,本文提出的算法導(dǎo)航精度比Baseline高出13%,顯著度較高;在同期VLN算法的導(dǎo)航精度最高,證明了本文算法的有效性。

d1cca2fa-01c9-11ed-ba43-dac502259ad0.png

總結(jié)與展望本研究提出了一種 VLN 全局對比訓(xùn)練方法,用于緩解現(xiàn)有局部評估函數(shù)在全局路徑-語言匹配評估方面的不足。該方法核心要點是如何從錯誤路徑/負(fù)樣本中學(xué)到有用的信息,這是現(xiàn)有其他VLN算法關(guān)注較少的地方,也是本文的落腳點,實驗結(jié)果表明了本文方法的有效性。

最近,通過視覺-語言跨模態(tài)預(yù)訓(xùn)練模型在VLN中性能表現(xiàn)優(yōu)越,比如VLN BERT,相對于傳統(tǒng)LSTM模型,預(yù)訓(xùn)練能夠獲得更多的先驗知識,能夠為VLN提供更魯棒的基礎(chǔ)框架,本文未來工作將在VLN BERT等預(yù)訓(xùn)練模型的基礎(chǔ)上,進(jìn)一步利用全局對比訓(xùn)練方法,實現(xiàn)更高效的VLN算法。

原文標(biāo)題:VLN: 基于全局對比訓(xùn)練的視覺-語言導(dǎo)航方法

文章出處:【微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

審核編輯:彭靜
聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 智能導(dǎo)航
    +關(guān)注

    關(guān)注

    0

    文章

    25

    瀏覽量

    10141
  • 函數(shù)
    +關(guān)注

    關(guān)注

    3

    文章

    4406

    瀏覽量

    66877
  • 訓(xùn)練模型
    +關(guān)注

    關(guān)注

    1

    文章

    37

    瀏覽量

    4049

原文標(biāo)題:VLN: 基于全局對比訓(xùn)練的視覺-語言導(dǎo)航方法

文章出處:【微信號:zenRRan,微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    SM4算法實現(xiàn)分享(一)算法原理

    ,Xi、Yi、rki為字,i=0,1,2,…,31。則本算法的加密實現(xiàn)為: 本算法的解密實現(xiàn)與加密實現(xiàn)結(jié)構(gòu)是相同的,不同的只是提供的輪
    發(fā)表于 10-30 08:10

    Camellia算法實現(xiàn)(基于開源蜂鳥E203協(xié)處理器)

    項目構(gòu)想 我們一開始就選擇信息安全作為芯來杯比賽方向,并以Camellia算法作為算法原型。借助蜂鳥E203的協(xié)處理,能加速Camellia算法的運算,并通過比較軟件實現(xiàn)和硬件
    發(fā)表于 10-30 07:04

    復(fù)雜的軟件算法硬件IP核的實現(xiàn)

    具體方法與步驟 通過 C 語言實現(xiàn)軟件算法,并驗證了算法的有效性以后,就可以進(jìn)行算法的 HDL 轉(zhuǎn)化工作了。通過使用 Altium Designer 的 CHC 編譯器(C to H
    發(fā)表于 10-30 07:02

    線上研討會 | @9/23 Tinyswitch5不Tiny,擁有更高效、更高瓦更精簡的變頻反馳式架構(gòu)

    9月23日,大聯(lián)大詮鼎集團攜手PI將做客大大通直播間帶來“Tinyswitch5不Tiny,擁有更高效、更高瓦、更精簡的變頻反馳式架構(gòu)”主題研討會,邀您了解TinySwitch-5:更高效、更強
    的頭像 發(fā)表于 09-18 08:18 ?335次閱讀
    線上研討會 | @9/23 Tinyswitch5不Tiny,擁有<b class='flag-5'>更高效</b>、<b class='flag-5'>更高</b>瓦更精簡的變頻反馳式架構(gòu)

    高動態(tài)響應(yīng)云臺電機驅(qū)動電路設(shè)計及控制算法實現(xiàn)

    高動態(tài)響應(yīng)云臺馬達(dá)驅(qū)動方案電路設(shè)計及控制算法實現(xiàn)是當(dāng)前精密控制領(lǐng)域的重要研究方向,尤其在無人機、光電跟蹤、機器人等應(yīng)用場景中,對云臺的快速響應(yīng)能力和穩(wěn)定精度提出了更高要求。本文將圍繞驅(qū)動電路硬件設(shè)計和控制
    的頭像 發(fā)表于 08-14 17:59 ?850次閱讀

    基于FPGA實現(xiàn)FOC算法之PWM模塊設(shè)計

    哈嘍,大家好,從今天開始正式帶領(lǐng)大家從零到一,在FPGA平臺上實現(xiàn)FOC算法,整個算法的框架如下圖所示,如果大家對算法的原理不是特別清楚的話,可以先去百度上學(xué)習(xí)一下,本教程著重介紹
    的頭像 發(fā)表于 07-17 15:21 ?3146次閱讀
    基于FPGA<b class='flag-5'>實現(xiàn)</b>FOC<b class='flag-5'>算法</b>之PWM模塊設(shè)計

    基于FPGA的壓縮算法加速實現(xiàn)

    本設(shè)計中,計劃實現(xiàn)對文件的壓縮及解壓,同時優(yōu)化壓縮中所涉及的信號處理和計算密集型功能,實現(xiàn)對其的加速處理。本設(shè)計的最終目標(biāo)是證明在充分并行化的硬件體系結(jié)構(gòu) FPGA 上實現(xiàn)算法時,可
    的頭像 發(fā)表于 07-10 11:09 ?2111次閱讀
    基于FPGA的壓縮<b class='flag-5'>算法</b>加速<b class='flag-5'>實現(xiàn)</b>

    德國進(jìn)口自動換刀主軸 用于PCB切割分板更高效

    智能換刀系統(tǒng)與創(chuàng)新技術(shù)實現(xiàn)更高效分板,成為行業(yè)升級的新選擇。其產(chǎn)品包含氣動與電動兩大技術(shù)路線,針對不同加工需求提供精準(zhǔn)解決方案。
    的頭像 發(fā)表于 04-22 09:30 ?402次閱讀
    德國進(jìn)口自動換刀主軸 用于PCB切割分板<b class='flag-5'>更高效</b>

    光伏電站運維系統(tǒng)讓太陽能發(fā)電更高效

    ?????? 光伏電站運維系統(tǒng)讓太陽能發(fā)電更高效 ?????? 光伏電站運維系統(tǒng)是一套幫助管理太陽能發(fā)電站的技術(shù)工具,它的作用是讓電站運行更穩(wěn)定、發(fā)電更高效,同時減少人工維護(hù)的成本和麻煩。以下是它
    的頭像 發(fā)表于 03-28 16:22 ?799次閱讀
    光伏電站運維系統(tǒng)讓太陽能發(fā)電<b class='flag-5'>更高效</b>

    FOC 算法實現(xiàn)永磁同步電機調(diào)整指南

    本文檔介紹了使用 FOC 算法實現(xiàn)永磁同步電機 (Permanent Magnet SynchronousMotor,PMSM)調(diào)整所需的步驟和設(shè)置,該算法如 AN1078《PMSM 電機的無傳感器
    發(fā)表于 03-03 01:53

    中偉視界:解密AI智能攝像機算法,讓傳送帶跑偏檢測更高效!

    AI智能攝像機在傳輸帶跑偏檢測中展現(xiàn)出巨大潛力。通過本地檢測和靈活下發(fā)不同的AI算法,可以實現(xiàn)對跑偏故障的實時監(jiān)控,提升生產(chǎn)安全與效率。企業(yè)應(yīng)結(jié)合實際需求,選擇合適的攝像機和算法方案,推動工業(yè)自動化進(jìn)程。
    的頭像 發(fā)表于 02-28 11:12 ?1008次閱讀
    中偉視界:解密AI智能攝像機<b class='flag-5'>算法</b>,讓傳送帶跑偏檢測<b class='flag-5'>更高效</b>!

    PID控制算法的C語言實現(xiàn):PID算法原理

    在工業(yè)應(yīng)用中 PID 及其衍生算法是應(yīng)用最廣泛的算法之一,是當(dāng)之無愧的萬能算法,如果能夠熟練掌握 PID 算法的設(shè)計與實現(xiàn)過程,對于一般的研
    發(fā)表于 02-26 15:24

    解碼TW6501:ONFI 5.0協(xié)議如何令存儲通訊更高效

    解碼TW6501:ONFI 5.0協(xié)議如何令存儲通訊更高效
    的頭像 發(fā)表于 01-21 14:51 ?791次閱讀
    解碼TW6501:ONFI 5.0協(xié)議如何令存儲通訊<b class='flag-5'>更高效</b>

    risc-v芯片在電機領(lǐng)域的應(yīng)用展望

    具體應(yīng)用場景進(jìn)行靈活定制,從而實現(xiàn)更高效的控制算法和更優(yōu)化的性能表現(xiàn)。 此外,RISC-V芯片還支持多核架構(gòu),這使得電機控制系統(tǒng)能夠同時處理多個任務(wù),提高整體運行效率。在電機驅(qū)動方面,多核架構(gòu)能夠使得
    發(fā)表于 12-28 17:20

    機器人加裝電主軸【銑削、鉆孔、打磨、去毛刺】更高效

    機器人加裝高速電主軸,實現(xiàn)高精度高效加工,多功能應(yīng)用,減少人工依賴,成本低,材料適應(yīng)廣,環(huán)境友好,高效加工策略,提升制造業(yè)加工精度、效率和靈活性。
    的頭像 發(fā)表于 12-24 08:52 ?1058次閱讀
    機器人加裝電主軸【銑削、鉆孔、打磨、去毛刺】<b class='flag-5'>更高效</b>