久久亚洲人成网站,國產高清色好看

MapDream

地圖不再是專家設(shè)計(jì)的產(chǎn)物

而是在任務(wù)目標(biāo)下學(xué)習(xí)出的決策參考

在視覺語言導(dǎo)航(VLN)中，地圖長(zhǎng)期作為獨(dú)立模塊構(gòu)建，并通過固定接口交由導(dǎo)航策略使用。無論是BEV網(wǎng)格、拓?fù)鋱D還是語義記憶模塊，這些表示大多脫離策略學(xué)習(xí)而設(shè)計(jì)。結(jié)果是，機(jī)器人即使掌握?qǐng)鼍暗男畔?，也仍可能繞行甚至偏離目標(biāo)，因?yàn)榈貓D中編碼的，并不一定是決定導(dǎo)航成功的關(guān)鍵信息。

我們認(rèn)為，VLN邁向長(zhǎng)期可靠決策的關(guān)鍵一步，是讓地圖表示進(jìn)入訓(xùn)練閉環(huán)，由任務(wù)目標(biāo)在學(xué)習(xí)階段主導(dǎo)其形成方式，而不再停留在固定規(guī)則或外部模塊的層面。

MapDream正是沿著這一方向提出的：我們將地圖構(gòu)建納入端到端訓(xùn)練框架，在大規(guī)模數(shù)據(jù)支撐下，通過監(jiān)督預(yù)訓(xùn)練與強(qiáng)化學(xué)習(xí)聯(lián)合微調(diào)，使空間表示在訓(xùn)練階段始終圍繞導(dǎo)航目標(biāo)展開，并與策略決策緊密耦合，從而形成真正服務(wù)于長(zhǎng)程指令執(zhí)行的核心中間表示。

? 論文題目：

MapDream: Task-Driven Map Learning for Vision-Language Navigation

?論文鏈接：

https://arxiv.org/abs/2602.00222

? 項(xiàng)目主頁：

https://horizonrobotics.github.io/robot_lab/mapdream

從專家設(shè)計(jì)到任務(wù)主導(dǎo)

傳統(tǒng)VLN系統(tǒng)中的地圖通常依賴專家規(guī)則或獨(dú)立建圖模塊生成，其語義與幾何結(jié)構(gòu)在訓(xùn)練過程中保持固定。導(dǎo)航策略只能被動(dòng)消費(fèi)這些表示，無法反向影響地圖該強(qiáng)調(diào)哪些空間線索。MapDream打破了這一結(jié)構(gòu)：我們?cè)诖笠?guī)模數(shù)據(jù)支撐下，將地圖構(gòu)建納入端到端訓(xùn)練框架，通過監(jiān)督預(yù)訓(xùn)練與強(qiáng)化學(xué)習(xí)聯(lián)合微調(diào)，使空間表示直接圍繞導(dǎo)航目標(biāo)學(xué)習(xí)。VLN中真正重要的，并非完整復(fù)原環(huán)境，而是為當(dāng)前任務(wù)生成最有價(jià)值的空間接口。

MapDream將地圖表示納入訓(xùn)練閉環(huán)，由任務(wù)直接塑造，而非專家預(yù)設(shè)。

在MapDream中，地圖被重新定義為一種可學(xué)習(xí)的中間表示。系統(tǒng)接收多幀單目觀測(cè)與自然語言指令，自回歸生成任務(wù)相關(guān)的BEV表示，僅保留三類與決策高度相關(guān)的要素——可通行結(jié)構(gòu)、目標(biāo)相關(guān)距離以及語義錨點(diǎn)。這種緊湊表達(dá)被輸入到VLN策略中用于多步動(dòng)作預(yù)測(cè)，并在強(qiáng)化學(xué)習(xí)階段與策略同步優(yōu)化，使最終得到的地圖分布與成功導(dǎo)航行為保持一致。

兩階段訓(xùn)練

讓地圖真正進(jìn)入學(xué)習(xí)閉環(huán)

MapDream采用兩階段訓(xùn)練流程，使地圖從專家先驗(yàn)出發(fā)，最終由任務(wù)目標(biāo)決定。

MapDream采用兩階段訓(xùn)練：先建立建圖—控制接口，再以強(qiáng)化學(xué)習(xí)聯(lián)合優(yōu)化，使地圖服務(wù)于導(dǎo)航?jīng)Q策而非幾何重建。

第一階段是監(jiān)督預(yù)訓(xùn)練。通過輕量化的任務(wù)驅(qū)動(dòng)BEV監(jiān)督，模型學(xué)習(xí)基礎(chǔ)空間抽象，同時(shí)訓(xùn)練策略學(xué)會(huì)使用這些地圖進(jìn)行決策，從而建立穩(wěn)定的“建圖—控制”接口。

第二階段是強(qiáng)化學(xué)習(xí)聯(lián)合微調(diào)。地圖模塊與VLN策略在統(tǒng)一導(dǎo)航獎(jiǎng)勵(lì)下同步更新。此時(shí)地圖不再僅追求幾何一致性，而是被任務(wù)回報(bào)直接牽引，系統(tǒng)性地調(diào)整為最有利于完成指令的空間表達(dá)。

通過這一閉環(huán)過程，地圖真正成為由任務(wù)目標(biāo)主導(dǎo)學(xué)習(xí)的核心表示。

任務(wù)決定地圖

改變機(jī)器人的導(dǎo)航方式

當(dāng)?shù)貓D表示進(jìn)入學(xué)習(xí)閉環(huán)后，機(jī)器人的行為模式發(fā)生了顯著變化。在長(zhǎng)程指令執(zhí)行中，它不再僅依賴局部觀測(cè)，而是借助生成的BEV抽象形成更穩(wěn)定的全局方向感。路徑更加貼近示范軌跡，回溯與繞行明顯減少，整體執(zhí)行呈現(xiàn)出更強(qiáng)的空間連貫性。

MapDream僅憑單目生成緊湊BEV地圖，緊貼真實(shí)路徑，優(yōu)于在模糊路口易偏離的無地圖基線。

在標(biāo)準(zhǔn)VLN基準(zhǔn)中，MapDream在單目設(shè)置下取得領(lǐng)先結(jié)果，并在跨數(shù)據(jù)集泛化與真實(shí)機(jī)器人實(shí)驗(yàn)中保持穩(wěn)定表現(xiàn)。這表明，由任務(wù)目標(biāo)塑造的地圖能夠捕捉具有遷移性的空間結(jié)構(gòu)，而不僅僅適配單一環(huán)境。

在R2R-CE與RxR-CE Val-Unseen上，MapDream單目性能最佳，路徑效率優(yōu)于全景方法。

總結(jié)與展望

MapDream重新界定了視覺語言導(dǎo)航中“地圖”的角色。它不再是專家規(guī)則主導(dǎo)的靜態(tài)模塊，而是一種在訓(xùn)練階段由任務(wù)目標(biāo)塑造、并與決策系統(tǒng)端到端耦合的生成式空間接口。機(jī)器人在決定“下一步往哪走”之前，先通過地圖理解當(dāng)前最關(guān)鍵的空間關(guān)系，從而形成更高效、更穩(wěn)定的長(zhǎng)程決策能力。

未來，我們希望將這一任務(wù)驅(qū)動(dòng)地圖學(xué)習(xí)范式擴(kuò)展到更長(zhǎng)期的空間記憶、更復(fù)雜的交互任務(wù)以及真實(shí)環(huán)境中的自主探索，為具身智能構(gòu)建真正以任務(wù)目標(biāo)為核心的空間認(rèn)知系統(tǒng)。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴