chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

面向視覺語言導(dǎo)航的任務(wù)驅(qū)動(dòng)式地圖學(xué)習(xí)框架MapDream介紹

地平線HorizonRobotics ? 來源:地平線HorizonRobotics ? 2026-03-02 10:40 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

MapDream

地圖不再是專家設(shè)計(jì)的產(chǎn)物

而是在任務(wù)目標(biāo)下學(xué)習(xí)出的決策參考

在視覺語言導(dǎo)航(VLN)中,地圖長(zhǎng)期作為獨(dú)立模塊構(gòu)建,并通過固定接口交由導(dǎo)航策略使用。無論是BEV網(wǎng)格、拓?fù)鋱D還是語義記憶模塊,這些表示大多脫離策略學(xué)習(xí)而設(shè)計(jì)。結(jié)果是,機(jī)器人即使掌握?qǐng)鼍暗男畔?,也仍可能繞行甚至偏離目標(biāo),因?yàn)榈貓D中編碼的,并不一定是決定導(dǎo)航成功的關(guān)鍵信息。

我們認(rèn)為,VLN邁向長(zhǎng)期可靠決策的關(guān)鍵一步,是讓地圖表示進(jìn)入訓(xùn)練閉環(huán),由任務(wù)目標(biāo)在學(xué)習(xí)階段主導(dǎo)其形成方式,而不再停留在固定規(guī)則或外部模塊的層面。

MapDream正是沿著這一方向提出的:我們將地圖構(gòu)建納入端到端訓(xùn)練框架,在大規(guī)模數(shù)據(jù)支撐下,通過監(jiān)督預(yù)訓(xùn)練與強(qiáng)化學(xué)習(xí)聯(lián)合微調(diào),使空間表示在訓(xùn)練階段始終圍繞導(dǎo)航目標(biāo)展開,并與策略決策緊密耦合,從而形成真正服務(wù)于長(zhǎng)程指令執(zhí)行的核心中間表示。

? 論文題目

MapDream: Task-Driven Map Learning for Vision-Language Navigation

?論文鏈接

https://arxiv.org/abs/2602.00222

? 項(xiàng)目主頁:

https://horizonrobotics.github.io/robot_lab/mapdream

從專家設(shè)計(jì)到任務(wù)主導(dǎo)

傳統(tǒng)VLN系統(tǒng)中的地圖通常依賴專家規(guī)則或獨(dú)立建圖模塊生成,其語義與幾何結(jié)構(gòu)在訓(xùn)練過程中保持固定。導(dǎo)航策略只能被動(dòng)消費(fèi)這些表示,無法反向影響地圖該強(qiáng)調(diào)哪些空間線索。MapDream打破了這一結(jié)構(gòu):我們?cè)诖笠?guī)模數(shù)據(jù)支撐下,將地圖構(gòu)建納入端到端訓(xùn)練框架,通過監(jiān)督預(yù)訓(xùn)練與強(qiáng)化學(xué)習(xí)聯(lián)合微調(diào),使空間表示直接圍繞導(dǎo)航目標(biāo)學(xué)習(xí)。VLN中真正重要的,并非完整復(fù)原環(huán)境,而是為當(dāng)前任務(wù)生成最有價(jià)值的空間接口。

7a1e3ce6-130c-11f1-90a1-92fbcf53809c.png

MapDream將地圖表示納入訓(xùn)練閉環(huán),由任務(wù)直接塑造,而非專家預(yù)設(shè)。

在MapDream中,地圖被重新定義為一種可學(xué)習(xí)的中間表示。系統(tǒng)接收多幀單目觀測(cè)與自然語言指令,自回歸生成任務(wù)相關(guān)的BEV表示,僅保留三類與決策高度相關(guān)的要素——可通行結(jié)構(gòu)、目標(biāo)相關(guān)距離以及語義錨點(diǎn)。這種緊湊表達(dá)被輸入到VLN策略中用于多步動(dòng)作預(yù)測(cè),并在強(qiáng)化學(xué)習(xí)階段與策略同步優(yōu)化,使最終得到的地圖分布與成功導(dǎo)航行為保持一致。

兩階段訓(xùn)練

讓地圖真正進(jìn)入學(xué)習(xí)閉環(huán)

MapDream采用兩階段訓(xùn)練流程,使地圖從專家先驗(yàn)出發(fā),最終由任務(wù)目標(biāo)決定。

7a7b7f5a-130c-11f1-90a1-92fbcf53809c.png

MapDream采用兩階段訓(xùn)練:先建立建圖—控制接口,再以強(qiáng)化學(xué)習(xí)聯(lián)合優(yōu)化,使地圖服務(wù)于導(dǎo)航?jīng)Q策而非幾何重建。

第一階段是監(jiān)督預(yù)訓(xùn)練。通過輕量化的任務(wù)驅(qū)動(dòng)BEV監(jiān)督,模型學(xué)習(xí)基礎(chǔ)空間抽象,同時(shí)訓(xùn)練策略學(xué)會(huì)使用這些地圖進(jìn)行決策,從而建立穩(wěn)定的“建圖—控制”接口。

第二階段是強(qiáng)化學(xué)習(xí)聯(lián)合微調(diào)。地圖模塊與VLN策略在統(tǒng)一導(dǎo)航獎(jiǎng)勵(lì)下同步更新。此時(shí)地圖不再僅追求幾何一致性,而是被任務(wù)回報(bào)直接牽引,系統(tǒng)性地調(diào)整為最有利于完成指令的空間表達(dá)。

通過這一閉環(huán)過程,地圖真正成為由任務(wù)目標(biāo)主導(dǎo)學(xué)習(xí)的核心表示。

任務(wù)決定地圖

改變機(jī)器人的導(dǎo)航方式

當(dāng)?shù)貓D表示進(jìn)入學(xué)習(xí)閉環(huán)后,機(jī)器人的行為模式發(fā)生了顯著變化。在長(zhǎng)程指令執(zhí)行中,它不再僅依賴局部觀測(cè),而是借助生成的BEV抽象形成更穩(wěn)定的全局方向感。路徑更加貼近示范軌跡,回溯與繞行明顯減少,整體執(zhí)行呈現(xiàn)出更強(qiáng)的空間連貫性。

7ad8e2a8-130c-11f1-90a1-92fbcf53809c.png

MapDream僅憑單目生成緊湊BEV地圖,緊貼真實(shí)路徑,優(yōu)于在模糊路口易偏離的無地圖基線。

在標(biāo)準(zhǔn)VLN基準(zhǔn)中,MapDream在單目設(shè)置下取得領(lǐng)先結(jié)果,并在跨數(shù)據(jù)集泛化與真實(shí)機(jī)器人實(shí)驗(yàn)中保持穩(wěn)定表現(xiàn)。這表明,由任務(wù)目標(biāo)塑造的地圖能夠捕捉具有遷移性的空間結(jié)構(gòu),而不僅僅適配單一環(huán)境。

7b3cca2a-130c-11f1-90a1-92fbcf53809c.png

在R2R-CE與RxR-CE Val-Unseen上,MapDream單目性能最佳,路徑效率優(yōu)于全景方法。

總結(jié)與展望

MapDream重新界定了視覺語言導(dǎo)航中“地圖”的角色。它不再是專家規(guī)則主導(dǎo)的靜態(tài)模塊,而是一種在訓(xùn)練階段由任務(wù)目標(biāo)塑造、并與決策系統(tǒng)端到端耦合的生成式空間接口。機(jī)器人在決定“下一步往哪走”之前,先通過地圖理解當(dāng)前最關(guān)鍵的空間關(guān)系,從而形成更高效、更穩(wěn)定的長(zhǎng)程決策能力。

未來,我們希望將這一任務(wù)驅(qū)動(dòng)地圖學(xué)習(xí)范式擴(kuò)展到更長(zhǎng)期的空間記憶、更復(fù)雜的交互任務(wù)以及真實(shí)環(huán)境中的自主探索,為具身智能構(gòu)建真正以任務(wù)目標(biāo)為核心的空間認(rèn)知系統(tǒng)。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 機(jī)器人
    +關(guān)注

    關(guān)注

    213

    文章

    31060

    瀏覽量

    222125
  • 導(dǎo)航
    +關(guān)注

    關(guān)注

    7

    文章

    577

    瀏覽量

    43908
  • 地圖
    +關(guān)注

    關(guān)注

    0

    文章

    43

    瀏覽量

    13982

原文標(biāo)題:開發(fā)者說|MapDream:讓導(dǎo)航任務(wù)決定地圖如何生成,而不應(yīng)由專家預(yù)設(shè)

文章出處:【微信號(hào):horizonrobotics,微信公眾號(hào):地平線HorizonRobotics】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    iMLite AI Map 2.1 正式上線:智能穿戴迎來嵌入離線地圖導(dǎo)航新體驗(yàn)

    智能穿戴迎來嵌入離線地圖導(dǎo)航新體驗(yàn),在極小的資源占用下實(shí)現(xiàn)了完整的地圖功能,代碼空間控制在 80KB以內(nèi),運(yùn)行內(nèi)存僅需幾十KB,讓即使是配置受限的智能設(shè)備也能流暢運(yùn)行離線
    的頭像 發(fā)表于 12-01 10:26 ?1370次閱讀
    iMLite AI Map 2.1 正式上線:智能穿戴迎來嵌入<b class='flag-5'>式</b>離線<b class='flag-5'>地圖</b><b class='flag-5'>導(dǎo)航</b>新體驗(yàn)

    沒有地圖,純視覺自動(dòng)駕駛就只能摸瞎嗎?

    [首發(fā)于智駕最前沿微信公眾號(hào)]最近在一篇討論高精度地圖的文章中,有位小伙伴提到一個(gè)非常有趣的觀點(diǎn)“如果人在陌生的目的地,只依托純視覺(眼睛)去辨別道路,若沒有導(dǎo)航,就只能摸瞎”。對(duì)于純視覺
    的頭像 發(fā)表于 11-27 17:22 ?1450次閱讀
    沒有<b class='flag-5'>地圖</b>,純<b class='flag-5'>視覺</b>自動(dòng)駕駛就只能摸瞎嗎?

    地圖:自動(dòng)駕駛的“數(shù)字直覺“

    ,通過"學(xué)習(xí)"來"理解"道路環(huán)境。特斯拉的World Models、NVIDIA的CosMos、小鵬的WFM等創(chuàng)新方案,正在重新定義自動(dòng)駕駛系統(tǒng)的認(rèn)知方式。 隱地圖的"黑箱哲學(xué)" 從"地圖
    的頭像 發(fā)表于 11-19 09:26 ?450次閱讀
    隱<b class='flag-5'>式</b><b class='flag-5'>地圖</b>:自動(dòng)駕駛的“數(shù)字直覺“

    AGV視覺導(dǎo)航:智能物流的“智慧之眼”

    ? AGV 導(dǎo)航一直是智能小車AGV的核心技術(shù),磁條導(dǎo)航、激光導(dǎo)航、二維碼導(dǎo)航、自然導(dǎo)航等技術(shù)之后,最近,
    的頭像 發(fā)表于 11-04 15:54 ?558次閱讀
    AGV<b class='flag-5'>視覺</b><b class='flag-5'>導(dǎo)航</b>:智能物流的“智慧之眼”

    Aux-Think打破視覺語言導(dǎo)航任務(wù)的常規(guī)推理范式

    視覺語言導(dǎo)航(VLN)任務(wù)的核心挑戰(zhàn),是讓機(jī)器人在復(fù)雜環(huán)境中聽懂指令、看懂世界,并果斷行動(dòng)。我們系統(tǒng)性地引入推理任務(wù),探索其在
    的頭像 發(fā)表于 07-08 10:00 ?633次閱讀
    Aux-Think打破<b class='flag-5'>視覺</b><b class='flag-5'>語言</b><b class='flag-5'>導(dǎo)航</b><b class='flag-5'>任務(wù)</b>的常規(guī)推理范式

    UI開發(fā)概述

    使用UI開發(fā)框架開發(fā)應(yīng)用時(shí),主要涉及如下開發(fā)過程。開發(fā)者可以先通過第一個(gè)入門實(shí)例了解整個(gè)應(yīng)用的UI開發(fā)過程。 任務(wù)簡(jiǎn)介相關(guān)指導(dǎo)學(xué)習(xí)ArkTS介紹了ArkTS的基本語法、狀態(tài)管理和渲
    發(fā)表于 06-24 06:36

    鴻蒙5開發(fā)寶藏案例分享---一多開發(fā)實(shí)例(地圖導(dǎo)航

    案例!最近在肝鴻蒙項(xiàng)目時(shí)意外發(fā)現(xiàn)了這個(gè)地圖導(dǎo)航的\"一多\"開發(fā)實(shí)例,簡(jiǎn)直像發(fā)現(xiàn)新大陸!這就帶大家沉浸體驗(yàn)這個(gè)超實(shí)用的開發(fā)模板~ ? 先劃重點(diǎn):這個(gè)案例完美演示了如何用一套代碼搞定
    發(fā)表于 06-03 16:17

    高德地圖攜手雷鳥創(chuàng)新打造新一代AI+AR智能導(dǎo)航解決方案

    近日,高德地圖與雷鳥創(chuàng)新RayNeo宣布達(dá)成戰(zhàn)略合作,雙方將深度融合人工智能體和空間交互等前沿技術(shù)框架,共同打造新一代AI+AR智能導(dǎo)航解決方案。此次合作,標(biāo)志著高德空間計(jì)算引擎進(jìn)一步實(shí)現(xiàn)跨模態(tài)
    的頭像 發(fā)表于 05-26 16:01 ?721次閱讀

    詳細(xì)介紹機(jī)場(chǎng)智能指路機(jī)器人的工作原理

    ,在屏幕上顯示相關(guān)的文字信息、地圖導(dǎo)航圖和圖片等,以更直觀的方式向旅客展示指引內(nèi)容,方便旅客理解和查看。 運(yùn)動(dòng)系統(tǒng) 動(dòng)力驅(qū)動(dòng)與控制 :運(yùn)動(dòng)系統(tǒng)負(fù)責(zé)驅(qū)動(dòng)機(jī)器人在機(jī)場(chǎng)內(nèi)移動(dòng)。通常采用輪式
    發(fā)表于 05-10 18:26

    【「# ROS 2智能機(jī)器人開發(fā)實(shí)踐」閱讀體驗(yàn)】視覺實(shí)現(xiàn)的基礎(chǔ)算法的應(yīng)用

    閱讀心得體會(huì):ROS2機(jī)器人視覺地圖構(gòu)建技術(shù) 通過對(duì)本書第7章(ROS2視覺應(yīng)用)和第8章(ROS2地圖構(gòu)建)的學(xué)習(xí),我對(duì)機(jī)器人
    發(fā)表于 05-03 19:41

    【「# ROS 2智能機(jī)器人開發(fā)實(shí)踐」閱讀體驗(yàn)】+ROS2應(yīng)用案例

    這一部分內(nèi)容,我掌握了如何在ROS 2中實(shí)現(xiàn)SLAM,這對(duì)于提高機(jī)器人的自主導(dǎo)航能力具有重要意義。 其他內(nèi)容概述 除了二維碼識(shí)別和SLAM技術(shù),書中還介紹了其他視覺應(yīng)用和地圖構(gòu)建的內(nèi)
    發(fā)表于 04-27 11:42

    一種實(shí)時(shí)多線程VSLAM框架vS-Graphs介紹

    ,vSGraphs優(yōu)于當(dāng)前最先進(jìn)的VSLAM方法,在真實(shí)數(shù)據(jù)上平均降低3.38%的軌跡誤差,最大降幅達(dá)9.58%。同時(shí),所提出的框架還具有良好的可擴(kuò)展性,能夠處理大規(guī)模場(chǎng)景。此外,僅通過視覺特征,本框架實(shí)現(xiàn)的語義實(shí)體檢測(cè)精度即可
    的頭像 發(fā)表于 04-19 14:07 ?993次閱讀
    一種實(shí)時(shí)多線程VSLAM<b class='flag-5'>框架</b>vS-Graphs<b class='flag-5'>介紹</b>

    高德地圖推出全球首個(gè)AI導(dǎo)航智能體

    當(dāng)地圖導(dǎo)航與AI深度融合,一場(chǎng)關(guān)于出行效率與體驗(yàn)的革命,正在悄然發(fā)生。
    的頭像 發(fā)表于 04-15 17:01 ?1285次閱讀

    圓周率智能發(fā)布全新嵌入離線地圖引擎:小存儲(chǔ)大能量賦能多場(chǎng)景智能導(dǎo)航

    深圳,2023年3月26日——國(guó)家級(jí)高新技術(shù)企業(yè)深圳市圓周率智能信息科技有限公司(以下簡(jiǎn)稱“圓周率智能”)正式發(fā)布全新嵌入離線地圖引擎“iMLiteMap2.0”。該產(chǎn)品通過自研矢量壓縮算法,無需
    的頭像 發(fā)表于 03-26 16:35 ?1154次閱讀
    圓周率智能發(fā)布全新嵌入<b class='flag-5'>式</b>離線<b class='flag-5'>地圖</b>引擎:小存儲(chǔ)大能量賦能多場(chǎng)景智能<b class='flag-5'>導(dǎo)航</b>

    ?VLM(視覺語言模型)?詳細(xì)解析

    視覺語言模型(Visual Language Model, VLM)是一種結(jié)合視覺(圖像/視頻)和語言(文本)處理能力的多模態(tài)人工智能模型,能夠理解并生成與
    的頭像 發(fā)表于 03-17 15:32 ?8789次閱讀
    ?VLM(<b class='flag-5'>視覺</b><b class='flag-5'>語言</b>模型)?詳細(xì)解析