chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

Progress-Think框架賦能機(jī)器人首次實(shí)現(xiàn)語(yǔ)義進(jìn)展推理

地平線HorizonRobotics ? 來(lái)源:地平線HorizonRobotics ? 2025-12-03 09:27 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

Progress-Think

機(jī)器人首次實(shí)現(xiàn)語(yǔ)義進(jìn)展推理

標(biāo)簽在指令結(jié)構(gòu)中定位任務(wù)進(jìn)展

在視覺語(yǔ)言導(dǎo)航(VLN)中,機(jī)器人長(zhǎng)期缺乏一種關(guān)鍵能力:它能持續(xù)前進(jìn),卻無(wú)法判斷自己的任務(wù)推進(jìn)到了哪一步。導(dǎo)航在空間中不斷展開,畫面節(jié)節(jié)推進(jìn),但模型并不知道自己在自然語(yǔ)言指令里處于什么階段,因此容易漂移、兜圈,或做出難以解釋的決策。我們認(rèn)為,引入語(yǔ)義進(jìn)展推理,是破解長(zhǎng)程導(dǎo)航不穩(wěn)定性的關(guān)鍵路徑。

Progress-Think讓機(jī)器人第一次具備語(yǔ)義層面的“進(jìn)展坐標(biāo)系”。我們首次揭示了視覺觀測(cè)序列與指令語(yǔ)義之間的結(jié)構(gòu)性關(guān)聯(lián),并將其提煉為可學(xué)習(xí)的進(jìn)展信號(hào),使模型無(wú)需額外標(biāo)注即可學(xué)會(huì)思考:“我剛完成了什么”。通過(guò)自監(jiān)督的進(jìn)展對(duì)齊、進(jìn)展引導(dǎo)決策以及進(jìn)展一策略聯(lián)合微調(diào),僅憑單目相機(jī)輸入,模型就能顯著減少偏航并提升穩(wěn)定性。Progress-Think在R2R-CE等標(biāo)準(zhǔn)數(shù)據(jù)集上取得領(lǐng)先表現(xiàn),并進(jìn)一步推動(dòng)具身推理朝更明確的任務(wù)導(dǎo)向發(fā)展。

? 論文題目:

Progress-Think: Semantic Progress Reasoning for Vision-Language Navigation

? 論文鏈接:

https://arxiv.org/abs/2511.17097

?項(xiàng)目主頁(yè):

https://horizonrobotics.github.io/robot_lab/progress-think

從空間定位到進(jìn)展定位

在視覺語(yǔ)言導(dǎo)航 (VLN) 中,機(jī)器人往往只會(huì)執(zhí)行動(dòng)作,卻難以理解任務(wù)的推進(jìn)。它能在空間中持續(xù)移動(dòng),卻無(wú)法判斷指令走到了哪一步;視覺觀測(cè)不斷更新,但任務(wù)完成度可能在它的認(rèn)知里存在偏差。這種缺乏“語(yǔ)義位置感”的現(xiàn)象,使導(dǎo)航在遇到復(fù)雜場(chǎng)景時(shí)容易失去方向,出現(xiàn)漂移、兜圈或反復(fù)確認(rèn)等不穩(wěn)定行為。

視覺觀測(cè)與指令語(yǔ)義呈協(xié)同單調(diào)推進(jìn);即隨著觀測(cè)累積(上),匹配的指令前綴同步單調(diào)擴(kuò)展(下),后續(xù)進(jìn)展(紅)始終在早期進(jìn)展(藍(lán))上遞進(jìn)。

Progress-Think的核心洞見在于:視覺語(yǔ)言導(dǎo)航本質(zhì)上不僅是幾何運(yùn)動(dòng),而是執(zhí)行一段結(jié)構(gòu)化語(yǔ)言指令的語(yǔ)義進(jìn)展過(guò)程?;谶@一視角,我們揭示了視覺觀測(cè)序列與指令語(yǔ)義之間存在協(xié)同單調(diào)關(guān)系:當(dāng)畫面從“床邊”走向“門口”時(shí),指令也應(yīng)從“離開床邊”自然推進(jìn)到“朝門口轉(zhuǎn)向”。我們進(jìn)一步將這一結(jié)構(gòu)規(guī)律提煉為任務(wù)層面的語(yǔ)義方位基準(zhǔn),為后續(xù)決策提供進(jìn)展的建模。

零標(biāo)注學(xué)習(xí)語(yǔ)義進(jìn)展

為了在沒有進(jìn)展標(biāo)注的情況下習(xí)得進(jìn)展定位能力,我們?cè)O(shè)計(jì)了一個(gè)三階段的學(xué)習(xí)框架。第一階段,通過(guò)前綴對(duì)齊的自監(jiān)督訓(xùn)練,模型在視覺軌跡中自動(dòng)推斷出與指令前綴的對(duì)應(yīng)關(guān)系,使“當(dāng)前觀察對(duì)應(yīng)哪一語(yǔ)義段落”成為一種內(nèi)生表征,而非依賴外部標(biāo)注。第二階段,我們將進(jìn)展表示作為上下文注入導(dǎo)航VLA策略,使決策在結(jié)合指令和觀測(cè)的同時(shí),也能參考自身的任務(wù)進(jìn)展,從而形成明確的語(yǔ)義方向感。第三階段,通過(guò)進(jìn)展推理與導(dǎo)航VLA策略的聯(lián)合優(yōu)化,使模型在推理時(shí)保持一致、穩(wěn)健的進(jìn)展定位能力,并形成從語(yǔ)義對(duì)齊到動(dòng)作生成的完整閉環(huán)。

2eb15256-cdd5-11f0-8c8f-92fbcf53809c.png

Progress-Think模型在原有VLA結(jié)構(gòu)上加入“進(jìn)展推理模塊”,用于判斷當(dāng)前指令完成到哪一步,并據(jù)此引導(dǎo)動(dòng)作生成。整個(gè)系統(tǒng)通過(guò)三階段、無(wú)需標(biāo)注的流程完成訓(xùn)練:① 自監(jiān)督的進(jìn)展對(duì)齊;② 進(jìn)展引導(dǎo)的策略預(yù)訓(xùn)練;③ 進(jìn)展–策略聯(lián)合優(yōu)化。

在三階段學(xué)習(xí)下,進(jìn)展不再是一個(gè)回歸值或附加標(biāo)簽,而演化為貫穿視覺理解、語(yǔ)義推理與行動(dòng)決策的結(jié)構(gòu)性信號(hào)。機(jī)器人由此首次具備真正的“進(jìn)展定位”能力,能夠在執(zhí)行中持續(xù)推理“我完成到哪了”,并據(jù)此更清晰地決策“下一步該做什么”。

語(yǔ)義進(jìn)展助力多步驟指令導(dǎo)航

具備可推理的進(jìn)展定位后,機(jī)器人的行為方式發(fā)生了明顯變化。它不再像傳統(tǒng)模型那樣給出與任務(wù)無(wú)關(guān)或時(shí)序混亂的描述,而是能夠持續(xù)跟蹤自己處于指令的哪一步。導(dǎo)航軌跡因此更穩(wěn)、更有方向感,執(zhí)行過(guò)程也呈現(xiàn)出清晰的語(yǔ)義連貫性,讓人類能一眼看出它正在完成任務(wù)的哪一段。

2f0da6c8-cdd5-11f0-8c8f-92fbcf53809c.png

GPT-4o和NVILA的描述經(jīng)常跑偏,無(wú)法用于判斷進(jìn)展;消融版Progress-Think偶有幻覺,可靠性不足;而完整版Progress-Think能穩(wěn)定推理出與真實(shí)進(jìn)展對(duì)齊的結(jié)果。

在R2R-CE等基準(zhǔn)上,Progress-Think在僅使用單目RGB的條件下,便超越了依賴全景或深度的傳統(tǒng)方案,顯著提升了長(zhǎng)程任務(wù)的成功率、穩(wěn)定性與可解釋性。結(jié)果表明,長(zhǎng)程導(dǎo)航的核心限制在于缺失語(yǔ)義進(jìn)展這一結(jié)構(gòu)性能力;當(dāng)機(jī)器人能夠理解“自己做到哪”,導(dǎo)航才真正具備持續(xù)、可靠的任務(wù)推進(jìn)能力。

2f6bc514-cdd5-11f0-8c8f-92fbcf53809c.png

在R2R Val-Unseen上,Progress-Think在無(wú)深度、無(wú)全景、零外部數(shù)據(jù)的條件下依然取得最佳表現(xiàn)。

總結(jié)和展望

隨著Progress-Think的引入,機(jī)器人第一次擁有了自身行為在任務(wù)語(yǔ)義層面的“進(jìn)展坐標(biāo)系”,能夠在任務(wù)結(jié)構(gòu)中定位自己,并以此為決策提供額外的進(jìn)展約束。它在決策“下一步怎么走”前,先思考“我已經(jīng)走到哪一步”,從而讓長(zhǎng)程行為更連貫、更可解釋。我們期待將這種語(yǔ)義進(jìn)展推理能力擴(kuò)展至高層規(guī)劃、多輪交互和自主探索,讓具身智能逐步邁向真正的任務(wù)理解與長(zhǎng)期推理。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 機(jī)器人
    +關(guān)注

    關(guān)注

    213

    文章

    30565

    瀏覽量

    219334
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3647

    瀏覽量

    51687
  • 地平線
    +關(guān)注

    關(guān)注

    0

    文章

    428

    瀏覽量

    16109

原文標(biāo)題:開發(fā)者說(shuō)|Progress-Think:語(yǔ)義進(jìn)展推理,讓機(jī)器人理解每次行動(dòng)的意義

文章出處:【微信號(hào):horizonrobotics,微信公眾號(hào):地平線HorizonRobotics】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    【「具身智能機(jī)器人系統(tǒng)」閱讀體驗(yàn)】2.具身智能機(jī)器人的基礎(chǔ)模塊

    具身智能機(jī)器人的基礎(chǔ)模塊,這個(gè)是本書的第二部分內(nèi)容,主要分為四個(gè)部分:機(jī)器人計(jì)算系統(tǒng),自主機(jī)器人的感知系統(tǒng),自主機(jī)器人的定位系統(tǒng),自主機(jī)器人
    發(fā)表于 01-04 19:22

    智能清潔機(jī)器人

    項(xiàng)目說(shuō)明:室內(nèi)地面清潔是人們生活中較為頻繁的勞動(dòng),傳統(tǒng)吸塵器工作時(shí)需要人的參與,且操作不便。室內(nèi)地面清潔機(jī)器人將智能手機(jī)、移動(dòng)機(jī)器人技術(shù)和吸塵器技術(shù)有機(jī)地融合起來(lái),結(jié)構(gòu)靈巧,實(shí)現(xiàn)了室內(nèi)環(huán)境的自主清潔
    發(fā)表于 11-08 22:30

    什么是工業(yè)機(jī)器人

    申請(qǐng)了專利。該專利的要點(diǎn)是借助伺服技術(shù)控制機(jī)器人的關(guān)節(jié),利用人手對(duì)機(jī)器人進(jìn)行動(dòng)作示教,機(jī)器人實(shí)現(xiàn)動(dòng)作的記錄和再現(xiàn)。這就是所謂的示教再現(xiàn)
    發(fā)表于 01-19 10:58

    語(yǔ)義機(jī)器人

    客服機(jī)器人系統(tǒng)、智能硬件和機(jī)器人的對(duì)話系統(tǒng)建設(shè),能讓人機(jī)對(duì)話的過(guò)程變得更加自然流暢;另外還可以接入類似幼兒教育、聽廣播、訂機(jī)票等外部服務(wù),功能可以無(wú)限擴(kuò)展。
    發(fā)表于 03-10 16:52

    什么是龍四足機(jī)器人?

    四足機(jī)器人是一種仿生機(jī)器人,由Openduino控制板控制,有四條腿,每條腿兩個(gè)自由度,由兩個(gè)舵機(jī)驅(qū)動(dòng),實(shí)現(xiàn)兩種步態(tài)行走。配有三個(gè)超聲
    發(fā)表于 03-24 16:17

    機(jī)器人彈鋼琴,實(shí)現(xiàn)難度如何?

    鋼琴曲目的機(jī)器人,只需要它實(shí)現(xiàn)彈奏曲目。因?yàn)楝F(xiàn)在剛剛接觸機(jī)器人制作方面,只懂一些中斷和舵機(jī)啥的,不知道做成的難度有多大,,,,希望各位前輩能夠不舍賜教。如果能做成,都需要
    發(fā)表于 05-22 17:06

    機(jī)器人彈鋼琴

    鋼琴曲目的機(jī)器人,只需要它實(shí)現(xiàn)彈奏曲目。因?yàn)楝F(xiàn)在剛剛接觸機(jī)器人制作方面,只懂一些中斷和舵機(jī)啥的,不知道做成的難度有多大,,,,希望各位前輩能夠不舍賜教。如果能做成,都需要
    發(fā)表于 05-22 17:09

    辰漢-如何實(shí)現(xiàn)服務(wù)機(jī)器人的運(yùn)算與控制

    、無(wú)線網(wǎng)絡(luò)模塊、顯示模塊,可以連接手機(jī),通過(guò)手機(jī)APP端對(duì)機(jī)器人進(jìn)行相關(guān)設(shè)置,同時(shí)機(jī)器人攝像頭采集到的圖像也實(shí)時(shí)傳給手機(jī),也可以和手機(jī)進(jìn)行語(yǔ)音對(duì)講。機(jī)器人也帶有語(yǔ)音識(shí)別模塊,如可以向
    發(fā)表于 06-09 17:18

    智能機(jī)器人現(xiàn)身武漢車管所,能說(shuō)會(huì)道還能辦業(yè)務(wù)!

    ,實(shí)現(xiàn)了在語(yǔ)義理解、知識(shí)學(xué)習(xí)、推理與表示等方面較為完備的智能支撐體系。同時(shí),通過(guò)事前的人工訓(xùn)練和日常的業(yè)務(wù)積累,機(jī)器人能夠不斷地積累經(jīng)驗(yàn)和知識(shí),假以時(shí)日,不但會(huì)在業(yè)務(wù)水平與服務(wù)能力方面
    發(fā)表于 07-12 17:11

    分享:人工智能算法將帶領(lǐng)機(jī)器人走向何方?

    機(jī)器人是可編程的;(3)機(jī)器人通常是自主或半自主的; 什么是人工智能人工智能是一個(gè)大的范疇,里面包括了很多小的分支,是依靠算法實(shí)現(xiàn)的,它通過(guò)開發(fā)計(jì)算機(jī)程序來(lái)完成智能的任務(wù),幫助載體
    發(fā)表于 08-16 10:44

    機(jī)器人正在快速進(jìn)入智能停車設(shè)備領(lǐng)域

    據(jù)報(bào)道,在11月22日舉辦的2018上海停車展上多家企業(yè)都將agv機(jī)器人作為新品首次展出。深圳怡豐在現(xiàn)場(chǎng)首發(fā)其第三代泊車機(jī)器人,新型滾筒式泊車agv機(jī)器人——getamodelw;無(wú)線
    發(fā)表于 11-28 16:20

    【HarmonyOS HiSpark AI Camera】基于HiSpark AI Camera HarmonyOS 智能巡檢機(jī)器人開發(fā)

    本帖最后由 馬猛 于 2020-11-26 10:17 編輯 項(xiàng)目名稱:基于HiSpark AI Camera HarmonyOS 智能巡檢機(jī)器人開發(fā)試用計(jì)劃:HiSpark AI
    發(fā)表于 11-18 18:15

    桁架機(jī)器人的概念與特點(diǎn)都有哪些?

    替代。在機(jī)器人和自動(dòng)化工業(yè)生產(chǎn)領(lǐng)域中,龍門式機(jī)器人實(shí)現(xiàn)了制造過(guò)程的完全自動(dòng)化,并采用了集成加工技術(shù),適 用于機(jī)床、生產(chǎn)線的上下料、工件翻轉(zhuǎn)、工件轉(zhuǎn)序等, 同時(shí)其高精度夾持定位工具系統(tǒng)為機(jī)器人
    發(fā)表于 11-30 09:44

    橋接智能制造:PROFINET與Devicenet混合架構(gòu)汽車擦凈機(jī)器人升級(jí)

    橋接智能制造:PROFINET與Devicenet混合架構(gòu)汽車擦凈機(jī)器人升級(jí)
    的頭像 發(fā)表于 05-28 16:40 ?403次閱讀
    橋接智能制造:PROFINET與Devicenet混合架構(gòu)<b class='flag-5'>賦</b><b class='flag-5'>能</b>汽車擦凈<b class='flag-5'>機(jī)器人</b>升級(jí)

    Aux-Think打破視覺語(yǔ)言導(dǎo)航任務(wù)的常規(guī)推理范式

    :無(wú)論是行動(dòng)前推理(Pre-Think),還是行動(dòng)后推理(Post-Think),一旦在測(cè)試階段顯式生成推理鏈,反而更容易讓
    的頭像 發(fā)表于 07-08 10:00 ?411次閱讀
    Aux-<b class='flag-5'>Think</b>打破視覺語(yǔ)言導(dǎo)航任務(wù)的常規(guī)<b class='flag-5'>推理</b>范式