捅了语文老师一节课,婷婷的视频五月天

傳統(tǒng)的任務(wù)與運(yùn)動(dòng)規(guī)劃（TAMP）系統(tǒng)在機(jī)器人操作應(yīng)用中通常依賴靜態(tài)模型運(yùn)行，因此在面對(duì)新環(huán)境時(shí)往往表現(xiàn)不佳。將感知與操作相融合，是應(yīng)對(duì)這一挑戰(zhàn)的有效途徑，使機(jī)器人能夠在執(zhí)行過(guò)程中實(shí)時(shí)更新規(guī)劃，從而適應(yīng)動(dòng)態(tài)變化的場(chǎng)景。

在本期NVIDIA 機(jī)器人研發(fā)摘要 (R2D2)中，我們探討了如何利用基于感知的 TAMP 以及 GPU 加速的 TAMP 實(shí)現(xiàn)遠(yuǎn)程操作。同時(shí)，我們將介紹用于提升機(jī)器人操作能力的框架，并展示如何結(jié)合視覺(jué)與語(yǔ)言信息，將像素轉(zhuǎn)化為子目標(biāo)、任務(wù)負(fù)載以及可微分的約束條件。

子目標(biāo)是較小的階段性目標(biāo)，能夠引導(dǎo)機(jī)器人逐步達(dá)成最終目標(biāo)。

Affordance 根據(jù)物體或環(huán)境的屬性及其所處的上下文，描述機(jī)器人可在其上執(zhí)行的動(dòng)作。例如，手柄可被“抓取”，按鈕可被“按壓”，杯子可被“傾倒”。

在機(jī)器人運(yùn)動(dòng)規(guī)劃中，可微分約束用于確保機(jī)器人的運(yùn)動(dòng)滿足物理限制，如關(guān)節(jié)角度范圍、避障要求或末端執(zhí)行器的位置精度，同時(shí)仍支持通過(guò)學(xué)習(xí)進(jìn)行調(diào)整。由于這些約束具備可微性，GPU 能夠在訓(xùn)練或?qū)崟r(shí)規(guī)劃過(guò)程中高效地計(jì)算并優(yōu)化它們。

任務(wù)與運(yùn)動(dòng)規(guī)劃如何將視覺(jué)與語(yǔ)言信息轉(zhuǎn)化為機(jī)器人的具體動(dòng)作

TAMP 涉及確定機(jī)器人應(yīng)執(zhí)行的任務(wù)以及實(shí)現(xiàn)這些任務(wù)所需的移動(dòng)方式，需要將高層任務(wù)規(guī)劃（即執(zhí)行什么任務(wù)）與底層運(yùn)動(dòng)規(guī)劃（即如何移動(dòng)以完成任務(wù)）相結(jié)合。

現(xiàn)代機(jī)器人能夠結(jié)合視覺(jué)與語(yǔ)言信息（如圖像和指令），將復(fù)雜任務(wù)分解為若干較小的步驟，即子目標(biāo)。這些子目標(biāo)有助于機(jī)器人明確下一步應(yīng)執(zhí)行的動(dòng)作、需要交互的對(duì)象以及如何實(shí)現(xiàn)安全移動(dòng)。

該過(guò)程利用高級(jí)模型將圖像和書面指令轉(zhuǎn)化為機(jī)器人可在現(xiàn)實(shí)世界中執(zhí)行的清晰計(jì)劃。遠(yuǎn)程操作需要具備結(jié)構(gòu)化意圖，且依賴規(guī)劃人員的有效參與。接下來(lái)，我們將探討 OWL-TAMP、VLM-TAMP 和 NOD-TAMP 如何助力解決這一問(wèn)題：

OWL-TAMP：該工作流使機(jī)器人能夠執(zhí)行以自然語(yǔ)言描述的復(fù)雜、長(zhǎng)視距操作任務(wù)，例如“將橙色物體放到桌子上”。OWL-TAMP 是一種混合式工作流，將視覺(jué)語(yǔ)言模型（VLM）與任務(wù)與運(yùn)動(dòng)規(guī)劃（TAMP）相結(jié)合。其中，VLM 根據(jù)開(kāi)放世界語(yǔ)言（OWL）指令生成約束條件，描述機(jī)器人動(dòng)作空間中的操作要求。這些約束被整合進(jìn) TAMP 系統(tǒng)，并通過(guò)仿真反饋機(jī)制驗(yàn)證其物理可行性和執(zhí)行正確性。

VLM-TAMP：這是一種面向視覺(jué)信息豐富環(huán)境的機(jī)器人多步驟任務(wù)規(guī)劃工作流。VLM-TAMP 將視覺(jué)語(yǔ)言模型與傳統(tǒng) TAMP 框架融合，能夠在現(xiàn)實(shí)場(chǎng)景中生成并優(yōu)化高層行動(dòng)計(jì)劃。該方法利用 VLM 解析圖像內(nèi)容，并結(jié)合任務(wù)指令（如“做一鍋雞湯”）生成初步的高級(jí)任務(wù)規(guī)劃。隨后，通過(guò)仿真驗(yàn)證和運(yùn)動(dòng)規(guī)劃進(jìn)行迭代優(yōu)化，以確保每一步操作的可行性。在涉及 30 至 50 個(gè)連續(xù)動(dòng)作、并操作多達(dá) 21 個(gè)不同物體的長(zhǎng)視距廚房任務(wù)中，該混合方法的表現(xiàn)優(yōu)于純 VLM 或純 TAMP 的基準(zhǔn)方案。該工作流使機(jī)器人能夠綜合利用視覺(jué)與語(yǔ)言上下文信息，有效應(yīng)對(duì)任務(wù)描述中的模糊性，從而提升在復(fù)雜操作任務(wù)中的整體性能。

圖1展示了VLM-TAMP如何克服單獨(dú)使用TAMP或僅依賴VLM進(jìn)行任務(wù)與運(yùn)動(dòng)規(guī)劃在解決長(zhǎng)視距機(jī)器人操作問(wèn)題時(shí)所面臨的局限性。

NOD-TAMP: 傳統(tǒng)的TAMP框架在處理長(zhǎng)視距操作任務(wù)時(shí)通常難以實(shí)現(xiàn)泛化，因其依賴于顯式的幾何模型和對(duì)象表示。NOD-TAMP通過(guò)引入神經(jīng)對(duì)象描述符（NOD）來(lái)提升對(duì)不同對(duì)象類型的泛化能力。NOD是一種基于3D激光點(diǎn)云學(xué)習(xí)得到的表示形式，能夠編碼物體的空間特征與關(guān)系屬性。該方法使機(jī)器人能夠與新對(duì)象有效交互，并支持規(guī)劃器進(jìn)行動(dòng)態(tài)的操作調(diào)整。

cuTAMP 如何利用 GPU 并行化加速機(jī)器人規(guī)劃

經(jīng)典 TAMP 首先分析任務(wù)的動(dòng)作結(jié)構(gòu)（稱為計(jì)劃骨架），再求解相應(yīng)的連續(xù)變量。第二步通常是系統(tǒng)的計(jì)算瓶頸，而cuTAMP顯著加速了這一過(guò)程。對(duì)于cuTAMP中給定的計(jì)劃骨架，系統(tǒng)會(huì)采樣數(shù)千個(gè)初始解（粒子），隨后在 GPU 上執(zhí)行可微分的批量?jī)?yōu)化，以滿足多種約束條件，例如逆運(yùn)動(dòng)學(xué)、避障、穩(wěn)定性以及目標(biāo)函數(shù)成本。

如果框架不可行，算法會(huì)進(jìn)行回溯；如果可行，則會(huì)生成一個(gè)計(jì)劃。對(duì)于受限的打包或堆疊任務(wù)，該過(guò)程通常在幾秒鐘內(nèi)完成，使機(jī)器人能夠在幾秒內(nèi)找到包裝、堆疊或操作多個(gè)物體的解決方案，而無(wú)需花費(fèi)幾分鐘甚至幾小時(shí)。

“矢量化滿意度”是實(shí)現(xiàn)在現(xiàn)實(shí)應(yīng)用場(chǎng)景中長(zhǎng)期解決問(wèn)題的關(guān)鍵。

圖2展示了cuTAMP如何將TAMP幀化為一種回溯式的雙層搜索，以優(yōu)化計(jì)劃骨架。

機(jī)器人如何利用Stein變分推斷從故障中學(xué)習(xí)

長(zhǎng)距操作模型在面對(duì)訓(xùn)練過(guò)程中未曾遇到的新條件時(shí)，可能會(huì)出現(xiàn)失效。Fail2Progress是一種使機(jī)器人能夠從自身失敗中學(xué)習(xí)并持續(xù)改進(jìn)操作能力的框架。該框架通過(guò)數(shù)據(jù)驅(qū)動(dòng)的校正與基于仿真的優(yōu)化，將實(shí)際發(fā)生的故障整合進(jìn)技能模型中。為了增強(qiáng)模型的魯棒性，F(xiàn)ail2Progress 利用 Stein 變分推斷生成與觀測(cè)到的故障相似的定向合成數(shù)據(jù)集，從而有效提升模型對(duì)異常情況的適應(yīng)能力。

然后，這些生成的數(shù)據(jù)集可用于微調(diào)并重新調(diào)整技能效果模型，從而降低長(zhǎng)視野任務(wù)中相同故障重復(fù)發(fā)生的次數(shù)。

入門指南

在這篇博客中，我們探討了基于感知的TAMP、GPU加速的TAMP，以及用于機(jī)器人操作的基于仿真的優(yōu)化框架。我們分析了傳統(tǒng)TAMP中常見(jiàn)的挑戰(zhàn)，并介紹了這些研究工作為應(yīng)對(duì)這些挑戰(zhàn)所提出的方法與思路。

本文是NVIDIA 機(jī)器人研發(fā)摘要（R2D2）系列的一部分，旨在幫助開(kāi)發(fā)者深入了解NVIDIA Research在物理 AI 與機(jī)器人應(yīng)用領(lǐng)域的最新突破。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴