這篇文章是“NVIDIA 機(jī)器人研究與開發(fā)摘要 (R2D2) ”的一部分,旨在讓開發(fā)者更深入地了解 NVIDIA 研究中心在物理 AI 和機(jī)器人應(yīng)用方面的最新突破。
如今,機(jī)械臂被廣泛應(yīng)用于裝配、包裝、檢測(cè)等眾多領(lǐng)域。然而,它們?nèi)孕桀A(yù)先編程才能執(zhí)行特定且往往是重復(fù)性的任務(wù)。為了滿足在大多數(shù)環(huán)境中對(duì)適應(yīng)性日益增長(zhǎng)的需求,需要具備感知能力的機(jī)械臂,以便根據(jù)實(shí)時(shí)數(shù)據(jù)做出決策并調(diào)整行為。這不僅能讓機(jī)械臂在協(xié)作環(huán)境中執(zhí)行各類任務(wù)時(shí)更加靈活,還能通過對(duì)危險(xiǎn)的感知來(lái)提升安全性。
本期的“NVIDIA 機(jī)器人研究與開發(fā)摘要 (R2D2) ”探討了 NVIDIA 研究中心和機(jī)器人靈巧操作、物體操控和抓取有關(guān)的工作流以及 AI 模型(相關(guān)成果如下文),以及它們?nèi)绾螒?yīng)對(duì)機(jī)器人面臨的關(guān)鍵挑戰(zhàn),如適應(yīng)性和數(shù)據(jù)稀缺問題:
DextrAH-RGB:一種基于立體 RGB 輸入實(shí)現(xiàn)靈巧抓取的工作流。
DexMimicGen:一種利用模仿學(xué)習(xí) (IL) 進(jìn)行雙手靈巧操控的數(shù)據(jù)生成流程,在 2025 年 IEEE 國(guó)際機(jī)器人與自動(dòng)化會(huì)議 (ICRA) 上展示。
GraspGen:一個(gè)包含超過 5700 萬(wàn)個(gè)針對(duì)不同機(jī)器人和夾具的抓取數(shù)據(jù)的合成數(shù)據(jù)集。
什么是靈巧機(jī)器人?
靈巧機(jī)器人能夠精確、靈活且高效地操控物體。機(jī)器人的靈巧性涉及精細(xì)的運(yùn)動(dòng)控制、協(xié)調(diào)能力,以及在非結(jié)構(gòu)化環(huán)境中處理各種任務(wù)的能力。機(jī)器人靈巧性的關(guān)鍵方面包括抓握、操控、觸覺敏感度、敏捷性和協(xié)調(diào)性。
機(jī)器人的靈巧性在制造業(yè)、醫(yī)療健康和物流等行業(yè)中至關(guān)重要,它使那些傳統(tǒng)上需要人類精準(zhǔn)操作的任務(wù)實(shí)現(xiàn)自動(dòng)化成為可能。
NVIDIA 的機(jī)器人靈巧操作
工作流及模型
靈巧抓取是機(jī)器人技術(shù)中的一項(xiàng)具有挑戰(zhàn)性的任務(wù),要求機(jī)器人能夠精確且快速地操控各種各樣的物體。傳統(tǒng)方法在處理反光物體時(shí)往往存在困難,并且難以很好地推廣應(yīng)用到新的物體或動(dòng)態(tài)環(huán)境中。
NVIDIA 研究中心通過開發(fā)端到端的基礎(chǔ)模型和工作流來(lái)應(yīng)對(duì)這些挑戰(zhàn),這些模型和工作流能夠讓機(jī)器人在不同物體和環(huán)境中實(shí)現(xiàn)穩(wěn)定可靠的操控。
用于靈巧抓取的 DextrAH-RGB
DextrAH-RGB 是一種基于立體 RGB 輸入,實(shí)現(xiàn)機(jī)械臂手部靈巧抓取的工作流。利用這一工作流,相關(guān)策略完全在仿真環(huán)境中進(jìn)行訓(xùn)練,并且在實(shí)際部署時(shí)能夠應(yīng)用于各種新的物體。DextrAH-RGB 借助NVIDIA Isaac Lab,在仿真環(huán)境中針對(duì)不同物體進(jìn)行了大規(guī)模訓(xùn)練。
訓(xùn)練過程分為兩個(gè)階段。首先,運(yùn)用強(qiáng)化學(xué)習(xí) (RL) 在仿真環(huán)境中訓(xùn)練一個(gè)教師策略。教師策略是一種特殊的織物引導(dǎo)策略 (FGP),它在幾何織物動(dòng)作空間內(nèi)發(fā)揮作用。幾何織物是一種矢量化的底層控制方式,將運(yùn)動(dòng)轉(zhuǎn)化為關(guān)節(jié)位置、速度和加速度信號(hào),并以命令的形式傳輸給機(jī)器人的控制器。通過嵌入避障和目標(biāo)達(dá)成行為,這種方式在部署時(shí)確保了安全性和響應(yīng)速度,從而實(shí)現(xiàn)快速迭代。
教師策略有一個(gè)長(zhǎng)短期記憶 (LSTM) 層,能夠?qū)ΜF(xiàn)實(shí)世界的物理特性進(jìn)行推理和適應(yīng)。這有助于融入諸如重新抓取和理解抓取成功與否等糾正行為,以應(yīng)對(duì)當(dāng)前的動(dòng)態(tài)情況。訓(xùn)練的第一階段通過利用領(lǐng)域隨機(jī)化來(lái)確保策略穩(wěn)定健性和適應(yīng)性。在訓(xùn)練教師策略時(shí),會(huì)改變物理、視覺和干擾參數(shù),逐步增加環(huán)境的難度。
在訓(xùn)練的第二階段,使用逼真的平鋪渲染技術(shù),將教師策略提煉為仿真環(huán)境中基于 RGB 的學(xué)生策略。這一步使用了一個(gè)名為 DAgger 的模仿學(xué)習(xí)框架。學(xué)生策略通過立體相機(jī)接收 RGB 圖像,從而能夠間接地推斷出物體的深度和位置。
圖 1. DextrAH-RGB 訓(xùn)練流程
波士頓動(dòng)力 Atlas MTS 機(jī)器人
實(shí)現(xiàn)從仿真到現(xiàn)實(shí)的應(yīng)用
NVIDIA 與波士頓動(dòng)力合作,對(duì) DextrAH-RGB 進(jìn)行訓(xùn)練和部署。圖 2 和視頻 2 展示了一個(gè)由通用策略驅(qū)動(dòng)的機(jī)器人系統(tǒng),該系統(tǒng)在 Atlas 機(jī)器人的上半身成功部署了強(qiáng)大的、具備零樣本從仿真到現(xiàn)實(shí)抓取能力的策略。
圖 2. 使用 Isaac Lab 大規(guī)模訓(xùn)練 Atlas 機(jī)器人的教師策略
該系統(tǒng)展示了由 Atlas 機(jī)器人的三指夾具驅(qū)動(dòng)的多種抓取方式,這些夾具能夠抓取輕物和重物,并顯示出逐漸形成的故障檢測(cè)和重試行為。
視頻 2. 波士頓動(dòng)力 Atlas MTS 機(jī)器人
使用 DextrAH-RGB 成功抓取工業(yè)物體
用于雙手操控?cái)?shù)據(jù)生成的
DexMimicGen
DexMimicGen 是一種用于雙手操控?cái)?shù)據(jù)生成的工作流,它使用少量的人類演示來(lái)生成大規(guī)模的軌跡數(shù)據(jù)集。其目的是通過讓機(jī)器人在仿真環(huán)境中學(xué)習(xí)動(dòng)作(這些動(dòng)作可以遷移到現(xiàn)實(shí)世界中),來(lái)減少手動(dòng)數(shù)據(jù)收集這一繁瑣的任務(wù)。這個(gè)工作流解決了人形機(jī)器人在雙手靈巧操作的模仿學(xué)習(xí)中數(shù)據(jù)稀缺的挑戰(zhàn)。
DexMimicGen 使用基于仿真的增強(qiáng)技術(shù)來(lái)生成數(shù)據(jù)集。首先,人類演示者使用遠(yuǎn)程操作設(shè)備收集少量演示數(shù)據(jù)。然后,DexMimicGen 在仿真環(huán)境中生成大量的演示軌跡數(shù)據(jù)集。例如,在最初發(fā)布時(shí),借助 DexMimicGen,研究人員僅從 60 個(gè)人類演示中就生成了 21000 個(gè)演示數(shù)據(jù)。最后,使用模仿學(xué)習(xí)在生成的數(shù)據(jù)集上訓(xùn)練一個(gè)策略,以執(zhí)行操控任務(wù),并將其部署到真實(shí)的機(jī)器人上。
圖 3. DexMimicGen 工作流
雙手操控具有挑戰(zhàn)性,因?yàn)樵诓煌蝿?wù)中需要兩只手臂之間進(jìn)行精確的協(xié)調(diào)。比如兩只手分別抓取不同物體這樣的并行任務(wù),需要獨(dú)立的控制策略。再比如抬起一個(gè)大物體這樣的協(xié)調(diào)任務(wù),需要兩只手臂同步動(dòng)作和時(shí)間。順序任務(wù)則要求子任務(wù)按照一定的順序完成,比如用一只手移動(dòng)一個(gè)盒子,然后用另一只手把一個(gè)物體放進(jìn)去。
DexMimicGen 在數(shù)據(jù)生成過程中考慮到了這些不同的要求,采用了一種 “并行、協(xié)調(diào)和順序” 的子任務(wù)分類法。對(duì)于獨(dú)立的手臂子任務(wù),使用異步執(zhí)行策略;對(duì)于協(xié)調(diào)任務(wù),使用同步機(jī)制;對(duì)于順序子任務(wù),使用順序約束。這種方法確保了在數(shù)據(jù)生成過程中精確的對(duì)齊和邏輯的任務(wù)執(zhí)行。
圖 4. 使用基于 DexMimicGen 生成的
數(shù)據(jù)訓(xùn)練的模型成功對(duì)罐頭進(jìn)行分類
當(dāng)在真實(shí)世界中部署時(shí),借助 DexMimicGen 的“現(xiàn)實(shí)—仿真—現(xiàn)實(shí)”數(shù)據(jù)生成流程生成的數(shù)據(jù),人形機(jī)器人在進(jìn)行罐頭分類任務(wù)時(shí),實(shí)現(xiàn)了 90% 的成功率。相比之下,僅使用人類演示數(shù)據(jù)進(jìn)行訓(xùn)練時(shí),模型的成功率為 0%。這些結(jié)果充分表明,DexMimicGen 在減少人力投入的同時(shí),能夠讓機(jī)器人更有效地學(xué)習(xí)復(fù)雜的操控任務(wù)。
適用于多種機(jī)器人和夾具的
GraspGen 數(shù)據(jù)集
為了支持相關(guān)研究,GraspGen 在 Hugging Face 平臺(tái)上提供了一個(gè)全新的仿真數(shù)據(jù)集,其中包含針對(duì)三種不同夾具的 5700 萬(wàn)個(gè)抓取數(shù)據(jù)。該數(shù)據(jù)集涵蓋了不同物體網(wǎng)格的 6D 夾具變換數(shù)據(jù)以及抓取成功的標(biāo)簽。
圖 5. 數(shù)據(jù)集中一系列不同物體的建議抓取方式
這三種夾具分別是 Franka Panda 夾具、Robotiq 2F-140 工業(yè)夾具和單觸點(diǎn)吸盤夾具。GraspGen 數(shù)據(jù)集完全是在仿真環(huán)境中生成的,展示了自動(dòng)數(shù)據(jù)生成在擴(kuò)大數(shù)據(jù)集規(guī)模和多樣性方面的優(yōu)勢(shì)。
圖 6. GraspGen 仿真數(shù)據(jù)集中三種夾具的坐標(biāo)系約定:Robotiq 2F-140 夾具(左)、單觸點(diǎn)吸盤夾具(中)和 Franka Panda 夾具(右)
總結(jié)
為了滿足在大多數(shù)環(huán)境中對(duì)適應(yīng)性日益增長(zhǎng)的需求,需要機(jī)械臂能夠根據(jù)實(shí)時(shí)數(shù)據(jù)做出決策并調(diào)整行為。本文探討了幾種機(jī)器人靈巧操作、操控和抓取工作流以及 AI 模型,以及它們?nèi)绾螒?yīng)對(duì)機(jī)器人面臨的關(guān)鍵挑戰(zhàn),如適應(yīng)性和數(shù)據(jù)稀缺問題。
-
機(jī)器人
+關(guān)注
關(guān)注
212文章
29313瀏覽量
211054 -
NVIDIA
+關(guān)注
關(guān)注
14文章
5197瀏覽量
105542 -
AI
+關(guān)注
關(guān)注
87文章
33711瀏覽量
274469 -
機(jī)械臂
+關(guān)注
關(guān)注
13文章
541瀏覽量
25160
原文標(biāo)題:R2D2:借助 NVIDIA 研究中心的工作流和模型,讓靈巧機(jī)器人更加適應(yīng)環(huán)境
文章出處:【微信號(hào):NVIDIA-Enterprise,微信公眾號(hào):NVIDIA英偉達(dá)企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
評(píng)論