人形機(jī)器人需要能夠適應(yīng)人類工作空間,處理重復(fù)性或高強(qiáng)度任務(wù)。然而,為真實(shí)世界的任務(wù)和不可預(yù)測的環(huán)境創(chuàng)建通用人形機(jī)器人是一項(xiàng)挑戰(zhàn)。通常來說,這些任務(wù)中的每一個(gè)都需要一個(gè)專用的 AI 模型。由于需要大量特定于任務(wù)的數(shù)據(jù)、高昂的計(jì)算成本,且模型的泛化能力有限,針對每一個(gè)新的任務(wù)和環(huán)境,從零開始訓(xùn)練這些模型是一個(gè)非常繁瑣的過程。
NVIDIA Isaac GR00T通過提供開源的 SimReady 數(shù)據(jù)、仿真框架(如NVIDIA Isaac Sim和Isaac Lab)、合成數(shù)據(jù)藍(lán)圖和預(yù)訓(xùn)練基礎(chǔ)模型,能夠幫助解決這些挑戰(zhàn)并加速通用人形機(jī)器人的開發(fā)。
NVIDIA Isaac GR00T N1 的特點(diǎn)和優(yōu)勢
NVIDIA Isaac GR00T N1是世界上首個(gè)用于通用人形機(jī)器人推理和技能的開源基礎(chǔ)模型。這個(gè)跨實(shí)體模型接受包括語言和圖像在內(nèi)的多模態(tài)輸入,以便在各種不同的環(huán)境中執(zhí)行操作任務(wù)。
GR00T N1 基于一個(gè)龐大的人形機(jī)器人數(shù)據(jù)集進(jìn)行訓(xùn)練,訓(xùn)練數(shù)據(jù)還補(bǔ)充了通過NVIDIA Isaac GR00T Blueprint生成的合成數(shù)據(jù),以及來自互聯(lián)網(wǎng)的大量視頻數(shù)據(jù)。它可以通過后訓(xùn)練適應(yīng)特定的實(shí)體、任務(wù)和環(huán)境。現(xiàn)在,開發(fā)者可以通過 Hugging Face 上的開源 NVIDIA 物理 AI 數(shù)據(jù)集免費(fèi)獲得其中的部分?jǐn)?shù)據(jù)。
GR00T N1 使用一個(gè)模型和一組權(quán)重來實(shí)現(xiàn)人形機(jī)器人上的操作行為,例如 Fourier GR-1 和 1X Neo。它展示了在一系列任務(wù)中的強(qiáng)大泛化能力,包括用單臂或雙臂抓取和操作物體,以及在雙臂之間轉(zhuǎn)移物品。
它還可以執(zhí)行需要持續(xù)上下文理解和整合多種技能的復(fù)雜多步驟任務(wù)。這些功能可應(yīng)用于物品搬運(yùn)、包裝和檢查等各種使用場景中。
GR00T N1 2B 模型已經(jīng)正式推出,這是 NVIDIA 一系列可完全定制模型中的首個(gè)模型。NVIDIA 將對這一系列模型進(jìn)行預(yù)訓(xùn)練并發(fā)布。
GR00T N1 模型架構(gòu)
受人類認(rèn)知原理的啟發(fā),GR00T N1 基礎(chǔ)模型采用雙系統(tǒng)架構(gòu):
視覺-語言模型(系統(tǒng) 2):這個(gè)系統(tǒng)基于 NVIDIA-Eagle 和 SmolLM-1.7B,是一個(gè)方法論思考系統(tǒng)。它通過視覺和語言指令解釋環(huán)境,使機(jī)器人能夠?qū)ζ洵h(huán)境和指令進(jìn)行推理,并規(guī)劃正確的行動。
擴(kuò)散 Transformer(系統(tǒng) 1):這個(gè)動作模型生成連續(xù)動作以控制機(jī)器人的運(yùn)動,將系統(tǒng) 2 制定的動作計(jì)劃轉(zhuǎn)化為精確、連續(xù)的機(jī)器人運(yùn)動。
這兩個(gè)系統(tǒng)緊密耦合,使它們在后訓(xùn)練期間可以一起優(yōu)化。

圖 2. GR00T N1 模型架構(gòu)
GR00T N1 的預(yù)訓(xùn)練數(shù)據(jù)策略
訓(xùn)練像 GR00T N1 這樣的通用模型需要一個(gè)強(qiáng)大的數(shù)據(jù)策略,該策略能夠利用不同數(shù)據(jù)類型的互補(bǔ)優(yōu)勢。GR00T N1 的訓(xùn)練數(shù)據(jù)構(gòu)成了一個(gè)金字塔結(jié)構(gòu),從底部到頂部,數(shù)據(jù)量逐漸減少,而針對具體實(shí)體的特定性則逐漸增強(qiáng)。
底層的數(shù)據(jù)集合了來自互聯(lián)網(wǎng)的大規(guī)模數(shù)據(jù)和人類視頻,提供了一個(gè)廣泛的視覺和語言信息基礎(chǔ)。這些數(shù)據(jù)集記錄了人與物體的交互情況,有助于深入了解自然動作模式和任務(wù)語義。
中間層為由 NVIDIA Omniverse 平臺生成的合成數(shù)據(jù)。
頂部是通過在各種平臺上遠(yuǎn)程操作收集的真實(shí)機(jī)器人數(shù)據(jù),能精準(zhǔn)反映機(jī)器人的實(shí)際能力。
以人為中心的在線視頻提供了關(guān)于人類與物體交互的有價(jià)值的信息,但缺乏機(jī)器人的電機(jī)控制信號。仿真數(shù)據(jù)通過 GPU 加速提供了無限的實(shí)時(shí)數(shù)據(jù),填補(bǔ)了這一空白,但它面臨仿真到現(xiàn)實(shí)的差距。
真實(shí)機(jī)器人數(shù)據(jù)彌合了這一差距,但成本高昂且耗時(shí)。通過結(jié)合這些多樣化的數(shù)據(jù)并使用諸如潛在動作訓(xùn)練等技術(shù),機(jī)器人可以從大規(guī)模、未標(biāo)記的人類視頻數(shù)據(jù)中學(xué)習(xí)而無需監(jiān)督,從而形成一種強(qiáng)大的策略,增強(qiáng)機(jī)器人訓(xùn)練,提高 GR00T N1 的性能和適應(yīng)性。
這種策略通過 NVIDIA Isaac GR00T Blueprint 得以實(shí)際應(yīng)用。通過它,可以在短短 11 小時(shí)內(nèi)生成超過 75 萬個(gè)合成軌跡,相當(dāng)于 6500 小時(shí)或九個(gè)月連續(xù)的人類演示數(shù)據(jù)。將這些合成數(shù)據(jù)與真實(shí)數(shù)據(jù)相結(jié)合后,與僅使用真實(shí)數(shù)據(jù)進(jìn)行訓(xùn)練的情況相比,GR00T N1 的性能能夠提升 40%。
利用 GR00T N1 進(jìn)行開發(fā)
您可以按照以下步驟開始使用 GR00T N1:
數(shù)據(jù)準(zhǔn)備:將您的機(jī)器人演示數(shù)據(jù)(視頻、狀態(tài)、動作)三元組格式化為與 Hugging Face LeRobot 格式兼容的 GR00T 數(shù)據(jù)集。
數(shù)據(jù)驗(yàn)證:使用驗(yàn)證腳本確保您的數(shù)據(jù)符合正確的格式。
后訓(xùn)練:使用 PyTorch 腳本,用您的自定義數(shù)據(jù)集對預(yù)訓(xùn)練的 GR00T N1 模型進(jìn)行微調(diào)。
推理:將推理腳本連接到您的機(jī)器人控制器,以使用后訓(xùn)練的 GR00T N1 模型在目標(biāo)硬件或仿真環(huán)境中執(zhí)行動作。
評估:運(yùn)行評估腳本以獲取模型的任務(wù)成功率。
性能
GR00T N1 模型通過仿真和真實(shí)世界的基準(zhǔn)測試進(jìn)行評估,以檢驗(yàn)其在不同的機(jī)器人實(shí)體和操作任務(wù)中的性能。仿真實(shí)驗(yàn)采用了三個(gè)不同的基準(zhǔn),而真實(shí)世界的測試則聚焦于使用 GR-1 人形機(jī)器人執(zhí)行的桌面操作任務(wù)。
仿真基準(zhǔn)測試
仿真實(shí)驗(yàn)使用了三個(gè)基準(zhǔn)測試:兩個(gè)來自先前研究的開源基準(zhǔn)測試和一個(gè)模仿現(xiàn)實(shí)世界桌面操作任務(wù)的新套件,選擇這些基準(zhǔn)測試是為了在不同的機(jī)器人實(shí)體和多種操作任務(wù)中評估模型。

表 1. 每個(gè)任務(wù)使用 100 次演示的仿真基準(zhǔn)測試平均成功率
現(xiàn)實(shí)基準(zhǔn)測試
針對一系列需要精準(zhǔn)物體操控、雙手協(xié)調(diào)動作以及具備高級空間感知能力的操作任務(wù),對這些模型進(jìn)行了評估,這使得模型在復(fù)雜的交互操作中能夠?qū)崿F(xiàn)精細(xì)的控制。

表 2. 使用 GR-1 人形機(jī)器人在現(xiàn)實(shí)任務(wù)上的平均策略成功率

表 3. 使用 GR-1 人形機(jī)器人在真實(shí)任務(wù)上的平均策略成功率
與擴(kuò)散策略基線相比,Isaac GR00T N1 模型展示了更平滑和流暢的運(yùn)動,以及在抓取精度上的顯著提高,特別是在使用較小的后訓(xùn)練數(shù)據(jù)集進(jìn)行微調(diào)時(shí)。
進(jìn)一步的結(jié)果表明,GR00T N1 不僅更有效地學(xué)習(xí)新任務(wù),而且比基線方法更精確地遵循語言指令。
-
NVIDIA
+關(guān)注
關(guān)注
14文章
5602瀏覽量
109834 -
AI
+關(guān)注
關(guān)注
91文章
39981瀏覽量
301616 -
開源
+關(guān)注
關(guān)注
3文章
4224瀏覽量
46210 -
人形機(jī)器人
+關(guān)注
關(guān)注
7文章
985瀏覽量
18511
原文標(biāo)題:加速通用人形機(jī)器人的開發(fā):NVIDIA Isaac GR00T N1
文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達(dá)企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
NVIDIA 利用全新開源模型與仿真庫加速機(jī)器人研發(fā)進(jìn)程
NVIDIA GR00T-Dreams助力光輪智能革新合成數(shù)據(jù)
利用NVIDIA Cosmos模型訓(xùn)練通用機(jī)器人
通過NVIDIA Cosmos模型增強(qiáng)機(jī)器人學(xué)習(xí)
NVIDIA Isaac Sim與NVIDIA Isaac Lab的更新
NVIDIA 通過云端至機(jī)器人計(jì)算平臺驅(qū)動人形機(jī)器人技術(shù),賦能物理 AI
NVIDIA與光輪智能合作實(shí)現(xiàn)GR00T N1落地汽車工廠
借助OpenUSD與合成數(shù)據(jù)推動人形機(jī)器人發(fā)展
NVIDIA Isaac GR00T 詳細(xì)解析
NVIDIA發(fā)布GR00T N1基礎(chǔ)模型等方案,人形機(jī)器人開發(fā)效率顯著提升
NVIDIA Isaac GR00T N1開源人形機(jī)器人基礎(chǔ)模型+開源物理引擎Newton加速機(jī)器人開發(fā)
NVIDIA發(fā)布全球首個(gè)開源人形機(jī)器人基礎(chǔ)模型Isaac GR00T N1
機(jī)器人Blue亮相 搭載英偉達(dá)最新GR00T N1人形機(jī)器人通用基礎(chǔ)模型
深度解讀GR00T N1:英偉達(dá)開源人形機(jī)器人功能模型的技術(shù)革新與行業(yè)影響
NVIDIA 發(fā)布全球首個(gè)開源人形機(jī)器人基礎(chǔ)模型 Isaac GR00T N1——并推出加速機(jī)器人開發(fā)的仿真框架
NVIDIA Isaac GR00T N1的特點(diǎn)和優(yōu)勢
評論