作者:嚴廣宇
沐曦PDE部門
1引言:什么是具身智能?
你有沒有想過,AI 不再只是待在屏幕里回答問題、寫代碼,而是真真正正地走進現(xiàn)實世界,像人一樣感知、決策、行動?
想象在一個智能倉庫,機器人自主規(guī)劃路徑,把包裹從貨架上取下來打包發(fā)貨。再想象一下家里的掃地機器人,未來可能不只是掃地,而是能幫你收拾房間、洗碗、開窗通風(fēng)。這一系列動作的背后就是具身智能(Embodied AI),它的核心就是:讓 AI 擁有身體,擁有“行動的智能”,具備理解環(huán)境、感知人類指令、完成一連串操作的能力。
具體而言,具身智能是人工智能、機器人學(xué)、認知科學(xué)的交叉領(lǐng)域, 主要研究如何使機器人具備類似人類的感知、規(guī)劃、決策和行為能力[1]。不同于傳統(tǒng)的純計算智能(如語言模型或圖像識別),具身智能強調(diào)“身體”與環(huán)境的感知與互動,使用物理實體來感知和建模環(huán)境, 根據(jù)任務(wù)目標(biāo)和實體能力進行規(guī)劃和決策, 最后使用實體的運動能力來完成任務(wù)[2],賦予了AI在現(xiàn)實場景中執(zhí)行任務(wù)的能力。
具身智能的應(yīng)用場景極其廣泛,在以下領(lǐng)域中都有它的身影:
工業(yè)自動化:機械臂完成精準抓取、裝配、焊接等任務(wù),提高生產(chǎn)效率。
家庭服務(wù):服務(wù)機器人實現(xiàn)清掃、送物、協(xié)助老人等功能,改善生活質(zhì)量。
醫(yī)療輔助:手術(shù)機器人、康復(fù)機器人幫助醫(yī)生完成復(fù)雜操作或患者康復(fù)訓(xùn)練。
探索與救援:自主機器人進入危險區(qū)域執(zhí)行探測、救援任務(wù)。
教育與娛樂:教育機器人輔助教學(xué),陪伴機器人提供情感交互。
從“腦力型AI”(如ChatGPT、Copilot)走向“動手型AI”(如智能機械臂、家庭機器人),這是人工智能發(fā)展的必經(jīng)之路。畢竟,真正聰明的 AI,不該只是“懂”,更應(yīng)該能“做”。未來,隨著硬件成本降低、算法進步和數(shù)據(jù)積累,具身智能將成為智能時代的核心驅(qū)動力。
圖 1 具身智能可應(yīng)用于多種形態(tài)的機器人
來源:https://arxiv.org/pdf/2407.06886.pdf
2具身智能研發(fā)的挑戰(zhàn)
盡管具身智能前景廣闊,但具身智能的研發(fā)仍面臨諸多挑戰(zhàn),讓機器人高效學(xué)習(xí)新技能的道路并不平坦?,F(xiàn)實中的具身智能遠比想象中更復(fù)雜,特別是在控制機械臂這樣的典型任務(wù)上,哪怕是“開個門”,對研發(fā)人員來說都是“災(zāi)難三連”:
1搭建場景:在仿真環(huán)境中搭建物理場景,定義門的物理屬性、初始狀態(tài)
2設(shè)計動作:精心設(shè)計如何移動機械臂,如何抓門、門往哪開
3寫訓(xùn)練代碼:編寫?yīng)剟詈瘮?shù),調(diào)節(jié)超參數(shù),通過強化學(xué)習(xí)方法進行大量訓(xùn)練調(diào)優(yōu)
上面每一個環(huán)節(jié)都高度依賴人工干預(yù),開發(fā)周期長,效率低。更麻煩的是:每訓(xùn)練一個新技能,就像從頭造一輛車。比如你希望機器人學(xué)會“關(guān)窗”或“遞杯子”,就得重寫仿真環(huán)境、重新配置動作參數(shù),甚至連訓(xùn)練邏輯都得重做??偨Y(jié)下來,具身智能的研發(fā)過程有三座大山橫在前面:
高人力成本:每個新技能的開發(fā)都需要專業(yè)團隊投入數(shù)周甚至數(shù)月時間,涉及仿真設(shè)計、動作規(guī)劃、算法調(diào)試等多個領(lǐng)域。
低通用性:為特定任務(wù)設(shè)計的環(huán)境、動作和獎勵函數(shù)難以復(fù)用到其他任務(wù)。
擴展性差:當(dāng)任務(wù)復(fù)雜度增加(如從單一抓取到多物體協(xié)作),開發(fā)難度呈指數(shù)級上升,難以快速迭代。
所以現(xiàn)實中很多具身智能研究,只能聚焦于幾個固定任務(wù),很難做到快速拓展。
3使用大語言模型,打造“智能技能生成器”
近年來大語言模型(Large Language Model,LLM)以其強大的語言理解、知識推理和代碼生成能力,在多個領(lǐng)域展現(xiàn)出革命性潛力[3]。面對上一節(jié)中提到的挑戰(zhàn),我們思考:能不能把“自然語言+通用智能”的強大能力,用在具身智能開發(fā)上?是否有可能利用AI自身的智能,自動化技能開發(fā)流程,從而大幅降低成本、提升效率?
為此,我們參考了多個使用LLM的優(yōu)秀開源方案[4],并將其與具身智能的開發(fā)流程相結(jié)合。最終我們推出了:沐曦具身智能仿真生成系統(tǒng),實現(xiàn)從任務(wù)描述到技能學(xué)習(xí)的端到端自動化。
具體而言,我們使用具備強大語言理解與通用知識推理能力的 LLM,結(jié)合具身智能中機械臂任務(wù)的特性,設(shè)計了一系列高質(zhì)量的提示詞 Prompt 模板,讓它能夠自主生成新技能任務(wù),理解任務(wù)需求,將自然語言任務(wù)描述轉(zhuǎn)化為可執(zhí)行的仿真任務(wù),生成任務(wù)所需的全部內(nèi)容,實現(xiàn)了機械臂技能開發(fā)流程的高度自動化。
簡單來說,它有點像一個“具身任務(wù)魔法師”——你告訴它要完成什么任務(wù),它就能自動生成整套執(zhí)行方案,從場景到動作,從獎勵函數(shù)到仿真環(huán)境,全都一步到位,徹底改變了具身智能技能開發(fā)的范式。
本系統(tǒng)能夠自動完成以下任務(wù):
任務(wù) | 描述 |
生成技能任務(wù)描述 | 根據(jù)目標(biāo)物體,生成多個機械臂與之相關(guān)的任務(wù)描述 |
生成仿真環(huán)境配置 | 生成目標(biāo)物體在MuJoCo環(huán)境中的位置與屬性 |
生成任務(wù)操作步驟 | 根據(jù)任務(wù)技能與目標(biāo)物體,將任務(wù)分解為機械臂可執(zhí)行的動作序列 |
生成元動作序列 | 將復(fù)雜動作拆解為機械臂的基本動作單元 |
生成獎勵函數(shù)代碼 | 生成強化學(xué)習(xí)所需的獎勵函數(shù)邏輯代碼 |
生成物體初始狀態(tài) | 生成物體的初始狀態(tài)(如關(guān)節(jié)角度) |
上面整個過程中不再需要你手動寫 MuJoCo仿真平臺所需的場景XML配置、設(shè)置各種配置參數(shù)、調(diào)整代碼邏輯。你只需要告訴LLM場景中有哪些可操作的物體,系統(tǒng)就能自動生成多個機械臂操作不同物體的任務(wù),輸出每個任務(wù)完整的訓(xùn)練配置,然后調(diào)用 MuJoCo 引擎啟動仿真,機械臂就開始一一學(xué)習(xí)這些技能,是不是有點“AI 的魔法感”?
為了便于演示,本系統(tǒng)以廚房場景來展示整個的自動化執(zhí)行流程,其場景如下圖2所示。
圖 2 廚房虛擬場景樣例圖
本系統(tǒng)整個流程可以總結(jié)為兩個階段:任務(wù)生成階段和任務(wù)執(zhí)行階段,具體內(nèi)容如圖3所示。
圖 3 沐曦具身智能仿真生成系統(tǒng)框架
3.1任務(wù)生成階段
在任務(wù)生成階段,本系統(tǒng)會通過精心設(shè)計的提示詞,多次調(diào)用大語言模型,逐步生成新技能任務(wù)描述、任務(wù)對應(yīng)的仿真環(huán)境配置、機械臂執(zhí)行任務(wù)的操作步驟、仿真環(huán)境中物體初始配置參數(shù)等信息。每個步驟的具體作用如下:
技能任務(wù)描述生成
LLM根據(jù)場景中多個不同物體的屬性信息,生成多個機械臂操作物體的任務(wù)信息描述。任務(wù)描述中包含:任務(wù)名、任務(wù)詳細描述、機械臂操作的物體名稱、機械臂與物體交互的關(guān)節(jié)名等。針對廚房場景,其生成的部分樣例如下:
Task Name: Open Microwave Door Description: The robotic arm willopenthe microwave door. Additional Objects: None Bodies: - microdoorroot: from the semantics,thisisthe door of the microwave. The robot needs to approachthisdoorinorder toopenit. Joints: - microdoorroot_joint: from the articulation tree,thisisthe hinge joint that connects microdoorroot. Therefore, the robot needs to actuatethisjointforopening the door.
仿真環(huán)境配置生成
LLM根據(jù)生成的任務(wù)描述信息、不同物體的屬性信息,生成物體在仿真環(huán)境中的多項配置信息,包括:物體名稱、物體的空間位置、是否可移動等。LLM以YAML格式返回生成的配置信息。針對打開微波爐門任務(wù),其生成樣例如下:
- center: (0.6, 0.4, 1.6) movable:false name: microwave type: xml - center: (0.82, 0.16, 2.3) movable:false name: slidecabinet type: xml - center: (0.6, 0.4, 2.141) movable:true name: mug type: xml - task_description: The robotic arm will open the microwave door task_name: Open Microwave Door
任務(wù)操作步驟生成
LLM根據(jù)生成的任務(wù)描述信息、不同物體的屬性信息、機械臂具備的元動作函數(shù)列表、可從仿真環(huán)境中獲取狀態(tài)信息的函數(shù)列表,生成機械臂完成該任務(wù)所需執(zhí)行的一系列操作步驟。對于每個步驟,LLM需要判斷該操作的類型,包括:{元動作、強化學(xué)習(xí)動作}。若為元動作,則生成機械臂執(zhí)行的元動作序列,若為強化學(xué)習(xí)動作,則生成使用強化學(xué)習(xí)算法訓(xùn)練學(xué)習(xí)該技能所需獎勵函數(shù)Python邏輯代碼。針對打開滑動柜門任務(wù),其生成的工作步驟樣例如下:
substep1: move to the slidecabinet door substep2: grasp the slidecabinet door substep3: open the slidecabinet door substep4: release the slidecabinet door
物體初始狀態(tài)生成
LLM根據(jù)生成的任務(wù)描述信息、不同物體的屬性信息,生成該物體在仿真環(huán)境初始化時,各關(guān)節(jié)角度的默認值。如:開滑動柜門任務(wù)中,門的關(guān)節(jié)應(yīng)初始化為關(guān)閉狀態(tài)(0表示關(guān)閉,1表示開啟),其生成樣例如下:
jointvalues slidedoor_joint:0
3.2任務(wù)執(zhí)行階段
在任務(wù)生成階段完成多項生成任務(wù)后,本系統(tǒng)即可根據(jù)LLM生成環(huán)境配置信息、操作步驟信息、關(guān)節(jié)角度值,調(diào)用MuJoCo仿真引擎構(gòu)建虛擬環(huán)境,按生成步驟控制機械臂運動,執(zhí)行任務(wù)并完成強化學(xué)習(xí)訓(xùn)練。其中,包括執(zhí)行元動作,或調(diào)用強化學(xué)習(xí)算法進行訓(xùn)練與推理。最終系統(tǒng)將整個任務(wù)的操作過程通過仿真引擎渲染保存為視頻,如下圖4所示。
圖4 機械臂技能學(xué)習(xí)操作演示
4和傳統(tǒng)開發(fā)比,新方案優(yōu)勢是什么?
與傳統(tǒng)手動開發(fā)相比,新方案具有以下多個突破性優(yōu)勢。這意味著,即便你不是機器人專家,也能用大語言模型為機械臂設(shè)計新任務(wù);對于專業(yè)團隊而言,也可以極大提升開發(fā)效率,加快原型驗證,釋放更多創(chuàng)意空間。
對比維度 | 傳統(tǒng)流程 | 自動化系統(tǒng) |
開發(fā)周期 | 數(shù)周起步 | 數(shù)小時即可構(gòu)建原型 |
人力需求 | 多名工程師協(xié)作 | 單人即可完成 |
擴展任務(wù) | 手動重復(fù)工作 | 可快速迭代新任務(wù) |
復(fù)用性 | 低 | 高度模塊化、結(jié)構(gòu)統(tǒng)一 |
技術(shù)門檻 | 專業(yè)背景要求高 | 語言驅(qū)動、門檻低 |
新方案具備以下技術(shù)亮點:
提示工程:我們設(shè)計了一套針對具身任務(wù)的高質(zhì)量提示詞模板,確保LLM生成內(nèi)容的準確性和一致性。例如,提示詞會引導(dǎo)LLM明確物體屬性(如“關(guān)微波爐門任務(wù),門應(yīng)該處于開啟狀態(tài)”)和機械臂動作邏輯(如“先靠近門把手,再閉合夾爪”)。
模塊化生成:系統(tǒng)將任務(wù)分解為環(huán)境、動作、獎勵等模塊,分別生成并整合,既保證了生成內(nèi)容的結(jié)構(gòu)化,又便于調(diào)試和復(fù)用。
與MuJoCo深度集成:系統(tǒng)生成的配置能直接兼容MuJoCo仿真引擎,支持高效的物理仿真和實時渲染。
端到端訓(xùn)練:通過生成的獎勵函數(shù)和動作序列,系統(tǒng)支持強化學(xué)習(xí)的全流程自動化,機器人可在仿真中快速收斂到最優(yōu)策略。
最重要的一點,本系統(tǒng)完美適配沐曦C系列GPU產(chǎn)品,可在曦云C500 GPU上高效進行LLM大模型推理、以及多種強化學(xué)習(xí)算法的訓(xùn)練&推理。
5為什么開源?
我們希望更多人一起
創(chuàng)造具身智能!
雖然本系是以廚房場景機械臂操作物體為例,但參照本系統(tǒng)中方法,可以便捷拓展到輪式機器人、四足機器人等人形機器人,支持更復(fù)雜的多任務(wù)學(xué)習(xí)場景。例如,未來可實現(xiàn)“機器人自主整理房間”或“協(xié)作完成生產(chǎn)線裝配”等高級任務(wù)。
我們相信,具身智能的未來,是“人人可用、人人可創(chuàng)”的智能。
為了推動具身智能領(lǐng)域的進步,我們已經(jīng)正式開源完整的沐曦具身智能仿真生成系統(tǒng)方案,所有代碼可用,且示例齊全,歡迎所有開發(fā)者、研究者、愛好者嘗試、改進、拓展。
開源地址
GitHub:https://github.com/MetaX-MACA/Embodied_AI_Simulation
Gitee:https://gitee.com/metax-maca/Embodied_AI_Simulation
6結(jié)語
過去十年,AI 靠著“認字、聽話、寫代碼”帶來了巨大變革;而下一個十年,AI 將走出屏幕,走入工廠、家庭、醫(yī)院和每一個現(xiàn)實場景。具身智能就是連接這兩者的橋梁,它既有 AI 的大腦,也擁有對世界的“動手能力”。我們希望這套系統(tǒng),能讓更多人參與到具身智能的探索中來。不再困在復(fù)雜的開發(fā)流程里,不再被高門檻擋在門外!
-
機器人
+關(guān)注
關(guān)注
212文章
29313瀏覽量
211052 -
AI
+關(guān)注
關(guān)注
87文章
33711瀏覽量
274460 -
人工智能
+關(guān)注
關(guān)注
1804文章
48509瀏覽量
245324 -
具身智能
+關(guān)注
關(guān)注
0文章
101瀏覽量
345
原文標(biāo)題:【智算芯聞】具身智能的新范式:利用AI智能體加速機器人學(xué)習(xí)技能
文章出處:【微信號:沐曦MetaX,微信公眾號:沐曦MetaX】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
英特爾? 具身智能大小腦融合方案發(fā)布:構(gòu)建具身智能落地新范式

《具身智能機器人系統(tǒng)》第1-6章閱讀心得之具身智能機器人系統(tǒng)背景知識與基礎(chǔ)模塊
【「具身智能機器人系統(tǒng)」閱讀體驗】+初品的體驗
《具身智能機器人系統(tǒng)》第7-9章閱讀心得之具身智能機器人與大模型
【「具身智能機器人系統(tǒng)」閱讀體驗】1.初步理解具身智能
《具身智能機器人系統(tǒng)》第10-13章閱讀心得之具身智能機器人計算挑戰(zhàn)
【「具身智能機器人系統(tǒng)」閱讀體驗】2.具身智能機器人的基礎(chǔ)模塊
《電子發(fā)燒友電子設(shè)計周報》聚焦硬科技領(lǐng)域核心價值 第10期:2025.05.6--2025.05.9
沐曦人工智能推理GPU曦思N100的應(yīng)用優(yōu)勢
沐曦致力于為客戶構(gòu)建軟硬件一體的全面生態(tài)解決方案
廣和通榮登36氪具身智能創(chuàng)新應(yīng)用案例及2024年具身智能產(chǎn)業(yè)發(fā)展研究報告

廣和通榮登36氪具身智能創(chuàng)新應(yīng)用案例及《2024年具身智能產(chǎn)業(yè)發(fā)展研究報告》

評論