一、前言
我是一名京東具身智能算法團隊的研究人員,目前,主要專注在真實場景真實機器人下打造一套快速落地新場景的具身智能技術(shù)架構(gòu),聚集機器人操作泛化能力提升,涉及模仿/強化學(xué)習(xí)、“視覺-語言-動作”大模型等方法研究。本文主要以第一階段咖啡機器人任務(wù)場景為切入點,來闡述所取得的技術(shù)突破,以及后續(xù)技術(shù)優(yōu)化方向。如下是機器人全程自主完成打咖啡的視頻。
二、問題定義和路徑選擇
具身智能,指的是配備實體身軀、支持物理交互的智能體所展現(xiàn)出的智能形態(tài)。憑借這一智能形式,機器人及其他智能設(shè)備得以在復(fù)雜多變的現(xiàn)實世界中執(zhí)行各類任務(wù)。然而,鑒于任務(wù)的復(fù)雜性以及操作所呈現(xiàn)出的高難度與多樣性,具身智能技術(shù)遭遇諸多挑戰(zhàn),當(dāng)前仍處于持續(xù)發(fā)展階段。現(xiàn)階段,多數(shù)具身智能研究僅在實驗室或結(jié)構(gòu)化場景中開展,很難將成果遷移至真實場景加以應(yīng)用。究其根源,理想環(huán)境屏蔽了諸多在真實場景中才會暴露的問題。有鑒于此,我將研究重心聚焦于真實場景下的具身智能技術(shù)突破,同時,為推動具身智能技術(shù)廣泛賦能多元業(yè)務(wù),著力打造一套能夠快速適配新場景的具身智能技術(shù)架構(gòu)。
目前,具身操作是具身智能核心技術(shù)卡點,其技術(shù)路線粗分為預(yù)測機器人操作動作與預(yù)測物體抓取位姿。前者泛化性弱且依賴大量專家數(shù)據(jù),后者難適用于復(fù)雜長序列任務(wù),靈巧手位姿也難獲取。鑒于此,創(chuàng)建了技術(shù)上乘上啟下“末端模仿” 新路徑,融合兩者優(yōu)勢,包括預(yù)測預(yù)抓取位姿(易實現(xiàn)、泛化性強)與統(tǒng)一操作軌跡學(xué)習(xí)(減少專家數(shù)據(jù)依賴、操作靈巧),且該路徑可靈活擴展為 “視覺 - 語言 - 動作” 大模型方法。
三、快速落地新場景技術(shù)架構(gòu)打造
在當(dāng)今快速變化的技術(shù)環(huán)境中,集團會面臨著不斷適應(yīng)新業(yè)務(wù)場景的挑戰(zhàn)。只能適應(yīng)單一場景的具身智能技術(shù)不具備長期價值,而能夠快速落地新場景的具身智能技術(shù)則至關(guān)重要。因此,針對于真實場景下機器人打咖啡任務(wù),打造了一套快速落地新場景的技術(shù)架構(gòu)原型,并取得了關(guān)鍵技術(shù)突破。
1、關(guān)鍵技術(shù)突破及價值
1)真實場景下從0到1打造具身智能系統(tǒng)技術(shù)架構(gòu)
面臨挑戰(zhàn):具身智能系統(tǒng)往往涉及內(nèi)容模塊較多,耦合關(guān)系較為復(fù)雜,可擴展性較差,難以快速適應(yīng)新任務(wù)場景。與此同時,真實場景下,往往面臨著通信時延、模型推理速度和系統(tǒng)穩(wěn)定性等挑戰(zhàn)。
技術(shù)突破:如下圖所示,打造了一套具備高擴展性的具身智能系統(tǒng)技術(shù)架構(gòu),只需定義合適的子任務(wù)序列就可落地新場景。其中,該系統(tǒng)以ROS系統(tǒng)為基礎(chǔ)構(gòu)建,整個流程通過主調(diào)度模塊進行協(xié)調(diào),確保各模塊之間的協(xié)同工作,通過不同控制模式?jīng)Q定系統(tǒng)不同階段的工作方式,包括導(dǎo)航、感知、基于Agent的任務(wù)規(guī)劃、遙操、具身操作等。此外,設(shè)計了模型異步推理、GRPC協(xié)議數(shù)據(jù)傳輸和子母路由通信等機制來攻克通信時延、推理速度慢等問題。
核心價值:在真實場景下,從0到1打造了整套具身智能系統(tǒng)技術(shù)架構(gòu),并且成功落地咖啡機器人任務(wù)場景中,而不是在簡單的實驗室或者結(jié)構(gòu)化場景下。與此同時,為后續(xù)真實場景下具身智能技術(shù)的研發(fā)提供了堅實的基礎(chǔ)。

2)面向雙臂靈巧手構(gòu)建高頻率一體式遙操技術(shù)
面臨挑戰(zhàn):目前,大多數(shù)遙操采用了同構(gòu)方式。這種方式需要額外配置相應(yīng)的機械臂,并且不同結(jié)構(gòu)機器人是無法共享,可擴展性及便捷性低。其次,雙臂和靈巧手的一體式遙操技術(shù)對其同步性及延遲率要求高,實現(xiàn)難度大。
技術(shù)突破:如以下視頻所示,構(gòu)建了面向雙臂靈巧手的一體式高頻率遙操技術(shù)。通過結(jié)合慣性動捕和視覺動捕技術(shù),對遙操設(shè)備進行了創(chuàng)新設(shè)計,使機器人能夠精準(zhǔn)復(fù)刻人類動作。同時,借助手和臂數(shù)據(jù)透傳技術(shù),優(yōu)化了從動作捕捉到控制執(zhí)行的高頻率跟隨鏈路,極大提升了系統(tǒng)響應(yīng)速度與操作精度。
核心價值:相比于行業(yè)其他遙操技術(shù),該技術(shù)具備輕量化、價格低廉和擴展性強特點。此外,通過該遙操技術(shù),雙臂靈巧手的整體控制頻率達50hz以上,并且系統(tǒng)延時在50ms以內(nèi)。
3)少量數(shù)據(jù)下實現(xiàn)物體位置的泛化操作
面臨挑戰(zhàn):具身操作的泛化性一直是一個挑戰(zhàn)性問題。目前,大多數(shù)方法都依賴于大量數(shù)據(jù)使其涌現(xiàn)出泛化性能。然而,大量的示教數(shù)據(jù)需要消耗大量人力物力。訓(xùn)練模型也需較多計算資源的支撐,且效果也難以達到較佳的泛化性能。
技術(shù)突破:如下圖所示,提出了基于末端模仿的泛化操作方法,聚集于統(tǒng)一的操作軌跡學(xué)習(xí),能在較少的數(shù)據(jù)下實現(xiàn)較強的位置泛化能力,涉及核心模塊包括:操作物體感知與位姿估計、預(yù)操作位姿到達和聚集物體的策略學(xué)習(xí)。此外,設(shè)計了聚集于物體的視覺特征提取模塊,增強對核心操作區(qū)域的感知。
核心價值:相比與行業(yè)已有方法,首次提出聚集于核心操作軌跡的學(xué)習(xí)方法,能在較少數(shù)據(jù)量情況下實現(xiàn)物體位置的泛化操作,在打咖啡任務(wù)中,成功率達90%以上。此外,在大量抓取任務(wù)中(拿掃碼槍、抓娃娃、搬箱子等等),該方法表現(xiàn)出的性能相比于baseline成功率提升了50%以上。

2、咖啡機器人任務(wù)場景實踐
基于所打造的具身智能技術(shù)架構(gòu),首先落地了咖啡機器人任務(wù)場景。機器人打咖啡任務(wù)主要包含以下幾個步驟:導(dǎo)航到咖啡機、拿起空杯子、放好杯子、點擊屏幕(選擇咖啡、確認(rèn)按鈕和已放好按鈕)、拿起咖啡杯、導(dǎo)航到用戶位置、將咖啡杯遞給人。打咖啡任務(wù)是一個真實場景下的長序列任務(wù),包含多個子任務(wù)。子任務(wù)都是按序列銜接好的,完成當(dāng)前子任務(wù)才會執(zhí)行下一個子任務(wù)。與此同時,設(shè)計了子任務(wù)是否成功完成的檢測機制,提升整個系統(tǒng)的魯棒性,比如:點擊屏幕過程中,如果沒有點擊觸發(fā),會反復(fù)點擊直到成功。即便面對打咖啡這樣復(fù)雜的場景,憑借該具身智能技術(shù)架構(gòu)打造的系統(tǒng),仍能以極高的成功率完成任務(wù)。以下是機器人打咖啡的精彩瞬間。

|
拿空杯子 |

|
放杯子 |

|
選咖啡 |

|
點擊按鈕 |

|
拿咖啡杯 |

|
遞送給人 |
在咖啡機器人任務(wù)場景實踐中,遇到諸多新問題。起初為機器人在胸部和頭部各配備 RealSense D435 相機,卻發(fā)現(xiàn)胸部相機易被機械臂遮擋,且兩款相機FOV 過小,常無法捕捉操作物體和靈巧手,而這類問題在實驗室桌面操作場景中難以察覺。于是,將頭部相機換成 FOV 更大的 ZED 相機,可新相機又導(dǎo)致模型視覺特征不聚集,遂通過聚焦手部局部視角解決。點擊屏幕時,按鈕需快速抽離動作才能觸發(fā),給靈巧手控制帶來極大困難。為此設(shè)計檢測機制,讓靈巧手能反復(fù)嘗試,有效提升了點擊成功率。
四、下一步技術(shù)優(yōu)化及進展
后續(xù),將進一步完善和優(yōu)化整個具身智能系統(tǒng)架構(gòu),使其能快速落地新場景。核心聚集于具身操作方向,提升機器人的泛化操作能力,擴充其技能庫的上限。結(jié)合具身技術(shù)發(fā)展趨勢以及現(xiàn)有架構(gòu)的不足,主要圍繞以下兩個方面開展工作。
“視覺-語言-動作”大模型促進快速落地新場景:“視覺-語言-動作”大模型會利用“視覺-語言”預(yù)訓(xùn)練模型知識來促進對機器人動作的學(xué)習(xí)。在大量的數(shù)據(jù)訓(xùn)練基礎(chǔ)上,“視覺-語言-動作”大模型將會涌現(xiàn)出令人意想不到的能力:基于語言指令的新技能泛化、新物體泛化、甚至多機協(xié)作能力。這些潛能在Figure AI公司最新發(fā)布的Helix模型實驗結(jié)果中已展現(xiàn)出來。
真機強化學(xué)習(xí)優(yōu)化整個具身智能系統(tǒng):在目前的具身操作技術(shù)中,大多數(shù)采用了模仿學(xué)習(xí)方法。然而,模仿學(xué)習(xí)存在其局限性,較為依賴于專家數(shù)據(jù),并且存在性能上限。強化學(xué)習(xí)方法則能使機器人探索更多數(shù)據(jù),突破其性能上限,對專家數(shù)據(jù)依賴程度較低。另外,真機強化學(xué)習(xí)是基于機器人實時與環(huán)境交互所得數(shù)據(jù)來優(yōu)化模型,這種優(yōu)化不僅僅是提升模型性能,而且能夠?qū)φ麄€具身系統(tǒng)進行優(yōu)化。
五、我對具身智能的思考和堅持
在具身智能技術(shù)的實際落地進程中,真實場景的復(fù)雜程度往往遠遠超出了在實驗室或結(jié)構(gòu)化場景中預(yù)先設(shè)定的界限。在真實任務(wù)場景中進行技術(shù)探索,不但有助于我們對算法的實際性能進行驗證和優(yōu)化,還能夠發(fā)掘出在實驗室或結(jié)構(gòu)化場景中未曾預(yù)想到的問題與挑戰(zhàn)。通過在真實場景中對技術(shù)進行測試和應(yīng)用,我們能夠獲取更為豐富的數(shù)據(jù)和反饋,進而推動技術(shù)不斷迭代和創(chuàng)新。
隨著 Figure AI 公司發(fā)布的 Helix 模型并在物流倉庫中的成功應(yīng)用,這使我愈發(fā)堅信具身智能的時代已然降臨。對其實現(xiàn)的技術(shù)邏輯進行剖析:重點圍繞一個機器人本體,在一個特定的垂類領(lǐng)域中積累充足的數(shù)據(jù)量,在 “視覺 - 語言 - 動作” 大模型的有力支持下,機器人能夠?qū)W會多種類人的技能,并且具有較強的泛化性能。其能夠出圈的核心在于圍繞一本體在真實場景下打磨技術(shù)。我認(rèn)為這是實現(xiàn)快速落地的較佳方案,值得借鑒。此外,當(dāng)前技術(shù)都圍繞提升機器人任務(wù)成功率開展,若要真正將其在新場景中落地,還必須考慮機器人完成任務(wù)的效率問題。
展望未來,機器人會逐步融入人類社會。我們須傾熱血與干勁,全力投身具身智能技術(shù)攻堅,力求讓技術(shù)快速落地新場景,為企業(yè)技術(shù)增長添磚加瓦。
審核編輯 黃宇
-
機器人
+關(guān)注
關(guān)注
213文章
30893瀏覽量
221165 -
具身智能
+關(guān)注
關(guān)注
0文章
348瀏覽量
820
發(fā)布評論請先 登錄
具身智能交流會
資訊速遞 | 具身智能PMC(籌)發(fā)布“零成本”開源鴻蒙智能機器人系統(tǒng)
廣和通具身智能開發(fā)平臺Fibot實現(xiàn)雙臂機器人疊衣服
【「AI芯片:科技探索與AGI愿景」閱讀體驗】+具身智能芯片
阿普奇加入江蘇省具身智能機器人產(chǎn)業(yè)聯(lián)盟,成為理事單位
瑞可達榮獲具身智能機器人技術(shù)先鋒獎
具身智能時代來臨,靈途科技助力人形機器人“感知升級”
具身智能工業(yè)機器人:引爆制造業(yè)‘自進化’革命
咖啡機器人:具身智能技術(shù)首階段探索與實踐
評論