chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

咖啡機器人:具身智能技術(shù)首階段探索與實踐

京東云 ? 來源:jf_75140285 ? 作者:jf_75140285 ? 2025-04-18 15:44 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

一、前言

我是一名京東具身智能算法團隊的研究人員,目前,主要專注在真實場景真實機器人下打造一套快速落地新場景的具身智能技術(shù)架構(gòu),聚集機器人操作泛化能力提升,涉及模仿/強化學(xué)習(xí)、“視覺-語言-動作”大模型等方法研究。本文主要以第一階段咖啡機器人任務(wù)場景為切入點,來闡述所取得的技術(shù)突破,以及后續(xù)技術(shù)優(yōu)化方向。如下是機器人全程自主完成打咖啡的視頻

二、問題定義和路徑選擇

具身智能,指的是配備實體身軀、支持物理交互的智能體所展現(xiàn)出的智能形態(tài)。憑借這一智能形式,機器人及其他智能設(shè)備得以在復(fù)雜多變的現(xiàn)實世界中執(zhí)行各類任務(wù)。然而,鑒于任務(wù)的復(fù)雜性以及操作所呈現(xiàn)出的高難度與多樣性,具身智能技術(shù)遭遇諸多挑戰(zhàn),當前仍處于持續(xù)發(fā)展階段?,F(xiàn)階段,多數(shù)具身智能研究僅在實驗室或結(jié)構(gòu)化場景中開展,很難將成果遷移至真實場景加以應(yīng)用。究其根源,理想環(huán)境屏蔽了諸多在真實場景中才會暴露的問題。有鑒于此,我將研究重心聚焦于真實場景下的具身智能技術(shù)突破,同時,為推動具身智能技術(shù)廣泛賦能多元業(yè)務(wù),著力打造一套能夠快速適配新場景的具身智能技術(shù)架構(gòu)。

目前,具身操作是具身智能核心技術(shù)卡點,其技術(shù)路線粗分為預(yù)測機器人操作動作與預(yù)測物體抓取位姿。前者泛化性弱且依賴大量專家數(shù)據(jù),后者難適用于復(fù)雜長序列任務(wù),靈巧手位姿也難獲取。鑒于此,創(chuàng)建了技術(shù)上乘上啟下“末端模仿” 新路徑,融合兩者優(yōu)勢,包括預(yù)測預(yù)抓取位姿(易實現(xiàn)、泛化性強)與統(tǒng)一操作軌跡學(xué)習(xí)(減少專家數(shù)據(jù)依賴、操作靈巧),且該路徑可靈活擴展為 “視覺 - 語言 - 動作” 大模型方法。

三、快速落地新場景技術(shù)架構(gòu)打造

在當今快速變化的技術(shù)環(huán)境中,集團會面臨著不斷適應(yīng)新業(yè)務(wù)場景的挑戰(zhàn)。只能適應(yīng)單一場景的具身智能技術(shù)不具備長期價值,而能夠快速落地新場景的具身智能技術(shù)則至關(guān)重要。因此,針對于真實場景下機器人打咖啡任務(wù),打造了一套快速落地新場景的技術(shù)架構(gòu)原型,并取得了關(guān)鍵技術(shù)突破。

1、關(guān)鍵技術(shù)突破及價值

1)真實場景下從0到1打造具身智能系統(tǒng)技術(shù)架構(gòu)

面臨挑戰(zhàn):具身智能系統(tǒng)往往涉及內(nèi)容模塊較多,耦合關(guān)系較為復(fù)雜,可擴展性較差,難以快速適應(yīng)新任務(wù)場景。與此同時,真實場景下,往往面臨著通信時延、模型推理速度和系統(tǒng)穩(wěn)定性等挑戰(zhàn)。

技術(shù)突破:如下圖所示,打造了一套具備高擴展性的具身智能系統(tǒng)技術(shù)架構(gòu),只需定義合適的子任務(wù)序列就可落地新場景。其中,該系統(tǒng)以ROS系統(tǒng)為基礎(chǔ)構(gòu)建,整個流程通過主調(diào)度模塊進行協(xié)調(diào),確保各模塊之間的協(xié)同工作,通過不同控制模式?jīng)Q定系統(tǒng)不同階段的工作方式,包括導(dǎo)航、感知、基于Agent的任務(wù)規(guī)劃、遙操、具身操作等。此外,設(shè)計了模型異步推理、GRPC協(xié)議數(shù)據(jù)傳輸和子母路由通信等機制來攻克通信時延、推理速度慢等問題。

核心價值:在真實場景下,從0到1打造了整套具身智能系統(tǒng)技術(shù)架構(gòu),并且成功落地咖啡機器人任務(wù)場景中,而不是在簡單的實驗室或者結(jié)構(gòu)化場景下。與此同時,為后續(xù)真實場景下具身智能技術(shù)的研發(fā)提供了堅實的基礎(chǔ)。

wKgZO2gCAr2ARyvAAAS_Kpdz-J0120.png

2)面向雙臂靈巧手構(gòu)建高頻率一體式遙操技術(shù)

面臨挑戰(zhàn):目前,大多數(shù)遙操采用了同構(gòu)方式。這種方式需要額外配置相應(yīng)的機械臂,并且不同結(jié)構(gòu)機器人是無法共享,可擴展性及便捷性低。其次,雙臂和靈巧手的一體式遙操技術(shù)對其同步性及延遲率要求高,實現(xiàn)難度大。

技術(shù)突破:如以下視頻所示,構(gòu)建了面向雙臂靈巧手的一體式高頻率遙操技術(shù)。通過結(jié)合慣性動捕和視覺動捕技術(shù),對遙操設(shè)備進行了創(chuàng)新設(shè)計,使機器人能夠精準復(fù)刻人類動作。同時,借助手和臂數(shù)據(jù)透傳技術(shù),優(yōu)化了從動作捕捉到控制執(zhí)行的高頻率跟隨鏈路,極大提升了系統(tǒng)響應(yīng)速度與操作精度。

核心價值:相比于行業(yè)其他遙操技術(shù),該技術(shù)具備輕量化、價格低廉和擴展性強特點。此外,通過該遙操技術(shù),雙臂靈巧手的整體控制頻率達50hz以上,并且系統(tǒng)延時在50ms以內(nèi)。

3)少量數(shù)據(jù)下實現(xiàn)物體位置的泛化操作

面臨挑戰(zhàn):具身操作的泛化性一直是一個挑戰(zhàn)性問題。目前,大多數(shù)方法都依賴于大量數(shù)據(jù)使其涌現(xiàn)出泛化性能。然而,大量的示教數(shù)據(jù)需要消耗大量人力物力。訓(xùn)練模型也需較多計算資源的支撐,且效果也難以達到較佳的泛化性能。

技術(shù)突破:如下圖所示,提出了基于末端模仿的泛化操作方法,聚集于統(tǒng)一的操作軌跡學(xué)習(xí),能在較少的數(shù)據(jù)下實現(xiàn)較強的位置泛化能力,涉及核心模塊包括:操作物體感知與位姿估計、預(yù)操作位姿到達和聚集物體的策略學(xué)習(xí)。此外,設(shè)計了聚集于物體的視覺特征提取模塊,增強對核心操作區(qū)域的感知。

核心價值:相比與行業(yè)已有方法,首次提出聚集于核心操作軌跡的學(xué)習(xí)方法,能在較少數(shù)據(jù)量情況下實現(xiàn)物體位置的泛化操作,在打咖啡任務(wù)中,成功率達90%以上。此外,在大量抓取任務(wù)中(拿掃碼槍、抓娃娃、搬箱子等等),該方法表現(xiàn)出的性能相比于baseline成功率提升了50%以上。

wKgZO2gCAr-AHlEgAAV48zZC5s0297.png

2、咖啡機器人任務(wù)場景實踐

基于所打造的具身智能技術(shù)架構(gòu),首先落地了咖啡機器人任務(wù)場景。機器人打咖啡任務(wù)主要包含以下幾個步驟:導(dǎo)航到咖啡機、拿起空杯子、放好杯子、點擊屏幕(選擇咖啡、確認按鈕和已放好按鈕)、拿起咖啡杯、導(dǎo)航到用戶位置、將咖啡杯遞給人。打咖啡任務(wù)是一個真實場景下的長序列任務(wù),包含多個子任務(wù)。子任務(wù)都是按序列銜接好的,完成當前子任務(wù)才會執(zhí)行下一個子任務(wù)。與此同時,設(shè)計了子任務(wù)是否成功完成的檢測機制,提升整個系統(tǒng)的魯棒性,比如:點擊屏幕過程中,如果沒有點擊觸發(fā),會反復(fù)點擊直到成功。即便面對打咖啡這樣復(fù)雜的場景,憑借該具身智能技術(shù)架構(gòu)打造的系統(tǒng),仍能以極高的成功率完成任務(wù)。以下是機器人打咖啡的精彩瞬間。

wKgZO2gCAsGAIG-0AAz_DZvIeOo045.png


拿空杯子

wKgZPGgCAsSAJjZbAA0ZW6Q_HdY140.png


放杯子

wKgZPGgCAseALO6eAAwCJoI2-Ko869.png


選咖啡

wKgZO2gCAsmAK9JdAAs2C_3lq0M985.png


點擊按鈕

wKgZO2gCAsuADJ6IAAzt6pYvYkQ440.png


拿咖啡杯

wKgZPGgCAs2AFfJdAAylrjpp76U084.png


遞送給人

在咖啡機器人任務(wù)場景實踐中,遇到諸多新問題。起初為機器人在胸部和頭部各配備 RealSense D435 相機,卻發(fā)現(xiàn)胸部相機易被機械臂遮擋,且兩款相機FOV 過小,常無法捕捉操作物體和靈巧手,而這類問題在實驗室桌面操作場景中難以察覺。于是,將頭部相機換成 FOV 更大的 ZED 相機,可新相機又導(dǎo)致模型視覺特征不聚集,遂通過聚焦手部局部視角解決。點擊屏幕時,按鈕需快速抽離動作才能觸發(fā),給靈巧手控制帶來極大困難。為此設(shè)計檢測機制,讓靈巧手能反復(fù)嘗試,有效提升了點擊成功率。

四、下一步技術(shù)優(yōu)化及進展

后續(xù),將進一步完善和優(yōu)化整個具身智能系統(tǒng)架構(gòu),使其能快速落地新場景。核心聚集于具身操作方向,提升機器人的泛化操作能力,擴充其技能庫的上限。結(jié)合具身技術(shù)發(fā)展趨勢以及現(xiàn)有架構(gòu)的不足,主要圍繞以下兩個方面開展工作。

“視覺-語言-動作”大模型促進快速落地新場景:“視覺-語言-動作”大模型會利用“視覺-語言”預(yù)訓(xùn)練模型知識來促進對機器人動作的學(xué)習(xí)。在大量的數(shù)據(jù)訓(xùn)練基礎(chǔ)上,“視覺-語言-動作”大模型將會涌現(xiàn)出令人意想不到的能力:基于語言指令的新技能泛化、新物體泛化、甚至多機協(xié)作能力。這些潛能在Figure AI公司最新發(fā)布的Helix模型實驗結(jié)果中已展現(xiàn)出來。

真機強化學(xué)習(xí)優(yōu)化整個具身智能系統(tǒng):在目前的具身操作技術(shù)中,大多數(shù)采用了模仿學(xué)習(xí)方法。然而,模仿學(xué)習(xí)存在其局限性,較為依賴于專家數(shù)據(jù),并且存在性能上限。強化學(xué)習(xí)方法則能使機器人探索更多數(shù)據(jù),突破其性能上限,對專家數(shù)據(jù)依賴程度較低。另外,真機強化學(xué)習(xí)是基于機器人實時與環(huán)境交互所得數(shù)據(jù)來優(yōu)化模型,這種優(yōu)化不僅僅是提升模型性能,而且能夠?qū)φ麄€具身系統(tǒng)進行優(yōu)化。

五、我對具身智能的思考和堅持

在具身智能技術(shù)的實際落地進程中,真實場景的復(fù)雜程度往往遠遠超出了在實驗室或結(jié)構(gòu)化場景中預(yù)先設(shè)定的界限。在真實任務(wù)場景中進行技術(shù)探索,不但有助于我們對算法的實際性能進行驗證和優(yōu)化,還能夠發(fā)掘出在實驗室或結(jié)構(gòu)化場景中未曾預(yù)想到的問題與挑戰(zhàn)。通過在真實場景中對技術(shù)進行測試和應(yīng)用,我們能夠獲取更為豐富的數(shù)據(jù)和反饋,進而推動技術(shù)不斷迭代和創(chuàng)新。

隨著 Figure AI 公司發(fā)布的 Helix 模型并在物流倉庫中的成功應(yīng)用,這使我愈發(fā)堅信具身智能的時代已然降臨。對其實現(xiàn)的技術(shù)邏輯進行剖析:重點圍繞一個機器人本體,在一個特定的垂類領(lǐng)域中積累充足的數(shù)據(jù)量,在 “視覺 - 語言 - 動作” 大模型的有力支持下,機器人能夠?qū)W會多種類人的技能,并且具有較強的泛化性能。其能夠出圈的核心在于圍繞一本體在真實場景下打磨技術(shù)。我認為這是實現(xiàn)快速落地的較佳方案,值得借鑒。此外,當前技術(shù)都圍繞提升機器人任務(wù)成功率開展,若要真正將其在新場景中落地,還必須考慮機器人完成任務(wù)的效率問題。

展望未來,機器人會逐步融入人類社會。我們須傾熱血與干勁,全力投身具身智能技術(shù)攻堅,力求讓技術(shù)快速落地新場景,為企業(yè)技術(shù)增長添磚加瓦。

審核編輯 黃宇

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 機器人
    +關(guān)注

    關(guān)注

    213

    文章

    29748

    瀏覽量

    212903
  • 具身智能
    +關(guān)注

    關(guān)注

    0

    文章

    143

    瀏覽量

    475
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    瑞可達榮獲智能機器人技術(shù)先鋒獎

    技術(shù)創(chuàng)新與應(yīng)用落地的發(fā)展路徑,推動智能機器人產(chǎn)業(yè)邁向新的高度。在科技飛速發(fā)展的當下,
    的頭像 發(fā)表于 06-16 18:09 ?601次閱讀

    普渡科技推出類人形智能服務(wù)機器人閃電匣Arm

    近日,普渡機器人發(fā)布了全球款商用場景類人形智能服務(wù)機器人閃電匣Arm。
    的頭像 發(fā)表于 04-01 17:48 ?672次閱讀

    解碼“什么是智能工業(yè)機器人

    在工業(yè)4.0與人工智能深度融合的浪潮中,“什么是智能工業(yè)機器人”成為制造業(yè)智能化轉(zhuǎn)型的核心議
    的頭像 發(fā)表于 03-21 14:47 ?667次閱讀
    解碼“什么是<b class='flag-5'>具</b><b class='flag-5'>身</b><b class='flag-5'>智能</b>工業(yè)<b class='flag-5'>機器人</b>”

    【「智能機器人系統(tǒng)」閱讀體驗】2.智能機器人的基礎(chǔ)模塊

    智能機器人的基礎(chǔ)模塊,這個是本書的第二部分內(nèi)容,主要分為四個部分:機器人計算系統(tǒng),自主機器人
    發(fā)表于 01-04 19:22

    智能機器人系統(tǒng)》第10-13章閱讀心得之智能機器人計算挑戰(zhàn)

    閱讀《智能機器人系統(tǒng)》第10-13章,我對智能
    發(fā)表于 01-04 01:15

    【「智能機器人系統(tǒng)」閱讀體驗】+兩本互為支持的書

    之極。 《計算機視覺之PyTorch數(shù)字圖像處理》為《智能機器人系統(tǒng)》提供了感知和識別能力,而《
    發(fā)表于 01-01 15:50

    【「智能機器人系統(tǒng)」閱讀體驗】2.智能機器人大模型

    近年來,人工智能領(lǐng)域的大模型技術(shù)在多個方向上取得了突破性的進展,特別是在機器人控制領(lǐng)域展現(xiàn)出了巨大的潛力。在“
    發(fā)表于 12-29 23:04

    【「智能機器人系統(tǒng)」閱讀體驗】1.初步理解智能

    對人工智能機器人技術(shù)和計算系統(tǒng)交叉領(lǐng)域感興趣的讀者來說不可或缺的書。這本書深入探討了智能
    發(fā)表于 12-28 21:12

    【「智能機器人系統(tǒng)」閱讀體驗】1.全書概覽與第一章學(xué)習(xí)

    了解智能機器人相關(guān)的知識,我感到十分榮幸和幸運。 全書簡介 本書以循序漸進的方式展開,通過對
    發(fā)表于 12-27 14:50

    智能機器人系統(tǒng)》第7-9章閱讀心得之智能機器人與大模型

    研讀《智能機器人系統(tǒng)》第7-9章,我被書中對大模型與機器人技術(shù)融合的深入分析所吸引。第7章詳
    發(fā)表于 12-24 15:03

    【「智能機器人系統(tǒng)」閱讀體驗】+初品的體驗

    的學(xué)習(xí)資源,以培養(yǎng)更多的專業(yè)人才。隨著智能機器人技術(shù)對社會的影響越來越大,該書還可以向公眾普及相關(guān)的知識,以提升社會對新
    發(fā)表于 12-20 19:17

    智能機器人系統(tǒng)》第1-6章閱讀心得之智能機器人系統(tǒng)背景知識與基礎(chǔ)模塊

    要給AI這個聰明的“頭腦”裝上一副“身體”。這個“身體”可以是一部手機,可以是一臺自動駕駛汽車。而人形機器人則是集各類核心尖端技術(shù)于一體的載體,是
    發(fā)表于 12-19 22:26

    名單公布!【書籍評測活動NO.51】智能機器人系統(tǒng) | 了解AI的下一個浪潮!

    體的自主性、處理復(fù)雜環(huán)境互動的能力及確保行為的倫理和安全性。 未來的研究需要將視覺、語音和其他傳感技術(shù)機器人技術(shù)結(jié)合,探索更加先進的知識表示和記憶模塊,利用強化學(xué)習(xí)進一步優(yōu)化決策過程
    發(fā)表于 11-11 10:20

    智能機器人技術(shù)中的發(fā)展

    智能(Embodied Intelligence)在機器人技術(shù)中的發(fā)展是人工智能領(lǐng)域的一個重
    的頭像 發(fā)表于 10-27 09:48 ?1984次閱讀

    國內(nèi)首個智能工業(yè)機器人領(lǐng)域報告重磅開啟!

    國家級智庫聯(lián)合行業(yè)知名企業(yè)發(fā)布的智能工業(yè)領(lǐng)域?qū)I(yè)研究報告。報告將聚焦我國新形態(tài)工業(yè)機器人發(fā)展范式改革,重點從“
    的頭像 發(fā)表于 09-29 09:07 ?621次閱讀
    國內(nèi)首個<b class='flag-5'>具</b><b class='flag-5'>身</b><b class='flag-5'>智能</b>工業(yè)<b class='flag-5'>機器人</b>領(lǐng)域報告重磅開啟!