chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

咖啡機器人:具身智能技術(shù)首階段探索與實踐

京東云 ? 來源:jf_75140285 ? 作者:jf_75140285 ? 2025-04-18 15:44 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

一、前言

我是一名京東具身智能算法團隊的研究人員,目前,主要專注在真實場景真實機器人下打造一套快速落地新場景的具身智能技術(shù)架構(gòu),聚集機器人操作泛化能力提升,涉及模仿/強化學(xué)習(xí)、“視覺-語言-動作”大模型等方法研究。本文主要以第一階段咖啡機器人任務(wù)場景為切入點,來闡述所取得的技術(shù)突破,以及后續(xù)技術(shù)優(yōu)化方向。如下是機器人全程自主完成打咖啡的視頻。

二、問題定義和路徑選擇

具身智能,指的是配備實體身軀、支持物理交互的智能體所展現(xiàn)出的智能形態(tài)。憑借這一智能形式,機器人及其他智能設(shè)備得以在復(fù)雜多變的現(xiàn)實世界中執(zhí)行各類任務(wù)。然而,鑒于任務(wù)的復(fù)雜性以及操作所呈現(xiàn)出的高難度與多樣性,具身智能技術(shù)遭遇諸多挑戰(zhàn),當(dāng)前仍處于持續(xù)發(fā)展階段。現(xiàn)階段,多數(shù)具身智能研究僅在實驗室或結(jié)構(gòu)化場景中開展,很難將成果遷移至真實場景加以應(yīng)用。究其根源,理想環(huán)境屏蔽了諸多在真實場景中才會暴露的問題。有鑒于此,我將研究重心聚焦于真實場景下的具身智能技術(shù)突破,同時,為推動具身智能技術(shù)廣泛賦能多元業(yè)務(wù),著力打造一套能夠快速適配新場景的具身智能技術(shù)架構(gòu)。

目前,具身操作是具身智能核心技術(shù)卡點,其技術(shù)路線粗分為預(yù)測機器人操作動作與預(yù)測物體抓取位姿。前者泛化性弱且依賴大量專家數(shù)據(jù),后者難適用于復(fù)雜長序列任務(wù),靈巧手位姿也難獲取。鑒于此,創(chuàng)建了技術(shù)上乘上啟下“末端模仿” 新路徑,融合兩者優(yōu)勢,包括預(yù)測預(yù)抓取位姿(易實現(xiàn)、泛化性強)與統(tǒng)一操作軌跡學(xué)習(xí)(減少專家數(shù)據(jù)依賴、操作靈巧),且該路徑可靈活擴展為 “視覺 - 語言 - 動作” 大模型方法。

三、快速落地新場景技術(shù)架構(gòu)打造

在當(dāng)今快速變化的技術(shù)環(huán)境中,集團會面臨著不斷適應(yīng)新業(yè)務(wù)場景的挑戰(zhàn)。只能適應(yīng)單一場景的具身智能技術(shù)不具備長期價值,而能夠快速落地新場景的具身智能技術(shù)則至關(guān)重要。因此,針對于真實場景下機器人打咖啡任務(wù),打造了一套快速落地新場景的技術(shù)架構(gòu)原型,并取得了關(guān)鍵技術(shù)突破。

1、關(guān)鍵技術(shù)突破及價值

1)真實場景下從0到1打造具身智能系統(tǒng)技術(shù)架構(gòu)

面臨挑戰(zhàn):具身智能系統(tǒng)往往涉及內(nèi)容模塊較多,耦合關(guān)系較為復(fù)雜,可擴展性較差,難以快速適應(yīng)新任務(wù)場景。與此同時,真實場景下,往往面臨著通信時延、模型推理速度和系統(tǒng)穩(wěn)定性等挑戰(zhàn)。

技術(shù)突破:如下圖所示,打造了一套具備高擴展性的具身智能系統(tǒng)技術(shù)架構(gòu),只需定義合適的子任務(wù)序列就可落地新場景。其中,該系統(tǒng)以ROS系統(tǒng)為基礎(chǔ)構(gòu)建,整個流程通過主調(diào)度模塊進行協(xié)調(diào),確保各模塊之間的協(xié)同工作,通過不同控制模式?jīng)Q定系統(tǒng)不同階段的工作方式,包括導(dǎo)航、感知、基于Agent的任務(wù)規(guī)劃、遙操、具身操作等。此外,設(shè)計了模型異步推理、GRPC協(xié)議數(shù)據(jù)傳輸和子母路由通信等機制來攻克通信時延、推理速度慢等問題。

核心價值:在真實場景下,從0到1打造了整套具身智能系統(tǒng)技術(shù)架構(gòu),并且成功落地咖啡機器人任務(wù)場景中,而不是在簡單的實驗室或者結(jié)構(gòu)化場景下。與此同時,為后續(xù)真實場景下具身智能技術(shù)的研發(fā)提供了堅實的基礎(chǔ)。

wKgZO2gCAr2ARyvAAAS_Kpdz-J0120.png

2)面向雙臂靈巧手構(gòu)建高頻率一體式遙操技術(shù)

面臨挑戰(zhàn):目前,大多數(shù)遙操采用了同構(gòu)方式。這種方式需要額外配置相應(yīng)的機械臂,并且不同結(jié)構(gòu)機器人是無法共享,可擴展性及便捷性低。其次,雙臂和靈巧手的一體式遙操技術(shù)對其同步性及延遲率要求高,實現(xiàn)難度大。

技術(shù)突破:如以下視頻所示,構(gòu)建了面向雙臂靈巧手的一體式高頻率遙操技術(shù)。通過結(jié)合慣性動捕和視覺動捕技術(shù),對遙操設(shè)備進行了創(chuàng)新設(shè)計,使機器人能夠精準(zhǔn)復(fù)刻人類動作。同時,借助手和臂數(shù)據(jù)透傳技術(shù),優(yōu)化了從動作捕捉到控制執(zhí)行的高頻率跟隨鏈路,極大提升了系統(tǒng)響應(yīng)速度與操作精度。

核心價值:相比于行業(yè)其他遙操技術(shù),該技術(shù)具備輕量化、價格低廉和擴展性強特點。此外,通過該遙操技術(shù),雙臂靈巧手的整體控制頻率達50hz以上,并且系統(tǒng)延時在50ms以內(nèi)。

3)少量數(shù)據(jù)下實現(xiàn)物體位置的泛化操作

面臨挑戰(zhàn):具身操作的泛化性一直是一個挑戰(zhàn)性問題。目前,大多數(shù)方法都依賴于大量數(shù)據(jù)使其涌現(xiàn)出泛化性能。然而,大量的示教數(shù)據(jù)需要消耗大量人力物力。訓(xùn)練模型也需較多計算資源的支撐,且效果也難以達到較佳的泛化性能。

技術(shù)突破:如下圖所示,提出了基于末端模仿的泛化操作方法,聚集于統(tǒng)一的操作軌跡學(xué)習(xí),能在較少的數(shù)據(jù)下實現(xiàn)較強的位置泛化能力,涉及核心模塊包括:操作物體感知與位姿估計、預(yù)操作位姿到達和聚集物體的策略學(xué)習(xí)。此外,設(shè)計了聚集于物體的視覺特征提取模塊,增強對核心操作區(qū)域的感知。

核心價值:相比與行業(yè)已有方法,首次提出聚集于核心操作軌跡的學(xué)習(xí)方法,能在較少數(shù)據(jù)量情況下實現(xiàn)物體位置的泛化操作,在打咖啡任務(wù)中,成功率達90%以上。此外,在大量抓取任務(wù)中(拿掃碼槍、抓娃娃、搬箱子等等),該方法表現(xiàn)出的性能相比于baseline成功率提升了50%以上。

wKgZO2gCAr-AHlEgAAV48zZC5s0297.png

2、咖啡機器人任務(wù)場景實踐

基于所打造的具身智能技術(shù)架構(gòu),首先落地了咖啡機器人任務(wù)場景。機器人打咖啡任務(wù)主要包含以下幾個步驟:導(dǎo)航到咖啡機、拿起空杯子、放好杯子、點擊屏幕(選擇咖啡、確認(rèn)按鈕和已放好按鈕)、拿起咖啡杯、導(dǎo)航到用戶位置、將咖啡杯遞給人。打咖啡任務(wù)是一個真實場景下的長序列任務(wù),包含多個子任務(wù)。子任務(wù)都是按序列銜接好的,完成當(dāng)前子任務(wù)才會執(zhí)行下一個子任務(wù)。與此同時,設(shè)計了子任務(wù)是否成功完成的檢測機制,提升整個系統(tǒng)的魯棒性,比如:點擊屏幕過程中,如果沒有點擊觸發(fā),會反復(fù)點擊直到成功。即便面對打咖啡這樣復(fù)雜的場景,憑借該具身智能技術(shù)架構(gòu)打造的系統(tǒng),仍能以極高的成功率完成任務(wù)。以下是機器人打咖啡的精彩瞬間。

wKgZO2gCAsGAIG-0AAz_DZvIeOo045.png


拿空杯子

wKgZPGgCAsSAJjZbAA0ZW6Q_HdY140.png


放杯子

wKgZPGgCAseALO6eAAwCJoI2-Ko869.png


選咖啡

wKgZO2gCAsmAK9JdAAs2C_3lq0M985.png


點擊按鈕

wKgZO2gCAsuADJ6IAAzt6pYvYkQ440.png


拿咖啡杯

wKgZPGgCAs2AFfJdAAylrjpp76U084.png


遞送給人

在咖啡機器人任務(wù)場景實踐中,遇到諸多新問題。起初為機器人在胸部和頭部各配備 RealSense D435 相機,卻發(fā)現(xiàn)胸部相機易被機械臂遮擋,且兩款相機FOV 過小,常無法捕捉操作物體和靈巧手,而這類問題在實驗室桌面操作場景中難以察覺。于是,將頭部相機換成 FOV 更大的 ZED 相機,可新相機又導(dǎo)致模型視覺特征不聚集,遂通過聚焦手部局部視角解決。點擊屏幕時,按鈕需快速抽離動作才能觸發(fā),給靈巧手控制帶來極大困難。為此設(shè)計檢測機制,讓靈巧手能反復(fù)嘗試,有效提升了點擊成功率。

四、下一步技術(shù)優(yōu)化及進展

后續(xù),將進一步完善和優(yōu)化整個具身智能系統(tǒng)架構(gòu),使其能快速落地新場景。核心聚集于具身操作方向,提升機器人的泛化操作能力,擴充其技能庫的上限。結(jié)合具身技術(shù)發(fā)展趨勢以及現(xiàn)有架構(gòu)的不足,主要圍繞以下兩個方面開展工作。

“視覺-語言-動作”大模型促進快速落地新場景:“視覺-語言-動作”大模型會利用“視覺-語言”預(yù)訓(xùn)練模型知識來促進對機器人動作的學(xué)習(xí)。在大量的數(shù)據(jù)訓(xùn)練基礎(chǔ)上,“視覺-語言-動作”大模型將會涌現(xiàn)出令人意想不到的能力:基于語言指令的新技能泛化、新物體泛化、甚至多機協(xié)作能力。這些潛能在Figure AI公司最新發(fā)布的Helix模型實驗結(jié)果中已展現(xiàn)出來。

真機強化學(xué)習(xí)優(yōu)化整個具身智能系統(tǒng):在目前的具身操作技術(shù)中,大多數(shù)采用了模仿學(xué)習(xí)方法。然而,模仿學(xué)習(xí)存在其局限性,較為依賴于專家數(shù)據(jù),并且存在性能上限。強化學(xué)習(xí)方法則能使機器人探索更多數(shù)據(jù),突破其性能上限,對專家數(shù)據(jù)依賴程度較低。另外,真機強化學(xué)習(xí)是基于機器人實時與環(huán)境交互所得數(shù)據(jù)來優(yōu)化模型,這種優(yōu)化不僅僅是提升模型性能,而且能夠?qū)φ麄€具身系統(tǒng)進行優(yōu)化。

五、我對具身智能的思考和堅持

在具身智能技術(shù)的實際落地進程中,真實場景的復(fù)雜程度往往遠遠超出了在實驗室或結(jié)構(gòu)化場景中預(yù)先設(shè)定的界限。在真實任務(wù)場景中進行技術(shù)探索,不但有助于我們對算法的實際性能進行驗證和優(yōu)化,還能夠發(fā)掘出在實驗室或結(jié)構(gòu)化場景中未曾預(yù)想到的問題與挑戰(zhàn)。通過在真實場景中對技術(shù)進行測試和應(yīng)用,我們能夠獲取更為豐富的數(shù)據(jù)和反饋,進而推動技術(shù)不斷迭代和創(chuàng)新。

隨著 Figure AI 公司發(fā)布的 Helix 模型并在物流倉庫中的成功應(yīng)用,這使我愈發(fā)堅信具身智能的時代已然降臨。對其實現(xiàn)的技術(shù)邏輯進行剖析:重點圍繞一個機器人本體,在一個特定的垂類領(lǐng)域中積累充足的數(shù)據(jù)量,在 “視覺 - 語言 - 動作” 大模型的有力支持下,機器人能夠?qū)W會多種類人的技能,并且具有較強的泛化性能。其能夠出圈的核心在于圍繞一本體在真實場景下打磨技術(shù)。我認(rèn)為這是實現(xiàn)快速落地的較佳方案,值得借鑒。此外,當(dāng)前技術(shù)都圍繞提升機器人任務(wù)成功率開展,若要真正將其在新場景中落地,還必須考慮機器人完成任務(wù)的效率問題。

展望未來,機器人會逐步融入人類社會。我們須傾熱血與干勁,全力投身具身智能技術(shù)攻堅,力求讓技術(shù)快速落地新場景,為企業(yè)技術(shù)增長添磚加瓦。

審核編輯 黃宇

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 機器人
    +關(guān)注

    關(guān)注

    213

    文章

    30893

    瀏覽量

    221165
  • 具身智能
    +關(guān)注

    關(guān)注

    0

    文章

    348

    瀏覽量

    820
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    智能交流會

    。展會匯聚 90%+ 核心部件國產(chǎn)化供應(yīng)鏈,可快速實現(xiàn)技術(shù)落地,坐享粵港澳大灣區(qū) “機器人谷” 核心紅利。 2 、同期多展聯(lián)動 與工業(yè)自動化展、機器視覺展同期舉辦,形成 “感知(視覺)→決策(
    發(fā)表于 01-22 09:55

    資訊速遞 | 智能PMC(籌)發(fā)布“零成本”開源鴻蒙智能機器人系統(tǒng)

    面向智能機器人系統(tǒng)與應(yīng)用開發(fā),Ubuntu 等操作系統(tǒng)可以用 ROS2 生態(tài)、機器人仿真器、英偉達算力。 然而在國產(chǎn)化方面,開源鴻蒙操作
    的頭像 發(fā)表于 01-05 16:24 ?194次閱讀
    資訊速遞 | <b class='flag-5'>具</b><b class='flag-5'>身</b><b class='flag-5'>智能</b>PMC(籌)發(fā)布“零成本”開源鴻蒙<b class='flag-5'>智能</b><b class='flag-5'>機器人</b>系統(tǒng)

    廣和通智能開發(fā)平臺Fibot實現(xiàn)雙臂機器人疊衣服

    疊衣服、整理家務(wù)……這些看似簡單的日常任務(wù),對機器人而言卻是巨大的技術(shù)挑戰(zhàn)。如何讓機器人快速學(xué)會疊衣服?廣和通
    的頭像 發(fā)表于 12-11 13:43 ?1265次閱讀

    【「AI芯片:科技探索與AGI愿景」閱讀體驗】+智能芯片

    智能技術(shù)的關(guān)鍵要求: 1、基于憶阻器的感存算一體化技術(shù) 牛。都可以情感生成了。 2、智能的執(zhí)
    發(fā)表于 09-18 11:45

    機器人十大發(fā)展趨勢

    在2025世界機器人大會開幕式上發(fā)布了《2025智能機器人十大發(fā)展趨勢》,以下為全文。趨勢一第一,物理
    的頭像 發(fā)表于 08-12 13:22 ?1770次閱讀
    <b class='flag-5'>具</b><b class='flag-5'>身</b><b class='flag-5'>機器人</b>十大發(fā)展趨勢

    阿普奇加入江蘇省智能機器人產(chǎn)業(yè)聯(lián)盟,成為理事單位

    6 月 28 日,江蘇省智能機器人產(chǎn)業(yè)聯(lián)盟成立儀式暨產(chǎn)業(yè)創(chuàng)新發(fā)展對接會在南京隆重舉辦,標(biāo)志著江蘇
    的頭像 發(fā)表于 07-02 14:42 ?957次閱讀
    阿普奇加入江蘇省<b class='flag-5'>具</b><b class='flag-5'>身</b><b class='flag-5'>智能</b><b class='flag-5'>機器人</b>產(chǎn)業(yè)聯(lián)盟,成為理事單位

    瑞可達榮獲智能機器人技術(shù)先鋒獎

    技術(shù)創(chuàng)新與應(yīng)用落地的發(fā)展路徑,推動智能機器人產(chǎn)業(yè)邁向新的高度。在科技飛速發(fā)展的當(dāng)下,
    的頭像 發(fā)表于 06-16 18:09 ?1112次閱讀

    智能時代來臨,靈途科技助力人形機器人“感知升級”

    、驅(qū)動系統(tǒng)與AI算法的落地應(yīng)用,展覽與沙龍雙線并行,全面呈現(xiàn)人形機器人的前沿進展。 作為智能核心零部件供應(yīng)商,靈途科技攜多款自研高性能光電傳感器受邀亮相。 ? NEPCON Chi
    的頭像 發(fā)表于 04-28 09:31 ?627次閱讀
    <b class='flag-5'>具</b><b class='flag-5'>身</b><b class='flag-5'>智能</b>時代來臨,靈途科技助力人形<b class='flag-5'>機器人</b>“感知升級”

    智能工業(yè)機器人:引爆制造業(yè)‘自進化’革命

    智能工業(yè)機器人:引爆制造業(yè)‘自進化’革命 在工業(yè)4.0浪潮席卷全球的今天,制造業(yè)正經(jīng)歷從“自動化”到“智能化”的質(zhì)變。作為這場變革的核心
    的頭像 發(fā)表于 04-17 13:49 ?852次閱讀
    <b class='flag-5'>具</b><b class='flag-5'>身</b><b class='flag-5'>智能</b>工業(yè)<b class='flag-5'>機器人</b>:引爆制造業(yè)‘自進化’革命

    普渡科技推出類人形智能服務(wù)機器人閃電匣Arm

    近日,普渡機器人發(fā)布了全球款商用場景類人形智能服務(wù)機器人閃電匣Arm。
    的頭像 發(fā)表于 04-01 17:48 ?1290次閱讀

    解碼“什么是智能工業(yè)機器人

    在工業(yè)4.0與人工智能深度融合的浪潮中,“什么是智能工業(yè)機器人”成為制造業(yè)智能化轉(zhuǎn)型的核心議
    的頭像 發(fā)表于 03-21 14:47 ?1896次閱讀
    解碼“什么是<b class='flag-5'>具</b><b class='flag-5'>身</b><b class='flag-5'>智能</b>工業(yè)<b class='flag-5'>機器人</b>”

    成都華微與科技深化人工智能機器人領(lǐng)域合作

    近日,成都華微與四川人形機器人科技有限公司(科技)在成都高新區(qū)四川人工智能實驗室展開會談
    的頭像 發(fā)表于 02-28 16:58 ?1085次閱讀

    華數(shù)機器人亮相2025智能機器人科技產(chǎn)業(yè)金融大會

    近日,2025智能機器人科技產(chǎn)業(yè)金融大會暨重慶市機器人智能裝備產(chǎn)業(yè)聯(lián)合會年會在渝成功舉辦。
    的頭像 發(fā)表于 02-27 11:36 ?1357次閱讀

    智能工業(yè)機器人-打造智慧勞動力

    在工業(yè)4.0與智能制造深度融合的今天,智能工業(yè)機器人正成為推動制造業(yè)升級的核心力量。作為富唯智能
    的頭像 發(fā)表于 02-24 14:20 ?1309次閱讀

    英偉達高管到訪智能機器人創(chuàng)新中心

    近日,英偉達機器人技術(shù)業(yè)務(wù)領(lǐng)域的重量級人物——副總裁Deepu Talla,攜其團隊到訪了國家與地方共同建設(shè)的智能
    的頭像 發(fā)表于 01-23 10:30 ?1102次閱讀