chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

喜訊 | 京東聯(lián)合地瓜機器人等多家企業(yè)高校,推出業(yè)內(nèi)首個具身智能原子技能庫架構(gòu)

地瓜機器人 ? 2025-02-20 18:14 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

概述


隨著大模型技術(shù)的進步,具身智能也迎來了快速的發(fā)展。但在國內(nèi)眾多企業(yè)與高校推動相關(guān)技術(shù)發(fā)展的過程中,核心挑戰(zhàn)仍在于具身操作泛化能力,即如何在有限的具身數(shù)據(jù)下,使機器人適應復雜場景并實現(xiàn)技能高效遷移。

為此,京東探索研究院李律松、李東江博士團隊聯(lián)合地瓜機器人秦玉森團隊、中科大徐童團隊、深圳大學鄭琪團隊、松靈機器人及睿爾曼智能吳波團隊共同提出具身智能原子技能庫架構(gòu),并得到了清華 RDT 團隊在baseline 方法上的技術(shù)支持。

該方案是業(yè)界首個基于三輪數(shù)據(jù)驅(qū)動的具身智能原子技能庫構(gòu)建框架,突破了傳統(tǒng)端到端具身操作的數(shù)據(jù)瓶頸,可動態(tài)自定義和更新原子技能,并結(jié)合數(shù)據(jù)收集與 VLA 少樣本學習構(gòu)建高效技能庫。

與此同時,這也將是首個面向具身產(chǎn)業(yè)應用的數(shù)據(jù)采集新范式,旨在形成數(shù)據(jù)標準,解決當前具身智能領(lǐng)域數(shù)據(jù)匱乏的問題,特別是在高校與產(chǎn)業(yè)之間數(shù)據(jù)和范式的流動上,從而加速具身大模型研究的推進與實際落地。

wKgZPGe2--mAAUuWAADDWUAD5q8006.png

論文標題:An Atomic Skill Library Construction Method for Data-Efficient EmbodiedManipulation

原文鏈接:https://arxiv.org/pdf/2501.15068

研究背景


具身智能,即具身人工智能,在生成式 AI 時代迎來重要突破。通過跨模態(tài)融合,將文本、圖像、語音等數(shù)據(jù)映射到統(tǒng)一的語義向量空間,為具身智能技術(shù)發(fā)展提供新契機。VLA(視覺-語言-動作)模型在數(shù)據(jù)可用性與多模態(tài)技術(shù)推動下不斷取得進展。然而,現(xiàn)實環(huán)境的復雜性使具身操作模型在泛化性上仍面臨挑戰(zhàn)。端到端訓練依賴海量數(shù)據(jù),會導致“數(shù)據(jù)爆炸”問題,限制 VLA 發(fā)展。將任務分解為可重用的原子技能降低數(shù)據(jù)需求,但現(xiàn)有方法受限于固定技能集,無法動態(tài)更新。

為解決此問題,團隊提出了基于三輪數(shù)據(jù)驅(qū)動的原子技能庫構(gòu)建方法,可在仿真或真實環(huán)境的模型訓練中減少數(shù)據(jù)需求。如圖所示,VLP(視覺-語言-規(guī)劃)模型將任務分解為子任務,高級語義抽象模塊將子任務定義為通用原子技能集,并通過數(shù)據(jù)收集與VLA微調(diào)構(gòu)建技能庫。隨著三輪更新策略的動態(tài)擴展,技能庫不斷擴增,覆蓋任務范圍擴大。該方法將重點從端到端技能學習轉(zhuǎn)向細顆粒度的原子技能構(gòu)建,有效解決數(shù)據(jù)爆炸問題,并提升新任務適應能力。

wKgZPGe2_Z2AaNz4AACN9d9vmpc201.png基于三輪數(shù)據(jù)驅(qū)動的原子技能庫構(gòu)建與推理流程

為什么需要 VLP?
VLP 需要具有哪些能力?


從產(chǎn)業(yè)落地角度看,具身操作是關(guān)鍵模塊。目前,端到端 VLA 進行高頻開環(huán)控制,即便中間動作失敗,仍輸出下一階段控制信號。因此,VLA 在高頻控制機器人/機械臂時,強烈依賴VLP提供低頻智能控制,以指導階段性動作生成,并協(xié)調(diào)任務執(zhí)行節(jié)奏。

為統(tǒng)一訓練與推理的任務分解,本文構(gòu)建了集成視覺感知、語言理解和空間智能的VLP Agent。如圖所示,VLP Agent 接收任務指令文本與當前觀察圖像,并利用Prismatic生成場景描述??紤]到 3D 世界的復雜性,我們設(shè)計了一種空間智能感知策略:首先,Dino-X檢測任務相關(guān)物體并輸出邊界框;然后,SAM-2提供精細分割掩碼,并基于規(guī)則判斷物體間的空間關(guān)系。最終,這些視覺與空間信息與任務指令一同輸入GPT-4,生成完整執(zhí)行計劃并指定下一個子任務。VLP Agent 通過該方法在原子技能庫構(gòu)建中有效分解端到端任務,并在推理過程中提供低頻控制信號,規(guī)劃并指導高頻原子技能的執(zhí)行。

wKgZPGe2_LmAMjrxAADJuNdigSc472.png基于空間智能信息的 VLP Agent 具身思維鏈框架

VLA 存在的問題是什么?
在框架中起什么作用?


VLA 技術(shù)從專用數(shù)據(jù)向通用數(shù)據(jù)演進,機器人軌跡數(shù)據(jù)已達1M episodes級別;模型參數(shù)規(guī)模從千億級向端側(cè)部署發(fā)展;性能上,VLA 從單一場景泛化至多場景,提升技能遷移能力。盡管端到端任務采集與訓練有助于科研算法優(yōu)化,但在通用機器人應用中,人為定義端到端任務易導致任務窮盡問題。在單任務下,物品位置泛化、背景干擾、場景變化仍是主要挑戰(zhàn),即便強大預訓練模型仍需大量數(shù)據(jù)克服;多任務下,數(shù)據(jù)需求呈指數(shù)級增長,面臨“數(shù)據(jù)爆炸”風險。

提出的三輪數(shù)據(jù)驅(qū)動的原子技能庫方法可結(jié)合SOTA VLA模型,通過高級語義抽象模塊將復雜子任務映射為結(jié)構(gòu)化原子技能,并結(jié)合數(shù)據(jù)收集與 VLA 少樣本學習高效構(gòu)建技能庫。VLA 可塑性衡量模型從多本體遷移至特定本體的能力,泛化性則評估其應對物體、場景、空間變化的表現(xiàn)。以RDT-1B作品為例,我們基于6000 條開源數(shù)據(jù)及2000 條自有數(shù)據(jù)微調(diào)VLA 模型。測試結(jié)果表明,模型在物品和場景泛化上表現(xiàn)優(yōu)異,但在物品位置泛化方面存在一定局限,且訓練步數(shù)對最終性能影響顯著。為進一步優(yōu)化,團隊進行了兩項實驗包括位置泛化能力提升及訓練步長優(yōu)化測試。這類VLA 模型性能測試對于原子技能庫構(gòu)建至關(guān)重要,測試結(jié)果不僅優(yōu)化了Prompt 設(shè)計,也進一步增強了高級語義抽象模塊在子任務映射與技能定義中的精準性。

為什么構(gòu)建原子技能庫?
怎樣構(gòu)建?
具身操作技能學習數(shù)據(jù)源包括互聯(lián)網(wǎng)、仿真引擎和真實機器人數(shù)據(jù),三者獲取成本遞增,數(shù)據(jù)價值依次提升。在多任務多本體機器人技能學習中,OpenVLA和Pi0依托預訓練VLM,再用真實軌跡數(shù)據(jù)進行模態(tài)對齊并訓練技能,而RDT-1B直接基于百萬級機器人真實軌跡數(shù)據(jù)預訓練,可適配不同本體與任務。無論模型架構(gòu)如何,真實軌跡數(shù)據(jù)仍是關(guān)鍵。原子技能庫的構(gòu)建旨在降低數(shù)據(jù)采集成本,同時增強任務適配能力,提升具身操作的通用性,以滿足產(chǎn)業(yè)應用需求。

基于數(shù)據(jù)驅(qū)動的原子技能庫構(gòu)建方法,結(jié)合端到端具身操作VLA與具身規(guī)劃VLP,旨在構(gòu)建系統(tǒng)化的技能庫。VLP 將TASK A, B, C, ..., N分解為Sub-task #1, #2, ..., #a+1。高級語義抽象模塊基于SOTAVLA模型測試可調(diào)整任務粒度,進一步將子任務映射為通用原子技能定義*1, *2, ..., *b+1,并通過數(shù)據(jù)收集與 VLA 少樣本學習,構(gòu)建包含*1', *2', ..., *b+1'的原子技能庫。面對新任務TASK N+1,若所需技能已在庫中,則可直接執(zhí)行;若缺失,則觸發(fā)高級語義抽象模塊,基于現(xiàn)有技能庫進行原子技能定義更新,僅需對缺失的原子技能收集額外數(shù)據(jù)與 VLA 微調(diào)。隨著原子技能庫動態(tài)擴增,其適應任務范圍不斷增加。相比傳統(tǒng)TASK 級數(shù)據(jù)采集,提出的原子技能庫所需要的數(shù)據(jù)采集量根據(jù)任務難度成指數(shù)級下降,同時提升技能適配能力。

實驗與結(jié)果分析

驗證問題

  • 在相同物體點位下采集軌跡數(shù)據(jù),所提方法能否以更少數(shù)據(jù)達到端到端方法性能?
  • 在收集相同數(shù)量的軌跡數(shù)據(jù)下,所提方法能否優(yōu)于端到端方法?
  • 面對新任務,所提方法是否能夠在不依賴或者少依賴新數(shù)據(jù)的條件下仍然有效?
  • 所提方法是否適用于不同VLA模型,并保持有效性和效率?

實驗設(shè)置


針對上述問題,我們設(shè)計了四個挑戰(zhàn)性任務,并在RDT-1B和Octo基準模型上,以Agilex 雙臂機器人進行測試。實驗采用端到端方法和所提方法分別采集數(shù)據(jù),以對比兩者在數(shù)據(jù)利用效率和任務泛化能力上的表現(xiàn)。具體實驗設(shè)置如下:

  • 拿起香蕉并放入盤子
  • 端到端方法:從4 個香蕉點位和2 個盤子點位采集24 條軌跡。
  • 所提方法:保持數(shù)據(jù)分布一致,分解為12 條抓取香蕉軌跡和6 條放置香蕉軌跡。
  • 為匹配端到端數(shù)據(jù)量,進一步擴大采樣范圍,從8 個香蕉點位采集24 條抓取軌跡,3 個盤子點位采集24 條放置軌跡。
  • 拿起瓶子并向杯中倒水
  • 端到端方法:從3 個瓶子點位和3 個杯子點位采集27 條軌跡。
  • 所提方法:分解為9 條抓取瓶子軌跡和9 條倒水軌跡,確保數(shù)據(jù)分布一致。
  • 進一步擴大采樣范圍,從9 個瓶子點位采集27 條抓取軌跡,9 個杯子點位采集27 條倒水軌跡。
  • 拿起筆并放入筆筒
  • 端到端方法:從4 個筆點位和2 個筆筒點位采集24 條軌跡。
  • 所提方法:分解為12 條抓取筆軌跡和6 條放置筆軌跡,保持數(shù)據(jù)分布一致。
  • 進一步擴大采樣范圍,從8 個筆點位采集24 條抓取軌跡,3 個筆筒點位采集24 條放置軌跡。
  • 按指定順序抓取積木(紅、綠、藍)
  • 端到端方法:采集10 條軌跡,固定積木位置,按順序抓取紅色、綠色、藍色積木。
  • 所提方法:為匹配端到端數(shù)據(jù)量,分別采集10 條抓取紅色、綠色、藍色積木軌跡,共30 條。
wKgZO2e2_yqAUHl1AAGZHjGeRhE835.png任務定義與可視化

實驗結(jié)果


前三個任務用于驗證所提方法在數(shù)據(jù)效率和操作性能上的表現(xiàn),第四個任務則評估其新任務適應能力。為確保公平性,每種實驗設(shè)置均在Octo和RDT-1B上進行10 次測試,對比端到端方法與所提方法(“Ours” 和 “Ours-plus”)。如表1所示,“End-To-End”:原始端到端VLA方法;“Ours”:保持數(shù)據(jù)分布一致,但數(shù)據(jù)量更?。弧癘urs-plus”:保持數(shù)據(jù)量一致,但采集更多點位;“ID”:任務點位在訓練數(shù)據(jù)分布內(nèi);“OOD”:任務點位超出訓練數(shù)據(jù)分布。在第四個任務中,設(shè)定紅-綠-藍順序抓取積木為已知任務,并采集數(shù)據(jù)訓練模型。針對其他顏色順序的未知任務,直接調(diào)用已訓練的技能進行測試,以評估方法的泛化能力(見表 2)。結(jié)果分析如下:

Q1: 從表 1 可見,Octo 和 RDT-1B在使用所提方法后,成功率與端到端方法相當甚至更高。在拿起瓶子并向杯中倒水任務中,OOD 測試成功率提升 20%,表明該方法在相同點位分布下,減少數(shù)據(jù)需求同時提升性能。

Q2: 在相同數(shù)據(jù)量下,所提方法顯著提升成功率。例如,在拿起香蕉并放入盤子任務中,OOD 情況下成功率提高 40%,歸因于從更多點位采集數(shù)據(jù),增強模型泛化能力。

Q3: 從表 2 可見,端到端方法僅適用于已知任務,無法泛化新任務,而所提方法能通過已有技能組合成功執(zhí)行不同的新任務。

Q4: 表 1 和表 2 進一步驗證,所提方法在多種VLA模型上均提升數(shù)據(jù)效率、操作性能和新任務適應能力,適用于不同模型的泛化與優(yōu)化。

wKgZO2e2_4-AMmyNAAENtnhbzyc201.png表1:與原始端到端方法實驗結(jié)果對比wKgZPGe2_8OAcxqKAABW7VpAKk0093.png表2:與原始端到端方法方塊抓取任務實驗結(jié)果對比

小結(jié)


基于三輪數(shù)據(jù)驅(qū)動的原子技能庫構(gòu)建框架,旨在解決傳統(tǒng)端到端具身操作策略帶來的“數(shù)據(jù)爆炸”問題,為具身智能產(chǎn)業(yè)應用提供創(chuàng)新解決方案。該框架具有廣泛價值,可用于提升物流倉儲、智能制造、醫(yī)療輔助等領(lǐng)域的自動化水平。例如,在醫(yī)療輔助和服務機器人領(lǐng)域,它能夠增強自主交互能力,助力精準操作。希望此項工作能夠為行業(yè)提供重要啟示,促進學術(shù)界與產(chǎn)業(yè)界的深度合作,加速具身智能技術(shù)的實際應用。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 機器人
    +關(guān)注

    關(guān)注

    213

    文章

    31412

    瀏覽量

    223579
  • 數(shù)據(jù)
    +關(guān)注

    關(guān)注

    8

    文章

    7348

    瀏覽量

    95008
  • 人工智能
    +關(guān)注

    關(guān)注

    1820

    文章

    50304

    瀏覽量

    266851
  • 具身智能
    +關(guān)注

    關(guān)注

    0

    文章

    463

    瀏覽量

    905
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    我國首個人形機器人智能標準體系發(fā)布,靈境智源參與編制

    2026年2月28日,人形機器人智能標準化(HEIS)年會在北京召開。會上正式發(fā)布《人形機器人
    的頭像 發(fā)表于 03-04 17:27 ?659次閱讀

    中興通訊推動智能機器人行業(yè)創(chuàng)新發(fā)展

    、復旦大學國內(nèi)頂尖高校多家前沿科技企業(yè)的三十余位專家學者,圍繞
    的頭像 發(fā)表于 02-27 11:10 ?943次閱讀

    智能交流會

    合作伙伴:工業(yè)自動化系統(tǒng)集成商、機器視覺解決方案商、機器人集成商、AI 算法企業(yè) 五、支持資源: 高校 / 科研院所、政府產(chǎn)業(yè)部門、產(chǎn)業(yè)園
    發(fā)表于 01-22 09:55

    【前瞻技術(shù)布局】咖啡機器人智能技術(shù)首階段探索與實踐

    一、前言 我是一名京東智能算法團隊的研究人員,目前,主要專注在 真實場景真實機器人 下打造一套 快速落地新場景的
    的頭像 發(fā)表于 12-23 18:56 ?181次閱讀
    【前瞻技術(shù)布局】咖啡<b class='flag-5'>機器人</b>:<b class='flag-5'>具</b><b class='flag-5'>身</b><b class='flag-5'>智能</b>技術(shù)首階段探索與實踐

    2026寒假第三十三屆全國高校智能機器人與嵌入式Linux高級師資培訓通知

    2026寒假第三十三屆全國高校智能機器人與嵌入式Linux高級師資培訓通知
    的頭像 發(fā)表于 12-04 11:23 ?447次閱讀
    2026寒假第三十三屆全國<b class='flag-5'>高校</b><b class='flag-5'>具</b><b class='flag-5'>身</b><b class='flag-5'>智能</b><b class='flag-5'>機器人</b>與嵌入式Linux高級師資培訓通知

    打造機器人母生態(tài)!一年開發(fā)者數(shù)量翻倍,地瓜機器人發(fā)布智能大算力開發(fā)平臺

    增長200%,個人開發(fā)者數(shù)量翻倍。 ? 作為機器人芯片公司,地瓜機器人已經(jīng)打造了兩大系列產(chǎn)品:旭日X系列主打高性價比,面向泛消費機器人;S系列則聚焦
    的頭像 發(fā)表于 11-27 09:16 ?8189次閱讀
    打造<b class='flag-5'>機器人</b>母生態(tài)!一年開發(fā)者數(shù)量翻倍,<b class='flag-5'>地瓜</b><b class='flag-5'>機器人</b>發(fā)布<b class='flag-5'>具</b><b class='flag-5'>身</b><b class='flag-5'>智能</b>大算力開發(fā)平臺

    智能大算力開發(fā)平臺S600重磅亮相,地瓜機器人引領(lǐng)端云一體機器人進化新范式

    ,宣布全鏈路開發(fā)基礎(chǔ)設(shè)施全新升級,前瞻揭曉智能機器人大算力開發(fā)平臺S600,并宣布將于2026年第一季度正式發(fā)布;全新推出覆蓋數(shù)據(jù)閉環(huán)系
    發(fā)表于 11-21 22:21 ?1645次閱讀
    <b class='flag-5'>具</b><b class='flag-5'>身</b><b class='flag-5'>智能</b>大算力開發(fā)平臺S600重磅亮相,<b class='flag-5'>地瓜</b><b class='flag-5'>機器人</b>引領(lǐng)端云一體<b class='flag-5'>機器人</b>進化新范式

    廣和通斬獲智能家務機器人黑客松競賽二

    近日,廣和通受邀參加由 Hugging Face、NVIDIA 與 Seeed Studio 聯(lián)合舉辦的“智能家務機器人黑客松”競賽。在
    的頭像 發(fā)表于 11-08 14:51 ?1809次閱讀

    首個5G-A智能機器人電網(wǎng)巡檢應用示范發(fā)布

    近日,中國南方電網(wǎng)廣東電網(wǎng)有限責任公司、中國移動通信集團公司、樂聚智能(深圳)股份有限公司及北京通用人工智能研究院,聯(lián)合發(fā)布首個基于5G-A(5G-Advanced)網(wǎng)絡的
    的頭像 發(fā)表于 11-03 11:32 ?999次閱讀

    艾摩星機器人完成首個智能產(chǎn)品全鏈路功能驗證

    近日,知行科技旗下專注機器人研發(fā)與商業(yè)化的全資子公司艾摩星機器人完成首個智能產(chǎn)品 —— “充
    的頭像 發(fā)表于 06-13 16:21 ?903次閱讀

    消費級市場「持續(xù)爆單」、智能「未發(fā)先爆」,地瓜機器人完成1億美元A輪融資

    資本、和暄資本、九合創(chuàng)投、Vertex Growth、礪思資本、敦鴻資產(chǎn)、沸點資本、梅花創(chuàng)投、黃浦江資本投資機構(gòu)共同參投,為地瓜機器人加速構(gòu)建
    發(fā)表于 05-28 13:58 ?1097次閱讀
    消費級市場「持續(xù)爆單」、<b class='flag-5'>具</b><b class='flag-5'>身</b><b class='flag-5'>智能</b>「未發(fā)先爆」,<b class='flag-5'>地瓜</b><b class='flag-5'>機器人</b>完成1億美元A輪融資

    盤點#機器人開發(fā)平臺

    圖,電子技術(shù)資料網(wǎng)站智能機器人****開發(fā)平臺——Fibot廣和通發(fā)布機器人開發(fā)平臺-電子發(fā)燒友網(wǎng)NVIDIA Isaac 英偉達綜合性
    發(fā)表于 05-13 15:02

    RDK全系賦能!點貓科技與地瓜機器人共建智能大中小貫通培養(yǎng)閉環(huán)要聞

    要聞2025年4月24日,地平線旗下地瓜機器人與點貓科技于深圳正式宣布達成戰(zhàn)略合作,地瓜機器人成為點貓科技
    的頭像 發(fā)表于 05-06 05:37 ?1102次閱讀
    RDK全系賦能!點貓科技與<b class='flag-5'>地瓜</b><b class='flag-5'>機器人</b>共建<b class='flag-5'>具</b><b class='flag-5'>身</b><b class='flag-5'>智能</b>大中小貫通培養(yǎng)閉環(huán)要聞

    智能時代來臨,靈途科技助力人形機器人“感知升級”

    4月22日至24日,生產(chǎn)設(shè)備暨微電子工業(yè)展(NEPCON China 2025)在上海如期開展。本屆展會重磅推出“人形機器人拆解展區(qū)”,匯聚35+家具智能產(chǎn)業(yè)鏈領(lǐng)軍
    的頭像 發(fā)表于 04-28 09:31 ?893次閱讀
    <b class='flag-5'>具</b><b class='flag-5'>身</b><b class='flag-5'>智能</b>時代來臨,靈途科技助力人形<b class='flag-5'>機器人</b>“感知升級”

    樂聚機器人地瓜機器人達成戰(zhàn)略合作,聯(lián)合發(fā)布Aelos Embodied智能

    )、魯班(ROBAN)、Aelos,大、中、小三款明星機器人產(chǎn)品展開全面合作,共同推進智能機器人的國產(chǎn)化進程。作為此次戰(zhàn)略合作的第一步,
    的頭像 發(fā)表于 04-24 22:07 ?1579次閱讀
    樂聚<b class='flag-5'>機器人</b>與<b class='flag-5'>地瓜</b><b class='flag-5'>機器人</b>達成戰(zhàn)略合作,<b class='flag-5'>聯(lián)合</b>發(fā)布Aelos Embodied<b class='flag-5'>具</b><b class='flag-5'>身</b><b class='flag-5'>智能</b>