97超碰人人一区二区,天堂AV高清一区二区三区

概述

隨著大模型技術(shù)的進步，具身智能也迎來了快速的發(fā)展。但在國內(nèi)眾多企業(yè)與高校推動相關(guān)技術(shù)發(fā)展的過程中，核心挑戰(zhàn)仍在于具身操作泛化能力，即如何在有限的具身數(shù)據(jù)下，使機器人適應復雜場景并實現(xiàn)技能高效遷移。

為此，京東探索研究院李律松、李東江博士團隊聯(lián)合地瓜機器人秦玉森團隊、中科大徐童團隊、深圳大學鄭琪團隊、松靈機器人及睿爾曼智能吳波團隊共同提出具身智能原子技能庫架構(gòu)，并得到了清華 RDT 團隊在baseline 方法上的技術(shù)支持。

該方案是業(yè)界首個基于三輪數(shù)據(jù)驅(qū)動的具身智能原子技能庫構(gòu)建框架，突破了傳統(tǒng)端到端具身操作的數(shù)據(jù)瓶頸，可動態(tài)自定義和更新原子技能，并結(jié)合數(shù)據(jù)收集與 VLA 少樣本學習構(gòu)建高效技能庫。

與此同時，這也將是首個面向具身產(chǎn)業(yè)應用的數(shù)據(jù)采集新范式，旨在形成數(shù)據(jù)標準，解決當前具身智能領(lǐng)域數(shù)據(jù)匱乏的問題，特別是在高校與產(chǎn)業(yè)之間數(shù)據(jù)和范式的流動上，從而加速具身大模型研究的推進與實際落地。

論文標題：An Atomic Skill Library Construction Method for Data-Efficient EmbodiedManipulation

原文鏈接：https://arxiv.org/pdf/2501.15068

研究背景

具身智能，即具身人工智能，在生成式 AI 時代迎來重要突破。通過跨模態(tài)融合，將文本、圖像、語音等數(shù)據(jù)映射到統(tǒng)一的語義向量空間，為具身智能技術(shù)發(fā)展提供新契機。VLA（視覺-語言-動作）模型在數(shù)據(jù)可用性與多模態(tài)技術(shù)推動下不斷取得進展。然而，現(xiàn)實環(huán)境的復雜性使具身操作模型在泛化性上仍面臨挑戰(zhàn)。端到端訓練依賴海量數(shù)據(jù)，會導致“數(shù)據(jù)爆炸”問題，限制 VLA 發(fā)展。將任務分解為可重用的原子技能降低數(shù)據(jù)需求，但現(xiàn)有方法受限于固定技能集，無法動態(tài)更新。

為解決此問題，團隊提出了基于三輪數(shù)據(jù)驅(qū)動的原子技能庫構(gòu)建方法，可在仿真或真實環(huán)境的模型訓練中減少數(shù)據(jù)需求。如圖所示，VLP（視覺-語言-規(guī)劃）模型將任務分解為子任務，高級語義抽象模塊將子任務定義為通用原子技能集，并通過數(shù)據(jù)收集與VLA微調(diào)構(gòu)建技能庫。隨著三輪更新策略的動態(tài)擴展，技能庫不斷擴增，覆蓋任務范圍擴大。該方法將重點從端到端技能學習轉(zhuǎn)向細顆粒度的原子技能構(gòu)建，有效解決數(shù)據(jù)爆炸問題，并提升新任務適應能力。

基于三輪數(shù)據(jù)驅(qū)動的原子技能庫構(gòu)建與推理流程

為什么需要 VLP？
VLP 需要具有哪些能力？

從產(chǎn)業(yè)落地角度看，具身操作是關(guān)鍵模塊。目前，端到端 VLA 進行高頻開環(huán)控制，即便中間動作失敗，仍輸出下一階段控制信號。因此，VLA 在高頻控制機器人/機械臂時，強烈依賴VLP提供低頻智能控制，以指導階段性動作生成，并協(xié)調(diào)任務執(zhí)行節(jié)奏。

為統(tǒng)一訓練與推理的任務分解，本文構(gòu)建了集成視覺感知、語言理解和空間智能的VLP Agent。如圖所示，VLP Agent 接收任務指令文本與當前觀察圖像，并利用Prismatic生成場景描述?？紤]到 3D 世界的復雜性，我們設(shè)計了一種空間智能感知策略：首先，Dino-X檢測任務相關(guān)物體并輸出邊界框；然后，SAM-2提供精細分割掩碼，并基于規(guī)則判斷物體間的空間關(guān)系。最終，這些視覺與空間信息與任務指令一同輸入GPT-4，生成完整執(zhí)行計劃并指定下一個子任務。VLP Agent 通過該方法在原子技能庫構(gòu)建中有效分解端到端任務，并在推理過程中提供低頻控制信號，規(guī)劃并指導高頻原子技能的執(zhí)行。

基于空間智能信息的 VLP Agent 具身思維鏈框架

VLA 存在的問題是什么？
在框架中起什么作用？

VLA 技術(shù)從專用數(shù)據(jù)向通用數(shù)據(jù)演進，機器人軌跡數(shù)據(jù)已達1M episodes級別；模型參數(shù)規(guī)模從千億級向端側(cè)部署發(fā)展；性能上，VLA 從單一場景泛化至多場景，提升技能遷移能力。盡管端到端任務采集與訓練有助于科研算法優(yōu)化，但在通用機器人應用中，人為定義端到端任務易導致任務窮盡問題。在單任務下，物品位置泛化、背景干擾、場景變化仍是主要挑戰(zhàn)，即便強大預訓練模型仍需大量數(shù)據(jù)克服；多任務下，數(shù)據(jù)需求呈指數(shù)級增長，面臨“數(shù)據(jù)爆炸”風險。

提出的三輪數(shù)據(jù)驅(qū)動的原子技能庫方法可結(jié)合SOTA VLA模型，通過高級語義抽象模塊將復雜子任務映射為結(jié)構(gòu)化原子技能，并結(jié)合數(shù)據(jù)收集與 VLA 少樣本學習高效構(gòu)建技能庫。VLA 可塑性衡量模型從多本體遷移至特定本體的能力，泛化性則評估其應對物體、場景、空間變化的表現(xiàn)。以RDT-1B作品為例，我們基于6000 條開源數(shù)據(jù)及2000 條自有數(shù)據(jù)微調(diào)VLA 模型。測試結(jié)果表明，模型在物品和場景泛化上表現(xiàn)優(yōu)異，但在物品位置泛化方面存在一定局限，且訓練步數(shù)對最終性能影響顯著。為進一步優(yōu)化，團隊進行了兩項實驗包括位置泛化能力提升及訓練步長優(yōu)化測試。這類VLA 模型性能測試對于原子技能庫構(gòu)建至關(guān)重要，測試結(jié)果不僅優(yōu)化了Prompt 設(shè)計，也進一步增強了高級語義抽象模塊在子任務映射與技能定義中的精準性。

為什么構(gòu)建原子技能庫？
怎樣構(gòu)建？
具身操作技能學習數(shù)據(jù)源包括互聯(lián)網(wǎng)、仿真引擎和真實機器人數(shù)據(jù)，三者獲取成本遞增，數(shù)據(jù)價值依次提升。在多任務多本體機器人技能學習中，OpenVLA和Pi0依托預訓練VLM，再用真實軌跡數(shù)據(jù)進行模態(tài)對齊并訓練技能，而RDT-1B直接基于百萬級機器人真實軌跡數(shù)據(jù)預訓練，可適配不同本體與任務。無論模型架構(gòu)如何，真實軌跡數(shù)據(jù)仍是關(guān)鍵。原子技能庫的構(gòu)建旨在降低數(shù)據(jù)采集成本，同時增強任務適配能力，提升具身操作的通用性，以滿足產(chǎn)業(yè)應用需求。

基于數(shù)據(jù)驅(qū)動的原子技能庫構(gòu)建方法，結(jié)合端到端具身操作VLA與具身規(guī)劃VLP，旨在構(gòu)建系統(tǒng)化的技能庫。VLP 將TASK A, B, C, ..., N分解為Sub-task #1, #2, ..., #a+1。高級語義抽象模塊基于SOTAVLA模型測試可調(diào)整任務粒度，進一步將子任務映射為通用原子技能定義*1, *2, ..., *b+1，并通過數(shù)據(jù)收集與 VLA 少樣本學習，構(gòu)建包含*1', *2', ..., *b+1'的原子技能庫。面對新任務TASK N+1，若所需技能已在庫中，則可直接執(zhí)行；若缺失，則觸發(fā)高級語義抽象模塊，基于現(xiàn)有技能庫進行原子技能定義更新，僅需對缺失的原子技能收集額外數(shù)據(jù)與 VLA 微調(diào)。隨著原子技能庫動態(tài)擴增，其適應任務范圍不斷增加。相比傳統(tǒng)TASK 級數(shù)據(jù)采集，提出的原子技能庫所需要的數(shù)據(jù)采集量根據(jù)任務難度成指數(shù)級下降，同時提升技能適配能力。

實驗與結(jié)果分析

驗證問題

在相同物體點位下采集軌跡數(shù)據(jù)，所提方法能否以更少數(shù)據(jù)達到端到端方法性能？
在收集相同數(shù)量的軌跡數(shù)據(jù)下，所提方法能否優(yōu)于端到端方法？
面對新任務，所提方法是否能夠在不依賴或者少依賴新數(shù)據(jù)的條件下仍然有效？
所提方法是否適用于不同VLA模型，并保持有效性和效率？

實驗設(shè)置

針對上述問題，我們設(shè)計了四個挑戰(zhàn)性任務，并在RDT-1B和Octo基準模型上，以Agilex 雙臂機器人進行測試。實驗采用端到端方法和所提方法分別采集數(shù)據(jù)，以對比兩者在數(shù)據(jù)利用效率和任務泛化能力上的表現(xiàn)。具體實驗設(shè)置如下：

拿起香蕉并放入盤子
端到端方法：從4 個香蕉點位和2 個盤子點位采集24 條軌跡。
所提方法：保持數(shù)據(jù)分布一致，分解為12 條抓取香蕉軌跡和6 條放置香蕉軌跡。
為匹配端到端數(shù)據(jù)量，進一步擴大采樣范圍，從8 個香蕉點位采集24 條抓取軌跡，3 個盤子點位采集24 條放置軌跡。
拿起瓶子并向杯中倒水
端到端方法：從3 個瓶子點位和3 個杯子點位采集27 條軌跡。
所提方法：分解為9 條抓取瓶子軌跡和9 條倒水軌跡，確保數(shù)據(jù)分布一致。
進一步擴大采樣范圍，從9 個瓶子點位采集27 條抓取軌跡，9 個杯子點位采集27 條倒水軌跡。
拿起筆并放入筆筒
端到端方法：從4 個筆點位和2 個筆筒點位采集24 條軌跡。
所提方法：分解為12 條抓取筆軌跡和6 條放置筆軌跡，保持數(shù)據(jù)分布一致。
進一步擴大采樣范圍，從8 個筆點位采集24 條抓取軌跡，3 個筆筒點位采集24 條放置軌跡。
按指定順序抓取積木（紅、綠、藍）
端到端方法：采集10 條軌跡，固定積木位置，按順序抓取紅色、綠色、藍色積木。
所提方法：為匹配端到端數(shù)據(jù)量，分別采集10 條抓取紅色、綠色、藍色積木軌跡，共30 條。

任務定義與可視化

實驗結(jié)果

前三個任務用于驗證所提方法在數(shù)據(jù)效率和操作性能上的表現(xiàn)，第四個任務則評估其新任務適應能力。為確保公平性，每種實驗設(shè)置均在Octo和RDT-1B上進行10 次測試，對比端到端方法與所提方法（“Ours” 和 “Ours-plus”）。如表1所示，“End-To-End”：原始端到端VLA方法；“Ours”：保持數(shù)據(jù)分布一致，但數(shù)據(jù)量更?。弧癘urs-plus”：保持數(shù)據(jù)量一致，但采集更多點位；“ID”：任務點位在訓練數(shù)據(jù)分布內(nèi)；“OOD”：任務點位超出訓練數(shù)據(jù)分布。在第四個任務中，設(shè)定紅-綠-藍順序抓取積木為已知任務，并采集數(shù)據(jù)訓練模型。針對其他顏色順序的未知任務，直接調(diào)用已訓練的技能進行測試，以評估方法的泛化能力（見表 2）。結(jié)果分析如下：

Q1: 從表 1 可見，Octo 和 RDT-1B在使用所提方法后，成功率與端到端方法相當甚至更高。在拿起瓶子并向杯中倒水任務中，OOD 測試成功率提升 20%，表明該方法在相同點位分布下，減少數(shù)據(jù)需求同時提升性能。

Q2: 在相同數(shù)據(jù)量下，所提方法顯著提升成功率。例如，在拿起香蕉并放入盤子任務中，OOD 情況下成功率提高 40%，歸因于從更多點位采集數(shù)據(jù)，增強模型泛化能力。

Q3: 從表 2 可見，端到端方法僅適用于已知任務，無法泛化新任務，而所提方法能通過已有技能組合成功執(zhí)行不同的新任務。

Q4: 表 1 和表 2 進一步驗證，所提方法在多種VLA模型上均提升數(shù)據(jù)效率、操作性能和新任務適應能力，適用于不同模型的泛化與優(yōu)化。

表1：與原始端到端方法實驗結(jié)果對比

表2：與原始端到端方法方塊抓取任務實驗結(jié)果對比

小結(jié)

基于三輪數(shù)據(jù)驅(qū)動的原子技能庫構(gòu)建框架，旨在解決傳統(tǒng)端到端具身操作策略帶來的“數(shù)據(jù)爆炸”問題，為具身智能產(chǎn)業(yè)應用提供創(chuàng)新解決方案。該框架具有廣泛價值，可用于提升物流倉儲、智能制造、醫(yī)療輔助等領(lǐng)域的自動化水平。例如，在醫(yī)療輔助和服務機器人領(lǐng)域，它能夠增強自主交互能力，助力精準操作。希望此項工作能夠為行業(yè)提供重要啟示，促進學術(shù)界與產(chǎn)業(yè)界的深度合作，加速具身智能技術(shù)的實際應用。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴