chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

一種基于擴(kuò)散模型的視頻生成框架RoboTransfer

地平線HorizonRobotics ? 來(lái)源:地平線HorizonRobotics ? 2025-07-09 14:02 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

RoboTransfer

幾何約束&條件可控視頻生成

具身數(shù)據(jù)合成新范式

機(jī)器人操作領(lǐng)域,模仿學(xué)習(xí)是推動(dòng)具身智能發(fā)展的關(guān)鍵路徑,但高度依賴(lài)大規(guī)模、高質(zhì)量的真實(shí)演示數(shù)據(jù),面臨高昂采集成本與效率瓶頸。仿真器雖提供了低成本數(shù)據(jù)生成方案,但顯著的“模擬到現(xiàn)實(shí)”(Sim2Real)鴻溝,制約了仿真數(shù)據(jù)訓(xùn)練策略的泛化能力與落地應(yīng)用。

我們提出RoboTransfer一基于擴(kuò)散模型的視頻生成框架,旨在合成高保真且符合物理規(guī)律的機(jī)器人操作演示數(shù)據(jù)。該框架創(chuàng)新性地融合深度-表面法向的幾何約束與多視角特征建模,確保生成視頻具備高度幾何一致性與真實(shí)感。通過(guò)拆分控制條件設(shè)計(jì),實(shí)現(xiàn)對(duì)操作場(chǎng)景元素(如背景替換、物體外觀)的精細(xì)控制。結(jié)合物理仿真器重構(gòu)空間布局與交互狀態(tài),實(shí)現(xiàn)多樣化、可拓展的高保真數(shù)據(jù)合成。

RoboTransfer通過(guò)數(shù)據(jù)驅(qū)動(dòng)的生成式Ai技術(shù),建立機(jī)器人操作數(shù)據(jù)合成新范式,提供高質(zhì)量、可擴(kuò)展的演示數(shù)據(jù),助力具身智能突破通用性與泛化性邊界。

近年來(lái),隨著人工智能從感知智能向決策智能演進(jìn),世界模型 (World Models)逐漸成為機(jī)器人領(lǐng)域的重要研究方向。世界模型旨在讓智能體對(duì)環(huán)境進(jìn)行建模并預(yù)測(cè)未來(lái)狀態(tài),從而實(shí)現(xiàn)更高效的規(guī)劃與決策。

與此同時(shí),具身數(shù)據(jù)也迎來(lái)了爆發(fā)式關(guān)注。因?yàn)槟壳熬呱?a href="http://www.brongaenegriffin.com/v/tag/2562/" target="_blank">算法高度依賴(lài)于大規(guī)模的真實(shí)機(jī)器人演示數(shù)據(jù),而這些數(shù)據(jù)的采集過(guò)程往往成本高昂、耗時(shí)費(fèi)力,嚴(yán)重限制了其可擴(kuò)展性和泛化能力。盡管仿真平臺(tái)提供了一種相對(duì)低成本的數(shù)據(jù)生成方式,但由于仿真環(huán)境與真實(shí)世界之間存在顯著的視覺(jué)和動(dòng)力學(xué)差異 (即sim-to-real gap) ,導(dǎo)致在仿真中訓(xùn)練的策略難以直接遷移到真實(shí)機(jī)器人上,從而限制了其實(shí)際應(yīng)用效果。因此如何高效獲取、生成和利用高質(zhì)量的具身數(shù)據(jù),已成為當(dāng)前機(jī)器人學(xué)習(xí)領(lǐng)域的核心挑戰(zhàn)之一。

近日,地平線、極佳科技與中國(guó)科學(xué)院自動(dòng)化研究所等單位提出RoboTransfer,基于擴(kuò)散模型的視頻生成框架,可以用于擴(kuò)充機(jī)器人策略模型的訓(xùn)練數(shù)據(jù)。得益于合成數(shù)據(jù)的多樣性,下游策略模型能夠在新場(chǎng)景下取得251%的顯著提升,大幅提升策略模型的泛化性,為具身智能的通用性與泛化性奠定了堅(jiān)實(shí)的基礎(chǔ)。

?論文鏈接:

https://arxiv.org/pdf/2505.23171

? 項(xiàng)目主頁(yè):

https://horizonrobotics.github.io/robot_lab/robotransfer/

模仿學(xué)習(xí) (Imitation Learning) 已成為機(jī)器人操作領(lǐng)域的重要方法之一。通過(guò)讓機(jī)器人“模仿”專(zhuān)家示教的行為,可以在復(fù)雜任務(wù)中快速構(gòu)建有效的策略模型。然而,這類(lèi)方法通常依賴(lài)大量高質(zhì)量的真實(shí)機(jī)器人演示數(shù)據(jù),而數(shù)據(jù)采集過(guò)程成本高、周期長(zhǎng),嚴(yán)重制約了其擴(kuò)展性和泛化能力。

為了解決上述問(wèn)題,本項(xiàng)工作提出了RoboTransfer,一種基于擴(kuò)散模型 (diffusion model) 的視頻生成框架,旨在實(shí)現(xiàn)高質(zhì)量的機(jī)器人操作場(chǎng)景數(shù)據(jù)合成。不同于傳統(tǒng)的仿真方法或現(xiàn)有生成模型,RoboTransfer融合了多視角幾何信息,并對(duì)場(chǎng)景中的關(guān)鍵組成成分(如背景、物體屬性等)實(shí)現(xiàn)了顯式控制。具體而言,RoboTransfer通過(guò)引入跨視角特征交互機(jī)制以及全局深度圖與法向圖作為條件輸入,確保生成視頻在多個(gè)視角下的幾何一致性。此外,該框架支持細(xì)粒度的編輯控制,例如更換背景、替換目標(biāo)物體等,從而能夠靈活地生成多樣化、結(jié)構(gòu)合理的視覺(jué)數(shù)據(jù)。

實(shí)驗(yàn)結(jié)果表明,RoboTransfer能夠生成具有高幾何一致性和視覺(jué)質(zhì)量的多視角視頻序列。此外,使用RoboTransfer合成數(shù)據(jù)訓(xùn)練的機(jī)器人視覺(jué)策略模型,在標(biāo)準(zhǔn)測(cè)試任務(wù)中表現(xiàn)出顯著提升的性能:在更換前景物體的場(chǎng)景下取得了33.3%的成功率相對(duì)提升,在更具挑戰(zhàn)性的場(chǎng)景下(同時(shí)更換前景背景)更是達(dá)到了251%的顯著提升。

RoboTransfer的整體框圖如下,為了在視頻生成過(guò)程中保證多視角之間的一致性,RoboTransfer引入了多視角一致性建模機(jī)制,使得生成過(guò)程能夠聯(lián)合不同視角的信息進(jìn)行推理,從而提升生成結(jié)果的空間連貫性與視覺(jué)合理性。

此外,在控制條件的設(shè)計(jì)方面,RoboTransfer通過(guò)將控制信號(hào)解耦為幾何信息與外觀(紋理)信息兩個(gè)部分,實(shí)現(xiàn)了對(duì)生成內(nèi)容的細(xì)粒度控制。具體來(lái)說(shuō),在幾何控制方面,采用深度圖 (depth map) 和表面法向圖 (surface normal map) 等具有強(qiáng)結(jié)構(gòu)約束的表示方式,來(lái)引導(dǎo)生成視頻中物體的三維空間結(jié)構(gòu),確保在不同視角下生成內(nèi)容的幾何一致性。而在外觀控制方面,模型利用參考背景圖像和目標(biāo)物體的參考圖像作為輸入條件,這些圖像經(jīng)過(guò)編碼后能夠有效保留原始場(chǎng)景的色彩、紋理以及上下文信息,從而在生成過(guò)程中維持物體外觀的細(xì)節(jié)還原能力。

在實(shí)驗(yàn)部分,RoboTransfer證明可以通過(guò)real-to-real,以及sim-to-real兩種方式實(shí)現(xiàn)數(shù)據(jù)增廣,并訓(xùn)練下游的策略模型提升其性能。

real-to-real數(shù)據(jù)增廣

基于真機(jī)采集的真實(shí)視頻數(shù)據(jù),可從中提取結(jié)構(gòu)化信息作為控制條件,通過(guò)調(diào)整背景桌面與前景物體的控制參數(shù),實(shí)現(xiàn)新場(chǎng)景數(shù)據(jù)的合成。如下圖所示,左側(cè)為真實(shí)采集的數(shù)據(jù)及其對(duì)應(yīng)的結(jié)構(gòu)化信息,右側(cè)為合成結(jié)果,實(shí)驗(yàn)表明RoboTransfer能夠靈活地實(shí)現(xiàn)背景桌布的替換。

改變前景:下圖所示第一行為真機(jī)采集數(shù)據(jù),第二行為深度圖,第三行為法向圖,第四行為前景物體的控制條件,第五行為合成數(shù)據(jù),第六行為背景桌布控制條件。以下實(shí)驗(yàn)結(jié)果表明RoboTransfer可以實(shí)現(xiàn)對(duì)前景物體外表編輯的功能,豐富生成數(shù)據(jù)的多樣性,提升策略模型的訓(xùn)練質(zhì)量。

sim-to-real數(shù)據(jù)增廣

RoboTransfer不僅可以改變真機(jī)數(shù)據(jù)的前景和背景,還可以實(shí)現(xiàn)對(duì)仿真數(shù)據(jù)的重新渲染。利用仿真數(shù)據(jù)中的結(jié)構(gòu)化信息以及真實(shí)場(chǎng)景的物體和背景作為控制條件,RoboTransfer可以將仿真數(shù)據(jù)的轉(zhuǎn)化為逼真的真實(shí)數(shù)據(jù),極大地降低sim-to-real之間的gap,為通用機(jī)器人的訓(xùn)練提供了一個(gè)新的范式。以下是兩個(gè)不同的仿真場(chǎng)景重新渲染的實(shí)驗(yàn)結(jié)果,左側(cè)是疊碗,右側(cè)是放置杯子,其中第一行為仿真采集數(shù)據(jù),第二行為深度圖,第三行為法向圖,第四行為合成數(shù)據(jù),第五行為背景參考圖。

對(duì)比實(shí)驗(yàn)結(jié)果

與其他SOTA方法的對(duì)比可以發(fā)現(xiàn),RoboTransfer在時(shí)序一致性以及多視角之間的一致性上都要顯著優(yōu)于其他方法。

定量實(shí)驗(yàn)的實(shí)驗(yàn)結(jié)果如下表所示,實(shí)驗(yàn)表明對(duì)于生成數(shù)據(jù)的前背景增廣可以顯著提升策略模型在新場(chǎng)景下的成功率,其中對(duì)于前背景完全改變的新場(chǎng)景,前背景的數(shù)據(jù)增廣能夠讓策略模型獲得251%的性能提升。

c2a14bca-57f5-11f0-baa5-92fbcf53809c.png

表1:數(shù)據(jù)增廣對(duì)于策略模型在不同setting下的提升

總體來(lái)說(shuō),該方法構(gòu)建了數(shù)據(jù)處理流程,可以生成包含幾何和外觀控制條件的三元組數(shù)據(jù),以訓(xùn)練基于擴(kuò)散模型的機(jī)器人數(shù)據(jù)合成框架RoboTransfer。實(shí)驗(yàn)和評(píng)估結(jié)果顯示,RoboTransfer能夠生成具有多視角一致、幾何一致的數(shù)據(jù),并且可以根據(jù)參考圖像修改前景和背景紋理。生成的數(shù)據(jù)用于訓(xùn)練機(jī)器人操作策略,從而顯著提升了策略模型的泛化能力。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 機(jī)器人
    +關(guān)注

    關(guān)注

    213

    文章

    29748

    瀏覽量

    212946
  • 視頻
    +關(guān)注

    關(guān)注

    6

    文章

    1972

    瀏覽量

    73940
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3521

    瀏覽量

    50439

原文標(biāo)題:開(kāi)發(fā)者說(shuō)|RoboTransfer:幾何一致視頻世界模型,突破機(jī)器人操作泛化邊界

文章出處:【微信號(hào):horizonrobotics,微信公眾號(hào):地平線HorizonRobotics】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    4K、多模態(tài)、長(zhǎng)視頻:AI視頻生成的下個(gè)戰(zhàn)場(chǎng),誰(shuí)在領(lǐng)跑?

    電子發(fā)燒友網(wǎng)報(bào)道(文/李彎彎) 6月11日,豆包App上線視頻生成模型豆包Seedance 1.0 pro。這是字節(jié)跳動(dòng)最新視頻模型,支持文字與圖片輸入,可
    的頭像 發(fā)表于 06-16 00:13 ?6275次閱讀

    《AI Agent 應(yīng)用與項(xiàng)目實(shí)戰(zhàn)》----- 學(xué)習(xí)如何開(kāi)發(fā)視頻應(yīng)用

    開(kāi)發(fā)個(gè)視頻內(nèi)容生成Agent。 訪問(wèn)語(yǔ)聚AI平臺(tái)官網(wǎng) ,進(jìn)行注冊(cè)或登錄。 在平臺(tái)首頁(yè),了解語(yǔ)聚AI的功能和應(yīng)用場(chǎng)景,特別是其支持的視頻生成相關(guān)的AI
    發(fā)表于 03-05 19:52

    字節(jié)跳動(dòng)即將推出多模態(tài)視頻生成模型OmniHuman

    字節(jié)跳動(dòng)旗下站式AI創(chuàng)作平臺(tái)即夢(mèng)AI即將迎來(lái)重大更新,全新多模態(tài)視頻生成模型OmniHuman即將上線。這款模型是字節(jié)跳動(dòng)自研的閉源模型
    的頭像 發(fā)表于 02-08 10:53 ?763次閱讀

    阿里云通義萬(wàn)相2.1視頻生成模型震撼發(fā)布

    近日,阿里云旗下的通義萬(wàn)相迎來(lái)了重要升級(jí),正式推出了全新的萬(wàn)相2.1視頻生成模型。這創(chuàng)新成果標(biāo)志著阿里云在視頻生成技術(shù)領(lǐng)域的又次重大突破
    的頭像 發(fā)表于 01-13 10:00 ?837次閱讀

    OpenAI暫不推出Sora視頻生成模型API

    OpenAI近日宣布,目前暫無(wú)推出其視頻生成模型Sora的應(yīng)用程序接口(API)的計(jì)劃。Sora模型能夠基于文本和圖像生成視頻,引發(fā)了廣泛關(guān)
    的頭像 發(fā)表于 12-20 14:23 ?532次閱讀

    中國(guó)電信發(fā)布自研視頻生成模型

    ,中國(guó)電信隆重發(fā)布了首個(gè)由央企全自研的視頻生成模型。該模型采用了創(chuàng)新的“VAST(Video As Storyboard from Text)二階段視頻生成技術(shù)”,實(shí)現(xiàn)了從文本描述到
    的頭像 發(fā)表于 12-13 15:40 ?555次閱讀

    OpenAI推出AI視頻生成模型Sora

    近日,備受期待的OpenAI再次推出了其創(chuàng)新之作——AI視頻生成模型Sora。這新品的發(fā)布,無(wú)疑為AI技術(shù)注入了新的活力。 據(jù)悉,Sora與OpenAI旗下的AI工具DALL-E有著異曲同工之妙
    的頭像 發(fā)表于 12-12 09:40 ?720次閱讀

    OpenAI開(kāi)放Sora視頻生成模型

    升級(jí),準(zhǔn)備迎接廣大用戶的深入探索與廣泛應(yīng)用。 據(jù)官方公告介紹,Sora Turbo作為Sora的升級(jí)版本,具備強(qiáng)大的視頻生成能力。它能夠根據(jù)用戶的文本提示,快速創(chuàng)建出最長(zhǎng)達(dá)20秒的高清視頻片段。更令人驚喜的是,Sora Turbo還能針對(duì)同
    的頭像 發(fā)表于 12-10 11:16 ?744次閱讀

    騰訊混元大模型上線并開(kāi)源文生視頻能力

    近日,騰訊宣布其混元大模型正式上線,并開(kāi)源了項(xiàng)令人矚目的能力——文生視頻。該大模型參數(shù)量高達(dá)130億,支持中英文雙語(yǔ)輸入,為用戶提供了更為便捷和多樣化的
    的頭像 發(fā)表于 12-04 14:06 ?548次閱讀

    字節(jié)跳動(dòng)自研視頻生成模型Seaweed開(kāi)放

    近日,字節(jié)跳動(dòng)旗下的AI內(nèi)容平臺(tái)即夢(mèng)AI傳來(lái)新消息,宣布自研的視頻生成模型Seaweed即日起正式面向平臺(tái)用戶開(kāi)放使用。這舉措標(biāo)志著字節(jié)跳動(dòng)在AI視頻領(lǐng)域邁出了堅(jiān)實(shí)的
    的頭像 發(fā)表于 11-11 14:31 ?703次閱讀

    智譜視頻生成模型清影升級(jí),開(kāi)啟有聲電影新時(shí)代

    近日,智譜公司的視頻生成模型產(chǎn)品——清影,迎來(lái)了重要升級(jí)。此次升級(jí)后,清影能夠支持生成10秒、4K分辨率、60幀的超高清視頻,并且極大地提升了人物表演的細(xì)節(jié)表現(xiàn)。這
    的頭像 發(fā)表于 11-11 11:40 ?754次閱讀

    今日看點(diǎn)丨Vishay裁員800人,關(guān)閉上海等三家工廠;字節(jié)跳動(dòng)發(fā)布兩款視頻生成模型

    企業(yè)市場(chǎng)開(kāi)啟邀測(cè)。 ? 火山引擎介紹,豆包視頻生成模型基于DiT架構(gòu),通過(guò)高效的DiT融合計(jì)算單元,能更充分地壓縮編碼視頻與文本,讓視頻在大動(dòng)態(tài)與運(yùn)鏡中自由切換,擁有變焦、環(huán)繞、平搖、
    發(fā)表于 09-25 15:48 ?952次閱讀

    火山引擎推出豆包·視頻生成模型

    在近期舉辦的2024火山引擎AI創(chuàng)新巡展上,火山引擎總裁譚待隆重推出了豆包·視頻生成模型,這舉措標(biāo)志著火山引擎在視頻內(nèi)容生成領(lǐng)域邁出了重要
    的頭像 發(fā)表于 09-25 14:11 ?648次閱讀

    阿里通義將發(fā)布視頻生成模型

    在即將召開(kāi)的云棲大會(huì)上,阿里通義將震撼發(fā)布其自主研發(fā)的視頻生成模型。目前,用戶已可通過(guò)通義App頻道及通義萬(wàn)相PC端預(yù)約體驗(yàn)這創(chuàng)新功能,盡管具體使用尚未開(kāi)放。
    的頭像 發(fā)表于 09-19 17:01 ?613次閱讀

    阿里首推AI視頻生成利器Tora:指尖畫(huà)圈,自由操控物體運(yùn)動(dòng)軌跡

    近日,阿里巴巴團(tuán)隊(duì)震撼發(fā)布了項(xiàng)革命性的創(chuàng)新成果——Tora,個(gè)前所未有的AI視頻生成框架。Tora深度融合了文本、視覺(jué)與軌跡條件,依托其獨(dú)創(chuàng)的軌跡導(dǎo)向
    的頭像 發(fā)表于 08-06 16:41 ?1429次閱讀