chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

DIPO框架實現(xiàn)應(yīng)用于具身智能仿真的3D鉸鏈物體生成新范式

地平線HorizonRobotics ? 來源:地平線HorizonRobotics ? 2025-12-03 09:18 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

DIPO

雙狀態(tài)約束×復(fù)雜數(shù)據(jù)驅(qū)動應(yīng)用于具身智能仿真的3D鉸鏈物體生成新范式

在具身智能從理解環(huán)境向與環(huán)境交互進化的當(dāng)下,構(gòu)建真實且可交互的仿真環(huán)境是重要路徑。單一剛體生成已難滿足需求,機器人需要面對的是柜門、抽屜、微波爐等大量具有物理約束的鉸鏈物體。受限于復(fù)雜的運動學(xué)結(jié)構(gòu),高質(zhì)量3D鉸鏈物體資產(chǎn)極為稀缺。

地平線與合作者們提出DIPO,創(chuàng)新性地利用“靜止+活動”雙狀態(tài)圖像作為條件,結(jié)合思維鏈(Chainof Thought)圖推理,僅需兩張圖片實現(xiàn)結(jié)構(gòu)合理、運動一致、可供機器人交互操作的鉸鏈3D資產(chǎn)生成。此外,還打造了自動化鉸鏈資產(chǎn)構(gòu)建鏈路,開源了大規(guī)模復(fù)雜鉸鏈物體數(shù)據(jù)集PM-X。為機器人操作和通用場景仿真下的鉸鏈物體生成開啟了新的范式。該成果已被學(xué)術(shù)頂會NeurIPS2025錄用。

?技術(shù)報告:

https://arxiv.org/abs/2505.20460

?Huggingface Demo:

https://huggingface.co/spaces/HorizonRobotics/DIPO

?PM-X數(shù)據(jù)集:

https://huggingface.co/datasets/HorizonRobotics/DIPO-Dataset

? 項目主頁:

https://rq-wu.github.io/projects/DIPO

行業(yè)痛點:3D鉸鏈物體的資產(chǎn)荒

邁向通用具身智能,需要機器人需要在仿真環(huán)境中與冰箱、烤箱等復(fù)雜鉸鏈(可活動關(guān)節(jié))物體進行深度交互訓(xùn)練。然而此類資產(chǎn)的構(gòu)建面臨“采集難、建模慢、數(shù)據(jù)簡”的挑戰(zhàn):真實物體的關(guān)節(jié)參數(shù)與運動范圍測量成本極高;人工逐件裝配與URDF標(biāo)注耗時費力;主流數(shù)據(jù)集(如 PartNet-Mobility)平均部件數(shù)不足5個,其低復(fù)雜度結(jié)構(gòu)滯后于真實世界的物理多樣性,嚴(yán)重制約了智能體的場景泛化能力。

模型方案:雙狀態(tài)輸入+思維鏈推理

DIPO摒棄了“單圖猜結(jié)構(gòu)”的傳統(tǒng)路徑,開辟了一條新的技術(shù)路線:通過輸入物體“靜止?fàn)顟B(tài)圖”與“關(guān)節(jié)活動狀態(tài)圖”這一對雙狀態(tài)圖像,顯式編碼關(guān)鍵的運動信息。

8b5e4286-cad1-11f0-8c8f-92fbcf53809c.png

提出了一個雙狀態(tài)注入模塊,通過注意力機制讓模型學(xué)習(xí)“靜止”與“活動”兩張圖像之間的差異,捕捉圖像對間的關(guān)聯(lián)特征,從而生成可靠的部件布局與關(guān)節(jié)參數(shù)。為了解決復(fù)雜物體部件連接關(guān)系(如多層抽屜、雙開門)的識別難題,DIPO引入了基于思維鏈的圖推理器。 這個推理器模擬了人類的認(rèn)知過程,分步驟進行邏輯推斷,大幅提升了模型對復(fù)雜拓?fù)浣Y(jié)構(gòu)的理解的準(zhǔn)確性。

數(shù)據(jù)引擎:自動化構(gòu)建復(fù)雜資產(chǎn)

為了增強模型對復(fù)雜物體的泛化能力,靠現(xiàn)有的簡單數(shù)據(jù)集(如 PartNet-Mobility)是遠(yuǎn)遠(yuǎn)不夠的。為此,DIPO提出了一套全自動的數(shù)據(jù)集構(gòu)建流程。

8c1f1254-cad1-11f0-8c8f-92fbcf53809c.png

基于此流程,發(fā)布了大規(guī)模數(shù)據(jù)集PM-X。該數(shù)據(jù)集單個鉸鏈物體平均部件數(shù)達(dá)到19.4個,現(xiàn)有數(shù)據(jù)集僅為5-8個,極大地豐富了訓(xùn)練數(shù)據(jù)的結(jié)構(gòu)多樣性與生成模型的泛化性。

8c7dae36-cad1-11f0-8c8f-92fbcf53809c.png

實驗結(jié)果:SOTA 性能表現(xiàn)

實驗表明,DIPO在多項指標(biāo)上均超越了現(xiàn)有最先進方法,在PartNet-Mobility測試集與分布外的ACD測試集上,重建指標(biāo)與圖預(yù)測準(zhǔn)確率均顯著高于基線方法。

8cd9a5f6-cad1-11f0-8c8f-92fbcf53809c.png

8d37462a-cad1-11f0-8c8f-92fbcf53809c.png

DIPO與基線模型的可視化對比。 涵蓋PM、ACD數(shù)據(jù)集及真實場景樣本,展示了基于雙狀態(tài)圖像輸入的連接圖預(yù)測與鉸鏈生成結(jié)果,紅框標(biāo)記了基線方法的連接錯誤。

8d920e98-cad1-11f0-8c8f-92fbcf53809c.png

總結(jié)與展望

DIPO通過引入雙狀態(tài)圖像這一低成本、高信息的輸入模態(tài),結(jié)合思維鏈推理與自動化數(shù)據(jù)工廠,解決復(fù)雜鉸鏈物體生成的難題。這項工作不僅大幅提升了生成資產(chǎn)的結(jié)構(gòu)合理性與運動一致性,更為具身智能仿真環(huán)境的快速構(gòu)建提供了一種高效、可擴展的新范式。DIPO的代碼與PM-X數(shù)據(jù)集已向社區(qū)開源,持續(xù)推動3D生成與具身智能仿真領(lǐng)域的技術(shù)發(fā)展。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 機器人
    +關(guān)注

    關(guān)注

    213

    文章

    30590

    瀏覽量

    219598
  • 仿真
    +關(guān)注

    關(guān)注

    53

    文章

    4407

    瀏覽量

    137671
  • 具身智能
    +關(guān)注

    關(guān)注

    0

    文章

    278

    瀏覽量

    781

原文標(biāo)題:開發(fā)者說|DIPO:應(yīng)用于具身智能仿真的3D鉸鏈物體生成新范式

文章出處:【微信號:horizonrobotics,微信公眾號:地平線HorizonRobotics】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    基于3D數(shù)據(jù)卷積神經(jīng)網(wǎng)絡(luò)的物體識別

    FusionNet的核心是全新的、應(yīng)用于3D物體的三維卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks, CNN)。我們必須在多個方面調(diào)整傳統(tǒng)的CNN以使其有效。
    發(fā)表于 01-16 16:36 ?4152次閱讀
    基于<b class='flag-5'>3D</b>數(shù)據(jù)卷積神經(jīng)網(wǎng)絡(luò)的<b class='flag-5'>物體</b>識別

    英特爾? 智能大小腦融合方案發(fā)布:構(gòu)建智能落地新范式

    套件和AI加速框架打造。憑借創(chuàng)新性地模塊化設(shè)計,其不僅能夠兼顧操作精度和智能泛化能力,而且以卓越的性價比滿足不同領(lǐng)域需求,為智能的規(guī)?;?/div>
    發(fā)表于 04-18 17:26 ?912次閱讀
    英特爾? <b class='flag-5'>具</b><b class='flag-5'>身</b><b class='flag-5'>智能</b>大小腦融合方案發(fā)布:構(gòu)建<b class='flag-5'>具</b><b class='flag-5'>身</b><b class='flag-5'>智能</b>落地新<b class='flag-5'>范式</b>

    智能機器人系統(tǒng)》第1-6章閱讀心得之智能機器人系統(tǒng)背景知識與基礎(chǔ)模塊

    意味著在“智能”領(lǐng)域,還沒有哪一個玩家能像O社那樣能站在AGI的制高點。 智能從字面上拆
    發(fā)表于 12-19 22:26

    【「智能機器人系統(tǒng)」閱讀體驗】+初品的體驗

    ,逐漸學(xué)習(xí)并優(yōu)化自己的行為,以更好地服務(wù)家庭成員。 目前,智能機器人在解決實際問題中已展現(xiàn)出巨大的潛力,例如它已應(yīng)用于養(yǎng)老、醫(yī)療、災(zāi)害救援等領(lǐng)域。 盡管
    發(fā)表于 12-20 19:17

    【「智能機器人系統(tǒng)」閱讀體驗】1.初步理解智能

    的各個方面。 第5部分(第14章)通過一個實際案例的應(yīng)用研究對本書提到的概念進行總結(jié),作者實際構(gòu)建了一個智能機器人計算系統(tǒng),用于室內(nèi)倉儲環(huán)境下的
    發(fā)表于 12-28 21:12

    【「智能機器人系統(tǒng)」閱讀體驗】2.智能機器人的基礎(chǔ)模塊

    目前高速發(fā)展的大模型能給智能帶來一些突破性的進展。 對于感知系統(tǒng),要做的主要任務(wù)是物體檢測,語義分割,立體視覺,鳥瞰視角感知。 有很多算法都可以
    發(fā)表于 01-04 19:22

    【「AI芯片:科技探索與AGI愿景」閱讀體驗】+智能芯片

    的好處: ①使處理速度變得非常快 ②更加安全 3、觸覺 智能的關(guān)鍵之一:了解周圍的外部刺激。 面向觸覺感知的神經(jīng)形態(tài)模型主要用于模擬手部
    發(fā)表于 09-18 11:45

    全場應(yīng)變測量與仿真優(yōu)化分析系統(tǒng)MatchID-2D/3D

    Hopkinson Bar 試驗-混凝土動態(tài)性能研究,采用超高速相機采集照片MatchID-2D/3D全場應(yīng)變測量與仿真優(yōu)化分析系統(tǒng)廣泛的應(yīng)用于汽車機械、航空航天、橋梁地質(zhì)、生物力學(xué)等
    發(fā)表于 07-23 12:44

    PYNQ框架下如何快速完成3D數(shù)據(jù)重建

    實現(xiàn)基于這些約束的三維重建的完整管道?! ≡谶@個項目中,作者的目標(biāo)是朝著實時生成3D視覺數(shù)據(jù)邁進一步。首先,在CPU上生成3D點云,然后使
    發(fā)表于 01-07 17:25

    人工智能系統(tǒng)VON,生成最逼真3D圖像

    研究團隊寫道:“我們的關(guān)鍵思想是將圖像生成過程分解為三個要素:形狀、視角和紋理,這種分離的3D表示方式使我們能夠在對抗學(xué)習(xí)框架下從3D和2D
    的頭像 發(fā)表于 12-07 09:28 ?8386次閱讀

    華為基于AI技術(shù)實現(xiàn)3D圖像數(shù)字服務(wù)

    華為3D建模服務(wù)(3D Modeling Kit)是華為在圖形圖像領(lǐng)域又一技術(shù)開放,面向有3D模型、動畫制作等能力訴求的應(yīng)用開發(fā)者,基于AI技術(shù),提供3D
    的頭像 發(fā)表于 08-12 14:50 ?6028次閱讀

    手套3d資料分享

    手套3d資料分享
    發(fā)表于 07-05 15:19 ?1次下載

    PLC如何應(yīng)用于建筑的3D打???

    3D打印技術(shù)應(yīng)用于制造樣機或在醫(yī)藥、汽車或食品等一系列行業(yè)中雕琢小細(xì)節(jié)??梢詼p少復(fù)雜的幾何形狀生產(chǎn)過程中耗時且成本昂貴的生產(chǎn)步驟。 那么,如果我們將這種解決方案應(yīng)用于大型3D打印機的使
    的頭像 發(fā)表于 08-01 14:19 ?1196次閱讀
    PLC如何<b class='flag-5'>應(yīng)用于</b>建筑的<b class='flag-5'>3D</b>打???

    3D人體生成模型HumanGaussian實現(xiàn)原理

    3D 生成領(lǐng)域,根據(jù)文本提示創(chuàng)建高質(zhì)量的 3D 人體外觀和幾何形狀對虛擬試穿、沉浸式遠(yuǎn)程呈現(xiàn)等應(yīng)用有深遠(yuǎn)的意義。傳統(tǒng)方法需要經(jīng)歷一系列人工制作的過程,如 3D 人體模型回歸、綁定、
    的頭像 發(fā)表于 12-20 16:37 ?2888次閱讀
    <b class='flag-5'>3D</b>人體<b class='flag-5'>生成</b>模型HumanGaussian<b class='flag-5'>實現(xiàn)</b>原理

    NVIDIA助力影眸科技3D生成工具Rodin升級

    。在 NVIDIA Omniverse 平臺、OpenUSD 以及 Isaac Lab 解決方案的助力下,影眸科技實現(xiàn)了 Rodin 平臺的升級,顯著提升了 3D 資產(chǎn)生成的速度、質(zhì)量與用戶體驗,推動
    的頭像 發(fā)表于 04-27 15:09 ?1013次閱讀