樂(lè)高愛(ài)好者抓撓他們的頭,閱讀組裝說(shuō)明,可能很快有助于復(fù)雜的建設(shè),感謝一個(gè)新的 學(xué)習(xí) 來(lái)自斯坦福大學(xué)、麻省理工學(xué)院和 Autodesk 。研究人員設(shè)計(jì)了一個(gè)深度學(xué)習(xí)框架,將 2D 手冊(cè)翻譯成機(jī)器可以理解的步驟,以構(gòu)建 3D 樂(lè)高套件。這項(xiàng)工作可以推動(dòng)專(zhuān)注于制造機(jī)器的研究,幫助人們組裝物體。
“樂(lè)高手冊(cè)提供了一個(gè)獨(dú)立的環(huán)境,展示了人類(lèi)的一項(xiàng)核心技能:在指導(dǎo)下學(xué)習(xí)完成任務(wù)。利用視覺(jué)場(chǎng)景解析和程序合成的最新進(jìn)展,我們旨在構(gòu)建具有類(lèi)似技能的機(jī)器,從樂(lè)高開(kāi)始,最終以現(xiàn)實(shí)世界場(chǎng)景為目標(biāo),”該研究資深作者吳家軍說(shuō),斯坦福大學(xué)計(jì)算機(jī)科學(xué)助理教授。
研究人員表示,用人工智能翻譯 2D 手冊(cè)面臨兩大挑戰(zhàn)。首先, AI 必須基于 2D 手動(dòng)圖像在每個(gè)裝配步驟中學(xué)習(xí)和理解 3D 形狀之間的對(duì)應(yīng)關(guān)系。這包括考慮工件的方向和對(duì)齊。
它還必須能夠?qū)Υu塊進(jìn)行分類(lèi),并在半組裝模型中推斷出磚塊的三維姿態(tài)。作為樂(lè)高積木制作過(guò)程的一部分,小部件被組合成更大的部件,如吉他的頭部、頸部和身體。當(dāng)這些較大的部分組合在一起時(shí),將創(chuàng)建一個(gè)完整的項(xiàng)目。這增加了難度,因?yàn)闄C(jī)器必須解析出所有的樂(lè)高積木,甚至是那些可能不可見(jiàn)的積木,如樂(lè)高釘和反積木。
該團(tuán)隊(duì)致力于創(chuàng)建一個(gè)模型,該模型可以將 2D 手冊(cè)轉(zhuǎn)化為機(jī)器可執(zhí)行計(jì)劃,以構(gòu)建定義的對(duì)象。雖然目前有兩種執(zhí)行此任務(wù)的方法:基于搜索的方法和基于學(xué)習(xí)的方法,但都存在局限性。
基于搜索的方法尋找工件和手動(dòng)圖像的可能三維姿態(tài),尋找正確的姿態(tài)。該方法計(jì)算量大,速度慢,但精度高。
基于學(xué)習(xí)的模型依賴(lài)于神經(jīng)網(wǎng)絡(luò)來(lái)預(yù)測(cè)部件的 3D 姿態(tài)。它們速度快,但精度不高,尤其是在使用看不見(jiàn)的 3D 形狀時(shí)。
為了解決這一局限性,研究人員開(kāi)發(fā)了手冊(cè)到可執(zhí)行計(jì)劃網(wǎng)絡(luò) ( MEPNet ) ,根據(jù)研究,它使用深度學(xué)習(xí)和 計(jì)算機(jī)視覺(jué) 集成“神經(jīng) 2D 關(guān)鍵點(diǎn)檢測(cè)模塊和 2D-3D 投影算法”
??根據(jù)一系列預(yù)測(cè),在每一步,模型都會(huì)閱讀手冊(cè),定位要添加的零件,并推導(dǎo)出 3D 定位。在模型預(yù)測(cè)了每一塊和每一步的姿勢(shì)后,它可以從頭開(kāi)始解析手冊(cè),創(chuàng)建一個(gè)機(jī)器人可以遵循的建筑計(jì)劃來(lái)建造樂(lè)高對(duì)象。
研究人員在研究中寫(xiě)道:“對(duì)于每個(gè)步驟,輸入包括 1 )一組在之前的步驟中構(gòu)建的原始磚塊和零件,以 3D 表示; 2 )一個(gè)顯示組件應(yīng)如何連接的目標(biāo) 2D 圖像。預(yù)期輸出是該步驟中涉及的所有組件的(相對(duì))姿態(tài)?!薄?/p>
他們從一個(gè)包含 72 種磚塊的樂(lè)高工具包中創(chuàng)建了第一個(gè)合成訓(xùn)練數(shù)據(jù),并使用了來(lái)自 LPub3D ,一個(gè)用于“創(chuàng)建樂(lè)高風(fēng)格的數(shù)字建筑說(shuō)明”的開(kāi)源應(yīng)用程序
研究人員總共生成了 8000 份培訓(xùn)手冊(cè),其中 10 套用于驗(yàn)證, 20 套用于測(cè)試。每個(gè)數(shù)據(jù)集中有大約 200 個(gè)單獨(dú)的步驟,約占培訓(xùn)中的 200000 個(gè)單獨(dú)步驟。
他們?cè)谘芯恐袑?xiě)道:“我們?cè)诰C合生成的數(shù)據(jù)集上對(duì) MEPNet 進(jìn)行全面監(jiān)控,在該數(shù)據(jù)集中,我們有基本真相關(guān)鍵點(diǎn)、掩碼和旋轉(zhuǎn)信息。”。 MEPNet 模型在四個(gè)點(diǎn)上訓(xùn)練 5 天 NVIDIA Titan RTX GPU 由 NVIDIA 圖靈架構(gòu)提供支持。
他們還在 Minecraft house 數(shù)據(jù)集上測(cè)試了該模型,該數(shù)據(jù)集具有與樂(lè)高類(lèi)似的構(gòu)建風(fēng)格。
通過(guò)將 MEPNet 與現(xiàn)有模型進(jìn)行比較,研究人員發(fā)現(xiàn),它在現(xiàn)實(shí)世界的樂(lè)高積木、合成手冊(cè)和 Minecraft 示例中的表現(xiàn)優(yōu)于其他模型。
MEPNet 在姿勢(shì)估計(jì)方面更準(zhǔn)確,甚至在識(shí)別不可見(jiàn)片段的構(gòu)建方面也更好。研究人員還發(fā)現(xiàn),該模型能夠?qū)暮铣墒謨?cè)中獲得的知識(shí)應(yīng)用于現(xiàn)實(shí)世界的樂(lè)高手冊(cè)。
雖然還需要制造一個(gè)能夠執(zhí)行計(jì)劃的機(jī)器人,但研究人員將這項(xiàng)工作視為一個(gè)起點(diǎn)。
“我們的長(zhǎng)期目標(biāo)是制造能夠幫助人類(lèi)構(gòu)造和組裝復(fù)雜物體的機(jī)器。我們正在考慮將我們的方法擴(kuò)展到其他組裝領(lǐng)域,如宜家家具,”斯坦福大學(xué)計(jì)算機(jī)科學(xué)博士生王若成( Ruocheng Wang )說(shuō)。
關(guān)于作者
Michelle Horton 是 NVIDIA 的高級(jí)開(kāi)發(fā)人員通信經(jīng)理,擁有通信經(jīng)理和科學(xué)作家的背景。她在 NVIDIA 為開(kāi)發(fā)者博客撰文,重點(diǎn)介紹了開(kāi)發(fā)者使用 NVIDIA 技術(shù)的多種方式。
審核編輯:郭婷
-
計(jì)算機(jī)
+關(guān)注
關(guān)注
19文章
7663瀏覽量
90809 -
AI
+關(guān)注
關(guān)注
88文章
35164瀏覽量
279971
發(fā)布評(píng)論請(qǐng)先 登錄
自動(dòng)化計(jì)算機(jī)的功能與用途

工業(yè)計(jì)算機(jī)與商用計(jì)算機(jī)的區(qū)別有哪些

AR和VR中的計(jì)算機(jī)視覺(jué)

【「具身智能機(jī)器人系統(tǒng)」閱讀體驗(yàn)】+兩本互為支持的書(shū)
工業(yè)中使用哪種計(jì)算機(jī)?

量子計(jì)算機(jī)與普通計(jì)算機(jī)工作原理的區(qū)別

C語(yǔ)言數(shù)組應(yīng)用計(jì)算機(jī)導(dǎo)論A第6講:數(shù)組
工業(yè)計(jì)算機(jī)類(lèi)型介紹

【小白入門(mén)必看】一文讀懂深度學(xué)習(xí)計(jì)算機(jī)視覺(jué)技術(shù)及學(xué)習(xí)路線(xiàn)
ARMxy嵌入式計(jì)算機(jī)在機(jī)器視覺(jué)中的卓越表現(xiàn)

晶體管計(jì)算機(jī)和電子管計(jì)算機(jī)有什么區(qū)別
計(jì)算機(jī)視覺(jué)有哪些優(yōu)缺點(diǎn)
計(jì)算機(jī)視覺(jué)中的圖像融合

地平線(xiàn)科研論文入選國(guó)際計(jì)算機(jī)視覺(jué)頂會(huì)ECCV 2024

評(píng)論