亚洲国产1000在线,亚洲成AV 人片在线观看无码

樂高愛好者抓撓他們的頭，閱讀組裝說(shuō)明，可能很快有助于復(fù)雜的建設(shè)，感謝一個(gè)新的學(xué)習(xí) 來(lái)自斯坦福大學(xué)、麻省理工學(xué)院和 Autodesk 。研究人員設(shè)計(jì)了一個(gè)深度學(xué)習(xí)框架，將 2D 手冊(cè)翻譯成機(jī)器可以理解的步驟，以構(gòu)建 3D 樂高套件。這項(xiàng)工作可以推動(dòng)專注于制造機(jī)器的研究，幫助人們組裝物體。

“樂高手冊(cè)提供了一個(gè)獨(dú)立的環(huán)境，展示了人類的一項(xiàng)核心技能：在指導(dǎo)下學(xué)習(xí)完成任務(wù)。利用視覺場(chǎng)景解析和程序合成的最新進(jìn)展，我們旨在構(gòu)建具有類似技能的機(jī)器，從樂高開始，最終以現(xiàn)實(shí)世界場(chǎng)景為目標(biāo)，”該研究資深作者吳家軍說(shuō)，斯坦福大學(xué)計(jì)算機(jī)科學(xué)助理教授。

研究人員表示，用人工智能翻譯 2D 手冊(cè)面臨兩大挑戰(zhàn)。首先， AI 必須基于 2D 手動(dòng)圖像在每個(gè)裝配步驟中學(xué)習(xí)和理解 3D 形狀之間的對(duì)應(yīng)關(guān)系。這包括考慮工件的方向和對(duì)齊。

它還必須能夠?qū)Υu塊進(jìn)行分類，并在半組裝模型中推斷出磚塊的三維姿態(tài)。作為樂高積木制作過程的一部分，小部件被組合成更大的部件，如吉他的頭部、頸部和身體。當(dāng)這些較大的部分組合在一起時(shí)，將創(chuàng)建一個(gè)完整的項(xiàng)目。這增加了難度，因?yàn)闄C(jī)器必須解析出所有的樂高積木，甚至是那些可能不可見的積木，如樂高釘和反積木。

該團(tuán)隊(duì)致力于創(chuàng)建一個(gè)模型，該模型可以將 2D 手冊(cè)轉(zhuǎn)化為機(jī)器可執(zhí)行計(jì)劃，以構(gòu)建定義的對(duì)象。雖然目前有兩種執(zhí)行此任務(wù)的方法：基于搜索的方法和基于學(xué)習(xí)的方法，但都存在局限性。

基于搜索的方法尋找工件和手動(dòng)圖像的可能三維姿態(tài)，尋找正確的姿態(tài)。該方法計(jì)算量大，速度慢，但精度高。

基于學(xué)習(xí)的模型依賴于神經(jīng)網(wǎng)絡(luò)來(lái)預(yù)測(cè)部件的 3D 姿態(tài)。它們速度快，但精度不高，尤其是在使用看不見的 3D 形狀時(shí)。

為了解決這一局限性，研究人員開發(fā)了手冊(cè)到可執(zhí)行計(jì)劃網(wǎng)絡(luò) （ MEPNet ），根據(jù)研究，它使用深度學(xué)習(xí)和計(jì)算機(jī)視覺集成“神經(jīng) 2D 關(guān)鍵點(diǎn)檢測(cè)模塊和 2D-3D 投影算法”

??根據(jù)一系列預(yù)測(cè)，在每一步，模型都會(huì)閱讀手冊(cè)，定位要添加的零件，并推導(dǎo)出 3D 定位。在模型預(yù)測(cè)了每一塊和每一步的姿勢(shì)后，它可以從頭開始解析手冊(cè)，創(chuàng)建一個(gè)機(jī)器人可以遵循的建筑計(jì)劃來(lái)建造樂高對(duì)象。

研究人員在研究中寫道：“對(duì)于每個(gè)步驟，輸入包括 1 ）一組在之前的步驟中構(gòu)建的原始磚塊和零件，以 3D 表示； 2 ）一個(gè)顯示組件應(yīng)如何連接的目標(biāo) 2D 圖像。預(yù)期輸出是該步驟中涉及的所有組件的（相對(duì)）姿態(tài)?！?。

他們從一個(gè)包含 72 種磚塊的樂高工具包中創(chuàng)建了第一個(gè)合成訓(xùn)練數(shù)據(jù)，并使用了來(lái)自 LPub3D ，一個(gè)用于“創(chuàng)建樂高風(fēng)格的數(shù)字建筑說(shuō)明”的開源應(yīng)用程序

研究人員總共生成了 8000 份培訓(xùn)手冊(cè)，其中 10 套用于驗(yàn)證， 20 套用于測(cè)試。每個(gè)數(shù)據(jù)集中有大約 200 個(gè)單獨(dú)的步驟，約占培訓(xùn)中的 200000 個(gè)單獨(dú)步驟。

他們?cè)谘芯恐袑懙溃骸拔覀冊(cè)诰C合生成的數(shù)據(jù)集上對(duì) MEPNet 進(jìn)行全面監(jiān)控，在該數(shù)據(jù)集中，我們有基本真相關(guān)鍵點(diǎn)、掩碼和旋轉(zhuǎn)信息?！薄?MEPNet 模型在四個(gè)點(diǎn)上訓(xùn)練 5 天 NVIDIA Titan RTX GPU 由 NVIDIA 圖靈架構(gòu)提供支持。

他們還在 Minecraft house 數(shù)據(jù)集上測(cè)試了該模型，該數(shù)據(jù)集具有與樂高類似的構(gòu)建風(fēng)格。

通過將 MEPNet 與現(xiàn)有模型進(jìn)行比較，研究人員發(fā)現(xiàn)，它在現(xiàn)實(shí)世界的樂高積木、合成手冊(cè)和 Minecraft 示例中的表現(xiàn)優(yōu)于其他模型。

MEPNet 在姿勢(shì)估計(jì)方面更準(zhǔn)確，甚至在識(shí)別不可見片段的構(gòu)建方面也更好。研究人員還發(fā)現(xiàn)，該模型能夠?qū)暮铣墒謨?cè)中獲得的知識(shí)應(yīng)用于現(xiàn)實(shí)世界的樂高手冊(cè)。

雖然還需要制造一個(gè)能夠執(zhí)行計(jì)劃的機(jī)器人，但研究人員將這項(xiàng)工作視為一個(gè)起點(diǎn)。

“我們的長(zhǎng)期目標(biāo)是制造能夠幫助人類構(gòu)造和組裝復(fù)雜物體的機(jī)器。我們正在考慮將我們的方法擴(kuò)展到其他組裝領(lǐng)域，如宜家家具，”斯坦福大學(xué)計(jì)算機(jī)科學(xué)博士生王若成（ Ruocheng Wang ）說(shuō)。

關(guān)于作者

Michelle Horton 是 NVIDIA 的高級(jí)開發(fā)人員通信經(jīng)理，擁有通信經(jīng)理和科學(xué)作家的背景。她在 NVIDIA 為開發(fā)者博客撰文，重點(diǎn)介紹了開發(fā)者使用 NVIDIA 技術(shù)的多種方式。

審核編輯：郭婷

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴