chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

OpenAI打造的機器手能以前所未有的靈活度操縱立方體、圓柱體等物體

DPVg_AI_era ? 來源:未知 ? 作者:李倩 ? 2018-08-01 09:22 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

之前在DOTA2團隊戰(zhàn)中戰(zhàn)勝人類玩家的OpenAI Five,現(xiàn)在被用于訓練機器手,取得了前所未有的靈活度。這只機器手完全在虛擬環(huán)境中自我學習和訓練,然后成功遷移到現(xiàn)實世界解決實際問題。OpenAI使用6144個CPU和8個GPU來訓練,50小時內(nèi)收集了大約100年的經(jīng)驗。

還記得OpenAI那個在DOTA2有限制5v5團戰(zhàn)中戰(zhàn)勝人類玩家的OpenAI Five嗎?

這次,OpenAI的研究人員將同樣的算法和同樣的代碼用在了訓練機器手上,所得到的機器手能以前所未有的靈活度操縱立方體、圓柱體等物體。

Dactyl自主學習的靈巧操作行為

這個系統(tǒng)名為Dactyl,與其他機器人系統(tǒng)不同的地方在于,它完全在模擬環(huán)境中進行訓練,并將其虛擬世界中得到的知識轉(zhuǎn)化為現(xiàn)實,并且適應(yīng)現(xiàn)實世界的物理學。所有的行為都是自主發(fā)現(xiàn)的。

研究人員表示,他們的結(jié)果表明,完全可以在純模擬環(huán)境中訓練智能體,無需對現(xiàn)實世界進行精確的物理建模(一項極端復雜且浩大的工程),就能讓智能體解決實際的任務(wù)。

雖然 Dactyl 機器手跟人手相比仍有一定距離,但這項工作表明,機器學習有可能解鎖機器新的能力——將來,AI完全可以在虛擬世界中自己教自己新的技能,大大加快學習速度,然后轉(zhuǎn)移至物理世界。

OpenAI還在這次研究中發(fā)現(xiàn)了一些令他們感到意外的結(jié)果:

首先,觸覺感應(yīng)對于操縱現(xiàn)實世界物體并不是必要的。Dactyl 機器手操縱只接收五個指尖的位置以及立方體的位置和方向。有限的傳感器可以獲得更好的性能,因為這些傳感器可以在模擬器中有效建模,由很多傳感器組成的傳感器組建模起來非常復雜。

其次,為一個對象開發(fā)的隨機化(Randomizations)也能推廣到具有類似屬性的其他對象身上。在玩轉(zhuǎn)立方體后,OpenAI的研究人員打印了一個八角棱鏡,結(jié)果 Dactyl 機器手僅使用他們?yōu)榱⒎襟w設(shè)計的隨機化就實現(xiàn)了高的性能。不過,操縱球體還略有難度,可能是因為他們沒有隨機化模擬滾動行為的參數(shù)。

此外,對于現(xiàn)實世界的機器人來說,要讓運作性能高,好的系統(tǒng)工程與好的算法同等重要。

減少反應(yīng)時間并沒有改善性能。傳統(tǒng)觀點認為,減少動作之間的時間應(yīng)該可以提高性能,因為狀態(tài)之間的變化更小,因此更容易預測。但實驗中,研究人員將機器手動作之間的時間減少到 40ms,訓練時間反而變長,而且沒有顯著改善其在現(xiàn)實世界中的性能。他們得出的結(jié)論是,這種經(jīng)驗法則可能適用于線性模型,但可能不太適用于神經(jīng)網(wǎng)絡(luò)模型。

最后,使用真實數(shù)據(jù)來訓練結(jié)果不一定更好。與模擬數(shù)據(jù)相比,真實數(shù)據(jù)有很明顯的缺點,比如跟蹤標記的位置信息有延遲和測量誤差。更糟糕的是,實際配置的更改很容易讓實際數(shù)據(jù)變得無效,而且收集足夠多、足夠有用的數(shù)據(jù)十分困難。最終 Dactyl 機器手的視覺模型,是在沒有任何實際數(shù)據(jù)的情況下完成的。

機器手靈活控制物體有四大難點,一直未取得重大突破

Dactyl是一個使用Shadow Dexterous Hand操縱目標的系統(tǒng)。我們將一個木塊或棱鏡這樣的物體放在Dactyl的手掌中,讓Dactyl將其重新定位至不同的方向;比如旋轉(zhuǎn)木塊,讓其新的一面朝上。網(wǎng)絡(luò)僅負責觀察指尖的坐標以及來自三個普通RGB相機的圖像。

雖然第一個擬人化的機器手早在幾十年前就出現(xiàn)了,但如何利用這些手有效地操縱物體,一直是機器人控制領(lǐng)域內(nèi)的長期挑戰(zhàn)。與運動之類的其他問題不同,人們在利用傳統(tǒng)機器人方法實施靈巧的操作方面的進展一直很緩慢,并且當前的技術(shù)在操縱現(xiàn)實世界中的物體上仍然存在局限性。

要對機器手中的物體實施重新定向,需要解決以下問題:

在現(xiàn)實世界中奏效。強化學習在模擬和視頻游戲中取得了許多成功,但在現(xiàn)實世界中取得的成果卻相對有限。我們在真實的機器人身上對Dactyl進行了測試。

高維控制。Shadow Dexterous Hand的自由度為24,而一般的機器人手臂的自由度為7。

噪音和觀察部分目標。 Dactyl是在真實世界中工作,因此必須處理噪聲和延遲的傳感器數(shù)據(jù)。當指尖的傳感器被其他手指或物體遮擋時,Dactyl必須能夠處理不完整信息。像摩擦和滑動等物理體系中的許多組成部分,是無法直接通過觀察得到的,必須由推理得出。

操縱多個對象。 Dactyl在設(shè)計上的高靈活性,足以重新定向多個目標。也就是說,我們的方法不能使用僅適用于特定形狀目標的策略。

無需任何人工輸入:領(lǐng)域隨機化,再現(xiàn)模擬奇跡!

Dactyl完全是在模擬環(huán)境中學習如何解決目標重定向任務(wù)(object reorientation task)的,無需任何的人工輸入。在此訓練階段之后,學習策略會在沒有任何微調(diào)的情況下對真實機器人起一定作用。

在操縱機器人的學習方法方面,通常會面臨一個兩難的選擇。模擬的機器人可以輕松提供充足的數(shù)據(jù)來訓練復雜的策略,但是大多數(shù)操作問題都無法準確地建模,從而無法使這些策略轉(zhuǎn)移到真實機器人身上。即使是對兩個物體接觸時發(fā)生的情況進行建模(這是操作中最基本的問題)也是一個活躍的研究領(lǐng)域,并且目前沒有廣泛統(tǒng)一且接受的解決方案。直接在物理機器人上展開訓練可以讓策略從現(xiàn)實世界物理層面進行學習,但現(xiàn)今的算法需要多年的經(jīng)驗才能解決類似對象重定向這樣的問題。

而領(lǐng)域隨機化(domain randomization)是在模擬中進行學習的,旨在提供各種經(jīng)驗而不是將現(xiàn)實進行最大化。這種思路提供了最好的兩種方法:在模擬中學習,可以通過擴展來快速收集更多的經(jīng)驗;不強調(diào)現(xiàn)實主義,可以解決模擬器只能近似模擬的問題。

利用MuJoCo物理引擎構(gòu)建機器人系統(tǒng)的模擬版本。這個模擬僅僅是真實機器人的粗略近似:

對摩擦、阻尼和滾動阻力等物理屬性進行測量是既麻煩又困難的。隨著機器人的磨損,這些屬性也會隨時間而改變。

MuJoCo是一個剛體模擬器,這意味著它不能模擬手指上或肌腱的拉伸時的可變形橡膠。

機器人只能通過反復接觸來操縱物體。 然而,眾所周知,接觸力難以在模擬中準確地再現(xiàn)。

通過校準其參數(shù)來匹配機器人的行為,可以使模擬更加逼真,但在目前的模擬器中,許多這樣的效果是無法精確建模的。

相反,該方法是在模擬環(huán)境的分布上對策略進行訓練,其中物理和視覺屬性是隨機選擇的。隨機值是表示物理系統(tǒng)不確定性的一種自然方法,它還可以防止對單個模擬環(huán)境的過度擬合。如果策略可以在所有模擬環(huán)境中完成任務(wù),則更有可能在現(xiàn)實世界中完成該任務(wù)。

6144個CPU和8個GPU,50小時內(nèi)收集大約100年的經(jīng)驗

學習控制

通過構(gòu)建支持遷移的模擬,我們減輕了在現(xiàn)實世界中控制機器人來完成模擬任務(wù)的困難,這是一個非常適合強化學習的問題。雖然用一只模擬的手來操縱物體這個任務(wù)已經(jīng)有些困難,但是要在所有隨機物理參數(shù)組合中學習進行這樣的操作實際上要更加困難。

為了在不同環(huán)境中進行推廣(generalize),策略可以在具有不同動態(tài)的環(huán)境中執(zhí)行不同的操作。由于大多數(shù)動力學參數(shù)不能從單個觀測中推斷出來,所以我們使用LSTM(一種具有記憶的神經(jīng)網(wǎng)絡(luò))使網(wǎng)絡(luò)能夠了解環(huán)境的動態(tài)。LSTM在模擬中實現(xiàn)的旋轉(zhuǎn)大約兩倍于不具有記憶的策略的旋轉(zhuǎn)。

Dactyl使用Rapid學習,這是一個強化學習訓練系統(tǒng),之前解決了Dota2的OpenAI Five使用的也是它。我們使用了與OpenAI Five不同的模型架構(gòu)、環(huán)境和超參數(shù),但是使用的算法和訓練代碼是完全相同的。Rapid使用6144個CPU內(nèi)核和8個GPU來訓練我們的策略,在50小時內(nèi)收集了大約100年的經(jīng)驗。

為了進行開發(fā)和測試,我們使用嵌入式運動跟蹤傳感器來驗證我們的控制策略,以分別了解控制策略和視覺網(wǎng)絡(luò)的性能。

學習觀察

Dactyl的設(shè)計目的是能夠操縱任意物體,而不僅僅是為了支持跟蹤進行過特殊修改的物體。因此,Dactyl使用常規(guī)的RGB相機圖像來估計物體的位置和方向。

我們使用卷積神經(jīng)網(wǎng)絡(luò)訓練一個姿態(tài)估計器(pose estimator)。神經(jīng)網(wǎng)絡(luò)從機器手周圍的三個攝像機中獲取視頻流,并輸出目標的預估位置和方向。我們使用多臺攝像機來解決模糊和遮擋問題。我們再次使用Unity游戲開發(fā)平臺,僅在模擬中使用域隨機化來訓練這個網(wǎng)絡(luò),該平臺可以模擬比Mujoco更廣泛的視覺現(xiàn)象。

控制網(wǎng)絡(luò)(control network)根據(jù)對象的姿態(tài)重新定位,視覺網(wǎng)絡(luò)(vision network)將圖像從攝像機映射到對象的姿態(tài),通過結(jié)合這兩個獨立的網(wǎng)絡(luò),Dactyl可以通過觀察來操縱對象。

用于學習估計立方塊的姿勢的訓練示例

所有行為都由機器自主發(fā)現(xiàn),采用與人不同的策略

在部署系統(tǒng)時,我們注意到Dactyl使用了一組多樣的靈巧操作策略來解決任務(wù)。這些策略也是人類經(jīng)常使用的。但是,我們并沒有明確地將這些策略教給系統(tǒng);所有的行為都是自主發(fā)現(xiàn)的。

Dactyl自主學習的靈巧操作行為

Dactyl根據(jù)GRASP分類法了解類型。從左上到右下分別是:指尖捏、掌心捏、三指握、四指握、強力抓握、五指精準抓握。

我們觀察到,對于精準抓握,比如指尖捏,Dactyl會使用拇指和小指。人類則傾向于使用拇指和食指或拇指和中指。然而,由于由額外的自由度,機器手的小指更加靈活,這也許可以解釋為什么Dactyl更喜歡用小指。這意味著Dactyl可以調(diào)整人類的策略,以更好地適應(yīng)自身的局限性和能力。

改變實驗方式時的表現(xiàn)

我們測試了Dactyl在掉落物體、超時或成功翻轉(zhuǎn)目標50次前的成功翻轉(zhuǎn)次數(shù)。 我們在純模擬訓練的結(jié)果表明,該策略能夠成功操縱現(xiàn)實世界中的目標。

我們在實驗室中使用Shadow Dexterous Hand、PhaseSpace動作跟蹤相機和Basler RGB相機進行實驗。

對于操作立方體的任務(wù)而言,使用隨機化訓練的策略可能比未隨機化訓練的策略實現(xiàn)更多的翻轉(zhuǎn)次數(shù),具體結(jié)果如下表所示。 此外,使用由視覺估計姿態(tài)的控制網(wǎng)絡(luò)的表現(xiàn),幾乎與直接從運動跟蹤傳感器中讀取數(shù)據(jù)的網(wǎng)絡(luò)一樣好。

隨機化情況 目標跟蹤方式 最大成功翻轉(zhuǎn)次數(shù) 成功次數(shù)中位數(shù)
全部隨機化 視覺跟蹤 46 11.5
全部隨機化 運動跟蹤 50 13
未隨機化 運動跟蹤 6 0

學習過程

為了讓我們的策略在面向不同的物理動態(tài)目標時變得更加強大,OpenAI研究人員將絕大部分的訓練時間花費在這件事上。在沒有隨機化的情況下,要在模擬實驗中學會翻轉(zhuǎn)立方體需要大約3年時間。在完全隨機化模擬實驗中,實現(xiàn)類似的目標性能則需要大約100年。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 傳感器
    +關(guān)注

    關(guān)注

    2576

    文章

    55001

    瀏覽量

    791140
  • 智能體
    +關(guān)注

    關(guān)注

    1

    文章

    467

    瀏覽量

    11604
  • 機器手
    +關(guān)注

    關(guān)注

    0

    文章

    12

    瀏覽量

    2816

原文標題:【2天=100年】OpenAI用打Dota2的算法造了一只會轉(zhuǎn)方塊的機器手

文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    昊衡科技-三維場重構(gòu)軟件,讓結(jié)構(gòu)的溫度與應(yīng)變可視化

    三維溫度/應(yīng)變場可視化,為多場景監(jiān)測提供了全新解決方案。圓柱體加載與降溫試驗以圓柱體為測試對象,模擬了“上部加載+中部降溫”的典型工況:軟件演示中的圓柱體,能實時
    的頭像 發(fā)表于 01-22 17:32 ?1161次閱讀
    昊衡科技-三維場重構(gòu)軟件,讓結(jié)構(gòu)的溫度與應(yīng)變可視化

    「RT-Thread廿周年 | 工業(yè)與機器人分論壇:與智元機器一線力量,共探智能工業(yè)落地

    當具身智能的浪潮席卷而來,工業(yè)與機器人領(lǐng)域正站在從“自動機器”邁向“智能”的關(guān)鍵拐點。這一轉(zhuǎn)變不僅需要算法的革新,更對底層嵌入式系統(tǒng)的實時性、可靠性及開放協(xié)同提出了前所未有的要求。2
    的頭像 發(fā)表于 01-14 17:10 ?1323次閱讀
    「RT-Thread廿周年 | 工業(yè)與<b class='flag-5'>機器</b>人分論壇:與智元<b class='flag-5'>機器</b>人<b class='flag-5'>等</b>一線力量,共探智能<b class='flag-5'>體</b>工業(yè)落地

    半導體行業(yè)正邁入前所未有的“千兆周期”

    本文由半導體產(chǎn)業(yè)縱橫(ID:ICVIEWS)編譯自tomshardware行業(yè)分析認為,人工智能時代正在同時重塑芯片市場的各個方面。人工智能的浪潮正以前所未有的深度和廣度重塑全球半導體產(chǎn)業(yè)。來自
    的頭像 發(fā)表于 12-16 15:10 ?1065次閱讀
    半導體行業(yè)正邁入<b class='flag-5'>前所未有的</b>“千兆周期”

    如何借助OpenUSD提升機器人開發(fā)流程效率

    機器人需求的日益增長,正以前所未有的規(guī)模推動對物理精確仿真的需求。通用場景描述(OpenUSD)是這一變革的關(guān)鍵,它為構(gòu)建機器人可在其中學習的虛擬世界提供了強大的開源標準。
    的頭像 發(fā)表于 10-24 14:22 ?946次閱讀

    傾佳技術(shù)分析報告:基于碳化硅MOSFET的固態(tài)斷路器——在電力分配中實現(xiàn)前所未有的壽命、性能與安全

    傾佳電子技術(shù)分析報告:基于碳化硅MOSFET的固態(tài)斷路器——在電力分配中實現(xiàn)前所未有的壽命、性能與安全 傾佳電子(Changer Tech)是一家專注于功率半導體和新能源汽車連接器的分銷商。主要
    的頭像 發(fā)表于 10-16 09:18 ?743次閱讀
    傾佳技術(shù)分析報告:基于碳化硅MOSFET的固態(tài)斷路器——在電力分配中實現(xiàn)<b class='flag-5'>前所未有的</b>壽命、性能與安全

    Vicor攜手Microgate打造全球最大地面光學望遠鏡

    在智利沙漠的中心 Cerro Armazones 山上,美國公司 Vicor 和意大利公司 Microgate 這兩家技術(shù)領(lǐng)導者正在攜手打造有史以來最大的地面光學望遠鏡 —— 極大望遠鏡 (ELT)。得益于高密度電源系統(tǒng)和革命性的自適應(yīng)光學技術(shù),這一工程壯舉有望以前所未有的
    的頭像 發(fā)表于 09-26 14:01 ?734次閱讀

    AI技術(shù)正以前所未有的方式推動科學進步

    AI 技術(shù)的應(yīng)用,已不再局限于詩歌創(chuàng)作或膳食推薦,它正在為科學研究開辟全新路徑,重塑人類對世界的認知邊界。
    的頭像 發(fā)表于 09-01 13:48 ?2675次閱讀

    施耐德電氣助力打造面向未來的數(shù)據(jù)中心

    前不久,OpenAI的CEO薩姆·奧爾特曼(Sam Altman)在社交平臺宣布:年底前部署超百萬GPU。一場前所未有的算力競賽正在改寫AI發(fā)展進程。
    的頭像 發(fā)表于 08-25 15:26 ?895次閱讀

    3Dfindit 提供的數(shù)字立方體模型為研究項目的可視化提供了支持

    作為學習項目的一部分,羅伊特林根教育大學的學生們在比辛根集中營紀念地的博物館中使用 3Dfindit 動畫立方體模型進行了學習。作為歷史教學研討會的一部分,學生們研究了巴登-符騰堡州比辛根在
    發(fā)表于 08-01 14:36

    重新定義精密制造!富唯智能高精度裝配人形機器人引領(lǐng)智造革命

    在工業(yè)4.0時代,柔性制造對精度與協(xié)作提出了前所未有的挑戰(zhàn)。富唯智能推出的雙臂人形機器人,以“、腳、眼、腦”一化設(shè)計,開創(chuàng)了高精度裝配的新紀元。高精度裝配人形
    的頭像 發(fā)表于 06-11 16:20 ?596次閱讀
    重新定義精密制造!富唯智能高精度裝配人形<b class='flag-5'>機器</b>人引領(lǐng)智造革命

    2025款東風奕派eπ007重磅上市

    近日,東風奕派重磅打造全球首場AI共創(chuàng)產(chǎn)品發(fā)布會,以前沿科技重構(gòu)汽車發(fā)布場景,解鎖前所未有的沉浸式交互體驗。
    的頭像 發(fā)表于 05-23 15:58 ?815次閱讀

    IBM發(fā)布全新AI智能解決方案

    今天,AI 智能代表著 AI 技術(shù)變革的一個重要轉(zhuǎn)折點,即從聊天工具進化成生產(chǎn)力工具,并且具有前所未有的自主性。
    的頭像 發(fā)表于 05-12 14:28 ?1025次閱讀

    如何獲取 OpenAI API Key?API 獲取與代碼調(diào)用示例 (詳解教程)

    ,催生了從智能聊天到復雜數(shù)據(jù)分析前所未有的應(yīng)用場景。OpenAI API Key 是開啟這些能力的關(guān)鍵,它既是身份憑證,也是資源管理和安全保障的核心。然而,安全、高效地獲取、管理和使用 API
    的頭像 發(fā)表于 05-04 11:42 ?1.6w次閱讀
    如何獲取 <b class='flag-5'>OpenAI</b> API Key?API 獲取與代碼調(diào)用示例 (詳解教程)

    大華星漢大模型2.0重塑產(chǎn)業(yè)格局

    大模型的蓬勃發(fā)展,正以前所未有的速度和方式融入社會各領(lǐng)域。大華星漢大模型2.0創(chuàng)新構(gòu)建行業(yè)智能,重塑產(chǎn)業(yè)格局。
    的頭像 發(fā)表于 04-15 10:38 ?1238次閱讀

    引領(lǐng)工業(yè)革命新浪潮:揭秘具身智能工業(yè)機器人核心技術(shù)的無限潛能

    在智能制造與工業(yè)4.0深度融合的今天,具身智能工業(yè)機器人核心技術(shù)正以前所未有的速度重塑全球制造業(yè)格局。作為工業(yè)自動化的“智慧大腦”,這項技術(shù)不僅讓機器人擁有了“感知-決策-執(zhí)行”的全鏈路能力,更在復雜場景中展現(xiàn)了超乎想象的
    的頭像 發(fā)表于 03-27 16:06 ?883次閱讀