一级毛片成人免费下载,a亚洲va韩国va欧美va久久,欧美一级不卡

【導讀】MetaAI這次發(fā)布的MoDem解決了視覺強化學習領域的三個挑戰(zhàn)，無需解碼器，效率最高提升250%，一起看看它有多牛。

12月27日，MetaAI 負責視覺和強化學習領域的A

截止27日晚間，這篇推文的閱讀量已經達到73.9k。

他表示，僅給出5個演示，MoDem就能在100K交互步驟中解決具有稀疏獎勵和高維動作空間的具有挑戰(zhàn)性的視覺運動控制任務，大大優(yōu)于現(xiàn)有的最先進方法。

有多優(yōu)秀呢？

他們發(fā)現(xiàn)MoDem在完成稀疏獎勵任務方面的成功率比低數(shù)據(jù)機制中的先前方法高出150%-250%。

Lecun也轉發(fā)了這一研究，表示MoDem的模型架構類似于JEPA，可在表征空間做出預測且無需解碼器。

鏈接小編就放在下面啦，有興趣的小伙伴可以看看~

論文鏈接：https://arxiv.org/abs/2212.05698

Github鏈接：https://github.com/facebookresearch/modem

研究創(chuàng)新和模型架構

樣本效率低下是實際應用部署深度強化學習 (RL) 算法的主要挑戰(zhàn)，尤其是視覺運動控制。

基于模型的RL有可能通過同時學習世界模型并使用合成部署來進行規(guī)劃和政策改進，從而實現(xiàn)高樣本效率。

然而在實踐中，基于模型的RL的樣本高效學習受到探索挑戰(zhàn)的瓶頸，這次研究恰恰解決了這些主要挑戰(zhàn)。

首先，MoDem分別通過使用世界模型、模仿+RL和自監(jiān)督視覺預訓練，解決了視覺強化學習/控制領域的三個主要挑戰(zhàn)：

大樣本復雜性（Large sample complexity）

高維狀態(tài)和動作空間探索（Exploration in high-dimensional state and action space）

同步視覺表征和行為學習（Simultaneous learning of visual representations and behaviors）

這次的模型架構類似于Yann LeCun的JEPA，并且無需解碼器。

作者Aravind Rajeswaran表示，相比Dreamer需要像素級預測的解碼器，架構繁重，無解碼器架構可支持直接插入使用SSL預訓練的視覺表示。

此外基于IL+RL，他們提出了一個三階段算法：

BC預訓練策略

使用包含演示和探索的種子數(shù)據(jù)集預訓練世界模型，此階段對于整體穩(wěn)定性和效率很重要

通過在線互動微調世界模型

結果顯示，生成的算法在21個硬視覺運動控制任務中取得了SOTA結果（State-Of-The-Art result），包括Adroit靈巧操作、MetaWorld和DeepMind控制套件。

從數(shù)據(jù)上來看，MoDem在各項任務中的表現(xiàn)遠遠優(yōu)于其他模型，結果比之前的SOTA方法提升了150%到250%。

紅色線條為MoDem在各項任務中的表現(xiàn)

在此過程中，他們還闡明了MoDem中不同階段的重要性、數(shù)據(jù)增強對視覺MBRL的重要性以及預訓練視覺表示的實用性。

最后，使用凍結的 R3M 功能遠遠優(yōu)于直接的 E2E 方法。這很令人興奮，表明視頻中的視覺預訓練可以支持世界模型。

但8月數(shù)據(jù)強勁的E2E與凍結的R3M競爭，我們可以通過預訓練做得更好。

審核編輯：李倩

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

原文標題：Meta推出MoDem世界模型：解決視覺領域三大挑戰(zhàn)，LeCun轉發(fā)

文章出處：【微信號：CVSCHOOL，微信公眾號：OpenCV學堂】歡迎添加關注！文章轉載請注明出處。

chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛兴趣闲谈,欧美亚洲精品 8区,国产精品久久久久精品免费