chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

MoDem解決了視覺強(qiáng)化學(xué)習(xí)領(lǐng)域的三個挑戰(zhàn)

OpenCV學(xué)堂 ? 來源:新智元 ? 2023-01-05 11:24 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

【導(dǎo)讀】MetaAI這次發(fā)布的MoDem解決了視覺強(qiáng)化學(xué)習(xí)領(lǐng)域的三個挑戰(zhàn),無需解碼器,效率最高提升250%,一起看看它有多牛。

12月27日,MetaAI 負(fù)責(zé)視覺和強(qiáng)化學(xué)習(xí)領(lǐng)域的A

eaf4d14c-8c5e-11ed-bfe3-dac502259ad0.png

截止27日晚間,這篇推文的閱讀量已經(jīng)達(dá)到73.9k。

eafc10a6-8c5e-11ed-bfe3-dac502259ad0.png

他表示,僅給出5個演示,MoDem就能在100K交互步驟中解決具有稀疏獎勵和高維動作空間的具有挑戰(zhàn)性的視覺運(yùn)動控制任務(wù),大大優(yōu)于現(xiàn)有的最先進(jìn)方法。

有多優(yōu)秀呢?

他們發(fā)現(xiàn)MoDem在完成稀疏獎勵任務(wù)方面的成功率比低數(shù)據(jù)機(jī)制中的先前方法高出150%-250%。

eb0169a2-8c5e-11ed-bfe3-dac502259ad0.png

Lecun也轉(zhuǎn)發(fā)了這一研究,表示MoDem的模型架構(gòu)類似于JEPA,可在表征空間做出預(yù)測且無需解碼器。

eb0df6c2-8c5e-11ed-bfe3-dac502259ad0.png

鏈接小編就放在下面啦,有興趣的小伙伴可以看看~

eb17ae42-8c5e-11ed-bfe3-dac502259ad0.png

論文鏈接:https://arxiv.org/abs/2212.05698

Github鏈接:https://github.com/facebookresearch/modem

研究創(chuàng)新和模型架構(gòu)

樣本效率低下是實(shí)際應(yīng)用部署深度強(qiáng)化學(xué)習(xí) (RL) 算法的主要挑戰(zhàn),尤其是視覺運(yùn)動控制。

基于模型的RL有可能通過同時學(xué)習(xí)世界模型并使用合成部署來進(jìn)行規(guī)劃和政策改進(jìn),從而實(shí)現(xiàn)高樣本效率。

然而在實(shí)踐中,基于模型的RL的樣本高效學(xué)習(xí)受到探索挑戰(zhàn)的瓶頸,這次研究恰恰解決了這些主要挑戰(zhàn)。

首先,MoDem分別通過使用世界模型、模仿+RL和自監(jiān)督視覺預(yù)訓(xùn)練,解決了視覺強(qiáng)化學(xué)習(xí)/控制領(lǐng)域的三個主要挑戰(zhàn):

大樣本復(fù)雜性(Large sample complexity)

高維狀態(tài)和動作空間探索(Exploration in high-dimensional state and action space)

同步視覺表征和行為學(xué)習(xí)(Simultaneous learning of visual representations and behaviors)

eb22ced0-8c5e-11ed-bfe3-dac502259ad0.png

這次的模型架構(gòu)類似于Yann LeCun的JEPA,并且無需解碼器。

作者Aravind Rajeswaran表示,相比Dreamer需要像素級預(yù)測的解碼器,架構(gòu)繁重,無解碼器架構(gòu)可支持直接插入使用SSL預(yù)訓(xùn)練的視覺表示。

eb2abf6e-8c5e-11ed-bfe3-dac502259ad0.png

此外基于IL+RL,他們提出了一個三階段算法:

BC預(yù)訓(xùn)練策略

使用包含演示和探索的種子數(shù)據(jù)集預(yù)訓(xùn)練世界模型,此階段對于整體穩(wěn)定性和效率很重要

通過在線互動微調(diào)世界模型

eb34d1b6-8c5e-11ed-bfe3-dac502259ad0.png

結(jié)果顯示,生成的算法在21個硬視覺運(yùn)動控制任務(wù)中取得了SOTA結(jié)果(State-Of-The-Art result),包括Adroit靈巧操作、MetaWorld和DeepMind控制套件。

從數(shù)據(jù)上來看,MoDem在各項(xiàng)任務(wù)中的表現(xiàn)遠(yuǎn)遠(yuǎn)優(yōu)于其他模型,結(jié)果比之前的SOTA方法提升了150%到250%。

eb3f2a3a-8c5e-11ed-bfe3-dac502259ad0.png

紅色線條為MoDem在各項(xiàng)任務(wù)中的表現(xiàn)

在此過程中,他們還闡明了MoDem中不同階段的重要性、數(shù)據(jù)增強(qiáng)對視覺MBRL的重要性以及預(yù)訓(xùn)練視覺表示的實(shí)用性。

最后,使用凍結(jié)的 R3M 功能遠(yuǎn)遠(yuǎn)優(yōu)于直接的 E2E 方法。這很令人興奮,表明視頻中的視覺預(yù)訓(xùn)練可以支持世界模型。

但8月數(shù)據(jù)強(qiáng)勁的E2E與凍結(jié)的R3M競爭,我們可以通過預(yù)訓(xùn)練做得更好。

eb5281de-8c5e-11ed-bfe3-dac502259ad0.png

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 解碼器
    +關(guān)注

    關(guān)注

    9

    文章

    1220

    瀏覽量

    43453
  • Meta
    +關(guān)注

    關(guān)注

    0

    文章

    323

    瀏覽量

    12470
  • 強(qiáng)化學(xué)習(xí)

    關(guān)注

    4

    文章

    270

    瀏覽量

    11970

原文標(biāo)題:Meta推出MoDem世界模型:解決視覺領(lǐng)域三大挑戰(zhàn),LeCun轉(zhuǎn)發(fā)

文章出處:【微信號:CVSCHOOL,微信公眾號:OpenCV學(xué)堂】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    自動駕駛中常提的離線強(qiáng)化學(xué)習(xí)是什么?

    [首發(fā)于智駕最前沿微信公眾號]在之前談及自動駕駛模型學(xué)習(xí)時,詳細(xì)聊過強(qiáng)化學(xué)習(xí)的作用,由于強(qiáng)化學(xué)習(xí)能讓大模型通過交互學(xué)到策略,不需要固定的規(guī)則,從而給自動駕駛的落地創(chuàng)造更多可能。
    的頭像 發(fā)表于 02-07 09:21 ?222次閱讀
    自動駕駛中常提的離線<b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>是什么?

    強(qiáng)化學(xué)習(xí)會讓自動駕駛模型學(xué)習(xí)更快嗎?

    [首發(fā)于智駕最前沿微信公眾號]在談及自動駕駛大模型訓(xùn)練時,有的技術(shù)方案會采用模仿學(xué)習(xí),而有些會采用強(qiáng)化學(xué)習(xí)。同樣作為大模型的訓(xùn)練方式,強(qiáng)化學(xué)習(xí)有何不同?又有什么特點(diǎn)呢? 什么是強(qiáng)化學(xué)習(xí)
    的頭像 發(fā)表于 01-31 09:34 ?664次閱讀
    <b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>會讓自動駕駛模型<b class='flag-5'>學(xué)習(xí)</b>更快嗎?

    多智能體強(qiáng)化學(xué)習(xí)(MARL)核心概念與算法概覽

    訓(xùn)練單個RL智能體的過程非常簡單,那么我們現(xiàn)在換一場景,同時訓(xùn)練五智能體,而且每個都有自己的目標(biāo)、只能看到部分信息,還能互相幫忙。這就是多智能體強(qiáng)化學(xué)習(xí)
    的頭像 發(fā)表于 01-21 16:21 ?204次閱讀
    多智能體<b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>(MARL)核心概念與算法概覽

    上汽別克至境E7首發(fā)搭載Momenta R6強(qiáng)化學(xué)習(xí)大模型

    別克至境家族迎來新成員——大五座智能SUV別克至境E7首發(fā)。新車將搭載Momenta R6強(qiáng)化學(xué)習(xí)大模型,帶來全場景的智能出行體驗(yàn)。
    的頭像 發(fā)表于 01-12 16:23 ?345次閱讀

    【團(tuán)購】獨(dú)家全套珍藏!龍哥LabVIEW視覺深度學(xué)習(xí)實(shí)戰(zhàn)課(11大系列課程,共5000+分鐘)

    大系列課程,形成\"傳統(tǒng)視覺算法→深度學(xué)習(xí)建?!I(yè)級部署\"的完整技術(shù)鏈,不論是新手、老手都適合學(xué)習(xí)。 1. 新手入門 課程通過層保障體系降低學(xué)
    發(fā)表于 12-04 09:28

    【團(tuán)購】獨(dú)家全套珍藏!龍哥LabVIEW視覺深度學(xué)習(xí)實(shí)戰(zhàn)課程(11大系列課程,共5000+分鐘)

    大系列課程,形成\"傳統(tǒng)視覺算法→深度學(xué)習(xí)建?!I(yè)級部署\"的完整技術(shù)鏈,不論是新手、老手都適合學(xué)習(xí)。 1. 新手入門 課程通過層保障體系降低學(xué)
    發(fā)表于 12-03 13:50

    一文讀懂 | 視覺領(lǐng)域國家級制造業(yè)單項(xiàng)冠軍——先臨維的品牌布局

    ,推動高精度視覺技術(shù)的普及應(yīng)用。2024年,先臨維營業(yè)收入超12億元,業(yè)務(wù)遍及全球100+國家和地區(qū)。 先臨維的高精度
    的頭像 發(fā)表于 11-11 14:55 ?712次閱讀
    一文讀懂 | <b class='flag-5'>三</b>維<b class='flag-5'>視覺</b><b class='flag-5'>領(lǐng)域</b>國家級制造業(yè)單項(xiàng)冠軍——先臨<b class='flag-5'>三</b>維的品牌布局

    今日看點(diǎn):智元推出真機(jī)強(qiáng)化學(xué)習(xí);美國軟件公司SAS退出中國市場

    智元推出真機(jī)強(qiáng)化學(xué)習(xí),機(jī)器人訓(xùn)練周期從“數(shù)周”減至“數(shù)十分鐘” ? 近日,智元機(jī)器人宣布其研發(fā)的真機(jī)強(qiáng)化學(xué)習(xí)技術(shù),已在與龍旗科技合作的驗(yàn)證產(chǎn)線中成功落地。據(jù)介紹,此次落地的真機(jī)強(qiáng)化學(xué)習(xí)方案,機(jī)器人
    發(fā)表于 11-05 09:44 ?1107次閱讀

    自動駕駛中常提的“強(qiáng)化學(xué)習(xí)”是啥?

    下,就是一智能體在環(huán)境里行動,它能觀察到環(huán)境的一些信息,并做出一動作,然后環(huán)境會給出一反饋(獎勵或懲罰),智能體的目標(biāo)是把長期得到的獎勵累積到最大。和監(jiān)督學(xué)習(xí)不同,
    的頭像 發(fā)表于 10-23 09:00 ?705次閱讀
    自動駕駛中常提的“<b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>”是<b class='flag-5'>個</b>啥?

    淺談Sn-Bi-Ag低溫錫膏的晶界強(qiáng)化機(jī)制

    Sn-Bi-Ag低溫錫膏的晶界強(qiáng)化機(jī)制是一多因素協(xié)同作用的過程,以下從各機(jī)制的具體作用、研究案例及數(shù)據(jù)支持、協(xié)同效應(yīng)三個角度進(jìn)行詳細(xì)闡述:
    的頭像 發(fā)表于 08-13 09:08 ?668次閱讀

    NVIDIA Isaac Lab可用環(huán)境與強(qiáng)化學(xué)習(xí)腳本使用指南

    Lab 是一適用于機(jī)器人學(xué)習(xí)的開源模塊化框架,其模塊化高保真仿真適用于各種訓(xùn)練環(huán)境,Isaac Lab 同時支持模仿學(xué)習(xí)(模仿人類)和強(qiáng)化學(xué)習(xí)(在嘗試和錯誤中進(jìn)行
    的頭像 發(fā)表于 07-14 15:29 ?2381次閱讀
    NVIDIA Isaac Lab可用環(huán)境與<b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>腳本使用指南

    怎么結(jié)合嵌入式,Linux,和FPGA三個方向達(dá)到一均衡發(fā)展?

    在嵌入式領(lǐng)域,不少人都懷揣著讓嵌入式、Linux 和 FPGA 三個方向?qū)崿F(xiàn)均衡發(fā)展的夢想,然而實(shí)踐中卻面臨諸多挑戰(zhàn)。就像備受矚目的全棧工程師稚暉君,他從大學(xué)玩單片機(jī)起步,憑借將智能算法融入嵌入式而
    的頭像 發(fā)表于 06-25 10:08 ?884次閱讀
    怎么結(jié)合嵌入式,Linux,和FPGA<b class='flag-5'>三個</b>方向達(dá)到一<b class='flag-5'>個</b>均衡發(fā)展?

    華為發(fā)布天才少年挑戰(zhàn)課題發(fā)布 五大主題方向課題放榜

    ?: ?智能聯(lián)接與計算?:涉及自主智能無線通信架構(gòu)、昇騰強(qiáng)化學(xué)習(xí)系統(tǒng)等關(guān)鍵技術(shù)研究。 ?基礎(chǔ)研究與創(chuàng)新?:包括大模型安全關(guān)鍵技術(shù)、智能成像/編輯技術(shù)等研究。 ?智能終端?:聚焦于世界模型理論突破、基于計算機(jī)視覺的多
    的頭像 發(fā)表于 06-16 19:23 ?1208次閱讀

    【「# ROS 2智能機(jī)器人開發(fā)實(shí)踐」閱讀體驗(yàn)】視覺實(shí)現(xiàn)的基礎(chǔ)算法的應(yīng)用

    : 一、機(jī)器人視覺:從理論到實(shí)踐 第7章詳細(xì)介紹ROS2在機(jī)器視覺領(lǐng)域的應(yīng)用,涵蓋了相機(jī)標(biāo)定、OpenCV集成、視覺巡線、二維碼識別以及深
    發(fā)表于 05-03 19:41

    18常用的強(qiáng)化學(xué)習(xí)算法整理:從基礎(chǔ)方法到高級模型的理論技術(shù)與代碼實(shí)現(xiàn)

    本來轉(zhuǎn)自:DeepHubIMBA本文系統(tǒng)講解從基本強(qiáng)化學(xué)習(xí)方法到高級技術(shù)(如PPO、A3C、PlaNet等)的實(shí)現(xiàn)原理與編碼過程,旨在通過理論結(jié)合代碼的方式,構(gòu)建對強(qiáng)化學(xué)習(xí)算法的全面理解。為確保內(nèi)容
    的頭像 發(fā)表于 04-23 13:22 ?1628次閱讀
    18<b class='flag-5'>個</b>常用的<b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>算法整理:從基礎(chǔ)方法到高級模型的理論技術(shù)與代碼實(shí)現(xiàn)