chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

最新加速深度強(qiáng)化學(xué)習(xí):谷歌創(chuàng)造

nlfO_thejiangme ? 來(lái)源:聶磊 ? 作者:電子發(fā)燒友 ? 2019-03-29 08:57 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

深度強(qiáng)化學(xué)習(xí)技術(shù)可以通過(guò)視覺(jué)輸入來(lái)為復(fù)雜任務(wù)學(xué)習(xí)有效策略,這種方法在最近的研究中已經(jīng)被成功應(yīng)用經(jīng)典的雅達(dá)利2600系列游戲。最新的研究表明,即使在像Montezuma’s Revenge這樣復(fù)雜的游戲中基于深度強(qiáng)化學(xué)習(xí)依然可以達(dá)到超越人類(lèi)的表現(xiàn)。然而深度強(qiáng)化學(xué)習(xí)最大的限制在于要達(dá)到高水平的效果,需要與環(huán)境進(jìn)行非常多次的交互,遠(yuǎn)遠(yuǎn)超過(guò)了人類(lèi)學(xué)習(xí)游戲時(shí)與環(huán)境交互的次數(shù)。這也許是由于人類(lèi)在游戲時(shí)可以有效預(yù)測(cè)其行為可以長(zhǎng)生的結(jié)果,有效提升了學(xué)習(xí)的效率??梢酝ㄟ^(guò)行為序列和對(duì)應(yīng)的結(jié)果來(lái)進(jìn)行游戲建模。通過(guò)為游戲建模并學(xué)習(xí)選擇行為的策略,是基于模型強(qiáng)化學(xué)習(xí)(model-based reinforcement learning (MBRL))的主要假設(shè)。在先前研究的基礎(chǔ)上,谷歌研究人員在新論文中提出了模擬策略學(xué)習(xí)算法(Simulated Policy Learning (SimPLe) algorithm),這是一套大幅度提高雅達(dá)利游戲主體訓(xùn)練效率的MBRL框架,在僅僅100k次的交互訓(xùn)練后就可以達(dá)到較好的效果。100k次交互大概等效于人類(lèi)兩個(gè)小時(shí)的游戲時(shí)間。這一算法通過(guò)觀測(cè)、建模、模擬學(xué)習(xí)的方式很好的處理了深度強(qiáng)化學(xué)習(xí)過(guò)程中的效率問(wèn)題。

學(xué)習(xí)SimPle環(huán)境模型

從宏觀上來(lái)看,SimPle主要分為兩個(gè)交替進(jìn)行的學(xué)習(xí)過(guò)程,一個(gè)是學(xué)習(xí)游戲行為并建立環(huán)境模型的過(guò)程,另一個(gè)是在模擬游戲環(huán)境中利用這一模型優(yōu)化策略的過(guò)程。學(xué)習(xí)的流程如下圖所示循環(huán)進(jìn)行。

SimPle的主要流程,主體與環(huán)境交互并收集數(shù)據(jù)更新環(huán)境模型,隨后基于環(huán)境模型更新策略。

為了訓(xùn)練一個(gè)有效的雅達(dá)利游戲模型,后向需要在像素空間生成對(duì)未來(lái)的預(yù)測(cè),換句話說(shuō)我們需要根據(jù)先前的觀察和動(dòng)作行為預(yù)測(cè)游戲的下一幀。選擇像素空間來(lái)預(yù)測(cè)的主要原因在于圖像觀測(cè)中包含了豐富且稠密的監(jiān)督信號(hào)。一旦完成未來(lái)幀預(yù)測(cè)模型的訓(xùn)練,算法就可以利用這一信息為游戲主體生成軌跡來(lái)訓(xùn)練好的策略,例如可以基于最大化長(zhǎng)期回報(bào)來(lái)選擇行為。這意味著我們可以替代耗時(shí)和 消耗資源的真實(shí)游戲序列來(lái)訓(xùn)練策略,直接使用基于環(huán)境模型生成的圖像序列來(lái)進(jìn)行策略訓(xùn)練。

幀預(yù)測(cè)模型的架構(gòu)圖

基于前饋卷積網(wǎng)絡(luò)研究人員利用4幀輸入預(yù)測(cè)出下一幀的輸出以及對(duì)應(yīng)的反饋。輸入的像素和動(dòng)作通過(guò)全連接層編碼,輸出則由逐像素的256色softmax構(gòu)成。模型有兩個(gè)主要的部分,下半部分是基于編碼器的卷積,解碼器的每一層與輸入動(dòng)作都進(jìn)行了連接。另一部分是推理網(wǎng)絡(luò),在訓(xùn)練的時(shí)候從近似后驗(yàn)中約化采樣的隱空間編碼被離散成比特,為了保持模型可差分bp繞過(guò)了離散部分。在推理時(shí)利用網(wǎng)絡(luò)自回歸預(yù)測(cè)隱空間比特。

kufu在功夫大師游戲中,系統(tǒng)錯(cuò)誤預(yù)測(cè)了對(duì)手的數(shù)量。其中左側(cè)是預(yù)測(cè)輸出、中間是基準(zhǔn)右邊是逐像素的差別。

這一模型雖然表現(xiàn)良好,但在某些特殊情況下依然會(huì)輸出錯(cuò)誤的結(jié)果。例如在Pong游戲中,但球落到幀以外的時(shí)候系統(tǒng)就不能有效預(yù)測(cè)后續(xù)幀的結(jié)果。在先前工作的啟發(fā)下,研究人員利用新的視頻模型架構(gòu)來(lái)解決這類(lèi)隨機(jī)問(wèn)題。在模型訓(xùn)練后的每一個(gè)迭代中,研究人員利用Monique生成一系列包含動(dòng)作、觀測(cè)和結(jié)果的序列,并利用PPO來(lái)改進(jìn)策略。其關(guān)鍵在于每一個(gè)生成序列都是從真實(shí)數(shù)據(jù)集開(kāi)始的??紤]到長(zhǎng)程序列的時(shí)間復(fù)雜度和誤差,SimPLe僅僅使用中程序列來(lái)進(jìn)行改進(jìn)。但PPO算法可以從內(nèi)部?jī)r(jià)值函數(shù)中學(xué)習(xí)到行為和結(jié)果間的長(zhǎng)程作用,使得有限長(zhǎng)度的序列在較為稀疏獎(jiǎng)勵(lì)的游戲中也是足夠的。

高效的SimPLe

為了評(píng)測(cè)算法的效率,研究人員測(cè)評(píng)了主體在100k次環(huán)境交互后的輸出。研究人員在26個(gè)不同游戲中比較了Rainbow和PPO兩種流行的強(qiáng)化學(xué)習(xí)方法,在大多數(shù)情況下SimPLe算法都比其他算法塊兩倍以上。

20中不同游戲的測(cè)評(píng),左側(cè)是Rainbow算法,右邊是PPO算法,展示了達(dá)到SimPLe100k訓(xùn)練分?jǐn)?shù)所需的交互次數(shù)。其中紅線是SimPLe的結(jié)果。

效果

SimPLe算法在Pong和Freeway中表現(xiàn)最精彩,在模擬環(huán)境中訓(xùn)練的主體可以達(dá)到最高分。同時(shí)在Pong,F(xiàn)reeway和Breakout中幾乎可以無(wú)誤差預(yù)測(cè)未來(lái)50步的像素幀。

兩種游戲中完美的像素預(yù)測(cè)結(jié)果,最又側(cè)是預(yù)測(cè)的誤差圖,可以看到幾乎與真實(shí)情況相同。

但這一算法也在某些情況下無(wú)法正確預(yù)測(cè),它難以捕捉畫(huà)面中很多微小但十分重要的物體,例如游戲中的子彈。同時(shí)也無(wú)法使用迅速變化的游戲畫(huà)面,比如gameover時(shí)候的閃爍畫(huà)面。

但總的來(lái)說(shuō),新方法有助于學(xué)習(xí)模擬器更好的理解周遭的環(huán)境并提供了更新更好更快的訓(xùn)練方法來(lái)適應(yīng)多任務(wù)強(qiáng)化學(xué)習(xí)。雖然目前與最優(yōu)秀的無(wú)模型方法還有差距,但SimPLe具有很大的效率潛力,研究人員將在未來(lái)不斷深入改進(jìn)。

如果你想詳細(xì)了解其中的算法流程,可以參看下面的鏈接:

Paper:https://arxiv.org/pdf/1903.00374.pdf

這一部分代碼已經(jīng)集成到了tensor2tensor的強(qiáng)化學(xué)習(xí)代碼中:

Code:https://github.com/tensorflow/tensor2tensor/blob/master/tensor2tensor/rl/README.md

研究人員還準(zhǔn)備了代碼和Colab幫助好學(xué)的你復(fù)現(xiàn)實(shí)驗(yàn):

Colab:https://colab.research.google.com/github/tensorflow/tensor2tensor/blob/master/tensor2tensor/notebooks/hello_t2t-rl.ipynb

ref:https://arxiv.org/abs/1509.06113http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.329.6065&rep=rep1&type=pdf

logo pic from:https://dribbble.com/shots/4166879-Controllers

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 谷歌
    +關(guān)注

    關(guān)注

    27

    文章

    6244

    瀏覽量

    110263

原文標(biāo)題:谷歌新方法加速深度強(qiáng)化學(xué)習(xí)的訓(xùn)練過(guò)程

文章出處:【微信號(hào):thejiangmen,微信公眾號(hào):將門(mén)創(chuàng)投】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    什么是深度強(qiáng)化學(xué)習(xí)?深度強(qiáng)化學(xué)習(xí)算法應(yīng)用分析

    什么是深度強(qiáng)化學(xué)習(xí)? 眾所周知,人類(lèi)擅長(zhǎng)解決各種挑戰(zhàn)性的問(wèn)題,從低級(jí)的運(yùn)動(dòng)控制(如:步行、跑步、打網(wǎng)球)到高級(jí)的認(rèn)知任務(wù)。
    發(fā)表于 07-01 10:29 ?2061次閱讀
    什么是<b class='flag-5'>深度</b><b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>?<b class='flag-5'>深度</b><b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>算法應(yīng)用分析

    反向強(qiáng)化學(xué)習(xí)的思路

    強(qiáng)化學(xué)習(xí)的另一種策略(二)
    發(fā)表于 04-03 12:10

    深度強(qiáng)化學(xué)習(xí)實(shí)戰(zhàn)

    一:深度學(xué)習(xí)DeepLearning實(shí)戰(zhàn)時(shí)間地點(diǎn):1 月 15日— 1 月18 日二:深度強(qiáng)化學(xué)習(xí)核心技術(shù)實(shí)戰(zhàn)時(shí)間地點(diǎn): 1 月 27 日— 1 月30 日(第一天報(bào)到 授課三天;提前
    發(fā)表于 01-10 13:42

    深度學(xué)習(xí)強(qiáng)化學(xué)習(xí)相結(jié)合的深度強(qiáng)化學(xué)習(xí)DRL

    深度強(qiáng)化學(xué)習(xí)DRL自提出以來(lái), 已在理論和應(yīng)用方面均取得了顯著的成果。尤其是谷歌DeepMind團(tuán)隊(duì)基于深度強(qiáng)化學(xué)習(xí)DRL研發(fā)的AlphaG
    發(fā)表于 06-29 18:36 ?2.9w次閱讀

    薩頓科普了強(qiáng)化學(xué)習(xí)、深度強(qiáng)化學(xué)習(xí),并談到了這項(xiàng)技術(shù)的潛力和發(fā)展方向

    薩頓在專(zhuān)訪中(再次)科普了強(qiáng)化學(xué)習(xí)、深度強(qiáng)化學(xué)習(xí),并談到了這項(xiàng)技術(shù)的潛力,以及接下來(lái)的發(fā)展方向:預(yù)測(cè)學(xué)習(xí)
    的頭像 發(fā)表于 12-27 09:07 ?1.2w次閱讀

    如何深度強(qiáng)化學(xué)習(xí) 人工智能和深度學(xué)習(xí)的進(jìn)階

    傳統(tǒng)上,強(qiáng)化學(xué)習(xí)在人工智能領(lǐng)域占據(jù)著一個(gè)合適的地位。但強(qiáng)化學(xué)習(xí)在過(guò)去幾年已開(kāi)始在很多人工智能計(jì)劃中發(fā)揮更大的作用。
    的頭像 發(fā)表于 03-03 14:16 ?4635次閱讀

    深度強(qiáng)化學(xué)習(xí)是否已經(jīng)到達(dá)盡頭?

    近日,Reddit一位網(wǎng)友根據(jù)近期OpenAI Five、AlphaStar的表現(xiàn),提出“深度強(qiáng)化學(xué)習(xí)是否已經(jīng)到達(dá)盡頭”的問(wèn)題。
    的頭像 發(fā)表于 05-10 16:34 ?2954次閱讀

    深度強(qiáng)化學(xué)習(xí)的筆記資料免費(fèi)下載

    本文檔的主要內(nèi)容詳細(xì)介紹的是深度強(qiáng)化學(xué)習(xí)的筆記資料免費(fèi)下載。
    發(fā)表于 03-10 08:00 ?0次下載
    <b class='flag-5'>深度</b><b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>的筆記資料免費(fèi)下載

    深度強(qiáng)化學(xué)習(xí)到底是什么?它的工作原理是怎么樣的

    深度學(xué)習(xí)DL是機(jī)器學(xué)習(xí)中一種基于對(duì)數(shù)據(jù)進(jìn)行表征學(xué)習(xí)的方法。深度學(xué)習(xí)DL有監(jiān)督和非監(jiān)督之分,都已經(jīng)
    的頭像 發(fā)表于 06-13 11:39 ?7020次閱讀

    DeepMind發(fā)布強(qiáng)化學(xué)習(xí)庫(kù)RLax

    RLax(發(fā)音為“ relax”)是建立在JAX之上的庫(kù),它公開(kāi)了用于實(shí)施強(qiáng)化學(xué)習(xí)智能體的有用構(gòu)建塊。。報(bào)道:深度強(qiáng)化學(xué)習(xí)實(shí)驗(yàn)室作者:DeepRL ...
    的頭像 發(fā)表于 12-10 18:43 ?1269次閱讀

    模型化深度強(qiáng)化學(xué)習(xí)應(yīng)用研究綜述

    深度強(qiáng)化學(xué)習(xí)(DRL)作為機(jī)器學(xué)習(xí)的重要分攴,在 Alphago擊敗人類(lèi)后受到了廣泛關(guān)注。DRL以種試錯(cuò)機(jī)制與環(huán)境進(jìn)行交互,并通過(guò)最大化累積獎(jiǎng)賞最終得到最優(yōu)策略。強(qiáng)化學(xué)習(xí)可分為無(wú)模型
    發(fā)表于 04-12 11:01 ?9次下載
    模型化<b class='flag-5'>深度</b><b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>應(yīng)用研究綜述

    基于深度強(qiáng)化學(xué)習(xí)仿真集成的壓邊力控制模型

    壓邊為改善板料拉深制造的成品質(zhì)量,釆用深度強(qiáng)化學(xué)習(xí)的方法進(jìn)行拉深過(guò)程旳壓邊力優(yōu)化控制。提岀一種基于深度強(qiáng)化學(xué)習(xí)與有限元仿真集成的壓邊力控制模型,結(jié)合
    發(fā)表于 05-27 10:32 ?0次下載

    基于深度強(qiáng)化學(xué)習(xí)的無(wú)人機(jī)控制律設(shè)計(jì)方法

    基于深度強(qiáng)化學(xué)習(xí)的無(wú)人機(jī)控制律設(shè)計(jì)方法
    發(fā)表于 06-23 14:59 ?46次下載

    《自動(dòng)化學(xué)報(bào)》—多Agent深度強(qiáng)化學(xué)習(xí)綜述

    多Agent 深度強(qiáng)化學(xué)習(xí)綜述 來(lái)源:《自動(dòng)化學(xué)報(bào)》,作者梁星星等 摘 要?近年來(lái),深度強(qiáng)化學(xué)習(xí)(Deep reinforcement le
    發(fā)表于 01-18 10:08 ?2237次閱讀
    《自動(dòng)<b class='flag-5'>化學(xué)</b>報(bào)》—多Agent<b class='flag-5'>深度</b><b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>綜述

    ESP32上的深度強(qiáng)化學(xué)習(xí)

    電子發(fā)燒友網(wǎng)站提供《ESP32上的深度強(qiáng)化學(xué)習(xí).zip》資料免費(fèi)下載
    發(fā)表于 12-27 10:31 ?0次下載
    ESP32上的<b class='flag-5'>深度</b><b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>