chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

DeepMind開發(fā)了PopArt,解決了不同游戲獎勵機(jī)制規(guī)范化的問題

DPVg_AI_era ? 來源:未知 ? 作者:李倩 ? 2018-09-16 10:04 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

多任務(wù)學(xué)習(xí)一直是AI研究的長期目標(biāo)。DeepMind開發(fā)了PopArt,解決了不同游戲獎勵機(jī)制規(guī)范化的問題,它可以玩57款雅達(dá)利電子游戲,并且在所有57款游戲中達(dá)到高于人類中間水平的表現(xiàn)。

多任務(wù)學(xué)習(xí)——讓單個agent學(xué)習(xí)如何解決許多不同的任務(wù)——這是AI研究的一個長期目標(biāo)。

近年來,多任務(wù)學(xué)習(xí)領(lǐng)域已經(jīng)取得許多卓越的進(jìn)步,例如DQN這樣的智能體能夠使用相同的算法來學(xué)習(xí)玩多個游戲,包括雅達(dá)利經(jīng)典的 “突出重圍”(Breakout)和 “乒乓球”(Pong)游戲。

這些算法為每項任務(wù)訓(xùn)練一個專家智能體(expert agents)。隨著AI研究向更復(fù)雜的現(xiàn)實世界領(lǐng)域發(fā)展,構(gòu)建一個單一的強(qiáng)智能體(general agent)來學(xué)習(xí)執(zhí)行多重任務(wù)將變得至關(guān)重要,而不是構(gòu)建多個專家智能體。然而,到目前為止,這已經(jīng)被證明是一項重大挑戰(zhàn)。

原因之一是,強(qiáng)化學(xué)習(xí)智能體用來判斷成功的獎勵方案經(jīng)常存在差異,導(dǎo)致他們把注意力集中在獎勵更高的任務(wù)上。例如,在雅達(dá)利游戲“Pong”中,agent每一步會獲得-1、0或+1的獎勵:

Pong游戲中,兩道豎杠代表球拍,一個小光點代表球在屏幕上蹦蹦跳跳,由人操縱按紐控制反彈,打不中就失去一分

相比之下,在“吃豆人”游戲中,agent每走一步就可獲得幾百、幾千的分?jǐn)?shù)。即使個體獎勵的規(guī)模相似,但隨著agent變得更好,獎勵的頻率會隨著時間推移而變化。

這意味著agent傾向于關(guān)注那些有很高分?jǐn)?shù)的任務(wù),導(dǎo)致在某些任務(wù)上表現(xiàn)更好,而在其他任務(wù)上表現(xiàn)更差。

為了解決這些問題,DeepMind開發(fā)了PopArt,它可以調(diào)整每一款游戲的分?jǐn)?shù)等級,這樣不管游戲原本的獎勵等級如何規(guī)定,AI智能體都會判斷游戲具有同等的學(xué)習(xí)價值。

PopArt:在保持輸出完好的同時,自適應(yīng)地重新調(diào)整目標(biāo)(PreservingOutputsPrecisely whileAdaptivelyRescalingTargets)。

DeepMind將PopArt規(guī)范化應(yīng)用到最先進(jìn)的強(qiáng)化學(xué)習(xí)智能體上,從而得到一個單一的智能體,它可以玩57款雅達(dá)利電子游戲,并且在所有57款游戲中達(dá)到高于人類中間水平的表現(xiàn)。

PopArt:規(guī)范化獎勵,不影響目標(biāo)

一般來說,深度學(xué)習(xí)依賴于不斷更新的神經(jīng)網(wǎng)絡(luò)的權(quán)重,使神經(jīng)網(wǎng)絡(luò)的輸出更接近期望的目標(biāo)輸出。當(dāng)神經(jīng)網(wǎng)絡(luò)被用于深度強(qiáng)化學(xué)習(xí)時也是如此。PopArt通過估計這些目標(biāo)的平均值和傳播范圍(比如游戲中的得分)來工作。然后,它使用這些數(shù)據(jù)對目標(biāo)進(jìn)行規(guī)范化,再利用它們來更新網(wǎng)絡(luò)的權(quán)重。

使用規(guī)范化的目標(biāo)可以使學(xué)習(xí)更加穩(wěn)定和強(qiáng)大,以適應(yīng)規(guī)模和轉(zhuǎn)換的變化。為了獲得準(zhǔn)確的估計——例如對未來的預(yù)期分?jǐn)?shù)的估計——網(wǎng)絡(luò)的輸出可以通過反轉(zhuǎn)規(guī)范化過程來重新調(diào)整到真實的目標(biāo)范圍。如果直接這樣做,每次更新統(tǒng)計數(shù)據(jù)都會改變所有未規(guī)范化的輸出,包括那些已經(jīng)非常好的輸出。我們通過向相反的方向更新網(wǎng)絡(luò)來防止這種情況的發(fā)生。這意味著我們可以在保持以前學(xué)習(xí)過的輸出完好的同時,獲得大規(guī)模更新的好處。

傳統(tǒng)上,研究人員通過在強(qiáng)化學(xué)習(xí)算法中使用獎勵修剪(rewardclipping)來克服不同獎勵尺度的問題。這種方法將很大或很小的分?jǐn)?shù)修剪為1或-1分的得分,大致使預(yù)期獎勵規(guī)范化。雖然這使學(xué)習(xí)變得更容易,但是它也改變了agent的目標(biāo)。

例如,在“吃豆人小姐”(Ms. Pac-Man)游戲中,吃豆人的目標(biāo)是收集豆子,吃到每個豆子獲得10分,吃到鬼魂獲得200到1600分。通過修剪獎勵,agent吃一個豆子和吃一個鬼魂得到的獎勵沒有明顯的區(qū)別,導(dǎo)致agent只吃豆子,從不去追逐鬼魂。如下面的視頻所示:

當(dāng)我們用PopArt的自適應(yīng)規(guī)范化來代替reward clipping,結(jié)果導(dǎo)致了智能體完全不同的行為。它會追逐鬼魂,并且獲得了更高的分?jǐn)?shù)。

使用PopArt進(jìn)行多任務(wù)深度強(qiáng)化學(xué)習(xí)

我們將PopArt應(yīng)用于Importance-weighted Actor-Learner Architecture(IMPALA),這是DeepMind最流行的深度強(qiáng)化學(xué)習(xí)智能體之一。在實驗中,與沒有使用PopArt的baseline agent相比,PopArt大大提高了agent的表現(xiàn)。無論是修剪了獎勵還是沒有修剪獎勵,PopArt智能體在游戲中的中位數(shù)得分都高于人類中位數(shù)得分。

這遠(yuǎn)遠(yuǎn)高于使用reward clipping的baseline,而沒有使用reward clipping的baseline根本無法達(dá)到有意義的表現(xiàn),因為它無法有效地處理不同游戲之間的獎勵尺度的巨大變化。

57款A(yù)tari游戲的標(biāo)準(zhǔn)化表現(xiàn)中位數(shù)。每一行對應(yīng)于單個智能體的中位數(shù)表現(xiàn),該智能體被訓(xùn)練來使用相同的神經(jīng)網(wǎng)絡(luò)來玩所有這些游戲。實線表示使用 reward clipping的表現(xiàn),虛線表示沒有使用 reward clipping的表現(xiàn)。

這是我們第一次在使用單一智能體的這種多任務(wù)環(huán)境中看到超過人類的表現(xiàn),這表明PopArt可以為如何在無需手動修剪或調(diào)整的情況下平衡各種目標(biāo)的開放式研究問題提供一些解決方案。當(dāng)我們將AI應(yīng)用于更復(fù)雜的多模態(tài)領(lǐng)域時,AI在學(xué)習(xí)過程中自動適應(yīng)規(guī)范化的能力變得非常重要,因為在這些領(lǐng)域中,AI智能體必須學(xué)會權(quán)衡各種不同的獎勵和不同的目標(biāo)。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 神經(jīng)網(wǎng)絡(luò)

    關(guān)注

    42

    文章

    4819

    瀏覽量

    106053
  • 智能體
    +關(guān)注

    關(guān)注

    1

    文章

    362

    瀏覽量

    11419
  • DeepMind
    +關(guān)注

    關(guān)注

    0

    文章

    131

    瀏覽量

    11959

原文標(biāo)題:強(qiáng)化學(xué)習(xí)重大突破:DeepMind用一個AI在57個游戲中全面超越人類

文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    工器具規(guī)范化使用

      電力企業(yè)安全工器具規(guī)范化操作指導(dǎo)系統(tǒng) 一、系統(tǒng)概述    對電力生產(chǎn)人員來說,了解各種安全工器具的性能和用途,正確掌握它們
    發(fā)表于 11-18 14:02

    貼片知識課堂十一,PCB設(shè)計規(guī)范化第第三節(jié)

    本帖最后由 eehome 于 2013-1-5 10:04 編輯 麥斯艾姆(massembly)貼片知識課堂十一,PCB設(shè)計規(guī)范化第三節(jié)麥斯艾姆(massembly)貼片知識課堂繼續(xù)上次的話
    發(fā)表于 10-31 14:16

    關(guān)于發(fā)帖標(biāo)題規(guī)范化管理公告

    關(guān)于發(fā)帖標(biāo)題規(guī)范化管理公告由于論壇管理事物繁重,很多時候由不得我們幾個管理員的眼睛和手指去處理,為了大家的問題能夠更好,更直接的讓各位大大們過目,讓大家的問題都能得到解決,管理員團(tuán)隊特出發(fā)帖標(biāo)題規(guī)范
    發(fā)表于 11-04 17:11

    未來的AI 深挖谷歌 DeepMind 和它背后的技術(shù)

    學(xué)習(xí)從非結(jié)構(gòu)數(shù)據(jù)中學(xué)習(xí)來編寫分析報告或執(zhí)行無人監(jiān)督的任務(wù)。所有這些發(fā)展都為不同的公司發(fā)揮作用并證明他們的價值奠定基礎(chǔ)。因此,很多像DeepMind這樣的公司成立了,來繼續(xù)發(fā)展這一領(lǐng)域。你對其有
    發(fā)表于 08-26 12:04

    代碼規(guī)范化如何學(xué)習(xí),單片機(jī)也要求規(guī)范化嗎?

    代碼規(guī)范化如何學(xué)習(xí),單片機(jī)也要求規(guī)范化么?
    發(fā)表于 10-12 07:19

    PCB繪制規(guī)范及審核要點(免費)

    PCB相關(guān)的內(nèi)容,以及繪制規(guī)范及審核要點,需仔細(xì)閱讀
    發(fā)表于 01-22 14:35 ?0次下載

    一種創(chuàng)新的無監(jiān)督文本規(guī)范化系統(tǒng)

    推特文本中包含著大量的非標(biāo)準(zhǔn)詞,這些非標(biāo)準(zhǔn)詞是由人們有意或無意而創(chuàng)造的。對很多自然語言處理的任務(wù)而言,預(yù)先對推特文本進(jìn)行規(guī)范化處理是很有必要的。針對已有的規(guī)范化系統(tǒng)性能較差的問題,提出一種創(chuàng)新的無
    發(fā)表于 12-15 14:12 ?0次下載
    一種創(chuàng)新的無監(jiān)督文本<b class='flag-5'>規(guī)范化</b>系統(tǒng)

    數(shù)據(jù)庫-關(guān)系規(guī)范化的詳細(xì)資料介紹,為什么要對進(jìn)行關(guān)系的規(guī)范化?

    對關(guān)系的規(guī)范化是改造關(guān)系模式過程,首先,根據(jù)一組不同級別的范式判定關(guān)系的規(guī)范化程度,確定不正常的數(shù)據(jù)依賴關(guān)系,通過模式分解將一個低一級范式的關(guān)系模式,轉(zhuǎn)換為若干個高一級的范式的關(guān)系模式的集合,消除其中不合適的數(shù)據(jù)依賴,以解決插入異常、刪除異常、更新異常和數(shù)據(jù)冗余問題。
    發(fā)表于 09-05 14:26 ?5次下載
    數(shù)據(jù)庫-關(guān)系<b class='flag-5'>規(guī)范化</b>的詳細(xì)資料介紹,為什么要對進(jìn)行關(guān)系的<b class='flag-5'>規(guī)范化</b>?

    淺析FPGA規(guī)范化的重要性

    設(shè)計規(guī)范化與自由創(chuàng)作之間沒有任何矛盾。它只是制約那些可能出錯或者低效的行為,令設(shè)計思路更加明朗、設(shè)計效率得到提高、設(shè)計質(zhì)量充分保證。
    的頭像 發(fā)表于 10-09 11:10 ?3508次閱讀

    原理圖繪制規(guī)范電子版資料下載

    規(guī)范旨在建立一個技術(shù)支持和資源共享的基礎(chǔ)平臺,統(tǒng)一企業(yè)內(nèi)部的技術(shù)開發(fā)行為,促進(jìn)企業(yè)技術(shù)文檔的規(guī)范化和標(biāo)準(zhǔn),逐步使技術(shù)文檔的設(shè)計向國標(biāo)、IC標(biāo)準(zhǔn)靠攏。
    發(fā)表于 03-29 14:51 ?0次下載
    原理圖繪<b class='flag-5'>制規(guī)范</b>電子版資料下載

    基于規(guī)范化函數(shù)的深度金字塔模型算法

    時的檢測效果不理想。因此,提出一種基于規(guī)范化函欻的深度金字塔模型(Norm-DP)算法,使用規(guī)范化函數(shù)融合可變形部件模型和卷積神經(jīng)網(wǎng)絡(luò)模型,直接從金字塔特征中提取正負(fù)樣本,使用隱變量攴持向量杋進(jìn)行模型訓(xùn)練,結(jié)合柔性非
    發(fā)表于 03-30 14:09 ?14次下載
    基于<b class='flag-5'>規(guī)范化</b>函數(shù)的深度金字塔模型算法

    怎么樣才能讓Java代碼編寫更規(guī)范化

    作者 | 濤姐濤哥 鏈接 | cnblogs.com/taojietaoge/p/11575376.html 如何更規(guī)范化編寫Java 代碼 Many of the happiest people
    的頭像 發(fā)表于 08-27 09:31 ?3995次閱讀

    使用NVIDIA NeMo進(jìn)行文本規(guī)范化和反向文本規(guī)范化

    文本規(guī)范化( TN )將文本從書面形式轉(zhuǎn)換為口頭形式,是文本到語音( TTS )之前的一個重要預(yù)處理步驟。 TN 確保 TTS 可以處理所有輸入文本,而不會跳過未知符號。例如,“ 123 美元”轉(zhuǎn)換為“一百二十三美元”
    的頭像 發(fā)表于 10-11 11:41 ?2757次閱讀
    使用NVIDIA NeMo進(jìn)行文本<b class='flag-5'>規(guī)范化</b>和反向文本<b class='flag-5'>規(guī)范化</b>

    論硬件開發(fā)過程中開發(fā)文檔規(guī)范化的重要性

    硬件開發(fā)的標(biāo)準(zhǔn)是公司管理過程中的重要組成部分,它離不開硬件開發(fā)文檔的規(guī)范化,很多公司并不了解開發(fā)文檔的重要性,容易將其忽視。沐渥科技認(rèn)為一
    的頭像 發(fā)表于 11-28 19:29 ?1329次閱讀
    論硬件<b class='flag-5'>開發(fā)</b>過程中<b class='flag-5'>開發(fā)</b>文檔<b class='flag-5'>規(guī)范化</b>的重要性

    淺談硬件電路開發(fā)流程規(guī)范

    硬件電路開發(fā)流程是指導(dǎo)硬件工程師按規(guī)范化方式進(jìn)行開發(fā)的準(zhǔn)則,規(guī)范硬件電路開發(fā)的全過程。
    的頭像 發(fā)表于 08-03 10:31 ?2118次閱讀
    淺談硬件電路<b class='flag-5'>開發(fā)</b>流程<b class='flag-5'>規(guī)范</b>