chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

OpenAI宣布他們的AI僅通過一次人類演示,蒙特祖瑪?shù)膹?fù)仇游戲中玩出歷史最高分

DPVg_AI_era ? 來源:未知 ? 作者:李倩 ? 2018-07-09 09:24 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

《蒙特祖瑪?shù)膹?fù)仇》被公認(rèn)為是Atari中最難的游戲之一,是AI的一大挑戰(zhàn)。今天,OpenAI宣布他們的AI僅通過一次人類演示,就在蒙特祖瑪?shù)膹?fù)仇游戲中獲得了74500分的成績,比以往公布的任何結(jié)果都要好。而且,這次的成果使用了PPO算法,這正是不久前OpenAI在Dota2 5v5中戰(zhàn)勝人類的AI的算法。

《蒙特祖瑪?shù)膹?fù)仇》(Montezuma’s Revenge)被認(rèn)為是Atari中最難的幾個游戲之一。2015年,DeepMind提出著名的DQN算法,使用強(qiáng)化學(xué)習(xí)系統(tǒng)來學(xué)習(xí)如何玩49個Atari游戲,該系統(tǒng)在大多數(shù)游戲中都能達(dá)到人類水平的表現(xiàn),但在蒙特祖瑪?shù)膹?fù)仇游戲中幾乎沒有任何進(jìn)展。

DQN在蒙特祖瑪?shù)膹?fù)仇游戲中幾乎沒有任何進(jìn)展

在“蒙特祖瑪?shù)膹?fù)仇”游戲中,目標(biāo)是找到埋在充滿危險機(jī)關(guān)的金字塔里的寶藏。要達(dá)到目標(biāo),玩家必須達(dá)成許多個次級的小目標(biāo),例如找到打開門的鑰匙。這個游戲的反饋也不像“Breakout”之類的游戲那么即時,例如,在一個地方找到的鑰匙可能能打開的是另一個地方的門。最終找到寶藏的獎勵是之前的數(shù)千次動作的結(jié)果。這意味著網(wǎng)絡(luò)很難將原因和結(jié)果聯(lián)系起來。

這次,OpenAI的研究團(tuán)隊訓(xùn)練了一個智能體,僅通過一次人類demo,就在蒙特祖瑪?shù)膹?fù)仇游戲中獲得了74500分的成績,比以往公布的任何結(jié)果都要好。

強(qiáng)化學(xué)習(xí)算法PPO

研究人員說,這一算法很簡單:智能體從demo中仔細(xì)選擇狀態(tài),然后從這些狀態(tài)開始玩一系列游戲,使用PPO算法(Proximal Policy Optimization)來優(yōu)化游戲得分并從中學(xué)習(xí)。PPO是一個強(qiáng)化學(xué)習(xí)算法,同樣也用在打Dota2的 OpenAI Five中。

我們的智能體在玩蒙特祖瑪?shù)膹?fù)仇。在大約12分鐘的游戲中,智能體的最終得分是74500分(視頻為雙倍速)。雖然智能體的大部分游戲操作模仿了我們的demo,但通過在沿途撿到更多鉆石,智能體的得分最終超過了demo游戲的71500分。此外,智能體還學(xué)會了利用模擬器中的一個缺陷,使鑰匙在視頻的4分25秒處再次出現(xiàn),而這在demo中是不存在的。

探索與學(xué)習(xí)

為了在強(qiáng)化學(xué)習(xí)問題上取得成功,AI需要解決兩個問題:

找到一系列能夠帶來積極獎勵的行動。這是探索問題(explorationproblem)。

記住要采取的行動的順序,并推廣到相關(guān)但略有不同的情況。這是學(xué)習(xí)問題(learningproblem)。

在蒙特祖瑪?shù)膹?fù)仇游戲中,探索問題大部分可以通過重置demo里的狀態(tài)來繞過。通過從demo里的狀態(tài)開始,與從每章游戲的開頭開始相比,智能體需要執(zhí)行的探索更少。這樣做可以讓我們分開探索過程和學(xué)習(xí)過程。我們的研究結(jié)果表明,探索是蒙特祖瑪?shù)膹?fù)仇以及類似的雅達(dá)利游戲(例如PrivateEye)中最難解決的問題。

為什么探索很困難?

Model-free的RL方法,例如策略梯度和 Q-learning,通過隨機(jī)采取行動進(jìn)行探索。如果隨機(jī)行為偶然導(dǎo)致獎勵,它們就會被強(qiáng)化,并且智能體未來會更傾向于采取這些有利的行為。如果獎勵足夠密集,隨機(jī)行動能夠?qū)е潞侠砀怕实莫剟?,那么這種方法會很有效。但是,很多更復(fù)雜的游戲需要很長的特定動作的序列才能獲取獎勵,這樣的序列隨機(jī)發(fā)生的可能性非常低。

一個智能體采用隨機(jī)行動來玩蒙特祖瑪?shù)膹?fù)仇游戲。如上面的視頻所示,隨機(jī)的探索不太可能導(dǎo)致智能體在蒙特祖瑪?shù)膹?fù)仇游戲中得到積極獎勵。

考慮這樣一個游戲,它需要N個特定動作的精確序列才能體驗(yàn)到第一個獎勵。如果其中每個動作被采取的概率都是固定的,那么一個隨機(jī)智能體要想獲得第一個獎勵,游戲時間需要擴(kuò)展到exp(N)。

在蒙特祖瑪?shù)膹?fù)仇游戲中,得到第一個鑰匙的概率可以分解為:

p(get key) = p(get down ladder 1) * p(get down rope) * p(get down ladder 2) * p(jump over skull) * p(get up ladder 3).

通過將N個概率相乘,我們得到的結(jié)果概率p(get key)比任何單個輸入的概率都要小。隨著問題變得更具挑戰(zhàn)性,以指數(shù)級縮小的算法很快就會崩潰,這限制了當(dāng)前強(qiáng)化學(xué)習(xí)技術(shù)所能解決的任務(wù)。

通過demo簡化探索問題

盡管 model-free 的RL方法很難找到長序列的動作,但對于較短的動作序列,它們可以表現(xiàn)很好。我們的主要觀點(diǎn)是,可以通過將任務(wù)分解為需要短動作序列的子任務(wù)的curriculum來簡化探索任務(wù);我們通過從demo狀態(tài)開始每個RL episode來構(gòu)建這個curriculum。

我們的方法通過讓每個RL episode從先前錄制的demo中的一個狀態(tài)開始。在訓(xùn)練初期,智能體在demo結(jié)束時開始一個episode。一旦智能體能夠擊敗demo或至少與demo的分?jǐn)?shù)持平,我們就慢慢地將起點(diǎn)往回移動。這個過程一直持續(xù),直到智能體的起點(diǎn)回到游戲開始時,完全不使用demo程序,這時我們得到一個RL訓(xùn)練的智能體在整個游戲中擊敗人類專家或與人類專家的表現(xiàn)持平。

通過將起始狀態(tài)從demo的結(jié)尾慢慢移動到起點(diǎn),我們確保智能體在每個點(diǎn)上面臨的探索問題都很容易解決,因?yàn)樗呀?jīng)學(xué)會解決大部分剩余的游戲。我們可以將這種解決RL問題的方法解釋為一種動態(tài)規(guī)劃(dynamic programming)的形式。如果需要一個特定的N個動作的序列達(dá)到一個獎勵,現(xiàn)在這個序列可以在一個線性的時間里學(xué)習(xí),而非指數(shù)的時間。

從demo狀態(tài)的重置(resetting)開始episodes的想法以前也有提出過,但是沒有提出構(gòu)建一個將起始狀態(tài)逐步從demo的結(jié)尾回到開頭的curriculum。當(dāng)與模仿學(xué)習(xí)(imitation learning)相結(jié)合時,一些研究人員報告說這種方法是有益的。對于我們的用例,我們發(fā)現(xiàn)這樣的curriculum對于從demo中獲得益處是至關(guān)重要的。

在蒙特祖瑪?shù)膹?fù)仇游戲中,利用強(qiáng)化學(xué)習(xí)和從demo的狀態(tài)開始每一個episode,我們的智能體學(xué)習(xí)到達(dá)了第一把鑰匙的位置。當(dāng)智能體開始玩游戲時,我們將它放在鑰匙的正前方,要求它紙條一次就能成功找到鑰匙。在它學(xué)會這樣做之后,我們慢慢地將起點(diǎn)往回移動。然后,智能體發(fā)現(xiàn)自己處于通往鑰匙的梯子的中間。一旦它學(xué)會了在哪個地方爬上梯子,我們就再退回一步,讓它從需要調(diào)過頭骨的地方開始。當(dāng)它學(xué)會后,我們再讓它從繩子的位置開始,一直退回到從房間的地板開始,等等。最終,智能體回到了游戲的初始狀態(tài),并且學(xué)會了自己到達(dá)鑰匙的位置。

與基于模擬的方法(imitation-based)的比較

近期,DeepMind通過模擬學(xué)習(xí)(imitation learning)的方法展示了學(xué)習(xí)《蒙特祖瑪?shù)膹?fù)仇》的智能體。利用通過觀看YouTube視頻的方法[1]訓(xùn)練一個智能體,讓它能夠達(dá)到Y(jié)ouTube視頻中《蒙特祖瑪?shù)膹?fù)仇》里的狀態(tài);DeepMind最新的成果[2]則采用在與demo高度相似的操作中結(jié)合較復(fù)雜的Q-learning。這些方法的優(yōu)點(diǎn)是,它們不像我們的方法一樣需要控制很多的環(huán)境因素:除了游戲的起始狀態(tài),它們不需要重置環(huán)境的狀態(tài),他們不認(rèn)為可以獲得在demo中遇到的所有游戲狀態(tài)。我們的方法所優(yōu)化的并不是我們最關(guān)心的分?jǐn)?shù),而是讓智能體模擬demo;因此,我們的方法將不會跟可能存在的次優(yōu)demo過擬合,并且可以在多人游戲中提供便利:在這樣的場景中,我們希望可以優(yōu)化性能來對抗其它對手,而不僅僅是demo中的對手。

接下來的挑戰(zhàn)

雖然我們的智能體一步一步的學(xué)習(xí)要比從頭學(xué)起要簡單得多,但這并非是沒有價值的。我們RL智能體所面臨的一個挑戰(zhàn)是當(dāng)它從demo一個較早的狀態(tài)開始時通常無法達(dá)到確切的狀態(tài)。這是因?yàn)橹悄荏w玩游戲的框架與我們用于記錄demo的框架是不同的,但這也是由于操作的隨機(jī)性,使得它不可能精確地再現(xiàn)任何操作的特定序列。因此,智能體將需要在非常相似但不相同的狀態(tài)之間進(jìn)行歸納。我們發(fā)現(xiàn)這對《蒙特祖瑪?shù)膹?fù)仇》非常有效,但對于我們嘗試過的其它Atari游戲就沒有那么的有效(例如《地心引力》(Gravitar)和《陷阱》(Pitfall))。其中一個可能的原因是,后者這些游戲需要解決更為困難的視覺問題:我們發(fā)現(xiàn)這些游戲在下采樣(down-sampled)的屏幕上很難操作,而當(dāng)我們使用更大、更深入的神經(jīng)網(wǎng)絡(luò)時,會出現(xiàn)一些改進(jìn)。

我們遇到的另外一個挑戰(zhàn)是像策略梯度(policy gradients)這樣的標(biāo)準(zhǔn)RL算法需要再探索和利用之間進(jìn)行仔細(xì)的衡量:如果智能體的操作過于隨機(jī),當(dāng)游戲從頭開始時,它會犯過多的錯誤以至于無法達(dá)到最終所要求的分?jǐn)?shù);如果智能體的操作太具有確定性,那么智能體由于不再探索其它的行為而停止學(xué)習(xí)。因此,要實(shí)現(xiàn)《蒙特祖瑪復(fù)仇》報告中的結(jié)果,需要仔細(xì)調(diào)整PPO中使用的熵值系數(shù),并結(jié)合其它超參數(shù)(如學(xué)習(xí)率和scaling of rewards)。對于像《地心引力》和《陷阱》我們無法找到能夠完整訓(xùn)練的超參數(shù)。算法還展示了隨著運(yùn)行過程中產(chǎn)生的大量變化,有些過程并沒有達(dá)到《蒙特祖瑪?shù)膹?fù)仇》的要求。我們希望未來RL的進(jìn)展將產(chǎn)生對隨機(jī)噪聲和超參數(shù)選擇更健壯的算法。

最后,就像強(qiáng)化學(xué)習(xí)中經(jīng)常出現(xiàn)的情況一樣,我們發(fā)現(xiàn)我們訓(xùn)練過的神經(jīng)網(wǎng)絡(luò)策略還沒有在人類玩家的層面推廣。測試泛化能力的一種方法是通過使動作具有粘性并在每一幀中以0.25的概率重復(fù)最后一個動作來擾亂策略。使用這種評估方法,我們的訓(xùn)練策略在《蒙特祖瑪?shù)膹?fù)仇》中平均得分達(dá)到了10000分?;蛘?,我們可以采用概率為0.01的隨機(jī)操作(重復(fù)4幀分割步驟),這將導(dǎo)致我們的策略平均得分為8400。有趣的是,我們發(fā)現(xiàn)這樣的干擾也顯著地降低了人類玩家在《蒙特祖瑪?shù)膹?fù)仇》中的得分。就我們所知,我們才用干擾策略所產(chǎn)生的結(jié)果比所有已有的結(jié)果都要好。用0到30個隨機(jī)停止操作指令(no-op)來干擾學(xué)習(xí)策略不會讓結(jié)果產(chǎn)生明顯的變化,而且大多數(shù)的結(jié)果都達(dá)到了demo中獲得的最終分?jǐn)?shù)。

在過去的研究中,大多數(shù)的關(guān)注點(diǎn)都集中在了模仿上,這就造成了與demo中完全相同的行為,我們已經(jīng)證明了通過直接優(yōu)化返回值(returns)可以達(dá)到較好的結(jié)果。這就允許智能體與demo中的行為有一定的偏差,使智能體能夠找到人類演示者沒有考慮的,且更好的解決方案。通過在子任務(wù)上進(jìn)行訓(xùn)練(通過重新設(shè)定demo狀態(tài)獲得),我們使用這種技術(shù)解決了一個需要長序列操作的困難的強(qiáng)化學(xué)習(xí)問題。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 算法
    +關(guān)注

    關(guān)注

    23

    文章

    4761

    瀏覽量

    97153
  • 智能體
    +關(guān)注

    關(guān)注

    1

    文章

    390

    瀏覽量

    11521
  • 強(qiáng)化學(xué)習(xí)

    關(guān)注

    4

    文章

    269

    瀏覽量

    11905

原文標(biāo)題:DeepMind都拿不下的游戲,剛剛被OpenAI玩出歷史最高分

文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    Gartner的AI存儲大考,華為如何交出“最高分答卷”?

    用Gartner的黃金標(biāo)尺,量出華為AI存儲的長度
    的頭像 發(fā)表于 11-05 00:28 ?8916次閱讀
    Gartner的<b class='flag-5'>AI</b>存儲大考,華為如何交出“<b class='flag-5'>最高分</b>答卷”?

    NVIDIA攜手OpenAI構(gòu)建AI基礎(chǔ)設(shè)施

    NVIDIA 首席執(zhí)行官黃仁勛、OpenAI 首席執(zhí)行官 Sam Altman 和 OpenAI 總裁 Greg Brockman 宣布項(xiàng)新的合作伙伴關(guān)系,旨在推動
    的頭像 發(fā)表于 09-23 14:38 ?677次閱讀

    今日看點(diǎn):蘋果認(rèn)證中國快充品牌遭美調(diào)查;英偉達(dá)擬向OpenAI投資最高1000億美元

    英偉達(dá)擬向OpenAI投資最高1000億美元 近日,英偉達(dá)和OpenAI宣布達(dá)成合作,包括建設(shè)龐大數(shù)據(jù)中心計劃,以及英偉達(dá)對OpenAI
    發(fā)表于 09-23 10:09 ?297次閱讀

    智能客服驅(qū)動效率和體驗(yàn)升級,上海電信+昇騰AI一次民生應(yīng)用實(shí)踐

    上海電信+昇騰AI一次民生應(yīng)用實(shí)踐
    的頭像 發(fā)表于 07-30 23:44 ?2709次閱讀
    智能客服驅(qū)動效率和體驗(yàn)升級,上海電信+昇騰<b class='flag-5'>AI</b>的<b class='flag-5'>一次</b>民生應(yīng)用實(shí)踐

    “天才”!OpenAI o3 成全球 IQ 最高AI 大模型

    電子發(fā)燒友網(wǎng)報道(文 / 吳子鵬)根據(jù)門薩智商(IQ)測試中的表現(xiàn),OpenAI o3 在全球 “智商最高” 的人工智能模型 TOP 24 中位居榜首,在門薩測試中獲得了 135 的高分,躋身
    的頭像 發(fā)表于 06-15 01:56 ?5552次閱讀
    “天才”!<b class='flag-5'>OpenAI</b> o3 成全球 IQ <b class='flag-5'>最高</b>的 <b class='flag-5'>AI</b> 大模型

    移動電源EMC整改:認(rèn)證失敗到一次通過的實(shí)戰(zhàn)經(jīng)驗(yàn)

    深圳南柯電子|移動電源EMC整改:認(rèn)證失敗到一次通過的實(shí)戰(zhàn)經(jīng)驗(yàn)
    的頭像 發(fā)表于 05-26 11:25 ?575次閱讀
    移動電源EMC整改:認(rèn)證失敗到<b class='flag-5'>一次</b><b class='flag-5'>通過</b>的實(shí)戰(zhàn)經(jīng)驗(yàn)

    小智AI語音助手調(diào)試成功,母親節(jié)祝福語演示來啦

    昨天收到了五一節(jié)官方寄來的獎品小智AI套件,感覺真的挺不錯的,這一次只是采用了自帶的套件搭建環(huán)境,后續(xù)可以用更大的屏幕進(jìn)行移植,還是可以實(shí)現(xiàn)的。 套件盒子: 包含的套件模塊:ESP32S3主控
    發(fā)表于 05-12 22:02

    一次消諧裝置與二消諧裝置區(qū)別、一次消諧器與二消諧器的區(qū)別

    繞組,處理低電壓信號。 功能側(cè)重:一次消諧器通過非線性電阻抑制鐵磁諧振,限制中性點(diǎn)位移電壓;二消諧器通過檢測諧振信號并觸發(fā)晶閘管短路阻尼電阻,動態(tài)消除諧振。 適用場景:
    的頭像 發(fā)表于 05-07 09:58 ?3216次閱讀
    <b class='flag-5'>一次</b>消諧裝置與二<b class='flag-5'>次</b>消諧裝置區(qū)別、<b class='flag-5'>一次</b>消諧器與二<b class='flag-5'>次</b>消諧器的區(qū)別

    請問init_ipc_shm() 是否只初始化一次?

    通過在 S32G A 核上使用 C(或 C)創(chuàng)建多個項(xiàng)目來開發(fā) IPCF 功能時,是init_ipc_shm()允許初始化已配置的共享資源的函數(shù)一次在運(yùn)行時?如果是,系統(tǒng)級別的最佳架構(gòu)建議是什么?我的想法是實(shí)現(xiàn)
    發(fā)表于 03-25 08:05

    Figure AI宣布終止與OpenAI合作,專注內(nèi)部研發(fā)

    近日,人形機(jī)器人領(lǐng)域的獨(dú)角獸企業(yè)Figure AI宣布個重要決定:因已取得“重大突破”,將終止與OpenAI的合作,并專注于內(nèi)部人工智能技術(shù)的研發(fā)。這
    的頭像 發(fā)表于 02-06 14:33 ?916次閱讀

    Figure AI宣布終止與OpenAI合作,稱已在AI方面取得重大突破

    近日,人形機(jī)器人領(lǐng)域的知名公司Figure AI宣布個重要決定,即終止與OpenAI之間的合作協(xié)議。這消息引起了業(yè)界的廣泛關(guān)注。 據(jù)了
    的頭像 發(fā)表于 02-06 14:08 ?781次閱讀

    OpenAI進(jìn)軍傳媒,蘋果暫停AI新聞功能

    技術(shù)支持的地方新聞編輯室”。這舉措標(biāo)志著OpenAI正式涉足傳媒領(lǐng)域,意圖通過AI技術(shù)推動新聞業(yè)的創(chuàng)新與發(fā)展。 與此同時,蘋果公司在AI
    的頭像 發(fā)表于 01-21 10:10 ?733次閱讀

    名單公布!【書籍評測活動NO.55】AI Agent應(yīng)用與項(xiàng)目實(shí)戰(zhàn)

    意外泄露、OpenAI即將推出Operator……似乎過不了多久,AI Agent就像電影中樣,將接管我們的生活和工作。 那究竟什么是AI Agent呢? 從嚴(yán)格的概念上來說,
    發(fā)表于 01-13 11:04

    行業(yè)首個芯片級游戲技術(shù),OPPO「風(fēng)馳游戲內(nèi)核」正式亮相游戲大會

    12月12日,游戲大會在中國深圳正式舉行。OPPO首席產(chǎn)品官劉作虎宣布,繼影像與AI后,游戲體驗(yàn)將成為OPPO性能賽道的戰(zhàn)略級方向,OP
    的頭像 發(fā)表于 12-13 10:20 ?955次閱讀
    行業(yè)首個芯片級<b class='flag-5'>游戲</b>技術(shù),OPPO「風(fēng)馳<b class='flag-5'>游戲</b>內(nèi)核」正式亮相<b class='flag-5'>一</b>加<b class='flag-5'>游戲</b>大會

    Meta AI高管批評OpenAI閉源模式

    OpenAIOpenAI目前采用閉源模式,通過訂閱和API服務(wù)等獲取收入。然而,這模式引發(fā)了諸多爭議。作為OpenAI的聯(lián)合創(chuàng)始人,特斯
    的頭像 發(fā)表于 12-12 11:14 ?1061次閱讀