chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

星際爭霸2頂級人工智能AlphaStar帶來哪些新思路?

DPVg_AI_era ? 來源:lq ? 2019-02-13 09:38 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

AlphaStar再次展現(xiàn)了DeepMind對研究方向的精準(zhǔn)把控和卓越的工程實(shí)力。本文根據(jù)DeepMind博文及相關(guān)資料做了推演,試圖在研究論文公布前復(fù)現(xiàn)AlphaStar的訓(xùn)練過程。沿用這套方法,你也創(chuàng)建自己的星際2訓(xùn)練環(huán)境!

自AlphaGo解決圍棋問題之后,《星際爭霸2》就成了DeepMind公司的新目標(biāo)。在2018年6月,DeepMind發(fā)表了一篇論文,展示如何運(yùn)用深度強(qiáng)化學(xué)習(xí),解決諸如采礦最大化這樣的小游戲。

沒想到僅6個月后,他們的AI就已經(jīng)可以和職業(yè)選手過招了。AlphaStar在Catalyst LE地圖上打神族內(nèi)戰(zhàn)(PvP),以 5:0 戰(zhàn)勝了職業(yè)選手TLO與MaNa,只是到了現(xiàn)場比賽時,被MaNa找到了一個無法應(yīng)對棱鏡騷擾的Bug致敗。DeepMind公司那批機(jī)器學(xué)習(xí)天才們,研究方向掌握之精準(zhǔn),工程控制能力之強(qiáng)大,令人印象深刻。

這樣的表演賽是DeepMind常見的預(yù)熱,相信不久后它就會對Serra l 和Maru這樣的頂級職業(yè)選手提出挑戰(zhàn)。后者假如迎戰(zhàn),大概率菊花不保。

不過,與圍棋不同的是,星際爭霸這類即時戰(zhàn)略游戲還有操作技能這一環(huán)。AlphaStar有不切屏看大地圖的功能,以及偶爾爆出超越人類極限的有效手速(eAPM),都被指責(zé)為不夠公平。相信DeepMind在正式邀戰(zhàn)時會解決這些問題。

很多人最關(guān)心的一個問題是,AlphaStar究竟是如何訓(xùn)練出來的呢?我們嘗試在正式論文尚未放出之前,通過DeepMind的博客文章作一些分析解讀。

玩星際爭霸的AI面對的問題

星際爭霸2是一個困難的即時戰(zhàn)略游戲。玩家必須實(shí)時地在成百上千個可行的操作中作出決斷。

與人類相仿,AI的控制流同樣由一輪輪操作組成。在每一輪中,AI先獲取當(dāng)前游戲狀態(tài),據(jù)此衡量并選擇一次操作,然后提交給星際爭霸2環(huán)境。

AI經(jīng)由Blizzard和DeepMind聯(lián)合創(chuàng)建的PySC2接口,與星際爭霸2的游戲核心進(jìn)行交互。每一步中,AI能夠獲取的游戲信息是一個矩形網(wǎng)格,網(wǎng)格的每個位置代表地圖上的一個位置。每個位置上都有若干數(shù)值,代表此地的有效信息。

另一種理解方式是,游戲信息被組織成若干個網(wǎng)格,每份網(wǎng)格代表某一項(xiàng)特定信息(見上圖右側(cè))。比如說“fog-of-war”網(wǎng)格代表是否存在戰(zhàn)爭迷霧;“height-map”網(wǎng)格代表地形高度;“unit-type”網(wǎng)格代表建筑或者作戰(zhàn)單位。詳細(xì)說明可參考報(bào)告論文[1]的第3.2節(jié)。

在操作方面,AI定義了300多個“宏操作”,在每一輪中,AI從這個集合內(nèi)選取某個宏操作執(zhí)行。宏操作由一系列基本操作組成。例如,“把當(dāng)前選中的單位移到A處”,可以分成三步:1) 決定移動,2) 決定是否把操作排隊(duì),3) 點(diǎn)擊某個地圖位置。而上述操作又可以進(jìn)一步分解為“按m鍵;松開m鍵;決定是否按shift鍵;地圖A處按下鼠標(biāo)左鍵;松開鼠標(biāo)左鍵”。

不同粒度的操作分解,會將問題焦點(diǎn)分配到不同抽象層面。如果操作種類特別基本,到了按鍵盤鼠標(biāo)的程度,單個操作的意義就非常小,探索有意義的策略就很難。反之,如果宏操作非常復(fù)雜,雖然意義顯著,但每一步的選擇空間又變得過于寬廣,選中合適的策略也很難。PySC2取了一個平衡點(diǎn),每個宏操作的意義,與人類邏輯層面上感知的操作接近,比如上面移動單位的例子,它就給了一個專門的操作。

AI一旦從決策空間選定了宏操作之后,就會生成一條 (a0, a1, a2, a3, a4, ...) 形式的指令,其中“a0”指定了300多個基本操作之一,而“a1, a2…”是操作參數(shù),比如給需要移動單位指定目的地。直觀圖示如下:

為什么都說星際爭霸2問題難?

因?yàn)樾枰剿鞯目臻g太大。

根據(jù)DeepMind的報(bào)告,考慮操作和參數(shù)的各種組合,在典型對戰(zhàn)環(huán)境中,決策空間的大小約有10^26 (簡短的介紹可參見報(bào)告論文[1]第3.3節(jié))。如果把星際爭霸想像成一盤棋局,那么

棋局的狀態(tài)就是戰(zhàn)場的全部信息,但由于戰(zhàn)爭迷霧的存在,星際2中一位弈者相當(dāng)于遮擋住部分棋盤來對局;

每一步可以落子的位置對應(yīng)于此步可以進(jìn)行的操作,其可能性的數(shù)量級大致相當(dāng)于一大瓶可樂里水分子的數(shù)量。

注意以上討論的僅僅是AI決定單步操作時需要面對的挑戰(zhàn),在對戰(zhàn)中每一步對應(yīng)一個的時間節(jié)點(diǎn),如果按照職業(yè)玩家的操作頻率來計(jì)算,每分鐘需要行棋數(shù)百步,每步都在前一步的基礎(chǔ)上以乘數(shù)拓展一個狀態(tài)空間!

學(xué)習(xí)一步的操作固然困難,但尚可算入當(dāng)前最成熟的統(tǒng)計(jì)學(xué)習(xí)方法——監(jiān)督學(xué)習(xí)——可實(shí)際解決的問題的范疇。即給機(jī)器提供大量可觀測的輸入,即學(xué)習(xí)樣本,并提供期望產(chǎn)生的輸出。AI從這些配對樣本中,學(xué)到輸入與輸出的變量應(yīng)該怎樣對應(yīng)。

監(jiān)督學(xué)習(xí)方便簡單,而且從工程實(shí)現(xiàn)的意義來說,其實(shí)是我們唯一可以成熟使用的范式。但實(shí)際應(yīng)用到學(xué)習(xí)對戰(zhàn)這種任務(wù)上立即就會呈現(xiàn)出局限性 。

我們想象一個最簡單例子,監(jiān)督學(xué)習(xí)范式可以方便地運(yùn)用到單個人臉識別,單個數(shù)字識別,單個物體識別這樣的任務(wù)中。但如果不是“單個”數(shù)字識別,而是識別“一串”手寫數(shù)字,那么我們應(yīng)當(dāng)如何構(gòu)建監(jiān)督學(xué)習(xí)呢?

1) 可觀測的輸入:整個圖像;期望產(chǎn)生的輸出:類似于“02971736”這樣的數(shù)字串。

假設(shè)輸出的數(shù)字有個固定的長度上限,比如5位數(shù)字。那么對一副圖像就可能有高達(dá)10^5種可能的輸出。想訓(xùn)練好一個“5位數(shù)字串”識別器,就需要對每一種可能的字串,提供與其對應(yīng)的圖像例子,比如10000張不同的“01234”圖像。那么,對所有的類別,“34567”,“34555”,“23588”…都提供10,000張用于訓(xùn)練的例子,其耗費(fèi)將不可忍受。而每種類別10,000個例子的數(shù)量還是十分保守的估計(jì),在典型的數(shù)字圖像數(shù)據(jù)集,比如MNIST中,每個單個數(shù)字“0”,“1”,……的例子就有此數(shù)。

2) 可觀測的輸入:矩形圖像塊;期望產(chǎn)生的輸出:“0”,……,“9”這類單個數(shù)字

在這種情況下,我們只需要針對10個數(shù)字作訓(xùn)練,例子數(shù)量呈指數(shù)級縮減。但它并不能直接解決“從圖像中識別數(shù)字串”這個問題,因?yàn)檫€需面對“發(fā)現(xiàn)原始輸入圖像的哪些區(qū)域包含有意義的數(shù)字并截取”的難題。我們要仔細(xì)制定規(guī)則來確認(rèn)哪些區(qū)域包含數(shù)字及其順序,這是OCR任務(wù)中常用的方法,但恰如批評所言,這屬于“人工+智能”。

3) 可觀測的輸入:整個圖像,一個初始的矩形區(qū)域;期望產(chǎn)生的輸出:矩形區(qū)域中的圖像內(nèi)容“0……9”,矩形區(qū)域在圖像上的下一步移動,是否終止檢測。

這就開始脫離監(jiān)督學(xué)習(xí)的范式了。系統(tǒng)并非一次性的完成對輸入的分析,產(chǎn)生輸出,而是試圖做一個決策流,每個步驟都要根據(jù)一個本步觀測(輸入)得到一個相應(yīng)的決策(輸出)。而一個步驟的決策又會影響下一個步驟的觀測。如下圖所示:

它更加符合人類智能解決實(shí)際問題的方式,而游戲環(huán)境則是這類方案天然的試煉場。這也是通過人工智能程序玩游戲,在近年來獲得如此關(guān)注的原因之一。事實(shí)上:

把上面流程中的“數(shù)字串原始圖像”換成“星際爭霸2游戲環(huán)境”,

把判定和決策的輸出結(jié)果換成上面討論過的單步宏操作,

把“截取出的圖像塊”換成上面討論過的AI的對游戲的觀測,

我們就基本定義好了“玩星際爭霸的AI”所面對的問題。

AlphaStar面對的就是這樣一個問題,我們從它的博客文章[2]提到的若干技術(shù)要素出發(fā),對其訓(xùn)練方法進(jìn)行解說與猜測。它使用的這套技術(shù)分為如下三個大類:

宏觀訓(xùn)練策略

單個智能體強(qiáng)化學(xué)習(xí)策略

智能體的構(gòu)造和訓(xùn)練的具體實(shí)現(xiàn)

拆解:AlphaStar的訓(xùn)練策略

1. 宏觀的群體學(xué)習(xí)策略

簡略地講,AlphaStar 的總體訓(xùn)練過程,是一組多回合的“AI聯(lián)賽”。在介紹聯(lián)賽規(guī)則之前,我們先講為什么要訓(xùn)練一群,而不是一個AI,來挑戰(zhàn)星際爭霸2。首先,星際爭霸2本質(zhì)上是一個對抗性游戲,玩家追求勝利需要考慮對手的活動,并無全局意義上的最優(yōu)策略。其次,相比于圍棋,星際爭霸2對戰(zhàn)場狀態(tài)只能作不完全觀測,且其狀態(tài)空間更加龐大,導(dǎo)致一系列AI會各有偏好并相互克制。

對于一個的AI算法來說,強(qiáng)化學(xué)習(xí)任務(wù)中的諸要素,自然地分作兩類:受控變量和外界環(huán)境。在學(xué)習(xí)的每個時間點(diǎn),AI選擇好的動作和觀測結(jié)果,是兩邊交換信息的載體。

算法設(shè)計(jì)者須將外界環(huán)境視為黑箱,不能或不會在學(xué)習(xí)過程中加以控制。比如設(shè)計(jì)一個 AI 來挑戰(zhàn) Atari 主機(jī)中的某個游戲,算法設(shè)計(jì)者只能啟動強(qiáng)化學(xué)習(xí) AI 后從旁觀察。對于星際爭霸這類對戰(zhàn)式的任務(wù),被AI視為“外界環(huán)境”的元素,除游戲程序之外,對手一方同樣滿足:

不在AI的控制范圍

對“本” AI 的行動作出反饋

影響游戲狀態(tài),從而影響“本” AI 在下一個時間節(jié)點(diǎn)取得的觀測結(jié)果

因此解決方案中需要考慮對手,為此構(gòu)建的學(xué)習(xí)環(huán)境中也需要包含一個對手。

AlphaStar從一個單一的“種子選手”啟動聯(lián)賽,每一輪挑選有潛力的互相挑戰(zhàn),對優(yōu)勝AI略微變通后令其加入擴(kuò)大聯(lián)賽隊(duì)伍。一輪接一輪地將聯(lián)賽開展下去。啟動的種子AI來自基礎(chǔ)的監(jiān)督學(xué)習(xí):從Blizzard戰(zhàn)網(wǎng)下載人類玩家對戰(zhàn)數(shù)據(jù),訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)每局對戰(zhàn)每個時刻的(游戲狀態(tài),玩家操作)的對應(yīng)關(guān)系。(更詳細(xì)的,我們猜測應(yīng)該是若干步的游戲狀態(tài)序列和操作流之間的對應(yīng)關(guān)系)

獲得啟動種子后的聯(lián)賽式訓(xùn)練見下圖(取自Deepmind blog)

博客中詳細(xì)介紹的是第四輪訓(xùn)練Network-006的過程。首先我們注意到這個訓(xùn)練過程能夠進(jìn)行就有兩個前提條件:i) 本輪的Network-006是前一輪Network-004的兩個變異后裔之一。ii)Network-006被選中參加本輪聯(lián)賽的比賽,以綠色表示,而每一輪當(dāng)中不參加比賽的AI選手以藍(lán)色表示。無論是否參加比賽,一輪當(dāng)中所有的AI選手都會被原封不動地拷貝到下一輪。

之后,Network-006本場比賽的對手選定為Network-008,設(shè)定好學(xué)習(xí)參數(shù),就可以進(jìn)行強(qiáng)化學(xué)習(xí)訓(xùn)練了。注意Network-008在這次訓(xùn)練中充當(dāng)“陪練”的角色,其本身的網(wǎng)絡(luò)參數(shù)不會獲得調(diào)整。Network-006將Network-008當(dāng)作靶子來訓(xùn)練,會習(xí)得專門對付008的方案。至于008的出場是根據(jù)“Matchmaking Probability”算法抽取的,大約是在隨機(jī)分布的基礎(chǔ)上,讓高等級選手出場的機(jī)會略多,具體計(jì)算方式必須等論文出來才能確定。

“星際爭霸AI大聯(lián)盟”始終保留其歷史上的所有會員,每個AI都有出場機(jī)會。這樣可以避免學(xué)習(xí)終局的那些高等級AI,只會針對其它高等級AI,反而不懂如何應(yīng)對菜鳥的事件。訓(xùn)練的時候還會給一些比較弱的人工指導(dǎo),比如“初期鼓勵出狂戰(zhàn)士”等。這類指導(dǎo)策略也是隨機(jī)選取的,為的是進(jìn)一步提升下一輪聯(lián)盟中AI選手的多樣性。

從他們博文看來,聯(lián)賽舉行了800輪之多。最后一輪過后,“星際爭霸AI大聯(lián)盟”中存在高達(dá)877個訓(xùn)練過的AI神經(jīng)網(wǎng)絡(luò)。在測試階段出戰(zhàn)者的選擇方式,則是從這些AI選手中以Nash Distribution采樣。

2. 單個 AI 的訓(xùn)練

下面我們分析特定輪比賽中AI個體的學(xué)習(xí)問題。這是一個強(qiáng)化學(xué)習(xí)任務(wù)。

在“強(qiáng)化學(xué)習(xí)”中,AI 自行嘗試輸出不同的決策,訓(xùn)練者反饋給 AI 激勵和新的數(shù)據(jù)。這些配對數(shù)據(jù)用于后期的“監(jiān)督學(xué)習(xí)”,從機(jī)器在探索中得到的數(shù)據(jù)對,來學(xué)習(xí)環(huán)境輸入與操作輸出這兩大要素之間的聯(lián)系,在星際爭霸2單個AI訓(xùn)練中,我們將這兩個層面稱作“強(qiáng)化學(xué)習(xí)探索”和“構(gòu)建 AI 模型本體來學(xué)習(xí)樣本數(shù)據(jù)中的關(guān)聯(lián)”。

從“種子”選手開始,每個 AI 模型就繼承了以前的模型從它們對戰(zhàn)經(jīng)驗(yàn)數(shù)據(jù)中學(xué)習(xí)到的決策策略。而首個種子選手繼承的是人類選手的經(jīng)驗(yàn)。一旦啟動學(xué)習(xí),AI 就立即面臨強(qiáng)化學(xué)習(xí)領(lǐng)域經(jīng)典的“守成探索不能得兼”(exploitation-vs-exploration)的問題。

根據(jù) Deepmind 的介紹,AlphaStar 強(qiáng)化學(xué)習(xí)的骨干算法選用了“實(shí)干家-批評家”方法(Actor-Critic,AC)。為了加速訓(xùn)練以及取得穩(wěn)定和可靠的效果,AlphaStar 使用了大規(guī)模并行的 AC 實(shí)現(xiàn),另外結(jié)合了若干節(jié)約和利用有效經(jīng)驗(yàn)的技巧來對付星際爭霸2任務(wù)中學(xué)習(xí)遠(yuǎn)期回報(bào)的挑戰(zhàn)。

AlphaStar 具體使用的 AC 算法是2018 年 DeepMind提出的 IMPALA 算法[5]。其設(shè)計(jì)目的是解決高度并行的大規(guī)模學(xué)習(xí)問題。運(yùn)行星際爭霸2這樣的大型游戲環(huán)境,令 AI 與之互動產(chǎn)生數(shù)據(jù),是一個昂貴的計(jì)算任務(wù)。由于在 AC 算法框架下對模型參數(shù)的求導(dǎo)是一個伴隨劇烈波動的隨機(jī)性操作,用這種方法估計(jì)出來的導(dǎo)數(shù)來優(yōu)化策略模型,只能讓策略大致上變得越來越好。這個所謂“大致”的靠譜程度,就取決于我們能不能把導(dǎo)數(shù)的“劇烈波動”處理得不是那么劇烈。

一個自然的想法是:把策略多跑幾遍,導(dǎo)數(shù)多求幾次,求平均值。并行 AC 學(xué)習(xí)算法[6]就是對上述思路的直接實(shí)現(xiàn)—— 由于在 AC 架構(gòu)中實(shí)際產(chǎn)生數(shù)據(jù),探索環(huán)境的乃是“實(shí)干家”。我們在分配計(jì)算資源時偏向它,多雇傭?qū)嵏杉遥ǘ喾峙湟恍┫鄳?yīng)的策略執(zhí)行進(jìn)程),同時生成多條執(zhí)行軌跡,并通過一個中心學(xué)習(xí)者從這些多線歷史中估算策略參數(shù)的導(dǎo)數(shù),結(jié)果會更準(zhǔn)確,這些實(shí)干家相當(dāng)于中心學(xué)習(xí)者的分身。IMPALA 框架則更進(jìn)一步,所有分身實(shí)干家都只是“傀儡執(zhí)行者”,既不需要優(yōu)化策略參數(shù),也不需要計(jì)算導(dǎo)數(shù),只是負(fù)責(zé)執(zhí)行生來所繼承的策略,把經(jīng)驗(yàn)數(shù)據(jù)忠實(shí)地記載下來,傳回中心學(xué)習(xí)算法。

即便不考慮對穩(wěn)定導(dǎo)數(shù)計(jì)算的作用,這種做法也極大緩解了高并行復(fù)雜模型學(xué)習(xí)中的節(jié)點(diǎn)通訊問題?!翱軋?zhí)行者”和學(xué)習(xí)核心的關(guān)系,見上圖,它們之間的通信頻率比起頻繁傳遞網(wǎng)絡(luò)參數(shù)要少得多(可以完成一個 episode 才更新一次策略參數(shù))。而執(zhí)行策略的歷史數(shù)據(jù)往往比大型網(wǎng)絡(luò)的導(dǎo)數(shù)(大小約為整個網(wǎng)絡(luò)參數(shù)集)來得經(jīng)濟(jì)很多。

AlphaStar 還采用了幾項(xiàng)對 AC算法的補(bǔ)充措施。其中重要的一項(xiàng)是,每個 AI 選手在訓(xùn)練期間,都會把自己的對戰(zhàn)歷史保存下來,供 AC 算法在估計(jì)參數(shù)導(dǎo)數(shù)時使用,即模仿自己的優(yōu)秀歷史。這種在學(xué)習(xí)者“腦?!崩锩嬷胤艢v史經(jīng)驗(yàn)(Experience Replay)的做法,之前在估值方法與深度神經(jīng)網(wǎng)絡(luò)結(jié)合的工作中采用過(Deep Q-Learning,DQN),并首次實(shí)現(xiàn)了AI在視頻游戲上的突破。在直接學(xué)習(xí)策略參數(shù)的方案中,一般來說,這樣做會導(dǎo)致估計(jì)偏差——因?yàn)?AC 算法“期望”它見到的數(shù)據(jù)是執(zhí)行“本”策略得來。單采用參考?xì)v史數(shù)據(jù)的方案算出的模型改進(jìn)方向,其出發(fā)點(diǎn)就有一點(diǎn)過時了。但由于從少量樣本估計(jì)的模型參數(shù)的導(dǎo)數(shù)往往會有巨大波動。為更穩(wěn)定地標(biāo)定正確的學(xué)習(xí)方向,可以犧牲終點(diǎn)的最優(yōu)特性。

還有一個措施,是把學(xué)習(xí)過的 AI 的策略精髓抽取出來,轉(zhuǎn)移到正在學(xué)習(xí)的 AI 模型中(Policy Distillation)[7]。這個方法可以使用更緊湊的模型(參數(shù)小一個數(shù)量級)來逼近更大更復(fù)雜的模型的表現(xiàn);可以合并多個策略來形成一個比其中每個個體都更可靠的策略——注意由于優(yōu)秀策略的分布不是連續(xù)的,這不是一個簡單平均的問題。比如考慮超級瑪麗兄弟:策略A是跳起來踩扁蘑菇,策略B是發(fā)射火球然后直接前進(jìn),如何在A和B之間折衷相當(dāng)困難;還可以在策略學(xué)習(xí)這個層面形成迭代:每一輪的學(xué)習(xí)都把上一輪學(xué)習(xí)到策略的精髓轉(zhuǎn)移出來,在此基礎(chǔ)上開始。由于Deepmind語焉不詳,目前還不清楚這個方法是如何用于AlphaStar訓(xùn)練上的。

3. 神經(jīng)網(wǎng)絡(luò)模型和訓(xùn)練

強(qiáng)化學(xué)習(xí)AI算法。最終落實(shí)到具體的調(diào)整策略/模型的單個學(xué)習(xí)步驟上,也就是訓(xùn)練迭代的最內(nèi)層循環(huán)中,還是要回歸到監(jiān)督學(xué)習(xí)范式,變成“針對這樣的輸入,鼓勵(懲罰)模型產(chǎn)生如此的輸出”的優(yōu)化操作。在傳統(tǒng)強(qiáng)化學(xué)習(xí)研究歷史上,建立策略或者估值是理論重點(diǎn)。系統(tǒng)的狀態(tài)往往被少數(shù)幾個變量完美的描述,比如一個牛頓力學(xué)系統(tǒng)中各個剛體的位置和速度。但是在任何稍微復(fù)雜一點(diǎn)的問題中,數(shù)據(jù)表示問題仍然是一個挑戰(zhàn):即使強(qiáng)化學(xué)習(xí)算法非常有效,AI也必須知道當(dāng)前觀察到的狀態(tài)與之前經(jīng)歷過的狀態(tài)之間的聯(lián)系。星際爭霸游戲這類問題,其觀測是十分復(fù)雜的對象(序列),于是我們也就要面對統(tǒng)計(jì)學(xué)習(xí)中的典型問題:通過分析數(shù)據(jù),建立(輸入,輸出)之間的聯(lián)系。

目前大家的共識是,這個問題的核心是把輸入的數(shù)據(jù)轉(zhuǎn)換成一種有效的表示,這個“有效”是從期望產(chǎn)生的輸出結(jié)果的角度來評判的。具體一點(diǎn)說,如果我們的訓(xùn)練數(shù)據(jù)中有兩個樣本(輸入A,輸出A)和(輸入B,輸出B),后來又觀測到了(輸入C)。一個好的輸入數(shù)據(jù)的表達(dá)應(yīng)當(dāng)能幫助我們估計(jì)想要的“輸出C”。比如我們做完“輸入A->表達(dá)A”,“輸入B->表達(dá)B”和“輸入C->表達(dá)C”,然后比一比相似度(表達(dá)C,表達(dá)A)和(表達(dá)C,表達(dá)B),然后從A和B當(dāng)中挑選更相似的那個,用它的輸出來預(yù)估C的輸出。如果這種估計(jì)方式真的能得到對于C來說合適的輸出,我們說這個表達(dá)方式對于這個數(shù)據(jù)分析任務(wù)來說是好的。如果能完美的完成這個相似度辨別的任務(wù),那么很多問題就可以簡化成“查詢一下現(xiàn)在遇到的狀況跟訓(xùn)練時碰到的哪個情況類似,照當(dāng)初的經(jīng)驗(yàn)辦理”。從另一方面說,如果能將每一個原始數(shù)據(jù)樣本變換到一個多維向量,這些向量之間可以用簡單的做差算距離來衡量相似度,那么這個變換也算解決了衡量數(shù)據(jù)樣本之間的相似度的問題。這個任務(wù)有個術(shù)語叫做“數(shù)據(jù)表示”。

注意從上面的討論我們可以看出,沒有絕對“好”的數(shù)據(jù)表示,我們根據(jù)對某個特定的任務(wù)是否有效來衡量一種表示方法的好壞。數(shù)據(jù)表達(dá)的質(zhì)量可不僅僅取決于輸入數(shù)據(jù)的形式,而是跟整個數(shù)據(jù)分析的任務(wù)密切相關(guān)。比方說輸入的對象是自然人,人當(dāng)然是個十分復(fù)雜的對象,如果要量化描述之,那么對于“預(yù)估此人能否成為優(yōu)秀的籃球隊(duì)員”這個任務(wù),“身高、摸高、100米跑時間”這些量化的指標(biāo)就比較合理;而對于“預(yù)估此人會不會去觀看某部電影”的任務(wù),“票價(jià)與此人月收入的對比、前一年上映的每部電影此人是否觀看過……”這些量化指標(biāo)就顯得合適。

深度學(xué)習(xí)的興起的最大功臣是在隨這類模型而得到的有效數(shù)據(jù)表示:從輸入到輸出之間架構(gòu)好深度神經(jīng)網(wǎng)絡(luò)之后,我們就自然而然地把輸入數(shù)據(jù)的轉(zhuǎn)換,預(yù)測輸出的數(shù)據(jù)模型,模型產(chǎn)生的輸出與真實(shí)樣例之間的對比,這三者統(tǒng)一到了同一個訓(xùn)練過程中。神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)也就同時規(guī)定了“怎樣整理轉(zhuǎn)換輸入數(shù)據(jù)”和“怎樣用整理過的輸入數(shù)據(jù)預(yù)測所需的輸出”這兩個在數(shù)據(jù)分析中的關(guān)鍵步驟。

?序列轉(zhuǎn)換模型

根據(jù)Deepmind的說法,AlphaStar 采用了基于注意力機(jī)制的序列轉(zhuǎn)換的表示模型。這種數(shù)據(jù)表達(dá)方法的起源是在自然語言處理領(lǐng)域,我們能夠想象,這種方法擅長于表示成序列出現(xiàn)的數(shù)據(jù)樣本。具體地說,transformer模型來自于自然語言處理中的翻譯任務(wù),把一句話——即一串單詞和標(biāo)點(diǎn)(語言的基本單位,tokens)——轉(zhuǎn)換成另一種語言的基本單位。Deepmind同樣沒有詳述這個模型在 AlphaStar 中的具體使用方法。不過據(jù)上文提到的使用人類對戰(zhàn)數(shù)據(jù)預(yù)訓(xùn)練作為“種子AI”的做法來看,有可能預(yù)訓(xùn)練的任務(wù)被制定成了學(xué)習(xí)從輸入“游戲狀態(tài)序列”到輸出“操作指令序列”之間的聯(lián)系。

?策略模型

基于注意力機(jī)制的序列轉(zhuǎn)換目前已經(jīng)發(fā)展成為一個大的模型家族(剛剛在自然語言處理領(lǐng)域大放異彩的BERT也是其中一員),Deepmind 提到 AlphaStar 的輸出策略的計(jì)算模型是一種產(chǎn)生“指針”來“引用”自己的輸入序列從而構(gòu)建輸出序列的自回歸(auto-regression)模型。

?基于多智能體的批評家

AlphaStar 的強(qiáng)化學(xué)習(xí)核心是“實(shí)干家-批評者”(AC)算法族。其具體的選擇是引入一種更加適應(yīng)多個AI共同學(xué)習(xí),但每個AI的觀測受限的學(xué)習(xí)環(huán)境的估值方法。其基本原理是采用“要不然”式估值(原名為Counterfactual Multiagent,直譯為“反事實(shí)多智能體”),批評家在評判AI之前做的一項(xiàng)決策的價(jià)值時,使用“要是當(dāng)時不這么做”的話平均下來會有若干回報(bào),那么當(dāng)初這么做的優(yōu)勢(劣勢)也就相應(yīng)得出。

以上大致是我們從目前已有的知識所能推測的AlphaStar的詳細(xì)訓(xùn)練方案。在Deepmind正式論文發(fā)表之后,補(bǔ)足其中少量細(xì)節(jié),我們就可以沿用這套方法,創(chuàng)建自己的星際爭霸2訓(xùn)練環(huán)境。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 人工智能
    +關(guān)注

    關(guān)注

    1811

    文章

    49497

    瀏覽量

    258151
  • 強(qiáng)化學(xué)習(xí)

    關(guān)注

    4

    文章

    269

    瀏覽量

    11817
  • DeepMind
    +關(guān)注

    關(guān)注

    0

    文章

    131

    瀏覽量

    11959

原文標(biāo)題:《星際2》最強(qiáng)AI復(fù)現(xiàn)計(jì)劃:如何打造自己的AlphaStar

文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    利用超微型 Neuton ML 模型解鎖 SoC 邊緣人工智能

    的框架小 10 倍,速度也快 10 倍,甚至可以在最先進(jìn)的邊緣設(shè)備上進(jìn)行人工智能處理。在這篇博文中,我們將介紹這對開發(fā)人員意味著什么,以及使用 Neuton 模型如何改進(jìn)您的開發(fā)和終端
    發(fā)表于 08-31 20:54

    挖到寶了!人工智能綜合實(shí)驗(yàn)箱,高校新工科的寶藏神器

    和生態(tài)體系帶到使用者身邊 ,讓我們在技術(shù)學(xué)習(xí)和使用上不再受制于人。 三、多模態(tài)實(shí)驗(yàn),解鎖AI全流程 它嵌入了2D視覺、深度視覺、機(jī)械手臂、語音識別、嵌入式傳感器等多種類AI模塊,涵蓋人工智能領(lǐng)域主要
    發(fā)表于 08-07 14:30

    挖到寶了!比鄰星人工智能綜合實(shí)驗(yàn)箱,高校新工科的寶藏神器!

    和生態(tài)體系帶到使用者身邊 ,讓我們在技術(shù)學(xué)習(xí)和使用上不再受制于人。 三、多模態(tài)實(shí)驗(yàn),解鎖AI全流程 它嵌入了2D視覺、深度視覺、機(jī)械手臂、語音識別、嵌入式傳感器等多種類AI模塊,涵蓋人工智能領(lǐng)域主要
    發(fā)表于 08-07 14:23

    超小型Neuton機(jī)器學(xué)習(xí)模型, 在任何系統(tǒng)芯片(SoC)上解鎖邊緣人工智能應(yīng)用.

    Neuton 是一家邊緣AI 公司,致力于讓機(jī)器 學(xué)習(xí)模型更易于使用。它創(chuàng)建的模型比競爭對手的框架小10 倍,速度也快10 倍,甚至可以在最先進(jìn)的邊緣設(shè)備上進(jìn)行人工智能處理。在這篇博文中,我們將介紹
    發(fā)表于 07-31 11:38

    迅為RK3588開發(fā)板Linux安卓麒麟瑞芯微國產(chǎn)工業(yè)AI人工智能

    迅為RK3588開發(fā)板Linux安卓麒麟瑞芯微國產(chǎn)工業(yè)AI人工智能
    發(fā)表于 07-14 11:23

    最新人工智能硬件培訓(xùn)AI 基礎(chǔ)入門學(xué)習(xí)課程參考2025版(大模型篇)

    人工智能大模型重塑教育與社會發(fā)展的當(dāng)下,無論是探索未來職業(yè)方向,還是更新技術(shù)儲備,掌握大模型知識都已成為新時代的必修課。從職場上輔助工作的智能助手,到課堂用于學(xué)術(shù)研究的智能工具,大模型正在工作生活
    發(fā)表于 07-04 11:10

    如何構(gòu)建邊緣人工智能基礎(chǔ)設(shè)施

    隨著人工智能的不斷發(fā)展,其爭議性也越來越大;而在企業(yè)和消費(fèi)者的眼中,人工智能價(jià)值顯著。如同許多新興科技一樣,目前人工智能的應(yīng)用主要聚焦于大規(guī)模、基礎(chǔ)設(shè)施密集且高功耗的領(lǐng)域。然而,隨著人工智能
    的頭像 發(fā)表于 06-09 09:48 ?742次閱讀

    開售RK3576 高性能人工智能主板

    ,HDMI-4K 輸出,支 持千兆以太網(wǎng),WiFi,USB 擴(kuò)展/重力感應(yīng)/RS232/RS485/IO 擴(kuò)展/I2C 擴(kuò)展/MIPI 攝像頭/紅外遙控 器等功能,豐富的接口,一個全新八核擁有超強(qiáng)性能的人工智能
    發(fā)表于 04-23 10:55

    Cognizant將與NVIDIA合作部署神經(jīng)人工智能平臺,加速企業(yè)人工智能應(yīng)用

    -Cognizant將與NVIDIA合作部署神經(jīng)人工智能平臺,加速企業(yè)人工智能應(yīng)用 Cognizant將在關(guān)鍵增長領(lǐng)域提供解決方案,包括企業(yè)AI智能體、定制化行業(yè)大型語言模型及搭載N
    的頭像 發(fā)表于 03-26 14:42 ?495次閱讀
    Cognizant將與NVIDIA合作部署神經(jīng)<b class='flag-5'>人工智能</b>平臺,加速企業(yè)<b class='flag-5'>人工智能</b>應(yīng)用

    特朗普宣布5000億美元人工智能投資計(jì)劃

    近日,美國人工智能領(lǐng)域迎來重磅消息。美國總統(tǒng)特朗普宣布,OpenAI、軟銀和甲骨文三家行業(yè)巨頭正攜手推進(jìn)一項(xiàng)名為 “星際之門”(Stargate)的人工智能基礎(chǔ)設(shè)施建設(shè)計(jì)劃,總投資預(yù)計(jì)高達(dá) 5000 億美元。這一舉措旨在助力美國
    的頭像 發(fā)表于 02-05 17:48 ?867次閱讀

    OpenAI“星際之門”首期工廠亮相

    近日,OpenAI的首席執(zhí)行官薩姆·阿爾特曼在社交平臺X上分享了備受矚目的“星際之門”項(xiàng)目的首期工廠照片。這一舉動標(biāo)志著OpenAI在人工智能算力基礎(chǔ)設(shè)施建設(shè)方面邁出了重要一步。 據(jù)
    的頭像 發(fā)表于 02-05 13:54 ?625次閱讀

    人工智能和機(jī)器學(xué)習(xí)以及Edge AI的概念與應(yīng)用

    作者:DigiKey Editor 人工智能(AI)已經(jīng)是當(dāng)前科技業(yè)最熱門的話題,且其應(yīng)用面涉及人類生活的各個領(lǐng)域,對于各個產(chǎn)業(yè)都帶來相當(dāng)重要的影響,且即將改變?nèi)祟愇磥戆l(fā)展的方方面面。本文將為您介紹
    的頭像 發(fā)表于 01-25 17:37 ?1358次閱讀
    <b class='flag-5'>人工智能</b>和機(jī)器學(xué)習(xí)以及Edge AI的概念與應(yīng)用

    卡諾模型為人工智能領(lǐng)域提供了一種全新的視角

    在探索人工智能如何更深層次滿足用戶需求、提升用戶體驗(yàn)的旅程中,卡諾模型(Kano Model)提供了一個極具價(jià)值的理論框架。這一模型不僅為產(chǎn)品開發(fā)者帶來了深刻的洞察力,同時也為人工智能領(lǐng)域的創(chuàng)新提供
    的頭像 發(fā)表于 12-11 10:17 ?827次閱讀

    嵌入式和人工智能究竟是什么關(guān)系?

    了重要作用。在未來,隨著嵌入式系統(tǒng)和人工智能技術(shù)的不斷進(jìn)步,我們可以預(yù)見更多創(chuàng)新應(yīng)用的出現(xiàn),為社會發(fā)展和生活品質(zhì)的提升帶來更多可能性。
    發(fā)表于 11-14 16:39

    人工智能對人類的影響有哪些

    人工智能(AI)作為現(xiàn)代科技的杰出代表,正在以前所未有的速度改變著人類的生活、工作和社會結(jié)構(gòu)。這種影響是全方位的,既帶來了顯著的積極變化,也伴隨著一系列挑戰(zhàn)和問題。 一、積極影響 工作變革與經(jīng)濟(jì)增長
    的頭像 發(fā)表于 10-22 17:23 ?7552次閱讀