北京時(shí)間 1 月 25 日凌晨 2 點(diǎn), DeepMind 直播了他們的 AI AlphaStar 和人類(lèi)頂尖的職業(yè)電競(jìng)選手對(duì)戰(zhàn)星際爭(zhēng)霸 2。根據(jù) DeepMind 介紹,AlphaStar 在 2018 年 12 月 10 日和 19 日先后以 5:0 全勝的戰(zhàn)績(jī)擊敗了 2 位國(guó)際頂級(jí)的人類(lèi)選手,此次直播的過(guò)程中也播放了之前比賽的重放。雖然 AlphaStar 在最后一場(chǎng)現(xiàn)場(chǎng)直播的比賽中惜敗,但是仍然保持對(duì)人類(lèi) 10 勝 1 敗的戰(zhàn)績(jī)。
星際在全球玩家眾多,是最流行的一款實(shí)時(shí)策略游戲之一,而 DeepMind 匯聚了全球最頂尖的人工智能科學(xué)家,似乎兩者出現(xiàn)在同一個(gè)場(chǎng)景里有些違和。大眾刻板印象里面,科學(xué)家一般都與實(shí)驗(yàn)科研為伍,怎么會(huì)對(duì)玩星際感興趣呢?
其實(shí)如果大家對(duì)于 DeepMind 這個(gè)公司有所了解的話,就會(huì)發(fā)現(xiàn)這個(gè)世界一流的人工智能團(tuán)隊(duì)實(shí)際就是一路打游戲過(guò)來(lái)的。DeepMind 的創(chuàng)始人 Demis Hassabis 自小酷愛(ài)國(guó)際象棋,13 歲就成為了國(guó)際象棋大師。之后他于 2010 年成立 DeepMind,專(zhuān)門(mén)開(kāi)發(fā)能夠玩游戲的人工智能。這個(gè)時(shí)候人工智能領(lǐng)域大火,DeepMind 順勢(shì)推出了自己的深度強(qiáng)化學(xué)習(xí) (Deep Reinforcement Learning),并于 2014 年在 Atari 游戲里面超過(guò)了人類(lèi)水平。2014 年之后 DeepMind 被 Google 收購(gòu),借助 Google 的資源優(yōu)勢(shì)繼續(xù)研發(fā),從此在游戲領(lǐng)域一騎絕塵。2016 年和 2017 年 DeepMind 的 AI 先后戰(zhàn)勝?lài)迨澜绻谲娎钍朗涂聺?。接?DeepMind 又推出了 AlphaZero,完全不借助人類(lèi)棋譜,幾個(gè)小時(shí)之內(nèi)就在圍棋,國(guó)際象棋和日本將棋上超過(guò)了人類(lèi)水平。
DeepMind 之所以對(duì)于游戲如此熱衷,除了創(chuàng)始人的游戲情節(jié)以外,最關(guān)鍵的還是游戲本身就是絕佳的人工智能測(cè)試環(huán)境。游戲就是人為創(chuàng)造的,用以幫助人來(lái)習(xí)得某個(gè)技能或者測(cè)試技能水平的工具。游戲通過(guò)提供明確的反饋,使人可以在短期內(nèi)不斷重復(fù)某些行為,從而習(xí)得技能。比如很多棋類(lèi)游戲的設(shè)計(jì)初衷就是鍛煉分析決策能力。當(dāng)然也有專(zhuān)門(mén)用來(lái)讓人獲得愉悅的游戲,比如說(shuō)許多網(wǎng)絡(luò)游戲。這些游戲一般會(huì)有很強(qiáng)獎(jiǎng)勵(lì)(比如獲得金幣之類(lèi)),獲得獎(jiǎng)勵(lì)的速度也很快,這就是這類(lèi)游戲容易讓人沉迷的原因。
回過(guò)頭來(lái)說(shuō)星際本身。為什么 DeepMind 的科學(xué)家們看中了這么一款游戲呢?原因主要是星際爭(zhēng)霸有這樣兩個(gè)特點(diǎn):
第一星際爭(zhēng)霸的動(dòng)作空間和策略非常復(fù)雜。圍棋雖然每次落子的變化也很多,但是每次畢竟只是需要根據(jù)盤(pán)面挑選落子地方,還算比較簡(jiǎn)單。相對(duì)而言,星際爭(zhēng)霸里面的的動(dòng)作空間就很復(fù)雜,玩家需要:
1)積累資源
2)建設(shè)工廠
3)組建軍隊(duì)
4)消滅對(duì)方的工事
每一個(gè)動(dòng)作之間相互有影響,許多動(dòng)作產(chǎn)生的后果是很長(zhǎng)期的
第二玩家沒(méi)有全部的信息?;旧蟻?lái)說(shuō)玩家只知道顯示在屏幕上面的一小部分區(qū)域的信息。而真正的地圖是很大。所以如果他們想要知道對(duì)手的信息,需要派出專(zhuān)門(mén)的偵查兵
為了這次的對(duì)戰(zhàn),DeepMind 其實(shí)已經(jīng)準(zhǔn)備已久。去年 DeepMind 和暴雪聯(lián)合推出了基于星際爭(zhēng)霸 2 的強(qiáng)化學(xué)習(xí)測(cè)試平臺(tái)并且發(fā)布了論文《StarCraft II: A New Challenge for Reinforcement Learning》。這次參與對(duì)戰(zhàn)的 AI 也是從這個(gè)平臺(tái)上訓(xùn)練得到的。這里主要解答一些大家可能關(guān)心的問(wèn)題。AlphaStar 的視角能夠看到的是什么信息?它的操作和人是否一樣?有沒(méi)有作弊?
AlphaStar 到底是看到的什么呢?
我們都知道人類(lèi)玩家在玩星際的時(shí)候看到的是計(jì)算機(jī)屏幕的信息(如果是團(tuán)戰(zhàn)可能還會(huì)有場(chǎng)下交流)。計(jì)算機(jī)屏幕上面的信息是標(biāo)準(zhǔn)的視頻流。人類(lèi)玩家首先做的實(shí)際上是識(shí)別哪個(gè)士兵,哪個(gè)是工廠。在計(jì)算機(jī)視覺(jué)里面,這些被稱(chēng)為物體識(shí)別和場(chǎng)景識(shí)別任務(wù)。值得一提的是識(shí)別這些人物本身很困難,但和策略的部分關(guān)系不大。所以 Deepmind 對(duì)問(wèn)題進(jìn)行了一些簡(jiǎn)化。 AlphaStar 以圖像的方式從游戲引擎里面讀取特征信息,這些圖像直接標(biāo)記了哪里是兵或者工廠。你可以想象,AlphaStar 有很多只眼睛,有的看到兵,有的看到所有的工廠。除了計(jì)算機(jī)屏幕上面的信息,AlphaStar 還可以看到一個(gè)粗略的全景地圖,可以另外知道一些全局的信息,比如當(dāng)前有多少資源,多少兵力等等。AlphaStar 看到的視角實(shí)際上長(zhǎng)得像是下面這個(gè)樣子。
那么 AlphaStar 是怎么進(jìn)行操作呢?
人類(lèi)玩家都知道玩星際很多時(shí)候是拼手速。操作速度快的人基本可以碾壓操作速度慢的人。人類(lèi)一般一分鐘進(jìn)行 30 到 300 次操作。最厲害的人類(lèi)選手大概是每分鐘 500 次操作。理論上計(jì)算機(jī)的操作速度遠(yuǎn)遠(yuǎn)超過(guò)人類(lèi),所以如果不限定操作速度的話,比較基本上沒(méi)有意義了。在 DeepMind 發(fā)布的工具包里面,操作速度被限制為每分鐘 180 次。除此以外,DeepMind 盡量讓 AlphaStar 的操作和人的操作是一樣的。人類(lèi)玩家的正常操作一般來(lái)說(shuō)是一個(gè)鼠標(biāo)鍵盤(pán)序列。比如說(shuō)要移動(dòng)兵的話,人一般會(huì)先按 m 代表進(jìn)入 move 操作,再按 shift 同時(shí)點(diǎn)擊要移動(dòng)的兵。AlphaStar 的操作也會(huì)產(chǎn)生類(lèi)似的序列。
根據(jù)上面的信息,我們知道 AlphaStar 的輸入和輸出其實(shí)和人類(lèi)選手是差不多的,并沒(méi)有特殊作弊的行為。從這次的比賽視頻來(lái)看,AlphaStar 在選擇策略上如同職業(yè)選手般嫻熟,非常令人驚嘆。那么 Deepmind 大概是用了什么樣的方法來(lái)訓(xùn)練 AlphaStar 的呢?Deepmind 在賽后發(fā)布了一篇博客進(jìn)行了介紹。據(jù)說(shuō)相應(yīng)的論文正在同行評(píng)議中,相信不久就會(huì)將看到細(xì)節(jié)。這里我結(jié)合博客內(nèi)容和我自己相關(guān)的經(jīng)驗(yàn)進(jìn)行下簡(jiǎn)單介紹。
Deepmind AI 的深度網(wǎng)絡(luò)由多個(gè)模塊構(gòu)成,看起來(lái)主要的網(wǎng)絡(luò)是一個(gè)被稱(chēng)為 Transformer 和 LSTM 的網(wǎng)絡(luò)結(jié)構(gòu)構(gòu)建。這類(lèi)網(wǎng)絡(luò)最重要的特點(diǎn)就是有很長(zhǎng)的記憶能力,可以在很長(zhǎng)的序列里面自動(dòng)找到數(shù)據(jù)中的關(guān)聯(lián),早期這類(lèi)網(wǎng)絡(luò)是在自然語(yǔ)言處理里面成熟的。之所以這次使用這樣的網(wǎng)絡(luò)結(jié)構(gòu),我猜測(cè)主要是星際里面的很多動(dòng)作的影響時(shí)間很長(zhǎng),比如說(shuō)開(kāi)始建一個(gè)工廠到真正這個(gè)工廠開(kāi)始能夠提供物資需要過(guò)很久。訓(xùn)練的過(guò)程和初代版的 AlphaGo 類(lèi)似,結(jié)合了有監(jiān)督學(xué)習(xí) (Supervised Learning) 和強(qiáng)化學(xué)習(xí) (Reinforcement Learning)。這兩種學(xué)習(xí)方法其實(shí)我們?nèi)祟?lèi)也常用 — 有監(jiān)督學(xué)習(xí)相當(dāng)于從課本上面學(xué)習(xí),而強(qiáng)化學(xué)習(xí)像是從實(shí)踐中摸索。有監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)并用,就相當(dāng)一個(gè)人先從課本上學(xué)習(xí)大概知識(shí)然后學(xué)以致用,在實(shí)踐中不斷改進(jìn)。
在 AlphaStar 中,第一步的訓(xùn)練是在暴雪提供的數(shù)據(jù)集上進(jìn)行的有監(jiān)督學(xué)習(xí)。據(jù) DeepMind 稱(chēng),經(jīng)過(guò)有監(jiān)督學(xué)習(xí),AlphaStar 對(duì)暴雪的內(nèi)置 AI 能保持 95% 上的勝率。接下來(lái)很多經(jīng)過(guò)有監(jiān)督學(xué)習(xí)的 AlphaStar 進(jìn)行聯(lián)賽 (League),相互對(duì)打,在這個(gè)過(guò)程中使用強(qiáng)化學(xué)習(xí)不斷提升能力。下面這個(gè)圖展示了這兩個(gè)階段水平的提升。
可以看出,有監(jiān)督學(xué)習(xí)使得 AlphaStar 達(dá)到人類(lèi)中的金牌水平(Gold Level),在進(jìn)行了 8 天強(qiáng)化學(xué)習(xí)之后,AlphaStar 最終超過(guò)人類(lèi)選手 TLO。14 天之后超過(guò)了人類(lèi)選手 MaNa。值得一提的是,在 14 天的強(qiáng)化學(xué)習(xí)訓(xùn)練期間,每個(gè) AlphaStar 相當(dāng)于完成了 200 年的游戲試驗(yàn)。尤其是多個(gè) AlphaStar 相互對(duì)戰(zhàn),需要的計(jì)算量極其巨大。為了加快計(jì)算速度 DeepMind 使用了 Google's v3 TPU (向量計(jì)算單元)開(kāi)發(fā)了一個(gè)分布式訓(xùn)練系統(tǒng)。TPU (Tensor processing unit) 是 Google 開(kāi)發(fā)的專(zhuān)門(mén)用于人工智能的處理器,從 2016 年推出,至今已經(jīng)演進(jìn)到第三代。每一個(gè) AlphaStar 智能體使用了 16 塊 三代 TPU,這是相當(dāng)驚人的計(jì)算能力 — 要知道幾個(gè)小時(shí)滅掉 AlphaGo 的 AlphaZero 在對(duì)弈的時(shí)候也不過(guò)只用了 4 塊一代 TPU。
AlphaStar 之所以能夠使用 TPU 的強(qiáng)大算力,得益于從 16 年起 Deepmind 將主要研究平臺(tái)轉(zhuǎn)移到了 TensorFlow 上面。TensorFlow 是 Google 開(kāi)發(fā)的開(kāi)源機(jī)器學(xué)習(xí)平臺(tái),如今也是最受歡迎機(jī)器學(xué)習(xí)系統(tǒng)之一。TPU 就是專(zhuān)門(mén)為 TensorFlow 開(kāi)發(fā)的硬件。除了 DeepMind 以外,Google 大部分的人工智能系統(tǒng)也都是基于 TensorFlow。
芯片領(lǐng)域有一個(gè)摩爾定律,就是計(jì)算力隨著時(shí)間是指數(shù)增長(zhǎng)的。其實(shí)人工智能領(lǐng)域也有著類(lèi)似的規(guī)律,比如說(shuō) AlphaGo 對(duì)陣?yán)钍朗臅r(shí)候人類(lèi)尚可一戰(zhàn),不久之后對(duì)戰(zhàn)柯潔人已經(jīng)完全不在 一個(gè)量級(jí)。相信隨著時(shí)間的前進(jìn),AlphaStar 也會(huì)不斷的強(qiáng)大,同時(shí)在更多的問(wèn)題上人工智能也會(huì)超過(guò)人類(lèi)。許多人因此擔(dān)憂人會(huì)隨著人工智能的發(fā)展人變得多余。其實(shí)我們大可不必?fù)?dān)憂,雖然如今人工智能在許多地方取得了不俗的成就,但其本質(zhì)仍然是人類(lèi)的工具。人類(lèi)歷史其實(shí)就是一個(gè)不斷的發(fā)明創(chuàng)造新的工具的歷史,從火的使用,到蒸汽機(jī),再到如今的人工智能,無(wú)一不是如此。在新的時(shí)代,新的人類(lèi)必然會(huì)懂得如何去使用全新的工具。AlphaStar 的星際爭(zhēng)霸首秀,可能是這個(gè)新的時(shí)代的又一個(gè)序章?;氐轿某醯膯?wèn)題,為什么科學(xué)家們會(huì)對(duì)星際爭(zhēng)霸如此癡迷 — 因?yàn)檫@不僅是游戲里的星際,更是人類(lèi)的星辰大海。
-
人工智能
+關(guān)注
關(guān)注
1811文章
49498瀏覽量
258205 -
DeepMind
+關(guān)注
關(guān)注
0文章
131瀏覽量
11962
原文標(biāo)題:AlphaStar 星際首秀,人工智能走向星辰大海
文章出處:【微信號(hào):tensorflowers,微信公眾號(hào):Tensorflowers】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
國(guó)際類(lèi)腦計(jì)算科學(xué)家Yulia Sandamirskaya教授加盟時(shí)識(shí)科技
科技感拉滿(mǎn)!鯨啟智能機(jī)器人與無(wú)人機(jī)聯(lián)動(dòng),閃耀服務(wù)世界青年科學(xué)家論壇
【「AI芯片:科技探索與AGI愿景」閱讀體驗(yàn)】+AI的科學(xué)應(yīng)用
地物光譜儀如何幫助科學(xué)家研究植被和土壤?

云天勵(lì)飛董事長(zhǎng)陳寧當(dāng)選深圳市青年科學(xué)家協(xié)會(huì)第十屆會(huì)長(zhǎng)

星際電涌:未來(lái)紀(jì)元(3)

我國(guó)科學(xué)家制備出可控手性石墨烯卷
星際電涌:未來(lái)紀(jì)元(2)

星際電涌:未來(lái)紀(jì)元(1)

NVIDIA RAPIDS cuDF如何賦能AI加速數(shù)據(jù)科學(xué)
深開(kāi)鴻亮相“小小科學(xué)家”品牌發(fā)布暨科學(xué)探索研學(xué)營(yíng)開(kāi)營(yíng)活動(dòng)

AI 推動(dòng)未來(lái)科學(xué) 晶泰科技共襄未來(lái)科學(xué)大獎(jiǎng)周

西湖大學(xué):科學(xué)家+AI,科研新范式的樣本

評(píng)論