av无码播放一级毛片免费棋牌,艾栗栗与纹身男宾馆3p50分钟

用AI攻占了國(guó)際象棋和圍棋高地之后，DeepMind在第一人稱射擊游戲（FPS）上也有了新進(jìn)展。

1997年5月“深藍(lán)”擊敗國(guó)際象棋世界冠軍卡斯巴羅夫，有玩家在慶幸，我不下象棋，只下圍棋。

2017年5月AlphaGo打敗圍棋世界冠軍柯潔，有玩家慶幸，還好，我不下棋。

2018年6月，OpenAI 人工智能在dota2 5V5模式中以4000分水平擊敗人類玩家，依舊有玩家慶幸，我不玩RPG（角色扮演）對(duì)戰(zhàn)，我只玩FPS（第一人稱射擊）。

如今，F(xiàn)PS也被AI攻陷。

近日，DeepMind的研究人員在本周的《科學(xué)》雜志上發(fā)表了一篇論文，描述描述了一個(gè)完全無(wú)監(jiān)督的自學(xué)程序，不僅能夠?qū)W習(xí)如何玩“ Quake III Arena ”（雷神之錘III競(jìng)技場(chǎng)，一款第一人稱射擊游戲），還能設(shè)計(jì)出勝過(guò)人類團(tuán)隊(duì)的新穎戰(zhàn)略。

國(guó)際象棋和圍棋最初是用來(lái)模擬戰(zhàn)爭(zhēng)游戲的，但卻對(duì)戰(zhàn)爭(zhēng)復(fù)盤(pán)的不好。因?yàn)檫@類游戲通常涉及一個(gè)或多個(gè)隊(duì)友和敵人。而且一個(gè)優(yōu)秀的戰(zhàn)爭(zhēng)游戲必然是三維展開(kāi)。

DeepMind使用的AI叫For The Win（FTW），本質(zhì)是用卷積神經(jīng)網(wǎng)絡(luò)直接通過(guò)屏幕上進(jìn)行訓(xùn)練，屏幕數(shù)據(jù)會(huì)被傳遞到兩個(gè)LSTM網(wǎng)絡(luò)或能夠?qū)W習(xí)長(zhǎng)期依賴性的網(wǎng)絡(luò)。這兩個(gè)LSTM一個(gè)是在快速時(shí)間尺度上，另一個(gè)是在慢速時(shí)間尺度上運(yùn)行。它們通過(guò)目標(biāo)耦合，能夠?qū)τ螒蚴澜邕M(jìn)行預(yù)測(cè)并通過(guò)模擬游戲控制器輸出動(dòng)作。

FTW總共訓(xùn)練了30個(gè)游戲角色，為他們提供了一系列隊(duì)友和對(duì)手，并隨機(jī)選擇游戲階段，以防止他們通過(guò)記憶慣性做出選擇。每個(gè)角色都明確自己的獎(jiǎng)勵(lì)信號(hào)，從而擁有自己獨(dú)特的目標(biāo)（比如奪取旗幟）。此外，他們利用雙層流程（two-tier process）來(lái)優(yōu)化內(nèi)部獎(jiǎng)勵(lì)，通過(guò)這些獎(jiǎng)勵(lì)加強(qiáng)學(xué)習(xí)，來(lái)制定最重要的游戲策略。每個(gè)角色都單獨(dú)玩了大約450,000場(chǎng)比賽，相當(dāng)于擁有大約四年的經(jīng)驗(yàn)。

訓(xùn)練過(guò)后的FTW在地圖，團(tuán)隊(duì)名單和團(tuán)隊(duì)規(guī)模選擇方面都可以作出有利的選擇。他們學(xué)習(xí)了類似人類的行為，例如跟隨隊(duì)友，在對(duì)手的基地露營(yíng)，以及在一波攻擊中捍衛(wèi)他們自己的基地。而隨著訓(xùn)練的進(jìn)行，他們還學(xué)會(huì)避免人類玩家的一些弱點(diǎn)，比如過(guò)于關(guān)注隊(duì)友的行為。

在一場(chǎng)有40名人類參加的比賽中，人類和AI在比賽中隨機(jī)匹配（對(duì)手或隊(duì)友），結(jié)果，AI大勝人類玩家，F(xiàn)TW的Elo評(píng)級(jí)（相當(dāng)于獲勝的概率）為1600，而最好的人類玩家也只有1300，人類玩家平均評(píng)級(jí)為1050。

倫敦全球大學(xué)計(jì)算機(jī)科學(xué)教授，DeepMind科學(xué)家Thore Graepel表示，這項(xiàng)工作顯示了多智能體培訓(xùn)（multiagent）推動(dòng)人工智能發(fā)展的潛力。這是人機(jī)交互和系統(tǒng)相互補(bǔ)充或協(xié)同工作的研究的一個(gè)重大進(jìn)步。

AI訓(xùn)練思路

游戲分為兩個(gè)陣營(yíng)，兩方的大本營(yíng)在游戲時(shí)候開(kāi)會(huì)隨機(jī)設(shè)置在地圖的兩端。游戲中的玩家可以在游戲地圖中“瞎逛”，借助地圖中的建筑物、數(shù)目以及其他物品與玩家進(jìn)行互動(dòng)。

在游戲中，如果一方用激光擊敗了其他玩家，被擊中的玩家丟掉旗幟，回大本營(yíng)重生。

DeepMind采用的AI玩家會(huì)和人類有同樣的視角，AI不知道其他玩家的信息，包括位置、狀態(tài)等。另外這款游戲比其他棋牌游戲更能接近真實(shí)的戰(zhàn)場(chǎng)。AI玩家從零開(kāi)始，用強(qiáng)化學(xué)習(xí)訓(xùn)練，在游戲的開(kāi)始，真實(shí)加入戰(zhàn)場(chǎng)的AI角色是隨機(jī)選擇的，這會(huì)使得智能體的行為更能接近最初設(shè)置的策略目標(biāo)。

每個(gè)智能體都能夠?yàn)樽约褐贫ú呗?，這意味著不同角色會(huì)采用不同的戰(zhàn)術(shù)，即不同AI玩家有不同的專攻方向。

當(dāng)然，也會(huì)有限制，即在每1000次迭代后，系統(tǒng)會(huì)比較策略并評(píng)估整個(gè)團(tuán)隊(duì)在模仿與學(xué)習(xí)能力。如果一個(gè)智能體的獲勝機(jī)會(huì)低于另一個(gè)智能體的70％，那么較弱的智能體會(huì)復(fù)制較強(qiáng)的智能體。同時(shí)，強(qiáng)化學(xué)習(xí)還要求AI通過(guò)其他指標(biāo)的對(duì)比進(jìn)行調(diào)整。

AI玩家在一開(kāi)始就像一張白紙，研究人員給他們的目標(biāo)不僅是游戲結(jié)束時(shí)候的得分，還要關(guān)注在游戲前期的得分。研究人員指出，如果獎(jiǎng)勵(lì)機(jī)制只和游戲結(jié)果有關(guān)（輸/贏/平局），顯然限制太少，導(dǎo)致學(xué)習(xí)效果非常不好，所以需要考慮動(dòng)態(tài)的獎(jiǎng)勵(lì)機(jī)制，即根據(jù)游戲的點(diǎn)數(shù)流來(lái)變動(dòng)。

當(dāng)初始位置是隨機(jī)生成時(shí)，AI通常擊敗人類玩家。即使人類已經(jīng)練習(xí)了12個(gè)小時(shí)，他們?nèi)匀荒軌蜈A得25％的比賽，平局6%，剩下的是負(fù)。

然而，當(dāng)兩名職業(yè)游戲測(cè)試人員得到一張?zhí)貏e復(fù)雜的地圖時(shí)，這張地圖AI并沒(méi)有見(jiàn)過(guò)。重新讓AI在這張地圖上訓(xùn)練的話，只需要6個(gè)小時(shí)的訓(xùn)練就能脫穎而出。

這一結(jié)果沒(méi)有在論文說(shuō)明，而是在向新聞界提供的一份補(bǔ)充文件中作了說(shuō)明。

目前人們?nèi)匀豢梢栽诮?jīng)過(guò)精心設(shè)計(jì)的定位戰(zhàn)中擊敗AI，因?yàn)楝F(xiàn)實(shí)生活很少提供這樣復(fù)盤(pán)重來(lái)的機(jī)會(huì)，畢竟淮海戰(zhàn)役只能打一次！

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

AI

AI

+關(guān)注

關(guān)注
90

文章
38271

瀏覽量
297314
DeepMind

DeepMind

+關(guān)注

關(guān)注
0

文章
131

瀏覽量
12145

原文標(biāo)題：Science最新：DeepMind部署自學(xué)AI，攻陷FPS“雷神之錘”

文章出處：【微信號(hào)：smartman163，微信公眾號(hào)：網(wǎng)易智能】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛兴趣闲谈,欧美亚洲精品 8区,国产精品久久久久精品免费

搜索歷史

DeepMind部署自學(xué)AI 攻陷FPS“雷神之錘”

評(píng)論