chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

人類這次輸給的是怎樣的進階版“AI 英雄”?

人工智能和機器人研究院 ? 來源:未知 ? 作者:李倩 ? 2018-08-08 19:07 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

去年,OpenAI 在 DOTA 的 1v1 比賽中戰(zhàn)勝了職業(yè)玩家 Dendi,而在距離進階版 OpenAI Five 系統(tǒng)戰(zhàn)勝人類業(yè)余玩家不過一個月的時間,凌晨,它又以 2:1 的戰(zhàn)績再次完成對人類高級玩家的“屠殺”,GG(人類贏的最后一局純屬耍賴)。

相比之下,人類這次輸給的是怎樣的進階版“AI 英雄”?

此次,OpenAI Five 對陣 5 個高級玩家(解說員+前職業(yè)玩家)——Blitz, Cap, Fogged, Merlini 和 Moonmeander,他們的平均天梯分 6000 以上。反觀 OpenAI Five,根據(jù)公開資料,它的實力相當于人類玩了 180 年的游戲,而且每天都與自己進行對抗學習,學習過程非常復雜,需要在 256 個 GPU 和 128,000 個 CPU 上運行擴展版本的近端策略優(yōu)化(PPO)進行訓練。

它對每個英雄使用了單獨的 LSTM(長短期記憶遞歸神經(jīng)網(wǎng)絡),并且沒有人類數(shù)據(jù),它會學習可識別的策略,這表明強化學習可以產(chǎn)生可實現(xiàn)規(guī)模的長期規(guī)劃。

此外,就應用環(huán)境而言,不同于棋牌游戲的固定規(guī)則,像 DOTA2 這樣的復雜視頻游戲是 5v5 對決的戰(zhàn)略游戲,況且,DOTA 游戲已經(jīng)不斷開發(fā)了十幾年,游戲邏輯中有數(shù)十萬行代碼,且每兩周更新一次,游戲語義在不斷產(chǎn)生變化。

因此,AI 玩 DOTA 的難度可想而知,它首先需要解決以下四大問題:長時視野;局部觀察狀態(tài);高維、連續(xù)的動作空間;高維、連續(xù)的觀察空間。

模型架構(gòu)

OpenAI Five 的每個網(wǎng)絡都包含一個單層的、1024-unit 的 LSTM,它可以查看當前的游戲狀態(tài)(從 Valve 的 Bot API 中抓取),并通過幾個可能的 action heads 發(fā)出動作。每個 head 都具有語義含義,例如延遲動作的刻度數(shù),選擇哪一個動作,該動作在單元周圍網(wǎng)格中的 X 或 Y 坐標等。Action heads 是獨立計算的。

OpenAI Five 使用觀察空間(observation space)和動作空間(action space)進行交互式演示。OpenAI Five 將世界視為 20000 個數(shù)字的列表,并通過發(fā)出一個包含 8 個枚舉值(enumeration values)的列表來執(zhí)行操作。通過選擇不同的行動和目標,我們可以了解 OpenAI Five 如何編碼每個動作,以及如何觀察世界。下圖是人類會看到的場景。

OpenAI Five 可以對與它所看到的相關的丟失狀態(tài)片段做出反應。例如,直到最近,OpenAI Five 的觀察區(qū)域才包括狙擊手的技能范圍(子彈落在敵人身上的區(qū)域)。然而,我們觀察到 OpenAI Five 可以學習走出(雖然不能避免進入)狙擊手的技能范圍,因為當進入這個區(qū)域時,它可以看到自己的血量是在減少的。

探索

就算有學習算法能夠處理較長的視野,我們?nèi)匀恍枰獙Νh(huán)境進行探索。因為即使我們設定了各種限制,仍然有數(shù)百種道具、幾十種建筑、法術、單元類型、長尾游戲機制,以及因此產(chǎn)生的各種組合,想要有效地探索這個巨大的空間其實并不容易。

OpenAI Five 可以從隨機權重開始,從自我博弈中學習。 為了避免“策略崩潰”,智能體在訓練的時候,80% 的游戲都是自我對抗, 另外 20% 則是與過去的自己進行對抗。在自我對抗時,英雄首先會漫無目的繞著地圖游走。經(jīng)過幾個小時的訓練后,智能體開始有了一些概念,例如建造、中路對線等。幾天之后,他們始終采用基本的人類策略:試圖從對手那里偷走 Bountyrunes等。 通過進一步的訓練,它們可以熟練掌握 5 個英雄集中推塔的高級策略。

OpenAI Five 使用了 1v1 機器人里的隨機化的方法 。它還使用了一個新的路線分配(lane assignment)策略。 在每個訓練游戲開始時,他們隨機地將每個英雄“分配”到一些 lane 的子集,在到隨機選擇的時間之前,如果英雄偏離這些路線,就會受到懲罰。

當然,也有獎勵來幫助智能體探索環(huán)境,主要包括凈值(net worth)、殺敵數(shù)(kills)、死亡數(shù)(deaths)、助攻(assists)、最后一擊(last hits) 等指標。他們通過減少其他團隊的平均獎勵,來對每個智能體的獎勵進行后續(xù)處理,以防止智能體找到正和博弈(positive-sum)的情況。

他們也對道具和技能構(gòu)建進行了硬編碼,同時,也通過腳本基線( scripted baseline)引入了信使管理(Courier management)。

Rapid

這個系統(tǒng)的實現(xiàn)使用了被稱為“Rapid”的通用 RL 訓練系統(tǒng),它適用于任何多人模式環(huán)境。

訓練系統(tǒng)分為 rolloutworkers,運行游戲副本,智能體(agent),用來收集經(jīng)驗,優(yōu)化器節(jié)點(optimizer nodes)執(zhí)行跨 GPU 組的同步梯度下降。每次訓練還包括分別對訓練機器人以及樣本機器人進行評估的組件,以及監(jiān)視軟件,比如 TensorBoard,Sentry 以及 Grafana。

在同步梯度下降運算過程中,每一個 GPU 組件都會運算自己負責的批處理部分的梯度計算,隨后整體梯度再進行平均計算。他們原本使用消息傳遞借口的規(guī)約算法進行平均計算,現(xiàn)在則使用英偉達的多卡通型框架 NCCL2 的封裝函數(shù)來實行 GPU 并行計算以及網(wǎng)絡間數(shù)據(jù)傳輸。同步 58MB 大小數(shù)據(jù)(用于 OpenAI Five 的參數(shù))的延遲顯示在表格之中,延遲時間足夠低能滿足大部分數(shù)據(jù)被進行并行運算的 GPU 標記。

與人類的不同

OpenAI Five 獲取的信息和人類完全一致,但是系統(tǒng)能馬上反應到類似位置、生命值以及物品更新情況等等人類玩家需要定時觀察的信息。OpenAI Five 的平均 APM 在 150-170 之間(理論上最快可以達到 450 考慮到每四幀一動),平均反應時間為 80 毫秒,比人類平均速度要快很多。

很多職業(yè)選手在去年 TI 結(jié)束后都使用 bot 進行訓練。根據(jù) Blitz 的說法 solo bot已經(jīng)改變了人們對 solo 賽節(jié)奏的看法,bot 偏向于快節(jié)奏風格,現(xiàn)在大多數(shù)選手也已經(jīng)使用快節(jié)奏風格來和 bot 抗衡。

AI 在 Dota2 中的節(jié)奏和執(zhí)行力非常強了,這是不是意味著它沒有優(yōu)化空間了?當然不是,此次的 OpenAI Five 還是有諸多限制,比如系統(tǒng)在進行最后一擊時較弱,其客觀優(yōu)先級與一個共同的專業(yè)策略相匹配,獲得戰(zhàn)略地圖控制等長期獎勵往往需要犧牲短期獎勵。

Open AI 方面稱,在今年后續(xù)的 TI 表演賽上,還會有職業(yè)玩家繼續(xù)挑戰(zhàn) AI,但結(jié)果想來也是實力“嘲諷”人類?;蛟S,更讓人期待的是,在 Dota2 這樣的復雜游戲中,是否會出現(xiàn)“AI vs AI”的神仙打架比賽?

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • cpu
    cpu
    +關注

    關注

    68

    文章

    11069

    瀏覽量

    216684
  • 神經(jīng)網(wǎng)絡

    關注

    42

    文章

    4812

    瀏覽量

    103333
  • AI
    AI
    +關注

    關注

    88

    文章

    34916

    瀏覽量

    277941

原文標題:open AI 在DOTA 5v5 比賽中戰(zhàn)勝職業(yè)選手

文章出處:【微信號:gh_ecbcc3b6eabf,微信公眾號:人工智能和機器人研究院】歡迎添加關注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    RK3568驅(qū)動指南|驅(qū)動基礎進階篇-進階7 向系統(tǒng)中添加一個系統(tǒng)調(diào)用

    RK3568驅(qū)動指南|驅(qū)動基礎進階篇-進階7 向系統(tǒng)中添加一個系統(tǒng)調(diào)用
    的頭像 發(fā)表于 05-21 14:15 ?255次閱讀
    RK3568驅(qū)動指南|驅(qū)動基礎<b class='flag-5'>進階</b>篇-<b class='flag-5'>進階</b>7 向系統(tǒng)中添加一個系統(tǒng)調(diào)用

    AI時代:不可替代的“人類+”職業(yè)技能

    不在于“搶工作”本身,而在于人類如何通過職業(yè)技能培訓重新定義不可替代性。 一、替代與創(chuàng)造的辯證關系 AI對就業(yè)的影響從來不是單向的。歷史經(jīng)驗表明,每次技術革命在消滅某些崗位的同時,總會催生更多新職業(yè)。但這次的不同
    的頭像 發(fā)表于 05-20 16:13 ?186次閱讀

    【「零基礎開發(fā)AI Agent」閱讀體驗】+ 入門篇學習

    很高興又有機會學習ai技術,這次試讀的是「零基礎開發(fā)AI Agent」,作者葉濤、管鍇、張心雨。 大模型的普及是近三年來的一件大事,萬物皆可大模型已成為趨勢。作為大模型開發(fā)應用中重要組成部分,提示詞
    發(fā)表于 05-02 09:26

    AI Agent應用與項目實戰(zhàn)》閱讀體驗--跟著迪哥學Agent

    感謝電子發(fā)燒友的這次活動,讓我有幸抽中了《AI Agent應用與項目實戰(zhàn)》(以下簡稱《Agent》)這本書的贈送。 收到書本之后我就迫不及待地學習書本中的知識。如果說依靠各種平臺上的文章了解關于AI
    發(fā)表于 03-02 12:28

    AI Agent 應用與項目實戰(zhàn)》第1-2章閱讀心得——理解Agent框架與Coze平臺的應用

    也好好抓住這次AI agent的廣闊應用前景,努力學習,厚積薄發(fā)。 作為一名數(shù)據(jù)挖掘工程師,在研讀《AI Agent 應用與項目實戰(zhàn)》第1-2章時,我對Agent的認知有了質(zhì)的飛躍。 如果說2023年
    發(fā)表于 02-19 16:35

    名單公布!【書籍評測活動NO.55】AI Agent應用與項目實戰(zhàn)

    日程預測性地調(diào)整了今天的工作安排。 在近日的Agent OpenDay上,智譜AI展示了在AI Agent(智能體)方面最新成果,發(fā)布了用AI替代人類執(zhí)行任務的三款智能體,分別是面向手
    發(fā)表于 01-13 11:04

    英雄聯(lián)盟手游》登陸天璣星速引擎

    憑借高度還原的核心玩法與英雄技能,畫面精美、特效炫酷的視覺效果,《英雄聯(lián)盟手游》一直備受玩家喜愛。但在追求高幀帶來的競技體驗時,玩家難免在游戲過程中遇到因為突發(fā)團戰(zhàn)、設備負載變化而導致游戲不流
    的頭像 發(fā)表于 12-29 11:47 ?616次閱讀

    馬斯克預言:AI將全面超越人類智力

    近日,科技巨頭馬斯克作出了一個關于人工智能(AI)的大膽預測。他斷言,AI的發(fā)展速度將超乎人類的想象,并將在不久的將來全面超越人類的智力。 馬斯克在X平臺上明確表示,
    的頭像 發(fā)表于 12-28 14:23 ?727次閱讀

    HUAWEI Mate系列旗艦新品發(fā)布:小藝再進階解鎖更多創(chuàng)新AI功能

    與 OS 深度融合,構(gòu)筑全新鴻蒙原生智能框架。AI 能力與操作系統(tǒng)深度融合,小藝也完成了向系統(tǒng)級智能體的升級,有著強大的推理規(guī)劃能力、知識問答能力、記憶能力等。在 Mate 系列新機的加持下,小藝能力再進階
    的頭像 發(fā)表于 11-27 09:36 ?1233次閱讀
    HUAWEI Mate系列旗艦新品發(fā)布:小藝再<b class='flag-5'>進階</b>解鎖更多創(chuàng)新<b class='flag-5'>AI</b>功能

    AI智能體逼真模擬人類行為

    近日,據(jù)外媒最新報道,斯坦福大學、華盛頓大學與Google DeepMind的科研團隊攜手合作,成功開發(fā)出一種能夠高度逼真模擬人類行為的AI智能體。 該智能體的構(gòu)建得益于研究團隊將詳細的訪談記錄
    的頭像 發(fā)表于 11-26 10:24 ?838次閱讀

    一文讀懂BOM管理(下):BOM結(jié)構(gòu)/實例,PLM中的BOM管理

    BOM管理進階:如何寫一個BOM結(jié)構(gòu)?怎樣開始BOM管理?
    的頭像 發(fā)表于 11-13 15:19 ?1655次閱讀
    一文讀懂BOM管理(下):BOM結(jié)構(gòu)/實例,PLM中的BOM管理

    AI for Science:人工智能驅(qū)動科學創(chuàng)新》第4章-AI與生命科學讀后感

    農(nóng)業(yè)、環(huán)保等,為人類社會的可持續(xù)發(fā)展做出貢獻。 總結(jié) 《AI for Science:人工智能驅(qū)動科學創(chuàng)新》第4章關于AI與生命科學的部分,為我們展示了一個充滿希望和機遇的未來。在這個未來中,人工智能
    發(fā)表于 10-14 09:21

    AI for Science:人工智能驅(qū)動科學創(chuàng)新》第二章AI for Science的技術支撐學習心得

    的重要作用和價值,同時也看到了其面臨的挑戰(zhàn)和未來發(fā)展方向。這次學習不僅豐富了我的知識儲備,還激發(fā)了我對AI for Science未來發(fā)展的期待和熱情。我相信,在不久的將來,AI for Science將為我們帶來更多的驚喜和突
    發(fā)表于 10-14 09:16

    平衡創(chuàng)新與倫理:AI時代的隱私保護和算法公平

    的發(fā)展不應背離人類的倫理道德。在推動技術創(chuàng)新的同時,我們必須確保每一步都走得穩(wěn)健和負責。通過提高透明度、保障算法公平性、保護個人隱私權以及加強國際合作,我們可以確保AI技術的健康發(fā)展,使其成為促進社會進步和增進人類福祉的力量。
    發(fā)表于 07-16 15:07