chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

谷歌推出新的基于Tensorflow的強化學習框架,稱為Dopamine

DPVg_AI_era ? 來源:未知 ? 作者:李倩 ? 2018-08-31 09:20 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

今天,谷歌宣布推出一個新的基于Tensorflow的強化學習框架,稱為Dopamine,旨在為強化學習研究人員提供靈活性、穩(wěn)定性和可重復性。這個強大的新框架或?qū)⑼苿訌娀瘜W習研究取得根本性的新突破。

最近OpenAI在Dota 2上的表現(xiàn),讓強化學習又大大地火了一把,但是OpenAI的強化學習訓練環(huán)境OpenAI Gym卻一直遭到不少抱怨,比如不太穩(wěn)定、更新沒有及時……

今天,谷歌宣布開源基于TensorFlow的強化學習框架——Dopamine,代碼現(xiàn)在就能在Github查看。

谷歌研究人員表示,他們開源的這個TensorFlow強化學習框架強調(diào)三點:靈活、穩(wěn)定和可重復性(reproducibility)。

為此,配套開源的還包括一個專用于視頻游戲訓練結(jié)果的平臺,以及四種不同的機器學習模型:DQN、C51、簡化版的Rainbow智能體和IQN(Implicit Quantile Network)。

為了實現(xiàn)可重復性,Github代碼包括Arcade Learning Environment支持的全部60個游戲的完整測試和訓練代碼,并遵循標準化經(jīng)驗評估結(jié)果的最佳實踐。

除了開源這個增強學習框架,谷歌還推出了一個網(wǎng)站,允許開發(fā)人員將多個訓練中智能體的運行情況快速可視化。其他還有訓練好的模型、原始統(tǒng)計日志和TensorFlow event files,用于TensorBoard動態(tài)圖的繪制。

Dopamine框架:靈感來自大腦的多巴胺受體

強化學習(RL)研究在過去幾年取得了許多重大進展。強化學習的進步使得AI智能體能夠在一些游戲上超過人類,值得關注的例子包括DeepMind攻破Atari游戲的DQN,在圍棋中獲得矚目的AlphaGo和AlphaGo Zero,以及在Dota2對戰(zhàn)人類職業(yè)玩家的Open AI Five。

具體來說,在DQN中引入重放記憶(replay memories)可以利用先前agent的經(jīng)驗,大規(guī)模的分布式訓練可以在多個workers之間分配學習過程,分布式的方法允許agent建模完整的分布,而不僅僅是建模它們的期望值,從而能夠?qū)W習更完整的世界。

這類進展非常重要,因為產(chǎn)生這些進展的算法也適用于其他領域,例如機器人技術。

通常,實現(xiàn)這類進展需要快速的迭代設計——通常沒有明確的方向——并破壞既定方法的結(jié)構(gòu)。然而,大多數(shù)現(xiàn)有的RL框架不能同時提供靈活性和穩(wěn)定性,研究人員難以有效地迭代RL方法,進而探索新的研究方向,雖然這些新研究方向可能不會立即帶來明顯的好處。此外,從現(xiàn)有框架中復制結(jié)果常常太耗時,這可能導致后續(xù)的科學再現(xiàn)性問題。

今天,谷歌宣布推出一個新的基于Tensorflow的框架,稱為Dopamine,旨在為RL研究人員提供靈活性、穩(wěn)定性和可重復性。

這個平臺的靈感來自于大腦中獎勵動機行為的主要組成部分之一(多巴胺受體,dopamine receptor),這反映了神經(jīng)科學和強化學習研究之間強大的歷史聯(lián)系,它的目的是使這種推測性的研究能夠推動根本性的發(fā)現(xiàn)。開源框架還包含一組colabs,說明如何使用這個框架。

易用性

清晰和簡潔是這個框架設計中的兩個關鍵考慮因素。谷歌提供了緊湊的代碼(大約15個Python files),并且有詳細的文檔記錄。這是通過專注于Arcade Learning環(huán)境(一個成熟的、易于理解的baseline)和4個value-based的agent來實現(xiàn)的,分別是:DQN, C51,Rainbow agent的一個簡化版本,以及Implicit Quantile Network agent,這是上個月剛在ICML大會上發(fā)表的。這種簡單性能幫助研究人員更容易理解agent的內(nèi)部工作原理,并快速嘗試新的想法。

可重復性

谷歌尤其重視強化學習研究的可重復性(reproducibility)。他們?yōu)榇a提供了完整的測試覆蓋率;這些測試還可以作為文檔的附加形式。此外,他們的實驗框架遵循Machado et al. (2018)給出的建議,使用街機學習環(huán)境(Arcade Learning Environment)進行標準化經(jīng)驗評估。

基準測試

對于新的研究人員來說,能夠快速地將他們的想法與已有的方法進行對比是很重要的。因此,我們在Arcade Learning Environment支持的60款游戲中提供了4個agent的完整訓練數(shù)據(jù),這些數(shù)據(jù)可以作為Python pickle文件(用于通過我們的框架訓練的agent)和JSON數(shù)據(jù)文件(用于與在其他框架中訓練的agent進行比較);此外,谷歌還開放了一個網(wǎng)站,在上面可以快速地查看所有60款游戲提供的agent的可視化訓練運行。

下圖是4個agent在Seaquest上的訓練,這是Arcade Learning Environment支持的Atari 2600游戲之一。

在Seaquest上,4個agent進行了訓練。x軸表示迭代,其中每次迭代是100萬幀(4.5小時的實時游戲); y軸表示每場游戲獲得的平均分數(shù)。陰影區(qū)域顯示了5次獨立運行的置信區(qū)間。

谷歌還提供了來自這些agent的訓練好的深度網(wǎng)絡、原始統(tǒng)計日志以及用于使用Tensorboard繪圖的Tensorflow事件文件。這些都可以在官網(wǎng)下載。

開源獲取地址:

https://github.com/google/dopamine

其他主要強化學習框架

OpenAI Gym

2016 年 4 月 28 日,OpenAI 對外發(fā)布了強化學習開發(fā)平臺 OpenAI Gym。Gym 平臺的基本理念是,研究者建立自己的算法后,可以把該算法置于不同的環(huán)境中進行測試,然后把測試后的基本算法發(fā)布在 Gym 的平臺上,讓社區(qū)中的其他人看到。該平臺現(xiàn)在已經(jīng)與一些開放資源人工智能工具,例如谷歌的 TensorFlow 展開合作。

在OpenAI Gym上訓練強化學習agent

OpenAI Gym 是一款用于研發(fā)和比較強化學習算法的工具包,它支持訓練智能體(agent)做任何事——從行走到玩Pong或圍棋之類的游戲,都在范圍中。

OpenAI Universe

2016 年 12 月,OpenAI發(fā)布 OpenAI Universe。 根據(jù)其官方博客的介紹,這是一個能在幾乎所有環(huán)境中衡量和訓練 AI 通用智能水平的開源平臺,當下的目標是讓 AI 智能體能像人一樣使用計算機。目前,Universe 已經(jīng)有 1000 種訓練環(huán)境,由微軟、英偉達等公司參與建設。

Universe AI訓練平臺

Universe 通過一個通用的接口適用于各種場景:智能體通過捕捉屏幕的像素生成對鍵盤和鼠標的命令來操作遠程桌面。場景需要 VNC 服務器,universe 庫將智能體轉(zhuǎn)換為 VNC 客戶端。

OpenAI Gym Retro

這是OpenAI開源的用于游戲研究的完整版強化學習平臺 Gym Retro,支持的游戲從大約 70 多個Atari游戲和 30 多個世嘉游戲擴展到各種仿真器支持的 1000 多個游戲。

Gym Retro支持1000多個游戲

Gym Retro 用于研究強化學習算法及其泛化。RL 之前的研究主要集中在優(yōu)化 Agent 解決單個任務上。通過 Gym Retro,我們可以研究內(nèi)部概念相似但外觀表現(xiàn)不同的游戲之間泛化的能力。

DeepMind Lab

就在OpenAI 剛剛宣布開源 Universe平臺后,DeepMind 也宣布將其 AI 核心平臺 DeepMind Lab 開源。該平臺將幾個不同的 AI 研究領域整合至一個環(huán)境下,方便研究人員測試 AI 智能體的導航、記憶和 3D 成像等能力。

DeepMind Lab

DeepMind Lab 是一個專為基于智能體的 AI 研究設計的,完全像 3D 游戲般的平臺。它從自己的視角,通過模擬智能體的眼睛進行觀察。場景呈現(xiàn)的視覺效果是科幻風格??捎玫牟僮髂茏屩悄荏w環(huán)顧四周,并且以 3D 的形式移動。示例任務包括收集水果、走迷宮、穿越危險的通道且要避免從懸崖上墜落、使用發(fā)射臺在平臺間穿越、玩激光筆、以及快速學習并記住隨機生成的環(huán)境。

阿里Gym StarCraft

阿里去年開源了針對星際AI的研究平臺Gym StarCraft。在 Gym StarCraft 中,AI 和強化學習研究者可以非常方便地使用 Python 語言來進行深度強化學習智能 Agent 的開發(fā),它底層完成了對 TorchCraft 和 OpenAI Gym 的封裝,支持基于 TensorFlow 和 Keras 等主流算法框架進行開發(fā),僅需幾十行代碼即可完成一個基本的智能 Agent 的開發(fā)。

同時,為了便于評測智能 Agent 的有效性,Gym StarCraft 被集成在了 OpenAI Gym 這一主流的強化學習 AI 評測平臺中,支持世界各地的星際 AI 研究者基于它去進行公平、快捷的效果評估。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 谷歌
    +關注

    關注

    27

    文章

    6249

    瀏覽量

    110719
  • 強化學習
    +關注

    關注

    4

    文章

    270

    瀏覽量

    11936

原文標題:谷歌用“多巴胺”懟上OpenAI,開源TensorFlow強化學習框架

文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    多智能體強化學習(MARL)核心概念與算法概覽

    訓練單個RL智能體的過程非常簡單,那么我們現(xiàn)在換一個場景,同時訓練五個智能體,而且每個都有自己的目標、只能看到部分信息,還能互相幫忙。這就是多智能體強化學習
    的頭像 發(fā)表于 01-21 16:21 ?68次閱讀
    多智能體<b class='flag-5'>強化學習</b>(MARL)核心概念與算法概覽

    谷歌評論卡,碰一碰即可完成谷歌評論 #谷歌評論卡 #NFC標簽 #nfc卡

    谷歌
    深圳市融智興科技有限公司
    發(fā)布于 :2026年01月15日 17:02:00

    上汽別克至境E7首發(fā)搭載Momenta R6強化學習大模型

    別克至境家族迎來新成員——大五座智能SUV別克至境E7首發(fā)。新車將搭載Momenta R6強化學習大模型,帶來全場景的智能出行體驗。
    的頭像 發(fā)表于 01-12 16:23 ?185次閱讀

    如何在TensorFlow Lite Micro中添加自定義操作符(1)

    相信大家在部署嵌入式端的AI應用時,一定使用過TensorFlow Lite Micro,以下簡稱TFLm。TFLm 是專為微控制器和嵌入式設備設計的輕量級機器學習推理框架,它通過模塊化的操作符系統(tǒng)
    的頭像 發(fā)表于 12-26 10:34 ?4325次閱讀

    NVIDIA 推出 Nemotron 3 系列開放模型

    token 數(shù)。 ● Nemotron 通過先進的強化學習技術以及大規(guī)模并行多環(huán)境后訓練,實現(xiàn)了卓越的準確率。 ● NVIDIA 率先推出整套前沿的開放模型、訓練數(shù)據(jù)集及強化學習環(huán)境與
    的頭像 發(fā)表于 12-16 09:27 ?523次閱讀
    NVIDIA <b class='flag-5'>推出</b> Nemotron 3 系列開放模型

    中國研究發(fā)布新型混合微電網(wǎng)系統(tǒng)

    該系統(tǒng)核心是管理能源的方法。團隊采用調(diào)度框架,將多目標分布魯棒優(yōu)化(DRO)與實時強化學習(RL)輔助機制結(jié)合。能源管理系統(tǒng)(EMS)是運行“大腦”,分布式響應系統(tǒng)(DRO)生成基準調(diào)度策略,強化學習(RL)模塊實時調(diào)整控制信號
    的頭像 發(fā)表于 11-27 17:05 ?495次閱讀

    谷歌云發(fā)布最強自研TPU,性能比前代提升4倍

    精心設計,能夠輕松處理從大型模型訓練到實時聊天機器人運行以及AI智能體操作等各類復雜任務。 ? 谷歌在新聞稿中著重強調(diào),“Ironwood”是專為應對最嚴苛的工作負載而打造的。無論是大規(guī)模模型訓練、復雜的強化學習(RL),還是高容量、低延遲的AI推理和模型服務,
    的頭像 發(fā)表于 11-13 07:49 ?8482次閱讀
    <b class='flag-5'>谷歌</b>云發(fā)布最強自研TPU,性能比前代提升4倍

    今日看點:智元推出真機強化學習;美國軟件公司SAS退出中國市場

    智元推出真機強化學習,機器人訓練周期從“數(shù)周”減至“數(shù)十分鐘” ? 近日,智元機器人宣布其研發(fā)的真機強化學習技術,已在與龍旗科技合作的驗證產(chǎn)線中成功落地。據(jù)介紹,此次落地的真機強化學習
    發(fā)表于 11-05 09:44 ?1002次閱讀

    自動駕駛中常提的“強化學習”是個啥?

    [首發(fā)于智駕最前沿微信公眾號]在談及自動駕駛時,有些方案中會提到“強化學習(Reinforcement Learning,簡稱RL)”,強化學習是一類讓機器通過試錯來學會做決策的技術。簡單理解
    的頭像 發(fā)表于 10-23 09:00 ?534次閱讀
    自動駕駛中常提的“<b class='flag-5'>強化學習</b>”是個啥?

    NVIDIA Isaac Lab可用環(huán)境與強化學習腳本使用指南

    Lab 是一個適用于機器人學習的開源模塊化框架,其模塊化高保真仿真適用于各種訓練環(huán)境,Isaac Lab 同時支持模仿學習(模仿人類)和強化學習(在嘗試和錯誤中進行
    的頭像 發(fā)表于 07-14 15:29 ?2155次閱讀
    NVIDIA Isaac Lab可用環(huán)境與<b class='flag-5'>強化學習</b>腳本使用指南

    18個常用的強化學習算法整理:從基礎方法到高級模型的理論技術與代碼實現(xiàn)

    本來轉(zhuǎn)自:DeepHubIMBA本文系統(tǒng)講解從基本強化學習方法到高級技術(如PPO、A3C、PlaNet等)的實現(xiàn)原理與編碼過程,旨在通過理論結(jié)合代碼的方式,構(gòu)建對強化學習算法的全面理解。為確保內(nèi)容
    的頭像 發(fā)表于 04-23 13:22 ?1485次閱讀
    18個常用的<b class='flag-5'>強化學習</b>算法整理:從基礎方法到高級模型的理論技術與代碼實現(xiàn)

    Princetel 推出新的手動電纜卷筒在線配置器

    和定制模塊化電纜卷筒(手動和電動)。該公司近期宣布為其手動電纜卷筒產(chǎn)品線推出新的在線配置器 。這種用戶友好型工具使設計工程師能夠創(chuàng)建手動電纜卷筒的定制配置,大大簡化了設計流程,節(jié)省了寶貴的工程時間
    發(fā)表于 04-18 15:41

    用樹莓派搞深度學習?TensorFlow啟動!

    介紹本頁面將指導您在搭載64位Bullseye操作系統(tǒng)的RaspberryPi4上安裝TensorFlow。TensorFlow是一個專為深度學習開發(fā)的大型軟件庫,它消耗大量資源。您可以在
    的頭像 發(fā)表于 03-25 09:33 ?1083次閱讀
    用樹莓派搞深度<b class='flag-5'>學習</b>?<b class='flag-5'>TensorFlow</b>啟動!

    詳解RAD端到端強化學習后訓練范式

    受限于算力和數(shù)據(jù),大語言模型預訓練的 scalinglaw 已經(jīng)趨近于極限。DeepSeekR1/OpenAl01通過強化學習后訓練涌現(xiàn)了強大的推理能力,掀起新一輪技術革新。
    的頭像 發(fā)表于 02-25 14:06 ?1161次閱讀
    詳解RAD端到端<b class='flag-5'>強化學習</b>后訓練范式

    Commvault推出CIS強化鏡像

    混合云數(shù)據(jù)保護解決方案領先提供商Commvault(納斯達克代碼:CVLT)近日宣布可以使用CIS強化鏡像,從各大云應用市場輕松部署Commvault Cloud平臺。這些CIS強化鏡像預先配置了
    的頭像 發(fā)表于 02-21 16:36 ?815次閱讀