chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

用PyTorch實(shí)現(xiàn)了基本的RL算法

DPVg_AI_era ? 來源:lq ? 2019-06-07 15:36 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

今天和大家分享Reddit上的一個(gè)熱帖,樓主用PyTorch實(shí)現(xiàn)了基本的RL算法,而且每個(gè)算法都在一個(gè)文件夾中完成,即使沒有GPU,每個(gè)算法也可以在30秒內(nèi)完成訓(xùn)練。

近日,有開發(fā)人員用PyTorch實(shí)現(xiàn)了基本的RL算法,比如REINFORCE, vanilla actor-critic, DDPG, A3C, DQN 和PPO。這個(gè)帖子在Reddit論壇上獲得了195個(gè)贊并引發(fā)了熱議,一起來看一下吧。

特點(diǎn)如下:

每個(gè)算法都在一個(gè)文件中完成。

每個(gè)算法的長度可達(dá)100~150行代碼。

即使沒有GPU,每個(gè)算法也可以在30秒內(nèi)完成訓(xùn)練。

Envs固定在“CartPole-v1”上,你只需關(guān)注執(zhí)行。

minimalRL-pytorch算法:

1. REINFORCE(66行)

2. TD Actor-Critic(97行)

3. DQN(113行,包括重放內(nèi)存和目標(biāo)網(wǎng)絡(luò))

4. PPO(116行,包括GAE)

5. DDPG(149行,包括OU噪聲和軟目標(biāo)更新)

6. A3C(116行)

7. 有什么建議嗎?

依賴配置:

1. PyTorch

2. OpenAI GYM

使用:

# Works only with Python 3.#e.g.python3REINFORCE.pypython3actor_critic.pypython3dqn.pypython3ppo.pypython3ddpg.pypython3 a3c.py

評論中,不少朋友表示了對樓主的認(rèn)可和感謝:

Dump7留言:“可以!這是我見過的最美的東西之一。我不是一個(gè)能用框架編寫NN的人。但我正在努力。這將在很大程度上幫助到我。謝謝你做了這個(gè)。但是你能為基本的CNN和RNN制作這樣的單一文件代碼嗎?”

CodeReclaimers表示:“謝謝你分享這個(gè)——我知道把代碼簡化到最少是很費(fèi)事的。特別好的是,你的代碼將依賴配置控制在最低限度。通常都是,我去尋找可以學(xué)習(xí)的例子,要花至少30多分鐘來收集所有依賴配置,結(jié)果發(fā)現(xiàn)我的平臺(tái)上少了一些關(guān)鍵的東西?!?/p>

Reddit上的討論:

https://www.reddit.com/r/MachineLearning/comments/bt8sap/p_implementations_of_basic_rl_algorithms_with/

Github資源:

https://github.com/seungeunrho/minimalRL

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 算法
    +關(guān)注

    關(guān)注

    23

    文章

    4759

    瀏覽量

    97102
  • 代碼
    +關(guān)注

    關(guān)注

    30

    文章

    4940

    瀏覽量

    73067
  • pytorch
    +關(guān)注

    關(guān)注

    2

    文章

    812

    瀏覽量

    14660

原文標(biāo)題:6行代碼搞定基本的RL算法,速度圍觀Reddit高贊帖

文章出處:【微信號(hào):AI_era,微信公眾號(hào):新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    SM4算法實(shí)現(xiàn)分享(一)算法原理

    ,Xi、Yi、rki為字,i=0,1,2,…,31。則本算法的加密實(shí)現(xiàn)為: 本算法的解密實(shí)現(xiàn)與加密實(shí)現(xiàn)結(jié)構(gòu)是相同的,不同的只是提供的輪
    發(fā)表于 10-30 08:10

    復(fù)雜的軟件算法硬件IP核的實(shí)現(xiàn)

    具體方法與步驟 通過 C 語言實(shí)現(xiàn)軟件算法,并驗(yàn)證算法的有效性以后,就可以進(jìn)行算法的 HDL 轉(zhuǎn)化工作了。通過使用 Altium Des
    發(fā)表于 10-30 07:02

    查找表與多項(xiàng)式近似算法實(shí)現(xiàn)初等函數(shù)

    逼近的定義區(qū)間長度及選取系數(shù)的方式?jīng)Q定。 每個(gè)子間隔的系數(shù)存儲(chǔ)在查找表中。Xm來選擇系數(shù),所以方程變成: 使用查找表與多項(xiàng)式近似結(jié)合算法實(shí)現(xiàn)對數(shù)函數(shù),如下圖所示為指數(shù)函數(shù)的流水線結(jié)構(gòu): 下圖為仿真結(jié)果:
    發(fā)表于 10-28 08:10

    基于FPGA實(shí)現(xiàn)FOC算法之PWM模塊設(shè)計(jì)

    哈嘍,大家好,從今天開始正式帶領(lǐng)大家從零到一,在FPGA平臺(tái)上實(shí)現(xiàn)FOC算法,整個(gè)算法的框架如下圖所示,如果大家對算法的原理不是特別清楚的話,可以先去百度上學(xué)習(xí)一下,本教程著重介紹
    的頭像 發(fā)表于 07-17 15:21 ?3099次閱讀
    基于FPGA<b class='flag-5'>實(shí)現(xiàn)</b>FOC<b class='flag-5'>算法</b>之PWM模塊設(shè)計(jì)

    基于Matlab與FPGA的雙邊濾波算法實(shí)現(xiàn)

    前面發(fā)過中值、均值、高斯濾波的文章,這些只考慮位置,并沒有考慮相似度。那么雙邊濾波來了,既考慮位置,有考慮相似度,對邊緣的保持比前幾個(gè)好很多,當(dāng)然實(shí)現(xiàn)上也是復(fù)雜很多。本文將從原理
    的頭像 發(fā)表于 07-10 11:28 ?4039次閱讀
    基于Matlab與FPGA的雙邊濾波<b class='flag-5'>算法</b><b class='flag-5'>實(shí)現(xiàn)</b>

    基于FPGA的壓縮算法加速實(shí)現(xiàn)

    本設(shè)計(jì)中,計(jì)劃實(shí)現(xiàn)對文件的壓縮及解壓,同時(shí)優(yōu)化壓縮中所涉及的信號(hào)處理和計(jì)算密集型功能,實(shí)現(xiàn)對其的加速處理。本設(shè)計(jì)的最終目標(biāo)是證明在充分并行化的硬件體系結(jié)構(gòu) FPGA 上實(shí)現(xiàn)算法時(shí),可
    的頭像 發(fā)表于 07-10 11:09 ?2056次閱讀
    基于FPGA的壓縮<b class='flag-5'>算法</b>加速<b class='flag-5'>實(shí)現(xiàn)</b>

    FT232RL USB 轉(zhuǎn)串口工業(yè)級替代方案DT232RL公司產(chǎn)品競爭力直線提升

    DT232RL的成本與技術(shù)雙突破 摘要 面對進(jìn)口FT232RL芯片的高成本與供貨風(fēng)險(xiǎn),本文驗(yàn)證國產(chǎn)DT232RL方案的工業(yè)級替代可行性。實(shí)測表明,該方案較國內(nèi)同類產(chǎn)品單一個(gè)串口芯片成
    的頭像 發(fā)表于 07-03 17:00 ?536次閱讀

    18個(gè)常用的強(qiáng)化學(xué)習(xí)算法整理:從基礎(chǔ)方法到高級模型的理論技術(shù)與代碼實(shí)現(xiàn)

    易于理解和實(shí)踐,全部代碼均在JupyterNotebook環(huán)境中實(shí)現(xiàn),僅依賴基礎(chǔ)庫進(jìn)行算法構(gòu)建。代碼庫組織結(jié)構(gòu)如下:├──1_simple_rl.ipynb├──
    的頭像 發(fā)表于 04-23 13:22 ?1267次閱讀
    18個(gè)常用的強(qiáng)化學(xué)習(xí)<b class='flag-5'>算法</b>整理:從基礎(chǔ)方法到高級模型的理論技術(shù)與代碼<b class='flag-5'>實(shí)現(xiàn)</b>

    限時(shí)免積分下載:增量式與位置式PID算法的C語言實(shí)現(xiàn)分享

    前面咱們有分享對PID算法離散化和增量式PID算法原理進(jìn)行來探索,之后又使用Matlab進(jìn)行了仿真實(shí)驗(yàn),對PID三個(gè)參數(shù)又有更深入的認(rèn)識(shí),接下來我們來使用C語言進(jìn)行PID算法
    發(fā)表于 03-05 18:32

    FOC 算法實(shí)現(xiàn)永磁同步電機(jī)調(diào)整指南

    本文檔介紹使用 FOC 算法實(shí)現(xiàn)永磁同步電機(jī) (Permanent Magnet SynchronousMotor,PMSM)調(diào)整所需的步驟和設(shè)置,該算法如 AN1078《PMSM
    發(fā)表于 03-03 01:53

    PID控制算法的C語言實(shí)現(xiàn):PID算法原理

    在工業(yè)應(yīng)用中 PID 及其衍生算法是應(yīng)用最廣泛的算法之一,是當(dāng)之無愧的萬能算法,如果能夠熟練掌握 PID 算法的設(shè)計(jì)與實(shí)現(xiàn)過程,對于一般的研
    發(fā)表于 02-26 15:24

    操作指南:pytorch云服務(wù)器怎么設(shè)置?

    設(shè)置PyTorch云服務(wù)器需選擇云平臺(tái),創(chuàng)建合適的GPU實(shí)例,安裝操作系統(tǒng)、Python及Anaconda,創(chuàng)建虛擬環(huán)境,根據(jù)CUDA版本安裝PyTorch,配置環(huán)境變量,最后驗(yàn)證安裝。過程中需考慮
    的頭像 發(fā)表于 02-08 10:33 ?592次閱讀

    利用Arm Kleidi技術(shù)實(shí)現(xiàn)PyTorch優(yōu)化

    PyTorch 是一個(gè)廣泛應(yīng)用的開源機(jī)器學(xué)習(xí) (ML) 庫。近年來,Arm 與合作伙伴通力協(xié)作,持續(xù)改進(jìn) PyTorch 的推理性能。本文將詳細(xì)介紹如何利用 Arm Kleidi 技術(shù)提升 Arm
    的頭像 發(fā)表于 12-23 09:19 ?1593次閱讀
    利用Arm Kleidi技術(shù)<b class='flag-5'>實(shí)現(xiàn)</b><b class='flag-5'>PyTorch</b>優(yōu)化

    vLLM項(xiàng)目加入PyTorch生態(tài)系統(tǒng),引領(lǐng)LLM推理新紀(jì)元

    近日,vLLM項(xiàng)目宣布正式成為PyTorch生態(tài)系統(tǒng)的一部分,標(biāo)志著該項(xiàng)目與PyTorch的合作進(jìn)入了一個(gè)全新的階段。本文將從以下幾個(gè)方面進(jìn)行介紹,特別提醒:安裝方案在第四個(gè)部分,可選擇性閱讀
    的頭像 發(fā)表于 12-18 17:06 ?1557次閱讀
    vLLM項(xiàng)目加入<b class='flag-5'>PyTorch</b>生態(tài)系統(tǒng),引領(lǐng)LLM推理新紀(jì)元

    PyTorch 2.5.1: Bugs修復(fù)版發(fā)布

    ,以提升用戶體驗(yàn)。 二,PyTorch 2.5.1 的主要修內(nèi)容 1,RPM 和 arm64 發(fā)行版支持: 2.5.1 版本修復(fù)基于 RPM 的發(fā)行版和 arm64 發(fā)行版中的一些問題,這些修復(fù)使得
    的頭像 發(fā)表于 12-03 16:11 ?1939次閱讀
    <b class='flag-5'>PyTorch</b> 2.5.1: Bugs修復(fù)版發(fā)布