chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

用PyTorch實(shí)現(xiàn)了基本的RL算法

DPVg_AI_era ? 來源:lq ? 2019-06-07 15:36 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

今天和大家分享Reddit上的一個(gè)熱帖,樓主用PyTorch實(shí)現(xiàn)了基本的RL算法,而且每個(gè)算法都在一個(gè)文件夾中完成,即使沒有GPU,每個(gè)算法也可以在30秒內(nèi)完成訓(xùn)練。

近日,有開發(fā)人員用PyTorch實(shí)現(xiàn)了基本的RL算法,比如REINFORCE, vanilla actor-critic, DDPG, A3C, DQN 和PPO。這個(gè)帖子在Reddit論壇上獲得了195個(gè)贊并引發(fā)了熱議,一起來看一下吧。

特點(diǎn)如下:

每個(gè)算法都在一個(gè)文件中完成。

每個(gè)算法的長度可達(dá)100~150行代碼。

即使沒有GPU,每個(gè)算法也可以在30秒內(nèi)完成訓(xùn)練。

Envs固定在“CartPole-v1”上,你只需關(guān)注執(zhí)行。

minimalRL-pytorch算法:

1. REINFORCE(66行)

2. TD Actor-Critic(97行)

3. DQN(113行,包括重放內(nèi)存和目標(biāo)網(wǎng)絡(luò))

4. PPO(116行,包括GAE)

5. DDPG(149行,包括OU噪聲和軟目標(biāo)更新)

6. A3C(116行)

7. 有什么建議嗎?

依賴配置:

1. PyTorch

2. OpenAI GYM

使用:

# Works only with Python 3.#e.g.python3REINFORCE.pypython3actor_critic.pypython3dqn.pypython3ppo.pypython3ddpg.pypython3 a3c.py

評(píng)論中,不少朋友表示了對(duì)樓主的認(rèn)可和感謝:

Dump7留言:“可以!這是我見過的最美的東西之一。我不是一個(gè)能用框架編寫NN的人。但我正在努力。這將在很大程度上幫助到我。謝謝你做了這個(gè)。但是你能為基本的CNN和RNN制作這樣的單一文件代碼嗎?”

CodeReclaimers表示:“謝謝你分享這個(gè)——我知道把代碼簡化到最少是很費(fèi)事的。特別好的是,你的代碼將依賴配置控制在最低限度。通常都是,我去尋找可以學(xué)習(xí)的例子,要花至少30多分鐘來收集所有依賴配置,結(jié)果發(fā)現(xiàn)我的平臺(tái)上少了一些關(guān)鍵的東西?!?/p>

Reddit上的討論:

https://www.reddit.com/r/MachineLearning/comments/bt8sap/p_implementations_of_basic_rl_algorithms_with/

Github資源:

https://github.com/seungeunrho/minimalRL

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 算法
    +關(guān)注

    關(guān)注

    23

    文章

    4807

    瀏覽量

    98569
  • 代碼
    +關(guān)注

    關(guān)注

    30

    文章

    4976

    瀏覽量

    74388
  • pytorch
    +關(guān)注

    關(guān)注

    2

    文章

    813

    瀏覽量

    14923

原文標(biāo)題:6行代碼搞定基本的RL算法,速度圍觀Reddit高贊帖

文章出處:【微信號(hào):AI_era,微信公眾號(hào):新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    RL78/F12微控制器:性能卓越的工業(yè)與汽車應(yīng)用之選

    78/F12微控制器,看看它有哪些獨(dú)特之處,能在工業(yè)和汽車應(yīng)用中發(fā)揮重要作用。 文件下載: rl78f12.pdf 一、概述 RL78/F12微控制器提供20至64引腳、8至64KB閃存內(nèi)存的多種選擇,實(shí)現(xiàn)
    的頭像 發(fā)表于 04-01 14:25 ?237次閱讀

    PyTorch 中RuntimeError分析

    原生實(shí)現(xiàn)。這是一個(gè)已知的 PyTorch 限制,常見于 Stable Diffusion、ComfyUI 等使用 interpolate(..., mode=\'nearest\') 的模型中
    發(fā)表于 03-06 06:02

    Pytorch 與 Visionfive2 兼容嗎?

    Pytorch 與 Visionfive2 兼容嗎? $ pip3 install torch torchvision torchaudio --index-url https
    發(fā)表于 02-06 08:28

    PID控制的算法

    語言實(shí)現(xiàn)二 PID算法的離散化上一節(jié)中,我論述PID算法的基本形式,并對(duì)其控制過程的實(shí)現(xiàn)
    發(fā)表于 01-23 08:18

    FS-LCore-M307RL 用戶手冊(cè)

    中移物聯(lián)網(wǎng)模塊ML307RL手冊(cè)
    發(fā)表于 01-09 10:50 ?4次下載

    SM4算法實(shí)現(xiàn)分享(一)算法原理

    ,Xi、Yi、rki為字,i=0,1,2,…,31。則本算法的加密實(shí)現(xiàn)為: 本算法的解密實(shí)現(xiàn)與加密實(shí)現(xiàn)結(jié)構(gòu)是相同的,不同的只是提供的輪
    發(fā)表于 10-30 08:10

    復(fù)雜的軟件算法硬件IP核的實(shí)現(xiàn)

    具體方法與步驟 通過 C 語言實(shí)現(xiàn)軟件算法,并驗(yàn)證算法的有效性以后,就可以進(jìn)行算法的 HDL 轉(zhuǎn)化工作了。通過使用 Altium Des
    發(fā)表于 10-30 07:02

    TCORDIC算法實(shí)現(xiàn)正余弦函數(shù)

    TCORDIC算法,由低延遲CORDIC算法和Taylor展開組成。Taylor展開計(jì)算作為CORDIC算法的補(bǔ)充,能夠結(jié)合CORDIC算法和Taylor展開方式來計(jì)算浮點(diǎn)正余弦函數(shù),
    發(fā)表于 10-29 06:30

    查找表與多項(xiàng)式近似算法實(shí)現(xiàn)初等函數(shù)

    逼近的定義區(qū)間長度及選取系數(shù)的方式?jīng)Q定。 每個(gè)子間隔的系數(shù)存儲(chǔ)在查找表中。Xm來選擇系數(shù),所以方程變成: 使用查找表與多項(xiàng)式近似結(jié)合算法實(shí)現(xiàn)對(duì)數(shù)函數(shù),如下圖所示為指數(shù)函數(shù)的流水線結(jié)構(gòu): 下圖為仿真結(jié)果:
    發(fā)表于 10-28 08:10

    數(shù)據(jù)濾波算法的具體實(shí)現(xiàn)步驟是怎樣的?

    ? 數(shù)據(jù)濾波算法在電能質(zhì)量在線監(jiān)測裝置中的具體實(shí)現(xiàn),需圍繞 “ 數(shù)據(jù)采集→預(yù)處理→算法執(zhí)行→參數(shù)適配→效果驗(yàn)證→結(jié)果輸出 ” 的全流程展開,核心是結(jié)合裝置硬件特性(采樣率、ADC 精度)和干擾類型
    的頭像 發(fā)表于 10-10 16:45 ?1013次閱讀

    CW32L012實(shí)現(xiàn)外部flash下載算法

    外部flash或者內(nèi)置的片上flash,都是編譯器通過調(diào)用寫好的FLM文件來實(shí)現(xiàn)下載,單片機(jī)內(nèi)部的安裝pack包就會(huì)有(官方實(shí)現(xiàn)),外部flash的情況比較復(fù)雜,例如用的哪種flash,的什么接口,都是不定的,沒有辦法寫好一個(gè)
    的頭像 發(fā)表于 10-09 17:38 ?1811次閱讀
    CW32L012<b class='flag-5'>實(shí)現(xiàn)</b>外部flash下載<b class='flag-5'>算法</b>

    基于FPGA實(shí)現(xiàn)FOC算法之PWM模塊設(shè)計(jì)

    哈嘍,大家好,從今天開始正式帶領(lǐng)大家從零到一,在FPGA平臺(tái)上實(shí)現(xiàn)FOC算法,整個(gè)算法的框架如下圖所示,如果大家對(duì)算法的原理不是特別清楚的話,可以先去百度上學(xué)習(xí)一下,本教程著重介紹
    的頭像 發(fā)表于 07-17 15:21 ?3717次閱讀
    基于FPGA<b class='flag-5'>實(shí)現(xiàn)</b>FOC<b class='flag-5'>算法</b>之PWM模塊設(shè)計(jì)

    基于Matlab與FPGA的雙邊濾波算法實(shí)現(xiàn)

    前面發(fā)過中值、均值、高斯濾波的文章,這些只考慮位置,并沒有考慮相似度。那么雙邊濾波來了,既考慮位置,有考慮相似度,對(duì)邊緣的保持比前幾個(gè)好很多,當(dāng)然實(shí)現(xiàn)上也是復(fù)雜很多。本文將從原理
    的頭像 發(fā)表于 07-10 11:28 ?4829次閱讀
    基于Matlab與FPGA的雙邊濾波<b class='flag-5'>算法</b><b class='flag-5'>實(shí)現(xiàn)</b>

    基于FPGA的壓縮算法加速實(shí)現(xiàn)

    本設(shè)計(jì)中,計(jì)劃實(shí)現(xiàn)對(duì)文件的壓縮及解壓,同時(shí)優(yōu)化壓縮中所涉及的信號(hào)處理和計(jì)算密集型功能,實(shí)現(xiàn)對(duì)其的加速處理。本設(shè)計(jì)的最終目標(biāo)是證明在充分并行化的硬件體系結(jié)構(gòu) FPGA 上實(shí)現(xiàn)算法時(shí),可
    的頭像 發(fā)表于 07-10 11:09 ?2595次閱讀
    基于FPGA的壓縮<b class='flag-5'>算法</b>加速<b class='flag-5'>實(shí)現(xiàn)</b>

    FT232RL USB 轉(zhuǎn)串口工業(yè)級(jí)替代方案DT232RL公司產(chǎn)品競爭力直線提升

    DT232RL的成本與技術(shù)雙突破 摘要 面對(duì)進(jìn)口FT232RL芯片的高成本與供貨風(fēng)險(xiǎn),本文驗(yàn)證國產(chǎn)DT232RL方案的工業(yè)級(jí)替代可行性。實(shí)測表明,該方案較國內(nèi)同類產(chǎn)品單一個(gè)串口芯片成
    的頭像 發(fā)表于 07-03 17:00 ?919次閱讀