chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

AI核心領(lǐng)域——強(qiáng)化學(xué)習(xí)的缺陷

zhKF_jqr_AI ? 來源:未知 ? 作者:胡薇 ? 2018-07-13 08:56 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

前段時間,OpenAI的游戲機(jī)器人在Dota2的比賽中贏了人類的5人小組,取得了團(tuán)隊勝利,是強(qiáng)化學(xué)習(xí)攻克的又一游戲里程碑。但是本文作者Andrey Kurenkov卻表示,強(qiáng)化學(xué)習(xí)解決的任務(wù)也許沒有看起來那么復(fù)雜,深究起來是有缺陷的。以下是論智帶來的編譯。

在這篇文章中,我們來討論討論AI核心領(lǐng)域——強(qiáng)化學(xué)習(xí)的缺陷。我們先從一個有趣的比喻開始,之后會關(guān)注一個重要因素——先驗知識,接著我們會對深度學(xué)習(xí)進(jìn)行介紹,最后進(jìn)行總結(jié)。

首先我們將對強(qiáng)化學(xué)習(xí)是什么進(jìn)行介紹,以及它為什么有基礎(chǔ)性缺陷(或者至少某個版本,我們稱為“純粹的強(qiáng)化學(xué)習(xí)”)。如果你是AI專業(yè)人才,可以跳過這部分簡介。

棋盤游戲

假設(shè)你的一位朋友給你介紹了一款你從未聽說過的游戲,并且你之前從來沒玩過任何游戲。你朋友告訴你怎樣算有效的移動,但是卻不告訴你這樣做的意義是什么,也不告訴你游戲怎么計分。在這種情況下你開始參與游戲,沒有任何問題,也不會有任何解釋。結(jié)果就是不斷地輸……慢慢地你發(fā)現(xiàn)了輸局的某些規(guī)律,雖然之后還是會輸,但起碼能堅持玩一段時間了。經(jīng)過幾周后,甚至幾千盤對抗后,你甚至能贏下一局。

聽起來很傻,為什么不在一開始就問游戲的目標(biāo)以及應(yīng)該怎樣獲勝呢?總之,上面的場景是當(dāng)下大多數(shù)強(qiáng)化學(xué)習(xí)方法的做法。

強(qiáng)化學(xué)習(xí)(RL)是AI的一個基礎(chǔ)子領(lǐng)域,在強(qiáng)化學(xué)習(xí)的框架中,智能體(agent)在與環(huán)境的交互中學(xué)習(xí)應(yīng)該在特定狀態(tài)下做出哪些動作從而使長期獎勵最大化。這也就是說在上述棋盤游戲中,玩家在棋盤中學(xué)習(xí)怎么走能讓最后的分?jǐn)?shù)最高。

在強(qiáng)化學(xué)習(xí)的典型模型中,智能體最初只知道它可以做哪些動作,除此之外對環(huán)境一無所知,人們希望它能在與環(huán)境的交互中,以及在收到獎勵后學(xué)會該做什么動作。缺少先驗知識的意思是,智能體從零開始學(xué)習(xí),我們將這種從零開始的方法稱為“純粹的強(qiáng)化學(xué)習(xí)”。純強(qiáng)化學(xué)習(xí)可以用到西洋棋或者圍棋中,也可以應(yīng)用到機(jī)器人等其他領(lǐng)域。

最近很多強(qiáng)化學(xué)習(xí)受到了深度學(xué)習(xí)的啟發(fā),但基礎(chǔ)模型沒怎么改變。畢竟這種從零開始學(xué)習(xí)的方法是強(qiáng)化學(xué)習(xí)的開端,并且在大多數(shù)基礎(chǔ)等式中都有表現(xiàn)。

所以這里有個基本問題:如果純強(qiáng)化學(xué)習(xí)的過程特別不合常理,那么在此基礎(chǔ)上設(shè)計的AI模型能有多可靠?如果我們認(rèn)為讓人類通過純強(qiáng)化學(xué)習(xí)全新的棋盤游戲很荒唐,那么這個框架對智能體來說也是有缺陷的呢?僅僅通過獎勵信號而不借助先驗知識和高水平指導(dǎo),就開始學(xué)習(xí)一項新技能真的有意義嗎?

先驗知識和高水平指導(dǎo)在經(jīng)典強(qiáng)化學(xué)習(xí)中是不存在的,隱式或顯式地改變這些方法可能對所有用于訓(xùn)練強(qiáng)化學(xué)習(xí)的算法有很大影響,所以這是個非常大的問題,要回答它需要兩部分:

第一部分即本文,我們將從展示純強(qiáng)化學(xué)習(xí)的主要成果開始,這些成果可能不會像你想象得那樣重要。接著,我們會展示一些更復(fù)雜的成果,它們在純強(qiáng)化學(xué)習(xí)下可能無法完成,因為智能體會受到多種限制。

在第二部分中,我們將瀏覽各種能解決上述限制的方法(主要是元學(xué)習(xí)和zero-shot學(xué)習(xí))。最后,我們會總結(jié)基于這種方法的令人激動的成果并進(jìn)行總結(jié)。

純強(qiáng)化學(xué)習(xí)真的有道理嗎?

看到這個問題,大多數(shù)人可能會說

當(dāng)然了,AI智能體不是人類,不會像我們一樣學(xué)習(xí),純強(qiáng)化學(xué)習(xí)已經(jīng)能解決很多復(fù)雜任務(wù)了。

但是我不同意。根據(jù)定義,AI研究指的是讓機(jī)器做只有動物和人類目前能做的事,因此,將機(jī)器和人類智慧相比是不恰當(dāng)?shù)?。至于純?qiáng)化學(xué)習(xí)已經(jīng)解決的問題,人們常常忽視了重要的一點:這些問題通??雌饋聿⒉荒敲磸?fù)雜。

這聽起來可能很驚訝,因為很多大型研究機(jī)構(gòu)都努力地用強(qiáng)化學(xué)習(xí)做出各種成果。這些成果確實很棒,但是我仍然認(rèn)為這些任務(wù)并不像他們看起來那么復(fù)雜。在深入解釋之前,我列舉了一些成就,并且指出它們?yōu)槭裁粗档萌藗冄芯浚?/p>

DQN:這項由DeepMind推出的項目在五年前引起了人們對強(qiáng)化學(xué)習(xí)極大的興趣,該項目展示了將深度學(xué)習(xí)和純強(qiáng)化學(xué)習(xí)結(jié)合后,可以解決比此前更復(fù)雜的問題。雖然DQN只包含少量的創(chuàng)新,但對于讓深度強(qiáng)化學(xué)習(xí)變得更實用是很重要的。

AlphaGo Zero和AlphaZero:這種純強(qiáng)化學(xué)習(xí)模型已經(jīng)超越了人類最佳水平。最初的AlphaGo是監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)結(jié)合的產(chǎn)物,而AlphaGo Zero是完全通過強(qiáng)化學(xué)習(xí)和自我對抗實現(xiàn)的。因此,它是最接近純強(qiáng)化學(xué)習(xí)方法的產(chǎn)物,雖然它仍然有提供游戲規(guī)則的模型。

在與人類對戰(zhàn)獲勝后,AlphaGo Zero被很多人看作是一種游戲顛覆者。接著一種更通用的版本——AlphaZero出現(xiàn)了,它不僅能玩圍棋,還能下國際象棋和日本將棋,這是第一次有一種算法可以完成兩種棋類比賽。所以AlphaGo Zero和AlphaZero是非常了不起的成就。

OpenAI可以打Dota的機(jī)器人:深度強(qiáng)化學(xué)習(xí)能夠在Dota2中多人模式中擊敗人類了。去年,OpenAI的機(jī)器人在1v1對抗中擊敗了人類就已經(jīng)令人印象深刻了,這次是更加困難的5v5。它同樣不需要先驗知識,并且也是通過自我對抗訓(xùn)練的。

這種在復(fù)雜游戲中的團(tuán)隊模式中獲勝的成績比此前的雅達(dá)利游戲和圍棋對抗更驚艷。另外,這一模型還沒有進(jìn)行主要的算法更新,完全依靠大量計算和已有的純強(qiáng)化學(xué)習(xí)算法和深度學(xué)習(xí)進(jìn)行的。

所以,純強(qiáng)化學(xué)習(xí)已經(jīng)做出了很多成績。但是就像我之前說的,他們有些地方可能被高估了。

首先從DQN開始。

它可以超越人類水平玩很多雅達(dá)利游戲,但也并不是全部。一般來說,它適合玩靈活度較高的、不需要推理和記憶的游戲。即使五年之后,也不會有純強(qiáng)化學(xué)習(xí)攻下推理和記憶游戲。相反,能完成這些游戲的都經(jīng)過了指導(dǎo)和示范。

即使在DQN表現(xiàn)良好的游戲中,它也需要非常大量的時間和經(jīng)驗去學(xué)習(xí)。

同樣的限制在AlphaGo Zero和AlphaZero上都有體現(xiàn)。圍棋的很多性質(zhì)都能讓學(xué)習(xí)任務(wù)變得簡單,例如它是必然的、完全可觀測的、單一智能體等等。但唯獨一件事讓圍棋變得麻煩:它的分支因數(shù)太多了。

所以,圍棋可能是變數(shù)最多的簡易游戲。有人說強(qiáng)人工智能(AGI)因為AlphaGo的成功即將到來,這種說法不攻自破。多數(shù)研究者認(rèn)為,真實的世界比一個簡單游戲復(fù)雜得多,盡管AlphaGo的成功令人贊賞,但是它和它所有的變體從根本上和“深藍(lán)”是相似的:它只是一套昂貴的系統(tǒng)罷了。

說到Dota,它的確比圍棋更復(fù)雜,并且是非靜止的、多人的游戲。但是它仍然是可以用靈活的API操控的游戲,并且成本巨大。

所以,盡管這些成就很偉大,我們?nèi)孕枰獙λ鼈兊谋举|(zhì)進(jìn)行了解,同時要思考,純強(qiáng)化學(xué)習(xí)難道不能成為獲取這些成就的最佳方法嗎?

純強(qiáng)化學(xué)習(xí)的基礎(chǔ)缺陷——從零開始

有沒有更好的方法讓智能體下圍棋、玩dota呢?AlphaGo Zero的名字來源正是暗示它是從零開始學(xué)習(xí)的模型,但是讓我們回到文章開頭說的那個小故事,如果讓你從零開始學(xué)習(xí)下圍棋,不給任何解釋,聽起來很荒謬對嗎?所以為什么要把這定為AI的目標(biāo)呢?

事實上,如果你正在學(xué)的那個棋盤游戲是圍棋,你會怎么開始?可能你會先讀一遍規(guī)則,學(xué)一些高級策略,回憶一下之前的對戰(zhàn),總結(jié)經(jīng)驗……確實,讓AlphaGo Zero和Dota機(jī)器人從零開始學(xué)習(xí)是有點不公平的,它們只依靠更多數(shù)量的游戲經(jīng)驗和運用比人類大得多的計算力。

AlphaGo Zero技能增長曲線,注意,它花了一整天的時間和好幾千局游戲才達(dá)到人類最低水平

實際上,純強(qiáng)化學(xué)習(xí)技術(shù)可以在更“窄”的任務(wù)中應(yīng)用,例如連續(xù)控制或是像dota和星際爭霸這樣的復(fù)雜游戲。然而隨著深度學(xué)習(xí)的成功,AI研究者正嘗試解決更復(fù)雜的問題例如汽車駕駛和對話。

所以,純強(qiáng)化學(xué)習(xí),或者從零開始的學(xué)習(xí)方法,是解決復(fù)雜任務(wù)的正確方法嗎?

是否應(yīng)該堅持純強(qiáng)化學(xué)習(xí)?

答案可能如下:

當(dāng)然,純強(qiáng)化學(xué)習(xí)是除了圍棋和dota之外的其他問題的正確解決方法。雖然在棋盤類游戲中有點講不通,但是在通用事物的學(xué)習(xí)上還是可以說得通的。另外,就算不受人類的啟發(fā),智能體在沒有先驗知識的條件下也能表現(xiàn)得更好。

讓我們先說最后一點,不考慮人類的啟發(fā),從零開始的典型做法就是另一種方法會限制模型的精確度,將人類的想法編碼到模型上是很困難的,甚至?xí)档托阅?。這種觀點在深度學(xué)習(xí)的成功之后成為了主流,即用百萬級參數(shù)學(xué)習(xí)端到端模型,并在大量數(shù)據(jù)上訓(xùn)練,同時有一些內(nèi)在先驗知識。

但問題時,加入先驗知識和知道并不會將人類知覺中含有的有限結(jié)構(gòu)加入到智能體上。換句話說,我們可以教會智能體或模型關(guān)于怎樣執(zhí)行任務(wù),而不會添加對其能力有限制的因素。

對大多數(shù)AI問題來說,不從零開始就不會限制智能體學(xué)習(xí)的方式。目前還沒有確切的原因解釋,為什么AlphaGo Zero如此執(zhí)著于“從零開始”,事實上它可以借助人類知識表現(xiàn)得更好。

那么純強(qiáng)化學(xué)習(xí)是最佳解決辦法嗎?這個答案曾經(jīng)很簡單,在無梯度優(yōu)化領(lǐng)域,純強(qiáng)化學(xué)習(xí)是你可以選擇的最可靠的方法。但是最近的一些論文質(zhì)疑了這一說法,并認(rèn)為更簡單的基于演化策略的方法能達(dá)到相似效果。具體論文:

Simple random search provides a competitive approach to reinforcement learning

Deep Neuroevolution: Genetic Algorithms Are a Competitive Alternative for Training Deep Neural Networks for Reinforcement Learning

Evolution Strategies as a Scalable Alternative to Reinforcement Learning

Towards Generalization and Simplicity in Continuous Control

Ben Recht,是理論和實際優(yōu)化算法的頂尖研究者,也是Simple random search provides a competitive approach to reinforcement learning一文的作者之一,他準(zhǔn)確地總結(jié)了以上觀點:

我們看到,隨機(jī)搜索在簡單線性問題上表現(xiàn)良好,并且比一些強(qiáng)化方法,例如策略梯度表現(xiàn)得更好。但是當(dāng)我們提出更難的問題時,隨機(jī)搜索崩潰了嗎?不好意思,沒有。

所以,將純強(qiáng)化學(xué)習(xí)用來從零開始學(xué)習(xí)不一定是正確的方法。但是回到人類從零開始學(xué)習(xí)的問題,人們會在具備一些技巧,卻沒有指示信息的情況下開始學(xué)習(xí)嗎?不會的。

也許在一些通用基礎(chǔ)問題上,純強(qiáng)化學(xué)習(xí)可能有用,因為這些問題很廣泛。但是在AI中,很大部分的問題是否適合強(qiáng)化學(xué)習(xí)還并不清楚。事實上,之所以選擇從零開始,是因為目前的AI和強(qiáng)化學(xué)習(xí)都有著很多缺陷:

目前的AI非常需要數(shù)據(jù)。很多項目都需要大量的數(shù)據(jù)進(jìn)行計算,而從零學(xué)習(xí)只需要高效的采樣方法即可。

目前的AI是不透明的。也就是“黑箱”問題,很多時候我們只能從較高層次了解AI算法的學(xué)習(xí)和工作流程。

目前的AI應(yīng)用范圍有限。很多模型一次只能執(zhí)行一種任務(wù),而且很容易崩潰。

現(xiàn)有AI很脆弱。只有在大量數(shù)據(jù)訓(xùn)練的基礎(chǔ)上,模型才可能對從未見過的輸入生成較好結(jié)果。即使如此也經(jīng)常崩潰。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • AI
    AI
    +關(guān)注

    關(guān)注

    88

    文章

    35152

    瀏覽量

    279841
  • 強(qiáng)化學(xué)習(xí)

    關(guān)注

    4

    文章

    269

    瀏覽量

    11601

原文標(biāo)題:斯坦福學(xué)者冷思考:強(qiáng)化學(xué)習(xí)存在基礎(chǔ)性缺陷

文章出處:【微信號:jqr_AI,微信公眾號:論智】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    什么是深度強(qiáng)化學(xué)習(xí)?深度強(qiáng)化學(xué)習(xí)算法應(yīng)用分析

    什么是深度強(qiáng)化學(xué)習(xí)? 眾所周知,人類擅長解決各種挑戰(zhàn)性的問題,從低級的運動控制(如:步行、跑步、打網(wǎng)球)到高級的認(rèn)知任務(wù)。
    發(fā)表于 07-01 10:29 ?1861次閱讀
    什么是深度<b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>?深度<b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>算法應(yīng)用分析

    反向強(qiáng)化學(xué)習(xí)的思路

    強(qiáng)化學(xué)習(xí)的另一種策略(二)
    發(fā)表于 04-03 12:10

    深度強(qiáng)化學(xué)習(xí)實戰(zhàn)

    一:深度學(xué)習(xí)DeepLearning實戰(zhàn)時間地點:1 月 15日— 1 月18 日二:深度強(qiáng)化學(xué)習(xí)核心技術(shù)實戰(zhàn)時間地點: 1 月 27 日— 1 月30 日(第一天報到 授課三天;提前環(huán)境部署 電腦
    發(fā)表于 01-10 13:42

    將深度學(xué)習(xí)強(qiáng)化學(xué)習(xí)相結(jié)合的深度強(qiáng)化學(xué)習(xí)DRL

    深度強(qiáng)化學(xué)習(xí)DRL自提出以來, 已在理論和應(yīng)用方面均取得了顯著的成果。尤其是谷歌DeepMind團(tuán)隊基于深度強(qiáng)化學(xué)習(xí)DRL研發(fā)的AlphaGo,將深度強(qiáng)化學(xué)習(xí)DRL成推上新的熱點和高度,成為人工智能歷史上一個新的里程碑。因此,深
    發(fā)表于 06-29 18:36 ?2.8w次閱讀

    如何深度強(qiáng)化學(xué)習(xí) 人工智能和深度學(xué)習(xí)的進(jìn)階

    傳統(tǒng)上,強(qiáng)化學(xué)習(xí)在人工智能領(lǐng)域占據(jù)著一個合適的地位。但強(qiáng)化學(xué)習(xí)在過去幾年已開始在很多人工智能計劃中發(fā)揮更大的作用。
    的頭像 發(fā)表于 03-03 14:16 ?4435次閱讀

    人工智能機(jī)器學(xué)習(xí)強(qiáng)化學(xué)習(xí)

    強(qiáng)化學(xué)習(xí)是智能系統(tǒng)從環(huán)境到行為映射的學(xué)習(xí),以使獎勵信號(強(qiáng)化信號)函數(shù)值最大,強(qiáng)化學(xué)習(xí)不同于連接主義學(xué)習(xí)中的監(jiān)督
    發(fā)表于 05-30 06:53 ?1553次閱讀

    什么是強(qiáng)化學(xué)習(xí)?純強(qiáng)化學(xué)習(xí)有意義嗎?強(qiáng)化學(xué)習(xí)有什么的致命缺陷?

    強(qiáng)化學(xué)習(xí)是人工智能基本的子領(lǐng)域之一,在強(qiáng)化學(xué)習(xí)的框架中,智能體通過與環(huán)境互動,來學(xué)習(xí)采取何種動作能使其在給定環(huán)境中的長期獎勵最大化,就像在上述的棋盤游戲寓言中,你通過與棋盤的互動來
    的頭像 發(fā)表于 07-15 10:56 ?1.8w次閱讀
    什么是<b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>?純<b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>有意義嗎?<b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>有什么的致命<b class='flag-5'>缺陷</b>?

    谷歌推出新的基于Tensorflow的強(qiáng)化學(xué)習(xí)框架,稱為Dopamine

    強(qiáng)化學(xué)習(xí)(RL)研究在過去幾年取得了許多重大進(jìn)展。強(qiáng)化學(xué)習(xí)的進(jìn)步使得 AI 智能體能夠在一些游戲上超過人類,值得關(guān)注的例子包括 DeepMind 攻破 Atari 游戲的 DQN,在圍棋中獲得矚目的 AlphaGo 和 Alph
    的頭像 發(fā)表于 08-31 09:20 ?3917次閱讀

    基于強(qiáng)化學(xué)習(xí)的MADDPG算法原理及實現(xiàn)

    之前接觸的強(qiáng)化學(xué)習(xí)算法都是單個智能體的強(qiáng)化學(xué)習(xí)算法,但是也有很多重要的應(yīng)用場景牽涉到多個智能體之間的交互。
    的頭像 發(fā)表于 11-02 16:18 ?2.2w次閱讀

    基于PPO強(qiáng)化學(xué)習(xí)算法的AI應(yīng)用案例

    Viet Nguyen就是其中一個。這位來自德國的程序員表示自己只玩到了第9個關(guān)卡。因此,他決定利用強(qiáng)化學(xué)習(xí)AI算法來幫他完成未通關(guān)的遺憾。
    發(fā)表于 07-29 09:30 ?3180次閱讀

    DeepMind發(fā)布強(qiáng)化學(xué)習(xí)庫RLax

    RLax(發(fā)音為“ relax”)是建立在JAX之上的庫,它公開了用于實施強(qiáng)化學(xué)習(xí)智能體的有用構(gòu)建塊。。報道:深度強(qiáng)化學(xué)習(xí)實驗室作者:DeepRL ...
    的頭像 發(fā)表于 12-10 18:43 ?987次閱讀

    機(jī)器學(xué)習(xí)中的無模型強(qiáng)化學(xué)習(xí)算法及研究綜述

    強(qiáng)化學(xué)習(xí)( Reinforcement learning,RL)作為機(jī)器學(xué)習(xí)領(lǐng)域中與監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)并列的第三種
    發(fā)表于 04-08 11:41 ?11次下載
    機(jī)器<b class='flag-5'>學(xué)習(xí)</b>中的無模型<b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>算法及研究綜述

    模型化深度強(qiáng)化學(xué)習(xí)應(yīng)用研究綜述

    強(qiáng)化學(xué)習(xí)。無模型強(qiáng)仳學(xué)習(xí)方法的訓(xùn)練過程需要大量樣本,當(dāng)采樣預(yù)算不足,無法收集大量樣本時,很難達(dá)到預(yù)期效果。然而,模型化強(qiáng)化學(xué)習(xí)可以充分利用環(huán)境模型,降低真實樣本需求量,在一定程度上提高樣本效率。將以模型化
    發(fā)表于 04-12 11:01 ?9次下載
    模型化深度<b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>應(yīng)用研究綜述

    徹底改變算法交易:強(qiáng)化學(xué)習(xí)的力量

    強(qiáng)化學(xué)習(xí)(RL)是人工智能的一個子領(lǐng)域,專注于決策過程。與其他形式的機(jī)器學(xué)習(xí)相比,強(qiáng)化學(xué)習(xí)模型通過與環(huán)境交互并以獎勵或懲罰的形式接收反饋來學(xué)習(xí)
    發(fā)表于 06-09 09:23 ?726次閱讀

    如何使用 PyTorch 進(jìn)行強(qiáng)化學(xué)習(xí)

    強(qiáng)化學(xué)習(xí)(Reinforcement Learning, RL)是一種機(jī)器學(xué)習(xí)方法,它通過與環(huán)境的交互來學(xué)習(xí)如何做出決策,以最大化累積獎勵。PyTorch 是一個流行的開源機(jī)器學(xué)習(xí)庫,
    的頭像 發(fā)表于 11-05 17:34 ?1042次閱讀