chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

如何切實(shí)地設(shè)計(jì)實(shí)現(xiàn)現(xiàn)實(shí)世界中的強(qiáng)化學(xué)習(xí)

倩倩 ? 來源:讀芯術(shù) ? 2020-02-06 14:48 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

許多文章解釋了強(qiáng)化學(xué)習(xí)(RL)的概念,但鮮有文章解釋如何切實(shí)地設(shè)計(jì)實(shí)現(xiàn)現(xiàn)實(shí)世界中的強(qiáng)化學(xué)習(xí)。

小芯這次想分享人工智能范式轉(zhuǎn)變課程,討論設(shè)計(jì)權(quán)衡問題,并深入研究技術(shù)細(xì)節(jié)。

那么,我們開始吧!

首先,喝酒?

想象一下你身處聚會(huì),有點(diǎn)微醺或酩酊大醉,自愿參加一個(gè)飲酒游戲,想要打動(dòng)一個(gè)(或多個(gè))頗具魅力的泛泛之交。

有人蒙住你的眼睛,給你一杯或一瓶啤酒,喊道:“倒酒!”

你會(huì)怎么做?

可能會(huì)有以下反應(yīng):該死,我應(yīng)該怎么做?怎樣能贏!要是輸了怎么辦?。?/p>

游戲規(guī)則如下:在10秒內(nèi)把啤酒灌滿,盡可能接近玻璃杯上的標(biāo)記??梢园哑【频惯M(jìn)倒出。

RL(強(qiáng)化學(xué)習(xí))解決方案面臨著類似的任務(wù),高大上且有意義,歡迎了解。

現(xiàn)實(shí)世界中的啤酒問題

環(huán)保共享單車業(yè)務(wù)存在一個(gè)大問題。一天中,每個(gè)單車停放處(杯)的共享單車(啤酒)數(shù)量過多或不足。

紐約市單車停放處的單車過剩和不足

對(duì)于騎自行車的人來說,這十分不便,并且要花費(fèi)數(shù)百萬美元來管理運(yùn)營,也不劃算。不久前,筆者在紐約大學(xué)的團(tuán)隊(duì)任務(wù)是提供人工智能解決方案,將人工干預(yù)降到最小,幫助管理自行車庫存。

目標(biāo):每天將各個(gè)單車停放處的數(shù)量保持在1至50之間(想想杯子上的標(biāo)記)。這在共享經(jīng)濟(jì)中被稱為“再平衡問題”。

限制條件:由于運(yùn)營限制,團(tuán)隊(duì)每天每小時(shí)只能移動(dòng)1、3或10輛單車(可以倒入或倒出的啤酒量)。當(dāng)然,他們可以選擇什么都不做。團(tuán)隊(duì)移動(dòng)的單車越多,價(jià)格越昂貴。

惰性RL(強(qiáng)化學(xué)習(xí))解決方案

來源:Pexels

團(tuán)隊(duì)決定使用RL (強(qiáng)化學(xué)習(xí)),它克服了傳統(tǒng)方法的許多局限(例如基于規(guī)則和預(yù)測)。

如果想了解RL(強(qiáng)化學(xué)習(xí))以及一些關(guān)鍵概念,喬納森·輝(JonathanHui)撰寫了一篇很棒的介紹,托馬斯·西蒙尼尼(ThomasSimonini )詳細(xì)解釋了解決方案中應(yīng)用的RL算法Q-Learning。

事實(shí)證明,人類創(chuàng)建了極具惰性的人工智能。當(dāng)單車存量超過60輛時(shí),它通常會(huì)選擇不執(zhí)行任何操作或執(zhí)行最少操作(移動(dòng)1或3輛自行車)。似乎有違常理,但這是非常明智的。

根據(jù)直覺,可能會(huì)移動(dòng)盡可能多的單車以將其保持在50輛以下,尤其是在停放處停滿時(shí)。但是,RL(強(qiáng)化學(xué)習(xí))識(shí)別出移動(dòng)成本(移動(dòng)的單車越多,成本越高)以及在某些情況下成功的機(jī)會(huì)??紤]到所剩時(shí)間,根本不可能實(shí)現(xiàn)目標(biāo)。它知道最好的選擇是“放棄”。因此,放棄比繼續(xù)嘗試要付出更少的代價(jià)!

所以呢?當(dāng)人工智能做出非常規(guī)決策時(shí),類似于谷歌Alpha Go研發(fā)的著名Move 37 and 78 ,它們會(huì)挑戰(zhàn)人類的偏見,幫助打破知識(shí)的魔咒,并將人類推向未知的道路。

創(chuàng)造人工智能既是一種發(fā)明,也是一種探索人類內(nèi)心活動(dòng)的旅程?!狣eepMind創(chuàng)始人德米斯·哈薩比斯 (Demis Hassabis)在《經(jīng)濟(jì)學(xué)人》雜志《2020年的世界》(The World in 2020)一文中所言。

但是,請(qǐng)保持謹(jǐn)慎。人類價(jià)值體系無可替代,因此人類不會(huì)一落千丈或迷失自我。

哲學(xué)知識(shí)已經(jīng)足夠了,現(xiàn)在現(xiàn)實(shí)一點(diǎn)吧

RL如何管理單車停放處?

下圖顯示了在有無RL的情況下,一天當(dāng)中單車的停放量。

· 藍(lán)色線是無RL情況下的單車停放趨勢(shì)。

· 黃色線是最初RL情況下移出單車的趨勢(shì),很昂貴。

· 綠色線是訓(xùn)練有素的RL,它僅移出足以滿足目標(biāo)的單車,更能了解成本。

作者分析

RL如何決定該做什么?

以下是經(jīng)過98,000次訓(xùn)練后RL解決方案Q表的快照。它解釋了RL如何根據(jù)停放處(垂直數(shù)據(jù))上的自行車數(shù)量來決定做什么(水平數(shù)據(jù))。RL不太可能選擇用紅色進(jìn)行操作。看看底部的紅色區(qū)域。

作者分析

RL能有多智能?以下圖表介紹了RL對(duì)停放處的管理情況。通過深入學(xué)習(xí),RL可以將整體成功率逐步提高到98%,令人印象深刻。

作者分析

希望大家喜歡這篇文章,并由衷地期待RL在現(xiàn)實(shí)世界中展示出的潛力。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    今日看點(diǎn):智元推出真機(jī)強(qiáng)化學(xué)習(xí);美國軟件公司SAS退出中國市場

    智元推出真機(jī)強(qiáng)化學(xué)習(xí),機(jī)器人訓(xùn)練周期從“數(shù)周”減至“數(shù)十分鐘” ? 近日,智元機(jī)器人宣布其研發(fā)的真機(jī)強(qiáng)化學(xué)習(xí)技術(shù),已在與龍旗科技合作的驗(yàn)證產(chǎn)線成功落地。據(jù)介紹,此次落地的真機(jī)強(qiáng)化學(xué)習(xí)
    發(fā)表于 11-05 09:44 ?869次閱讀

    PECVD的基本定義和主要作用

    PECVD( Plasma Enhanced Chemical Vapor Deposition ,等離子體增強(qiáng)化學(xué)氣相沉積)是一種通過射頻( RF )電源激發(fā)等離子體,在低溫條件下實(shí)現(xiàn)薄膜沉積的半導(dǎo)體制造技術(shù)。其核心在于利用等離子體
    的頭像 發(fā)表于 10-23 18:00 ?2017次閱讀
    PECVD的基本定義和主要作用

    自動(dòng)駕駛中常提的“強(qiáng)化學(xué)習(xí)”是個(gè)啥?

    [首發(fā)于智駕最前沿微信公眾號(hào)]在談及自動(dòng)駕駛時(shí),有些方案中會(huì)提到“強(qiáng)化學(xué)習(xí)(Reinforcement Learning,簡稱RL)”,強(qiáng)化學(xué)習(xí)是一類讓機(jī)器通過試錯(cuò)來學(xué)會(huì)做決策的技術(shù)。簡單理解
    的頭像 發(fā)表于 10-23 09:00 ?305次閱讀
    自動(dòng)駕駛中常提的“<b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>”是個(gè)啥?

    【「AI芯片:科技探索與AGI愿景」閱讀體驗(yàn)】+化學(xué)或生物方法實(shí)現(xiàn)AI

    21世紀(jì)是生命科學(xué)的世紀(jì),生物技術(shù)的潛力將比電子技術(shù)更深遠(yuǎn)----- 里卡多-戈蒂爾 半導(dǎo)體實(shí)現(xiàn)AI應(yīng)該沒什么疑問了吧?化學(xué)、生物怎么實(shí)現(xiàn)AI呢? 生物大腦是一個(gè)由無數(shù)神經(jīng)元通過突觸連接而成的復(fù)雜
    發(fā)表于 09-15 17:29

    如何在Ray分布式計(jì)算框架下集成NVIDIA Nsight Systems進(jìn)行GPU性能分析

    在大語言模型的強(qiáng)化學(xué)習(xí)訓(xùn)練過程,GPU 性能優(yōu)化至關(guān)重要。隨著模型規(guī)模不斷擴(kuò)大,如何高效地分析和優(yōu)化 GPU 性能成為開發(fā)者面臨的主要挑戰(zhàn)之一。
    的頭像 發(fā)表于 07-23 10:34 ?2023次閱讀
    如何在Ray分布式計(jì)算框架下集成NVIDIA Nsight Systems進(jìn)行GPU性能分析

    NVIDIA Isaac Lab可用環(huán)境與強(qiáng)化學(xué)習(xí)腳本使用指南

    Lab 是一個(gè)適用于機(jī)器人學(xué)習(xí)的開源模塊化框架,其模塊化高保真仿真適用于各種訓(xùn)練環(huán)境,Isaac Lab 同時(shí)支持模仿學(xué)習(xí)(模仿人類)和強(qiáng)化學(xué)習(xí)(在嘗試和錯(cuò)誤中進(jìn)行學(xué)習(xí)),為所有機(jī)器
    的頭像 發(fā)表于 07-14 15:29 ?1795次閱讀
    NVIDIA Isaac Lab可用環(huán)境與<b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>腳本使用指南

    使用英偉達(dá) NVIDIA Air 服務(wù)將仿真與現(xiàn)實(shí)世界連接

    優(yōu)勢(shì)之一是能夠?qū)⒛姆抡媾c現(xiàn)實(shí)世界連接起來。通過啟用外部連接,可以在您的環(huán)境顯著增強(qiáng)其功能、性能和靈活性。通過集成云資源、API、第三方數(shù)據(jù)、協(xié)作工具或高級(jí)機(jī)器學(xué)習(xí)模型,它可提高仿真
    的頭像 發(fā)表于 07-07 19:41 ?877次閱讀
    使用英偉達(dá) NVIDIA Air 服務(wù)將仿真與<b class='flag-5'>現(xiàn)實(shí)</b><b class='flag-5'>世界</b>連接

    【書籍評(píng)測活動(dòng)NO.62】一本書讀懂 DeepSeek 全家桶核心技術(shù):DeepSeek 核心技術(shù)揭秘

    Fine-Tuning,SFT)和人類反饋強(qiáng)化學(xué)習(xí)(Reinforcement Learning from Human Feedback,RLHF)的訓(xùn)練模式,首次驗(yàn)證了無須任何 SFT 數(shù)據(jù),僅通過強(qiáng)化學(xué)習(xí)即可實(shí)現(xiàn)推理
    發(fā)表于 06-09 14:38

    化學(xué)機(jī)械拋光液的基本組成

    化學(xué)機(jī)械拋光液是化學(xué)機(jī)械拋光(CMP)工藝關(guān)鍵的功能性耗材,其本質(zhì)是一個(gè)多組分的液體復(fù)合體系,在拋光過程同時(shí)起到化學(xué)反應(yīng)與機(jī)械研磨的雙重
    的頭像 發(fā)表于 05-14 17:05 ?1001次閱讀
    <b class='flag-5'>化學(xué)</b>機(jī)械拋光液的基本組成

    18個(gè)常用的強(qiáng)化學(xué)習(xí)算法整理:從基礎(chǔ)方法到高級(jí)模型的理論技術(shù)與代碼實(shí)現(xiàn)

    本來轉(zhuǎn)自:DeepHubIMBA本文系統(tǒng)講解從基本強(qiáng)化學(xué)習(xí)方法到高級(jí)技術(shù)(如PPO、A3C、PlaNet等)的實(shí)現(xiàn)原理與編碼過程,旨在通過理論結(jié)合代碼的方式,構(gòu)建對(duì)強(qiáng)化學(xué)習(xí)算法的全面理解。為確保內(nèi)容
    的頭像 發(fā)表于 04-23 13:22 ?1266次閱讀
    18個(gè)常用的<b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>算法整理:從基礎(chǔ)方法到高級(jí)模型的理論技術(shù)與代碼<b class='flag-5'>實(shí)現(xiàn)</b>

    詳解RAD端到端強(qiáng)化學(xué)習(xí)后訓(xùn)練范式

    受限于算力和數(shù)據(jù),大語言模型預(yù)訓(xùn)練的 scalinglaw 已經(jīng)趨近于極限。DeepSeekR1/OpenAl01通過強(qiáng)化學(xué)習(xí)后訓(xùn)練涌現(xiàn)了強(qiáng)大的推理能力,掀起新一輪技術(shù)革新。
    的頭像 發(fā)表于 02-25 14:06 ?1008次閱讀
    詳解RAD端到端<b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>后訓(xùn)練范式

    基于LMP91000在電化學(xué)傳感器電極故障檢測的應(yīng)用詳解

    文章首先介紹了電化學(xué)傳感器的構(gòu)成,對(duì)傳統(tǒng)的信號(hào)調(diào)理電路進(jìn)行了簡要分析,指出經(jīng)典電路在設(shè)計(jì)實(shí)現(xiàn)時(shí)存在的一些局限性以及在傳感器電極故障狀態(tài)檢測遇到的困難。隨后介紹了電化學(xué)傳感器模擬前端
    發(fā)表于 02-11 08:02

    淺談適用規(guī)模充電站的深度學(xué)習(xí)有序充電策略

    深度強(qiáng)化學(xué)習(xí)能夠有效計(jì)及電動(dòng)汽車出行模式和充電需求的不確定性,實(shí)現(xiàn)充電場站充電成本化的目標(biāo)。通過對(duì)電動(dòng)汽車泊車時(shí)間和充電需求特征進(jìn)行提取,建立適用于大規(guī)模電動(dòng)汽車有序充電的馬爾可夫決策過程模型,并
    的頭像 發(fā)表于 02-08 15:00 ?798次閱讀
    淺談適用規(guī)模充電站的深度<b class='flag-5'>學(xué)習(xí)</b>有序充電策略

    【「具身智能機(jī)器人系統(tǒng)」閱讀體驗(yàn)】+初品的體驗(yàn)

    動(dòng)態(tài)互動(dòng)的。 該理論強(qiáng)調(diào)智能行為源于智能體的物理存在和行為能力,智能體必須具備感知環(huán)境并在其中執(zhí)行任務(wù)的能力。具身智能的實(shí)現(xiàn)涵蓋了機(jī)器學(xué)習(xí)、人工智能、機(jī)器人學(xué)、計(jì)算機(jī)視覺、自然語言處理及強(qiáng)化學(xué)習(xí)等領(lǐng)域
    發(fā)表于 12-20 19:17

    原子的結(jié)構(gòu)在化學(xué)反應(yīng)的作用

    化學(xué)反應(yīng)是物質(zhì)世界中最基本的現(xiàn)象之一,它們構(gòu)成了我們周圍環(huán)境和生命過程的基礎(chǔ)。在化學(xué)反應(yīng),原子是不可分割的基本單位,它們通過化學(xué)鍵的斷裂和
    的頭像 發(fā)表于 12-17 15:23 ?2684次閱讀