chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

一種利用任何形式的先驗策略來改進初始化強化學習任務的探索的方法

倩倩 ? 來源:AI前線 ? 作者:谷歌 AI ? 2022-09-06 14:20 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

強化學習可以用于訓練一種策略,使其能夠在試錯的情況下來完成任務,但強化學習面臨的最大挑戰(zhàn)就是,如何在具有艱難探索挑戰(zhàn)的環(huán)境中從頭學習策略。比如,考慮到 adroit manipulation 套件中的 door-binary-v0 環(huán)境所描述的設置,其中強化學習智能體必須在三維空間中控制一只手來打開放在它前面的門。

由于智能體沒有收到任何中間獎勵,它無法衡量自己離完成任務有多遠,所以只能在空間里隨機探索,直至門被打開為止。鑒于這項任務所需的時間以及對其進行精準的控制,這種可能性微乎其微。

對于這樣的任務,我們可以通過使用先驗信息來規(guī)避對狀態(tài)空間的隨機探索。這種先驗信息有助于智能體了解環(huán)境的哪些狀態(tài)是好的,應該進一步探索。

我們可以利用離線數(shù)據(即由人類演示者、腳本策略或其他強化學習智能體收集的數(shù)據),對策略進行訓練,并將之用于初始化新的強化學習策略。如果采用神經網絡來表達策略,則需要將預訓練好的神經網絡復制到新的強化學習策略中。這一過程使得新的強化學習策略看起來就像是預訓練好的。但是,用這種幼稚的方式來進行新的強化學習通常是行不通的,尤其是基于值的強化學習方法,如下所示。

7ca49590-2da6-11ed-ba43-dac502259ad0.jpg

用離線數(shù)據在 antmaze-large-diverse-v0 D4RL 環(huán)境中對一種策略進行預訓練(負向步驟對應預訓練)。然后,我們使用該策略來初始化 actor-crittic 的微調(從第 0 步開始的正向步驟),以該預訓練的策略作為初始 actor。crittic 是隨機初始化的。由于未經訓練的 critic 提供了一個糟糕的學習信號,并導致良好的初始策略被遺忘,所以 actor 的性能會立即下降,并且不會恢復。

有鑒于此,我們在“跳躍式強化學習”(Jump-Start Reinforcement Learning,JSRL)中,提出了一種可以利用任意一種與現(xiàn)存在的策略對任意一種強化學習算法進行初始化的元算法。

JSRL 在學習任務時采用了兩種策略:一種是指導策略,另一種是探索策略。探索策略是一種強化學習策略,通過智能體從環(huán)境中收集的新經驗進行在線訓練,而指導策略是一種預先存在的任何形式的策略,在在線訓練中不被更新。在這項研究中,我們關注的是指導策略從演示中學習的情景,但也可以使用許多其他類型的指導策略。JSRL 通過滾動指導策略創(chuàng)建了一個學習課程,然后由自我改進的探索策略跟進,其結果是與競爭性的 IL+RL 方法相比較或改進的性能。

JSRL 方法

指導策略可以采取任何形式:它可以是一種腳本化的策略,一種用于強化學習訓練的策略,甚至是一個真人演示者。唯一的要求是,指導策略要合理(也就是優(yōu)于隨機探索),而且可以根據對環(huán)境的觀察來選擇行動。理想情況下,指導策略可以在環(huán)境中達到較差或中等的性能,但不能通過額外的微調來進一步改善自己。然后,JSRL 允許我們利用這個指導策略的進展,從而提到它的性能。

在訓練開始時,我們將指導策略推出一個固定的步驟,使智能體更接近目標狀態(tài)。然后,探索策略接手,繼續(xù)在環(huán)境中行動以達到這些目標。隨著探索策略性能的提高,我們逐漸減少指導策略的步驟,直到探索策略完全接管。這個過程為探索策略創(chuàng)建了一個起始狀態(tài)的課程,這樣在每個課程階段,它只需要學習達到之前課程階段的初始狀態(tài)。

這個任務是讓機械臂拿起藍色木塊。指導策略可以將機械臂移動到木塊上,但不能將其拾起。它控制智能體,直到它抓住木塊,然后由探索策略接管,最終學會拿起木塊。隨著探索策略的改進,指導策略對智能體的控制越來越少。

與 IL+RL 基線的比較

由于 JSRL 可以使用先前的策略來初始化強化學習,一個自然的比較是模仿和強化學習(IL+RL)方法,該方法在離線數(shù)據集上進行訓練,然后用新的在線經驗對預訓練的策略進行微調。我們展示了 JSRL 在 D4RL 基準任務上與具有競爭力的 IL+RL 方法的比較情況。這些任務包括模擬機器人控制環(huán)境,以及來自人類演示者的離線數(shù)據集、計劃者和其他學到的策略。在 D4RL 任務中,我們重點關注困難的螞蟻迷宮和 adroit dexterous manipulation 環(huán)境。

7cbf5b14-2da6-11ed-ba43-dac502259ad0.jpg

對于每個實驗,我們在一個離線數(shù)據集上進行訓練,然后運行在線微調。我們與專門為每個環(huán)境設計的算法進行比較,這些算法包括 AWAC、IQL、CQL 和行為克隆。雖然 JSRL 可以與任何初始指導策略或微調算法結合使用,但我們使用我們最強大的基線——IQL,作為預訓練的指導和微調。完整的 D4RL 數(shù)據集包括每個螞蟻迷宮任務的一百萬個離線轉換。每個轉換是一個格式序列(S, A, R, S'),它指定了智能體開始時的狀態(tài)(S),智能體采取的行動(A),智能體收到的獎勵(R),以及智能體在采取行動 A 后結束的狀態(tài)(S')。

7cdc6a10-2da6-11ed-ba43-dac502259ad0.jpg

7cf95134-2da6-11ed-ba43-dac502259ad0.jpg

在 D4RL 基準套件的 antmaze-medium-diverse-v0 環(huán)境中的平均得分(最大值 =100)。即使在有限的離線轉換的情況下,JSRL 也可以改進。

基于視覺的機器人任務

由于維度的限制,在復雜的任務中使用離線數(shù)據特別困難,比如基于視覺的機器人操縱。連續(xù)控制動作空間和基于像素的狀態(tài)空間的高維度,給 IL+RL 方法帶來了學習良好策略所需的數(shù)據量方面的擴展挑戰(zhàn)。為了研究 JSRL 如何適應這種環(huán)境,我們重點研究了兩個困難的仿生機器人操縱任務:無差別抓?。矗e起任何物體)和實例抓?。矗e起特定的目標物體)。

7d1396d4-2da6-11ed-ba43-dac502259ad0.jpg

一個仿生機械臂被放置在一張有各種類別物體的桌子前。當機械臂舉起任何物體時,對于無差別的抓取任務,會給予稀疏的獎勵。對于實例抓取任務,只有在抓取特定的目標物體時,才會給予稀疏的獎勵。

我們將 JSRL 與能夠擴展到復雜的基于視覺的機器人環(huán)境的方法進行比較,如 QT-Opt 和 AW-Opt。每種方法都可以獲得相同的成功演示的離線數(shù)據集,并被允許運行多達 10 萬步的在線微調。

在這些實驗中,我們使用行為克隆作為指導策略,并將 JSRL 與 QT-Opt 相結合進行微調。QT-Opt+JSRL 的組合比其他所有方法改進得更快,同時獲得了最高的成功率。

7d26259c-2da6-11ed-ba43-dac502259ad0.jpg

7d3ccca2-2da6-11ed-ba43-dac502259ad0.jpg

使用 2 千次成功演示,無差別和實例抓取環(huán)境的平均抓取成功率。

結語

我們提出了 JSRL,它是一種利用任何形式的先驗策略來改進初始化強化學習任務的探索的方法。我們的算法通過在預先存在的指導策略中滾動,創(chuàng)建了一個學習課程,然后由自我改進的探索策略跟進。探索策略的工作被大大簡化,因為它從更接近目標的狀態(tài)開始探索。隨著探索策略的改進,指導策略的影響也隨之減弱,從而形成一個完全有能力的強化學習策略。在未來,我們計劃將 JSRL 應用于 Sim2Real 等問題,并探索我們如何利用多種指導策略來訓練強化學習智能體。

審核編輯 :李倩

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 神經網絡
    +關注

    關注

    42

    文章

    4830

    瀏覽量

    106947
  • 智能體
    +關注

    關注

    1

    文章

    404

    瀏覽量

    11536
  • 強化學習
    +關注

    關注

    4

    文章

    269

    瀏覽量

    11913

原文標題:如何使用先驗策略有效地初始化強化學習?

文章出處:【微信號:AI前線,微信公眾號:AI前線】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    今日看點:智元推出真機強化學習;美國軟件公司SAS退出中國市場

    智元推出真機強化學習,機器人訓練周期從“數(shù)周”減至“數(shù)十分鐘” ? 近日,智元機器人宣布其研發(fā)的真機強化學習技術,已在與龍旗科技合作的驗證產線中成功落地。據介紹,此次落地的真機強化學習方案,機器人
    發(fā)表于 11-05 09:44 ?944次閱讀

    串口通信基石:Air8000下Modbus RTU串口初始化詳解!

    的RTU通信搭建牢固無憂。 、MODBUS 概述 Modbus 是一種廣泛應用于工業(yè)自動領域的串行通信協(xié)議,由 Modicon 公司(現(xiàn)為施耐德電氣旗下)于 1979 年推出,主要用于可編程邏輯控制器(PLC)與工業(yè)設備之間
    的頭像 發(fā)表于 10-28 16:33 ?1471次閱讀
    串口通信基石:Air8000下Modbus RTU串口<b class='flag-5'>初始化</b>詳解!

    自動駕駛中常提的“強化學習”是個啥?

    下,就是個智能體在環(huán)境里行動,它能觀察到環(huán)境的些信息,并做出個動作,然后環(huán)境會給出個反饋(獎勵或懲罰),智能體的目標是把長期得到的獎勵累積到最大。和監(jiān)督
    的頭像 發(fā)表于 10-23 09:00 ?370次閱讀
    自動駕駛中常提的“<b class='flag-5'>強化學習</b>”是個啥?

    【「AI芯片:科技探索與AGI愿景」閱讀體驗】+AI的科學應用

    理論、實驗及仿真統(tǒng)一起來,催生了數(shù)據密集型科學,這就是第四范式。它利用大量的計算和數(shù)據處理研究復雜的問題和現(xiàn)象。特點如下: 第四范式帶來的質變: 第五范式: 科學范式的演變:二、科學發(fā)現(xiàn)的過程和
    發(fā)表于 09-17 11:45

    【「AI芯片:科技探索與AGI愿景」閱讀體驗】+化學或生物方法實現(xiàn)AI

    的憶阻器、MAC計算單元及存儲器 可以利用液體的流體力學特征做個納米級微流體系統(tǒng),用水柱實現(xiàn)邏輯門。 ①用有機聚合物溶液實現(xiàn)互連、憶阻器和神經網絡 有機聚合物計算通常被歸類為化學
    發(fā)表于 09-15 17:29

    【「AI芯片:科技探索與AGI愿景」閱讀體驗】+AI的未來:提升算力還是智力

    、浪費資源與破壞環(huán)境 二、用小模型代替大模型 1、強化學習 2、指令調整 3、合成數(shù)據 三、終身學習與遷移學習 1、終身學習 終身學習
    發(fā)表于 09-14 14:04

    GraniStudio:IO初始化以及IO資源配置例程

    IO資源配置.gsp文件,點擊打開,完成導入。 2.功能說明 實現(xiàn)連接格拉尼控制器IO塊以及配置輸入輸出IO點。 2.1通過初始化IO算子連接格拉尼控制器IO塊,導入工程自動進行連接。 2.2 通過IO配置算子輸出配置的IO表。 第次使用GS軟件時操作步驟如下: (1)
    的頭像 發(fā)表于 08-22 17:34 ?769次閱讀
    GraniStudio:IO<b class='flag-5'>初始化</b>以及IO資源配置例程

    GraniStudio:初始化例程

    說明 通過初始化運控板卡算子連接格拉尼總線型運控卡,導入工程自動進行連接,此算子為使用運控控制板卡的第項操作,后續(xù)運控算子需引用其輸出板卡對象才可使用。 3.異常處理 當手動執(zhí)行初始化運控板卡算子出現(xiàn)錯誤時: 查看總線卡與驅動
    的頭像 發(fā)表于 08-22 16:45 ?727次閱讀
    GraniStudio:<b class='flag-5'>初始化</b>例程

    定義IO初始化結構體

    由上述IOPORT相關功能的枚舉類型我們可以知道,在對IOPORT模塊進行初始化時需要根據情況配置它們。因此我們定義個IOPORT初始化的結構體類型IOPORT_Init_t,它的成員包括了由上述所有枚舉類型所聲明的變量,因此
    的頭像 發(fā)表于 07-16 16:26 ?1165次閱讀

    NVIDIA Isaac Lab可用環(huán)境與強化學習腳本使用指南

    Lab 是個適用于機器人學習的開源模塊框架,其模塊高保真仿真適用于各種訓練環(huán)境,Isaac Lab 同時支持模仿學習(模仿人類)和
    的頭像 發(fā)表于 07-14 15:29 ?1935次閱讀
    NVIDIA Isaac Lab可用環(huán)境與<b class='flag-5'>強化學習</b>腳本使用指南

    IM 系列設備過載保護機制下界面初始化中斷的底層邏輯與解決方案

    、過載保護機制與界面初始化的關聯(lián)基礎 IM 系列設備的過載保護機制是保障設備安全運行的核心功能,其通過傳感器實時采集設備運行參數(shù),如電流、電壓、溫度、系統(tǒng)資源占用率等。旦這些參數(shù)超出預設閾值
    的頭像 發(fā)表于 06-27 09:58 ?390次閱讀

    三相無刷直流電機改進型脈寬調制策略

    摘要:研究了一種改進型無刷直流電機脈寬調制策略。在傳統(tǒng)的無刷直流電機脈寬調制技術的基礎上,針對調制期間開關管斷開時的電機繞組電流無法有效控制問題,研究了一種基于六開關電壓源型逆變器的四
    發(fā)表于 06-13 09:37

    使用MATLAB進行無監(jiān)督學習

    無監(jiān)督學習一種根據未標注數(shù)據進行推斷的機器學習方法。無監(jiān)督學習旨在識別數(shù)據中隱藏的模式和關系,無需任何監(jiān)督或關于結果的
    的頭像 發(fā)表于 05-16 14:48 ?1215次閱讀
    使用MATLAB進行無監(jiān)督<b class='flag-5'>學習</b>

    18個常用的強化學習算法整理:從基礎方法到高級模型的理論技術與代碼實現(xiàn)

    本來轉自:DeepHubIMBA本文系統(tǒng)講解從基本強化學習方法到高級技術(如PPO、A3C、PlaNet等)的實現(xiàn)原理與編碼過程,旨在通過理論結合代碼的方式,構建對強化學習算法的全面理解。為確保內容
    的頭像 發(fā)表于 04-23 13:22 ?1361次閱讀
    18個常用的<b class='flag-5'>強化學習</b>算法整理:從基礎<b class='flag-5'>方法</b>到高級模型的理論技術與代碼實現(xiàn)

    AFE031初始化的過程應該是什么?

    我現(xiàn)在工程中需要使用AFE031,在工作中遇到以下問題,請高手可以指點一二: 1:如果在不燒入任何軟件的時候,參考電壓RFE1和REF2 是否就已經存在?還是需要軟件對其進行正確的初始化后才可以
    發(fā)表于 01-15 06:54