Chinese HD AV videos love,亚洲AVAVAVAV在线观看,55夜色66久

擴散模型（diffusion model）在 CV 領(lǐng)域甚至 NLP 領(lǐng)域都已經(jīng)有了令人印象深刻的表現(xiàn)。最近的一些工作開始將 diffusion model 用于強化學(xué)習(xí)（RL）中來解決序列決策問題，它們主要利用 diffusion model 來建模分布復(fù)雜的軌跡或提高策略的表達性。

但是，這些工作仍然局限于單一任務(wù)單一數(shù)據(jù)集，無法得到能同時解決多種任務(wù)的通用智能體。那么，diffusion model 能否解決多任務(wù)強化學(xué)習(xí)問題呢？我們最近提出的一篇新工作——“Diffusion Model is an Effective Planner and Data Synthesizer for Multi-Task Reinforcement Learning”，旨在解決這個問題并希望啟發(fā)后續(xù)通用決策智能的研究：

論文題目：Diffusion Model is an Effective Planner and Data Synthesizer for Multi-Task Reinforcement Learning

論文鏈接：

https://arxiv.org/abs/2305.18459

背景

數(shù)據(jù)驅(qū)動的大模型在 CV 和 NLP 領(lǐng)域已經(jīng)獲得巨大成功，我們認為這背后源于模型的強表達性和數(shù)據(jù)集的多樣性和廣泛性?；诖?，我們將最近出圈的生成式擴散模型（diffusion model）擴展到多任務(wù)強化學(xué)習(xí)領(lǐng)域（multi-task reinforcement learning），利用 large-scale 的離線多任務(wù)數(shù)據(jù)集訓(xùn)練得到通用智能體。目前解決多任務(wù)強化學(xué)習(xí)的工作大多基于 Transformer 架構(gòu)，它們通常對模型的規(guī)模，數(shù)據(jù)集的質(zhì)量都有很高的要求，這對于實際訓(xùn)練來說是代價高昂的?；?TD-learning 的強化學(xué)習(xí)方法則常常面臨 distribution-shift 的挑戰(zhàn)，在多任務(wù)數(shù)據(jù)集下這個問題尤甚，而我們將序列決策過程建模成條件式生成問題（conditional generative process），通過最大化 likelihood 來學(xué)習(xí)，有效避免了 distribution shift 的問題。

方法

具體來說，我們發(fā)現(xiàn) diffusion model 不僅能很好地輸出 action 進行實時決策，同樣能夠建模完整的（s,a,r,s'）的 transition 來生成數(shù)據(jù)進行數(shù)據(jù)增強提升強化學(xué)習(xí)策略的性能，具體框架如圖所示：

對于決策規(guī)劃任務(wù)，我們將模型稱為；對于數(shù)據(jù)生成（增強）任務(wù)，我們將模型稱為。我們的擴散模型基于 DDPM 的訓(xùn)練方式，利用損失訓(xùn)練，它能夠預(yù)測逆向過程每一步的噪聲。對于，它的損失函數(shù)可以表示為：

其中

是軌跡的標(biāo)準(zhǔn)化累積回報，是 Demonstration Prompt，可以表示為：

*表示專家軌跡，即是從每個任務(wù)下的一條或幾條專家軌跡采樣得到的時間步長的一段包含狀態(tài)和動作的軌跡。對做 classifi-free guidance，并在測試推理過程中生成未來步長的動作序列，在實驗中我們選取第一個動作與環(huán)境交互。對于，它的損失函數(shù)可以表示為：

其中

值得注意的是這里我們需要擴散模型建模整個（s,a,r）的完整軌跡，并且由于目標(biāo)是完成數(shù)據(jù)生成任務(wù)，需要盡可能多樣化的數(shù)據(jù)，不需要模型 condition 在上，自然也不需要 classifier-free guidance。

模型結(jié)構(gòu)

為了更好地建模多任務(wù)數(shù)據(jù)，并且統(tǒng)一多樣化的輸入數(shù)據(jù)，我們用 transformer 架構(gòu)替換了傳統(tǒng)的 U-Net 網(wǎng)絡(luò)，網(wǎng)絡(luò)結(jié)構(gòu)圖如下：

▲ 關(guān)于模型結(jié)構(gòu)和更多細節(jié)，還請參考我們的論文

實驗

我們首先在 Meta-World MT50 上開展實驗并與 baselines 進行比較，我們在兩種數(shù)據(jù)集上進行實驗，分別是包含大量專家數(shù)據(jù)，從 SAC-single-agent 中的 replay buffer 中收集到的 Near-optimal data（100M）；以及從 Near-optimal data 中降采樣得到基本不包含專家數(shù)據(jù)的 Sub-optimal data（50M）。實驗結(jié)果如下：

可以看到我們的方法在同樣大小的數(shù)據(jù)上不僅超越了大多數(shù)離線強化學(xué)習(xí)方法，并且也超過了兩種多任務(wù)在線強化學(xué)習(xí)方法，其中 PaCo 是目前的 SOTA 方法。我們的方法通過 classifier-free guidance 得到最優(yōu)行為，對數(shù)據(jù)集質(zhì)量的依賴性不強，在 Sub-optimal data 上的表現(xiàn)相比其他 sequence modeling 的方法有很大提升。在我們的實驗中也觀察到 Behavior Cloning（BC）在 Near-optimal data 上和我們的方法相比具有 competitive performance，但 BC 嚴重依賴數(shù)據(jù)集質(zhì)量，在 Sub-optimal data 上性能急劇下降。在數(shù)據(jù)增強方面，我們的方法也同樣有效，明顯提升了數(shù)據(jù)集的質(zhì)量以增強策略性能，實驗結(jié)果如下：

我們選取 45 個任務(wù)的 Near-optimal data 訓(xùn)練，從表中我們可以觀察到在見過的任務(wù)上，我們的方法均取得了最好的性能。甚至給定一段 demonstration prompt，能泛化到?jīng)]見過的任務(wù)上并取得較好的表現(xiàn)。我們選取四個任務(wù)對原數(shù)據(jù)和生成的數(shù)據(jù)做 T-SNE 可視化分析，發(fā)現(xiàn)我們生成的數(shù)據(jù)的分布基本匹配原數(shù)據(jù)分布，并且在不偏離的基礎(chǔ)上擴展了分布，使數(shù)據(jù)覆蓋更加全面。

同樣也具有泛化性，更多實驗分析可以參見論文。

總結(jié)

我們提出了一種基于擴散模型（diffusion model）的一種新的、通用性強的多任務(wù)強化學(xué)習(xí)解決方案，它不僅可以通過單個模型高效完成多任務(wù)決策，而且可以對原數(shù)據(jù)集進行增強，從而提升各種離線算法的性能。我們未來將把遷移到更加多樣、更加通用的場景，旨在深入挖掘其出色的生成能力和數(shù)據(jù)建模能力，解決更加困難的任務(wù)。同時，我們會將遷移到真實控制場景，并嘗試優(yōu)化其推理速度以適應(yīng)某些需要高頻控制的任務(wù)。

原文標(biāo)題：NeurIPS 2023 | 擴散模型解決多任務(wù)強化學(xué)習(xí)問題

文章出處：【微信公眾號：智能感知與物聯(lián)網(wǎng)技術(shù)研究所】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴