欧美老妇人性视频,国产日韩欧美电影在线观看,最新a国产v视频在线观看

強化學習 (Reinforcement Learning，RL) 是一種通過反復試驗訓練智能體 (Agent) 在復雜環(huán)境中有序決策的范式，在游戲、機器人操作和芯片設(shè)計等眾多領(lǐng)域都取得了巨大成功。智能體的目標通常是最大化在環(huán)境中收集的總獎勵 (Reward)，這可以基于速度、好奇心、美學等各種參數(shù)。然而，由于 RL 獎勵函數(shù)難以指定或過于稀疏，想要設(shè)計具體的 RL 獎勵函數(shù)并非易事。

游戲
https://ai.googleblog.com/2019/06/introducing-google-research-football.html

這種情況下，模仿學習(Imitation Learning，IL) 方法便派上了用場，因為這種方法通過專家演示而不是精心設(shè)計的獎勵函數(shù)來學習如何完成任務。然而，最前沿 (SOTA) 的 IL 方法均依賴于對抗訓練，這種訓練使用最小化/最大化優(yōu)化過程，但在算法上不穩(wěn)定并且難以部署。

在“原始 Wassers tein 模仿學習”(Primal Wasserstein Imitation Learning，PWIL) 中，我們基于 Wasserstein 距離（也稱為推土機距離）的原始形式引入了一種新的 IL 方法，這種方法不依賴對抗訓練。借助 MuJoCo 任務套件，我們通過有限數(shù)量的演示（甚至是單個示例）以及與環(huán)境的有限交互來模仿模擬專家，以此證明 PWIL 方法的有效性。

原始 Wasserstein 模仿學習
https://arxiv.org/pdf/2006.04678.pdf

MuJoCo 任務套件
https://gym.openai.com/envs/#mujoco

左圖：使用任務的真實獎勵（與速度有關(guān)）訓練的算法類人機器人“專家”；右圖：使用 PWIL 基于專家演示訓練的智能體

對抗模仿學習

最前沿的對抗 IL 方法的運作方式與生成對抗網(wǎng)絡(luò) (GAN) 類似：訓練生成器（策略）以最大化判別器（獎勵）的混淆度，以便判別器本身被訓練來區(qū)分智能體的狀態(tài)-動作對和專家的狀態(tài)-動作對。對抗 IL 方法可以歸結(jié)為分布匹配問題，即最小化度量空間中概率分布之間距離的問題。不過，就像 GAN 一樣，對抗 IL 方法也依賴于最小化/最大化優(yōu)化問題，因此在訓練穩(wěn)定性方面面臨諸多挑戰(zhàn)。

訓練穩(wěn)定性方面面臨諸多挑戰(zhàn)
https://developers.google.com/machine-learning/gan/problems

模仿學習歸結(jié)為分步匹配

PWIL 方法的原理是將 IL 表示為分布匹配問題（在本例中為 Wasserstein 距離）。第一步為從演示中推斷出專家的狀態(tài)-動作分布：即專家采取的動作與相應環(huán)境狀態(tài)之間的關(guān)系的集合。接下來的目標是通過與環(huán)境的交互來最大程度地減少智能體的狀態(tài)-動作分布與專家的狀態(tài)-動作分布之間的距離。相比之下，PWIL 是一種非對抗方法，因此可繞過最小化/最大化優(yōu)化問題，直接最小化智能體的狀態(tài)-動作對分布與專家的狀態(tài)-動作對分布之間的 Wasserstein 距離。

PWIL 方法

計算精確的 Wasserstein 距離會受到限制（智能體軌跡結(jié)束時才能計算出），這意味著只有在智能體與環(huán)境交互完成后才能計算獎勵。為了規(guī)避這種限制，我們?yōu)榫嚯x設(shè)置了上限，可以據(jù)此定義使用 RL 優(yōu)化的獎勵。

結(jié)果表明，通過這種方式，我們確實可以還原專家的行為，并在 MuJoCo 模擬器的許多運動任務中最小化智能體與專家之間的 Wasserstein 距離。對抗 IL 方法使用來自神經(jīng)網(wǎng)絡(luò)的獎勵函數(shù)，因此，當智能體與環(huán)境交互時，必須不斷對函數(shù)進行優(yōu)化和重新估計，而 PWIL 根據(jù)專家演示離線定義一個不變的獎勵函數(shù)，并且它所需的超參數(shù)量遠遠低于基于對抗的 IL 方法。

PWIL 在類人機器人上的訓練曲線：綠色表示與專家狀態(tài)-動作分布的 Wasserstein 距離；藍色表示智能體的回報（所收集獎勵的總和）

類人機器人
https://gym.openai.com/envs/Humanoid-v2/

衡量真實模仿學習環(huán)境的相似度

與 ML 領(lǐng)域的眾多挑戰(zhàn)類似，許多 IL 方法都在合成任務上進行評估，其中通常有一種方法可以使用任務的底層獎勵函數(shù)，并且可以根據(jù)性能（即預期的獎勵總和）來衡量專家行為與智能體行為之間的相似度。

PWIL 過程中會創(chuàng)建一個指標，該指標可以針對任何 IL 方法。這種方法能將專家行為與智能體行為進行比較，而無需獲得真正的任務獎勵。從這個意義上講，我們可以在真正的 IL 環(huán)境中使用 Wasserstein 距離，而不僅限于合成任務。

結(jié)論

在交互成本較高的環(huán)境（例如，真實的機器人或復雜的模擬器）中，PWIL 可以作為首選方案，不僅因為它可以還原專家的行為，還因為它所定義的獎勵函數(shù)易于調(diào)整，且無需與環(huán)境交互即可定義。

這為未來的探索提供了許多機會，包括部署到實際系統(tǒng)、將 PWIL 擴展到只能使用演示狀態(tài)（而不是狀態(tài)和動作）的設(shè)置，以及最終將 PWIL 應用于基于視覺的觀察。

責任編輯：lq

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴