一级作爱黄大片视频,全国国产探花AV色在线

目前的深度強(qiáng)化學(xué)習(xí)需要人為地為每一個任務(wù)設(shè)計獎勵函數(shù)，當(dāng)涉及復(fù)雜系統(tǒng)時需要很多的人力成本和復(fù)雜的工作。如果需要完成更大范圍內(nèi)的更多工作，就需要對每一個新任務(wù)進(jìn)行重復(fù)的訓(xùn)練。為了提高學(xué)習(xí)的效率，伯克利的研究者們提出了一種可以同時對多個不同任務(wù)進(jìn)行學(xué)習(xí)的算法，無需人工干預(yù)。

這一算法可以自動從圖像中抽取目標(biāo)并學(xué)習(xí)如何達(dá)到目標(biāo)，并實現(xiàn)推物體、抓握和開門等一系列特殊的任務(wù)。機(jī)器人可以學(xué)會自己表示目標(biāo)、學(xué)習(xí)如何達(dá)到目標(biāo)，而一切的輸入僅僅是來自相機(jī)的RGB圖像。

· 目標(biāo)條件下的強(qiáng)化學(xué)習(xí)

如何描述真實世界的狀態(tài)和期望的目標(biāo)是我們需要考慮的首要問題，但對于機(jī)器人來說枚舉出所有需要注意的物體是不現(xiàn)實的，現(xiàn)實世界中的物體及其數(shù)量變化多端、如果要檢測他們就需要額外的視覺檢測工作。

那么該如何解決這一問題呢？研究人員提出了一種直接利用傳感器信息來操作的方法，利用機(jī)器人相機(jī)的輸出來表達(dá)世界的狀態(tài)，同時利用期望狀態(tài)的圖像作為目標(biāo)輸入到機(jī)器人中。對于新的任務(wù)，只需要為模型提供新的目標(biāo)圖像即可。這種方法同時能拓展到多種復(fù)雜的任務(wù)，例如可以通過語言和描述來表達(dá)狀態(tài)/目標(biāo)。（或者可以利用先前提出的方法來優(yōu)化目標(biāo)：傳送門>>UC Berkeley提出新的時域差分模型策略：從無模型到基于模型的深度強(qiáng)化學(xué)習(xí)）

強(qiáng)化學(xué)習(xí)是一種訓(xùn)練主體最大化獎勵的學(xué)習(xí)機(jī)制，對于目標(biāo)條件下的強(qiáng)化學(xué)習(xí)來說可以將獎勵函數(shù)設(shè)為當(dāng)前狀態(tài)與目標(biāo)狀態(tài)之間距離的反比函數(shù)，那么最大化獎勵就對應(yīng)著最小化與目標(biāo)函數(shù)的距離。

我們可以通過一個基于目標(biāo)條件下的Q函數(shù)來訓(xùn)練策略實現(xiàn)最大化獎勵。基于目標(biāo)條件的Q函數(shù)Q(s,a,g)描述的是在當(dāng)前狀態(tài)和目標(biāo)下，當(dāng)前的行為將產(chǎn)生對主體怎樣的結(jié)果（獎勵）？也就是說在給定狀態(tài)s、目標(biāo)g的前提下，我們可以通過優(yōu)化行為a來實現(xiàn)獎勵最大化：

π(s,g) = maxaQ(s,a,g)

基于Q函數(shù)來選擇最優(yōu)的行為，可以得到最大化獎勵和的策略（在這個例子中便是達(dá)到各種不同的目標(biāo)）。

Q學(xué)習(xí)得以廣泛應(yīng)用的原因在于它可以不基于策略而僅僅只依賴與s,a,g。那么意味著訓(xùn)練任意策略所收集的數(shù)據(jù)都可以用來在多個任務(wù)上進(jìn)行訓(xùn)練?；谀繕?biāo)條件的Q學(xué)習(xí)算法如簡圖所示：

但上述方法的主要局限在于數(shù)據(jù)收集。如果能人工生成數(shù)據(jù)，理論上就可以學(xué)習(xí)解決不同的任務(wù)而無需與真實世界進(jìn)行交互。但遺憾的是在真實世界中學(xué)習(xí)精確的模型十分困難，所以通常依賴于采樣來獲取狀態(tài)s--行為a--下一個狀態(tài)s'的訓(xùn)練數(shù)據(jù)。

但我們換個角度來看，如果可以表達(dá)出獎勵函數(shù)r(s,g), 有一種可以生成目標(biāo)并計算獎勵的機(jī)制，我們就可以可回溯的重新標(biāo)記目標(biāo)，重新計算獎勵。這樣的話就可以利用(s,a,s') 數(shù)據(jù)生成大量的人工數(shù)據(jù)，這一個過程如下圖所示：

最美妙的事情在于可以同時生成多個目標(biāo)和獎勵函數(shù)，這就意味著可以學(xué)習(xí)達(dá)到多個目標(biāo)而無需采集額外的數(shù)據(jù)，這一簡單的改進(jìn)極大的加速了學(xué)習(xí)過程。

上面的方法主要基于兩個假設(shè)：1).知道獎勵函數(shù)的表達(dá)并可以進(jìn)行操作；2).可以得到目標(biāo)的采樣分布p(g).基于前人的工作，可以方便的設(shè)計出目標(biāo)分布p(g)和獎勵函數(shù)。

但對于基于視覺的任務(wù)來說會出現(xiàn)兩個問題：1).由于基于像素的距離可能沒有實際意義，模型不知道該使用哪一個獎勵函數(shù)；2).由于任務(wù)的目標(biāo)是圖像的形式，需要知道目標(biāo)圖像的分布p(g)，但人工設(shè)計目標(biāo)圖像的分布是一個很復(fù)雜的任務(wù)。那么研究人員們期望最好的情況就是，主體可以自動地想象出它的目標(biāo)，并學(xué)習(xí)出如何達(dá)到這一目標(biāo)。

·基于假想目標(biāo)的強(qiáng)化學(xué)習(xí)

為了解決這一問題，研究人員通過學(xué)習(xí)出圖像的表示并利用這些表示來實現(xiàn)條件Q學(xué)習(xí)，而不是直接利用圖像本身來進(jìn)行強(qiáng)化學(xué)習(xí)。那么這時候關(guān)鍵的問題就被轉(zhuǎn)換為：這一從圖像中學(xué)習(xí)的表達(dá)應(yīng)該滿足什么樣的特點？為了計算出語義的獎勵，需要一種可以捕捉圖像中變量潛在因素的表達(dá)，同時這種表達(dá)需要很便捷地生成新的目標(biāo)。

試驗中研究人員通過變分自編碼器（VAE）來從圖像中獲取滿足這些條件地表示。這種生成模型可以將高維空間中圖像轉(zhuǎn)換到低維度地隱空間中去（或者進(jìn)行相反地變換）。得到的模型可以將圖像轉(zhuǎn)換到隱空間中并抽取其中的變量特征，這與人類在真實世界中描述目標(biāo)的抽象過程很類似。在給定當(dāng)前圖像x和目標(biāo)圖像xg后，模型可將他們轉(zhuǎn)換為隱空間中對應(yīng)的隱變量z和zg，此時就可以利用隱變量來為強(qiáng)化學(xué)習(xí)算法描述系統(tǒng)狀態(tài)和期望目標(biāo)了。在低維的隱空間中學(xué)習(xí)Q函數(shù)和策略比直接使用圖像進(jìn)行訓(xùn)練要快很多。

將當(dāng)前圖像和目標(biāo)圖像編碼到隱空間中，并利用其中的距離來計算獎勵。

這同時解決了如何計算強(qiáng)化學(xué)習(xí)中計算獎勵的問題。相較于利用像素誤差，可以使用隱空間中與目標(biāo)的距離來訓(xùn)練主體。在最大化抵達(dá)目標(biāo)概率的同時這一方法可以給出更有效的學(xué)習(xí)信號。

這一模型的重要性在于主體可以容易的在隱空間中生成目標(biāo)。（這一生成模型使得隱空間中的采樣是可以回溯的：僅僅從VAE的先驗中采樣）其原因在于：為主體提供了可以設(shè)置自身目標(biāo)的機(jī)制，主體從生成模型的隱變量中采樣并嘗試抵達(dá)隱空間中的目標(biāo)；同時為重采樣機(jī)制也可用于前述的重標(biāo)記過程。由于訓(xùn)練的生成模型可以將真實圖像編碼為先驗，從先驗的隱變量采樣也對應(yīng)著有意義的隱目標(biāo)。

主體可以通過模型生成自己的目標(biāo)，用于探索和目標(biāo)重標(biāo)記。

綜上所述，對于輸入圖像的隱空間表示1).捕捉了場景中的隱含因素;2).為優(yōu)化提供了有效的距離度量;3).提供了有效的目標(biāo)采樣機(jī)制，使得這一方法可以直接利用像素輸入來實現(xiàn)基于假想的強(qiáng)化學(xué)習(xí)算法（ Reinforcement Learning with imagined Goals ,RIG)

· 實驗

下面研究人員將通過實驗來證明這一方法是能簡單高效地在合理的時間內(nèi)在真實世界中訓(xùn)練出機(jī)器人策略。實驗分為兩個任務(wù)，分別是基于目標(biāo)圖像直到機(jī)械臂運(yùn)動到人為指定地位置和將目標(biāo)推到期望的位置。實驗中僅僅通過84*84的RGB圖像來訓(xùn)練，而沒有關(guān)節(jié)角度和位置信息。

機(jī)器人首先學(xué)習(xí)到如何在隱含空間內(nèi)學(xué)習(xí)出自己的目標(biāo)，這一階段可以利用解碼器來可視化機(jī)器人為自己假想出來的目標(biāo)。下圖上半部分顯示了機(jī)器人“想象”出的目標(biāo)位置，而下面圖則是實際運(yùn)行狀況。

通過設(shè)置自身的目標(biāo)，機(jī)器人就可以在沒有人類的干預(yù)下自動的訓(xùn)練嘗試以抵達(dá)目標(biāo)。需要執(zhí)行特定的任務(wù)時，才需要人為的給定目標(biāo)圖像。由于機(jī)器人以及多次練習(xí)過如何抵達(dá)目標(biāo)，在下面的圖中我們可以看到它已經(jīng)不需要額外的訓(xùn)練便可以抵達(dá)新的目標(biāo)。

下圖是第二個任務(wù)，利用RIG來訓(xùn)練機(jī)械臂將物體推到指定位置。其中左邊是實驗裝置、右上是目標(biāo)圖像、右下是機(jī)器人推動的過程。

通過圖像訓(xùn)練策略使得機(jī)器人推物體的任務(wù)變得容易多了。只需要在上一個任務(wù)的基礎(chǔ)上加上一張桌子、一個物體、稍微調(diào)整相機(jī)就可以開始訓(xùn)練了。雖然模型的輸入是圖像，但這一算法只需要一個小時的時間就可以訓(xùn)練完成抵達(dá)特定位置的任務(wù)、4.5小時就可以實現(xiàn)將物體推到特定位置的任務(wù)（需要與環(huán)境交互）,同時達(dá)到了比較好的精度。

很多實際使用的強(qiáng)化學(xué)習(xí)算法需要目標(biāo)位置的基準(zhǔn)狀態(tài)，然而這卻需要引入額外的傳感器或訓(xùn)練目標(biāo)檢測算法來實現(xiàn) 。與之相比，這里提出的算法僅僅依賴于RGB相機(jī)，并可以直接輸入圖像完成訓(xùn)練過程。

· 未來研究方向

通過前文描述的方法，可以利用直接輸入的圖片訓(xùn)練出真實世界的機(jī)器人策略，簡單高效地實現(xiàn)不同的任務(wù)?；谶@一結(jié)果，可以開啟很多令人激動地研究領(lǐng)域。這一研究不僅限于利用圖像作為強(qiáng)化學(xué)習(xí)的目標(biāo)，同時還可以廣泛應(yīng)用于語言和描述等不同的目標(biāo)表達(dá)中。同時，可以探索如何利用更本質(zhì)的方式來選擇目標(biāo)以實現(xiàn)更好的自動學(xué)習(xí)。如果使用內(nèi)在動機(jī)的概念與上文提出的策略結(jié)合，可以引導(dǎo)策略進(jìn)行更快的學(xué)習(xí)。

另一個可能方向是訓(xùn)練模型能夠處理動力學(xué)的情況。對環(huán)境動力學(xué)進(jìn)行編碼可以使得隱含空間更加適合強(qiáng)化學(xué)習(xí)，加速學(xué)習(xí)的過程。最后，有很多機(jī)器人任務(wù)的狀態(tài)很難被傳感器所捕捉，但利用基于假想目標(biāo)的學(xué)習(xí)就可以處理諸如形變物體的抓取、目標(biāo)數(shù)量變化這樣復(fù)雜的問題。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

機(jī)器人

機(jī)器人

+關(guān)注

關(guān)注
213

文章
30252

瀏覽量
217814
算法

算法

+關(guān)注

關(guān)注
23

文章
4739

瀏覽量
96724
強(qiáng)化學(xué)習(xí)

強(qiáng)化學(xué)習(xí)

+關(guān)注

關(guān)注
4

文章
269

瀏覽量
11820

原文標(biāo)題：伯克利研究人員提出基于目標(biāo)圖像的視覺強(qiáng)化學(xué)習(xí)算法，讓機(jī)器人可以同時學(xué)習(xí)多個任務(wù)

文章出處：【微信號：thejiangmen，微信公眾號：將門創(chuàng)投】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛兴趣闲谈,欧美亚洲精品 8区,国产精品久久久久精品免费

搜索歷史

基于目標(biāo)圖像的視覺強(qiáng)化學(xué)習(xí)算法，讓機(jī)器人可以同時學(xué)習(xí)多個任務(wù)

評論

搜索歷史

基于目標(biāo)圖像的視覺強(qiáng)化學(xué)習(xí)算法，讓機(jī)器人可以同時學(xué)習(xí)多個任務(wù)

評論

基于目標(biāo)圖像的視覺強(qiáng)化學(xué)習(xí)算法，讓機(jī)器人可以同時學(xué)習(xí)多個任務(wù)