失敗是成功之母:HER有自我審視能力。
OpenAI的研究人員集中精力于構(gòu)建具有更強(qiáng)的學(xué)習(xí)能力的人工智能。得益于他們的增強(qiáng)學(xué)習(xí)系統(tǒng)OpenAI baselines,機(jī)器學(xué)習(xí)算法可以進(jìn)行自主學(xué)習(xí)。目前,這個(gè)新的算法保證人工智能可以像人類一樣從自己的錯(cuò)誤中汲取教訓(xùn)。
這個(gè)進(jìn)步源于OpenAI的研究人員在近期公布的名為“后見之明經(jīng)驗(yàn)復(fù)現(xiàn)(Hindsight Experience Reply, HER)”的開源算法。正如名字所示,HER幫助人工智能系統(tǒng)在完成一項(xiàng)任務(wù)后,具有自我審視的能力。OpenAI的博客中提到,人工智能認(rèn)為失敗乃成功之母。
研究人員寫到:“構(gòu)建HER的關(guān)鍵在于利用人類的直覺:在實(shí)現(xiàn)某個(gè)任務(wù)時(shí),雖然我們沒有成功,但是在這個(gè)過(guò)程中我們學(xué)到一些不一樣的東西,既然如此,為何不能將我們最終學(xué)到的知識(shí)作為我們最初的目標(biāo)呢?“
簡(jiǎn)而言之,這意味著每一次失敗的嘗試都是為了實(shí)現(xiàn)一個(gè)意想不到的“虛擬”目標(biāo),而非既定目標(biāo)。
回想一下你學(xué)騎單車的經(jīng)歷,在最開始的幾次嘗試中,你無(wú)法掌握平衡。但是這些經(jīng)驗(yàn)告訴了你怎么騎車是不正確的,怎么做不能保持平衡。就像在人類的學(xué)習(xí)過(guò)程中,每一次的失敗讓我們距離成功更進(jìn)一步。
獎(jiǎng)勵(lì)每一次失敗,并且失敗也不沮喪
通過(guò)使用HER,OpenAI希望他們的人工智能系統(tǒng)可以利用上述的方法來(lái)學(xué)習(xí)。與此同時(shí),這種算法也被作為增強(qiáng)學(xué)習(xí)模型中的獎(jiǎng)勵(lì)機(jī)制的替代算法。為了訓(xùn)練人工智能,使其具有獨(dú)立的學(xué)習(xí)能力,它需要包含一個(gè)獎(jiǎng)勵(lì)機(jī)制:如果人工智能算法達(dá)到了預(yù)期目標(biāo),就可以得到一個(gè)小獎(jiǎng)勵(lì),就像獎(jiǎng)勵(lì)給小孩子一塊奶油餅干一樣,否則就什么都得不到。另外一個(gè)系統(tǒng)根據(jù)人工智能距離預(yù)期目標(biāo)的距離來(lái)給出獎(jiǎng)勵(lì)。
但是這兩種算法并不是完美的。第一個(gè)算法會(huì)阻礙學(xué)習(xí),因?yàn)橐粋€(gè)人工智能算法在訓(xùn)練過(guò)程中要么得到獎(jiǎng)勵(lì),要么沒得到。另一方面,根據(jù)IEEE Spectrum報(bào)道的內(nèi)容顯示,第二系統(tǒng)在實(shí)現(xiàn)時(shí),需要衡量與目標(biāo)的距離并給出獎(jiǎng)勵(lì),這個(gè)過(guò)程是很需要技巧的。如果把每一個(gè)任務(wù)都當(dāng)作是后見之明的目標(biāo),即使人工智能系統(tǒng)沒有完成指定的任務(wù),HER也會(huì)提供一個(gè)獎(jiǎng)勵(lì)。這樣幫助人工智能更快更好地學(xué)習(xí)。
OpenAI 在他的的博客中提到:“通過(guò)進(jìn)行這種獎(jiǎng)勵(lì)機(jī)制的替換,強(qiáng)化學(xué)習(xí)算法在實(shí)現(xiàn)某些目標(biāo)后會(huì)獲得一個(gè)學(xué)習(xí)信號(hào),即使這個(gè)學(xué)習(xí)任務(wù)不是它最初希望實(shí)現(xiàn)的。如果重復(fù)這個(gè)過(guò)程,系統(tǒng)最終可以實(shí)現(xiàn)任意的目標(biāo),包括最初的既定目標(biāo)。
這種方法并不意味著使用HER方法可以完全簡(jiǎn)化人工智能系統(tǒng)學(xué)習(xí)某個(gè)任務(wù)的過(guò)程。研究者表示:“在機(jī)器人上使用HER進(jìn)行學(xué)習(xí)仍然很難實(shí)現(xiàn),因?yàn)檫@個(gè)過(guò)程需要大量的數(shù)據(jù)“。
無(wú)論如何,正如OpenAI的模型所顯示的,HER有助于鼓勵(lì)人工智能系統(tǒng)像人類一樣從錯(cuò)誤中學(xué)習(xí),兩者的主要區(qū)別在于人工智能在面對(duì)失敗的時(shí)候不會(huì)像一些脆弱的人類那樣傷心沮喪。
-
人工智能
+關(guān)注
關(guān)注
1811文章
49504瀏覽量
258311 -
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8528瀏覽量
135881
原文標(biāo)題:高明!OpenAI提出HER算法,AI系統(tǒng)學(xué)會(huì)從錯(cuò)誤中學(xué)習(xí)
文章出處:【微信號(hào):AI_era,微信公眾號(hào):新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
現(xiàn)場(chǎng)解決EMC電磁輻射干擾:“望聞問(wèn)切”,像中醫(yī)一樣
挖到寶了!人工智能綜合實(shí)驗(yàn)箱,高校新工科的寶藏神器
挖到寶了!比鄰星人工智能綜合實(shí)驗(yàn)箱,高校新工科的寶藏神器!
維智科技為什么提出時(shí)空人工智能
如何構(gòu)建邊緣人工智能基礎(chǔ)設(shè)施
一文速覽:人工智能(AI)算法與GPU運(yùn)行原理詳解

1750億美元資金籌備中:OpenAI加速人工智能基礎(chǔ)設(shè)施建設(shè)
OpenAI目標(biāo)轉(zhuǎn)向“超級(jí)智能”
OpenAI公布2025年發(fā)展目標(biāo)
從算法到生命,自動(dòng)化人工生命搜索已然顯現(xiàn)?

評(píng)論