美國陸軍面向未來多域作戰(zhàn)概念研發(fā)了一種高效的地面機器人學(xué)習(xí)模型,該模型提出基于強化學(xué)習(xí)的策略,可有效減少當(dāng)前訓(xùn)練強化學(xué)習(xí)策略的不可預(yù)測性,使自主智能體能夠推理并適應(yīng)不斷變化的戰(zhàn)場條件。
強化學(xué)習(xí)是智能體(Agent)以“試錯”的方式進(jìn)行學(xué)習(xí),通過與環(huán)境進(jìn)行交互獲得的獎賞指導(dǎo)行為,目標(biāo)是使智能體獲得最大的獎賞。強化學(xué)習(xí)技術(shù)具備解決復(fù)雜問題的能力,近年來在如圍棋、象棋和電子游戲等領(lǐng)域有較為長足的發(fā)展。美國陸軍將這種強化學(xué)習(xí)技術(shù)應(yīng)用在地面機器人面臨著兩個巨大挑戰(zhàn)。首先是算法的限制。在強化學(xué)習(xí)中,策略梯度方法(Policy Gradient Methods)是連續(xù)空間可伸縮算法的基礎(chǔ),但是現(xiàn)有技術(shù)無法支持更廣泛的決策目標(biāo),例如風(fēng)險敏感性、安全約束、對先驗知識的探索和發(fā)散。其次就是數(shù)據(jù)量的問題。強化學(xué)習(xí)需要大量的樣本復(fù)雜性,而美國陸軍多域作戰(zhàn)概念和下一代戰(zhàn)斗車輛(NGCV)項目目前數(shù)據(jù)匱乏并不支持現(xiàn)有訓(xùn)練機制。
在陸軍多域作戰(zhàn)概念和NGCV項目中應(yīng)用強化學(xué)習(xí),訓(xùn)練機制必須提高連續(xù)空間中的樣本效率和可靠性,ARL通過將現(xiàn)有的策略搜索方案推廣到通用工具,取得了重要突破。研究人員為通用程序開發(fā)了新的策略搜索方案,并且還確定了其樣本復(fù)雜度。由此產(chǎn)生的策略搜索方案減少了獎勵積累的波動性,形成了對未知領(lǐng)域的有效探索和先驗的機制。值得注意的是,地面機器人獲取數(shù)據(jù)的成本很高。減少獎勵積累的波動性,確保以有效的方式探索未知領(lǐng)域,或者吸收以前的經(jīng)驗,都將有助于打破強化學(xué)習(xí)中現(xiàn)行實踐的樣本效率壁壘。通過減少隨機抽樣的數(shù)量,可以實現(xiàn)策略優(yōu)化。
這項研究為強化學(xué)習(xí)中的經(jīng)典策略梯度定理做出了貢獻(xiàn)。裝備有強化學(xué)習(xí)功能的自主機器人將能夠協(xié)助戰(zhàn)士在未來戰(zhàn)場上進(jìn)行偵察探索和風(fēng)險評估。研究人員下一步計劃在強化學(xué)習(xí)中將更廣泛的決策目標(biāo)納入多主體設(shè)置,并研究強化學(xué)習(xí)主體之間的交互設(shè)置如何在團隊之間產(chǎn)生協(xié)同和對抗性推理。
責(zé)任編輯:YYX
-
機器人
+關(guān)注
關(guān)注
213文章
30263瀏覽量
217901
發(fā)布評論請先 登錄
NVIDIA開源物理引擎與OpenUSD加速機器人學(xué)習(xí)
NVIDIA 發(fā)布三大利器,推動人形機器人邁向新紀(jì)元
NVIDIA展示機器人領(lǐng)域的研究成果
通過NVIDIA Cosmos模型增強機器人學(xué)習(xí)

構(gòu)建人形機器人學(xué)習(xí)的合成運動生成流程

深度解讀英偉達(dá)Newton機器人平臺:技術(shù)革新與跨界生態(tài)構(gòu)建

機器人Blue亮相 搭載英偉達(dá)最新GR00T N1人形機器人通用基礎(chǔ)模型

AgiBot World Colosseo:構(gòu)建通用機器人智能的規(guī)?;瘮?shù)據(jù)平臺

構(gòu)建人形機器人學(xué)習(xí)的合成運動生成管線

評論