七仙女欲春1992理论电影,亚洲国产se情麻豆,亚洲欧美日本一本在线

一般來說，在行人間行進的智能體在進行導(dǎo)航時，需要能夠?qū)Ξ?dāng)前的環(huán)境做出相應(yīng)的觀察，以避免碰撞，進行下一步動作。在本文中，麻省理工學(xué)院航空航天控制實驗室的Michael Everett和 Jonathan P. How教授，以及Oculus Research的Yu Fan Chen教授，提出一種新型避免碰撞的算法—GA3C-CADRL，通過深度強化學(xué)習(xí)進行模擬訓(xùn)練，而不需要智能體對其他智能體的動態(tài)行為有所了解，并通過在網(wǎng)絡(luò)的輸入端使用LSTM，使得算法能夠依據(jù)對相鄰智能體的觀察結(jié)果來做出決策，進而選擇下一個動作。

一般來說，在行人之間進行導(dǎo)航的機器人是使用避免碰撞算法（collision avoidance algorithms）來實現(xiàn)安全且高效的操作的。在最近的一些研究中，提出了將深度強化學(xué)習(xí)算法作為對復(fù)雜的交互和協(xié)作進行建模的框架。然而，當(dāng)環(huán)境中智能體的數(shù)量增加時，該操作的實現(xiàn)是通過對其他智能體偏離現(xiàn)實的行為的關(guān)鍵性假設(shè)來實現(xiàn)的。這項研究對我們以往的研究方法進行了擴展，開發(fā)出一種算法，該算法可以在各種類型的動態(tài)智能體中學(xué)習(xí)避免碰撞，而不必假設(shè)它們遵循任何特定的行為規(guī)則。此外，這項研究還引入了一種使用長短期記憶網(wǎng)絡(luò)（LSTM）的策略，該策略使得算法能夠使用任意數(shù)量的其他智能體的觀測值，而不是像以往那些需要具有固定觀測值大小的方法。當(dāng)智能體的數(shù)量增加時，我們所提出的算法在模擬中的性能表現(xiàn)要優(yōu)于我們以往的方法，并且該算法是在一個沒有使用3D激光雷達的、以人類行走速度行駛的全自動機器車輛上運行得以證明的。

可以這樣說，在行人之間進行導(dǎo)航的機器人將能夠觀察到許多人類行為，例如合作或遺忘。行人不僅能夠移動障礙物，而且還可以不斷地做出機器人只能部分觀察的決策。這項研究解決了在存在其他決策智能體的世界中運行的智能體所面對的避免碰撞問題，特別是考慮到機器人—行人領(lǐng)域。分散式避免碰撞算法的一個基本問題是：智能體所知道和假定的其他智能體的信念狀態(tài)、策略和意圖是什么？如果沒有智能體之間的溝通，這些屬性不是可以直接進行衡量的，但它們可以通過推理得到。

圖1：機器人在行人之間進行導(dǎo)航。機器人使用機載傳感器來感知環(huán)境并運行避免碰撞算法以保持安全和有效的操作。

智能體對其他智能體行為的假設(shè)將會影響其決定采取何種行動。在最簡單的情況下，智能體假設(shè)其他智能體是靜態(tài)的，并且足夠快地進行重新規(guī)劃以避免碰撞。另一種方法是，假定其他智能體是動態(tài)障礙，但速度保持不變。此外，智能體可以假定其智能體是決策制定者，其中，它們的速度可能會隨時根據(jù)已知或未知的策略（決策規(guī)則）進行改變。即使機器人知道行人的決策規(guī)則，但因為其他智能體的意圖是未知的（例如目標(biāo)目的地），所以也不可能完全預(yù)測其他非溝通的決策智能體（例如行人）將如何響應(yīng)智能體所作出的決策。因此，與其試圖明確預(yù)測其他智能體的行為，最近的研究方法已經(jīng)使用強化學(xué)習(xí)（RL）來對智能體之間復(fù)雜的相互作用和協(xié)作進行建模。

圖2：LSTM展開以顯示每個輸入。在每個決策步驟中，智能體將一個可觀察的狀態(tài)向量，即每個附近的智能體，依次送入LSTM單元。LSTM單元將相關(guān)信息存儲在隱藏狀態(tài)中，hi。最終隱藏狀態(tài)hn，將其他智能體的整個狀態(tài)編碼成固定長度的向量，然后饋送到網(wǎng)絡(luò)的前饋部分。智能體的順序是通過減少到自我智能體的距離來進行排序的，以便最近的智能體對hn有近因效應(yīng)（recent effect）。

雖然基于學(xué)習(xí)的方法已被證明在這個領(lǐng)域內(nèi)具有良好的性能表現(xiàn)，但現(xiàn)有方法對其他智能體，如同質(zhì)性或短時間尺度上的特定運動模型做了細(xì)微的假設(shè)。在這項研究中，我們對以往的研究方法進行了擴展以學(xué)習(xí)避免碰撞策略，而不假設(shè)其他智能體遵循任何特定的行為模型。

圖3：網(wǎng)絡(luò)架構(gòu)。附近智能體的的可觀察狀態(tài)被按順序饋送到LSTM中。

避免碰撞的另一項關(guān)鍵挑戰(zhàn)是環(huán)境中其他智能體的數(shù)量有所不同，而在這一領(lǐng)域中使用的前饋神經(jīng)網(wǎng)絡(luò)需要固定維度的輸入。現(xiàn)有的策略明確了網(wǎng)絡(luò)可觀察到的智能體的最大數(shù)量，或使用原始傳感器數(shù)據(jù)作為輸入。本次研究采用自然語言處理的思想，通過在網(wǎng)絡(luò)輸入端使用長短期記憶網(wǎng)路（LSTM）單元，將現(xiàn)實世界中不同的大小狀態(tài)（例如：其他智能體的位置）編碼成固定長度的向量。這使得該算法可以根據(jù)機器人周圍任意數(shù)量的智能體，來做出相應(yīng)的決策。

本次研究的主要貢獻在于：

?我們對避免碰撞的算法做了擴展，使其不必假定其他智能體的行為。

?我們提出了一種策略，使得算法能夠利用任意數(shù)量智能體的觀察結(jié)果。

?我們通過模擬結(jié)果證明了新框架的優(yōu)點。

?在不使用3D激光雷達的情況下，通過在行人間運行的機器人進行了算法演示。

目前，該軟件已經(jīng)作為開源ROS軟件包cadrl_ros發(fā)布。

圖4：機器人硬件。這款緊湊、低成本（<1000美元）的感測套件使用單個2D激光雷達和3個Intel RealSense R200攝像頭。總傳感器和計算組件的高度小于3英寸，為貨物留出足夠的空間。

本次研究提出了一種避免碰撞的算法—GA3C-CADRL，該算法僅通過深度強化學(xué)習(xí)進行模擬訓(xùn)練，而不需要對其他智能體的動態(tài)有所了解。此外，我們還提出了一種策略，通過在網(wǎng)絡(luò)的輸入端使用LSTM，使得算法能夠依據(jù)對任意數(shù)量的相鄰智能體的觀察結(jié)果來做出決策進而選擇下一個動作。隨著環(huán)境中智能體數(shù)量的增加，新方法的性能將優(yōu)于現(xiàn)有方法。研究結(jié)果表明，該算法能夠在不被明確執(zhí)行（explicity enforced）的情況下學(xué)習(xí)問題結(jié)構(gòu)，并支持使用LSTM將大量智能體在現(xiàn)實世界中的狀態(tài)編碼為固定長度的表征。新算法在一個小型真實機器人上成功運行，該機器人在不使用3D激光雷達的情況下，可以在保持人類行走速度的同時，在行人之間進行導(dǎo)航。今后的研究將利用本文全新的、更為通用的公式，借助智能體的行為選擇，更為明確地研究信號意圖所帶來的影響。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

機器人

機器人

+關(guān)注

關(guān)注
213

文章
31494

瀏覽量
223867
算法

算法

+關(guān)注

關(guān)注
23

文章
4810

瀏覽量
98610
導(dǎo)航

導(dǎo)航

+關(guān)注

關(guān)注
7

文章
585

瀏覽量
44086
激光雷達

激光雷達

+關(guān)注

關(guān)注
982

文章
4560

瀏覽量
197185

原文標(biāo)題：MIT提出使用「深度強化學(xué)習(xí)」幫助智能體在運動中做出「動作決策」

文章出處：【微信號：IV_Technology，微信公眾號：智車科技】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛兴趣闲谈,欧美亚洲精品 8区,国产精品久久久久精品免费

搜索歷史

一種避免碰撞的算法—GA3C-CADRL分析

評論