有人有在线观看片资源吗,国产精品福利在线观看无码卡一

作者：文永明，李博研，張寧寧，李小建，熊楚依，劉潔璽

采用深度強(qiáng)化學(xué)習(xí)算法解決了多智能體編隊(duì)協(xié)同控制問題?；诙嘀悄荏w深度確定性策略梯度算法（MADDPG）構(gòu)建分布式編隊(duì)控制架構(gòu)，并結(jié)合集中式訓(xùn)練-分布式執(zhí)行框架進(jìn)行求解。針對多智能體環(huán)境不穩(wěn)定問題，依據(jù)單個智能體的局部信息構(gòu)建對應(yīng)獎勵函數(shù)。針對大規(guī)模編隊(duì)協(xié)同控制，實(shí)現(xiàn)了多個多智能體環(huán)境下的算法訓(xùn)練與評估。試驗(yàn)結(jié)果表明，應(yīng)用該算法的多智能體能夠完成協(xié)同任務(wù)，且所有智能體都可得到合理的協(xié)同控制策略。

0引言

多智能體系統(tǒng)（MAS）由若干單獨(dú)控制的、通過無線網(wǎng)絡(luò)連接的智能體構(gòu)成，在諸如控制、編隊(duì)、分配、博弈和分布式估計(jì)等問題中廣泛研究并取得了一定進(jìn)展。在已知系統(tǒng)動力學(xué)模型基礎(chǔ)上，研究者們對多智能體系統(tǒng)基礎(chǔ)理論開展了大量研究。傳統(tǒng)的系統(tǒng)識別試驗(yàn)依據(jù)輸入-輸出數(shù)據(jù)確定分析模型，但在實(shí)際應(yīng)用中，復(fù)雜過程建模困難且昂貴。此外，傳統(tǒng)的控制方法在與復(fù)雜環(huán)境交互時存在局限性，固定策略不能應(yīng)用于不同環(huán)境或任務(wù)場景中。深度強(qiáng)化學(xué)習(xí)關(guān)注一個智能體的策略模型，借鑒了不完全可知馬爾可夫決策中的最優(yōu)控制思想，智能體通過與環(huán)境交互來最大化長期累積獎勵，控制優(yōu)化與策略學(xué)習(xí)之間存在著緊密聯(lián)系。因此，深度強(qiáng)化學(xué)習(xí)技術(shù)在系統(tǒng)控制方面存在廣闊的應(yīng)用前景。深度強(qiáng)化學(xué)習(xí)算法分為基于值的強(qiáng)化學(xué)習(xí)算法和基于策略的強(qiáng)化學(xué)習(xí)算法2類。

1) Q學(xué)習(xí)及深度Q學(xué)習(xí)算法是最常用且直接的基于值的算法，它通過動作值函數(shù)來獲得最優(yōu)策略。通過每個智能體學(xué)習(xí)一個獨(dú)立的最優(yōu)方程，將基于值的算法直接應(yīng)用于多智能體系統(tǒng)。然而，在學(xué)習(xí)過程中鄰居智能體更新時，當(dāng)前智能體的獎勵和狀態(tài)轉(zhuǎn)移等信息也會發(fā)生改變。在這種情況下，環(huán)境就會出現(xiàn)不穩(wěn)定性問題，并且也不再滿足馬爾可夫性，最終導(dǎo)致基于值的算法的收斂性得不到保證。

2) 基于策略的算法是另一類深度強(qiáng)化學(xué)習(xí)算法，該類算法通過獨(dú)立的神經(jīng)網(wǎng)絡(luò)來近似隨機(jī)策略。執(zhí)行者-評估者 (Actor-Critic, AC) 算法結(jié)合了基于值和基于策略的算法，其中執(zhí)行者代表生成動作的策略函數(shù)，評估者代表評價動作獎勵的值逼近器。深度確定性策略梯度算法（DDPG）是一種無模型的AC算法，它結(jié)合了確定性策略梯度和深度Q學(xué)習(xí)算法，其中執(zhí)行者和評估者均用深度神經(jīng)網(wǎng)絡(luò)進(jìn)行逼近。多智能體深度確定性策略梯度方法（MADDPG）將DDPG擴(kuò)展到一個多智能體協(xié)同完成的任務(wù)環(huán)境，在這個環(huán)境中智能體智能獲得局部信息。MADDPG是一個針對多智能體場景重新設(shè)計(jì)的AC模型，旨在解決不斷變化的環(huán)境和多智能體間的復(fù)雜問題。

1理論基礎(chǔ)

1.1 代數(shù)圖論

1.2 問題描述

2基于MADDPG迭代的編隊(duì)協(xié)同控制框架

2.1 傳統(tǒng)控制設(shè)計(jì)

2.2 編隊(duì)協(xié)同控制算法框架設(shè)計(jì)

圖1 編隊(duì)控制算法框架

2.3 學(xué)習(xí)目標(biāo)設(shè)計(jì)

2.4 編隊(duì)協(xié)同控制算法流程

3試驗(yàn)結(jié)果與分析

3.1 試驗(yàn)設(shè)置

圖2 試驗(yàn)交互拓?fù)鋱D

3.2 結(jié)果與分析

本文在3.1節(jié)展示的環(huán)境中運(yùn)行并評估本文算法，仿真結(jié)果如圖3所示，圖4給出了智能體訓(xùn)練前后運(yùn)動軌跡對比。 4個智能體的長期累計(jì)獎勵得分如圖3(a)所示。在學(xué)習(xí)過程中得分是逐漸增加的，并且在50?000次迭代后收斂到6以內(nèi)，這意味著MAS在50?000次迭代后可以有效消除初始誤差；同時，這個得分也意味著MAS實(shí)現(xiàn)理想編隊(duì)和到達(dá)目標(biāo)位置所需的代價。圖3(b)是智能體最后50次訓(xùn)練收斂時的穩(wěn)定獎勵。由圖可見，4個智能體可以快速實(shí)現(xiàn)穩(wěn)定編隊(duì)，且跟蹤誤差同樣意味著獎懲可以在1?s內(nèi)收斂至接近于0。 4個智能體在訓(xùn)練前后的初始、1?s、2?s、3?s和4?s編隊(duì)狀態(tài)如圖4所示。圖中藍(lán)色點(diǎn)為領(lǐng)航者，對應(yīng)圖2中0號藍(lán)色點(diǎn)，粉色、灰色和綠色點(diǎn)分別對應(yīng)圖2中1號粉色點(diǎn)、2號紫色點(diǎn)和3號橙色點(diǎn)。試驗(yàn)結(jié)果表明，由于缺乏環(huán)境的先驗(yàn)知識，MAS在首次嘗試時會偏離隊(duì)形。當(dāng)智能體通過在環(huán)境中反復(fù)試錯積累經(jīng)驗(yàn)，MAS會收斂形成一個穩(wěn)定的編隊(duì)。最終，領(lǐng)航者可以到達(dá)目標(biāo)位置且追隨者可以與領(lǐng)航者保持編隊(duì)位置穩(wěn)定。

圖 3 試驗(yàn)環(huán)境下仿真結(jié)果

圖 4 智能體訓(xùn)練前后狀態(tài)對比

4結(jié)束語

本文采用多智能體策略梯度算法，結(jié)合集中訓(xùn)練和分布執(zhí)行的框架，研究并求解多智能體協(xié)同編隊(duì)控制問題，設(shè)計(jì)構(gòu)建了一種基于多智能體深度確定性策略梯度算法的分布式編隊(duì)控制框架，并給出了算法的訓(xùn)練流程。通過對多智能體合作環(huán)境的仿真訓(xùn)練與評估，驗(yàn)證了本文算法的有效性。試驗(yàn)結(jié)果表明，本文算法能夠使智能體在動力學(xué)模型先驗(yàn)知識未知的情況下協(xié)同完成任務(wù)，有助于解決數(shù)學(xué)模型過于復(fù)雜而難以識別的控制問題。

審核編輯：黃飛

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報(bào)投訴

神經(jīng)網(wǎng)絡(luò)

神經(jīng)網(wǎng)絡(luò)

+關(guān)注

關(guān)注
42

文章
4838

瀏覽量
107804
算法

算法

+關(guān)注

關(guān)注
23

文章
4784

瀏覽量
98076
無線網(wǎng)絡(luò)

無線網(wǎng)絡(luò)

+關(guān)注

關(guān)注
6

文章
1515

瀏覽量
69031
深度學(xué)習(xí)

深度學(xué)習(xí)

+關(guān)注

關(guān)注
73

文章
5599

瀏覽量
124400

原文標(biāo)題：基于深度強(qiáng)化學(xué)習(xí)的多智能體編隊(duì)協(xié)同控制

文章出處：【微信號：AI智勝未來，微信公眾號：AI智勝未來】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛兴趣闲谈,欧美亚洲精品 8区,国产精品久久久久精品免费

搜索歷史

基于MADDPG迭代的編隊(duì)協(xié)同控制框架

評論