chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

基于MADDPG迭代的編隊(duì)協(xié)同控制框架

AI智勝未來(lái) ? 來(lái)源:防務(wù)快訊 ? 2024-04-20 09:30 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

作者:文永明,李博研,張寧寧,李小建,熊楚依,劉潔璽

采用深度強(qiáng)化學(xué)習(xí)算法解決了多智能體編隊(duì)協(xié)同控制問(wèn)題?;诙嘀悄荏w深度確定性策略梯度算法(MADDPG)構(gòu)建分布式編隊(duì)控制架構(gòu),并結(jié)合集中式訓(xùn)練-分布式執(zhí)行框架進(jìn)行求解。針對(duì)多智能體環(huán)境不穩(wěn)定問(wèn)題,依據(jù)單個(gè)智能體的局部信息構(gòu)建對(duì)應(yīng)獎(jiǎng)勵(lì)函數(shù)。針對(duì)大規(guī)模編隊(duì)協(xié)同控制,實(shí)現(xiàn)了多個(gè)多智能體環(huán)境下的算法訓(xùn)練與評(píng)估。試驗(yàn)結(jié)果表明,應(yīng)用該算法的多智能體能夠完成協(xié)同任務(wù),且所有智能體都可得到合理的協(xié)同控制策略。

0引言

多智能體系統(tǒng)(MAS)由若干單獨(dú)控制的、通過(guò)無(wú)線網(wǎng)絡(luò)連接的智能體構(gòu)成,在諸如控制、編隊(duì)、分配、博弈和分布式估計(jì)等問(wèn)題中廣泛研究并取得了一定進(jìn)展。在已知系統(tǒng)動(dòng)力學(xué)模型基礎(chǔ)上,研究者們對(duì)多智能體系統(tǒng)基礎(chǔ)理論開(kāi)展了大量研究。傳統(tǒng)的系統(tǒng)識(shí)別試驗(yàn)依據(jù)輸入-輸出數(shù)據(jù)確定分析模型,但在實(shí)際應(yīng)用中,復(fù)雜過(guò)程建模困難且昂貴。此外,傳統(tǒng)的控制方法在與復(fù)雜環(huán)境交互時(shí)存在局限性,固定策略不能應(yīng)用于不同環(huán)境或任務(wù)場(chǎng)景中。深度強(qiáng)化學(xué)習(xí)關(guān)注一個(gè)智能體的策略模型,借鑒了不完全可知馬爾可夫決策中的最優(yōu)控制思想,智能體通過(guò)與環(huán)境交互來(lái)最大化長(zhǎng)期累積獎(jiǎng)勵(lì),控制優(yōu)化與策略學(xué)習(xí)之間存在著緊密聯(lián)系。因此,深度強(qiáng)化學(xué)習(xí)技術(shù)在系統(tǒng)控制方面存在廣闊的應(yīng)用前景。 深度強(qiáng)化學(xué)習(xí)算法分為基于值的強(qiáng)化學(xué)習(xí)算法和基于策略的強(qiáng)化學(xué)習(xí)算法2類(lèi)。

1) Q學(xué)習(xí)及深度Q學(xué)習(xí)算法是最常用且直接的基于值的算法,它通過(guò)動(dòng)作值函數(shù)來(lái)獲得最優(yōu)策略。通過(guò)每個(gè)智能體學(xué)習(xí)一個(gè)獨(dú)立的最優(yōu)方程,將基于值的算法直接應(yīng)用于多智能體系統(tǒng)。然而,在學(xué)習(xí)過(guò)程中鄰居智能體更新時(shí),當(dāng)前智能體的獎(jiǎng)勵(lì)和狀態(tài)轉(zhuǎn)移等信息也會(huì)發(fā)生改變。在這種情況下,環(huán)境就會(huì)出現(xiàn)不穩(wěn)定性問(wèn)題,并且也不再滿足馬爾可夫性,最終導(dǎo)致基于值的算法的收斂性得不到保證。

2) 基于策略的算法是另一類(lèi)深度強(qiáng)化學(xué)習(xí)算法,該類(lèi)算法通過(guò)獨(dú)立的神經(jīng)網(wǎng)絡(luò)來(lái)近似隨機(jī)策略。執(zhí)行者-評(píng)估者 (Actor-Critic, AC) 算法結(jié)合了基于值和基于策略的算法,其中執(zhí)行者代表生成動(dòng)作的策略函數(shù),評(píng)估者代表評(píng)價(jià)動(dòng)作獎(jiǎng)勵(lì)的值逼近器。深度確定性策略梯度算法(DDPG)是一種無(wú)模型的AC算法,它結(jié)合了確定性策略梯度和深度Q學(xué)習(xí)算法,其中執(zhí)行者和評(píng)估者均用深度神經(jīng)網(wǎng)絡(luò)進(jìn)行逼近。多智能體深度確定性策略梯度方法(MADDPG)將DDPG擴(kuò)展到一個(gè)多智能體協(xié)同完成的任務(wù)環(huán)境,在這個(gè)環(huán)境中智能體智能獲得局部信息。MADDPG是一個(gè)針對(duì)多智能體場(chǎng)景重新設(shè)計(jì)的AC模型,旨在解決不斷變化的環(huán)境和多智能體間的復(fù)雜問(wèn)題。

1理論基礎(chǔ)

1.1 代數(shù)圖論

5f2fa5f8-fe6b-11ee-a297-92fbcf53809c.png

5f3f9454-fe6b-11ee-a297-92fbcf53809c.png

1.2 問(wèn)題描述

5f4c854c-fe6b-11ee-a297-92fbcf53809c.png

2基于MADDPG迭代的編隊(duì)協(xié)同控制框架

2.1 傳統(tǒng)控制設(shè)計(jì)

5f722932-fe6b-11ee-a297-92fbcf53809c.png

2.2 編隊(duì)協(xié)同控制算法框架設(shè)計(jì)

5f89d3c0-fe6b-11ee-a297-92fbcf53809c.png

5fa56b30-fe6b-11ee-a297-92fbcf53809c.png

圖1 編隊(duì)控制算法框架

2.3 學(xué)習(xí)目標(biāo)設(shè)計(jì)

5fb3d940-fe6b-11ee-a297-92fbcf53809c.png

5fc6fdb8-fe6b-11ee-a297-92fbcf53809c.png

2.4 編隊(duì)協(xié)同控制算法流程

5fd67cf2-fe6b-11ee-a297-92fbcf53809c.png

5fe6f294-fe6b-11ee-a297-92fbcf53809c.png

3試驗(yàn)結(jié)果與分析

3.1 試驗(yàn)設(shè)置

600a7354-fe6b-11ee-a297-92fbcf53809c.png

圖2 試驗(yàn)交互拓?fù)鋱D

3.2 結(jié)果與分析

本文在3.1節(jié)展示的環(huán)境中運(yùn)行并評(píng)估本文算法,仿真結(jié)果如圖3所示,圖4給出了智能體訓(xùn)練前后運(yùn)動(dòng)軌跡對(duì)比。 4個(gè)智能體的長(zhǎng)期累計(jì)獎(jiǎng)勵(lì)得分如圖3(a)所示。在學(xué)習(xí)過(guò)程中得分是逐漸增加的,并且在50?000次迭代后收斂到6以?xún)?nèi),這意味著MAS在50?000次迭代后可以有效消除初始誤差;同時(shí),這個(gè)得分也意味著MAS實(shí)現(xiàn)理想編隊(duì)和到達(dá)目標(biāo)位置所需的代價(jià)。圖3(b)是智能體最后50次訓(xùn)練收斂時(shí)的穩(wěn)定獎(jiǎng)勵(lì)。由圖可見(jiàn),4個(gè)智能體可以快速實(shí)現(xiàn)穩(wěn)定編隊(duì),且跟蹤誤差同樣意味著獎(jiǎng)懲可以在1?s內(nèi)收斂至接近于0。 4個(gè)智能體在訓(xùn)練前后的初始、1?s、2?s、3?s和4?s編隊(duì)狀態(tài)如圖4所示。圖中藍(lán)色點(diǎn)為領(lǐng)航者,對(duì)應(yīng)圖2中0號(hào)藍(lán)色點(diǎn),粉色、灰色和綠色點(diǎn)分別對(duì)應(yīng)圖2中1號(hào)粉色點(diǎn)、2號(hào)紫色點(diǎn)和3號(hào)橙色點(diǎn)。試驗(yàn)結(jié)果表明,由于缺乏環(huán)境的先驗(yàn)知識(shí),MAS在首次嘗試時(shí)會(huì)偏離隊(duì)形。當(dāng)智能體通過(guò)在環(huán)境中反復(fù)試錯(cuò)積累經(jīng)驗(yàn),MAS會(huì)收斂形成一個(gè)穩(wěn)定的編隊(duì)。最終,領(lǐng)航者可以到達(dá)目標(biāo)位置且追隨者可以與領(lǐng)航者保持編隊(duì)位置穩(wěn)定。

601ba912-fe6b-11ee-a297-92fbcf53809c.png

圖 3 試驗(yàn)環(huán)境下仿真結(jié)果

60288ec0-fe6b-11ee-a297-92fbcf53809c.png

圖 4 智能體訓(xùn)練前后狀態(tài)對(duì)比

4結(jié)束語(yǔ)

本文采用多智能體策略梯度算法,結(jié)合集中訓(xùn)練和分布執(zhí)行的框架,研究并求解多智能體協(xié)同編隊(duì)控制問(wèn)題,設(shè)計(jì)構(gòu)建了一種基于多智能體深度確定性策略梯度算法的分布式編隊(duì)控制框架,并給出了算法的訓(xùn)練流程。通過(guò)對(duì)多智能體合作環(huán)境的仿真訓(xùn)練與評(píng)估,驗(yàn)證了本文算法的有效性。試驗(yàn)結(jié)果表明,本文算法能夠使智能體在動(dòng)力學(xué)模型先驗(yàn)知識(shí)未知的情況下協(xié)同完成任務(wù),有助于解決數(shù)學(xué)模型過(guò)于復(fù)雜而難以識(shí)別的控制問(wèn)題。

審核編輯:黃飛

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴

原文標(biāo)題:基于深度強(qiáng)化學(xué)習(xí)的多智能體編隊(duì)協(xié)同控制

文章出處:【微信號(hào):AI智勝未來(lái),微信公眾號(hào):AI智勝未來(lái)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    請(qǐng)問(wèn)迭代器的實(shí)現(xiàn)原理是什么?

    什么是集合框架?LIST接口的實(shí)際應(yīng)用?迭代器的實(shí)現(xiàn)原理是什么?
    發(fā)表于 11-04 09:45

    【飛控開(kāi)發(fā)高級(jí)篇7】瘋殼·開(kāi)源編隊(duì)無(wú)人機(jī)-編隊(duì)飛行

    COCOFLY教程——瘋殼無(wú)人機(jī)·系列編隊(duì)飛行圖1 一、編隊(duì)飛行 COCOFLY 支持編隊(duì)飛行,編隊(duì)飛行需要依托編隊(duì)的圖形碼地圖以及CO
    發(fā)表于 06-14 18:41

    【飛控開(kāi)發(fā)高級(jí)教程7】瘋殼·開(kāi)源編隊(duì)無(wú)人機(jī)-編隊(duì)飛行

    COCOFLY教程——瘋殼·無(wú)人機(jī)·系列編隊(duì)飛行 圖1 一、編隊(duì)飛行 COCOFLY 支持編隊(duì)飛行,編隊(duì)飛行需要依托編隊(duì)的圖形碼地圖以
    發(fā)表于 07-25 19:06

    【瘋殼·無(wú)人機(jī)教程29】開(kāi)源編隊(duì)無(wú)人機(jī)-編隊(duì)飛行

    COCOFLY教程——瘋殼·無(wú)人機(jī)·系列編隊(duì)飛行圖1 一、編隊(duì)飛行 COCOFLY 支持編隊(duì)飛行,編隊(duì)飛行需要依托編隊(duì)的圖形碼地圖以及CO
    發(fā)表于 09-05 17:40

    多機(jī)器人的積分滑模編隊(duì)控制_錢(qián)殿偉

    多機(jī)器人的積分滑模編隊(duì)控制_錢(qián)殿偉
    發(fā)表于 01-08 13:26 ?1次下載

    一種欠驅(qū)動(dòng)船舶編隊(duì)滑模魯棒控制方法_楊震

    一種欠驅(qū)動(dòng)船舶編隊(duì)滑模魯棒控制方法_楊震
    發(fā)表于 01-08 13:58 ?1次下載

    無(wú)線通信網(wǎng)絡(luò)的多智能小車(chē)編隊(duì)控制系統(tǒng)_申忠宇

    無(wú)線通信網(wǎng)絡(luò)的多智能小車(chē)編隊(duì)控制系統(tǒng)_申忠宇
    發(fā)表于 01-12 22:26 ?3次下載

    無(wú)線通信網(wǎng)絡(luò)的多小車(chē)編隊(duì)控制系統(tǒng)

    無(wú)線通信網(wǎng)絡(luò)的多小車(chē)編隊(duì)控制系統(tǒng)
    發(fā)表于 09-01 10:51 ?3次下載
    無(wú)線通信網(wǎng)絡(luò)的多小車(chē)<b class='flag-5'>編隊(duì)</b><b class='flag-5'>控制</b>系統(tǒng)

    基于二層鄰居信息的多智能體系統(tǒng)編隊(duì)控制

    為了加快多智能體編隊(duì)控制過(guò)程中的狀態(tài)收斂,提出基于多跳式網(wǎng)絡(luò)技術(shù)的編隊(duì)控制方法。首先將多智能體系統(tǒng)(MAS)中的每個(gè)智能體之間的相對(duì)速度偏移引入到
    發(fā)表于 11-29 15:34 ?3次下載
    基于二層鄰居信息的多智能體系統(tǒng)<b class='flag-5'>編隊(duì)</b><b class='flag-5'>控制</b>

    基于迭代填充的內(nèi)存計(jì)算框架分區(qū)映射算法

    針對(duì)內(nèi)存計(jì)算框架Spark在作業(yè)Shuffle階段一次分區(qū)產(chǎn)生的數(shù)據(jù)傾斜問(wèn)題,提出一種內(nèi)存計(jì)算框架迭代填充分區(qū)映射算法(IFPM)。首先,分析Spark作業(yè)的執(zhí)行機(jī)制,建立作業(yè)效率模型和分區(qū)映射
    發(fā)表于 12-05 16:32 ?0次下載
    基于<b class='flag-5'>迭代</b>填充的內(nèi)存計(jì)算<b class='flag-5'>框架</b>分區(qū)映射算法

    多無(wú)人機(jī)協(xié)同編隊(duì)飛行控制的關(guān)鍵技術(shù)和發(fā)展展望

    搭建滿足多無(wú)人機(jī)協(xié)同編隊(duì)仿真的多無(wú)人機(jī)仿真平臺(tái),對(duì)于加快開(kāi)發(fā)周期,降低多無(wú)人機(jī)編隊(duì)試驗(yàn)成本,具有十分重要的意義。當(dāng)前國(guó)內(nèi)外已有一些針對(duì)無(wú)人機(jī)編隊(duì)或多無(wú)人機(jī)仿真系統(tǒng)的研究,主要分為如下4
    發(fā)表于 07-26 10:09 ?1.1w次閱讀
    多無(wú)人機(jī)<b class='flag-5'>協(xié)同</b><b class='flag-5'>編隊(duì)</b>飛行<b class='flag-5'>控制</b>的關(guān)鍵技術(shù)和發(fā)展展望

    基于改進(jìn)一致性的多無(wú)人機(jī)編隊(duì)控制算法

    基于改進(jìn)一致性的多無(wú)人機(jī)編隊(duì)控制算法
    發(fā)表于 06-22 16:02 ?16次下載

    基于虛擬結(jié)構(gòu)的機(jī)器人編隊(duì)控制方法

    目前,實(shí)現(xiàn)多 AUV 系統(tǒng)編隊(duì)航行的控制方法主要包括基于領(lǐng)航者-跟隨者的方法。
    的頭像 發(fā)表于 10-10 17:39 ?3611次閱讀

    集群無(wú)人艇協(xié)同微波網(wǎng)絡(luò)通信技術(shù)探討

    通信互聯(lián) 、協(xié)同控制、工業(yè)化量產(chǎn)的系統(tǒng)工程; 探討了海上無(wú)人艇微波通信組網(wǎng)的解決方案,為無(wú)人艇編隊(duì)在軍事領(lǐng)域的深入研究提供了一定的參考價(jià)值。?
    發(fā)表于 05-18 09:49 ?0次下載

    想做無(wú)人機(jī)編隊(duì)表演?需要掌握哪些?

    最近”低空經(jīng)濟(jì)“火了,嵌入式工程師應(yīng)該學(xué)習(xí)哪些技術(shù)棧才能做無(wú)人機(jī)編隊(duì)表演?一、什么是無(wú)人機(jī)編隊(duì)表演?無(wú)人機(jī)編隊(duì)表演是一種通過(guò)多架無(wú)人機(jī)協(xié)同飛行和執(zhí)行各種精確動(dòng)作和
    的頭像 發(fā)表于 03-29 08:09 ?3416次閱讀
    想做無(wú)人機(jī)<b class='flag-5'>編隊(duì)</b>表演?需要掌握哪些?