沈陽航空航天大學吳杰宏獲國家專利權
買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監(jiān)控用IP管家,真方便!
龍圖騰網(wǎng)獲悉沈陽航空航天大學申請的專利一種基于多智能體深度強化學習的多無人機編隊集群控制方法獲國家發(fā)明授權專利權,本發(fā)明授權專利權由國家知識產(chǎn)權局授予,授權公告號為:CN115755949B 。
龍圖騰網(wǎng)通過國家知識產(chǎn)權局官網(wǎng)在2025-08-08發(fā)布的發(fā)明授權授權公告中獲悉:該發(fā)明授權的專利申請?zhí)?專利號為:202210651239.X,技術領域涉及:G05D1/695;該發(fā)明授權一種基于多智能體深度強化學習的多無人機編隊集群控制方法是由吳杰宏;于元哲;馬堅;范純龍;高利軍;周振輝;楊華;畢靜;邱虹坤設計研發(fā)完成,并于2022-06-09向國家知識產(chǎn)權局提交的專利申請。
本一種基于多智能體深度強化學習的多無人機編隊集群控制方法在說明書摘要公布了:本發(fā)明涉及多無人機的智能協(xié)同控制領域,提供了一種基于多智能體深度強化學習的多無人機編隊集群自主聚集方法,主要包括以下步驟:1對單無人機運動過程進行建模;2將異構多無人機聚集過程建模為馬爾科夫博弈過程;3基于MADDPG算法對聚集過程進行訓練;4引入注意力機制到多智能體深度強化學習中,優(yōu)化無人機的學習過程;5利用學習到的策略對多無人機進行控制;本發(fā)明提出了一種基于多智能體深度強化學習的多無人機編隊集群控制方法,通過對多無人機的聚集問題進行馬爾科夫博弈過程建模,使得無人機自主訓練得到對應控制模型。并引入注意力機制加快訓練速度和提升訓練效果。最終,經(jīng)過對坐標進行變換完成多個不同編隊的聚集。
本發(fā)明授權一種基于多智能體深度強化學習的多無人機編隊集群控制方法在權利要求書中公布了:1.一種基于多智能體深度強化學習的多無人機編隊集群控制方法,其特征在于,包括如下步驟: 步驟一:對單無人機的運動過程進行建模; 步驟二:將多無人機之間的聚集問題建模為馬爾科夫博弈過程; 步驟三:使用多智能體深度強化學習方法進行訓練,使用actor網(wǎng)絡學習聚集策略,critic網(wǎng)絡評價學習效果引導無人機聚集; 步驟四:在訓練過程中引入注意力機制到critic網(wǎng)絡中加快訓練速度和提升訓練效果; 步驟五:得到多個無人機的相互聚集模型,完成對應子編隊的聚集; 步驟六:基于坐標轉(zhuǎn)換將多個不同的編隊統(tǒng)一到一起形成一個無人機集群; 步驟一中對單無人機運動過程進行建模具體為: 首先定義一個向量集合p=[p1,p2,…,pn]T,其為集群中的所有無人機在笛卡爾坐標系下的位置,由向量pi=xi,yi,ziT可確定無人機i在空間中的位置,對單架無人機的運動過程進行建模,有如下公式: 其中vi為無人機i的飛行速度,θi和φi分別為無人機i的俯仰角和航向角;在無人機的飛行過程中,通過施加控制輸入引導無人機的飛行,給定如下控制輸入公式: 其中pi和Vi分別為無人機i的位置和速度,為在三個方向上的控制輸入量; 步驟二中將多無人機之間的聚集問題建模為馬爾科夫博弈過程,無人機對應為智能體,給定對應的狀態(tài)空間、動作空間和獎勵函數(shù)設定: 其中所述狀態(tài)空間:編隊中包含領導者無人機和跟隨者無人機,此處從領導者與跟隨者的角度對狀態(tài)空間進行分類,對應的有領導者無人機sl和跟隨者無人機的狀態(tài)sf;定義領導者無人機的狀態(tài)空間為: sl=pl,ptar,vl 跟隨者無人機的狀態(tài)空間為: sf=pf,pl,vl,vf 一般情況下領導者無人機向自己的既定目標位置ptar=xtar,ytar,ztar運動,跟隨者無人機通過獲取領導者無人機的位置信息,得到自己與其相對位置關系并保持隊形;pl=xl,yl,zl為領導者無人機在笛卡爾坐標系中的坐標,pf=xf,yf,zf為跟隨者無人機的位置坐標,vl為領導者無人機的速度,vf為跟隨者無人機的速度;最終有聯(lián)合狀態(tài)空間: s=pl,pf,ptar,vl,vf 動作空間:對無人機的控制主要通過速度和角度的改變實現(xiàn);此處將動作空間設定為: a=uv,ur,up 其中uv為對無人機速度的控制輸入,對速度的控制變化量滿足如下條件: 角度的控制量包含ur和up,分別為對航向角和俯仰角度的變化控制,對航向角有: 其中[-rφ,rφ]為航向角的允許轉(zhuǎn)向范圍,對俯仰角同樣有[-pθ,pθ],控制輸入與上式類似; 所述獎勵函數(shù)為1領導者無人機的獎勵: 其中Rtar>0為目標區(qū)域半徑,當領導者無人機與目標點距離小于該半徑時,即視為到達目標點,給予一個正向獎勵αl;反之,對其進行懲罰,懲罰程度與目標點的距離成正比,即距離越遠懲罰越大; 2跟隨者無人機的獎勵: 對跟隨者的獎勵設定類似領導者無人機,當跟隨者無人機處于期望位置區(qū)域時給予正向獎勵αf;反之,給予負獎勵進行懲罰; 3無人機之間的避免碰撞的獎勵: 4全局獎勵: 步驟四中在訓練過程中引入注意力機制到critic網(wǎng)絡中的改進如下:在評價值函數(shù)部分中加入了一個注意力模塊;利用新加入的注意力模塊來聚合評價函數(shù)部分的輸入信息x,a1,...,an,其中x=o1,...,on為所有無人機的觀察信息的集合,加入注意力機制后的值函數(shù)可以表示為: 其中,fi為一個兩層的MLP網(wǎng)絡,用于估計衡量該無人機的動作狀態(tài)值函數(shù);gi為一個一層的MLP網(wǎng)絡,用來對無人機本身的狀態(tài)觀察值和動作值進行編碼;ci為衡量其他無人機對無人機i的影響程度: 其中h是一個非線性的ReLu函數(shù),同時用注意力權重αj表示無人機j對無人機i的影響;由ci得出無人機j所占的權重越大,則其對無人機i的影響也越大,對注意力權重αj進行SoftMax歸一化,有: 對應的第i架無人機的評價函數(shù)更新為: 其中y為目標網(wǎng)絡的值函數(shù): 同時第i架無人機的動作值函數(shù)更新為: 步驟五中將多個不同的子編隊坐標系轉(zhuǎn)換到同一個集群坐標下完成集群的統(tǒng)一: 兩種坐標系之間在對應軸上有關于角度的旋轉(zhuǎn)關系,考慮編隊在水平航向角和縱向俯仰角上的角度變化,首先將編隊坐標系OfXfYfZf繞地面坐標系的OgZg軸旋轉(zhuǎn)得到一個水平方向的-φ角,可以得到一個過渡旋轉(zhuǎn)矩陣: 其次,繞地面坐標系的OgYg軸旋轉(zhuǎn)得到關于垂直于水平面的縱向方向上的俯仰角度θ,同樣可得到一個過渡的旋轉(zhuǎn)矩陣: 由此可得到編隊坐標系相對于地面坐標系的旋轉(zhuǎn)矩陣: 步驟六中基于坐標轉(zhuǎn)換將多個不同的編隊統(tǒng)一到一起形成一個無人機集群;具體為: 假設某編隊在X,Y和Z軸三個方向上分別移動了dx,dy和dz,對其中的任意一架無人機都有pt=p+t=[x+dx,y+dy,z+dz],其中t=[dx,dy,dz],同樣可以矩陣的形式表示平移運動的過程,為方便計算,引入一個齊次坐標w,取w=1;對該無人機有pw=[x,y,z,w],因此進行平移后的齊次坐標可表示為: 其中為進行齊次化處理后的平移矩陣,結合可能發(fā)生的旋轉(zhuǎn)R,最終可得編隊中任意無人機在地面坐標系下發(fā)生的坐標變換: 其中p'為無人機在地面坐標系下發(fā)生旋轉(zhuǎn)和平移運動后對應的在編隊坐標系中的位置;不同的編隊向同一個聚集點靠攏,通過上述坐標變換關系統(tǒng)一到同一個集群坐標系下完成集群的聚集。
如需購買、轉(zhuǎn)讓、實施、許可或投資類似專利技術,可聯(lián)系本專利的申請人或?qū)@麢嗳?a target="_blank" rel="noopener noreferrer nofollow" href="https://iptop.www.gztjhr.cn/list?keyword=%E6%B2%88%E9%98%B3%E8%88%AA%E7%A9%BA%E8%88%AA%E5%A4%A9%E5%A4%A7%E5%AD%A6&temp=1">沈陽航空航天大學,其通訊地址為:110136 遼寧省沈陽市道義經(jīng)濟開發(fā)區(qū)道義南大街37號;或者聯(lián)系龍圖騰網(wǎng)官方客服,聯(lián)系龍圖騰網(wǎng)可撥打電話0551-65771310或微信搜索“龍圖騰網(wǎng)”。
1、本報告根據(jù)公開、合法渠道獲得相關數(shù)據(jù)和信息,力求客觀、公正,但并不保證數(shù)據(jù)的最終完整性和準確性。
2、報告中的分析和結論僅反映本公司于發(fā)布本報告當日的職業(yè)理解,僅供參考使用,不能作為本公司承擔任何法律責任的依據(jù)或者憑證。