成都西南信息控制研究院有限公司付小鋒獲國家專利權(quán)
買專利賣專利找龍圖騰,真高效! 查專利查商標(biāo)用IPTOP,全免費(fèi)!專利年費(fèi)監(jiān)控用IP管家,真方便!
龍圖騰網(wǎng)獲悉成都西南信息控制研究院有限公司申請的專利多智能體模型及訓(xùn)練系統(tǒng)和方法獲國家發(fā)明授權(quán)專利權(quán),本發(fā)明授權(quán)專利權(quán)由國家知識產(chǎn)權(quán)局授予,授權(quán)公告號為:CN115054923B 。
龍圖騰網(wǎng)通過國家知識產(chǎn)權(quán)局官網(wǎng)在2025-08-19發(fā)布的發(fā)明授權(quán)授權(quán)公告中獲悉:該發(fā)明授權(quán)的專利申請?zhí)?專利號為:202210693621.7,技術(shù)領(lǐng)域涉及:A63F13/67;該發(fā)明授權(quán)多智能體模型及訓(xùn)練系統(tǒng)和方法是由付小鋒;李執(zhí)平;文揚(yáng);賴真;李剛設(shè)計(jì)研發(fā)完成,并于2022-06-18向國家知識產(chǎn)權(quán)局提交的專利申請。
本多智能體模型及訓(xùn)練系統(tǒng)和方法在說明書摘要公布了:本發(fā)明公開了一種多智能體模型及訓(xùn)練系統(tǒng)和方法,以改進(jìn)的MADDPG模型作為多智能體模型,在模型訓(xùn)練過程中引入仿真模塊和專家模塊,使用策略編號和下一步動作序列作為多智能體模型輸出,通過專家模塊對動作序列進(jìn)行修正更新,協(xié)助多智能體之間靈活通信和對全局信息的考慮,且能夠很好利用現(xiàn)有專家經(jīng)驗(yàn),在提升訓(xùn)練速度的同時,使訓(xùn)練得到智能體更加穩(wěn)定性。
本發(fā)明授權(quán)多智能體模型及訓(xùn)練系統(tǒng)和方法在權(quán)利要求書中公布了:1.一種多智能體模型的訓(xùn)練系統(tǒng),其特征在于,包括通信連接的仿真模塊、多智能體訓(xùn)練模塊和專家模塊;所述多智能體模型包括多個并行設(shè)置的智能體,各智能體包括結(jié)構(gòu)相同的Actor策略網(wǎng)絡(luò)和Critic評價網(wǎng)絡(luò),網(wǎng)絡(luò)結(jié)構(gòu)均包括六層全連接層,每兩層全連接網(wǎng)絡(luò)后引入殘差層,全連接層和殘差層后均設(shè)置ReLU激活函數(shù);以多智能體模型中的多個智能體構(gòu)成己方,并將多個智能體添加于仿真模塊的對抗場景中; 所述仿真模塊用于生成各智能體的當(dāng)前觀測序列、當(dāng)前環(huán)境回報和累計(jì)回報;每個智能體的觀測序列包括拼接在一起的當(dāng)前智能體的狀態(tài)信息和位置信息,己方其它智能體狀態(tài)信息和相對位置信息,當(dāng)前智能體探測到的敵方的狀態(tài)信息和相對位置信息,以及己方其它智能體探測到的敵方智能體狀態(tài)信息和相對位置信息; 所述多智能體訓(xùn)練模塊用于依據(jù)來自仿真模塊的各智能體的當(dāng)前觀測序列,輸出策略編號序列和第一動作序列; 所述專家模塊用于依據(jù)來自多智能體訓(xùn)練模塊的策略編號序列,通過投票策略選取其中的一個策略編號對應(yīng)的映射策略作為執(zhí)行策略;同時依據(jù)執(zhí)行策略和來自仿真模塊的各智能體的觀測序列,得到第二動作序列;再對第一動作序列和第二動作序列進(jìn)行加權(quán)平均得到多智能體下一步動作序列,反饋給仿真模塊。
如需購買、轉(zhuǎn)讓、實(shí)施、許可或投資類似專利技術(shù),可聯(lián)系本專利的申請人或?qū)@麢?quán)人成都西南信息控制研究院有限公司,其通訊地址為:611730 四川省成都市成都高新區(qū)蜀新大道1288號1棟、3棟;或者聯(lián)系龍圖騰網(wǎng)官方客服,聯(lián)系龍圖騰網(wǎng)可撥打電話0551-65771310或微信搜索“龍圖騰網(wǎng)”。
1、本報告根據(jù)公開、合法渠道獲得相關(guān)數(shù)據(jù)和信息,力求客觀、公正,但并不保證數(shù)據(jù)的最終完整性和準(zhǔn)確性。
2、報告中的分析和結(jié)論僅反映本公司于發(fā)布本報告當(dāng)日的職業(yè)理解,僅供參考使用,不能作為本公司承擔(dān)任何法律責(zé)任的依據(jù)或者憑證。