吉林大學(xué)周戶星獲國家專利權(quán)
買專利賣專利找龍圖騰,真高效! 查專利查商標(biāo)用IPTOP,全免費(fèi)!專利年費(fèi)監(jiān)控用IP管家,真方便!
龍圖騰網(wǎng)獲悉吉林大學(xué)申請(qǐng)的專利基于深度逆強(qiáng)化學(xué)習(xí)的匯入?yún)^(qū)域主路車駕駛行為建模方法獲國家發(fā)明授權(quán)專利權(quán),本發(fā)明授權(quán)專利權(quán)由國家知識(shí)產(chǎn)權(quán)局授予,授權(quán)公告號(hào)為:CN120316454B 。
龍圖騰網(wǎng)通過國家知識(shí)產(chǎn)權(quán)局官網(wǎng)在2025-08-15發(fā)布的發(fā)明授權(quán)授權(quán)公告中獲悉:該發(fā)明授權(quán)的專利申請(qǐng)?zhí)?專利號(hào)為:202510805963.7,技術(shù)領(lǐng)域涉及:G06F18/20;該發(fā)明授權(quán)基于深度逆強(qiáng)化學(xué)習(xí)的匯入?yún)^(qū)域主路車駕駛行為建模方法是由周戶星;崔云龍;孫寶鳳;李遲;許楊;梁宏朝;馬國棟設(shè)計(jì)研發(fā)完成,并于2025-06-17向國家知識(shí)產(chǎn)權(quán)局提交的專利申請(qǐng)。
本基于深度逆強(qiáng)化學(xué)習(xí)的匯入?yún)^(qū)域主路車駕駛行為建模方法在說明書摘要公布了:本發(fā)明涉及一種基于深度逆強(qiáng)化學(xué)習(xí)的匯入?yún)^(qū)域主路車駕駛行為建模方法,該方法構(gòu)建主路車專家軌跡集;構(gòu)建仿真環(huán)境模型,環(huán)境模型的輸入包括由主路車專家軌跡集D提供的當(dāng)前狀態(tài)特征和由PPO算法中主路車策略網(wǎng)絡(luò)控制主路車提供的動(dòng)作特征;狀態(tài)轉(zhuǎn)移函數(shù)用于根據(jù)當(dāng)前狀態(tài)特征和動(dòng)作特征,返回下一時(shí)間步的狀態(tài)特征;獎(jiǎng)勵(lì)網(wǎng)絡(luò)用于根據(jù)主路車的狀態(tài)特征給出每一時(shí)間步的瞬時(shí)獎(jiǎng)勵(lì);構(gòu)建由最大熵深度逆強(qiáng)化學(xué)習(xí)算法和PPO算法構(gòu)成的框架;之后進(jìn)行訓(xùn)練,使用PPO算法訓(xùn)練以生成主路車在仿真環(huán)境下的預(yù)測軌跡;將預(yù)測軌跡與主路車專家軌跡輸入最大熵深度逆強(qiáng)化學(xué)習(xí)算法,計(jì)算損失函數(shù),更新獎(jiǎng)勵(lì)網(wǎng)絡(luò)參數(shù),直到收斂,解決傳統(tǒng)單一方法存在的策略失準(zhǔn)問題。
本發(fā)明授權(quán)基于深度逆強(qiáng)化學(xué)習(xí)的匯入?yún)^(qū)域主路車駕駛行為建模方法在權(quán)利要求書中公布了:1.一種基于深度逆強(qiáng)化學(xué)習(xí)的匯入?yún)^(qū)域主路車駕駛行為建模方法,其特征在于,該方法包括以下步驟: 步驟A.構(gòu)建匯入?yún)^(qū)域自動(dòng)駕駛車輛軌跡數(shù)據(jù)集U,所述自動(dòng)駕駛車輛軌跡數(shù)據(jù)集U包含:匯入?yún)^(qū)域內(nèi)每時(shí)間步的所有車輛屬性信息,位置,橫縱向速度,橫縱向加速度和與lanelet2格式高精地圖相關(guān)數(shù)據(jù);將自動(dòng)駕駛車輛軌跡數(shù)據(jù)集U進(jìn)行預(yù)處理,形成主路車專家軌跡集D; 步驟B.構(gòu)建可供訓(xùn)練的仿真環(huán)境模型,所述仿真環(huán)境模型的輸入包括由主路車專家軌跡集D提供的當(dāng)前狀態(tài)特征和由PPO算法中主路車策略網(wǎng)絡(luò)控制主路車提供的動(dòng)作特征;仿真環(huán)境模型內(nèi)的狀態(tài)轉(zhuǎn)移函數(shù)用于根據(jù)當(dāng)前狀態(tài)特征和動(dòng)作特征,返回下一時(shí)間步的狀態(tài)特征;獎(jiǎng)勵(lì)網(wǎng)絡(luò)用于根據(jù)主路車的狀態(tài)特征給出每一時(shí)間步的瞬時(shí)獎(jiǎng)勵(lì); 步驟C.構(gòu)建由最大熵深度逆強(qiáng)化學(xué)習(xí)算法和強(qiáng)化學(xué)習(xí)算法構(gòu)成的最大熵深度逆強(qiáng)化學(xué)習(xí)框架,所述強(qiáng)化學(xué)習(xí)算法采用PPO算法,獎(jiǎng)勵(lì)網(wǎng)絡(luò)作為最大熵深度逆強(qiáng)化學(xué)習(xí)算法的一部分; 步驟D.訓(xùn)練: 初始化獎(jiǎng)勵(lì)網(wǎng)絡(luò)和PPO算法的網(wǎng)絡(luò)參數(shù);使用PPO算法訓(xùn)練以生成主路車在仿真環(huán)境下的預(yù)測軌跡,直至收斂;將預(yù)測軌跡與主路車專家軌跡輸入最大熵深度逆強(qiáng)化學(xué)習(xí)算法,計(jì)算損失函數(shù),反向傳播更新獎(jiǎng)勵(lì)網(wǎng)絡(luò)參數(shù),直到收斂。
如需購買、轉(zhuǎn)讓、實(shí)施、許可或投資類似專利技術(shù),可聯(lián)系本專利的申請(qǐng)人或?qū)@麢?quán)人吉林大學(xué),其通訊地址為:130012 吉林省長春市南關(guān)區(qū)人民大街5988號(hào)吉林大學(xué)南嶺校區(qū);或者聯(lián)系龍圖騰網(wǎng)官方客服,聯(lián)系龍圖騰網(wǎng)可撥打電話0551-65771310或微信搜索“龍圖騰網(wǎng)”。
1、本報(bào)告根據(jù)公開、合法渠道獲得相關(guān)數(shù)據(jù)和信息,力求客觀、公正,但并不保證數(shù)據(jù)的最終完整性和準(zhǔn)確性。
2、報(bào)告中的分析和結(jié)論僅反映本公司于發(fā)布本報(bào)告當(dāng)日的職業(yè)理解,僅供參考使用,不能作為本公司承擔(dān)任何法律責(zé)任的依據(jù)或者憑證。


熱門推薦
- 蘇州鳴動(dòng)智能設(shè)備有限公司胡鳳鳴獲國家專利權(quán)
- 上海市政工程設(shè)計(jì)研究總院(集團(tuán))有限公司崔賀獲國家專利權(quán)
- 深圳市智立方自動(dòng)化設(shè)備有限公司王士堯獲國家專利權(quán)
- 中芯國際集成電路制造(上海)有限公司渠匯獲國家專利權(quán)
- 上海市政工程設(shè)計(jì)研究總院(集團(tuán))有限公司崔賀獲國家專利權(quán)
- 抖音視界(北京)有限公司張莉獲國家專利權(quán)
- 希望之城公司J.E.M.卡西米羅獲國家專利權(quán)
- 武漢格羅夫氫能汽車有限公司譚尊有獲國家專利權(quán)
- 華為技術(shù)有限公司張向東獲國家專利權(quán)
- 華為技術(shù)有限公司樊波獲國家專利權(quán)