山東科技大學王曉敏獲國家專利權
買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監控用IP管家,真方便!
龍圖騰網獲悉山東科技大學申請的專利未知環境下基于深度強化學習的連續空間路徑規劃方法獲國家發明授權專利權,本發明授權專利權由國家知識產權局授予,授權公告號為:CN120085555B 。
龍圖騰網通過國家知識產權局官網在2025-08-19發布的發明授權授權公告中獲悉:該發明授權的專利申請號/專利號為:202510562143.X,技術領域涉及:G05B13/04;該發明授權未知環境下基于深度強化學習的連續空間路徑規劃方法是由王曉敏;韓金樹;楊睿;孫振東設計研發完成,并于2025-04-30向國家知識產權局提交的專利申請。
本未知環境下基于深度強化學習的連續空間路徑規劃方法在說明書摘要公布了:本發明涉及一種未知環境下基于深度強化學習的連續空間路徑規劃方法,屬于路徑規劃技術領域,包括獲取移動機器人的目標方向、目標距離、移動速度及障礙物距離,根據障礙物距離生成一障礙物特征向量,定義一狀態向量;構建一包括策略網絡、目標策略網絡的路徑規劃模型;初始化一隱藏特征向量并將其與移動機器人的狀態向量輸入策略網絡得到更新后的隱藏特征向量和動作向量;移動機器人根據動作向量執行相應動作,通過定義狀態向量并結合策略網絡,實現了機器人在未知環境中的動態路徑規劃,通過隱藏特征向量傳遞時序信息,使機器人能夠結合狀態向量生成動作向量,從而提升決策的連續性和適應性,能夠更高效地調整路徑,提高避障成功率和導航效率。
本發明授權未知環境下基于深度強化學習的連續空間路徑規劃方法在權利要求書中公布了:1.一種未知環境下基于深度強化學習的連續空間路徑規劃方法,其特征在于,包括: 狀態向量定義步驟:獲取移動機器人的目標方向、目標距離、移動速度及障礙物距離,根據障礙物距離生成一障礙物特征向量,基于所述目標方向、目標距離、移動速度及障礙物特征向量定義一狀態向量; 模型構建步驟:構建一路徑規劃模型,所述路徑規劃模型包括策略網絡; 動作向量生成步驟:初始化一隱藏特征向量并將其與移動機器人的狀態向量輸入所述策略網絡得到隱藏特征向量和動作向量; 動作執行步驟:所述移動機器人根據所述動作向量執行相應動作; 其中,所述策略網絡包括: 輸入層,用于輸入狀態向量和隱藏特征向量; 狀態演化層,包括多個CFC單元,所述CFC單元用于通過解析近似方法對輸入的所述狀態向量和所述隱藏特征向量進行動態響應建模,并輸出動作向量和更新后的隱藏特征向量; 輸出層,用于通過激活函數限制所述動作向量的范圍; 其中,所述路徑規劃模型還包括目標策略網絡、評估網絡和目標評估網絡; 所述目標策略網絡根據下一時刻移動機器人的狀態向量及所述隱藏特征向量得到下一時刻所述移動機器人的目標動作向量; 所述評估網絡根據所述狀態向量和所述動作向量生成評估值和評估值; 所述目標評估網絡根據所述狀態向量和所述動作向量生成評估值和評估值; 其中,所述模型構建步驟還包括: 根據所述動作向量和所述狀態向量計算避障獎勵值,將所述避障獎勵值、所述狀態向量、所述隱藏特征向量、所述動作向量、所述狀態向量、所述隱藏特征向量組成六元組存儲至經驗回放區中,根據所述經驗回放區對所述路徑規劃模型進行訓練; 其中,所述方法還包括: 評估網絡更新步驟:根據所述評估值、評估值和所述避障獎勵值計算目標值,基于所述評估值、評估值和所述目標值計算損失函數,根據所述損失函數更新所述評估網絡的權重參數; 其中,所述避障獎勵值的計算模型為: ; ; ; ; ; ; ; 其中,為接近目標點的獎勵值;為接近障礙物的獎勵值;為第個方向的避障獎勵值;為個方向的避障獎勵值的總和;為當前時刻的目標距離和目標方向;為上一時刻的目標距離和目標方向;為目標距離;為目標距離的閾值;為障礙物距離;為障礙物距離的閾值;為放大系數;為權重系數; 為第個方向避障獎勵的權重系數;為歸一化后的第個方向的激光雷達距離;為未經過歸一化處理的第個方向的激光雷達距離;為預測安全距離;為移動機器人的最大移動速度;為移動機器人的運動時間間隔;為歸一化后的預測安全距離。
如需購買、轉讓、實施、許可或投資類似專利技術,可聯系本專利的申請人或專利權人山東科技大學,其通訊地址為:266590 山東省青島市黃島區前灣港路579號;或者聯系龍圖騰網官方客服,聯系龍圖騰網可撥打電話0551-65771310或微信搜索“龍圖騰網”。
1、本報告根據公開、合法渠道獲得相關數據和信息,力求客觀、公正,但并不保證數據的最終完整性和準確性。
2、報告中的分析和結論僅反映本公司于發布本報告當日的職業理解,僅供參考使用,不能作為本公司承擔任何法律責任的依據或者憑證。