山東大學周樂來獲國家專利權
買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監控用IP管家,真方便!
龍圖騰網獲悉山東大學申請的專利一種雙輪足機器人復雜地形自適應運動控制方法及系統獲國家發明授權專利權,本發明授權專利權由國家知識產權局授予,授權公告號為:CN120233686B 。
龍圖騰網通過國家知識產權局官網在2025-08-15發布的發明授權授權公告中獲悉:該發明授權的專利申請號/專利號為:202510724540.2,技術領域涉及:G05B13/04;該發明授權一種雙輪足機器人復雜地形自適應運動控制方法及系統是由周樂來;范晟琳;孫靖宇;榮學文;李貽斌設計研發完成,并于2025-06-03向國家知識產權局提交的專利申請。
本一種雙輪足機器人復雜地形自適應運動控制方法及系統在說明書摘要公布了:本發明公開了一種雙輪足機器人復雜地形自適應運動控制方法及系統,涉及機器人運動控制技術領域。該方法包括步驟:構建包含機器人模型、障礙物和環境約束的復雜地形模型;構建運動決策控制器,利用強化學習模型針對不同的復雜地形模型采用非對稱的訓練策略對運動決策控制器進行多目標協同優化訓練,其中,非對稱的訓練策略在更新時引入風險約束用于約束策略的行為;根據訓練結果進行策略梯度反向傳播,使用基于性能反饋的自適應學習率調整方法對非對稱的訓練策略進行優化。本發明通過在強化學習過程中設計非對稱的訓練策略和分段訓練機制,解決了雙輪足機器人在多種復雜地形環境中的高效、魯棒、自適應的運動控制問題。
本發明授權一種雙輪足機器人復雜地形自適應運動控制方法及系統在權利要求書中公布了:1.一種雙輪足機器人復雜地形自適應運動控制方法,其特征在于,包括以下步驟: 根據雙輪足機器人的姿態參數和運動參數構建機器人模型; 構建包含機器人模型、障礙物和環境約束的復雜地形模型; 構建運動決策控制器,利用強化學習模型針對不同的復雜地形模型采用非對稱的訓練策略對運動決策控制器進行多目標協同優化訓練,其中,非對稱的訓練策略在更新時引入風險約束用于約束策略的行為; 強化學習的完整獎勵函數為: , 其中,為主獎勵函數,是速度跟蹤獎勵函數,是高度穩定性獎勵函數,是觸地懲罰函數,是運動穩定性獎勵函數,是能量效率獎勵函數,是針對特殊地形的獎勵函數,為針對結構化臺階地形特化的權重參數; 多目標協同優化通過設置多個優化目標,并設置不同權重進行加權組合,得到全局最優的決策信息,基于多目標協同優化設計的全局損失函數表達式如下: ; 其中,為全局損失函數,為策略主損失,為風險代價懲罰項,為策略價值函數損失,為風險價值損失,為熵正則化項; 高度穩定性獎勵函數如下: , 其中,為足端到機身在z方向的高度,為預定的高度,為權重系數; 觸地懲罰函數如下: , 其中,為機器人基座受到的外部接觸力,為雙輪足機器人小腿受到的外部接觸力,為權重系數; 特殊地形的獎勵函數如下: , 其中,為雙輪足機器人輪部是否接觸臺階地形的接觸條件,表示輪的編號,為雙輪足機器人輪子受到的除垂直方向以外的接觸力,為輪子受到的垂直方向的接觸力,為機器人向上的速度,為機器人向上的加速度,為上一時刻和當前時刻雙輪足機器人輪端到基座距離的變化量,為距離變化量的約束值,、和為權重系數; 風險代價懲罰項表達式如下: , 其中,為懲罰系數;每一個時間步設定一個風險代價量; 同樣的,得到風險價值損失: , 其中,為風險價值損失函數;為時間步t下的風險價值函數; 根據訓練結果進行策略梯度反向傳播,使用基于性能反饋的自適應學習率調整方法對非對稱的訓練策略進行優化,從而實現雙輪足機器人的自適應運動控制; 非對稱的訓練策略在更新過程中,利用樣本估計策略梯度,使用裁剪目標函數更新策略,并引入KL散度控制策略更新的幅度; 通過KL散度動態調整學習率,對訓練初期的探索階段和訓練后期的收斂階段進行平衡,動態調整學習率表達式如下: , 其中,表示第k輪更新前的學習率,k為訓練輪次,為每個epoch結束時計算的平均KL值,衡量更新前后策略分布的差異,表示對時間步t采集的數據進行期望,為縮放因子,和為KL閾值。
如需購買、轉讓、實施、許可或投資類似專利技術,可聯系本專利的申請人或專利權人山東大學,其通訊地址為:250000 山東省濟南市歷下區經十路17923號;或者聯系龍圖騰網官方客服,聯系龍圖騰網可撥打電話0551-65771310或微信搜索“龍圖騰網”。
1、本報告根據公開、合法渠道獲得相關數據和信息,力求客觀、公正,但并不保證數據的最終完整性和準確性。
2、報告中的分析和結論僅反映本公司于發布本報告當日的職業理解,僅供參考使用,不能作為本公司承擔任何法律責任的依據或者憑證。