安徽大學(xué)朱云來獲國家專利權(quán)
買專利賣專利找龍圖騰,真高效! 查專利查商標(biāo)用IPTOP,全免費!專利年費監(jiān)控用IP管家,真方便!
龍圖騰網(wǎng)獲悉安徽大學(xué)申請的專利一種基于策略迭代的貝爾曼方程的硬件實現(xiàn)方法獲國家發(fā)明授權(quán)專利權(quán),本發(fā)明授權(quán)專利權(quán)由國家知識產(chǎn)權(quán)局授予,授權(quán)公告號為:CN115983358B 。
龍圖騰網(wǎng)通過國家知識產(chǎn)權(quán)局官網(wǎng)在2025-08-15發(fā)布的發(fā)明授權(quán)授權(quán)公告中獲悉:該發(fā)明授權(quán)的專利申請?zhí)?專利號為:202310055769.2,技術(shù)領(lǐng)域涉及:G06N3/063;該發(fā)明授權(quán)一種基于策略迭代的貝爾曼方程的硬件實現(xiàn)方法是由朱云來;郭文斌;馮哲;吳祖恒;徐祖雨;代月花設(shè)計研發(fā)完成,并于2023-01-18向國家知識產(chǎn)權(quán)局提交的專利申請。
本一種基于策略迭代的貝爾曼方程的硬件實現(xiàn)方法在說明書摘要公布了:本發(fā)明公開了一種基于策略迭代的貝爾曼方程的硬件實現(xiàn)方法,首先輸入獎勵值到貝爾曼期望方程電路中,求出該獎勵值的策略價值;將得到的策略價值輸入貝爾曼最優(yōu)方程電路進行策略迭代求解,求出最優(yōu)價值;將得到的最優(yōu)價值映射到由憶阻器陣列組成的策略圖譜中,完成每一個狀態(tài)的最優(yōu)價值求解,并根據(jù)最優(yōu)價值的大小決定每一個狀態(tài)的移動方向,達到利用硬件加速貝爾曼方程求解最優(yōu)價值的目的。該方法能夠使用憶阻器陣列乘加的方式將貝爾曼方程硬件化,從而對強化學(xué)習(xí)硬件系統(tǒng)性能有很大的優(yōu)化作用。
本發(fā)明授權(quán)一種基于策略迭代的貝爾曼方程的硬件實現(xiàn)方法在權(quán)利要求書中公布了:1.一種基于策略迭代的貝爾曼方程的硬件實現(xiàn)方法,其特征在于,所述方法包括: 步驟1、輸入獎勵值到貝爾曼期望方程電路中,求出該獎勵值的策略價值; 所述貝爾曼期望方程電路是利用不動點原理將貝爾曼期望方程的期望形式轉(zhuǎn)化為矩陣乘加形式的迭代解; 原貝爾曼方程表示為:,其中表示輸入的獎勵值,表示對未來折扣獎勵總和,γ為折扣因子,為當(dāng)前狀態(tài)到下一狀態(tài)的轉(zhuǎn)移矩陣; 貝爾曼方程表示當(dāng)前狀態(tài)的值函數(shù)通過下個狀態(tài)的值函數(shù)來計算,寫成矩陣形式并對其進行求解推導(dǎo)之后可得到其迭代解析解為:; 基于該迭代解析解,通過憶阻器陣列本身具有的矩陣乘法作用來分別代替等式左右兩部分,從而硬件實現(xiàn)貝爾曼方程; 其中,輸入電壓信號表示系統(tǒng)輸入的獎勵值;憶阻器陣列中的每個憶阻器的電導(dǎo)值表示狀態(tài)轉(zhuǎn)移概率,通過使用外圍FPGA板卡電路進行憶阻器陣列的推理和映射;輸出的電流值通過恒定電阻陣列轉(zhuǎn)化為電壓信號,表示輸出的價值,即輸入獎勵值的策略價值; 所述憶阻器陣列是用單個交叉桿憶阻器進行二維行列堆疊而成,陣列之上每個交叉點均有一個憶阻器,每個憶阻器中具有可調(diào)節(jié)的電導(dǎo)值; 當(dāng)對憶阻器陣列進行逐行輸入電壓時,同一行中每一個憶阻器能通過輸入電壓乘以該憶阻器電導(dǎo)得到該點的電流值,同時對陣列多行輸入時,對每一列來說,由基爾霍夫電流定律,每一列輸出該列所有憶阻器電流值之和,達到矩陣乘加的目的; 步驟2、將步驟1得到的策略價值輸入貝爾曼最優(yōu)方程電路進行策略迭代求解,求出最優(yōu)價值; 所述貝爾曼最優(yōu)方程電路是將貝爾曼期望方程電路求出的策略價值經(jīng)過反復(fù)遞歸操作,利用貪心算法更新價值概率矩陣,反復(fù)求解策略價值,直到歸于一個確定的值,即最優(yōu)價值; 其中,電路輸入電壓信號為貝爾曼期望方程電路求出的策略價值矩陣;憶阻器陣列中陣列電導(dǎo)值表示價值概率轉(zhuǎn)移矩陣,通過憶阻器陣列的矩陣乘加運算后輸出對應(yīng)電壓價值之后再次返回輸入值進行反復(fù)遞歸操作,通過算法更新價值概率矩陣進行輸出新的已優(yōu)化的價值;由不動點迭代法可知經(jīng)過反復(fù)迭代后輸出價值逐漸趨于穩(wěn)定,最后通過使用贏者通吃電路求出最大價值,即為最優(yōu)價值; 步驟3、將步驟2得到的最優(yōu)價值映射到由憶阻器陣列組成的策略圖譜中,完成每一個狀態(tài)的最優(yōu)價值求解,并根據(jù)最優(yōu)價值的大小決定每一個狀態(tài)的移動方向,達到利用硬件加速貝爾曼方程求解最優(yōu)價值的目的。
如需購買、轉(zhuǎn)讓、實施、許可或投資類似專利技術(shù),可聯(lián)系本專利的申請人或?qū)@麢?quán)人安徽大學(xué),其通訊地址為:230601 安徽省合肥市經(jīng)濟開發(fā)區(qū)九龍路111號;或者聯(lián)系龍圖騰網(wǎng)官方客服,聯(lián)系龍圖騰網(wǎng)可撥打電話0551-65771310或微信搜索“龍圖騰網(wǎng)”。
1、本報告根據(jù)公開、合法渠道獲得相關(guān)數(shù)據(jù)和信息,力求客觀、公正,但并不保證數(shù)據(jù)的最終完整性和準(zhǔn)確性。
2、報告中的分析和結(jié)論僅反映本公司于發(fā)布本報告當(dāng)日的職業(yè)理解,僅供參考使用,不能作為本公司承擔(dān)任何法律責(zé)任的依據(jù)或者憑證。
- 上海新微技術(shù)研發(fā)中心有限公司吳炫燁獲國家專利權(quán)
- 凌衛(wèi)東獲國家專利權(quán)
- 株式會社麥迪帕克特金圣鎮(zhèn)獲國家專利權(quán)
- 株洲慶云電力機車配件工廠有限公司張?zhí)K獲國家專利權(quán)
- 蘇州度亙光電器件有限公司雷謝福獲國家專利權(quán)
- 深圳壹賬通智能科技有限公司郭凌峰獲國家專利權(quán)
- 寧德時代新能源科技股份有限公司沈睿獲國家專利權(quán)
- 華為技術(shù)有限公司王明哲獲國家專利權(quán)
- 南京英銳創(chuàng)電子科技有限公司管璐璐獲國家專利權(quán)
- 樂金顯示有限公司卓潤星獲國家專利權(quán)