• <form id="tsg3z"></form>

    <thead id="tsg3z"></thead>
      <abbr id="tsg3z"><table id="tsg3z"><nav id="tsg3z"></nav></table></abbr>

    1. 男女性杂交内射女bbwxz,亚洲欧美人成电影在线观看,中文字幕国产日韩精品,欧美另类精品xxxx人妖,欧美日韩精品一区二区三区高清视频,日本第一区二区三区视频,国产亚洲精品中文字幕,gogo无码大胆啪啪艺术
      Document
      拖動滑塊完成拼圖
      個人中心

      預(yù)訂訂單
      服務(wù)訂單
      發(fā)布專利 發(fā)布成果 人才入駐 發(fā)布商標(biāo) 發(fā)布需求

      在線咨詢

      聯(lián)系我們

      龍圖騰公眾號
      首頁 專利交易 IP管家助手 科技果 科技人才 科技服務(wù) 國際服務(wù) 商標(biāo)交易 會員權(quán)益 需求市場 關(guān)于龍圖騰
       /  免費注冊
      到頂部 到底部
      清空 搜索
      當(dāng)前位置 : 首頁 > 專利喜報 > 安徽大學(xué)朱云來獲國家專利權(quán)

      安徽大學(xué)朱云來獲國家專利權(quán)

      買專利賣專利找龍圖騰,真高效! 查專利查商標(biāo)用IPTOP,全免費!專利年費監(jiān)控用IP管家,真方便!

      龍圖騰網(wǎng)獲悉安徽大學(xué)申請的專利一種基于策略迭代的貝爾曼方程的硬件實現(xiàn)方法獲國家發(fā)明授權(quán)專利權(quán),本發(fā)明授權(quán)專利權(quán)由國家知識產(chǎn)權(quán)局授予,授權(quán)公告號為:CN115983358B

      龍圖騰網(wǎng)通過國家知識產(chǎn)權(quán)局官網(wǎng)在2025-08-15發(fā)布的發(fā)明授權(quán)授權(quán)公告中獲悉:該發(fā)明授權(quán)的專利申請?zhí)?專利號為:202310055769.2,技術(shù)領(lǐng)域涉及:G06N3/063;該發(fā)明授權(quán)一種基于策略迭代的貝爾曼方程的硬件實現(xiàn)方法是由朱云來;郭文斌;馮哲;吳祖恒;徐祖雨;代月花設(shè)計研發(fā)完成,并于2023-01-18向國家知識產(chǎn)權(quán)局提交的專利申請。

      一種基于策略迭代的貝爾曼方程的硬件實現(xiàn)方法在說明書摘要公布了:本發(fā)明公開了一種基于策略迭代的貝爾曼方程的硬件實現(xiàn)方法,首先輸入獎勵值到貝爾曼期望方程電路中,求出該獎勵值的策略價值;將得到的策略價值輸入貝爾曼最優(yōu)方程電路進行策略迭代求解,求出最優(yōu)價值;將得到的最優(yōu)價值映射到由憶阻器陣列組成的策略圖譜中,完成每一個狀態(tài)的最優(yōu)價值求解,并根據(jù)最優(yōu)價值的大小決定每一個狀態(tài)的移動方向,達到利用硬件加速貝爾曼方程求解最優(yōu)價值的目的。該方法能夠使用憶阻器陣列乘加的方式將貝爾曼方程硬件化,從而對強化學(xué)習(xí)硬件系統(tǒng)性能有很大的優(yōu)化作用。

      本發(fā)明授權(quán)一種基于策略迭代的貝爾曼方程的硬件實現(xiàn)方法在權(quán)利要求書中公布了:1.一種基于策略迭代的貝爾曼方程的硬件實現(xiàn)方法,其特征在于,所述方法包括: 步驟1、輸入獎勵值到貝爾曼期望方程電路中,求出該獎勵值的策略價值; 所述貝爾曼期望方程電路是利用不動點原理將貝爾曼期望方程的期望形式轉(zhuǎn)化為矩陣乘加形式的迭代解; 原貝爾曼方程表示為:,其中表示輸入的獎勵值,表示對未來折扣獎勵總和,γ為折扣因子,為當(dāng)前狀態(tài)到下一狀態(tài)的轉(zhuǎn)移矩陣; 貝爾曼方程表示當(dāng)前狀態(tài)的值函數(shù)通過下個狀態(tài)的值函數(shù)來計算,寫成矩陣形式并對其進行求解推導(dǎo)之后可得到其迭代解析解為:; 基于該迭代解析解,通過憶阻器陣列本身具有的矩陣乘法作用來分別代替等式左右兩部分,從而硬件實現(xiàn)貝爾曼方程; 其中,輸入電壓信號表示系統(tǒng)輸入的獎勵值;憶阻器陣列中的每個憶阻器的電導(dǎo)值表示狀態(tài)轉(zhuǎn)移概率,通過使用外圍FPGA板卡電路進行憶阻器陣列的推理和映射;輸出的電流值通過恒定電阻陣列轉(zhuǎn)化為電壓信號,表示輸出的價值,即輸入獎勵值的策略價值; 所述憶阻器陣列是用單個交叉桿憶阻器進行二維行列堆疊而成,陣列之上每個交叉點均有一個憶阻器,每個憶阻器中具有可調(diào)節(jié)的電導(dǎo)值; 當(dāng)對憶阻器陣列進行逐行輸入電壓時,同一行中每一個憶阻器能通過輸入電壓乘以該憶阻器電導(dǎo)得到該點的電流值,同時對陣列多行輸入時,對每一列來說,由基爾霍夫電流定律,每一列輸出該列所有憶阻器電流值之和,達到矩陣乘加的目的; 步驟2、將步驟1得到的策略價值輸入貝爾曼最優(yōu)方程電路進行策略迭代求解,求出最優(yōu)價值; 所述貝爾曼最優(yōu)方程電路是將貝爾曼期望方程電路求出的策略價值經(jīng)過反復(fù)遞歸操作,利用貪心算法更新價值概率矩陣,反復(fù)求解策略價值,直到歸于一個確定的值,即最優(yōu)價值; 其中,電路輸入電壓信號為貝爾曼期望方程電路求出的策略價值矩陣;憶阻器陣列中陣列電導(dǎo)值表示價值概率轉(zhuǎn)移矩陣,通過憶阻器陣列的矩陣乘加運算后輸出對應(yīng)電壓價值之后再次返回輸入值進行反復(fù)遞歸操作,通過算法更新價值概率矩陣進行輸出新的已優(yōu)化的價值;由不動點迭代法可知經(jīng)過反復(fù)迭代后輸出價值逐漸趨于穩(wěn)定,最后通過使用贏者通吃電路求出最大價值,即為最優(yōu)價值; 步驟3、將步驟2得到的最優(yōu)價值映射到由憶阻器陣列組成的策略圖譜中,完成每一個狀態(tài)的最優(yōu)價值求解,并根據(jù)最優(yōu)價值的大小決定每一個狀態(tài)的移動方向,達到利用硬件加速貝爾曼方程求解最優(yōu)價值的目的。

      如需購買、轉(zhuǎn)讓、實施、許可或投資類似專利技術(shù),可聯(lián)系本專利的申請人或?qū)@麢?quán)人安徽大學(xué),其通訊地址為:230601 安徽省合肥市經(jīng)濟開發(fā)區(qū)九龍路111號;或者聯(lián)系龍圖騰網(wǎng)官方客服,聯(lián)系龍圖騰網(wǎng)可撥打電話0551-65771310或微信搜索“龍圖騰網(wǎng)”。

      免責(zé)聲明
      1、本報告根據(jù)公開、合法渠道獲得相關(guān)數(shù)據(jù)和信息,力求客觀、公正,但并不保證數(shù)據(jù)的最終完整性和準(zhǔn)確性。
      2、報告中的分析和結(jié)論僅反映本公司于發(fā)布本報告當(dāng)日的職業(yè)理解,僅供參考使用,不能作為本公司承擔(dān)任何法律責(zé)任的依據(jù)或者憑證。
      主站蜘蛛池模板: 一级片一区二区中文字幕| 成熟熟女国产精品一区二区| 你懂的一区二区福利视频| 亚洲av成人精品免费看| 久久亚洲2019中文字幕| 成人亚洲欧美一区二区三区| 在线A毛片免费视频观看| 亚洲鸥美日韩精品久久| 真人性囗交视频| 久久爱在线视频在线观看| 亚洲av噜噜一区二区| 日本中文字幕不卡在线一区二区| 亚洲一区二区三级av| 欧美大胆老熟妇乱子伦视频| 成人看的污污超级黄网站免费| 精品免费看国产一区二区| 色欲综合久久中文字幕网| 在线精品国精品国产尤物| 国产精品黄色一区二区三区 | 亚洲色一色噜一噜噜噜| 一区二区在线观看成人午夜| 99国产成+人+综合+亚洲欧美| 不卡一区二区三区在线视频| 免费无码成人AV片在线| 亚洲综合伊人久久大杳蕉| 亚洲精中文字幕二区三区| 亚洲一区二区三区在线观看精品中文 | 一区二区中文字幕av| 亚洲成人高清av在线| 国产AV巨作丝袜秘书| 亚洲日韩性欧美中文字幕| 午夜福利偷拍国语对白| 26uuu另类亚洲欧美日本| 亚洲av色在线观看国产| 粗大挺进朋友人妻淑娟| 中文丰满岳乱妇在线观看| 欧美性猛交xxxx免费看| 亚洲欧美日韩愉拍自拍美利坚| 国产成人精品亚洲高清在线| jlzz大jlzz大全免费| 国产成人毛片无码视频软件|