中國(guó)礦業(yè)大學(xué)王雪松獲國(guó)家專利權(quán)
買專利賣專利找龍圖騰,真高效! 查專利查商標(biāo)用IPTOP,全免費(fèi)!專利年費(fèi)監(jiān)控用IP管家,真方便!
龍圖騰網(wǎng)獲悉中國(guó)礦業(yè)大學(xué)申請(qǐng)的專利一種基于擴(kuò)散狀態(tài)規(guī)劃的決策Transformer離線強(qiáng)化學(xué)習(xí)方法獲國(guó)家發(fā)明授權(quán)專利權(quán),本發(fā)明授權(quán)專利權(quán)由國(guó)家知識(shí)產(chǎn)權(quán)局授予,授權(quán)公告號(hào)為:CN120181138B 。
龍圖騰網(wǎng)通過國(guó)家知識(shí)產(chǎn)權(quán)局官網(wǎng)在2025-08-12發(fā)布的發(fā)明授權(quán)授權(quán)公告中獲悉:該發(fā)明授權(quán)的專利申請(qǐng)?zhí)?專利號(hào)為:202510655213.6,技術(shù)領(lǐng)域涉及:G06N3/045;該發(fā)明授權(quán)一種基于擴(kuò)散狀態(tài)規(guī)劃的決策Transformer離線強(qiáng)化學(xué)習(xí)方法是由王雪松;張恒瑞;程玉虎;萬紅設(shè)計(jì)研發(fā)完成,并于2025-05-21向國(guó)家知識(shí)產(chǎn)權(quán)局提交的專利申請(qǐng)。
本一種基于擴(kuò)散狀態(tài)規(guī)劃的決策Transformer離線強(qiáng)化學(xué)習(xí)方法在說明書摘要公布了:本發(fā)明公開了一種基于擴(kuò)散狀態(tài)規(guī)劃的決策Transformer離線強(qiáng)化學(xué)習(xí)方法,屬于離線強(qiáng)化學(xué)習(xí)和序列決策技術(shù)領(lǐng)域,首先,鑒于現(xiàn)有條件序列建模的離線強(qiáng)化學(xué)習(xí)方法缺乏軌跡拼接能力,并且難以根據(jù)驅(qū)動(dòng)回報(bào)進(jìn)行合理的信用分配,引入高回報(bào)子目標(biāo)狀態(tài)以重新構(gòu)建軌跡表征;然后,使用無分類器引導(dǎo)的擴(kuò)散模型規(guī)劃出具有高回報(bào)的狀態(tài)序列;最后,使用決策Transformer根據(jù)已有軌跡和規(guī)劃出的狀態(tài)輸出高質(zhì)量的動(dòng)作序列。本發(fā)明可以顯著地增加序列建模方法的軌跡拼接能力,從而進(jìn)行合理的信用分配。
本發(fā)明授權(quán)一種基于擴(kuò)散狀態(tài)規(guī)劃的決策Transformer離線強(qiáng)化學(xué)習(xí)方法在權(quán)利要求書中公布了:1.一種基于擴(kuò)散狀態(tài)規(guī)劃的決策Transformer離線強(qiáng)化學(xué)習(xí)方法,其特征在于,包括以下步驟: 將智能體的狀態(tài)軌跡輸入到訓(xùn)練好的無分類器引導(dǎo)的擴(kuò)散模型中,規(guī)劃出高回報(bào)子目標(biāo)狀態(tài)序列,其中,表示獎(jiǎng)勵(lì)的累計(jì),表示狀態(tài),表示序列長(zhǎng)度,表示高回報(bào)子目標(biāo)狀態(tài); 將所述高回報(bào)子目標(biāo)狀態(tài)序列與狀態(tài)軌跡進(jìn)行拼接,得到拼接后的狀態(tài)軌跡;表示動(dòng)作, 將所述拼接后的狀態(tài)軌跡輸入到訓(xùn)練好的決策Transformer模型,生成最優(yōu)動(dòng)作序列; 對(duì)所述無分類器引導(dǎo)的擴(kuò)散模型的訓(xùn)練過程為: 首先初始化所述無分類器引導(dǎo)的擴(kuò)散模型網(wǎng)絡(luò)的網(wǎng)絡(luò)參數(shù); 再采用經(jīng)驗(yàn)池中的狀態(tài)軌跡樣本對(duì)所述網(wǎng)絡(luò)參數(shù)進(jìn)行更新,所述更新的方法為通過梯度下降法最小化如下?lián)p失函數(shù): ; 其中,表示無分類器引導(dǎo)的擴(kuò)散模型網(wǎng)絡(luò)損失函數(shù),表示期望符號(hào),表示離散集上的均勻分布,表示擴(kuò)散步數(shù),表示預(yù)定義噪聲,~表示采樣操作,表示標(biāo)準(zhǔn)高斯分布,表示第步擴(kuò)散的狀態(tài)軌跡樣本,條件以概率置空,記為: ; 其中,表示狀態(tài)軌跡樣本對(duì)應(yīng)的累計(jì)回報(bào),表示空集,表示獎(jiǎng)勵(lì)的累計(jì); 對(duì)所述決策Transformer模型的訓(xùn)練過程為: 首先初始化所述決策Transformer網(wǎng)絡(luò)的網(wǎng)絡(luò)參數(shù); 將經(jīng)驗(yàn)池中的狀態(tài)軌跡樣本與高回報(bào)子目標(biāo)狀態(tài)進(jìn)行拼接,得到拼接后的軌跡樣本,基于所述拼接后的軌跡樣本對(duì)所述網(wǎng)絡(luò)參數(shù)進(jìn)行更新; 所述更新的方法為通過梯度下降法最小化如下?lián)p失函數(shù): ; 其中,表示決策Transformer網(wǎng)絡(luò)的損失函數(shù),表示對(duì)軌跡中的值求期望,表示序列長(zhǎng)度,表示在第個(gè)時(shí)間步從經(jīng)驗(yàn)池中采樣出的動(dòng)作,表示決策Transformer網(wǎng)絡(luò)在第個(gè)時(shí)間步的動(dòng)作輸出。
如需購(gòu)買、轉(zhuǎn)讓、實(shí)施、許可或投資類似專利技術(shù),可聯(lián)系本專利的申請(qǐng)人或?qū)@麢?quán)人中國(guó)礦業(yè)大學(xué),其通訊地址為:221148 江蘇省徐州市銅山區(qū)大學(xué)路1號(hào);或者聯(lián)系龍圖騰網(wǎng)官方客服,聯(lián)系龍圖騰網(wǎng)可撥打電話0551-65771310或微信搜索“龍圖騰網(wǎng)”。
1、本報(bào)告根據(jù)公開、合法渠道獲得相關(guān)數(shù)據(jù)和信息,力求客觀、公正,但并不保證數(shù)據(jù)的最終完整性和準(zhǔn)確性。
2、報(bào)告中的分析和結(jié)論僅反映本公司于發(fā)布本報(bào)告當(dāng)日的職業(yè)理解,僅供參考使用,不能作為本公司承擔(dān)任何法律責(zé)任的依據(jù)或者憑證。
- 重慶金山醫(yī)療機(jī)器人有限公司王了獲國(guó)家專利權(quán)
- 東風(fēng)小康汽車有限公司重慶分公司陳向獲國(guó)家專利權(quán)
- 童海根獲國(guó)家專利權(quán)
- 北京京東乾石科技有限公司肖鵬宇獲國(guó)家專利權(quán)
- 英特爾公司B.何獲國(guó)家專利權(quán)
- 維嘉數(shù)控科技(蘇州)有限公司袁績(jī)獲國(guó)家專利權(quán)
- 瑞典愛立信有限公司S.法克塞爾獲國(guó)家專利權(quán)
- 深圳市科源建設(shè)集團(tuán)有限公司剪愛森獲國(guó)家專利權(quán)
- 華為技術(shù)有限公司阿米爾·本納坦獲國(guó)家專利權(quán)
- 天津雨霖新能源科技有限公司王琳獲國(guó)家專利權(quán)


熱門推薦
- 山東濰氫動(dòng)力科技有限公司熊子昂獲國(guó)家專利權(quán)
- 松下知識(shí)產(chǎn)權(quán)經(jīng)營(yíng)株式會(huì)社川添弘一朗獲國(guó)家專利權(quán)
- 梁京沃獲國(guó)家專利權(quán)
- 貝克頓·迪金森公司蔣昶獲國(guó)家專利權(quán)
- 天津重鋼機(jī)械裝備股份有限公司張玉生獲國(guó)家專利權(quán)
- 維諦技術(shù)有限公司房繼軍獲國(guó)家專利權(quán)
- 中國(guó)電子科技集團(tuán)公司電子科學(xué)研究院許華醒獲國(guó)家專利權(quán)
- 青島海爾空調(diào)器有限總公司張蕾獲國(guó)家專利權(quán)
- 華為技術(shù)有限公司王業(yè)奎獲國(guó)家專利權(quán)
- 通用電氣公司賈斯汀·曼拉克獲國(guó)家專利權(quán)