上海人工智能創(chuàng)新中心李學(xué)龍獲國家專利權(quán)
買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監(jiān)控用IP管家,真方便!
龍圖騰網(wǎng)獲悉上海人工智能創(chuàng)新中心申請的專利一種價值驅(qū)動的跨域策略泛化方法及系統(tǒng)獲國家發(fā)明授權(quán)專利權(quán),本發(fā)明授權(quán)專利權(quán)由國家知識產(chǎn)權(quán)局授予,授權(quán)公告號為:CN116360257B 。
龍圖騰網(wǎng)通過國家知識產(chǎn)權(quán)局官網(wǎng)在2025-08-12發(fā)布的發(fā)明授權(quán)授權(quán)公告中獲悉:該發(fā)明授權(quán)的專利申請?zhí)?專利號為:202310246276.7,技術(shù)領(lǐng)域涉及:G05B13/04;該發(fā)明授權(quán)一種價值驅(qū)動的跨域策略泛化方法及系統(tǒng)是由李學(xué)龍;白辰甲;徐康;趙斌;王震設(shè)計研發(fā)完成,并于2023-03-14向國家知識產(chǎn)權(quán)局提交的專利申請。
本一種價值驅(qū)動的跨域策略泛化方法及系統(tǒng)在說明書摘要公布了:本發(fā)明總的來說涉及強化學(xué)習(xí)技術(shù)領(lǐng)域,提出一種價值驅(qū)動的跨域策略泛化方法及系統(tǒng)。該方法包括:提供源域訓(xùn)練數(shù)據(jù)以及目標域訓(xùn)練數(shù)據(jù);基于價值驅(qū)動篩選源域訓(xùn)練數(shù)據(jù);以及將篩選出的源域訓(xùn)練數(shù)據(jù)以及目標域訓(xùn)練數(shù)據(jù)輸入智能體中進行訓(xùn)練。本發(fā)明在源域自身不需要改變的同時,算法不再專注數(shù)據(jù)的動力學(xué)一致性,而是從價值的跨域一致性對源域數(shù)據(jù)進行篩選,能夠有效提高強化學(xué)習(xí)中策略的泛化能力,進而可以有效節(jié)約運算資源。
本發(fā)明授權(quán)一種價值驅(qū)動的跨域策略泛化方法及系統(tǒng)在權(quán)利要求書中公布了:1.一種價值驅(qū)動的跨域策略泛化方法,其特征在于,包括下列步驟: 提供源域訓(xùn)練數(shù)據(jù)以及目標域訓(xùn)練數(shù)據(jù): 篩選源域訓(xùn)練數(shù)據(jù),其中包括: 提供狀態(tài)動作數(shù)據(jù)對s,a,確定源域下一時刻狀態(tài)s′src,并且通過目標域動力學(xué)模型確定目標域下一時刻狀態(tài)集合 通過價值函數(shù)網(wǎng)絡(luò)對所述源域下一時刻狀態(tài)s′src以及所述目標域下一時刻狀態(tài)集合進行價值評估以生成源域狀態(tài)價值Qsrc以及目標域狀態(tài)價值集合以及 比較所述生成源域狀態(tài)價值Qsrc以及目標域狀態(tài)價值集合篩選出狀態(tài)價值差距小于閾值∈的源域訓(xùn)練數(shù)據(jù);以及 將篩選出的源域訓(xùn)練數(shù)據(jù)以及目標域訓(xùn)練數(shù)據(jù)輸入智能體中進行訓(xùn)練。
如需購買、轉(zhuǎn)讓、實施、許可或投資類似專利技術(shù),可聯(lián)系本專利的申請人或?qū)@麢?quán)人上海人工智能創(chuàng)新中心,其通訊地址為:200232 上海市徐匯區(qū)云錦路701號37、38層;或者聯(lián)系龍圖騰網(wǎng)官方客服,聯(lián)系龍圖騰網(wǎng)可撥打電話0551-65771310或微信搜索“龍圖騰網(wǎng)”。
1、本報告根據(jù)公開、合法渠道獲得相關(guān)數(shù)據(jù)和信息,力求客觀、公正,但并不保證數(shù)據(jù)的最終完整性和準確性。
2、報告中的分析和結(jié)論僅反映本公司于發(fā)布本報告當日的職業(yè)理解,僅供參考使用,不能作為本公司承擔(dān)任何法律責(zé)任的依據(jù)或者憑證。


熱門推薦
- 北京奇藝世紀科技有限公司章敏杰獲國家專利權(quán)
- 威斯康星州醫(yī)藥大學(xué)股份有限公司X·A·李獲國家專利權(quán)
- 德克斯康公司R·E·斯庫恩馬克獲國家專利權(quán)
- 開易(廣東)服裝配件有限公司陳昌華獲國家專利權(quán)
- 領(lǐng)星生物科技(上海)有限公司許強獲國家專利權(quán)
- 深圳市贏合科技股份有限公司黃振奎獲國家專利權(quán)
- 萊克電氣綠能科技(蘇州)有限公司倪祖根獲國家專利權(quán)
- 谷歌有限責(zé)任公司馬里厄斯·席爾德獲國家專利權(quán)
- 旭化成株式會社內(nèi)藤一也獲國家專利權(quán)
- 麥斯韋爾技術(shù)股份有限公司戴維·雷歇爾獲國家專利權(quán)