東南大學(xué)徐寧獲國(guó)家專利權(quán)
買專利賣專利找龍圖騰,真高效! 查專利查商標(biāo)用IPTOP,全免費(fèi)!專利年費(fèi)監(jiān)控用IP管家,真方便!
龍圖騰網(wǎng)獲悉東南大學(xué)申請(qǐng)的專利一種基于標(biāo)記增強(qiáng)學(xué)習(xí)的大語言模型多維偏好對(duì)齊方法及系統(tǒng)獲國(guó)家發(fā)明授權(quán)專利權(quán),本發(fā)明授權(quán)專利權(quán)由國(guó)家知識(shí)產(chǎn)權(quán)局授予,授權(quán)公告號(hào)為:CN120196748B 。
龍圖騰網(wǎng)通過國(guó)家知識(shí)產(chǎn)權(quán)局官網(wǎng)在2025-08-12發(fā)布的發(fā)明授權(quán)授權(quán)公告中獲悉:該發(fā)明授權(quán)的專利申請(qǐng)?zhí)?專利號(hào)為:202510669015.5,技術(shù)領(lǐng)域涉及:G06F16/335;該發(fā)明授權(quán)一種基于標(biāo)記增強(qiáng)學(xué)習(xí)的大語言模型多維偏好對(duì)齊方法及系統(tǒng)是由徐寧;喬世琦設(shè)計(jì)研發(fā)完成,并于2025-05-23向國(guó)家知識(shí)產(chǎn)權(quán)局提交的專利申請(qǐng)。
本一種基于標(biāo)記增強(qiáng)學(xué)習(xí)的大語言模型多維偏好對(duì)齊方法及系統(tǒng)在說明書摘要公布了:本發(fā)明公開了一種基于標(biāo)記增強(qiáng)學(xué)習(xí)的大語言模型多維偏好對(duì)齊方法及系統(tǒng)。本發(fā)明方法包括:使用多個(gè)不同獎(jiǎng)勵(lì)模型對(duì)對(duì)話樣本數(shù)據(jù)進(jìn)行打分,得到樣本偏好置信度,進(jìn)行標(biāo)記增強(qiáng),并對(duì)偏好數(shù)據(jù)集進(jìn)行重構(gòu);從重構(gòu)的數(shù)據(jù)集中選定對(duì)話樣本對(duì)大語言模型進(jìn)行有監(jiān)督訓(xùn)練之后,對(duì)大語言模型進(jìn)行基于置信度的帶權(quán)重直接偏好優(yōu)化;結(jié)合普拉特縮放進(jìn)行大語言模型校準(zhǔn),對(duì)大語言模型參數(shù)和校準(zhǔn)參數(shù)進(jìn)行迭代更新,實(shí)現(xiàn)多維人類偏好對(duì)齊的最優(yōu)策略。本發(fā)明通過調(diào)用多個(gè)獎(jiǎng)勵(lì)模型作為人類代理來生成對(duì)話樣本置信度,結(jié)合標(biāo)記增強(qiáng)學(xué)習(xí)解決了主流對(duì)齊數(shù)據(jù)集中缺乏體現(xiàn)多維人類偏好特征的缺點(diǎn),有效提升了大語言模型對(duì)話質(zhì)量,具有廣泛的實(shí)際應(yīng)用前景。
本發(fā)明授權(quán)一種基于標(biāo)記增強(qiáng)學(xué)習(xí)的大語言模型多維偏好對(duì)齊方法及系統(tǒng)在權(quán)利要求書中公布了:1.一種基于標(biāo)記增強(qiáng)學(xué)習(xí)的大語言模型多維偏好對(duì)齊方法,其特征在于,包括如下步驟: 使用多個(gè)不同獎(jiǎng)勵(lì)模型對(duì)對(duì)話樣本數(shù)據(jù)進(jìn)行打分,得到樣本偏好置信度,進(jìn)行標(biāo)記增強(qiáng),并對(duì)偏好數(shù)據(jù)集進(jìn)行重構(gòu); 從重構(gòu)的數(shù)據(jù)集中選定對(duì)話樣本對(duì)大語言模型進(jìn)行有監(jiān)督訓(xùn)練之后,對(duì)大語言模型進(jìn)行基于置信度的帶權(quán)重直接偏好優(yōu)化;所述基于置信度的帶權(quán)重直接偏好優(yōu)化的目標(biāo)函數(shù)如下: ; 其中,是待優(yōu)化的策略模型,、分別是模型對(duì)輸入x生成回答、的概率,是參考策略模型,、分別是模型對(duì)輸入x生成回答、的概率,是重構(gòu)后的偏好數(shù)據(jù)集劃分的訓(xùn)練集,包含三元組,是溫度系數(shù),控制策略更新幅度,是Sigmoid激活函數(shù),表示求期望,是樣本偏好置信度,n為獎(jiǎng)勵(lì)模型數(shù),為“被選擇”回答,為“被拒絕”回答,為指示函數(shù),和分別表示第i個(gè)獎(jiǎng)勵(lì)模型對(duì)對(duì)話樣本和的打分; 結(jié)合普拉特縮放進(jìn)行大語言模型校準(zhǔn),對(duì)大語言模型參數(shù)和校準(zhǔn)參數(shù)進(jìn)行迭代更新;其中使用從重構(gòu)的數(shù)據(jù)集中劃分出的校準(zhǔn)集擬合校準(zhǔn)參數(shù),最小化校準(zhǔn)集上的負(fù)對(duì)數(shù)似然損失: , , ; 其中,是模型校準(zhǔn)后輸出的偏好分布,是模型對(duì)輸入x生成回答的可能性大于生成回答的可能性的概率,A和B是要擬合的校準(zhǔn)參數(shù);初始化校準(zhǔn)參數(shù)A=1,B=0,使用梯度下降算法對(duì)校準(zhǔn)參數(shù)和大語言模型參數(shù)進(jìn)行交替優(yōu)化。
如需購(gòu)買、轉(zhuǎn)讓、實(shí)施、許可或投資類似專利技術(shù),可聯(lián)系本專利的申請(qǐng)人或?qū)@麢?quán)人東南大學(xué),其通訊地址為:211189 江蘇省南京市江寧區(qū)東南大學(xué)路2號(hào);或者聯(lián)系龍圖騰網(wǎng)官方客服,聯(lián)系龍圖騰網(wǎng)可撥打電話0551-65771310或微信搜索“龍圖騰網(wǎng)”。
1、本報(bào)告根據(jù)公開、合法渠道獲得相關(guān)數(shù)據(jù)和信息,力求客觀、公正,但并不保證數(shù)據(jù)的最終完整性和準(zhǔn)確性。
2、報(bào)告中的分析和結(jié)論僅反映本公司于發(fā)布本報(bào)告當(dāng)日的職業(yè)理解,僅供參考使用,不能作為本公司承擔(dān)任何法律責(zé)任的依據(jù)或者憑證。
- 豪威科技股份有限公司約翰內(nèi)斯·索爾胡斯維克獲國(guó)家專利權(quán)
- 青島海爾洗碗機(jī)有限公司徐偉獲國(guó)家專利權(quán)
- 江蘇眾紅生物工程創(chuàng)藥研究院有限公司馬永獲國(guó)家專利權(quán)
- 鹽城阿特斯協(xié)鑫陽光電力科技有限公司劉志強(qiáng)獲國(guó)家專利權(quán)
- 蘋果公司P·錢獲國(guó)家專利權(quán)
- 心鑒智控(深圳)科技有限公司羅曉忠獲國(guó)家專利權(quán)
- 英特爾公司馬立偉獲國(guó)家專利權(quán)
- 視力移動(dòng)科技公司伊泰·卡茨獲國(guó)家專利權(quán)
- 內(nèi)蒙古大學(xué)李雪玲獲國(guó)家專利權(quán)
- 株式會(huì)社可樂麗岡本哲彌獲國(guó)家專利權(quán)


熱門推薦
- 株式會(huì)社尼康柴崎祐一獲國(guó)家專利權(quán)
- 廈門鷺港兆康生物科技有限公司黃濤獲國(guó)家專利權(quán)
- 劍橋機(jī)電有限公司安德魯·本杰明·大衛(wèi)·布朗獲國(guó)家專利權(quán)
- 佳能特機(jī)株式會(huì)社石井博獲國(guó)家專利權(quán)
- 青島海爾洗碗機(jī)有限公司史景文獲國(guó)家專利權(quán)
- 上海市政工程設(shè)計(jì)研究總院(集團(tuán))有限公司邵長(zhǎng)宇獲國(guó)家專利權(quán)
- 新唐科技日本株式會(huì)社高山徹獲國(guó)家專利權(quán)
- 菲利普莫里斯生產(chǎn)公司I·N·齊諾維科獲國(guó)家專利權(quán)
- 好孩子兒童用品有限公司高翔獲國(guó)家專利權(quán)
- 索尼半導(dǎo)體解決方案公司渡部泰一郎獲國(guó)家專利權(quán)