國網浙江省電力有限公司信息通信分公司鄭詩雨獲國家專利權
買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監控用IP管家,真方便!
龍圖騰網獲悉國網浙江省電力有限公司信息通信分公司申請的專利大語言模型越獄攻擊的防御方法、系統、設備和存儲介質獲國家發明授權專利權,本發明授權專利權由國家知識產權局授予,授權公告號為:CN120408608B 。
龍圖騰網通過國家知識產權局官網在2025-08-26發布的發明授權授權公告中獲悉:該發明授權的專利申請號/專利號為:202510906950.9,技術領域涉及:G06F21/55;該發明授權大語言模型越獄攻擊的防御方法、系統、設備和存儲介質是由鄭詩雨;王以良;徐子超;周鵬;戚偉強;盧新岱;陳逍瀟;錢經瑋;胡云龍;陳婧楠;王臻;陳超;王嘉琦;陳昭昀;江昊設計研發完成,并于2025-07-02向國家知識產權局提交的專利申請。
本大語言模型越獄攻擊的防御方法、系統、設備和存儲介質在說明書摘要公布了:本發明涉及模型防御技術領域,公開了一種大語言模型越獄攻擊的防御方法、系統、設備和存儲介質,包括通過探針采集模型采集各個解碼器層輸出的高維中間特征并進行降維,得到低維中間特征;計算低維中間特征與有害特征中心之間的第一距離,以及與安全特征中心之間的第二距離,根據第一距離與第二距離之間的差值,得到向量距離差異,判斷是否存在越獄攻擊風險;響應于存在風險,以關鍵層的向量距離差異的最大化為目標函數,構建擾動優化模型,得到最優擾動項,并添加至對應的高維中間特征,得到安全中間特征。本發明提高了電力系統中大語言模型的實時動態防御能力、可解釋性和計算效率,實現了大語言模型的對抗調整與穩定性之間的有效平衡。
本發明授權大語言模型越獄攻擊的防御方法、系統、設備和存儲介質在權利要求書中公布了:1.一種大語言模型越獄攻擊的防御方法,其特征在于,包括: 將文本數據輸入大語言模型,通過預先構建的探針采集模型采集大語言模型的各個解碼器層輸出的高維中間特征并進行降維,得到多個低維中間特征,所述探針采集模型包括若干個特征提取模塊,所述大語言模型基于轉換器模型構建得到; 計算所述低維中間特征與預設的有害特征中心之間的第一距離,以及所述低維中間特征與預設的安全特征中心之間的第二距離,根據所述第一距離與所述第二距離之間的差值,得到向量距離差異,并根據所述向量距離差異與預設的差異閾值之間的比較結果,判斷是否存在越獄攻擊風險; 響應于存在越獄攻擊風險,將大語言模型中的最后若干個解碼器層作為關鍵層,以所述關鍵層的向量距離差異的最大化為目標函數,構建擾動優化模型,對所述擾動優化模型進行迭代求解,得到最優擾動項,并將所述最優擾動項添加至對應的所述高維中間特征,得到安全中間特征。
如需購買、轉讓、實施、許可或投資類似專利技術,可聯系本專利的申請人或專利權人國網浙江省電力有限公司信息通信分公司,其通訊地址為:310007 浙江省杭州市西湖區黃龍路8號641室;或者聯系龍圖騰網官方客服,聯系龍圖騰網可撥打電話0551-65771310或微信搜索“龍圖騰網”。
1、本報告根據公開、合法渠道獲得相關數據和信息,力求客觀、公正,但并不保證數據的最終完整性和準確性。
2、報告中的分析和結論僅反映本公司于發布本報告當日的職業理解,僅供參考使用,不能作為本公司承擔任何法律責任的依據或者憑證。