燕山大學馮建周獲國家專利權
買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監控用IP管家,真方便!
龍圖騰網獲悉燕山大學申請的專利一種使用兩階段檢索的文本多跳推理問答方法獲國家發明授權專利權,本發明授權專利權由國家知識產權局授予,授權公告號為:CN116383347B 。
龍圖騰網通過國家知識產權局官網在2025-08-15發布的發明授權授權公告中獲悉:該發明授權的專利申請號/專利號為:202211104039.9,技術領域涉及:G06F16/3329;該發明授權一種使用兩階段檢索的文本多跳推理問答方法是由馮建周;王琴;徐甘霖設計研發完成,并于2022-09-09向國家知識產權局提交的專利申請。
本一種使用兩階段檢索的文本多跳推理問答方法在說明書摘要公布了:本發明公開了一種使用兩階段檢索的文本多跳推理問答方法,及自然語言處理技術領域,方法包括兩個模塊。首先,在上下文感知知識檢索器模塊中,使用具有掩碼機制的雙編碼器框架進行預訓練,再將學習到的假設和知識的表示基于句子級密集檢索獲得候選核心知識。其次,在實體感知知識驗證模塊中,通過實體級稀疏矩陣確定假設和知識的可達性,將用于進一步驗證核心知識和假設之間是否存在支撐關系。本方法將上下文感知和實體感知的知識檢索方法結合應用到推理過程中,改進以實體為中心的推理的盲目性,使模型同時考慮假設和知識之間的上下文語義匹配和實體概念影響。在需要復雜多跳的科學問答領域中,具有明顯的性能優勢。
本發明授權一種使用兩階段檢索的文本多跳推理問答方法在權利要求書中公布了:1.一種使用兩階段檢索的文本多跳推理問答方法,其特征在于,包括以下步驟: S1、將問題q和每個答案選項a={a1,a2,...,aM}進行拼接,得到假設集合h={h1,h2,...,hM},其中,M是問題的選項數,將原形式下使用標志位將問題q和答案選項a進行簡單拼接的多項選擇問答問題轉換為文本蘊含問題; S2、將外部文本知識庫中的領域理論知識劃分為核心知識集合E和背景知識集合G,其中,核心知識ee∈E表示問題考察的核心思想,背景知識gg∈G表示用于解決問題的輔助知識; S3、在第一階段上下文感知知識檢索器模塊中,將正確答案對應的假設hi稱為正確假設并將支撐正確假設成立的核心知識e稱為正確核心知識分別將掩蓋部分實體概念的所有正確假設和其對應的正確核心知識輸入到上下文感知知識檢索器模塊中的雙編碼器模型中;結合對比學習的思想,將同批訓練中的其他問題的正確假設所對應的正確核心知識作為負相關知識訓練后得到正確假設與正確核心知識之間的映射關系; 所述步驟S3包含以下步驟: S3.1、使用SpaCy文本處理工具,抽取出背景知識G中的所有名詞及名詞短語作為實體;對于工具抽取時的噪聲,在分析實體出現頻率和實體含義后進行半自動降噪,構成實體詞表; S3.2、根據實體詞表選取出正確假設中的實體,并隨機掩蓋一定比例的實體,將正確假設輸入到雙編碼模型中的問題假設編碼器中,同時將其對應的正確核心知識輸入到雙編碼器模型中的知識編碼器中,通過余弦相似度計算兩者的距離; S3.3、將同批訓練中的其他問題的正確假設對應的核心知識作為負相關知識將損失函數優化為正確核心知識的負對數似然值,損失函數如下: S4、將所有核心知識e輸入到雙編碼模型中的知識編碼器中,輸出核心知識e的語義表征向量;再將假設hi輸入到雙編碼器模型中的問題假設編碼器中,得到假設hi的語義表征向量,通過與所有核心知識e的表征向量進行余弦相似度檢索,得到支撐假設hi的候選核心知識池和問題q對應的候選核心知識池同時得到候選核心知識池中核心知識與假設hi之間的上下文語義匹配得分; S5、在第二階段實體感知知識驗證模塊中,構建背景知識集合G中實體之間的可達性矩陣,通過Kuhn-Munkres算法對假設hi中的實體和候選知識池中核心知識的實體之間進行可達性計算,得到核心知識ej和假設hi之間的實體匹配得分; 所述步驟S5包括:先抽取背景知識G中的實體,并通過BFS算法構建實體之間的可達性矩陣P,再抽取候選知識池中核心知識ej和假設hi中的實體,計算假設hi中的實體和候選知識池中核心知識ej的實體之間的可達分數,可達性分數計算如下: 其中,Ici,cj表示實體i能否到達實體j的符號函數,|pathi,j|表示兩實體所經過的路徑長度;Th是假設h的特殊實體集合,其中特殊實體是指在同一問題的所有假設中不同時出現的實體,Scj,Th是實體j是否屬于特殊實體集合的符號函數;為防止除數為0,添加了超參數ε;是核心知識句中的第i個實體,是假設句中的第j個實體;在得到假設句中實體集和核心知識中的實體集之間的可達分數后,使用Kuhn-Munkres算法得到核心知識ej和假設hi之間實體驗證的分數KMhi,ej; S6、將上下文感知知識檢索器模塊和實體感知知識驗證模塊得到的分數進行加權求和;對于含M個選項的問題q中的第i個假設hi,將得分最高的候選核心知識作為假設hi的預測核心知識,將得分最高的假設預測為問題的最終答案,并對雙編碼器模型進行微調,通過優化器最小化損失值。
如需購買、轉讓、實施、許可或投資類似專利技術,可聯系本專利的申請人或專利權人燕山大學,其通訊地址為:066004 河北省秦皇島市海港區河北大街438號;或者聯系龍圖騰網官方客服,聯系龍圖騰網可撥打電話0551-65771310或微信搜索“龍圖騰網”。
1、本報告根據公開、合法渠道獲得相關數據和信息,力求客觀、公正,但并不保證數據的最終完整性和準確性。
2、報告中的分析和結論僅反映本公司于發布本報告當日的職業理解,僅供參考使用,不能作為本公司承擔任何法律責任的依據或者憑證。