哈爾濱工業大學趙鐵軍獲國家專利權
買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監控用IP管家,真方便!
龍圖騰網獲悉哈爾濱工業大學申請的專利一種基于主題信息的新聞文本摘要獲取方法、裝置、獲取器和存儲介質獲國家發明授權專利權,本發明授權專利權由國家知識產權局授予,授權公告號為:CN115114428B 。
龍圖騰網通過國家知識產權局官網在2025-08-19發布的發明授權授權公告中獲悉:該發明授權的專利申請號/專利號為:202210673842.8,技術領域涉及:G06F16/34;該發明授權一種基于主題信息的新聞文本摘要獲取方法、裝置、獲取器和存儲介質是由趙鐵軍;郭常江;徐冰;曹海龍;楊沐昀;朱聰慧設計研發完成,并于2022-06-15向國家知識產權局提交的專利申請。
本一種基于主題信息的新聞文本摘要獲取方法、裝置、獲取器和存儲介質在說明書摘要公布了:一種基于主題信息的新聞文本摘要獲取方法、裝置、獲取器和存儲介質,涉及自然語言處理技術領域。解決了現有生成式文本摘要技術在生成的時候并沒有主動地去關注這些潛在的主題信息,導致在生成過程中失去部分重要信息的問題。所述方法包括:對新聞文本進行清理,去除所述新聞文本中無用的符號和信息;利用公開語料庫進行主題模型的訓練,獲取主題語義矩陣;根據獲取的主題語義矩陣結合深度學習神經網絡建立新聞文本的專用生成式摘要模型,并利用公開數據集訓練模型,獲取數據集訓練模型;將新聞文本的清洗步驟中處理的文本輸入至數據集訓練模型,利用主題信息進行指導摘要生成,獲得摘要結果。本發明應用于新聞信息處理技術領域。
本發明授權一種基于主題信息的新聞文本摘要獲取方法、裝置、獲取器和存儲介質在權利要求書中公布了:1.一種基于主題信息的新聞文本摘要獲取方法,其特征在于,所述方法包括: 新聞文本的清洗步驟:對新聞文本進行清理,去除所述新聞文本中無用的符號和信息; 主題語義矩陣獲取的步驟:利用公開語料庫進行主題模型的訓練,獲取主題語義矩陣; 建立數據集訓練模型的步驟:根據獲取的主題語義矩陣結合深度學習神經網絡建立新聞文本的專用生成式摘要模型,并利用公開數據集訓練模型,獲取數據集訓練模型; 獲取摘要的步驟:將新聞文本的清洗步驟中處理的文本輸入至數據集訓練模型,利用主題信息進行指導摘要生成,獲得文本摘要; 所述的數據集訓練模型包括: 新聞文本編碼器、解碼器、歷史信息覆蓋機制和指針生成機制; 所述新聞文本編碼器包括: 詞嵌入層和一層雙向LSTM長短期記憶網絡; 所述詞嵌入層和一層雙向LSTM長短期記憶網絡結合注意力機制獲得每個時刻的語義表示向量: 所述公開語料庫中的每一個分詞經過Embedding層映射,得到向量Embeddingi,其中i表示該句子中的第i個詞; 所述向量Embeddingi輸入到一層雙向LSTM中,得到第i個詞對應的前向向量和后向向量的語義表示,將所述前向向量和后向向量拼接在一起獲取所述第i個詞在解碼時刻為t時的向量: , 根據所述向量獲取每個時刻的語義表示向量: , , , 其中,,,均表示所述注意力層的可學習參數,表示t時刻解碼器的輸出結果,表示注意力運算結果,表示注意力分數,N表示編碼器接收的輸入長度; 所述解碼器包括:Embedding層、一層單向LSTM和兩層全連接層; 所述解碼器將前一時刻的到的單詞映射為向量,將所述向量和前一時刻新聞文本語義向量拼接得到當前時刻t的輸入: 將t時刻的輸入輸入到解碼器的一層單向LSTM長短期記憶網絡中,得到所述t時刻的隱向量;利用所述隱向量和拼接,經過兩層全連接層獲得當前時刻的詞分布: , 其中,為第一層全連接層,為第二層全連接層; 根據當前時刻的詞分布選擇概率最大的詞作為當前時刻的解碼結果; 所述指針生成機制為: , , 其中,,,,均為生成指針的網絡層的可訓練參數,表示當前時刻的詞分布,表示指針生成層得到的指針,取值范圍是[0,1]; 將所獲的主題語義矩陣的參數加載到公開數據集訓練模型中,使用一個可訓練的參數變量接收,在模型解碼的時刻t,使用注意力機制計算當前的語義和主題語義矩陣中的所有主題的相似度,并根據該相似度計算得到當前時刻待解碼的主題語義向量: , , 其中,是當前時刻的語義表示,為主題注意力計算記過,為當前t時刻的主題向量表示,為主題語義矩陣的轉置; 解碼器引入主題語義矩陣的信息,解碼器在解碼的時候需要考慮當前的主題語義信息,因此解碼器的輸入會多一個主題語義表示,計算公式為: ; 指針生成機制引入主題語義矩陣的信息,同解碼器變動原因一致,指針生成公式變動為: 。
如需購買、轉讓、實施、許可或投資類似專利技術,可聯系本專利的申請人或專利權人哈爾濱工業大學,其通訊地址為:150001 黑龍江省哈爾濱市南崗區西大直街92號;或者聯系龍圖騰網官方客服,聯系龍圖騰網可撥打電話0551-65771310或微信搜索“龍圖騰網”。
1、本報告根據公開、合法渠道獲得相關數據和信息,力求客觀、公正,但并不保證數據的最終完整性和準確性。
2、報告中的分析和結論僅反映本公司于發布本報告當日的職業理解,僅供參考使用,不能作為本公司承擔任何法律責任的依據或者憑證。