浪潮卓數大數據產業發展有限公司吳呈良獲國家專利權
買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監控用IP管家,真方便!
龍圖騰網獲悉浪潮卓數大數據產業發展有限公司申請的專利一種文本去重方法及裝置獲國家發明授權專利權,本發明授權專利權由國家知識產權局授予,授權公告號為:CN115828885B 。
龍圖騰網通過國家知識產權局官網在2025-08-12發布的發明授權授權公告中獲悉:該發明授權的專利申請號/專利號為:202211530626.4,技術領域涉及:G06F40/194;該發明授權一種文本去重方法及裝置是由吳呈良;單震;謝傳家設計研發完成,并于2022-12-01向國家知識產權局提交的專利申請。
本一種文本去重方法及裝置在說明書摘要公布了:本發明涉及機器學習技術領域,具體提供了一種文本去重方法,其特征在于,具有如下步驟:S1、文本標準化處理,對獲取到的原始文本進行相關標準化處理;S2、文本分詞處理,對標準化后的文本數據,通過Python語言,開發對應的腳本程序進行分詞處理;S3、文本分句處理;S4、設置閾值;S5、計算文本特征值;S6、輸出結果。與現有技術相比,本發明通過高效算法設計,為文本數據之間打上相似度比率標簽,進而根據設定的相似度閾值,篩選出相似度過高的文本數據供用戶進一步去重或是進行文本相關性分析,這將降低網絡內容同質化,減輕數據庫存儲負擔,提升文本內容的質量和信息傳播的效率,節約人力物力成本等。
本發明授權一種文本去重方法及裝置在權利要求書中公布了:1.一種文本去重方法,其特征在于,具有如下步驟: S1、文本標準化處理,對獲取到的原始文本進行相關標準化處理; 包括以下步驟: S101、去除文本中數字、字母和標點符號所有非中文的可見字符; S102、去除文本中空格、制表符和換行符所有不可見字符; S103、對文本進行半角轉換,保證待比較文本數據處于統一模式下; S2、文本分詞處理,對標準化后的文本數據,通過Python語言,開發對應的腳本程序進行分詞處理; 對標準化后的文本數據,通過Python語言,開發對應的腳本程序進行分詞處理,并統計各個文本分詞前長度L、分詞后各個詞語的長度L1和在當前文本中出現的次數N; S3、文本分句處理; 對標準化后的文本數據,通過Python語言,開發對應的腳本程序進行分句處理,句子之間的分隔符為句號,并統計各個句子的長度L2; S4、設置閾值; 包括如下: 1文本分詞詞語提取個數n1; 2文本分句句子提取個數n2; 3相似度下限ε; S5、計算文本特征值; 針對任意兩個文本,分別依次進行以下幾步: 1計算各個分詞占所在文本比率:R1=L1*NL; 2計算各個分句占所在文本比率:R2=L2L; 3將分詞按照R1降序排列,根據設定文本分詞詞語提取個數n1,提取n1個詞語; 4將分句按照R2降序排列,根據設定文本分句句子提取個數n2,提取n2個句子; 5對比兩組詞語,提取詞語中相同的個數m1,占比為Z1=m11; 6對比兩組句子,提取句子中相同的個數m2,占比為Z2=m22; 7計算兩個文本的相似度:X=Z1+Z22; S6、輸出結果。
如需購買、轉讓、實施、許可或投資類似專利技術,可聯系本專利的申請人或專利權人浪潮卓數大數據產業發展有限公司,其通訊地址為:214125 江蘇省無錫市無錫經濟開發區金融一街15號1101、1102、1103、1104、1105、1106、1107、1108;或者聯系龍圖騰網官方客服,聯系龍圖騰網可撥打電話0551-65771310或微信搜索“龍圖騰網”。
1、本報告根據公開、合法渠道獲得相關數據和信息,力求客觀、公正,但并不保證數據的最終完整性和準確性。
2、報告中的分析和結論僅反映本公司于發布本報告當日的職業理解,僅供參考使用,不能作為本公司承擔任何法律責任的依據或者憑證。