中科軟科技股份有限公司趙全軍獲國家專利權
買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監控用IP管家,真方便!
龍圖騰網獲悉中科軟科技股份有限公司申請的專利一種基于深度學習的多語言有害信息特征智能挖掘方法獲國家發明授權專利權,本發明授權專利權由國家知識產權局授予,授權公告號為:CN111626318B 。
龍圖騰網通過國家知識產權局官網在2025-08-26發布的發明授權授權公告中獲悉:該發明授權的專利申請號/專利號為:201911063979.6,技術領域涉及:G06F18/214;該發明授權一種基于深度學習的多語言有害信息特征智能挖掘方法是由趙全軍;吳敬征;段旭;陳宏江;伊克拉木·伊力哈木;劉立力設計研發完成,并于2019-11-04向國家知識產權局提交的專利申請。
本一種基于深度學習的多語言有害信息特征智能挖掘方法在說明書摘要公布了:本發明公開了一種基于深度學習的多語言有害信息特征智能挖掘方法,標注各語種各類別有害和無害信息文本;將每個語種的每個類別的詞使用RNSW方法選出候選詞并建立獨熱碼編碼;將樣品數據輸入CNN神經網絡模型中進行訓練,得到每個詞屬于該語種該有害類別的得分,作為權重;使用遺傳算法對機器學習選出的有害信息特征進行篩選,形成最終的有害信息特征和權重。本發明一是提出了一種語種無關的文本降維表示的RNSW方法,有效降低了模型訓練的參數數量,加快了訓練速度,提高了模型識別的準確率;二是采用深度學習的方法實現了有害信息特征的智能挖掘,并通過遺傳算法對有害信息特征篩選,使得有害信息識別的可解釋性更好。
本發明授權一種基于深度學習的多語言有害信息特征智能挖掘方法在權利要求書中公布了:1.一種基于深度學習的多語言有害信息特征智能挖掘方法,包括如下步驟: 1收集各語種有害信息文本和無害信息文本,建立數據標注集S,標注各語種各類別的有害信息文本數據的正負樣本數據,其中正樣本是該類別該語種的有害信息文本,樣本數量為N正樣本,負樣本是該類別該語種的無害信息文本,樣本數量為N負樣本; 2將步驟1的數據標注集S中各語種有害信息文本和無害信息文本詞例化,然后去掉停用詞和標點符號; 3將步驟2的每個語種的每個類別的詞使用RNSWRemoveNegativeSampleWords方法選出n個候選詞,建立該類別的詞-ID的詞對集合{W1,ID1,W2,ID2,……,Wn,IDn},其中n為該類別的詞對集合中詞對的數量,Wx代表各語種的單詞或分詞后的詞,IDx代表該詞的ID,用集合中的唯一的一個整數值的獨熱碼One-HotEncoding編碼來表示; 4將步驟3每個語種的每個類別的每個樣品數據,根據該語種該類別的詞對集合{W1,ID1,W2,ID2,……,Wn,IDn},轉化為相應的ID的數據向量X: {Vec1,Vec2,……Vecm}; 5將步驟4的每個語種的每個類別中的最大的樣本的詞的數量Mmax作為該類別的詞的數量,將數據向量X:{Vec1,Vec2,……Vecm}中詞向量維數不到Mmax的在前端填充0;根據每個樣本是正樣本還是負樣本,設置相應數據的類別向量:y:{y1, y2,……,ym},對于該類別的正樣本yx為[1,0],負樣本則yx為[0,1]; 6將步驟5的每個語種的每個類別的數據向量X和y按照某個比例分成訓練集train_x,train_y和測試集dev_x,dev_y; 7按照某個批大小,分批將步驟6的train_x,train_y輸入到CNN神經網絡模型中訓練學習,使用Adam優化器和交叉熵損失函數進行訓練,最后用softmax歸一化分類,得到最終的分類結果; 8將詞對集合{W1,ID1,W2,ID2,……,Wn,IDn}的每個詞Wx輸入到步驟7訓練優化的最終模型中,得到每個詞Wx屬于該語種該有害類別的得分Mx,將Mx作為該詞的權重,按照權重從大到小排序,得到p個詞集合{W1,W2,……, Wp},則該詞集合為機器學習選出的該語種該類別的有害信息特征; 9使用遺傳算法對步驟8機器學習選出的有害信息特征{W1,W2,……Wp}進行特征選擇,選擇出最優數量的有害信息特征詞,形成最終的有害信息特征{W1, W2,……Wq}和權重{M1,M2,……,Mq}; 10使用步驟9的有害信息特征{W1,W2,……,Wq}和相應的權重{M1,M2,……,Mq},判斷文本是否為有害信息。
如需購買、轉讓、實施、許可或投資類似專利技術,可聯系本專利的申請人或專利權人中科軟科技股份有限公司,其通訊地址為:100190 北京市海淀區中關村新科祥園甲6號樓;或者聯系龍圖騰網官方客服,聯系龍圖騰網可撥打電話0551-65771310或微信搜索“龍圖騰網”。
1、本報告根據公開、合法渠道獲得相關數據和信息,力求客觀、公正,但并不保證數據的最終完整性和準確性。
2、報告中的分析和結論僅反映本公司于發布本報告當日的職業理解,僅供參考使用,不能作為本公司承擔任何法律責任的依據或者憑證。