北京微播易科技股份有限公司張盼盼獲國家專利權
買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監控用IP管家,真方便!
龍圖騰網獲悉北京微播易科技股份有限公司申請的專利一種數據增強方法、文本分類模型的訓練方法和裝置獲國家發明授權專利權,本發明授權專利權由國家知識產權局授予,授權公告號為:CN114491048B 。
龍圖騰網通過國家知識產權局官網在2025-08-15發布的發明授權授權公告中獲悉:該發明授權的專利申請號/專利號為:202210143275.5,技術領域涉及:G06F16/35;該發明授權一種數據增強方法、文本分類模型的訓練方法和裝置是由張盼盼;袁一涵;林星;白興安;徐揚設計研發完成,并于2022-02-16向國家知識產權局提交的專利申請。
本一種數據增強方法、文本分類模型的訓練方法和裝置在說明書摘要公布了:本申請提出一種數據增強方法、文本分類模型的訓練方法和裝置,涉及文本分類技術領域。為解決現有技術中文本分類的準確率較低的問題而發明。包括S10、獲取文本分類的至少一個初始訓練文本和對應類別;S20、根據任意第一數量初始訓練文本中每個初始訓練文本對應的分詞數據中停用詞個數,分別對該任意第一數量初始訓練文本中每個初始訓練文本對應的分詞數據進行停用詞處理,得到第一數量的增強數據;S30、判斷得到的增強數據是否符合預設數據規則;如果是,執行步驟S40;否則,執行所述步驟S20;S40、將所述至少一個初始訓練文本和對應類別與所有增強數據和對應類別混合,得到增強訓練集。
本發明授權一種數據增強方法、文本分類模型的訓練方法和裝置在權利要求書中公布了:1.一種數據增強方法,其特征在于,包括: S10、獲取文本分類的至少一個初始訓練文本和對應類別; S20、根據任意第一數量初始訓練文本中每個初始訓練文本對應的分詞數據中停用詞個數,分別對該任意第一數量初始訓練文本中每個初始訓練文本對應的分詞數據進行停用詞處理,得到第一數量的增強數據;所述停用詞處理包括停用詞插入、停用詞刪除、停用詞替換和停用詞交換中的一種或多種;每個增強數據的類別與對應初始訓練文本的類別相同;所述第一數量為正整數,所述第一數量不大于所述至少一個初始訓練文本的數量; S30、判斷得到的增強數據是否符合預設數據規則; 如果是,執行步驟S40;否則,執行所述步驟S20; S40、將所述至少一個初始訓練文本和對應類別與所有增強數據和對應類別混合,得到增強訓練集; 對于任一初始訓練文本,所述S20包括: S201、獲取該初始訓練文本對應的分詞數據中停用詞個數; S202、當停用詞個數為0時,對該初始訓練文本對應的分詞數據進行停用詞插入,得到初始增強數據; S203、當停用詞個數為1時,對該初始訓練文本對應的分詞數據進行停用詞插入、停用詞刪除或停用詞替換,得到初始增強數據; S204、當停用詞個數大于1時,對該初始訓練文本對應的分詞數據進行停用詞插入、停用詞刪除、停用詞替換或停用詞交換,得到初始增強數據; S205、判斷停用詞處理的次數是否達到預設第二閾值; 如果是,執行步驟S206;否則,將該初始訓練文本更新為當前初始增強數據后執行步驟S201;所述預設第二閾值為正整數; S206、將停用詞處理的次數達到預設第二閾值時的初始增強數據作為對應的增強數據。
如需購買、轉讓、實施、許可或投資類似專利技術,可聯系本專利的申請人或專利權人北京微播易科技股份有限公司,其通訊地址為:100081 北京市海淀區紫竹院路廣源閘5號廣源大廈3層83073號;或者聯系龍圖騰網官方客服,聯系龍圖騰網可撥打電話0551-65771310或微信搜索“龍圖騰網”。
1、本報告根據公開、合法渠道獲得相關數據和信息,力求客觀、公正,但并不保證數據的最終完整性和準確性。
2、報告中的分析和結論僅反映本公司于發布本報告當日的職業理解,僅供參考使用,不能作為本公司承擔任何法律責任的依據或者憑證。