騰訊科技(深圳)有限公司李卓聰獲國家專利權
買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監控用IP管家,真方便!
龍圖騰網獲悉騰訊科技(深圳)有限公司申請的專利基于深度學習的文本鑒別方法、裝置、設備及存儲介質獲國家發明授權專利權,本發明授權專利權由國家知識產權局授予,授權公告號為:CN113535946B 。
龍圖騰網通過國家知識產權局官網在2025-08-26發布的發明授權授權公告中獲悉:該發明授權的專利申請號/專利號為:202110037860.2,技術領域涉及:G06F16/353;該發明授權基于深度學習的文本鑒別方法、裝置、設備及存儲介質是由李卓聰設計研發完成,并于2021-01-12向國家知識產權局提交的專利申請。
本基于深度學習的文本鑒別方法、裝置、設備及存儲介質在說明書摘要公布了:本申請實施例提供一種基于深度學習的文本鑒別方法、裝置、設備及存儲介質,涉及人工智能及云技術領域。方法包括:獲取待鑒別目標文本,待鑒別目標文本包括文本標題與文本內容;調用預訓練好的文本分類模型對待鑒別目標文本進行類別屬性鑒別處理,以得到待鑒別目標文本所歸屬的類別屬性,包括:對待鑒別目標文本進行文本標題以及文本內容的字句解析處理,以得到待鑒別目標文本的各字符;對待鑒別目標文本的每個字符進行字向量轉化處理,以得到各字符的字向量;對各字符的字向量進行融合特征提取,得到待鑒別目標文本的文本向量,以根據文本向量得到待鑒別目標文本所歸屬的類別屬性。可以使模型更好的理解待鑒別目標文本,提高模型分類準確率。
本發明授權基于深度學習的文本鑒別方法、裝置、設備及存儲介質在權利要求書中公布了:1.一種基于深度學習的文本鑒別方法,其特征在于,包括: 獲取待鑒別目標文本,所述待鑒別目標文本包括文本標題與文本內容; 調用預訓練好的文本分類模型對所述待鑒別目標文本進行類別屬性鑒別處理,以得到所述待鑒別目標文本所歸屬的類別屬性,包括: 對所述待鑒別目標文本進行文本標題以及文本內容的字句解析處理,以得到所述待鑒別目標文本的各字符; 對所述待鑒別目標文本的每個字符進行字向量轉化處理,以得到各字符的字向量; 對所述各字符的字向量進行融合特征提取,得到所述待鑒別目標文本的文本向量,以根據所述文本向量得到所述待鑒別目標文本所歸屬的類別屬性; 其中,所述文本分類模型是通過以下方式訓練得到的: 獲取標注有真實文本類別屬性標簽的有標簽數據集和無標簽數據集; 基于所述有標簽數據集和所述無標簽數據集,通過重復執行以下操作對初始文本分類模型進行模型參數調整,直至滿足預設的結束條件,得到所述預訓練好的文本分類模型: 將所述無標簽數據集中的各無標簽文本輸入至基于上一次進行模型參數調整后的文本分類模型中,得到各所述無標簽文本對應于各文本類別屬性的預測概率; 對于每一所述無標簽文本,若所述無標簽文本的各預測概率之間的差值小于或等于第一設定閾值,則將所述無標簽文本確定為第一目標文本;若所述無標簽文本的任一預測概率大于或等于該預測概率對應的第二設定閾值,則將所述無標簽文本確定為第二目標文本,將該預測概率所對應的文本類別屬性,確定為該第二目標文本的真實文本類別屬性標簽,并將各所述第二目標文本從所述無標簽數據集中刪除; 獲取標注有真實文本類別屬性標簽的各所述第一目標文本,并將標注后的各所述第一目標文本添加到所述有標簽數據集中,并將各所述第一目標文本從所述無標簽數據集中刪除; 將所述有標簽數據集中的各所述有標簽文本以及本次所述操作所確定的各所述第二目標文本輸入至所述文本分類模型,得到各所述有標簽文本以及各所述第二目標文本各自對應于各文本類別屬性的預測概率,基于各所述有標簽文本以及各所述第二目標文本各自對應的各預測概率以及真實文本類別屬性標簽確定損失函數的值,并基于所述損失函數的值進行模型參數的調整。
如需購買、轉讓、實施、許可或投資類似專利技術,可聯系本專利的申請人或專利權人騰訊科技(深圳)有限公司,其通訊地址為:518000 廣東省深圳市南山區高新區科技中一路騰訊大廈35層;或者聯系龍圖騰網官方客服,聯系龍圖騰網可撥打電話0551-65771310或微信搜索“龍圖騰網”。
1、本報告根據公開、合法渠道獲得相關數據和信息,力求客觀、公正,但并不保證數據的最終完整性和準確性。
2、報告中的分析和結論僅反映本公司于發布本報告當日的職業理解,僅供參考使用,不能作為本公司承擔任何法律責任的依據或者憑證。