浙江百應科技有限公司王磊獲國家專利權
買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監控用IP管家,真方便!
龍圖騰網獲悉浙江百應科技有限公司申請的專利一種意圖識別模型訓練的方法、系統、裝置和介質獲國家發明授權專利權,本發明授權專利權由國家知識產權局授予,授權公告號為:CN114692737B 。
龍圖騰網通過國家知識產權局官網在2025-08-12發布的發明授權授權公告中獲悉:該發明授權的專利申請號/專利號為:202210258058.0,技術領域涉及:G06F18/214;該發明授權一種意圖識別模型訓練的方法、系統、裝置和介質是由王磊設計研發完成,并于2022-03-16向國家知識產權局提交的專利申請。
本一種意圖識別模型訓練的方法、系統、裝置和介質在說明書摘要公布了:本申請涉及一種意圖識別模型訓練的方法、系統、裝置和介質,其中,該方法包括:通過原始數據對預訓練模型進行微調,通過微調后的預訓練模型對原始訓練集數據進行打分排序,其中,原始訓練集數據包括原始數據和合成數據;對排序后的原始訓練集數據進行篩選,并將篩選后的數據劃分為不同的訓練子集;最后通過不同的訓練子集對意圖識別模型進行訓練,得到最終訓練好的意圖識別模型。通過本申請,解決了訓練意圖識別模型時,存在的訓練數據質量不高,以及訓練得到的模型性能不好的問題,提高了模型性能和識別準確度。
本發明授權一種意圖識別模型訓練的方法、系統、裝置和介質在權利要求書中公布了:1.一種意圖識別模型訓練的方法,其特征在于,所述方法包括: 通過原始數據對預訓練模型進行微調,通過微調后的預訓練模型對原始訓練集數據進行打分排序,其中,所述原始訓練集數據包括原始數據和合成數據,所述合成數據通過現有的數據增強技術產生,其中,所述通過微調后的預訓練模型對原始訓練集數據進行打分排序包括: 計算原始訓練集數據中每一條數據的單句生成概率,并將所述概率轉換為困惑度;將原始訓練集數據中的每個句子按照困惑度的大小,從小到大進行排列; 對排序后的原始訓練集數據進行篩選,并將篩選后的數據劃分為不同的訓練子集; 通過所述不同的訓練子集對意圖識別模型進行訓練,得到最終訓練好的意圖識別模型,其中,通過所述不同的訓練子集對意圖識別模型進行訓練包括: 從困惑度最小的一個訓練子集開始,逐個將其他的訓練子集合并到當前訓練集中,對模型進行多次訓練,直到模型收斂為止,最終得到訓練好的意圖識別模型,其中,訓練完一個周期后對意圖識別模型在驗證集上的Loss進行校驗,當驗證集上的Loss對比上一個周期的Loss沒有提升時,將困惑度第二小的訓練子集合并到當前的訓練數據集中,開啟新的一輪訓練,如此往復,逐個將其他的訓練子集合并到當前訓練集中,使得模型收斂為止,最終得到訓練好的意圖識別模型。
如需購買、轉讓、實施、許可或投資類似專利技術,可聯系本專利的申請人或專利權人浙江百應科技有限公司,其通訊地址為:310000 浙江省杭州市余杭區景興路999號夢想小鎮天使村11號樓101;或者聯系龍圖騰網官方客服,聯系龍圖騰網可撥打電話0551-65771310或微信搜索“龍圖騰網”。
1、本報告根據公開、合法渠道獲得相關數據和信息,力求客觀、公正,但并不保證數據的最終完整性和準確性。
2、報告中的分析和結論僅反映本公司于發布本報告當日的職業理解,僅供參考使用,不能作為本公司承擔任何法律責任的依據或者憑證。