廈門快商通科技股份有限公司宋正博獲國家專利權(quán)
買專利賣專利找龍圖騰,真高效! 查專利查商標(biāo)用IPTOP,全免費(fèi)!專利年費(fèi)監(jiān)控用IP管家,真方便!
龍圖騰網(wǎng)獲悉廈門快商通科技股份有限公司申請的專利一種小樣本文本分類方法及模型獲國家發(fā)明授權(quán)專利權(quán),本發(fā)明授權(quán)專利權(quán)由國家知識產(chǎn)權(quán)局授予,授權(quán)公告號為:CN114117039B 。
龍圖騰網(wǎng)通過國家知識產(chǎn)權(quán)局官網(wǎng)在2025-08-12發(fā)布的發(fā)明授權(quán)授權(quán)公告中獲悉:該發(fā)明授權(quán)的專利申請?zhí)?專利號為:202111312643.6,技術(shù)領(lǐng)域涉及:G06F16/35;該發(fā)明授權(quán)一種小樣本文本分類方法及模型是由宋正博;肖龍?jiān)?李稀敏;李威設(shè)計(jì)研發(fā)完成,并于2021-11-08向國家知識產(chǎn)權(quán)局提交的專利申請。
本一種小樣本文本分類方法及模型在說明書摘要公布了:本發(fā)明公開了一種小樣本文本分類方法及模型,包括以下步驟:步驟a.對輸入語料信息中的詞匯進(jìn)行詞向量轉(zhuǎn)換,得到詞向量矩陣;步驟b.通過雙向長短期記憶層處理詞向量矩陣,得到詞向量矩陣對應(yīng)的隱層狀態(tài)序列;并基于隱層狀態(tài)序列提取自注意力特征向量e,得到自注意力特征向量矩陣E;步驟c.基于自注意力特征向量矩陣E,通過膠囊網(wǎng)絡(luò)來表征類別向量c,得到所有已知類別的類別向量c;步驟d.基于所有已知類別的類別向量c對輸入語料信息進(jìn)行關(guān)系打分,得到與所述輸入語料信息相似度最高的類別向量c,則該類別向量c對應(yīng)的類別為輸入語料信息的分類結(jié)果。本發(fā)明能夠?qū)W習(xí)文本空間特征的歸納網(wǎng)絡(luò)模型,對于文本語義的類表示進(jìn)行更有效的歸納。
本發(fā)明授權(quán)一種小樣本文本分類方法及模型在權(quán)利要求書中公布了:1.一種小樣本文本分類方法,其特征在于,包括以下步驟: 步驟a.對輸入語料信息中的詞匯進(jìn)行詞向量轉(zhuǎn)換,得到詞向量矩陣; 步驟b.通過雙向長短期記憶層處理所述詞向量矩陣,得到所述詞向量矩陣對應(yīng)的隱層狀態(tài)序列;并基于所述隱層狀態(tài)序列提取自注意力特征向量e,得到自注意力特征向量矩陣E; 步驟c.基于所述自注意力特征向量矩陣E,通過膠囊網(wǎng)絡(luò)來表征類別向量c,得到所有已知類別的類別向量c; 步驟d.基于所有已知類別的類別向量c對所述輸入語料信息進(jìn)行關(guān)系打分,所述關(guān)系打分指的是將所述輸入語料信息與類別向量c進(jìn)行相似度判斷,得到與所述輸入語料信息相似度最高的類別向量c,則該類別向量c對應(yīng)的類別為所述輸入語料信息的分類結(jié)果; 所述步驟c包括如下步驟: c1.將自注意力特征向量矩陣E進(jìn)行一次線性映射得到映射注意力特征向量矩陣e’,再將映射注意力特征向量矩陣e’壓縮成膠囊尺寸的單位向量; c2.初始化變量b=0,對變量b進(jìn)行求和、歸一化處理得到向量d,所述向量d為路由索引的權(quán)重; c3.將向量d與映射注意力特征向量矩陣e’進(jìn)行點(diǎn)乘運(yùn)算,并將運(yùn)算結(jié)果再與映射注意力特征向量矩陣e’進(jìn)行點(diǎn)乘運(yùn)算得到變量b’; c4.用變量b’更新向量b,并重復(fù)步驟c1和c2,迭代m次,直到得到各個(gè)類別樣本對類別歸納向量的映射; c5.對各個(gè)類別樣本對類別歸納向量的映射進(jìn)行歸一化處理,得到對應(yīng)類別的表示概率; 在所述步驟a之前還包括數(shù)據(jù)讀取步驟: 將支持集和查詢集的樣本按C-wayK-shot的方式從原始語料信息中隨機(jī)選擇樣本,構(gòu)造訓(xùn)練集;并將支持集和查詢集的樣本分別按C-wayQ-shot的方式從原始語料信息中隨機(jī)選擇樣本,構(gòu)造驗(yàn)證集;其中,C表示類別數(shù)量,K表示訓(xùn)練集樣本數(shù)量,Q表示驗(yàn)證集樣本數(shù)量; 所述輸入語料信息是對訓(xùn)練集進(jìn)行數(shù)據(jù)處理后得到的; 所述數(shù)據(jù)處理包括以下步驟: 步驟一:對訓(xùn)練集內(nèi)的訓(xùn)練樣本進(jìn)行預(yù)處理,并構(gòu)建字表,所述字表為所述訓(xùn)練樣本中包含的所有漢字所組成的列表;基于所述字表對所述訓(xùn)練樣本中的每個(gè)字進(jìn)行數(shù)字化,得到數(shù)字化訓(xùn)練樣本; 步驟二:對數(shù)字化訓(xùn)練樣本的句子文本進(jìn)行文本意圖分類,得到每個(gè)句子文本的所屬意圖類別,分批讀取句子文本以及其對應(yīng)的所屬類別;并將所述句子文本進(jìn)行分詞得到標(biāo)注標(biāo)簽; 步驟三:將所述標(biāo)注標(biāo)簽與句子文本長度、文本掩碼進(jìn)行拼接,形成所述輸入語料信息; 所述步驟b包括如下步驟: b1.通過雙向長短期記憶層處理所述詞向量矩陣,得到所述詞向量矩陣對應(yīng)的隱層狀態(tài)序列Q1; b2.將隱層狀態(tài)序列Q1與K1進(jìn)行點(diǎn)乘運(yùn)算,得到詞向量矩陣的相關(guān)性,其中,K1表示第一權(quán)重序列向量; b3.對所述相關(guān)性進(jìn)行求和并取平均值,得到自注意力特征向量矩陣E。
如需購買、轉(zhuǎn)讓、實(shí)施、許可或投資類似專利技術(shù),可聯(lián)系本專利的申請人或?qū)@麢?quán)人廈門快商通科技股份有限公司,其通訊地址為:361009 福建省廈門市集美區(qū)軟件園三期誠毅北大街63號1301單元;或者聯(lián)系龍圖騰網(wǎng)官方客服,聯(lián)系龍圖騰網(wǎng)可撥打電話0551-65771310或微信搜索“龍圖騰網(wǎng)”。
1、本報(bào)告根據(jù)公開、合法渠道獲得相關(guān)數(shù)據(jù)和信息,力求客觀、公正,但并不保證數(shù)據(jù)的最終完整性和準(zhǔn)確性。
2、報(bào)告中的分析和結(jié)論僅反映本公司于發(fā)布本報(bào)告當(dāng)日的職業(yè)理解,僅供參考使用,不能作為本公司承擔(dān)任何法律責(zé)任的依據(jù)或者憑證。