廣州大學顧釗銓獲國家專利權
買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監控用IP管家,真方便!
龍圖騰網獲悉廣州大學申請的專利一種結合詞向量多特征融合的新詞發現方法獲國家發明授權專利權,本發明授權專利權由國家知識產權局授予,授權公告號為:CN114298029B 。
龍圖騰網通過國家知識產權局官網在2025-08-29發布的發明授權授權公告中獲悉:該發明授權的專利申請號/專利號為:202111523723.6,技術領域涉及:G06F40/289;該發明授權一種結合詞向量多特征融合的新詞發現方法是由顧釗銓;梁栩健;楊舉;王樂;韓偉紅;唐可可;李默涵;仇晶;李樹棟;張登輝設計研發完成,并于2021-12-14向國家知識產權局提交的專利申請。
本一種結合詞向量多特征融合的新詞發現方法在說明書摘要公布了:本發明公開了一種結合詞向量多特征融合的新詞發現方法,該方法步驟包括:對語料進行特征標注,計算屬性對互信息矩陣和自信息矩陣,計算候選特征屬性對得分;聚類詞向量,找到對應的最近鄰類中心向量,并找出該類中心向量對應的詞作為詞向量特征屬性,遍歷所有詞向量特征屬性對,計算詞向量特征屬性對自信息矩陣和互信息矩陣,計算所有詞向量特征屬性對得分;對所有候選特征屬性對得分配置優化權重系數后求和計算總得分;總得分超過新詞閾值時提取候選詞對對應得分向量到樣本集合;更新權重系數并迭代訓練至損失函數收斂獲得最終的權重系數;重新計算候選詞對總得分,輸出超過新詞閾值的新詞。本發明實現更合理的新詞評價方法,更加有效地挖掘潛在的新詞。
本發明授權一種結合詞向量多特征融合的新詞發現方法在權利要求書中公布了:1.一種結合詞向量多特征融合的新詞發現方法,其特征在于,包括下述步驟: 統計自然語言特征得分計算:對語料進行特征標注,遍歷所有屬性對,計算屬性對的互信息矩陣和自信息矩陣,計算所有候選特征的屬性對得分,具體包括: 對于第m個特征,采用自然語言處理工具對語料X進行詞性、依存句法關系特征標注,將分詞后的所有候選詞對進行特征標注,標注后的稱為屬性對; 設置自信息矩陣互信息矩陣得分矩陣 其中K是指屬性集Sm的大小; 遍歷所有屬性對xi,xj,計算其互信息矩陣和自信息矩陣,最后,計算成績矩陣,即所有候選特征的屬性對xi,xj,得分,具體表示為: MSm[xi][xj]=αmMIm[xi][xj]+βmMHm[xi][xj] 其中,MSm[xi][xj]表示候選特征的屬性對得分,MIm[xi][xj]表示屬性對的互信息矩陣,MHm[xi][xj]表示屬性對的自信息矩陣,αm表示第m個特征的互信息比例參數,βm第m個特征的自信息比例參數; 基于詞向量特征得分計算:對詞向量進行k-means聚類,根據詞向量對應的詞典,對語料中所有分詞找到對應的詞向量,進而找到對應的最近鄰類中心向量,并找出該類中心向量對應的詞作為詞向量特征屬性,遍歷所有詞向量特征屬性,計算詞向量特征屬性對的自信息矩陣和互信息矩陣,計算所有詞向量特征屬性對的得分,具體包括: 對詞向量進行類別數為K的聚類,記聚類中心向量為集合為SK; 根據詞向量對應的詞典,對語料X中的所有分詞x找到對應的詞向量v,找到對應的最近鄰類中心向量,記該類中心向量在詞典中對應的詞即為該分詞的詞向量特征屬性: 遍歷所有詞向量特征屬性對vi,vj,計算其自信息矩陣和互信息矩陣,計算所有候選詞向量特征屬性對vi,vj,的得分,表示為: MS[vi][vj]=αMI[vi][vj]+βMH[vi][vj] 其中,MS[vi][vj]表示候選詞向量特征屬性對的得分,MI[vi][vj]表示詞向量特征屬性對的互信息矩陣,MH[vi][vj]表示詞向量特征屬性對的自信息矩陣,α表示互信息比例參數,β表示自信息比例參數; 對所有候選特征屬性對的得分配置權重系數后求和,通過邏輯回歸優化權重系數,計算總得分,在λ隨機初始化的情況下,所有候選詞對xi,xj,的總得分函數有: 其中,Fmx表示分詞x進行第m特征標注,M為統計自然語言特征數,C為聚類的次數,MSm表示候選特征的得分,λm表示權重系數,M+C表示特征個數; 初始化權重系數并設置新詞閾值,總得分超過新詞閾值時,設定隨機概率提取候選詞對對應的得分向量到樣本集合,對樣本集合進行標記得到標簽集合; 基于隨機梯度下降SGD更新權重系數,迭代訓練直至損失函數收斂,獲得最終的權重系數; 重新計算所有候選詞對的總得分,輸出超過新詞閾值的新詞。
如需購買、轉讓、實施、許可或投資類似專利技術,可聯系本專利的申請人或專利權人廣州大學,其通訊地址為:510006 廣東省廣州市番禺區大學城外環西路230號;或者聯系龍圖騰網官方客服,聯系龍圖騰網可撥打電話0551-65771310或微信搜索“龍圖騰網”。
1、本報告根據公開、合法渠道獲得相關數據和信息,力求客觀、公正,但并不保證數據的最終完整性和準確性。
2、報告中的分析和結論僅反映本公司于發布本報告當日的職業理解,僅供參考使用,不能作為本公司承擔任何法律責任的依據或者憑證。