廈門安勝網絡科技有限公司楊細勇獲國家專利權
買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監控用IP管家,真方便!
龍圖騰網獲悉廈門安勝網絡科技有限公司申請的專利一種基于BiLSTM-CRF模型的文本數據智能提取方法和裝置獲國家發明授權專利權,本發明授權專利權由國家知識產權局授予,授權公告號為:CN114201582B 。
龍圖騰網通過國家知識產權局官網在2025-08-12發布的發明授權授權公告中獲悉:該發明授權的專利申請號/專利號為:202111481294.0,技術領域涉及:G06F16/334;該發明授權一種基于BiLSTM-CRF模型的文本數據智能提取方法和裝置是由楊細勇;王毅宏;劉樹鋒;陳貴民;李劍煜;林山設計研發完成,并于2021-12-06向國家知識產權局提交的專利申請。
本一種基于BiLSTM-CRF模型的文本數據智能提取方法和裝置在說明書摘要公布了:本申請涉及一種基于BiLSTM?CRF模型的文本數據智能提取方法,該方法先使用Flink定時從數據源中抽取流數據寫入到ClickHouse中,然后從所述ClickHouse中拉取待處理的數據,將所述待處理的數據經過分批分類、標注合并以及生成詞典處理,形成預訓練數據,之后將所述預訓練數據導入到BiLSTM?CRF模型進行訓練以形成預測模型,基于預測模型形成預測模型服務API,最后拉取數據源中的流數據經過所述預測模型服務API得到預測結果,將所述預測結果映射到特定實體并寫入服務數據庫中存儲,從而實現非結構、無規律的文本內容的實體識別、提取以及存儲等處理。本申請還涉及一種基于BiLSTM?CRF模型的文本數據智能提取裝置,具有實現對非結構、無規律的文本內容進行識別、提取以及存儲的效果。
本發明授權一種基于BiLSTM-CRF模型的文本數據智能提取方法和裝置在權利要求書中公布了:1.一種基于BiLSTM-CRF模型的文本數據智能提取方法,其特征在于:包括以下步驟: S1:使用Flink定時從數據源中抽取流數據寫入到ClickHouse中; S2:從所述ClickHouse中拉取待處理的數據,然后將所述待處理的數據分為訓練數據和測試數據兩類,其中,所述訓練數據的占比為80%,所述測試數據的占比為20%,之后分別對所述訓練數據和所述測試數據進行標注以及合并多文件以形成訓練數據語料和測試數據語料,然后分別讀取所述訓練數據語料和測試數據語料并構建一個以詞id和詞頻組成的二維數組,再對所述二維數組進行pickledump保存成plk詞典文件,形成訓練數據詞典和測試數據詞典; S3:將所述訓練數據語料、測試數據語料、訓練數據詞典以及測試數據詞典作為預訓練數據導入到BiLSTM-CRF模型進行訓練以形成預測模型; S4:利用tensorflow對所述預測模型進行初始化,然后調用模型的預測接口,從接口的返回數據中提取自定義的標簽值,獲得預測模型服務API; S5:拉取數據源中的流數據經過所述預測模型服務API得到預測結果,將所述預測結果映射到特定實體并寫入服務數據庫中存儲,所述服務數據庫包括若干與Flink對接的輸出數據庫組件。
如需購買、轉讓、實施、許可或投資類似專利技術,可聯系本專利的申請人或專利權人廈門安勝網絡科技有限公司,其通訊地址為:361008 福建省廈門市集美區軟件園三期誠毅大街358號1502-5單元;或者聯系龍圖騰網官方客服,聯系龍圖騰網可撥打電話0551-65771310或微信搜索“龍圖騰網”。
1、本報告根據公開、合法渠道獲得相關數據和信息,力求客觀、公正,但并不保證數據的最終完整性和準確性。
2、報告中的分析和結論僅反映本公司于發布本報告當日的職業理解,僅供參考使用,不能作為本公司承擔任何法律責任的依據或者憑證。