國創(chuàng)智造科技(上海)有限公司賀仁龍獲國家專利權(quán)
買專利賣專利找龍圖騰,真高效! 查專利查商標(biāo)用IPTOP,全免費!專利年費監(jiān)控用IP管家,真方便!
龍圖騰網(wǎng)獲悉國創(chuàng)智造科技(上海)有限公司申請的專利語料清洗方法、系統(tǒng)、介質(zhì)及終端獲國家發(fā)明授權(quán)專利權(quán),本發(fā)明授權(quán)專利權(quán)由國家知識產(chǎn)權(quán)局授予,授權(quán)公告號為:CN120278142B 。
龍圖騰網(wǎng)通過國家知識產(chǎn)權(quán)局官網(wǎng)在2025-08-22發(fā)布的發(fā)明授權(quán)授權(quán)公告中獲悉:該發(fā)明授權(quán)的專利申請?zhí)?專利號為:202510758301.9,技術(shù)領(lǐng)域涉及:G06F40/205;該發(fā)明授權(quán)語料清洗方法、系統(tǒng)、介質(zhì)及終端是由賀仁龍;賀仁駒;任吉設(shè)計研發(fā)完成,并于2025-06-09向國家知識產(chǎn)權(quán)局提交的專利申請。
本語料清洗方法、系統(tǒng)、介質(zhì)及終端在說明書摘要公布了:本發(fā)明提供一種語料清洗方法、系統(tǒng)、介質(zhì)及終端,所述方法包括:獲取待清洗的原始語料,對所述原始語料進(jìn)行預(yù)標(biāo)注處理以生成預(yù)標(biāo)注語料,對所述預(yù)標(biāo)注語料進(jìn)行解析以生成第一解析信息;對所述原始語料進(jìn)行語料優(yōu)化以得到優(yōu)化語料,對所述優(yōu)化語料進(jìn)行解析以生成第二解析信息;對所述原始語料進(jìn)行增強處理以得到增強語料,對所述增強語料進(jìn)行解析以生成第三解析信息;根據(jù)第一解析信息、第二解析信息和第三解析信息生成目標(biāo)解析信息,根據(jù)目標(biāo)解析信息生成對應(yīng)的合成語料;根據(jù)脫敏庫對所述合成語料進(jìn)行脫敏處理以生成對應(yīng)的脫敏語料,對所述脫敏語料進(jìn)行標(biāo)準(zhǔn)化處理后生成對應(yīng)的目標(biāo)語料。本發(fā)明有效提高了語料的清洗效率和質(zhì)量。
本發(fā)明授權(quán)語料清洗方法、系統(tǒng)、介質(zhì)及終端在權(quán)利要求書中公布了:1.一種語料清洗方法,其特征在于,包括如下步驟: 獲取待清洗的原始語料,對所述原始語料進(jìn)行預(yù)標(biāo)注處理以生成預(yù)標(biāo)注語料,對所述預(yù)標(biāo)注語料進(jìn)行解析以生成第一解析信息; 對所述原始語料進(jìn)行語料優(yōu)化以得到優(yōu)化語料,對所述優(yōu)化語料進(jìn)行解析以生成第二解析信息; 對所述原始語料進(jìn)行增強處理以得到增強語料,對所述增強語料進(jìn)行解析以生成第三解析信息; 根據(jù)所述第一解析信息、所述第二解析信息和所述第三解析信息生成目標(biāo)解析信息,根據(jù)所述目標(biāo)解析信息生成對應(yīng)的合成語料; 根據(jù)脫敏庫對所述合成語料進(jìn)行脫敏處理以生成對應(yīng)的脫敏語料,對所述脫敏語料進(jìn)行標(biāo)準(zhǔn)化處理后生成對應(yīng)的目標(biāo)語料; 對所述原始語料進(jìn)行預(yù)標(biāo)注處理以生成預(yù)標(biāo)注語料,對所述預(yù)標(biāo)注語料進(jìn)行解析以生成第一解析信息,包括: 對所述原始語料進(jìn)行標(biāo)簽分級以生成樹狀結(jié)構(gòu),所述樹狀結(jié)構(gòu)包括多個結(jié)構(gòu)塊,每一個所述結(jié)構(gòu)塊對應(yīng)一個字段; 將所述原始語料復(fù)制多份以得到多個備份語料,按照預(yù)設(shè)的規(guī)則,根據(jù)所述樹狀結(jié)構(gòu)對每個所述備份語料進(jìn)行分級標(biāo)注以得到多個備份標(biāo)注信息; 對多個所述備份標(biāo)注信息進(jìn)行差異化比對,并依次在所述所述樹狀結(jié)構(gòu)的各個位置選擇出現(xiàn)頻次最高的標(biāo)注詞作為目標(biāo)標(biāo)注詞,按順序?qū)⒍鄠€所述目標(biāo)標(biāo)注詞組合在一起形成所述預(yù)標(biāo)注語料; 通過第一解析工具對所述預(yù)標(biāo)注語料進(jìn)行解析以得到所述第一解析信息。
如需購買、轉(zhuǎn)讓、實施、許可或投資類似專利技術(shù),可聯(lián)系本專利的申請人或?qū)@麢?quán)人國創(chuàng)智造科技(上海)有限公司,其通訊地址為:200120 上海市浦東新區(qū)中國(上海)自由貿(mào)易試驗區(qū)臨港新片區(qū)環(huán)湖西二路888號C樓;或者聯(lián)系龍圖騰網(wǎng)官方客服,聯(lián)系龍圖騰網(wǎng)可撥打電話0551-65771310或微信搜索“龍圖騰網(wǎng)”。
1、本報告根據(jù)公開、合法渠道獲得相關(guān)數(shù)據(jù)和信息,力求客觀、公正,但并不保證數(shù)據(jù)的最終完整性和準(zhǔn)確性。
2、報告中的分析和結(jié)論僅反映本公司于發(fā)布本報告當(dāng)日的職業(yè)理解,僅供參考使用,不能作為本公司承擔(dān)任何法律責(zé)任的依據(jù)或者憑證。
- 三菱電機株式會社埴岡翔太獲國家專利權(quán)
- 川田機械制造(上海)有限公司藤坂祐宏獲國家專利權(quán)
- 騰訊科技(深圳)有限公司李茂材獲國家專利權(quán)
- 高通股份有限公司周志兵獲國家專利權(quán)
- 蒂森克虜伯普利斯坦股份公司渡邊芳信獲國家專利權(quán)
- 中國醫(yī)學(xué)科學(xué)院腫瘤醫(yī)院赫捷獲國家專利權(quán)
- 中鐵上海工程局集團(tuán)華海工程有限公司王孝樂獲國家專利權(quán)
- 香港科技大學(xué)穆罕默德·奧斯曼·布塔獲國家專利權(quán)
- 微軟技術(shù)許可有限責(zé)任公司N·M·拉帕波特獲國家專利權(quán)
- 騰訊科技(深圳)有限公司劉恒進(jìn)獲國家專利權(quán)