阿里巴巴(中國)有限公司陳謙獲國家專利權
買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監控用IP管家,真方便!
龍圖騰網獲悉阿里巴巴(中國)有限公司申請的專利翻譯模型訓練方法、裝置、設備及存儲介質獲國家發明授權專利權,本發明授權專利權由國家知識產權局授予,授權公告號為:CN114626389B 。
龍圖騰網通過國家知識產權局官網在2025-08-19發布的發明授權授權公告中獲悉:該發明授權的專利申請號/專利號為:202210071284.8,技術領域涉及:G06F40/56;該發明授權翻譯模型訓練方法、裝置、設備及存儲介質是由陳謙;王雯設計研發完成,并于2022-01-21向國家知識產權局提交的專利申請。
本翻譯模型訓練方法、裝置、設備及存儲介質在說明書摘要公布了:本公開涉及一種翻譯模型訓練方法、裝置、設備及存儲介質。本公開通過源語言文本和翻譯詞典,生成目標語言文本,當該目標語言文本中存在未出現于翻譯詞典中的預設文本單元時,可以將該目標語言文本中未出現在翻譯詞典中的預設文本單元替換為目標文本單元,得到更新后的目標語言文本。根據源語言文本和更新后的目標語言文本,對翻譯模型進行訓練。因此,當源語言語句到目標語言語句的平行語料非常稀少時,通過源語言文本和翻譯詞典可以構建目標語言文本、以及對目標語言文本進行更新。通過源語言語句和更新后的目標語言文本即可對翻譯模型進行訓練。從而實現了基于零資源或低資源的機器翻譯模型或機器翻譯系統的訓練方法。
本發明授權翻譯模型訓練方法、裝置、設備及存儲介質在權利要求書中公布了:1.一種翻譯模型訓練方法,其中,所述方法包括: 根據源語言文本和翻譯詞典,生成目標語言文本,所述翻譯詞典包括源語言文本單元與目標語言文本單元之間的對應關系,其中,所述源語言文本為源語言語句,所述源語言文本單元為源語言單詞; 將所述目標語言文本中未出現在所述翻譯詞典中的預設文本單元替換為目標文本單元,得到更新后的目標語言文本,其中,所述目標文本單元基于所述預設文本單元的上下文確定,所述更新后的目標語言文本為替換后的偽標簽數據; 根據所述源語言文本和所述更新后的目標語言文本,對翻譯模型進行訓練; 其中,所述目標語言文本基于訓練后的監督模型生成,所述訓練后的監督模型基于第一概率分布和第三概率分布得到,所述第三概率分布通過對每個源語言文本單元分別對應的第二概率分布進行整合得到,所述第二概率分布通過所述源語言文本中的每個源語言文本單元得到,所述第一概率分布根據目標語言的無序樣本中每個文本單元在所述無序樣本中出現的次數得到,所述無序樣本通過對所述源語言文本中的每個源語言文本單元,從所述翻譯詞典中查詢與所述源語言文本單元對應的目標語言文本單元得到; 其中,所述無序樣本包括從所述翻譯詞典中查詢得到的目標語言文本單元、以及未出現在所述翻譯詞典中的預設文本單元。
如需購買、轉讓、實施、許可或投資類似專利技術,可聯系本專利的申請人或專利權人阿里巴巴(中國)有限公司,其通訊地址為:310052 浙江省杭州市濱江區長河街道網商路699號4號樓5樓508室;或者聯系龍圖騰網官方客服,聯系龍圖騰網可撥打電話0551-65771310或微信搜索“龍圖騰網”。
1、本報告根據公開、合法渠道獲得相關數據和信息,力求客觀、公正,但并不保證數據的最終完整性和準確性。
2、報告中的分析和結論僅反映本公司于發布本報告當日的職業理解,僅供參考使用,不能作為本公司承擔任何法律責任的依據或者憑證。