浙江華智萬像科技有限公司盛澤文獲國家專利權(quán)
買專利賣專利找龍圖騰,真高效! 查專利查商標(biāo)用IPTOP,全免費!專利年費監(jiān)控用IP管家,真方便!
龍圖騰網(wǎng)獲悉浙江華智萬像科技有限公司申請的專利語音生成方法和裝置獲國家發(fā)明授權(quán)專利權(quán),本發(fā)明授權(quán)專利權(quán)由國家知識產(chǎn)權(quán)局授予,授權(quán)公告號為:CN120279888B 。
龍圖騰網(wǎng)通過國家知識產(chǎn)權(quán)局官網(wǎng)在2025-08-22發(fā)布的發(fā)明授權(quán)授權(quán)公告中獲悉:該發(fā)明授權(quán)的專利申請?zhí)?專利號為:202510765969.6,技術(shù)領(lǐng)域涉及:G10L13/10;該發(fā)明授權(quán)語音生成方法和裝置是由盛澤文;齊克宇設(shè)計研發(fā)完成,并于2025-06-10向國家知識產(chǎn)權(quán)局提交的專利申請。
本語音生成方法和裝置在說明書摘要公布了:本申請涉及一種語音生成方法和裝置,其中,該語音生成方法包括:將輸入文本對應(yīng)的第一語音數(shù)據(jù)進(jìn)行特征提取,得到第一語音數(shù)據(jù)的第一氣口特征和第二氣口特征;將第一氣口特征和第二氣口特征進(jìn)行融合,得到氣口融合特征;通過預(yù)訓(xùn)練的氣口預(yù)測模型對氣口融合特征進(jìn)行處理,得到第一語音數(shù)據(jù)的氣口特征信息;確定輸入文本對應(yīng)的聲學(xué)特征信息,基于氣口特征信息和聲學(xué)特征信息,生成與輸入文本對應(yīng)的第二語音數(shù)據(jù)。通過本申請,解決了無法生成準(zhǔn)確還原氣口特征的語音,導(dǎo)致生成語音的流暢性和自然性不足的問題,實現(xiàn)了能夠生成準(zhǔn)確還原氣口特征的語音,顯著提升語音生成的擬人化。
本發(fā)明授權(quán)語音生成方法和裝置在權(quán)利要求書中公布了:1.一種語音生成方法,其特征在于,包括: 將輸入文本對應(yīng)的第一語音數(shù)據(jù)進(jìn)行特征提取,得到所述第一語音數(shù)據(jù)的第一氣口特征和第二氣口特征;其中,所述第一氣口特征是包含所述第一語音數(shù)據(jù)中氣口特征信息的動態(tài)梅爾頻率倒譜系數(shù)特征向量,所述第二氣口特征是包含所述第一語音數(shù)據(jù)中氣口特征信息的自監(jiān)督語音表示學(xué)習(xí)特征向量; 其中,所述將輸入文本對應(yīng)的第一語音數(shù)據(jù)進(jìn)行特征提取,得到所述第一語音數(shù)據(jù)的第一氣口特征和第二氣口特征,包括:確定所述第一語音數(shù)據(jù)的靜態(tài)梅爾頻率倒譜系數(shù)特征向量,以及與所述靜態(tài)梅爾頻率倒譜系數(shù)特征向量對應(yīng)的一階差分系數(shù)和二階差分系數(shù);基于所述靜態(tài)梅爾頻率倒譜系數(shù)特征向量、所述一階差分系數(shù)和所述二階差分系數(shù),確定所述第一語音數(shù)據(jù)的所述第一氣口特征;通過自監(jiān)督語音表示學(xué)習(xí)模型對所述第一語音數(shù)據(jù)的多個音頻片段進(jìn)行處理,基于處理結(jié)果確定所述第一語音數(shù)據(jù)的所述第二氣口特征; 其中,所述通過自監(jiān)督語音表示學(xué)習(xí)模型對所述第一語音數(shù)據(jù)的多個音頻片段進(jìn)行處理,基于處理結(jié)果確定所述第一語音數(shù)據(jù)的所述第二氣口特征,包括:將預(yù)處理后的所述第一語音數(shù)據(jù)切分為多個所述音頻片段;通過自監(jiān)督語音表示學(xué)習(xí)模型對各所述音頻片段進(jìn)行處理,得到所述自監(jiān)督語音表示學(xué)習(xí)模型中每個目標(biāo)輸出層的輸出結(jié)果;所述目標(biāo)輸出層指的是對非語音事件敏感度最高的輸出層;將各所述目標(biāo)輸出層的所述輸出結(jié)果進(jìn)行加權(quán)融合,得到所述第一語音數(shù)據(jù)的所述第二氣口特征; 將所述第一氣口特征和所述第二氣口特征進(jìn)行融合,得到所述第一語音數(shù)據(jù)的氣口融合特征; 通過預(yù)訓(xùn)練的氣口預(yù)測模型對所述第一語音數(shù)據(jù)的氣口融合特征進(jìn)行處理,得到所述第一語音數(shù)據(jù)的氣口特征信息;所述氣口特征信息包括所述第一語音數(shù)據(jù)中每個音頻幀為氣口位置的概率值; 確定所述輸入文本對應(yīng)的聲學(xué)特征信息,基于所述氣口特征信息和所述聲學(xué)特征信息,生成與所述輸入文本對應(yīng)的第二語音數(shù)據(jù)。
如需購買、轉(zhuǎn)讓、實施、許可或投資類似專利技術(shù),可聯(lián)系本專利的申請人或?qū)@麢?quán)人浙江華智萬像科技有限公司,其通訊地址為:310051 浙江省杭州市濱江區(qū)西興街道阡陌路482號A樓3層3652室;或者聯(lián)系龍圖騰網(wǎng)官方客服,聯(lián)系龍圖騰網(wǎng)可撥打電話0551-65771310或微信搜索“龍圖騰網(wǎng)”。
1、本報告根據(jù)公開、合法渠道獲得相關(guān)數(shù)據(jù)和信息,力求客觀、公正,但并不保證數(shù)據(jù)的最終完整性和準(zhǔn)確性。
2、報告中的分析和結(jié)論僅反映本公司于發(fā)布本報告當(dāng)日的職業(yè)理解,僅供參考使用,不能作為本公司承擔(dān)任何法律責(zé)任的依據(jù)或者憑證。
- 三菱電機(jī)株式會社埴岡翔太獲國家專利權(quán)
- 浙江浩源管材股份有限公司楊斌獲國家專利權(quán)
- 騰訊科技(深圳)有限公司李茂材獲國家專利權(quán)
- 騰訊科技(深圳)有限公司陳丕敏獲國家專利權(quán)
- 北京南風(fēng)科創(chuàng)應(yīng)用技術(shù)有限公司方勵獲國家專利權(quán)
- 川田機(jī)械制造(上海)有限公司藤坂祐宏獲國家專利權(quán)
- 現(xiàn)代自動車株式會社河在濬獲國家專利權(quán)
- 寧波先鋒中央電暖科技有限公司姚裕初獲國家專利權(quán)
- 上海夏凱建筑科技有限公司謝強(qiáng)獲國家專利權(quán)
- 貝克頓·迪金森公司J·斯帕塔羅獲國家專利權(quán)