中國科學院自動化研究所王方圓獲國家專利權
買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監控用IP管家,真方便!
龍圖騰網獲悉中國科學院自動化研究所申請的專利流式語音識別方法、裝置、電子設備及存儲介質獲國家發明授權專利權,本發明授權專利權由國家知識產權局授予,授權公告號為:CN115019785B 。
龍圖騰網通過國家知識產權局官網在2025-08-12發布的發明授權授權公告中獲悉:該發明授權的專利申請號/專利號為:202210576178.5,技術領域涉及:G10L15/16;該發明授權流式語音識別方法、裝置、電子設備及存儲介質是由王方圓;徐波設計研發完成,并于2022-05-24向國家知識產權局提交的專利申請。
本流式語音識別方法、裝置、電子設備及存儲介質在說明書摘要公布了:本發明提供一種流式語音識別方法、裝置、電子設備及存儲介質,其中流式語音識別方法包括:獲取原始音頻數據,基于原始音頻數據生成原始特征序列;將原始特征序列輸入音頻編碼器,生成目標音頻編碼特征序列,其中,音頻編碼器包括分塊自注意力機制編碼層和移位塊自注意力機制編碼層;將目標音頻編碼特征序列輸入音頻解碼器,生成語音識別文本。基于音頻編碼器的分塊自注意力機制編碼層對原始音頻數據進行編碼,并引入移位塊自注意力編碼層,實現了自注意力得分的跨塊計算,確保了音頻編碼器的線性時間復雜度;從而快速生成具有全局上下文信息的目標音頻編碼特征序列,對該特征序列進行解碼并生成語音識別文本,有效提高了流式語音識別的準確率。
本發明授權流式語音識別方法、裝置、電子設備及存儲介質在權利要求書中公布了:1.一種流式語音識別方法,其特征在于,包括: 獲取原始音頻數據,提取所述原始音頻數據的倒譜域特征序列,用于提取原始音頻數據的語音特征,且倒譜域特征序列是將原始音頻數據的功率譜的對數進行傅里葉反變換得到的;采用兩層卷積神經網絡對倒譜域特征序列進行4倍下采樣,生成下采樣操作后的特征序列;將所述下采樣操作后的特征序列尾部進行填充,生成符合預設長度的原始特征序列;其中使得各下采樣操作后的特征序列的長度均略大于當批最長的特征序列的長度,并且該特征序列長度可被音頻編碼器中的塊尺寸整除; 將所述原始特征序列輸入音頻編碼器,生成目標音頻編碼特征序列,其中,所述音頻編碼器包括分塊自注意力機制編碼層和移位塊自注意力機制編碼層; 將所述目標音頻編碼特征序列輸入音頻解碼器,生成語音識別文本; 音頻解碼器包括連接時序分類解碼層以及Transformer解碼層;連接時序分類解碼層由一個線性層和一個logsoftmax層構成,將目標音頻編碼特征輸入到連接時序分類解碼層,在訓練連接時序分類解碼層的測試階段得到第一聲學預測得分,其中,第一聲學預測得分是指連接時序分類解碼層輸出的原始音頻數據對應的多個識別文本中每一個字的聲學預測得分; 同時,將目標音頻編碼特征輸入Transformer解碼層中,訓練Transformer解碼層的網絡參數,在訓練Transformer解碼層的測試階段得到第二聲學預測得分,其中,第二聲學預測得分是指Transformer解碼層輸出的原始音頻數據對應的多個識別文本中每一個字的聲學預測得分; 在得到第一聲學預測得分以及第二聲學預測得分之后,基于集束搜索算法,從第一聲學預測得分以及第二聲學預測得分中選取出預設數目個預測得分最高的文本作為最終原始語音數據對應的語音識別文本; 在獲取到原始音頻數據之后,基于原始音頻數據生成原始特征序列之前,對所述原始音頻數據進行變速率處理,對原始音頻數據的音調進行處理;將原始音頻數據轉換為梅爾頻譜,將梅爾頻譜作為一通道的圖像數據,對圖像進行平移數據增強,隨機掩蓋圖像上的連續若干行進行時間維度的增強,隨機掩蓋圖像上的連續若干列進行頻率維度的增強,實現對時間維度以及頻率維度的增強,或對原始音頻數據進行音頻加噪處理進行數據增強。
如需購買、轉讓、實施、許可或投資類似專利技術,可聯系本專利的申請人或專利權人中國科學院自動化研究所,其通訊地址為:100190 北京市海淀區中關村東路95號;或者聯系龍圖騰網官方客服,聯系龍圖騰網可撥打電話0551-65771310或微信搜索“龍圖騰網”。
1、本報告根據公開、合法渠道獲得相關數據和信息,力求客觀、公正,但并不保證數據的最終完整性和準確性。
2、報告中的分析和結論僅反映本公司于發布本報告當日的職業理解,僅供參考使用,不能作為本公司承擔任何法律責任的依據或者憑證。