四川農業大學劉敏獲國家專利權
買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監控用IP管家,真方便!
龍圖騰網獲悉四川農業大學申請的專利基于深度學習與聯邦學習的多模態兒童嗓音數據處理方法獲國家發明授權專利權,本發明授權專利權由國家知識產權局授予,授權公告號為:CN120470245B 。
龍圖騰網通過國家知識產權局官網在2025-09-05發布的發明授權授權公告中獲悉:該發明授權的專利申請號/專利號為:202510955059.4,技術領域涉及:G06F18/15;該發明授權基于深度學習與聯邦學習的多模態兒童嗓音數據處理方法是由劉敏;李軍設計研發完成,并于2025-07-11向國家知識產權局提交的專利申請。
本基于深度學習與聯邦學習的多模態兒童嗓音數據處理方法在說明書摘要公布了:本發明涉及兒童嗓音數據處理領域,具體涉及一種基于深度學習與聯邦學習的多模態兒童嗓音數據處理方法。方案包括:采集兒童的喉鏡圖像和發聲音頻數據,預處理之后通過DLE模塊提取喉鏡圖像中的局部特征,采用GSA模塊提取喉鏡圖像中的全局特征,采用MSFE模塊進行喉鏡圖像的局部特征與全局特征融合,得到喉鏡圖像的最終融合特征,再通過AMFN模塊從預處理后的梅爾頻譜圖中提取音頻數據的局部特征與全局特征,并進行局部特征與全局特征的融合;之后對VisionTransformer分類器模型進行訓練,在訓練過程中,結合聯邦學習框架確保多中心醫療數據的隱私保護和分布式建模能力。本發明適用于兒童嗓音數據分類。
本發明授權基于深度學習與聯邦學習的多模態兒童嗓音數據處理方法在權利要求書中公布了:1.基于深度學習與聯邦學習的多模態兒童嗓音數據處理方法,其特征在于,包括: S1、采集兒童嗓音疾病相關的喉鏡圖像數據,以及對應兒童的發聲音頻數據; S2、對采集的喉鏡圖像和發聲音頻數據進行預處理; S3、對預處理后的喉鏡圖像與音頻數據進行模態特征提取與融合; 對預處理后的喉鏡圖像進行模態特征提取具體包括: 采用DLE模塊提取喉鏡圖像中的局部特征,將預處理后的喉鏡圖像輸入DLE模塊,通過DLE模塊輸出喉鏡圖像的局部特征; 所述DLE模塊包括淺層密集卷積堆疊單元、空洞卷積路徑、邊緣強化分支與殘差連接機制; 所述淺層密集卷積堆疊單元為主干路徑,包含3個連續的3×3卷積層,每層輸出通道為64,每一層的輸入為前面所有層輸出的級聯; 第一卷積層:卷積核大小3×3,輸入通道數3,輸出通道數64,步幅1,Padding=1,激活函數為ReLU,Padding=1表示在輸入特征圖的四周各填充1圈像素; 第二卷積層:卷積核大小3×3,輸入為第一卷積層輸出與輸入圖像的拼接結果,輸出通道數64,激活函數為ReLU; 第三卷積層:卷積核大小3×3,輸入為第一卷積層輸出、第二卷積層輸出和輸入圖像的拼接,輸出通道數64,激活函數為ReLU; 所述空洞卷積路徑為第一分支路徑,包含在主干路徑中插入2層帶空洞率為2或4的3×3卷積層; 第一空洞卷積層:卷積核大小3×3,空洞率=2,通道數64,激活函數ReLU; 第二空洞卷積層:卷積核大小3×3,空洞率=4,通道數64,激活函數ReLU; 所述邊緣強化分支為第二分支路徑,包含邊緣特征卷積層; 邊緣檢測操作:對輸入圖像進行Sobel算子處理,得到邊緣響應圖; 邊緣特征卷積層:卷積核大小1×1,輸出通道數64,激活函數ReLU; 所述殘差連接機制為將原始輸入或前一模塊輸出通過1×1卷積后加回主通道; 對預處理后的音頻數據進行模態特征提取與融合具體包括: 采用AMFN模塊從預處理后的梅爾頻譜圖中提取音頻數據的局部特征與全局特征,并進行局部特征與全局特征的融合; 所述AMFN模塊包含MSFE-A模塊、TCM模塊以及LGA模塊; 通過MSFE-A模塊提取音頻數據的局部特征,將音頻數據的梅爾頻譜圖輸入MSFE-A模塊,通過MSFE-A模塊的多個并行卷積分支分別提取不同頻率感受野下的音頻特征,包含卷積核大小為3×7的低頻卷積分支、卷積核大小為5×5的中頻卷積分支以及卷積核大小為7×3的高頻卷積分支,各分支輸出特征圖在通道維度上進行拼接,并通過1×1卷積進行融合,得到音頻數據的局部特征圖; 通過TCM模塊提取音頻數據的全局特征圖,將音頻數據的局部特征圖輸入TCM模塊,通過TCM模塊捕捉音頻信號中的長距離時間依賴特征,通過對頻譜圖在頻率維度進行平均池化,再采用一維時間卷積結合門控機制生成對應的注意力權重圖,將注意力權重圖與局部特征圖進行相乘,得到音頻數據的全局特征圖; 通過LGA模塊對局部特征圖與全局特征圖進行融合,將MSFE-A模塊和TCM模塊的輸出進行通道維度拼接,并引入通道注意力機制與頻率選擇門控機制,對融合后的特征圖進行通道壓縮和頻譜重要性加權,形成最終融合的音頻模態特征; S4、對提取的喉鏡圖像模態特征與音頻數據模態特征進行對齊; S5、基于聯邦學習,通過對齊后的喉鏡圖像模態特征與音頻數據模態特征對分類器模型進行訓練; S6、通過訓練好的分類器模型對兒童嗓音數據進行分類識別。
如需購買、轉讓、實施、許可或投資類似專利技術,可聯系本專利的申請人或專利權人四川農業大學,其通訊地址為:625000 四川省雅安市雨城區新康路46號;或者聯系龍圖騰網官方客服,聯系龍圖騰網可撥打電話0551-65771310或微信搜索“龍圖騰網”。
1、本報告根據公開、合法渠道獲得相關數據和信息,力求客觀、公正,但并不保證數據的最終完整性和準確性。
2、報告中的分析和結論僅反映本公司于發布本報告當日的職業理解,僅供參考使用,不能作為本公司承擔任何法律責任的依據或者憑證。