南京醫科大學向文濤獲國家專利權
買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監控用IP管家,真方便!
龍圖騰網獲悉南京醫科大學申請的專利一種基于適配器融合的音視頻雙模態情感識別方法及系統獲國家發明授權專利權,本發明授權專利權由國家知識產權局授予,授權公告號為:CN120411863B 。
龍圖騰網通過國家知識產權局官網在2025-08-26發布的發明授權授權公告中獲悉:該發明授權的專利申請號/專利號為:202510907472.3,技術領域涉及:G06V20/40;該發明授權一種基于適配器融合的音視頻雙模態情感識別方法及系統是由向文濤;李建清;楊淳沨;楊博慧;劉賓;朱松盛;李杰設計研發完成,并于2025-07-02向國家知識產權局提交的專利申請。
本一種基于適配器融合的音視頻雙模態情感識別方法及系統在說明書摘要公布了:本發明涉及人工智能與情感計算技術領域,具體涉及一種基于適配器融合的音視頻雙模態情感識別方法及系統;該方法包括:獲取視頻幀序列和音頻信號,并進行預處理;構建情感識別模型;基于雙模態特征提取模塊依次嵌入空間適配器和全局適配器,依次得到對應模態增強后的空間特征和全局特征;基于全局特征生成對應模態的中間表示,根據中間表示進行特征融合,分別得到對應模態的融合特征;拼接融合特征,進行時序特征的提取,得到最終特征;將最終特征輸入至分類器中,得到預測情緒類別,采用損失函數對情感識別模型進行訓練,確定最優的情感識別模型;將待識別的視頻幀序列和音頻信號輸入至情感識別模型,輸出識別結果。
本發明授權一種基于適配器融合的音視頻雙模態情感識別方法及系統在權利要求書中公布了:1.一種基于適配器融合的音視頻雙模態情感識別方法,其特征在于,所述方法包括: 獲取視頻幀序列和音頻信號,并進行預處理; 構建情感識別模型,所述情感識別模型包括雙模態特征提取模塊、雙模態融合適配器結構、跨模態時序建模模塊和分類器; 基于雙模態特征提取模塊依次嵌入空間適配器和全局適配器,輸入預處理后的視頻幀序列和音頻信號依次進行處理,并依次得到對應模態增強后的空間特征和全局特征,包括: 所述雙模態特征提取模塊采用Transformer編碼器為特征提取器,并在Transformer編碼器后依次嵌入空間適配器和全局適配器; 將預處理后的視頻幀序列和音頻信號輸入至Transformer編碼器中,分別得到對應模態的輸出特征; 基于輸出特征進行歸一化處理后,采用空間適配器依次進行降維、非線性激活和升維處理,分別得到對應模態增強后的空間特征,包括: 基于歸一化處理后的輸出特征采用空間適配器得到對應模態的初始空間特征,對應的計算公式為: ; 其中,表示視頻幀序列對應的初始空間特征;表示音頻信號對應的初始空間特征;表示當前Transformer編碼器;表示相鄰上一塊Transformer編碼器;表示空間適配器;表示視頻幀序列對應的歸一化處理后的輸出特征;表示音頻信號對應的歸一化處理后的輸出特征; 通過空間適配器對歸一化處理后的輸出特征依次進行降維、非線性激活和升維處理,并結合輸出特征,分別得到對應模態增強后的空間特征,對應的計算公式為: ; ; 其中,表示視頻幀序列對應的增強后的空間特征;表示音頻信號對應的增強后的空間特征;、分別表示視頻幀序列和音頻信號對應的輸出特征;表示雙模態特征提取模塊中的MHSA操作; 基于空間特征進行歸一化處理后,采用全局適配器進行處理,分別得到對應模態增強后的全局特征; 基于全局特征通過雙模態融合適配器結構生成對應模態的中間表示,根據中間表示進行特征融合,分別得到對應模態的融合特征; 拼接融合特征,并輸入跨模態時序建模模塊中進行時序特征的提取,得到最終特征; 將最終特征輸入至分類器中,得到預測情緒類別,并采用損失函數對情感識別模型進行訓練,調整情感識別模型參數,確定最優的情感識別模型; 獲取待識別的視頻幀序列和音頻信號,并輸入至最優的情感識別模型,輸出識別結果。
如需購買、轉讓、實施、許可或投資類似專利技術,可聯系本專利的申請人或專利權人南京醫科大學,其通訊地址為:211166 江蘇省南京市江寧區龍眠大道101號;或者聯系龍圖騰網官方客服,聯系龍圖騰網可撥打電話0551-65771310或微信搜索“龍圖騰網”。
1、本報告根據公開、合法渠道獲得相關數據和信息,力求客觀、公正,但并不保證數據的最終完整性和準確性。
2、報告中的分析和結論僅反映本公司于發布本報告當日的職業理解,僅供參考使用,不能作為本公司承擔任何法律責任的依據或者憑證。