中南大學楊柳獲國家專利權
買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監控用IP管家,真方便!
龍圖騰網獲悉中南大學申請的專利基于音視頻雙模態特征融合的視頻時域動作分割方法獲國家發明授權專利權,本發明授權專利權由國家知識產權局授予,授權公告號為:CN115471774B 。
龍圖騰網通過國家知識產權局官網在2025-08-12發布的發明授權授權公告中獲悉:該發明授權的專利申請號/專利號為:202211139594.5,技術領域涉及:G06V20/40;該發明授權基于音視頻雙模態特征融合的視頻時域動作分割方法是由楊柳;殷鑫;龍軍;蔣豫;吳振杰設計研發完成,并于2022-09-19向國家知識產權局提交的專利申請。
本基于音視頻雙模態特征融合的視頻時域動作分割方法在說明書摘要公布了:本發明提供了一種基于音視頻雙模態特征融合的視頻時域動作分割方法,設計了一種視頻時域動作分割網絡模型,將音頻特征引入到視頻時域動作分割任務中,利用音頻天然的波形特征以及視頻特征用于回歸動作邊界概率,并設計多階段視聽雙模態級聯網絡,用以捕獲視頻的邊界信息,細化網絡的逐幀動作預測;同時設計視聽雙模態邊界回歸模塊計算音頻特征和視頻特征得到動作邊界概率并對上述多階段視聽雙模態級聯網絡的動作分類結果進行細化,捕獲可靠的視頻片段與正確的視頻動作分類,用以緩解視頻分割時的邊界模糊問題,提高視頻動作分割效果。
本發明授權基于音視頻雙模態特征融合的視頻時域動作分割方法在權利要求書中公布了:1.基于音視頻雙模態特征融合的視頻時域動作分割方法,其特征在于,包括以下步驟: S1:提取多媒體數據的視頻特征和音頻特征; S2:建立視頻時域動作分割網絡模型,并依據視頻時域動作分割網絡模型輸出視頻時域動作分割分類結果,所述視頻時域動作分割網絡模型包括多階段視聽雙模態級聯網絡與視聽雙模態邊界回歸模塊,具體步驟包括: S2-1:將多媒體數據的音頻特征融入視頻特征,得到融合后的視聽雙模態特征,輸入多階段視聽多模態級聯網絡中; S2-2:基于音頻特征和視頻特征,通過視聽雙模態邊界回歸模塊生成視聽雙模態邊界平滑算子,通過視聽雙模態邊界平滑算子平滑多階段視聽多模態級聯網絡中每個級聯階段的幀置信度得分,并生成自注意力權重; S2-3:將多階段視聽多模態級聯網絡中每個級聯階段的幀置信度得分根據自注意力權重矩陣加權求和,輸入融合階段,得到融合分類分數,根據融合分類分數輸出視頻時域動作分割分類結果; 所述步驟S2-2中通過視聽雙模態邊界平滑算子平滑多階段視聽多模態級聯網絡中每個級聯階段的幀置信度得分的表達式為: b′=bvideo+βbaudio2 其中,為加入平滑算子后網絡預測的幀置信度得分;為幀置信度得分;s為池化的方向;β為確定不同特征貢獻的模型超參數;L為長度,池化窗口的長度為2L+1;為池化窗口內幀的幀置信度得分;α為自注意力權重的衰減率;j為池化窗口中每個方向取的元素數目;b′t+s·j為池化窗口內的動作邊界概率;att為自注意力調整單元;b′為融合邊界概率;bvideo為視頻邊界概率;baudio為音頻邊界概率; 所述步驟S2-2中自注意力權重的表達式為: 其中,為多階段視聽多模態級聯網絡中每個級聯階段的自注意力權重;e為自然常數;ρ為設置的幀置信度得分閾值;為時間為t,階段為j'時的幀置信度得分。
如需購買、轉讓、實施、許可或投資類似專利技術,可聯系本專利的申請人或專利權人中南大學,其通訊地址為:410083 湖南省長沙市岳麓區麓山南路932號;或者聯系龍圖騰網官方客服,聯系龍圖騰網可撥打電話0551-65771310或微信搜索“龍圖騰網”。
1、本報告根據公開、合法渠道獲得相關數據和信息,力求客觀、公正,但并不保證數據的最終完整性和準確性。
2、報告中的分析和結論僅反映本公司于發布本報告當日的職業理解,僅供參考使用,不能作為本公司承擔任何法律責任的依據或者憑證。