浙江大學林俊安獲國家專利權
買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監(jiān)控用IP管家,真方便!
龍圖騰網(wǎng)獲悉浙江大學申請的專利基于音頻重要性感知的多粒度融合視頻片段檢索方法獲國家發(fā)明授權專利權,本發(fā)明授權專利權由國家知識產權局授予,授權公告號為:CN120256674B 。
龍圖騰網(wǎng)通過國家知識產權局官網(wǎng)在2025-08-12發(fā)布的發(fā)明授權授權公告中獲悉:該發(fā)明授權的專利申請?zhí)?專利號為:202510752246.2,技術領域涉及:G06F16/732;該發(fā)明授權基于音頻重要性感知的多粒度融合視頻片段檢索方法是由林俊安;張三元;陳先客;董建鋒設計研發(fā)完成,并于2025-06-06向國家知識產權局提交的專利申請。
本基于音頻重要性感知的多粒度融合視頻片段檢索方法在說明書摘要公布了:本發(fā)明公開了一種基于音頻重要性感知的多粒度融合視頻片段檢索方法,屬于多模態(tài)視頻片段檢索技術領域,其包括:構建其包含三個用于檢索的視覺分支、融合分支以及音頻分支,在獲得視覺?文本融合特征和音頻?文本融合特征基礎上,通過預測音頻重要性分數(shù)后,基于重要性分數(shù)對兩融合特征進行多粒度融合得到總融合特征后預測第三視頻片段檢索結果,并在訓練時,引入了檢索損失、音頻重要性預測損失、分支之間的知識蒸餾損失、以及融合特征之間顯著性對比損失,這樣訓練使得訓練后的每個分支都能顯著提升檢索精度,適應音頻模態(tài)的不確定性,提升機線索魯棒性,且增強了單模態(tài)性能,提升系統(tǒng)實用性。
本發(fā)明授權基于音頻重要性感知的多粒度融合視頻片段檢索方法在權利要求書中公布了:1.一種基于音頻重要性感知的多粒度融合視頻片段檢索方法,其特征在于,包括以下步驟: 構建學習框架,其包括輸入單元和片段檢索預測單元,輸入單元用于輸入視頻、音頻片段以及查詢文本,片段檢索預測單元包括視覺分支、融合分支以及音頻分支,視覺分支基于視頻幀和查詢文本提取視覺-文本融合特征后預測第一視頻片段檢索結果,音頻分支基于音頻片段和查詢文本提取音頻-文本融合特征后預測第二視頻片段檢索結果,融合分支基于視覺-文本融合特征和音頻-文本融合特征預測音頻重要性分數(shù)后,基于音頻重要性分數(shù)對兩融合特征進行多粒度融合得到總融合特征后預測第三視頻片段檢索結果; 基于每個視頻片段檢索結果構建檢索損失,并根據(jù)視覺分支和音頻分支對應的檢索損失構建偽標簽,并基于偽標簽和預測的音頻重要性分數(shù)構建音頻重要性預測損失,在融合分支分別與視覺分支和音頻分支之間構建知識蒸餾損失,同時為三個融合特征引入真值區(qū)間內和真值區(qū)間外的顯著性對比損失; 利用所有損失函數(shù)對學習框架進行訓練并優(yōu)化學習框架參數(shù)后,基于輸入單元和片段檢索預測單元中的至少一個分支進行視頻片段檢索。
如需購買、轉讓、實施、許可或投資類似專利技術,可聯(lián)系本專利的申請人或專利權人浙江大學,其通訊地址為:310058 浙江省杭州市西湖區(qū)余杭塘路866號;或者聯(lián)系龍圖騰網(wǎng)官方客服,聯(lián)系龍圖騰網(wǎng)可撥打電話0551-65771310或微信搜索“龍圖騰網(wǎng)”。
1、本報告根據(jù)公開、合法渠道獲得相關數(shù)據(jù)和信息,力求客觀、公正,但并不保證數(shù)據(jù)的最終完整性和準確性。
2、報告中的分析和結論僅反映本公司于發(fā)布本報告當日的職業(yè)理解,僅供參考使用,不能作為本公司承擔任何法律責任的依據(jù)或者憑證。