同濟大學翟鵬珺獲國家專利權
買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監控用IP管家,真方便!
龍圖騰網獲悉同濟大學申請的專利一種新聞視頻描述自動生成方法獲國家發明授權專利權,本發明授權專利權由國家知識產權局授予,授權公告號為:CN115408563B 。
龍圖騰網通過國家知識產權局官網在2025-08-08發布的發明授權授權公告中獲悉:該發明授權的專利申請號/專利號為:202210990725.4,技術領域涉及:G06F16/783;該發明授權一種新聞視頻描述自動生成方法是由翟鵬珺;方鈺;原齊陽設計研發完成,并于2022-08-18向國家知識產權局提交的專利申請。
本一種新聞視頻描述自動生成方法在說明書摘要公布了:一種新聞視頻描述自動生成方法,可以對一個附加了文本的新聞視頻產生蘊含實體信息的準確描述。目前的新聞視頻描述方法均基于一段式的生成模型,且未對冗余的上下文語句進行篩選,造成生成描述不準確。本發明的創新點在于首先利用視頻對附加文本進行篩選,之后利用一個基于模板生成和實體插入的兩段式生成方法生成新聞視頻描述,其中,在模板生成部分聚焦于事件的內容,在實體插入部分聚焦于事件的參與者等實體信息,有效地提升了新聞視頻描述的準確率。
本發明授權一種新聞視頻描述自動生成方法在權利要求書中公布了:1.一種新聞視頻描述自動生成方法,其特征在于,包括: 步驟1、利用語句排序器對附加文本的每個語句排序; 步驟2、對步驟1得到的排序語句進行命名實體識別,得到排序語句模板和排序實體列表; 步驟3、利用視頻數據和步驟2得到的排序語句模板生成目標視頻的描述模板; 步驟4、利用步驟2生成的排序實體列表對步驟3生成的描述模板進行實體插入得到最終的新聞視頻描述; 其中, 步驟1:利用語句排序器對附加文本的每個語句排序 1.1:利用ResNet-50和I3D模型對視頻進行特征提取得到視頻的動態和外觀特征,之后利用LSTM拼接得到包含時序信息的視頻特征向量,提供給步驟1.3; 1.2:利用BERT對附加文本的每個語句進行特征提取得到中間文本特征,提供給步驟1.3; 1.3:訓練語句排序器 語句排序器的輸入為視頻特征和文本特征,輸出二者的相似度; 利用注意力機制定義聚合操作如下:,其中,將中間文本特征向量進行聚合得到中間文本聚合向量,同樣的,對視頻向量進行聚合,得到視覺聚合向量;其中,與分別為文本和視頻的聚合參數;定義視頻與語句的相似度如下:;以上下文語句與視頻真實描述對應的ROUGE指標值作為目標值,通過最小化二者的交叉熵損失來訓練模型; 1.4:利用訓練好的語句排序器得到附加文本的每個語句與視頻的相似度,依據此相似度進行排序,得到排序語句,提供給步驟2.1和2.2; 步驟3:利用視頻數據和步驟2得到的排序語句模板生成目標視頻的描述模板 3.1:拼接排名前20的排序語句模板,并向量化得到最終的文本特征向量; 3.2:訓練模板生成器 模板生成器的輸入是視頻和文本特征向量,輸出是目標新聞視頻的描述模板; 模板生成器基于M層的transformer,序列化的產生視頻的描述;在時刻t,接受之前時刻產生的詞匯以及特征向量 , ,產生隱狀態序列,其中,為對應的嵌入向量,具體過程為: 利用的最后一個維度的元素,經過線性映射和softmax操作后,得到當前時刻的單詞輸出;DecoderLayer基于注意力機制實現;對于一組查詢Q、鍵向量K和值向量V,注意力機制根據查詢Q和鍵K向量之間的相似度對值向量V進行加權求和;表示如下: 多頭注意力MA由H個注意力層組成: 對于第L層的Decoderlayer,首先利用自注意力機制得到; 之后分別對文本和視頻特征進行MA操作,得到與,其中,,將二者拼接并經過線性層,得到,被用作下一個的輸入;給定視頻V,上下文C,以及真實描述S,使用交叉熵損失作為訓練的目標函數損失函數為: 3.3:利用訓練好的模板生成器生成目標視頻的帶有實體類別占位符的描述模板,提供給步驟4。
如需購買、轉讓、實施、許可或投資類似專利技術,可聯系本專利的申請人或專利權人同濟大學,其通訊地址為:200092 上海市楊浦區四平路1239號;或者聯系龍圖騰網官方客服,聯系龍圖騰網可撥打電話0551-65771310或微信搜索“龍圖騰網”。
1、本報告根據公開、合法渠道獲得相關數據和信息,力求客觀、公正,但并不保證數據的最終完整性和準確性。
2、報告中的分析和結論僅反映本公司于發布本報告當日的職業理解,僅供參考使用,不能作為本公司承擔任何法律責任的依據或者憑證。