北京航空航天大學于茜獲國家專利權
買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監控用IP管家,真方便!
龍圖騰網獲悉北京航空航天大學申請的專利一種基于視覺語言Transformer的端到端視頻時空視覺定位系統獲國家發明授權專利權,本發明授權專利權由國家知識產權局授予,授權公告號為:CN113849668B 。
龍圖騰網通過國家知識產權局官網在2025-09-02發布的發明授權授權公告中獲悉:該發明授權的專利申請號/專利號為:202111100948.0,技術領域涉及:G06F16/483;該發明授權一種基于視覺語言Transformer的端到端視頻時空視覺定位系統是由于茜設計研發完成,并于2021-09-18向國家知識產權局提交的專利申請。
本一種基于視覺語言Transformer的端到端視頻時空視覺定位系統在說明書摘要公布了:本發明公開了一種基于視覺語言Transformer的端到端視頻時空視覺定位系統,包括,視覺信息編碼模塊、文字嵌入模塊、時空視覺定位模塊和時空軌跡生成模塊;視覺信息編碼模塊和文字嵌入模塊與時空視覺定位模塊連接;時空視覺定位模塊與時空軌跡生成模塊連接;視覺信息編碼模塊將視頻模塊從視頻幀中獲取視覺特征;文字嵌入模塊從查詢文本中提取文本編碼;時空視覺定位模塊用于學習視覺特征和文本編碼間的交互特征,并對檢測目標進行空間定位和時間定位,得到檢測框信息和時間起始終止信息;時空軌跡生成模塊用于生成時空軌跡預測結果;通過本發明能夠同時完成時間和空間上的視覺定位可以學習更好的特征表征,以達到更優的定位效果。
本發明授權一種基于視覺語言Transformer的端到端視頻時空視覺定位系統在權利要求書中公布了:1.一種基于視覺語言Transformer的端到端視頻時空視覺定位系統,其特征在于,包括,視覺信息編碼模塊、文字嵌入模塊、時空視覺定位模塊和時空軌跡生成模塊;所述視覺信息編碼模塊和文字嵌入模塊與時空視覺定位模塊連接;所述時空視覺定位模塊與時空軌跡生成模塊連接;所述視覺信息編碼模塊用于從視頻幀中獲取檢測目標的視覺特征;所述文字嵌入模塊用于從查詢文本中提取檢測目標的文本編碼;所述時空視覺定位模塊用于學習所述視覺特征和所述文本編碼間的交互特征,并對檢測目標進行空間定位和時間定位,得到檢測框信息和時間起始終止信息;所述時空軌跡生成模塊用于將生成的檢測框信息在時間域和空間域上結合,得到包含檢測目標的時空軌跡塊; 其中,所述時空視覺定位模塊包括跨模態特征學習模塊;所述跨模態特征學習模塊獲取文本編碼和視覺特征,生成文本引導的視覺特征和視覺引導的文本特征;所述跨模態特征學習模塊包括視覺分支模塊;在所述視覺分支模塊中構建時空組合分解模塊保留空間信息; 所述時空組合分解模塊包括時序池化模塊、空間池化模塊、組合模塊、多頭注意力模塊、分解模塊、復制模塊和歸一化模塊; 時序池化模塊用于采集視覺特征產生T×C的初步時序特征,其中T表示視頻幀數,C表示特征圖通道數,H表示高度,W表示寬度; 空間池化模塊用于采集視覺特征產生形狀為HW×C的初步空間特征, 組合模塊用于將所述初步時序特征和初步空間特征在特征維度上連接,構成尺寸為T+HW×C的組合視覺特征; 多頭注意力模塊用于根據組合視覺特征和文本特征進行注意力運算,生成初步文本引導的視覺特征; 分解模塊用于根據初步文本引導的視覺特征,生成文本引導的時序特征和文本引導的空間特征; 復制模塊用于對所述文本引導的時序特征復制HW次,對所述文本引導的空間特征復制T次,得到尺寸為T×HW×C的復制時序特征和復制空間特征; 歸一化模塊用于對復制時序特征、復制空間特征和視覺輸入特征進行相加后的結果進行歸一化,生成中間視覺特征;最后一層的輸出為文本引導的視覺特征。
如需購買、轉讓、實施、許可或投資類似專利技術,可聯系本專利的申請人或專利權人北京航空航天大學,其通訊地址為:100191 北京市海淀區學院路37號;或者聯系龍圖騰網官方客服,聯系龍圖騰網可撥打電話0551-65771310或微信搜索“龍圖騰網”。
1、本報告根據公開、合法渠道獲得相關數據和信息,力求客觀、公正,但并不保證數據的最終完整性和準確性。
2、報告中的分析和結論僅反映本公司于發布本報告當日的職業理解,僅供參考使用,不能作為本公司承擔任何法律責任的依據或者憑證。