北京航空航天大學游令非獲國家專利權
買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監控用IP管家,真方便!
龍圖騰網獲悉北京航空航天大學申請的專利一種基于大模型的空中時敏目標識別方法獲國家發明授權專利權,本發明授權專利權由國家知識產權局授予,授權公告號為:CN119888534B 。
龍圖騰網通過國家知識產權局官網在2025-08-15發布的發明授權授權公告中獲悉:該發明授權的專利申請號/專利號為:202411949200.1,技術領域涉及:G06V20/17;該發明授權一種基于大模型的空中時敏目標識別方法是由游令非;高星海;常創業;王卓奇;郭志奇;劉清漪設計研發完成,并于2024-12-27向國家知識產權局提交的專利申請。
本一種基于大模型的空中時敏目標識別方法在說明書摘要公布了:本發明公開了一種基于大模型的空中時敏目標識別方法,屬于圖像處理與識別領域;具體為:對同一型號的飛機在不同時間點的飛行軌跡進行采集,獲取包含空中時敏目標的圖像數據和文本數據;然后,對圖像進行預處理,利用CLIP模型將圖像轉換為視覺特征向量,獲取編碼后的圖像特征。接著,對文本進行預處理,得到自然語言描述;并設計定義規則,將自然語言描述劃分為多類型語義,進而通過設計語義提示合并器實施有機融合,輸入到CLIP模型得到全局語義提示特征。最后,將每幀圖像的全局語義提示特征作為查詢向量,編碼后的圖像特征作為鍵和值向量,通過增強圖像特征,最終有效識別出時敏目標。本發明提升了獲取了具備強描述性和分辨性的目標。
本發明授權一種基于大模型的空中時敏目標識別方法在權利要求書中公布了:1.一種基于大模型的空中時敏目標識別方法,其特征在于,具體步驟如下: 步驟一:針對多個不同型號的飛機對空中時敏目標進行識別的場景中,對同一個型號的飛機在不同時間點的飛行軌跡進行采集,獲取每個型號飛機對應的包含目標的圖像數據和文本數據; 步驟二:對同一型號飛機的每個飛行軌跡視頻對應的圖像數據分別進行預處理; 步驟三:利用CLIP模型的圖像編碼器,將預處理后的每個視頻的圖像分別轉換為一組視覺特征向量,獲取各視頻編碼后的圖像特征; 步驟四:對同一型號飛機的文本數據進行預處理,得到各文本列表的自然語言描述; 步驟五:設計自然語言描述的定義規則,將所有文本列表對應的自然語言描述劃分為三種語義類型: 1類別描述語義,直接利用CLIP模型的文本編碼器提取的文本列表對應類別相關的語義提示; 2視覺感知語義,采用離散語義提示編碼器提取視覺感知的離散語義提示和連續語義提示編碼器提取視覺感知的連續語義提示; 3高階知識語義,采用離散語義提示編碼器提取高階知識的離散語義提示和連續語義提示編碼器提取高階知識的連續語義提示; 步驟六:設計語義提示合并器,將所有文本列表對應的多類型語義進行有機融合,輸入到CLIP模型的文本編碼器得到最終全局語義提示特征; 步驟七:將每個視頻的全局語義提示特征作為查詢向量,編碼后的圖像特征作為鍵和值向量,通過跨模態注意力機制獲得增強圖像特征,并匯總所有區域視覺信息,獲取具備強描述性和分辨性的目標樣本特征描述,最終有效識別出視頻中的時敏目標類別; 具體過程為: 首先,針對當前視頻的第i幀,其文本列表對應的全局語義提示特征為wi,其編碼后的圖像特征為Xi;該幀的增強圖像特征為: 其中CrossAttention·指交叉注意力,LN是層歸一化,xcls表示輸入圖像的[CLS]標記的特征;X為將視頻對應的圖像數據嵌入到視覺tokens序列得到的視頻序列; 然后,將該視頻下所有幀的增強圖像特征計算平均值,獲得平均圖像特征作為全局圖像特征; 接著,通過計算歸一化的余弦相似度,計算第i幀編碼后圖像特征Xi屬于全局圖像特征的概率: 其中τ是一個可學習的溫度參數,sim·代表余弦相似度; 最后,利用概率優化余弦相似度,使得該幀編碼后圖像特征Xi和正確的文本特征之間的相似度最大化,其他類別的相似度最小化; 具體優化為最小化交叉熵損失: 其中是yi為第i幀圖像的獨熱編碼。
如需購買、轉讓、實施、許可或投資類似專利技術,可聯系本專利的申請人或專利權人北京航空航天大學,其通訊地址為:100191 北京市海淀區學院路37號;或者聯系龍圖騰網官方客服,聯系龍圖騰網可撥打電話0551-65771310或微信搜索“龍圖騰網”。
1、本報告根據公開、合法渠道獲得相關數據和信息,力求客觀、公正,但并不保證數據的最終完整性和準確性。
2、報告中的分析和結論僅反映本公司于發布本報告當日的職業理解,僅供參考使用,不能作為本公司承擔任何法律責任的依據或者憑證。