西北工業(yè)大學王鵬獲國家專利權
買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監(jiān)控用IP管家,真方便!
龍圖騰網(wǎng)獲悉西北工業(yè)大學申請的專利基于多尺度跨模態(tài)特征融合的指代表達理解方法獲國家發(fā)明授權專利權,本發(fā)明授權專利權由國家知識產(chǎn)權局授予,授權公告號為:CN115496991B 。
龍圖騰網(wǎng)通過國家知識產(chǎn)權局官網(wǎng)在2025-08-15發(fā)布的發(fā)明授權授權公告中獲悉:該發(fā)明授權的專利申請?zhí)?專利號為:202211009462.0,技術領域涉及:G06V10/86;該發(fā)明授權基于多尺度跨模態(tài)特征融合的指代表達理解方法是由王鵬;孫夢陽;張艷寧;索偉設計研發(fā)完成,并于2022-08-22向國家知識產(chǎn)權局提交的專利申請。
本基于多尺度跨模態(tài)特征融合的指代表達理解方法在說明書摘要公布了:本發(fā)明涉及一種基于多尺度跨模態(tài)特征融合的指代表達理解方法,基于語言圖像多模態(tài)融合領域。在跨模態(tài)特征融合過程中結合了線性特征調制和視覺引導語言注意力模塊進行特征融合,同時該模型利用了語言進行選擇和篩選多尺度網(wǎng)格級特征,從低級和高級融合特征中自適應地選擇關鍵線索,并通過動態(tài)路由在跨尺度信息之間建立關系。實驗結果表明,新的模型架構在多個基準測試中達到了新的最先進水平,并為REC研究提供了新的見解和方向。
本發(fā)明授權基于多尺度跨模態(tài)特征融合的指代表達理解方法在權利要求書中公布了:1.一種基于多尺度跨模態(tài)特征融合的指代表達理解方法,其特征在于步驟如下: 步驟1:圖片首先調整為相同的大小,然后經(jīng)過Resnet-101提取出n個尺度的特征圖,再通過1×1卷積映射到相同的維度d得到針對語言信息,先將語言信息分解為詞,通過詞嵌入后得到各個詞對應的特征向量,規(guī)定最長的語句詞數(shù)為T,詞數(shù)不足T的語句空白處用PAD標識填充;語句開始位置添加CLS標識,語句結尾添加SEP標識;將經(jīng)過位置編碼后的詞向量輸入進BERT網(wǎng)絡,得到融合語句信息的各個詞匯的特征向量 步驟2:將E和V輸入到模型的跨模態(tài)交互注意力模塊中,該模塊由兩部分組成,線性特征調制模塊FiLM和視覺引導的語言注意力模塊;在FiLM模塊中,應用了基于特征的仿射變換來自適應地影響網(wǎng)絡的輸出,對于給定的語言特征先通過平均策略獲得整個表達式EF,之后具體通過: 其中和是兩個具有激活函數(shù)Tanh的多層感知器MLP的權重和偏差,對于公式3,⊙和⊕分別表示按元素逐位乘法和加法;最后,應用標準的3×3卷積和ReLU操作來產(chǎn)生多級融合特征 對于視覺引導語言注意力模塊,首先將視覺特征Vi展平為其中Ni=Hi×Wi是視覺標記的特征個數(shù),然后根據(jù)語言特征E和視覺特征Zi由下式計算: 其中和是嵌入矩陣,該注意力模塊中的查詢、鍵和值分別用Q、K和V表示;m是注意力頭的數(shù)量,d為特征維度,為了簡單起見,只為每一級視覺特征使用一個語言注意力模塊;之后,Ai由兩個帶有殘差連接的前饋網(wǎng)絡FFN進一步編碼,形成融合后的輸出 通過連接Ff和Ft得到Fft,然后使用三個1×1卷積層將Fft映射到維度d;最后,得到組合的特征 步驟3:構建語言引導的特征金字塔模塊FPN 首先構建了一個深度為K的路由空間,在這個路由空間中,相鄰階段之間的比例因子被限制為2;對于每個路由節(jié)點,輸入由兩部分組成:多級特征圖和基于注意力機制的語言向量;每個路由節(jié)點中的每個尺度的網(wǎng)格級特征由語言門硬選擇; 首先,經(jīng)過語言門的輸入由兩部分組成:多級特征圖和基于注意力機制的語言向量;基于注意力機制的語言向量以下公式得到: ak=softmaxEWk5 其中Wk∈R256×1是學習權重,k表示深度,將共享給每個尺度和網(wǎng)格特征;多尺度特征圖可以表示為其中i是第i個尺度,k是第k層,N=Hi×Wi;語言門通過語言向量動態(tài)選擇中的網(wǎng)格級特征,具體操作如下: *和·分別表示卷積運算和Hadamard乘積;conv·表示一個3×3卷積網(wǎng)絡,σ·是激活函數(shù);這里使用tanh,即max0,tahn·作為門開關;當輸入為負時,該函數(shù)的輸出始終為0,這使得在推理階段不需要額外的閾值; 之后,將輸出Yi,k按照從小尺度到大尺度分別進行上采樣、保持不變和下采樣操作;具體操作如下: 使用來表示路由節(jié)點I中的聚合輸出,中的細粒度特征由聯(lián)合門進一步細化,具體地,將通過以下方式計算: 其中conv是一個1×1的卷積網(wǎng)絡,它將輸入特征映射到一個通道中,l表示第l的節(jié)點;最后一層的節(jié)點將用作多尺度融合,融合方式如下: 公式11將不同節(jié)點的信息匯總起來得到FAVG,它將用作檢測頭的輸入; 步驟4:使用無錨檢測頭來定位目標 對于步驟3的輸出FAVG,首先使用一個1×1的卷積層得到一個形狀為w×h×5的特征圖,表示五個預測值{tx,ty,tw,tht},其中前兩個值表示中心偏移,tw和th分別表示歸一化的寬度和高度;最后一個t是置信度分數(shù),表示該位置是否存在對象的中心點;最后,在中心點t上應用交叉熵損失Lcls,在中心偏移、寬度和高度上應用MSE損失Loff;同時,使用GIoU損失作為輔助損失;最后將整個函數(shù)定義為: Loff=Δx-tx2+Δy-ty214 Cij=1or0表示當前格子中是否含有真值目標的中心點, 表示中心點對于該格中心的偏移,其中x、y分別指int·表示該操作將分數(shù)舍入到最接近的整數(shù);只對真值中心所在的格子進行Loff;總損失函數(shù)如下: Loss=Lcls+λoFFLoff+Lgiou15 其中,λoff設置成5,網(wǎng)絡選擇最高分的中心點來生成邊界框;IoU是REC中使用的度量標準,用于衡量預測與真實情況之間的重疊程度。
如需購買、轉讓、實施、許可或投資類似專利技術,可聯(lián)系本專利的申請人或專利權人西北工業(yè)大學,其通訊地址為:710072 陜西省西安市友誼西路;或者聯(lián)系龍圖騰網(wǎng)官方客服,聯(lián)系龍圖騰網(wǎng)可撥打電話0551-65771310或微信搜索“龍圖騰網(wǎng)”。
1、本報告根據(jù)公開、合法渠道獲得相關數(shù)據(jù)和信息,力求客觀、公正,但并不保證數(shù)據(jù)的最終完整性和準確性。
2、報告中的分析和結論僅反映本公司于發(fā)布本報告當日的職業(yè)理解,僅供參考使用,不能作為本公司承擔任何法律責任的依據(jù)或者憑證。