江西財經大學方承煬獲國家專利權
買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監控用IP管家,真方便!
龍圖騰網獲悉江西財經大學申請的專利基于多視角分離與定位的場景文本上下文對齊方法獲國家發明授權專利權,本發明授權專利權由國家知識產權局授予,授權公告號為:CN120340017B 。
龍圖騰網通過國家知識產權局官網在2025-08-12發布的發明授權授權公告中獲悉:該發明授權的專利申請號/專利號為:202510775630.4,技術領域涉及:G06V20/62;該發明授權基于多視角分離與定位的場景文本上下文對齊方法是由方承煬;姜文暉;方玉明;章楠;鄧輝;鄢杰斌設計研發完成,并于2025-06-11向國家知識產權局提交的專利申請。
本基于多視角分離與定位的場景文本上下文對齊方法在說明書摘要公布了:本發明提出一種基于多視角分離與定位的場景文本上下文對齊方法,該方法包括:通過OCR系統對原始圖像進行識別提取,得到最終的OCR特征;基于原始圖像,得到物體的最終融合表示向量;基于問題的嵌入矩陣、OCR文本的嵌入矩陣以及物體的嵌入得到T5編碼器的輸入;基于文本的邊界框特征,得到離散化距離;通過離散化距離得到注意力輸出結果;基于原始圖像,計算三個通道的KL散度差異值,并通過KL散度差異值得到最終視覺關聯表示;利用處理后的文本特征和視覺特征對模型進行訓練;通過訓練后的模型得到自然語言答案。本發明通過分析不同場景文本間的顏色分布差異,評估它們的視覺關聯性,幫助模型更加準確地判斷文本之間的關系。
本發明授權基于多視角分離與定位的場景文本上下文對齊方法在權利要求書中公布了:1.一種基于多視角分離與定位的場景文本上下文對齊方法,其特征在于,所述方法包括如下步驟: 步驟1、通過OCR系統對原始圖像進行識別提取,得到場景文本; 基于場景文本,得到最終的OCR特征; 基于原始圖像,通過FasterR-CNN提取得到物體的最終融合表示向量; 步驟2、利用T5Token嵌入層將問題中的單詞編碼為特征嵌入,以得到問題特征; 基于最終的OCR特征、物體的最終融合表示向量以及問題特征,分別計算得到問題的嵌入矩陣、OCR文本的嵌入矩陣以及物體的嵌入矩陣; 對問題的嵌入矩陣、OCR文本的嵌入矩陣以及物體的嵌入矩陣使用拼接函數進行拼接處理,以得到T5編碼器的輸入; 步驟3、將原始圖像劃分成圖像塊,基于OCR文本的邊界框特征,將OCR文本的邊界框坐標映射為圖像塊的坐標,并進一步得到離散化距離; 利用離散化距離,通過注意力計算,得到注意力輸出結果; 將原始圖像分離成RGB三個通道,并計算三個通道的KL散度差異值; 利用三個通道的KL散度差異值分別得到紅色通道門控權重和藍色通道門控權重; 利用紅色通道門控權重和藍色通道門控權重,通過多通道視覺關聯融合處理,得到最終視覺關聯表示; 步驟4、利用最終視覺關聯表示,通過預訓練的編碼器,生成得到聯合的多模態上下文表示; 根據聯合的多模態上下文表示,利用預訓練的解碼器進行自回歸生成,以得到自然語言答案。
如需購買、轉讓、實施、許可或投資類似專利技術,可聯系本專利的申請人或專利權人江西財經大學,其通訊地址為:330000 江西省南昌市經濟技術開發區雙港東大街169號;或者聯系龍圖騰網官方客服,聯系龍圖騰網可撥打電話0551-65771310或微信搜索“龍圖騰網”。
1、本報告根據公開、合法渠道獲得相關數據和信息,力求客觀、公正,但并不保證數據的最終完整性和準確性。
2、報告中的分析和結論僅反映本公司于發布本報告當日的職業理解,僅供參考使用,不能作為本公司承擔任何法律責任的依據或者憑證。