西北工業大學郭斌獲國家專利權
買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監控用IP管家,真方便!
龍圖騰網獲悉西北工業大學申請的專利一種融合視覺情境的富語義對話生成方法獲國家發明授權專利權,本發明授權專利權由國家知識產權局授予,授權公告號為:CN115964467B 。
龍圖騰網通過國家知識產權局官網在2025-08-12發布的發明授權授權公告中獲悉:該發明授權的專利申請號/專利號為:202310000268.4,技術領域涉及:G06F16/3329;該發明授權一種融合視覺情境的富語義對話生成方法是由郭斌;曾亞庭;王豪設計研發完成,并于2023-01-02向國家知識產權局提交的專利申請。
本一種融合視覺情境的富語義對話生成方法在說明書摘要公布了:本發明公開了一種融合視覺情境的富語義對話生成方法,收集具有挑戰性的視聽場景感知數據集對模型進行訓練,整體模型在Transformer的基礎上設計并實現了多步交叉模態注意力機制,細粒度捕捉時空維度上的不同模態間異構語義關聯,而后將多模態特征表示聯合構建成時空圖結構并使用圖卷積網絡進行跨模態學習推理,最后解碼生成符合當前情境,內容豐富準確的對話回復。本發明通過多模態數據的融合和跨模態交互捕捉多角度細粒度漸進式特征交互和模態間語義關聯,實現視覺?語言跨模態語義對齊,提升模型語義理解和推理能力,最終生成信息豐富且高質量的回復。
本發明授權一種融合視覺情境的富語義對話生成方法在權利要求書中公布了:1.一種融合視覺情境的富語義對話生成方法,其特征在于,包括以下步驟: 步驟1:收集視頻對話相關開源數據集,并對數據進行預處理,劃分訓練集、驗證集與測試集; 步驟2:數據預處理; 視頻內容中存在四種類型的多模態特征表示,即視頻靜態特征、視頻動態特征、當前問題特征和歷史對話與總結信息拼接的文本特征;進行特征提取時加入位置編碼,得到最終模型的輸入表示,如下: 其中PEpos,2i代表句子序列中第pos個單詞的第2i個維度上的值,PEpos,2i+1代表句子序列中第pos個單詞的第2i+1個維度上的值; 步驟3:模型構建; 1首先構建基于編解碼架構的對話系統,通過對視頻中的幀信息使用預訓練模型進行特征提取,獲取到靜態和動態的視頻語義信息,然后將其與對話文本內容分別進行編碼,并建模細粒度的模態內上下文語義信息; 2使用基于交叉模態的多步注意力機制進行多模態數據的融合和跨模態交互,捕捉多角度細粒度漸進式特征交互和模態間語義關聯,實現視覺-語言跨模態語義對齊; 3將多模態特征表示聯合構建成時空圖結構,基于動態時空場景進行圖推理得到跨模態融合特征后,解碼生成對話回復; 步驟4:編碼階段; 對于編碼部分,使用4個標準Transformer編碼器,對不同模態輸入特征進行語義編碼,包括視頻靜態特征、視頻動態特征、歷史對話與視頻摘要特征和當前問題特征;其中,同屬文本模態的歷史對話與視頻摘要特征和當前問題特征所使用的編碼器將共享權重; 首先通過多頭注意力模塊根據上下文對句子序列中的單詞向量進行更新,如下: MultiHeadQ,K,V=Concathead1,head2,...headhWO headi=AttentionQWi Q,KWi K,VWi V 其中Q,K,V分別由三個不同的權重矩陣Wi Q、Wi K、Wi V與模型輸入向量相乘得到,三個權重矩陣維度均為dk,headi代表多頭注意力機制中的一個注意力頭; 然后經過前饋神經網絡層得到編碼階段的輸出,如下: FFNZ=max0,Z,W1+b1W2+b2 其中Z代表多頭注意力層的輸出內容,W1、W2分別表示前饋神經網絡的學習權重;b1、b2分別表示偏置; 編碼階段中的多頭注意力層和前饋神經網絡層后都附加有殘差連接和層歸一化過程,如下: SubLayeroutput=LayerNormx+SubLayerx 其中SubLayer指多頭注意力層或前饋神經網絡層,x表示輸入; 步驟5:多步交叉模態注意機制; 將注意力機制從單步擴展到多步,在不同的注意力計算中,查詢向量依次來源于其中一個模態類型數據,其余三個模態類型數據分別用于計算鍵向量和值向量,實現其中一個特征維度與其余三個維度之間的交叉注意;對于每一次的注意力機制計算,采用重復兩次反復交互的策略,以三組六次的交叉模態注意力計算,多步交叉注意計算的具體更新和操作公式如下: at=softmaxqLMt-1T Mt←at⊙Mt-1Wt+bt 其中,at表示Mt-1的注意權重,T為步數,←表示更新操作,Wt和bt是線性FC層的可學習參數;q表示查詢向量,L表示其余模態向量; 同理計算當前模態與其余模態之間的相互作用,將所有計算得到的相互作用進行拼接后經過線形層映射到同一維度,最后與當前模態特征相加,得到與其他模態的融合更新后的當前模態特征表示; 步驟6:跨模態推理; 采用圖卷積網絡GCN進行跨模態推理工作,在先前的特征表示和融合步驟中得到語言模態和視覺模態的交叉嵌入特征,對該特征構建無向異構圖,即一個包含所有視覺和語言向量的異構輸入矩陣,在異構圖中進行基于圖的對齊,得到基于語義相似度加權的跨模態對齊鄰接矩陣,進一步使用GCN在圖上執行關系推理;具體為,通過圖中相鄰節點和自身節點的線性變換進行節點值的更新,圖中邊的權值由對齊的鄰接矩陣指定,將一層GCN表示如下: Xf=AfXf-1Wf 其中Xf是GCN第f層的隱藏特征,Af是由Xf-1中節點特征的點積相似度計算出的鄰接矩陣,Wf是可學習的權重矩陣; 步驟7:解碼階段; 解碼部分的輸入經過多頭掩碼注意力機制和相同結構的編-解碼注意力機制,最后經過前饋神經網絡層生成最終的回復序列;解碼階段每個子層后同樣附加有殘差連接和層歸一化過程;使用最小化生成序列的負對數似然函數損失來學習模型的參數,得到多輪對話內容生成模型,如下: 其中t1,...,ti分別代表生成句子序列中的第i個單詞,DKL表示KL散度,pti|t1,...,ti-1,x表示當前時刻生成單詞的概率,n表示最大生成長度。
如需購買、轉讓、實施、許可或投資類似專利技術,可聯系本專利的申請人或專利權人西北工業大學,其通訊地址為:710072 陜西省西安市友誼西路;或者聯系龍圖騰網官方客服,聯系龍圖騰網可撥打電話0551-65771310或微信搜索“龍圖騰網”。
1、本報告根據公開、合法渠道獲得相關數據和信息,力求客觀、公正,但并不保證數據的最終完整性和準確性。
2、報告中的分析和結論僅反映本公司于發布本報告當日的職業理解,僅供參考使用,不能作為本公司承擔任何法律責任的依據或者憑證。