南京郵電大學(xué)劉峰獲國家專利權(quán)
買專利賣專利找龍圖騰,真高效! 查專利查商標(biāo)用IPTOP,全免費!專利年費監(jiān)控用IP管家,真方便!
龍圖騰網(wǎng)獲悉南京郵電大學(xué)申請的專利一種基于多模態(tài)融合和優(yōu)化TCN的連續(xù)情感識別方法獲國家發(fā)明授權(quán)專利權(quán),本發(fā)明授權(quán)專利權(quán)由國家知識產(chǎn)權(quán)局授予,授權(quán)公告號為:CN117315544B 。
龍圖騰網(wǎng)通過國家知識產(chǎn)權(quán)局官網(wǎng)在2025-08-08發(fā)布的發(fā)明授權(quán)授權(quán)公告中獲悉:該發(fā)明授權(quán)的專利申請?zhí)?專利號為:202311339598.2,技術(shù)領(lǐng)域涉及:G06V20/40;該發(fā)明授權(quán)一種基于多模態(tài)融合和優(yōu)化TCN的連續(xù)情感識別方法是由劉峰;王者彧;趙崢來設(shè)計研發(fā)完成,并于2023-10-17向國家知識產(chǎn)權(quán)局提交的專利申請。
本一種基于多模態(tài)融合和優(yōu)化TCN的連續(xù)情感識別方法在說明書摘要公布了:本發(fā)明屬于機(jī)器視覺技術(shù)領(lǐng)域,公開了一種基于優(yōu)化TCN和多模態(tài)融合的連續(xù)情感識別方法,包括:建立離散情感和連續(xù)情感條件概率模型,基于模型生成偽標(biāo)簽補(bǔ)齊數(shù)據(jù)集,獲得完整的標(biāo)簽數(shù)據(jù),從視頻數(shù)據(jù)中提取音頻數(shù)據(jù)和圖像數(shù)據(jù),對音頻數(shù)據(jù)和圖像數(shù)據(jù)進(jìn)行初步特征提取,利用優(yōu)化TCN對特征進(jìn)行時序特征提取,得到音頻特征和視頻特征的時序特征,將初始時序特征輸入到注意力模型進(jìn)行跨模態(tài)特征融合,再結(jié)合全局最大池化提取跨模態(tài)特征融合后的特征,將初始圖像時序特征和全局特跨模態(tài)征進(jìn)行向量拼接后,獲得連續(xù)情感識別的最終結(jié)果。本發(fā)明同時考慮了視頻的音頻信息、圖像信息和標(biāo)簽信息,能夠有效提高連續(xù)情感識別的準(zhǔn)確性。
本發(fā)明授權(quán)一種基于多模態(tài)融合和優(yōu)化TCN的連續(xù)情感識別方法在權(quán)利要求書中公布了:1.一種基于多模態(tài)融合和優(yōu)化TCN的連續(xù)情感識別方法,其特征在于:所述連續(xù)情感識別方法包括以下步驟: 步驟1、構(gòu)建數(shù)據(jù)樣本,獲取離散情感數(shù)據(jù)標(biāo)簽和連續(xù)情感數(shù)據(jù)集標(biāo)簽,建立離散情感和連續(xù)情感條件概率模型; 步驟2、利用步驟1建立的離散情感和連續(xù)情感條件概率模型生成偽標(biāo)簽,補(bǔ)齊偽標(biāo)簽缺失的數(shù)據(jù)集,具體包括如下步驟: 步驟2-1、通過所述離散情感和連續(xù)情感條件概率模型,在視頻幀連續(xù)情感標(biāo)簽值確定時,選取概率最大的離散情感標(biāo)簽值作為偽標(biāo)簽,補(bǔ)齊擁有連續(xù)情感標(biāo)簽但缺失離散情感標(biāo)簽的視頻幀標(biāo)簽值; 步驟2-2、通過在離散情感所對應(yīng)的連續(xù)情感分布坐標(biāo)中隨機(jī)抽取一對v,a值作為該幀的偽標(biāo)簽,在網(wǎng)絡(luò)訓(xùn)練中,根據(jù)離散情感的標(biāo)注值隨機(jī)抽取一組v,a標(biāo)簽,每次完成訓(xùn)練后將在驗證集進(jìn)行網(wǎng)絡(luò)性能的驗證,將在驗證集表現(xiàn)最好的網(wǎng)絡(luò)所對應(yīng)的那一組偽標(biāo)簽輸出保存,其中,v,a分別代表連續(xù)情感中的效價維標(biāo)注和喚醒維標(biāo)注; 步驟3、獲取待分析視頻數(shù)據(jù),并將其轉(zhuǎn)換為音頻數(shù)據(jù)和圖像數(shù)據(jù),從視頻數(shù)據(jù)中提取音頻數(shù)據(jù)和圖像數(shù)據(jù),再利用Vggish網(wǎng)絡(luò)和MFCC網(wǎng)絡(luò)對音頻數(shù)據(jù)進(jìn)行初步特征的提取,再利用ResNet50網(wǎng)絡(luò)對圖像數(shù)據(jù)進(jìn)行初步特征的提?。?步驟4、利用優(yōu)化TCN網(wǎng)絡(luò)對音頻數(shù)據(jù)和圖像數(shù)據(jù)的初步特征進(jìn)行時序特征提取,得到兩種音頻時序輸出特征和圖像時序輸出特征,所述優(yōu)化TCN網(wǎng)絡(luò)包括4個TCN基礎(chǔ)模塊,每個TCN基礎(chǔ)模塊包括三個特征提取子模塊,每個所述特征提取子模塊均包括膨脹卷積層、歸一化層、激活層以及dropout層,每相鄰的兩個特征提取子模塊之間均增加一個殘差連接,保留淺層特征,同時在第一個殘差連接上增加一個1×1卷積模塊,初步提取淺層特征; 步驟5、將步驟4得到的音頻時序輸出特征和圖像時序輸出特征進(jìn)行位置編碼再分別乘上權(quán)重矩陣,再進(jìn)行跨模態(tài)特征融合得到跨模態(tài)特征; 步驟6、將步驟5得到的跨模態(tài)特征輸入到多頭注意力模型進(jìn)行跨模態(tài)特征的自注意力機(jī)制融合,結(jié)合全局最大池化提取跨模態(tài)自注意力特征; 步驟7、基于步驟4得到的圖像時序輸出特征和步驟6提取的跨模態(tài)自注意力特征進(jìn)行向量拼接后得到全局跨模態(tài)特征,將其輸入全連接層,獲得連續(xù)情感識別的最終結(jié)果。
如需購買、轉(zhuǎn)讓、實施、許可或投資類似專利技術(shù),可聯(lián)系本專利的申請人或?qū)@麢?quán)人南京郵電大學(xué),其通訊地址為:210000 江蘇省南京市棲霞區(qū)廣月路30-06號;或者聯(lián)系龍圖騰網(wǎng)官方客服,聯(lián)系龍圖騰網(wǎng)可撥打電話0551-65771310或微信搜索“龍圖騰網(wǎng)”。
1、本報告根據(jù)公開、合法渠道獲得相關(guān)數(shù)據(jù)和信息,力求客觀、公正,但并不保證數(shù)據(jù)的最終完整性和準(zhǔn)確性。
2、報告中的分析和結(jié)論僅反映本公司于發(fā)布本報告當(dāng)日的職業(yè)理解,僅供參考使用,不能作為本公司承擔(dān)任何法律責(zé)任的依據(jù)或者憑證。