浙江大學張三元獲國家專利權(quán)
買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監(jiān)控用IP管家,真方便!
龍圖騰網(wǎng)獲悉浙江大學申請的專利一種多閱讀方向的文字圖像識別方法獲國家發(fā)明授權(quán)專利權(quán),本發(fā)明授權(quán)專利權(quán)由國家知識產(chǎn)權(quán)局授予,授權(quán)公告號為:CN114495076B 。
龍圖騰網(wǎng)通過國家知識產(chǎn)權(quán)局官網(wǎng)在2025-09-02發(fā)布的發(fā)明授權(quán)授權(quán)公告中獲悉:該發(fā)明授權(quán)的專利申請?zhí)?專利號為:202111456350.5,技術(shù)領(lǐng)域涉及:G06V20/62;該發(fā)明授權(quán)一種多閱讀方向的文字圖像識別方法是由張三元;劉旭設(shè)計研發(fā)完成,并于2021-12-01向國家知識產(chǎn)權(quán)局提交的專利申請。
本一種多閱讀方向的文字圖像識別方法在說明書摘要公布了:本發(fā)明公開了一種多閱讀方向的文字圖像識別方法。本發(fā)明對包含文字的自然場景圖像進行預處理后,獲得預處理后的文本塊圖像;通過在卷積骨干網(wǎng)絡(luò)對預處理后的文本塊圖像提取圖像特征后使用交叉自注意力模塊來獲取不同閱讀順序文本的方向信息,最后通過字符解碼模塊進行解碼輸出,實現(xiàn)對不同閱讀順序文本序列的解碼和識別。本發(fā)明在輕微增加延時的情況下實現(xiàn)了只通過一次網(wǎng)絡(luò)的前饋就可以識別出不同方向排列的文本圖片,且識別性能相較于普通模型仍具有一定的提升。
本發(fā)明授權(quán)一種多閱讀方向的文字圖像識別方法在權(quán)利要求書中公布了:1.一種多閱讀方向的文字圖像識別方法,其特征在于,包括以下步驟: 1對包含文字的自然場景圖像進行預處理后,獲得預處理后的文本塊圖像; 2將預處理后的文本塊圖像輸入骨干卷積神經(jīng)網(wǎng)絡(luò)中進行特征提取與降采樣,獲得一維視覺特征圖; 3一維視覺特征圖輸入交叉自注意力模塊中進行并行交叉自注意力矯正,獲得矯正文本向量; 4將矯正文本向量輸入字符解碼模塊中進行解碼后,輸出識別的文本字符串; 所述步驟2中的骨干卷積神經(jīng)網(wǎng)絡(luò)由卷積降采樣模塊依次經(jīng)6層的深度卷積模塊、第一可分離卷積降采樣模塊、12層的深度卷積模塊和第二可分離卷積降采樣模塊后與均值池化降采樣模塊相連組成,預處理后的文本塊圖像輸入卷積降采樣模塊,均值池化降采樣模塊輸出一維視覺特征圖; 所述步驟3具體為: 所述交叉自注意力模塊中首先對一維視覺特征圖分別進行寬度維度的編碼以及兩個不同的線性變換后,分別獲得特征查詢向量、特征鍵向量和特征值向量,再對特征查詢向量、特征鍵向量和特征值向量進行通道維度上的切片后,分別獲得N個特征查詢子向量段、特征鍵子向量段和特征值子向量段并分別按順序編號,對各個相同編號的特征查詢子向量段、特征鍵子向量段和特征值子向量段進行交叉自注意力矯正,獲得各個編號的矯正文本子向量段,最后按編號對各個矯正文本子向量段進行通道維度上的拼接后,獲得矯正文本向量。
如需購買、轉(zhuǎn)讓、實施、許可或投資類似專利技術(shù),可聯(lián)系本專利的申請人或?qū)@麢?quán)人浙江大學,其通訊地址為:310058 浙江省杭州市西湖區(qū)余杭塘路866號;或者聯(lián)系龍圖騰網(wǎng)官方客服,聯(lián)系龍圖騰網(wǎng)可撥打電話0551-65771310或微信搜索“龍圖騰網(wǎng)”。
1、本報告根據(jù)公開、合法渠道獲得相關(guān)數(shù)據(jù)和信息,力求客觀、公正,但并不保證數(shù)據(jù)的最終完整性和準確性。
2、報告中的分析和結(jié)論僅反映本公司于發(fā)布本報告當日的職業(yè)理解,僅供參考使用,不能作為本公司承擔任何法律責任的依據(jù)或者憑證。