鵬城實驗室王耀威獲國家專利權
買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監控用IP管家,真方便!
龍圖騰網獲悉鵬城實驗室申請的專利一種多模態視覺語言理解與定位方法、裝置、終端及介質獲國家發明授權專利權,本發明授權專利權由國家知識產權局授予,授權公告號為:CN116091836B 。
龍圖騰網通過國家知識產權局官網在2025-08-08發布的發明授權授權公告中獲悉:該發明授權的專利申請號/專利號為:202310152704.X,技術領域涉及:G06V10/764;該發明授權一種多模態視覺語言理解與定位方法、裝置、終端及介質是由王耀威;肖麟慧;楊小汕;徐常勝;彭芳;胡孟豪設計研發完成,并于2023-02-09向國家知識產權局提交的專利申請。
本一種多模態視覺語言理解與定位方法、裝置、終端及介質在說明書摘要公布了:本發明公開了一種多模態視覺語言理解與定位方法、裝置、終端及介質,包括:構建視覺語言理解與定位模型;對未標注的圖像數據進行處理,生成多個偽標簽源;分別學習每一個源的視覺語言理解與定位模型;根據多源自步自適應算法,依據每一個源的表達文本的平均實體數由易到難逐步選擇全部偽數據源;根據所述多源自步自適應算法,對圖像和偽標簽的每個配對數據進行樣本實例級可靠性計算,通過可靠性評估器選擇、可靠性閾值選擇以及貪心算法獲得最優樣本子集,根據最優樣本子集學習最優的視覺語言理解與定位模型;本發明提出無監督的視覺語言理解與定位方法,可以基于多源偽標簽對多模態基礎大模型CLIP進行自適應,以解決無監督視覺定位的問題。
本發明授權一種多模態視覺語言理解與定位方法、裝置、終端及介質在權利要求書中公布了:1.一種多模態視覺語言理解與定位方法,其特征在于,包括: 構建視覺語言理解與定位模型; 對未標注的圖像數據進行處理,生成多個偽標簽源; 分別學習每一個偽標簽源的視覺語言理解與定位模型,并將學習到的模型作為可靠性評估器;其中,所述可靠性評估器用于評估并獲得樣本的特定源可靠性和跨源可靠性; 根據多源自步自適應算法,依據每一個偽標簽源的表達文本的平均實體數對多個所述偽標簽源進行排序,由易到難逐步選擇全部偽數據源; 根據所述多源自步自適應算法,在每一個當前選擇的偽數據源中,分別從特定源可靠性和跨源可靠性對圖像和偽標簽的每個配對數據進行樣本實例級可靠性計算,通過固定可靠性閾值、固定可靠性評估器的方式,依次選出最優可靠性評估器和最優可靠性閾值; 以貪心的方式篩選出當前源偽樣本數據并添加至總樣本子集,逐步擴大并獲得最優樣本子集,根據最優樣本子集學習最優的視覺語言理解與定位模型; 所述對未標注的圖像數據進行處理,生成多個偽標簽源,包括: 通過目標檢測器對所述未標注的圖像數據進行處理,生成模板表達偽標簽源; 通過場景圖生成器對所述未標注的圖像數據進行處理,生成關系表達偽標簽源; 通過圖像標題生成器對所述未標注的圖像數據進行處理,生成標題表達偽標簽源。
如需購買、轉讓、實施、許可或投資類似專利技術,可聯系本專利的申請人或專利權人鵬城實驗室,其通訊地址為:518000 廣東省深圳市南山區興科一街2號;或者聯系龍圖騰網官方客服,聯系龍圖騰網可撥打電話0551-65771310或微信搜索“龍圖騰網”。
1、本報告根據公開、合法渠道獲得相關數據和信息,力求客觀、公正,但并不保證數據的最終完整性和準確性。
2、報告中的分析和結論僅反映本公司于發布本報告當日的職業理解,僅供參考使用,不能作為本公司承擔任何法律責任的依據或者憑證。