福建帝視科技集團有限公司陳彬獲國家專利權
買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監控用IP管家,真方便!
龍圖騰網獲悉福建帝視科技集團有限公司申請的專利一種基于擴散模型的文本條件引導的圖像外擴方法與終端獲國家發明授權專利權,本發明授權專利權由國家知識產權局授予,授權公告號為:CN120259113B 。
龍圖騰網通過國家知識產權局官網在2025-08-22發布的發明授權授權公告中獲悉:該發明授權的專利申請號/專利號為:202510741426.0,技術領域涉及:G06T5/60;該發明授權一種基于擴散模型的文本條件引導的圖像外擴方法與終端是由陳彬;周遠波;鄧煒;高欽泉;童同設計研發完成,并于2025-06-05向國家知識產權局提交的專利申請。
本一種基于擴散模型的文本條件引導的圖像外擴方法與終端在說明書摘要公布了:本發明的一種基于擴散模型的文本條件引導的圖像外擴方法與終端,接收用戶傳入的原始圖像,針對原始圖像,利用預訓練的多模態大語言模型生成外擴文本條件;對原始圖像進行特征編碼,生成圖像特征,對外擴文本條件進行特征編碼,生成文本特征;將圖像特征以及文本特征輸入預訓練的基于雙UNet網絡的潛在擴散模型,基于潛在擴散模型生成外擴圖像;本發明引入多模態大語言模型生成文本條件,使外擴內容符合語義邏輯,提升合理性與美觀度;雙UNet結構將文本語義與原始圖像特征分模塊處理,避免單UNet交叉注意力負擔過重,增強外擴內容與原圖的語義連貫性;通過數據增強與雙UNet架構,支持圖像任意像素外擴,突破生成對抗網絡的外擴范圍限制。
本發明授權一種基于擴散模型的文本條件引導的圖像外擴方法與終端在權利要求書中公布了:1.一種基于擴散模型的文本條件引導的圖像外擴方法,其特征在于,包括步驟: S1、接收用戶傳入的原始圖像,針對所述原始圖像,利用預訓練的多模態大語言模型生成外擴文本條件; S2、對所述原始圖像進行特征編碼,生成圖像特征,對所述外擴文本條件進行特征編碼,生成文本特征; S3、將所述圖像特征以及所述文本特征輸入預訓練的基于雙UNet網絡的潛在擴散模型,基于所述潛在擴散模型生成外擴圖像; 所述潛在擴散模型采用雙UNet網絡,包括凍結原始參數的凍結UNet網絡以及經過預訓練的可訓練UNet網絡; 步驟S3包括步驟: 將所述文本特征注入所述凍結UNet網絡的交叉注意力模塊,將圖像特征輸入所述可訓練UNet網絡的交叉注意力模塊,并通過零卷積層組合兩層UNet的特征,逐步去噪生成外擴潛變量; 通過解碼器將所述外擴潛變量解碼為外擴圖像; 所述潛在擴散模型的構建包括: 獲取開源UNet網絡,并針對所述開源UNet網絡生成副本,將所述開源UNet網絡凍結參數,作為凍結UNet網絡,所述開源UNet網絡的副本用于接受訓練,作為可訓練UNet網絡; 所述凍結UNet網絡與所述可訓練UNet網絡之間通過零卷積進行連接,且采用不同的輸入,所述凍結UNet網絡輸入潛噪聲向量,所述可訓練UNet網絡輸入潛噪聲向量、掩碼圖像的潛在表示以及下采樣后的二值掩碼; 所述凍結UNet網絡與所述可訓練UNet網絡之間每一層交互的計算公式為: ; ; 其中,表示所述潛在擴散模型第層的輸出特征,與分別表示凍結UNet網絡和可訓練UNet網絡的第n層輸出特征,代表擴散過程加噪的步數,zt是第t步加噪得到的潛噪聲向量,代表零卷積層,是調節兩個網絡交互強度的參數,表示變分自編碼器VAE中的編碼器,m表示下采樣后的二值掩碼,表示原始圖像通過四周補零得到目標外擴圖像大小的掩碼圖像,表示掩碼圖像特征,E I表示所述原始圖像經過特征編碼生成的圖像特征,E T表示所述外擴文本條件經過特征編碼生成的文本特征。
如需購買、轉讓、實施、許可或投資類似專利技術,可聯系本專利的申請人或專利權人福建帝視科技集團有限公司,其通訊地址為:350002 福建省福州市鼓樓區洪山鎮洪山園路華潤萬象城三期TB#寫字樓16層01單元;或者聯系龍圖騰網官方客服,聯系龍圖騰網可撥打電話0551-65771310或微信搜索“龍圖騰網”。
1、本報告根據公開、合法渠道獲得相關數據和信息,力求客觀、公正,但并不保證數據的最終完整性和準確性。
2、報告中的分析和結論僅反映本公司于發布本報告當日的職業理解,僅供參考使用,不能作為本公司承擔任何法律責任的依據或者憑證。