吉林大學周豐豐獲國家專利權
買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監控用IP管家,真方便!
龍圖騰網獲悉吉林大學申請的專利一種基于生成對抗網絡的蛋白質翻譯后修飾數據增強方法獲國家發明授權專利權,本發明授權專利權由國家知識產權局授予,授權公告號為:CN120412756B 。
龍圖騰網通過國家知識產權局官網在2025-08-29發布的發明授權授權公告中獲悉:該發明授權的專利申請號/專利號為:202510920403.6,技術領域涉及:G16B40/00;該發明授權一種基于生成對抗網絡的蛋白質翻譯后修飾數據增強方法是由周豐豐;徐藝萍;李柯薇;范雨思;王月英;王楚越設計研發完成,并于2025-07-04向國家知識產權局提交的專利申請。
本一種基于生成對抗網絡的蛋白質翻譯后修飾數據增強方法在說明書摘要公布了:本發明適用于蛋白質組學技術領域,提供了一種基于生成對抗網絡的蛋白質翻譯后修飾數據增強方法。本發明可有效緩解類別不平衡、增強陽性樣本識別能力,通過改進型聚類增強條件生成對抗網絡(RP?CGAN)生成少數類偽樣本,結合ESM?2預訓練蛋白質語言模型提取特征,提升陽性樣本識別能力與泛化能力;融合ESM?2特征提取與RP?CGAN數據增強技術,提升整體預測性能與分類穩定性,多分類器關鍵指標顯著提升;經多維指標篩選與自適應調控,確保增強數據與真實分布相近;借助輕量化架構與收斂策略,優化訓練效率與模型穩定性;具備強穩定性與跨領域潛力,可遷移至其他蛋白質修飾預測任務,并具備跨領域不平衡分類場景中的應用潛力。
本發明授權一種基于生成對抗網絡的蛋白質翻譯后修飾數據增強方法在權利要求書中公布了:1.一種基于生成對抗網絡的蛋白質翻譯后修飾數據增強方法,其特征在于,包括以下步驟: 步驟S1:數據預處理與特征提取; 讀取蛋白質序列文件,劃分訓練集與測試集,采用ESM-2預訓練蛋白質語言模型進行特征編碼,生成標準化特征向量; 步驟S2:聚類增強型條件生成對抗網絡的樣本增強; 構建由生成器和判別器組成的RP-CGAN模型;生成器輸入包含隨機噪聲向量、目標類別標簽及通過K均值聚類生成的類別中心向量,輸出目標類別偽樣本;判別器采用雙輸出結構,分別判斷樣本真實性與類別標簽,結合Softplus相對對抗損失、二分類交叉熵損失及梯度正則項優化訓練穩定性; 步驟S3:偽樣本篩選; 應用訓練完成的RP-CGAN模型生成超出目標數量的偽樣本,通過多指標約束的篩選機制,選擇與真實樣本分布最接近的偽樣本; 步驟S4:分類器訓練與評估; 將真實訓練數據與篩選后的偽樣本合并,輸入分類器進行訓練,優化分類性能; 步驟S5:預測輸出; 使用訓練好的分類器對新蛋白質序列進行預測,輸出修飾位點概率得分; 所述RP-CGAN模型的生成器設計包括: 輸入條件為隨機噪聲向量z~N0,1、類別標簽yc∈{0,1+及通過K均值聚類獲取的類別中心向量通過聯合輸入拼接機制生成近似于真實分布的樣本 所述類別中心向量的生成步驟包括: 對少數類和多數類樣本分別進行K均值聚類,通過DBI指標確定最優聚類簇數;提取少數類與多數類的最優聚類中心作為生成器的先驗條件輸入; 所述偽樣本篩選步驟包括: 通過混淆矩陣計算敏感性與特異性,動態確定偽樣本增強數量n*;使用生成器生成m×n*個偽樣本;利用AutoEncoder構建特征空間,計算偽樣本與真實樣本的皮爾遜相關系數、歐氏距離和最小均方誤差三類距離指標,對三類距離指標進行歸一化并加權融合,得到綜合得分;選擇綜合得分最低的前n*個偽樣本,構成最終增強樣本集合
如需購買、轉讓、實施、許可或投資類似專利技術,可聯系本專利的申請人或專利權人吉林大學,其通訊地址為:130012 吉林省長春市朝陽區前進大街2699號;或者聯系龍圖騰網官方客服,聯系龍圖騰網可撥打電話0551-65771310或微信搜索“龍圖騰網”。
1、本報告根據公開、合法渠道獲得相關數據和信息,力求客觀、公正,但并不保證數據的最終完整性和準確性。
2、報告中的分析和結論僅反映本公司于發布本報告當日的職業理解,僅供參考使用,不能作為本公司承擔任何法律責任的依據或者憑證。