之江實驗室楊如丹獲國家專利權
買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監控用IP管家,真方便!
龍圖騰網獲悉之江實驗室申請的專利一種面向集合通信的模型訓練故障診斷方法和系統獲國家發明授權專利權,本發明授權專利權由國家知識產權局授予,授權公告號為:CN120316517B 。
龍圖騰網通過國家知識產權局官網在2025-08-22發布的發明授權授權公告中獲悉:該發明授權的專利申請號/專利號為:202510806905.6,技術領域涉及:G06F18/214;該發明授權一種面向集合通信的模型訓練故障診斷方法和系統是由楊如丹;程宏才;薛輝;王琪;陳培俊;胡永新;林志文設計研發完成,并于2025-06-17向國家知識產權局提交的專利申請。
本一種面向集合通信的模型訓練故障診斷方法和系統在說明書摘要公布了:本發明公開了一種面向集合通信的模型訓練故障診斷方法和系統,屬于人工智能和分布式計算領域。所述方法包括:在torch_plugin插件中植入觸發計數統計集合通信原語的觸發次數;在通信庫中加入處理集合任務的完成信息,包含各種集合通信原語的計數及收發數據量,并向torch_plugin注冊查詢接口;最后在模型訓練的不同RANK進程中預先啟動單獨的故障診斷分析線程,按照設定的采樣間隔,收集不同節點上由上層訓練下發的集合通信原語的任務計數和集合通信層實際完成的任務計數、集合通信層完成的收發數據量,分析診斷出模型訓練異常時的故障信息。本發明適用于大規模分布式訓練場景,能夠提升模型訓練任務的故障排查效率。
本發明授權一種面向集合通信的模型訓練故障診斷方法和系統在權利要求書中公布了:1.一種面向集合通信的模型訓練故障診斷方法,其特征在于,包括以下步驟: 接收模型訓練任務后,通過在torch_plugin插件中植入計數統計函數,以收集模型訓練中調用的不同原語信息,統計得到模型訓練上層軟件下發集合通信原語的次數; 在下層通信庫中加入處理集合通信原語任務的完成計數,并向torch_plugin注冊查詢接口;所述完成計數包括已完成集合通信原語的次數以及實際集合通信過程中的收發數據量; 針對模型訓練過程中不同的進程,預先啟動單獨的故障診斷分析線程,按照預設的采樣間隔,通過分布式系統收集上層軟件下發集合通信原語的次數和下層通信庫中統計的已完成集合通信原語的次數以及實際集合通信過程中的收發數據量,分析得到模型訓練異常時的故障信息診斷。
如需購買、轉讓、實施、許可或投資類似專利技術,可聯系本專利的申請人或專利權人之江實驗室,其通訊地址為:311121 浙江省杭州市余杭區中泰街道科創大道之江實驗室;或者聯系龍圖騰網官方客服,聯系龍圖騰網可撥打電話0551-65771310或微信搜索“龍圖騰網”。
1、本報告根據公開、合法渠道獲得相關數據和信息,力求客觀、公正,但并不保證數據的最終完整性和準確性。
2、報告中的分析和結論僅反映本公司于發布本報告當日的職業理解,僅供參考使用,不能作為本公司承擔任何法律責任的依據或者憑證。