騰訊發佈星脈網絡2.0:大模型訓練效率相比上代提升20%
騰訊昨日發佈其自研星脈網絡 2.0 版本,升級後的星脈網絡支持單集羣 10 萬卡組網,網絡通信效率比上一代提升 60%,大模型訓練效率提升 20%,故障定位從天級降低至分鐘級。
IT之家獲悉,騰訊自研交換機從 25.6T 升級到 51.2T,容量提升一倍;自研硅光模塊從 200G 升級到 400G,速率提升一倍;搭載自研算力網卡;整機通信帶寬 3.2T,爲業界最高。
騰訊自研全新通信協議 TiTa2.0 的部署位置從交換機轉移到了網卡上,擁塞算法也從被動擁塞算法升級爲主動擁塞控制算法,將星脈網絡的通信效率提升 30%,讓大模型的訓練效率提升 10%。
騰訊全新高性能集合通信庫 TCCL2.0 採用 NVLINK+NET 異構並行通信,實現數據的並行傳輸。Auto-Tune Network Expert 自適應算法可以根據機型、網絡規模、模型算法等差異,自動調整數據包分割大小、匹配算法等參數。星脈網絡通信性能提升 30%,讓大模型的訓練效率再提升 10%。
TiTa 與 TCCL 升級帶來的效果疊加,讓星脈網絡的通信效率共提升 60%,大模型訓練效率共提升 20%。
本文源自:IT之家