賽道Hyper | 英特爾芯片設計之變
作者:周源/華爾街見聞
9月25日,英特爾正式推出AI加速卡Gaudi 3和“Granite Rapids”Xeon 6(至強6,服務器CPU)。
Gaudi 3對標英偉達H100和AMD的Instinct MI300,用於GAI和HPC;Xeon 6專爲人工智能和高性能計算場景設計。
雖弱但強?怎麼理解?
今年4月,英特爾就宣佈,將於今年四季度推出Gaudi 3,現在,市場終於可以看到這顆英特爾傾盡全力研發的AI加速卡的實際性能,究竟有多強。畢竟,英特爾要靠這顆芯片正面PK英偉達廣受市場歡迎的H100加速卡。
除了選用HBM2E(第三代)作爲存儲中心,較爲令人迷惑——H100用的是HBM3(H100 SXM5 GPU是全球首款使用HBM3內存的GPU,提供了高達3 TB/s的內存帶寬),其他的性能升級,至少從參數看,還是非常驚人的。
Gaudi 3採用臺積電5nm製程工藝,擁有兩個芯片組:每個芯片組各有4個(合計8個)MME(矩陣乘法引擎),包含64個張量處理器核心(TPC,帶有FP32累加器的256x256 MAC結構);SRAM緩存容量翻番至96MB,帶寬翻倍至19.2TB/s;HBM2E內存容量從96GB增加到128GB(8顆),帶寬爲3.7TB/s。
與前代Gaudi 2相比,在物理配置上,Gaudi 3也有明顯的大幅提升。Gaudi 2用了臺積電7nm工藝,有24個TPC、2個MME和96GB HBM2E高帶寬內存。但不知出於何種考慮,英特爾Gaudi 3僅支持FP8矩陣運算和BFloat16矩陣和矢量運算,不再支持FP32、TF32和FP16。
性能方面,Gaudi 3的MME和矢量BF16的參數都趕不上英偉達H100。
Gaudi 3的MME BF16/FP8都是1835 TFlops(1.835億億次/秒),矢量BF16能達到28.7 TFlops(28.7萬億次/秒),分別比Gaudi 2提升3.2倍、1.1倍和1.6倍;但是英偉達H100的這三項性能參數分別爲BF16的1979 TFlops(高於1835 TFlops)、FP8的3958 TFlops和1979TFlops。
在覈心性能參數上,Gaudi 3和英偉達H100的差距肉眼可見。但是,英特爾卻宣稱,Gaudi 3比H100的LLM大模型推理性能領先50%、訓練時間快40%,綜合性價比是英偉達的兩倍。
這是怎麼做到的呢?是不是英特爾的軟件能力(尤其是軟件開發配套工具)和AI生態比英偉達更強?畢竟硬件性能需要強悍的軟件能力,以及完善的生態做配合,才能充分激發。
對此,英特爾沒有做過多解釋,其宣稱比英偉達更強的證據,僅是幾張PPT。因此,是否真能像英特爾說的那樣,還需要市場和時間驗證。
唯一讓市場對英偉達高度自信有信心的是售價。今年早些時候,英特爾表示,基於八顆Gaudi 3的AI加速器套件,售價12.5萬美元。也就是說,每顆Gaudi 3售價約15,625美元。相比之下,H100目前售價爲30,678美元,英特爾Gaudi 3的價格是英偉達H100的50.93%。
至少英特爾高層也承認生態的價值,認知還是相當全面的。
英特爾執行副總裁兼數據中心和人工智能事業部總經理 Justin Hotard 說,“對AI的需求正在推動數據中心發生巨大轉變,業界要求在硬件、軟件和開發工具方面做出選擇。隨着我們推出配備P核的Xeon 6和Gaudi 3 AI加速器,英特爾正在建立一個開放的生態系統,使我們的客戶能夠以更高的性能、效率和安全性實施所有工作負載。”
從這個表態可以看出,英特爾的AI加速卡生態也在構建過程中。開發配套軟件方面,Gaudi 3能無縫兼容PyTorch框架、Hugging Face Transformer和擴散模型;同時,Gaudi 3會提供給IBM Cloud和英特爾Tiber開發者雲。
此外,Gaudi 3加速器提供三種部署形態,分別是OAM 2.0標準夾層卡,被動散熱峰值功耗900W,液冷散熱峰值功耗1200W;HLB-325通用基板,功耗未知;HL-338擴展卡,PCIe 5.0 x16接口,被動散熱峰值功耗600W。
基於英特爾Gaudi 3的系統將於今年第四季度從戴爾、HPE和超微全面上市,戴爾和超微的系統將於10月出貨,超微的設備將於12月出貨。
設計思路向聯發科看齊?
同一日,英特爾還發布了宣稱過久卻遲遲不露面,故而快被遺忘的“Granite Rapids”Xeon 6(CPU)。
好在9月25日,“Granite Rapids”服務器 CPU 系列的高端產品終於登臺,市場認爲,“Granite Rapids”Xeon 6與今年6月發佈的“Sierra Forest”Xeon 6芯片組合起來,還是能打的,起碼能降低英特爾在IDC(數據中心)領域的市場損失。
儘管這個結果不那麼好——推出一顆新的性能強勁的處理器,作用僅僅是降低損失,這無論怎麼說,都有點令人沮喪。但是,英特爾的對手——AMD現在對英特爾來說,後者難以在技術、成本、性能和市場等維度做到超越,故而若能減少損失,這結果已經相對理想。
由於Xeon 6的E核(能耗)和P核(性能)變體的芯片封裝和架構,在2023年的Hot Chips 2023已經公開,所以實際上,對“Granite Rapids”Xeon 6來說,性能提升的亮點就9月25日披露的信息看,最鼓舞至少是英特爾公司信心,部分讓市場看到希望的亮點,是——Xeon 6提升了設計水平。
芯片設計水平能決定最終的性能表現,芯片設計最難的部分是取捨,這取決於對特定芯片定位、性能、技術水平、成本、競爭和市場需求度等極多維度的綜合考慮。
比如聯發科技設計旗艦芯片的核心考慮是要在保持相對低功耗的基礎上,再考慮性能提升;而高通更追求高性能,不像聯發科那麼極度追求功耗平衡,所以之前推出了飽受市場詬病的火龍芯片。
英特爾的芯片設計考慮,有點類似於聯發科。比如IPC(每時鐘指令數)常被用來衡量CPU性能的重要指標。那麼在芯片設計時,無限制提升IPC是可取的嗎?
別忘了還有能耗限制。雖然臺式機或者服務器,對能耗的容忍度更高,但也會綜合考慮能耗成本。此時應該如何選擇?
最近,英特爾高級研究員兼Xeon 6產品線首席架構師Ronak Singhal對這個話題有過一番解釋, 核心觀點就一個,英特爾Xeon 6的設計思路是降低能耗,同時再儘可能的保持高性能,故而不過分追求IPC。
這個設計指導思路的結果就是,“Granite Rapids”Xeon 6,英特爾將核心數量從之前的兩顆P核的56個核心提升至120個,增加2.3倍,而頂部部分的功率僅增加至500W,僅增加1.4倍。
總的來說,Xeon 6的性能特性很多,比如超核心數(UCC)變體,即Xeon 6 6900P,具有高達504 MB的L3緩存,遠超通常的英特爾芯片緩存容量。但是Xeon 6也有很奇特的設計,比如不支持支持四路和八路服務器的變體,這和Gaudi 3使用HBM2E一樣令人困惑。