光時代,CPO會是英偉達的下一個“宏大敘事”嗎?

《科創板日報》1月19日訊 GPU新品出現散熱問題、大客戶訂單受影響,這些天的英偉達,或許並不好過。想要保住“算力霸主”的寶座,這家巨頭亟需一劑良藥。

日前有消息稱,英偉達將在今年3月的GTC大會上推出CPO交換機,若試產順利,則有望8月量產,屆時CPO交換機可實現115.2T的信號傳輸。

媒體援引供應鏈猜測稱,“針對(CPO交換機)產能,英偉達非常着急。”

雖然黃仁勳對外宣稱供貨一切順利,但目前GB200系列出貨實在不容樂觀。GB200 NVL72機櫃設計複雜,高性能計算帶來了高功耗及高散熱需求。零部件廠商表示,單機櫃問題已經“大致解決”,但多機櫃連接問題“巨大”——機櫃連接需要高達8萬根銅線,散熱、信號干擾等問題陸續浮現。

這不是聳人聽聞的誇大其辭——散熱和連接的巨大問題,已經影響到了英偉達那些頂級大客戶的訂單。

本週有另一報道指出,微軟、亞馬遜、谷歌和Meta等公司已經選擇推遲Blackwell訂單、或直接“棄B(Blackwell)投H(Hopper)”。一方面,GB200的功耗“前所未有得高”,每個機櫃功耗高達120-132千瓦,直接將傳統冷卻系統推向極限。另一方面,Blackwell機櫃還出現連接故障,妨礙了熱量分配,又進一步加劇了熱管理問題。

散熱互連問題步步緊逼,英偉達拿什麼解決?芯片級優化,更先進的冷卻方案,還是徹底改造機櫃?

這一次,光通信或許成爲現階段的最佳技術解藥,英偉達將目光投向了CPO。

▌7年千倍成長空間與172% CAGR

爲什麼是CPO?

CPO全稱爲Co-Packaged Optics,中文譯爲光電共封裝,是一種新型光電子集成技術。通過進一步縮短光信號輸入和運算單位之間的電學互連長度,CPO在提高光模塊和ASIC芯片之間互連密度的同時,實現了更低功耗,已成爲解決未來數據運算處理中海量數據高速傳輸問題的重要技術途徑。

在2023年2月發表的一篇研究論文中,英偉達研究人員曾直言,“現在,隨着CPO面世,我們正處於新一場重大變革的邊緣。在CPO架構中,光學器件將和ASIC封裝在一起,以降低能耗、實現更高帶寬。雖然十年前CPO就已開啓系統部署,但最近的一系列研究演示以及相關產品說明都表明,未來幾年,CPO將得到市場廣泛採用。”

摩根士丹利在最新發布的AI供應鏈產業報告中指出,CPO具備AI數據中心的傳輸潛力,預估2023年至2030年期間,其市場規模將從800萬美元激增至93億美元——7年千倍的成長空間,年複合成長率高達172%。

此前有消息稱,英偉達計劃從2025年下半年推出的GB300芯片開始採用CPO,Rubin平臺(Blackwell下一代平臺)也將採用該技術,旨在突破目前NVLink 72互連(最多可連接72個GB200芯片)的限制,提升通信質量。

大摩的報告則指出,英偉達的Rubin平臺及其NVL服務器機櫃系統,在導入CPO的能見度更高,且每系統中的內含價值更高,預估2027年佔全球CPO需求的75%。

▌與巨頭同行

不論如何,CPO這條路,英偉達也許是選對了,從AMD、思科、IBM到英特爾,都是同行者。

例如1月6日,美國芯片大廠Marvell(美滿電子)宣佈,公司在定製AI加速器架構上取得突破,整合了CPO技術,大幅提升服務器性能。這種新架構能讓AI服務器能力實現拓展,從目前使用銅互連的單個機架內的數十個XPU,拓展到橫跨多個機架的數百個XPU。通過這一架構,超大雲服務商將能開發定製XPU,實現更高的帶寬密度,並在單個AI服務器內提供更長距離的XPU到XPU連接,同時具有最佳延遲和功率效率。

2024年末IBM宣佈實現一項重大CPO技術突破,可以以“光速”訓練AI模型,同時節省大量能源。根據IBM結論,這項CPO技術可以將標準大模型的訓練時間從3個月縮短至3周;並且,與中端電氣連接相比,能耗降低了5倍多,數據中心互連電纜的長度可以從1米延伸至數百米,大幅降低拓展生成式AI的成本。

除此之外,英特爾、AMD、思科等均有在近年OFC展上推出CPO原型機。

▌還有多遠?

站在當下節點,CPO這根“稻草”能救得了英偉達嗎?

或許還需要等待。

在1月16日的投資者會議上,作爲英偉達CPO合作伙伴臺積電的董事長,魏哲家表示,雖然CPO已經有初步成果(Good Result),但想要達到量產階段仍需要1年甚至1年半以上時間。

另有媒體援引分析師表述稱,CPO進度將影響英偉達Rubin系列的量產進程。供應鏈透露,目前“量產確實有難度,尤其是在設備部分仍相當吃緊,另外良率也有待提升”。

值得一提的是,1月16日,針對GB200服務器散熱問題,黃仁勳表示,Blackwell平臺散熱技術相對複雜,不過Blackwell系統已開始全面量產,初期面對的挑戰對比系統的複雜度,是很正常的,Blackwell系統已開始銷售給全球客戶。