國產GPU萬卡集羣終於來了!摩爾線程CEO張建中:做難而正確的事

智東西作者 ZeR0編輯 漠影

“AI主戰場,萬卡是最低標配!”

在2024世界人工智能大會開幕前夕,摩爾線程創始人兼CEO張建中拋出一句擲地有聲的斷言。

爲什麼必須是萬卡?大模型行業變化很快,客戶希望兩週內結束戰鬥,最遲也得在1個月內訓練完。假設訓練一個5000億參數模型,有15TB數據,如果只有1000P算力,3年都訓不完;如果將時間鎖到兩週或1個月,10000P是最低保障。

在海外,擁有1.8萬億參數的GPT-4大模型需要用25000張A100 GPU訓100天,折算成H100則需要1000張;Meta今年推出2個24576張H100集羣,用於訓練Llama 3等新模型;本週馬斯克自曝新版Grok 3訓練用了10萬張H100 GPU。

在國內,萬卡集羣建設高歌猛進。去年7月,華爲昇騰AI集羣規模擴展至16000卡;10月,科大訊飛宣佈啓動萬卡集羣算力平臺“飛星一號”;今年3月,天翼雲上海臨港國產萬卡算力池啓用;4月,中國移動宣佈今年將商用3個自主可控萬卡集羣……一衆雲大廠更是囤卡攢算力專業戶,將大模型訓練集羣規模卷向10萬卡量級。

但基於國產GPU的萬卡方案,還是剛新鮮出爐。

就在昨日,國產GPU公司摩爾線程宣佈其人工智能(AI)旗艦產品誇娥(KUAE)智算集羣解決方案實現重大升級——從千卡擴展至萬卡規模。

這是其首個萬卡萬P萬億國產全功能GPU大模型預訓練平臺,樹立了國產GPU技術的新標杆:

總算力超過10EFLOPS,目標是做到有效計算效率超過60%、穩定性達99%,能支撐萬億參數級大模型訓練。

3個萬卡集羣項目(青海零碳產業園萬卡集羣、青海高原誇娥萬卡集羣、廣西東盟萬卡集羣)在現場進行了戰略簽約。

兩家清華系AI Infra合作伙伴(無問芯穹、清程極智)、兩家大模型大廠合作伙伴(360、京東雲)、一傢俱身智能合作伙伴(智平方科技)的代表先後登臺,對誇娥智算集羣助力其在大模型訓練、推理及具身智能的創新讚譽有加。

加速一切大模型,只是第一步。

張建中說,誇娥萬卡集羣不僅是加速AI,而是想要爲美好世界加速。

一、大模型訓練呼喚萬卡集羣,國產GPU企業坐上牌桌

大模型競賽轟轟烈烈,從研發到應用,從訓練到推理,一切都在瘋狂消耗着算力。

智算中心是大模型訓練的“超級加工廠”,數據量夠多、參數量夠大,訓練出的大模型纔有市場競爭力。對此,張建中總結出三大算力核心需求:

一是Scaling Law持續奏效,假設按線性比例成長,參數規模從百億到萬億有100倍增長,處理數據量從TB到10+TB有10倍提升,兩者相乘,那麼所需算力至少增長1000+倍,需要建立一個單節點超大規模算力集羣來做訓練。

二是算法持續迭代,Transformer架構不能實現大一統,從稠密到稀疏模型,再到多模態模型的融合,多元架構持續演進並共存,面向特定領域設計的專用芯片難以適應未來算法,通用型算力才具備更強的抗風險能力。

三是AI、3D、高性能計算(HPC)跨技術與跨領域融合加速,推動空間智能物理AI和AI for Science、世界模型等領域的邊界拓展,使得大模型的訓練和應用環境更加複雜多元。

這些趨勢對智算集羣提出了多重要求:既要規模夠大,又要通用性強,前者負責支持頂尖大模型巔峰對決,後者順應多元計算融合發展的趨勢,進而催生出對萬卡GPU集羣的迫切渴求。

大模型訓練,唯快不破。

海外頭部AI大廠都步調激進,OpenAI單點集羣有超5萬張H100,谷歌打造了2.6萬張H100組成的AI超算,Meta到今年年底將囤35萬張H100。國內大廠固然也願意豪擲巨資,但被美國一紙限令推入“有錢買不到新算力”的僵局。

而如果沒有萬卡集羣做訓練,好比國產大模型拼命蹬着樸素的三輪,想跟開跑車的海外龍頭同場飆車,逆襲的機率不能說沒有,只能說極低。

甲之砒霜,乙之蜜糖。英偉達入華受阻,給了國產AI芯片備胎轉正的機會。擺在前方的是一座名爲智算需求的金礦,算力供應商們在摩拳擦掌,期待英偉達騰出的大單能落到自己頭上。

摩爾線程則以一家國產GPU企業的身份,率先坐上了建設萬卡集羣的牌桌。

“這是一件難而正確的事情。”張建中說,“我們不能只是一家GPU的公司,一定要成爲一家系統平臺公司。”

創辦於2020年10月的摩爾線程,甫一成立就組建雲計算團隊,設定了建集羣的大方向和策略,並構建了MUSA體系架構,花了大量時間去研究集羣建設中的各種問題,攻堅克難。在大模型潮起後,這一路線更加明確與堅定。

從千卡到萬卡,集羣建設的複雜度指數級增加,是一項超級系統工程。大集羣≠大算力,多卡互聯也絕非簡單的“1+1=2”算術題,非常考驗算網存系統級優化的功力。

暴力堆卡雖然能帶來理論算力總和的暴漲,但如果不能解決技術及工程挑戰,即便手握10000張卡,實際能發揮的算力可能還不及2000卡。而且卡連的越多,出故障的概率也會越大,從硬件設計到集羣研究都要解決穩定性難題。

這就好比帶兵打仗,單人武力值高不等於團隊戰鬥力強,勝敗關鍵看排兵佈陣的策略和高效無縫的配合。每位士兵要驍勇善戰,調兵遣將時需確保通信無阻,後備糧倉和醫藥資源也都得跟上。

對應到萬卡GPU集羣,則是算網存管每一環節都不能有短板,單卡算力要強,組網拓撲結構要設計得效率足夠高,即能有效提升單位功耗的算力,還要有敏捷的故障排查和及時恢復能力,才能確保訓得多、算得快、用得方便,跑得夠穩。

因此,這項系統工程必須翻越六座大山:超大規模組網互聯、集羣有效計算效率、訓練高穩定性與可用性、故障快速定位與可診斷工具、生態Day0級快速遷移、未來場景通用計算。

萬卡集羣造價極高。據張建中分享,幾萬P的智算中心成本高達幾十億,更大算力規模則需投資上百億。如此大的投資,要求集羣不僅擁有強大算力,而且必須具備多年持續服務的能力。設計智算中心時至少要考慮到兩三年後的擴容程度,否則一旦空間和能源受限,規模就很難擴展。

在接受採訪期間,張建中分享到目前智算中心投資回報率是5年左右,而國內芯片研發費用大致相當於美國公司的1/10,在國內可以得到更好的回報,他相信在國內的發展潛力非常巨大。

那麼要打造“國產萬卡萬P萬億大模型訓練平臺”的摩爾線程,具體是怎麼做的?

二、千人團隊耗時四年,構築誇娥萬卡集羣的三道護城河

計算效率、高度穩定、生態兼容,構成了摩爾線程誇娥萬卡智算集羣的三道護城河。

摩爾線程之所以將智算中心全棧方案命名爲“誇娥(KUAE)”,是希望它像傳世典故《愚公移山》中的誇娥氏二子那般不畏艱難,持之以恆,將一塊塊GPU加速卡壘成一個強大的計算集羣。

這是一套以全功能GPU爲底座,軟硬一體化、完整的系統級算力解決方案,包括以誇娥計算集羣爲核心的基礎設施、誇娥集羣管理平臺(KUAE Platform)以及誇娥大模型服務平臺(KUAE ModelStudio),旨在以一體化交付的方式解決大規模GPU算力的建設和運營管理問題。

張建中將誇娥萬卡集羣稱作“新超級工程”。摩爾線程有1000多人、耗時近4年完成了這項工作,希望能夠搭建首箇中國本土通用型的萬卡集羣。

首先有自研全功能GPU,基於GPU做出計算加速卡,再組建成服務器,放進超融合一體機,然後將這樣的4臺機器整合到一個機櫃裡,形成一個小集羣,小集羣連成大集羣,大集羣的線性加速比高於91%。有了這樣一個靈活組合的集羣,客戶就能根據自身建設規劃去擴容每個計算集羣。

軟件也是關鍵落子。把萬卡集羣管理、調試、使用好,做到高效的訓練和推理,需要一個全棧AI軟件。摩爾線程誇娥智算集羣的軟件棧提供了一系列的加速引擎和便捷的管理平臺,並支持用戶進行7×24小時的隨時遠程監控。

“我們建議客戶不要太多DIY,而是採用整體解決方案,這樣可以避免風險,集羣買回去之後馬上就可以用起來。”張建中在接受採訪時談道,自建集羣很有挑戰性,如果專業性不足,從建設到穩定運行都會受影響,而KUAE誇娥是一個“交鑰匙”工程,用戶拿到就能開箱即用。

KUAE誇娥萬卡集羣有五個核心優勢:

1、超大算力,萬卡萬P:單集羣超萬卡,浮點運算能力達到10Exa-Flops,顯存總容量、卡間互聯總帶寬、節點互聯總帶寬均達到PB級,實現算力、顯存和帶寬的系統性協同優化,從而支持萬億參數級大模型的訓練。

2、超高穩定,月級長穩訓練:平均無故障運行時間超過15天,最長穩定訓練30天以上;目標周均訓練有效率逾99%。

穩定無故障,意味着每一位用戶在集羣中的每一秒沒有被浪費,有助於降低計算中心運營成本,並滿足大模型訓練長期迭代的需求。實現軟硬件故障自動檢測,無需人工干預,則有助於實現大型智算中心的無人職守,降本增效。

這得益於摩爾線程自研的一系列可預測、可診斷的多級可靠機制:軟硬件故障的自動定位與診斷預測功能可實現分鐘級故障定位,Checkpoint多級存儲機制可實現內存秒級存儲和訓練任務分鐘級恢復,高容錯高效能的萬卡集羣管理平臺能實現秒級納管分配與作業調度。

3、極致優化,超高MFU:在系統軟件、框架、算法等層面進行一系列優化,希望MFU(集羣有效計算效率,評估大模型訓練效率的通用指標)最高可以達到60%,讓用戶買到的算力能真正發揮效力,而不只是買了一堆硬件。

摩爾線程在系統軟件層面採用計算和通訊效率優化等技術手段,大幅提升集羣的執行效率和性能表現。其自研卡間互連技術MTLink已經到2.0版本,目前用行業裡的交換機芯片來搭建集羣,後期也會考慮與合作伙伴共同研發下一代大規模交換機,持續發展卡間通信。

在框架和算法層面,誇娥萬卡集羣支持多種自適應混合並行策略與高效顯存優化,可根據應用負載選擇並自動配置最優的並行策略,大幅提升訓練效率和顯存利用;針對超長序列大模型,通過CP並行、RingAttention等優化技術,能有效縮減計算時間和顯存佔用,大幅提升訓練效率。

4、計算通用:爲通用場景設計,可加速LLM、MoE、多模態、Mamba等不同架構、不同模態的大模型,能夠緊跟技術演進。

5、生態兼容:過去大部分軟件都是在CUDA平臺上開發,換到新平臺,如何實現來了就能用?這意味着不僅要與國際主流生態兼容,還要擴展中國本土生態,兩條腿一起走路。

因此誇娥智算集羣提供了摩爾線程自研MUSA編程語言,完整兼容CUDA,開源社區和官方網站均可下載Torch MUSA源代碼,並提供自動化遷移工具Musify,以便用戶能在短期內迅速將模型和遷移到MUSA平臺。

“對於目前國內的大模型用戶來看,我們最大的優勢就是生態兼容性很好,基本上當天或者是第二天就可以完成生態遷移並應用起來,對客戶就非常方便,從投入成本來講大大節約了用戶的資源,同時也節約了我們的資源。”張建中說。

據摩爾線程CTO張鈺勃分享,開發者移植到誇娥集羣上,幾乎不需要修改代碼,遷移成本接近0,幾小時之內就能完成遷移工作,調優性能可能花費數天。

除了自研全功能GPU外,摩爾線程也在與國產CPU、操作系統合作,並聯合打造了一個基於中國自主創新技術的PES完美體驗系統聯盟。在張建中看來,這是國外GPU公司無法做到的產品兼容性。

“目前幾乎所有的CPU企業都和我們的GPU完成了適配,我們一個驅動可以支持幾乎所有的CPU,”他談道,“我們希望完美體驗系統讓國內的CPU、操作系統和我們的GPU工作在一起的時候,可以爲客戶提供一個完整且很好的體驗。”

三、AI Infra、大模型、具身智能代表站臺,認證誇娥智算集羣性能高、穩定好用

從實戰經驗來看,摩爾線程也的確賺得了口碑。無問芯穹、清程極智、360、京東雲、智平方等五家合作伙伴登臺,分享摩爾線程誇娥智算集羣如何助力其在大模型訓練、大模型推理、具身智能等不同場景和領域的創新。

今年5月,無問芯穹和摩爾線程完成基於國產全功能GPU千卡集羣,合作訓練出的MT-infini-3B是行業內基於國產GPU從0到1預訓練並開源的第一個大模型,訓練總用時13.2天,在同等參數規模模型中性能躋身前列。這也是雙方合作的起點。

在合作初始階段,無問芯穹還主動設置了一些“爲難”摩爾線程的門檻,故意做了很多在算子或模型結構上的特殊修改。結果,摩爾線程的底層生態兼容性能夠非常快而好地支持這些修改,最終全程穩定訓練不中斷地完成了模型訓練。

無問芯穹正在打造大規模異構混訓系統,實現多元芯片異構混合訓練。摩爾線程是第一家接入並已支持千卡混訓的的國產GPU公司。

清程極智創始人、董事長兼CEO湯雄超提到萬卡大模型訓練集羣面臨三大系統級挑戰:1)算子性能優化,充分發揮單卡計算性能;2)大規模集羣訓練,高效協調多機分佈式計算;3)新興模型架構,靈活應對模型動態需求。

針對這些挑戰,清程極智智能編譯器IntelliGen和高效並行訓練系統FastMoE均已適配MUSA,取得大幅訓練加速,並實現0代碼改動。湯雄超稱讚摩爾線程的GPU硬件架構、指令集、編譯器、MUSA軟件棧等設計都非常優秀,清程極智有信心與摩爾線程一起攻克中國AI超大規模訓練集羣的難題,共同建設世界水平的訓練集羣。

360集團早在2021年就與摩爾線程產品進行技術合作驗證,並啓動360與GPU相關產品的適配。繼去年與摩爾線程實現一體機合作、適配及技術驗證後,360企業大模型產品在今年與摩爾線程擴大合作,希望共同打造一個基於國產算力加國產大模型的聯合解決方案。

在摩爾線程誇娥千卡集羣上,360分別部署70億、700億參數大語言模型,全程軟硬件即插即用,工作有效訓練時間佔比100%;全程穩定無軟硬件故障,集羣有效訓練時間佔比100%。

京東基於摩爾線程誇娥集羣完成Chatglm2-6B、Qwen-14B、baichuan2-13B的大模型推理測試,性能超過一些國際主流計算卡。

在Chatglm2-6B推理測試中,S4000的單卡推理性能是RTX 4090D性能的1.26倍,其他兩個模型中,基於S4000性能均能達到RTX 4090D性能的90%左右。

智平方科技是一家機器服務公司,致力於將多模態模型的能力賦能給不同類型的智能終端與智能機器人。這家通用智能代表企業與摩爾線程共同探索了基於國產算力的多模態大模型高效訓練,併合作研發了一些特定的算子和優化卡間通信、彈性調度的方案。

國產萬卡集羣的落地有望對AI行業產生許多積極影響,從縮短模型訓練週期、加快商業落地到降低創業門檻,最終催化整個生態的繁榮。

在張建中看來,要挑戰英偉達,難點主要在市場的推廣、用戶的生態適配和生態發展,需要全行業生態合作伙伴的共同努力,包括算力供應商、建設方、軟件服務以及做增值服務的合作伙伴。但他相信,給客戶極致性價比、先進的技術、最優質的服務,一定會讓客戶滿意。

結語:GPU成爲加速新技術浪潮的創新引擎

在加快形成新質生產力、開展“人工智能+”行動等戰略指引下,我國AI落地進程正在提速,推動更多行業邁向數字化、智能化轉型升級,並帶動以GPU爲核心的智算中心的建設與發展。

張建中坦言,GPU在整個計算服務器中的佔比依然很低,不到10%,但未來這一佔比將會提升。今年很多統計報告都顯示新增加的算力來自於GPU,足見GPU算力的需求量非常強勁。

“我們正處在生成式AI的黃金時代,技術交織催動智能涌現,GPU成爲加速新技術浪潮來臨的創新引擎。”在他看來,此刻正是歷史性的創造進程,而摩爾線程矢志投身,爲融合AI和數字孿生的數智世界打造先進的加速計算平臺。

據他分享,摩爾線程是國內唯一一家用全功能GPU去實現各方面通用加速計算能力的公司,用4年時間將GPU的3D/2D圖形圖像、視頻編解碼、科學計算、物理仿真、數字孿生、AI訓練及推理能力都做了提升,能爲客戶提供一個更好的、可選擇的國產化工具,並使得智算中心能支持更廣泛的應用場景,提高長期抗風險能力。

隨着誇娥智算集羣從千卡向萬卡無縫擴展,摩爾線程的全棧AI戰略正在填上一塊重要拼圖。

“一旦我們把Scaling的問題解決了,這個對行業來說就解決了最難做的事情。”張建中說,在建好萬卡集羣后,摩爾線程將建設更大規模的集羣,希望通過全功能通用加速計算平臺,給行業提供更多的選擇,催生開發者更多的想象力和創意。