相當於5個H100!英偉達最新王牌B200讓全世界用上AI?
出品丨本站科技《態度》
作者丨趙芙瑤
編輯丨丁廣勝
皮衣教主又殺回來了!
在今日的英偉達GTC(GPU技術大會)上,黃仁勳再次炸場,每個產品的發佈與更新都讓現場掌聲連連。英偉達新一代Blackwell架構來了;“一個頂五個”的B200來了;“讓全世界用上AI”的AI推理微服務NIM也來了!讓我們一起來回顧這一場吸引全球目光、號稱標誌着“新工業革命”引擎誕生的發佈會。
1. 黃仁勳:新時代的喬布斯
有了生成式AI的加持,黃仁勳此次的演講像是一場科幻電影,無論是現場播放的由Backwell製作的影像片段,還是黃教主現場與九個機器人的互動,都讓現場的科技感、沉浸感、未來感直線拉滿。
去年黃仁勳喊出 AI 的“iPhone 時刻”已經到來,生成式 AI 不斷開始改寫我們的日常生活,而今天的一系列發佈,更是表明改寫的速度正在指數級上升。
英偉達高級科學家 Jim Fan 現場調侃黃仁勳是新的泰勒 · 斯威夫特,因爲現場人滿爲患如演唱會一般,然而黃教主用兩個小時的時間,讓觀衆明白了或許他纔是新時代的喬布斯。
2. 性能翻30倍的世界最強GPU來了
黃教主帶來了第一張王牌就是Blackwell架構,黃仁勳稱這顆芯片的名字來自數學家、博弈論家、概率論家 David Blackwell。基於Blackwell架構的Blackwell B200 GPU在性能上翻了30倍,帶來了驚人的計算能力。
Blackwell架構下的計算芯片擁有1040億個晶體管,比上一代GH100 GPU的800億個晶體管實現了重大突破。而且,Blackwell B200並非傳統意義上的單一GPU,而是由兩個Blackwell GPU組合而成。通過10 TB/s NV-HBI(Nvidia高帶寬接口)連接,確保每個芯片都能獨立運行。
因此,B200實際上擁有2080億個晶體管,能夠提供高達20 petaflops的FP4算力。其中,兩個GPU與單個Grace CPU相結合的GB200可將LLM(大語言模型)的推理效率提升30倍。
在GPT-3 LLM基準測試中,GB200的性能是H100的七倍,訓練速度提高了4倍。第二代Transformer引擎、第五代NVLink高速互聯、Ras Engine等技術的引入,更是讓英偉達的產品在AI計算領域更加“所向披靡”。
3. GB200超級芯片:創造歷史的推理加速
GB200超級芯片是兩個B200 GPU與Grace CPU結合的產品,成爲推理加速的新“核彈”。它不僅可以加速推理,同時在成本和能源消耗上也實現了突破。
黃仁勳在現場介紹道,B200採用雙芯片設計,晶體管數量達到2080億個,單GPU AI性能達20 PFLOPS。兩個B200 GPU與Grace CPU結合組成最強AI芯片GB200,通過900GB/s的超低功耗NVLink芯片間互連技術連接。在標準的1750億參數GPT-3基準測試中,GB200的性能是H100的7倍,提供的訓練算力是H100的4倍。
另外,英偉達此次還帶來了全新加速計算平臺DGX GB200 NVL72,搭載18個GB200,單機架即可達到每秒千萬億次級別的精度計算。相比72個H100,GB200 NVL72推理性能提升30倍,成本和能耗降低25倍。一個GB200 NVL72機櫃可訓練27萬億參數的模型,足以支持15個GPT-4模型。
黃仁勳表示,DGX Grace-Blackwell GB200已經超過1 Exaflop的算力。這意味着什麼呢?
讓我們通過一個簡單的比喻來說明其水平:
假設你有一臺普通的筆記本電腦,它的算力是1 Gigaflop(即每秒10的9次浮點運算)。如果你的筆記本電腦每秒能夠完成1次浮點運算,那麼完成10^18(即1 Exaflop)次浮點運算需要多長時間呢?
1 Exaflop = 10^18 Flops
如果你的筆記本電腦每秒完成1 Flop,那麼完成10^18 Flops就需要:
(10^18 Flops) / (1 Flop/second) = 10^18 seconds
換算成年份:
10^18 seconds / (60 seconds/minute * 60 minutes/hour * 24 hours/day * 365 days/year) ≈ 31.7億年
換句話說,一臺每秒完成1 Flop的筆記本電腦,要花費大約31.7億年的時間才能完成1 Exaflop的運算量。
所以1 Exaflop的龐大程度,可以說是一鳴驚人了。
4.推理微服務NIM:AI部署的新標杆
NVIDIA推出的AI推理微服務NIM成爲世界AI的入口,爲用戶提供了部署和管理AI模型的平臺。通過NIM,用戶可以體驗各種AI模型和應用,同時保留對知識產權的完全控制。黃仁勳表示,NVIDIA正在幫助企業和應用程序對模型進行微調或定製。
NIM可以使開發者能夠將部署時間從幾周縮短至幾分鐘,爲語言、語音、藥物發現等領域提供行業標準API,讓開發者能夠利用在自己基礎設施中的專有數據快速構建AI應用,而不必依賴雲服務器。
英偉達希望通過這些服務吸引購買英偉達服務器的客戶註冊英偉達企業版NVIDIA AI Enterprise 5.0,每個GPU每年收取4500美元的費用。企業可以選擇在亞馬遜雲科技(AWS)、谷歌雲、Azure、Oracle Cloud Infrastructure等雲平臺上部署這些微服務。
相較於新AI模型的初始訓練,推理過程所需的計算能力較少。對於那些希望自行運行AI模型,而不是購買AI結果作爲服務的企業來說,NIM將成爲一款不錯的選擇。
“在我原本調用OpenAI的代碼中,我只需替換一行代碼,將其指向從英偉達獲取的NIM即可。”一位開發者表示。
5.英偉達的願景:引領新工業革命
黃仁勳的野心究竟有多大?在他看來,英偉達站在計算科學和物理等一切科學的交叉點,成爲新工業革命的引擎。這是英偉達的使命,也是他心中英偉達的定位。
正如黃仁勳在開場白中說的那樣,我們見證了計算機技術的革命以及人工智能的崛起。從過去到現在,我們經歷了無數里程碑,包括首臺DGX-1超級計算機的誕生、CUDA的出現以及生成式AI的發展。
如今,皮衣教主黃仁勳已經在生成式AI領域拔得頭籌,帶領着下一場工業革命的開啓。
相關閱讀:
性能可提升30倍,英偉達發佈全新構架,今年上市,一套或售20萬美元
3月19日消息,當地時間週一,英偉達在美國加州聖何塞(San Jose)舉辦的全球開發者大會上,隆重發布了最新一代人工智能專用GPU芯片以及運行人工智能模型的軟件,意圖進一步鞏固其作爲人工智能領域首選供應商的地位。
英偉達推出的新一代人工智能GPU架構命名爲Blackwell,首款基於該架構的GB200芯片預計將在今年晚些時候推出。
在處理大型語言模型(LLM)推理工作負載時,GB200性能可提升30倍,同時在成本和能效上也有顯著提升。英偉達稱,與H100相比,“GB200能將成本和能耗降低至多達25倍”。
儘管當前市面上如Hopper架構的H100芯片等舊款產品依然供不應求,英偉達仍通過推出更高性能的新芯片來吸引客戶,鼓勵他們持續下單。
自2022年底,隨着OpenAI推出聊天機器人ChatGPT,掀起了一股人工智能熱潮,英偉達股價隨之飆升五倍,營業收入也增長了逾兩倍。英偉達的高性能GPU對於訓練和運行大型人工智能模型至關重要。像微軟、Meta這樣的科技巨頭,都斥資幾十億美元購買這種芯片。英偉達首席執行官黃仁勳在大會上表示:“Hopper架構固然出色,但我們追求的是更加強大的GPU。”
英偉達股價在週一盤後交易中微跌超過1%。
爲了讓客戶在面對日益增多的競爭產品時更傾向於選擇英偉達芯片,公司還推出了一款名爲NIM的付費軟件,使得部署人工智能變得更加簡單。
英偉達高管表示,公司正從單一芯片供應商轉型爲類似於微軟或蘋果那樣的平臺提供者,其他公司可以在其平臺上開發軟件。
黃仁勳坦言:“Blackwell不僅僅是一款芯片,它代表的是一個平臺。”
英偉達企業計算部門副總裁馬努維爾·達斯(Manuvir Das)在接受採訪時表示:“最暢銷的商業產品仍是GPU,軟件則是爲了幫助用戶以不同的方式使用GPU。”他補充道:“當然,我們依然在致力於產品的創新。但現在,我們真正實現了轉變,已經發展出了自己的商業軟件業務。”
英偉達新軟件能讓在所有英偉達GPU上運行程序變得更加簡便,即便是對於那些老款GPU,它們雖更適合於部署人工智能應用,而非開發,也能輕鬆應對。
達斯說:“如果您是開發者,手中有一個備受期待的模型,希望能讓更多人採用,只需將其部署在NIM上。我們承諾將兼容所有英偉達GPU,確保模型能觸及廣泛用戶羣。”
Hopper架構的繼任者Blackwell
每隔兩年,英偉達都會更新其GPU架構,從而實現性能的顯著躍升。在過去一年中,衆多發佈的人工智能模型均在2022年宣佈的Hopper架構基礎上進行訓練,此架構涵蓋了包括H100在內的多款芯片。
據英偉達介紹,基於Blackwell架構的GB200芯片將爲人工智能領域公司帶來性能上巨大的飛躍,其人工智能計算能力可達每秒20千萬億次,遠超過H100芯片的每秒4千萬億次。
這一強大的計算能力將使企業得以訓練規模更大、複雜度更高的人工智能模型。
GB200芯片還特別集成了英偉達的高性能Transformer推理引擎,該技術專爲運行基於Transformer架構的人工智能設計,正是構成流行聊天機器人ChatGPT核心技術的關鍵部分。
Blackwell架構的GPU芯片體積龐大,實際上是由兩塊獨立製造的芯片集成於一塊臺積電代工的芯片上。英偉達同時推出了配套的GB200 NVLink 2服務器,內置72塊Blackwell架構GPU,以及其他用於人工智能模型訓練的專業組件。
知名雲服務提供商,包括亞馬遜、谷歌、微軟及甲骨文等,均將提供GB200芯片的雲服務。每套GB200系統由兩塊基於Blackwell架構的B200 GPU和一塊基於ARM架構的Grace CPU組成。英偉達透露,亞馬遜網絡服務(AWS)計劃建立一個包含2萬套GB200系統的超級計算集羣。
英偉達表示,亞馬遜的服務器集羣能夠部署達到27萬億個參數的人工智能模型,規模遠超目前已知最大的GPT-4模型,後者擁有1.7萬億個參數。許多人工智能研究人員認爲,擁有更多參數和數據的超大模型能夠展現出更爲強大的能力。
雖然英偉達未公佈GB200芯片及其系統的具體售價,但根據分析師估計,參照Hopper架構H100芯片的售價範圍(每塊約2.5萬至4萬美元),一整套GB200系統的成本可能高達20萬美元。
英偉達的推理微服務
英偉達還宣佈,在其企業軟件訂閱服務中新增了一款名爲NIM的產品,即英偉達推理微服務(NVIDIA Inference Microservices)的縮寫,旨在簡化使用舊型號GPU進行人工智能推理和軟件運行的過程,使企業能夠繼續利用現有的數億塊英偉達GPU資源。相較於訓練新的人工智能模型,推理計算所需的計算資源更少,因此,企業可以通過NIM更加便捷地運行自己的人工智能模型,而不必依賴於OpenAI等公司提供的計算服務。
作爲其戰略的一部分,英偉達鼓勵購買其服務器的客戶訂閱英偉達企業服務,並按每塊GPU每年4500美元的標準收取許可費。此外,英偉達將與微軟、Hugging Face等領先的人工智能企業合作,確保它們開發的人工智能模型能夠在所有兼容的英偉達芯片上順暢運行。開發者可通過NIM服務,無需複雜配置,就能在自己的服務器或基於雲的英偉達服務器上高效地運行模型。
“在原本調用OpenAI服務的代碼中,僅需替換一行代碼,即可將其連接至英偉達提供的NIM服務,”達斯解釋說。
英偉達表示, NIM軟件不僅能在雲服務器上運行,還能使配備英偉達GPU的筆記本電腦上順暢運行人工智能應用,進一步擴展了NIM服務的應用場景。(辰辰)