繞開CUDA,DeepSeek爲國產GPU“破局”?
看了DeepSeek技術方案,有一個技術細節令人印象深刻:DeepSeek模型竟然繞開了CUDA,轉而採用GPU低級彙編語言PTX進行優化。
PTX(Parallel Thread Execution)是英偉達GPU的中間指令集架構,它處於高級GPU編程語言CUDA和低級機器代碼(流處理彙編或SASS)之間。由於開發難度極高,PTX往往被大多數算法工程師忽視。
作爲一名曾在大廠AI部門工作多年的人,深知身邊同事大多使用谷歌TensorFlow開發AI模型,真正使用CUDA很少。在國內大廠中,雖然肯定有工程師能夠熟練運用PTX等低級彙編語言,但他們大多不在算法團隊。而在國外大廠,算法工程師們擁有更高性能的GPU以及更大規模的集羣,自然也不需要在PTX級別進行優化。
更何況在早些年,人工智能三大頂會之一的NeurIPS更傾向於欣賞具有數學創新的AI模型,而彙編語言的優化並不被視爲創新,完全不在頂會的考慮範圍內。因此,大部分算法工程師們也就不願意去研究PTX優化。
然而,DeepSeek的母公司幻方作爲中國頭部量化公司,在高頻策略中使用匯編進行優化是再正常不過的行爲。面對有限的GPU算力,採用PTX低級彙編語言進行優化無疑是理所當然的技術方案。調試PTX這樣低級的編程代碼,需要極大的毅力和出色的能力,DeepSeek的算法工程師們在這方面展現出的水平令人歎服。
對於長期苦於CUDA生態限制的AMD以及國內的GPU公司來說,這無疑是一個絕佳的機會。事實上,在此前DeepSeek本地部署的文檔中,已經明確支持華爲昇騰芯片。可以預見的是,華爲等國內GPU公司針對DeepSeek訓練的硬件升級已經在緊鑼密鼓地攻克中。畢竟,構建一個完整的CUDA生態難度極大,而模仿PTX優化則相對容易得多。
這無疑是國之幸事。早在幾年前,A股市場養育出了幻方量化。如今,它們在技術上的突破和創新,不僅爲自身的發展開闢了新路徑,也爲國內整個AI行業的生態建設帶來了新的希望和機遇。