Panmnesia 憑藉 GPU CXL 內存擴展技術獲獎
Panmnesia 通過在統一虛擬內存空間中添加快速 CXL 訪問外部內存來擴充 GPU 內存的方案,贏得了 CES 創新獎。
Panmnesia 表示,大規模生成式 AI 訓練任務可能會受到內存限制,因爲 GPU 僅限於 GB 級別的高帶寬內存 (HBM),而實際可能需要 TB 級別的內存。解決這個問題的常規方法是增加更多 GPU,這雖然能獲得更多內存,但代價是產生冗餘的 GPU。Panmnesia 使用了其 CXL (Computer eXpress Link) 技術,通過 PCIe 總線將外部內存添加到主機處理器,這一過程由 Panmnesia 的 CXL 3.1 控制器芯片調控。該控制器的往返時間少於 100 納秒,比 SMT (同步多線程) 和 TPP (透明頁面放置) 方法所需的 250 納秒快 3 倍以上。
Panmnesia 發言人表示:"我們的 GPU 內存擴展套件...因其能夠有效降低 AI 基礎設施成本,已經引起了 AI 數據中心領域公司的廣泛關注。"
該技術於去年夏天公佈,並在 10 月的 OCP 全球峰會上展示。公司提供了一份可下載的 CXL-GPU 技術簡報,其中提到其 CXL 控制器具有兩位數納秒的延遲,據瞭解約爲 80 納秒。文檔中的高層次圖表展示了該設置可以連接 DRAM 或 NVMe SSD 端點 (EPs) 到 GPU。
更詳細地說,第二張 Panmnesia 圖表顯示 GPU 通過 PCIe 總線連接到 CXL Root Complex 或主機橋接設備,該設備將 GPU 的高帶寬內存(主機管理的設備內存)與 CXL 端點設備內存統一到一個統一虛擬內存空間 (UVM) 中。
這個主機橋接設備"一端連接系統總線端口,另一端連接多個 CXL 根端口。該設置的關鍵組件之一是 HDM 解碼器,負責管理每個根端口的系統內存(稱爲主機物理地址,HPA)的地址範圍。這些根端口設計靈活,能夠通過 PCIe 連接支持 DRAM 或 SSD EPs。" GPU 可以通過加載-存儲指令訪問這個統一的可緩存空間中的所有內存。
Panmnesia 在 YouTube 上發佈了一個視頻,以簡化形式展示了其 CXL 訪問 GPU 內存方案。