DeepSeek 如何影響硅谷的 AI 格局

風險投資家和創始人一直在積極討論 DeepSeek 對硅谷的影響。作爲人工智能領域的新興力量,DeepSeek 的快速崛起引發了人們對 AI 創新未來、開源主導地位以及傳統 AI 商業模式可持續性的思考。討論的焦點在於 DeepSeek 是否代表了一種範式轉變還是短暫的顛覆,以及現有的 AI 企業應如何適應這個不斷髮展的格局。

DeepSeek 在 AI 開發者領域迅速崛起,在 Hugging Face 排名中名列前茅,並確立了自己作爲主導開源力量的地位。其注重速度、成本效益和可訪問性的方法,在全球 AI 研究社區中贏得了巨大的好評。與競爭對手相比,DeepSeek 以較低的成本運營,在不依賴重型基礎設施的情況下提供尖端能力。

雖然新聞頭條在猜測 AI 主導地位的轉變,但實際情況更爲微妙:DeepSeek 的創新正促使現有參與者重新思考其戰略,鼓勵向更精簡、更高效的 AI 模型轉變。

DeepSeek 的成功源於其對效率和技術創新的關注。該公司憑藉其 DeepSeek Coder 和 DeepSeek-V3 模型在代碼生成和自然語言處理方面的出色表現而備受關注。

DeepSeek 採用了無需人工干預的強化學習,這與依賴人類反饋強化學習 (RLHF) 的 AI 公司形成了鮮明對比。他們的 R1-Zero 模型完全通過自動化獎勵系統學習,對數學、編程和邏輯等領域的推理任務進行自我評分。這一過程導致了自生成思維鏈推理的自發出現,使模型能夠延長自身的推理時間,重新評估假設,並動態調整策略。雖然最初的原始輸出混合了多種語言,但 DeepSeek 通過在強化學習過程中植入少量高質量的人工標註響應來改進其方法,最終開發出了 DeepSeek R1。

DeepSeek 還採用了混合專家 (MoE) 設計。MoE 是一種技術,允許模型動態選擇專門的子網絡或"專家"來處理輸入的不同部分,顯著提高效率。MoE 不是爲每個查詢激活整個模型,而是隻激活一部分專家,在保持高性能的同時降低計算成本。這種方法使 DeepSeek 能夠高效擴展,與傳統的單體模型相比,在更低的功耗和延遲下提供更高的準確性。

DeepSeek 對強化學習、MoE 和後訓練優化的關注,展示了一個 AI 計算基礎設施更精簡、更快速、更智能的未來,具有優化的內存、網絡和計算能力。Foundation Capital 的普通合夥人 Ashu Garg 預測,規模本身不再保證 AI 優勢。他解釋說,DeepSeek 將 AI 視爲系統挑戰,從模型架構到硬件利用率都進行了優化。他強調,下一波 AI 創新將由利用大型模型設計複雜代理系統的初創公司引領,這些代理系統承擔複雜任務而不僅僅是自動化簡單任務。由於無法獲得 Nvidia 的高端 H100 GPU,DeepSeek 通過重新編程每個 H800 GPU 上 132 個處理單元中的 20 個來增強跨芯片通信,從而推動了低級硬件優化的極限。此外,他們利用 FP8 量化來減少內存開銷,並引入了多 token 預測,使模型能夠一次生成多個詞,而不是逐個 token 生成。

DeepSeek 在開源 AI 領域的成功挑戰了傳統的專有模型方法。其框架的廣泛採用表明,AI 開發正長期向更多社區驅動的方向轉變。DeepSeek 還挑戰了大規模 AI 突破需要大量基礎設施投資的假設。通過證明最先進的模型可以高效訓練,它迫使行業領導者重新思考十億美元 GPU 集羣的必要性。

隨着 AI 模型變得更加高效,整體使用量也在增加。雖然 DeepSeek 的成本效益降低了准入門檻,但這促進了採用精簡 AI 架構的新創企業的涌現。這一趨勢表明 AI 生態系統正在發生更廣泛的轉變,效率而不是原始計算能力成爲核心差異化因素。

DeepSeek 並非開創全新領域,而是對現有 AI 進展進行改進和優化,展示了迭代優於創新的力量。這引發了人們對 AI 開發中先發優勢是否可持續的思考,或者持續改進纔是通往領導地位的真正道路。

憑藉在速度、推理和可負擔性方面的進步,DeepSeek 正在爲 AI 驅動應用的新時代鋪平道路。該行業正準備迎來能夠處理複雜工作流程的 AI 代理的激增,通過提高效率、降低成本和實現以前無法實現的新用例來改變各個行業。

總的來說,DeepSeek 的崛起預示着向更易獲取、更具成本效益的 AI 解決方案轉變。隨着行業適應,企業必須在專有創新和開放協作之間取得平衡,確保下一波 AI 發展保持高效、適應性和可擴展性。隨着 AI 的不斷進步,領先 AI 企業與新興參與者之間的互動將定義技術進步的下一階段。