中國AI創業公司通過創新降低模型成本

與西方同行相比,中國大模型公司面臨着尖端芯片獲取、資金投入等方面的窒礙,但是他們正在通過降低成本來打造具有國際競爭力的模型。

在頭部的初創企業中,如零一萬物(01.ai)和DeepSeek選擇使用優質但較小數據集來訓練AI模型、招聘一批二十多歲的技術狂人,不但能做獨樹一幟的科研,而且成本也較低。

科技巨頭中,如阿里巴巴、百度和字節跳動,也燃起了大模型價格戰,將調用大語言模型生成回答這段技術所需的“推理”成本降低了 90% 以上,僅爲美國同行的價格的極小一部分。

位於北京的零一萬物是由前谷歌中國總裁李開復領導。他表示,零一萬物在較小的數據集上訓練出了對算力要求較低的模型,並且創造了模基共建的方法,結合了硬件、芯片、內存、AI基礎軟件的垂直整合和優化,打造了Yi-Lightning(閃電模型)。該模型比OpenAI GPT4o便宜31倍的推理成本。

本週,在由加州大學伯克利分校 SkyLab 和 LMSYS 的研究人員所發佈的大模型排名中,零一萬物憑藉 Yi-Lightning 模型與發佈Grok-2、與馬斯克創辦的xAI並列爲全球排名第三的大模型公司,僅次於 OpenAI 和谷歌的最新模型。

LMSYS是基於用戶提出真實問題,然後針對不同模型的回答給出盲測投票,最終彙總成爲對各個模型的評分。OpenAI、谷歌都在這裡發佈所有的模型,並接受LMSYS的排名。包括字節跳動、阿里巴巴和 DeepSeek 等其他中國大模型玩家,也悄悄爬上了 LLM 排名榜。

李開復告訴《金融時報》:“中國的優勢在於製造真正實惠的推理引擎,這是AI應用蓬勃發展最重要的一件事。”

零一萬物 Yi-Lightning 的推理成本是每百萬個 token 收取 14 美分(0.99 元人民幣),而 OpenAI 的較小模型 o1-mini 每百萬個 token 則需要 26 美分。與此同時,OpenAI 的更大尺寸的模型 GPT-4o 的推理成本爲每百萬個 token 4.40美元。AI 大模型生成回答所用的 token 數量取決於查詢的複雜度。

李開復還表示,Yi-Lightning 模型的“預訓練”成本爲 300 萬美元,這指的是模型關鍵訓練階段的成本,之後可以根據不同的應用場景進行微調或定製。這預訓練成本僅爲 OpenAI 訓練GPT-4的3%,而且Yi-Lightning性能還超越了GPT-4。他補充說,零一萬物的科研北極星不是“無論多貴多大,打造世界第一模型”,而是要打造一個世界第一梯隊的模型、但是成本超低,能打造出高性價比模型,讓開發者構建應用而不被推理成本壓垮。

包括零一萬物、DeepSeek、MiniMax 和階躍星辰在內的許多中國大模型公司,都採用了所謂的“混合專家”模型架構,一種被美國研究人員率先提出的模型架構。

與 “從互聯網和其他來源抓取數據構建起龐大數據庫上,並一次性地訓練一個龐大的‘稠密模型’”不同,“混合專家”模型選擇將多個對不同領域可稱爲“專家”的神經網絡集合到一起。

研究人員認爲,混合專家模型架構是以較少的算力,達到與稠密模型相同智能水平的關鍵技術。但這種方法訓練失敗的可能性更大,因爲在模型訓練過程中需要同時協調多個“專家”模型,而非集中關注單個模型的訓練。因此不少美國公司(如Meta的Llama)就沒有開發出來,而中國公司似乎掌握了“混合專家”模型架構。尤其是零一萬物和Deepseek,做出了世界最快的混合專家模型。

鑑於獲取尖端AI 芯片供給的禁令和難度,中國 AI 領域的玩家在過去一年中一直在競相開發高質量數據集來訓練這些“專家”,使得自家模型具備與競爭對手不同的特色。李開復表示,零一萬物採用了遠遠優於傳統網絡抓取方法的數據收集方法,包括掃描書籍,爬取深網區的數據,使用新穎的合成數據技術等。

“工程師在數據標註和排序方面需要做很多不爲人知的艱苦工作,”但他補充說,中國擁有大量技術厲害且刻苦耐勞的工程人才,在這方面比美國更有優勢。

“中國的優勢不一定能在預算不封頂的情況下做出前所未有的突破性研究,但肯定能更好、更快、更可靠和更低成本地實現落地”,李開復說。