Scaling Law遞減,堆砌數據、算力拼AI模型已行不通?大廠正在找出路
作者:趙雨荷
來源:硬AI
邁向超級智能系統的AI實驗室正意識到,可能需要改換道路。分析指出,相比傳統的堆砌計算能力和數據的訓練方法,被稱爲“測試時計算”(Test-time Compute)的新方法更有助於提高AI模型的預測能力。
據TechCrunch報道,多位AI投資者、創始人和CEO透露,近年來AI實驗室用於提升模型能力的“AI擴展定律”(AI scaling laws)正顯示出邊際收益遞減的跡象。他們的觀點與近期的報告一致,這些報告表明頂尖AI實驗室中的模型提升速度已不如以往。
現在,幾乎所有人都開始承認,僅通過增加計算能力和數據量來預訓練大型語言模型,並指望其變成某種全知全能模型的道路,是行不通的。這也許聽起來顯而易見,但擴展定律曾是開發ChatGPT、提升其性能的關鍵因素,也可能影響了許多CEO大膽預測通用人工智能(AGI)將在幾年內到來的信心。
OpenAI和Safe Super Intelligence的聯合創始人Ilya Sutskever上週對媒體表示,“所有人都在尋找擴展AI模型的新方式”。本月早些時候,Andreessen Horowitz聯合創始人Marc Andreessen在一檔播客中提到,當前AI模型似乎都趨向於能力的上限。
不過,有AI領域的CEO、研究人員和投資者已經開始宣稱,行業正進入擴展定律的新紀元:“測試時計算”(Test-time Compute)被認爲是一項特別有前景的新方法,能夠讓AI模型在回答問題前,有更多時間和計算資源進行“思考”。
“我們正看到一種新擴展定律的出現,”微軟CEO納德拉(Satya Nadella)週二在微軟Ignite大會上說,他指的是支持OpenAI o1模型的測試時計算研究。
此外,Andreessen Horowitz合夥人、Mistral的董事會成員、曾是Anthropic天使投資人的Anjney Midha在接受媒體採訪時表示,“我們現在正處於擴展定律的第二紀元,也就是測試時擴展。”
AI擴展定律失效?
自2020年以來,OpenAI、谷歌、Meta和Anthropic等公司取得的AI模型快速進步,主要歸功於一個關鍵判斷:在AI模型的預訓練階段使用更多的計算資源和數據。
在這一階段,AI通過分析大量數據集中的模式來識別和存儲信息。當研究人員爲機器學習系統提供充足的資源時,模型通常在預測下一個詞或短語方面表現更好。
第一代AI擴展定律讓工程師通過增加GPU的數量和數據量來提升模型性能。儘管這種方法可能已經達到瓶頸,但它已經改變了整個行業的版圖。幾乎每家大型科技公司都押注AI,而爲這些公司提供GPU的英偉達如今已成爲全球市值最高的上市公司。
然而,這些投資是基於擴展能夠持續發展的預期而做出的。畢竟,擴展定律並不是自然、物理、數學或政府制定的法律,它並未被任何人或事物保證會以相同的速度繼續下去。即便是著名的摩爾定律,也在運行了較長時間後逐漸失效。
Anyscale聯合創始人、前CEO Robert Nishihara在對媒體表示,
儘管如此,AI模型開發者可能仍會繼續追求更大的計算集羣和更大的數據集進行預訓練,而這些方法可能仍有一定的提升空間。例如,馬斯克最近完成了一臺擁有10萬GPU的超級計算機Colossus,用於訓練xAI的下一代模型。
但趨勢表明,僅通過現有策略使用更多GPU無法實現指數級增長,因此新的方法開始獲得更多關注。
測試時計算:AI行業的下一大賭注
當OpenAI發佈其o1模型的預覽版時,就宣佈這屬於獨立於GPT的新系列模型。
OpenAI主要通過傳統的擴展定律(即在預訓練階段使用更多數據和更多計算能力)改進了其GPT模型。但據稱,這種方法現在的增益已不再顯著。o1模型框架依賴於一個新概念——測試時計算(test-time compute),之所以這樣命名,是因爲計算資源是在接收到提示後(而不是之前)才使用的。分析認爲,這種技術在神經網絡背景下的探索還不多,但已經表現出潛力。
一些人已經將測試時計算視爲擴展AI系統的下一種方法。
Andreessen Horowitz的Midha表示,
著名AI研究員Yoshua Bengio則表示,
例如,在10到30秒的時間裡,OpenAI的o1模型會多次重新提示自己,將一個複雜的問題分解爲一系列更小的問題。現負責OpenAI o1工作的Noam Brown嘗試開發可以擊敗人類的撲克AI系統,在最近的一次演講中,Brown表示,他注意到人類撲克玩家在出牌前會花時間考慮不同的情景。2017年,他引入了一種方法,讓模型在出牌前“思考”30秒。在此期間,AI會模擬不同的子游戲,推演不同場景可能的結果以確定最佳行動。最終,這種AI的預測表現比他以前的方法提升了7倍。
需要注意的是,Brown在2017年的研究並未使用神經網絡,因爲當時它們尚未普及。然而,上週麻省理工學院的研究人員發表了一篇論文,表明測試時計算顯著提高了AI模型在推理任務上的表現。
目前尚不清楚測試時計算如何大規模推廣。這可能意味着AI系統在解決難題時需要非常長的“思考”時間,可能是數小時甚至數天。另一種方法可能是讓AI模型同時在許多芯片上“思考”問題。
Midha表示,如果測試時計算成爲擴展AI系統的下一步,對專注於高速推理的AI芯片的需求可能會大幅增加,這對Groq或Cerebras等專注於快速AI推理芯片的初創公司來說是好消息。如果找到答案與訓練模型同樣需要大量計算資源,那麼AI領域的“挖掘工具”提供商將再次受益。
無論AI研究的前沿情況如何,用戶可能在一段時間內感受不到這些變化的影響。不過,AI開放商將不遺餘力地繼續快速推出更大、更智能、更快的模型,這意味着多家領先的科技公司可能會調整其推動AI邊界的方法。
本文來自微信公衆號“硬AI”,關注更多AI前沿資訊請移步這裡