OpenAI宣佈推出o3和o3 mini推理模型
鞭牛士報道,12月21日消息,據外電報道,OpenAI 將其最重要的公告放在了爲期12 天的shipmas活動的最後一天。
週五,該公司發佈了 o3,這是今年早些時候發佈的o1 推理模型的繼任者。更準確地說,o3 是一個模型系列——就像 o1 一樣。有 o3 和 o3-mini,後者是一個更小、更精簡的模型,針對特定任務進行了微調。
OpenAI 做出了一個驚人的聲明:o3 至少在某些條件下接近AGI——但有重大警告。下文將對此進行詳細介紹。
爲什麼將新模型稱爲 o3,而不是 o2?這或許是商標問題。
據The Information 報道,OpenAI 跳過 o2 是爲了避免與英國電信提供商 O2 發生潛在衝突。首席執行官 Sam Altman 在今天上午的直播中證實了這一點。我們生活的世界很奇怪,不是嗎?
o3 和 o3-mini 都尚未廣泛推出,但安全研究人員可以從今天開始註冊預覽 o3-mini。o3 預覽版將在稍後推出;OpenAI 沒有具體說明具體時間。Altman 表示,計劃在 1 月底推出 o3-mini,隨後推出 o3。
這與他最近的言論有些矛盾。在本週的一次採訪中,Altman 表示,在 OpenAI 發佈新的推理模型之前,他更希望有一個聯邦測試框架來指導監控和降低此類模型的風險。
而且也存在風險。人工智能安全測試人員發現,o1 的推理能力使其欺騙人類用戶的概率比傳統的非推理模型更高——或者說,比 Meta、Anthropic 和 Google 的領先人工智能模型更高。o3 欺騙的概率可能比其前身更高;一旦 OpenAI 的紅隊合作伙伴發佈他們的測試結果,我們就會知道答案。
不管怎樣,OpenAI 表示,它正在使用一種新技術審議性對齊,使 o3 等模型與其安全原則保持一致。(o1 以相同的方式對齊。)該公司在一項新研究中詳細介紹了其工作。
推理步驟
與大多數人工智能不同,諸如 o3 之類的推理模型能夠有效地自我覈實事實,這 有助於它們避免通常會絆倒模型的一些陷阱。
這種事實覈查過程會產生一些延遲。與之前的 o1 一樣,o3 需要更長的時間(通常要多幾秒到幾分鐘)才能得出解決方案,而典型的非推理模型則不然。好處是什麼?它在物理、科學和數學等領域往往更可靠。
o3 經過訓練,可以在做出反應之前通過 OpenAI 所稱的私人思維鏈進行思考。該模型可以推理任務並提前計劃,在較長時間內執行一系列操作,幫助它找到解決方案。
在實踐中,給出一個提示後,o3 會在回答之前停頓一下,考慮一系列相關提示,並在此過程中解釋其推理。一段時間後,該模型會總結出它認爲最準確的答案。
o3 與 o1 相比的新特點是能夠“調整”推理時間。模型可以設置爲低、中或高計算(即思考時間)。計算時間越高,o3 在任務上的表現就越好。
基準和 AGI
今天的一個大問題是,OpenAI 是否會聲稱其最新模型正在接近 AGI。
AGI 是通用人工智能的縮寫,泛指能夠執行人類所能完成的任何任務的人工智能。OpenAI 有自己的定義:在最具經濟價值的工作上表現優於人類的高度自主系統。
實現 AGI 將是一個大膽的宣言。而且這對 OpenAI 來說也具有合同意義。根據與密切合作夥伴兼投資者微軟的協議條款,一旦 OpenAI 達到 AGI,它就不再有義務讓微軟使用其最先進的技術(即符合 OpenAI AGI 定義的技術)。
從一項基準來看,OpenAI正在慢慢接近 AGI。在 ARC-AGI(一項旨在評估 AI 系統是否能夠有效地在其訓練數據之外獲得新技能的測試)中,o3 在高計算設置下獲得了 87.5% 的分數。在最差的情況下(在低計算設置下),該模型的性能是 o1 的三倍。
當然,高計算設置的成本極其昂貴——根據 ARC-AGI 聯合創始人 François Chollet 的說法,每個挑戰的成本高達數千美元。
Chollet 還指出,o3 在 ARC-AGI 中在一些非常簡單的任務上失敗了,這表明——在他看來——該模型表現出與人類智能的根本差異。
Chollet 在一份聲明中繼續說道:早期數據表明,即將推出的 [ARC-AGI 的繼任者] 基準仍將對 o3 構成重大挑戰,即使在高計算量的情況下也可能會將其得分降低到 30% 以下(而聰明的人即使沒有經過訓練也能得分超過 95%)。當創建對普通人來說很容易但對人工智能來說很難的任務變得根本不可能時,你就會知道 AGI 已經到來了。
順便說一句,OpenAI 表示將與 ARC-AGI 背後的基金會合作構建其下一代基準。
當然,ARC-AGI 有其侷限性——而且它對AGI 的定義只是衆多定義之一。
在其他基準測試中,o3 擊敗了競爭對手。
該模型在專注於編程任務的基準 SWE-Bench Verified 上的表現比 o1 高出 22.8 個百分點,並獲得了 Codeforces 評分(另一個衡量編碼技能的標準)2727 分。(2400 分的評分使工程師處於 99.2 百分位。)o3 在 2024 年美國數學邀請賽上得分爲 96.7%,只錯一道題,在 GPQA Diamond(一組研究生水平的生物學、物理學和化學問題)上得分爲 87.7%。最後,o3 在 EpochAI 的 Frontier Math 基準上創下了新紀錄,解決了 25.2% 的問題;其他模型都沒有超過 2%。
當然,這些說法必須謹慎對待。它們來自 OpenAI 的內部評估。我們需要等待,看看該模型在未來如何經受來自外部客戶和組織的基準測試。
一種趨勢
OpenAI 發佈首批推理模型後,包括谷歌在內的競爭對手 AI 公司紛紛推出了大量推理模型。11 月初,由量化交易員資助的 AI 研究公司 DeepSeek 發佈了其首款推理模型 DeepSeek-R1的預覽版。同月,阿里巴巴的 Qwen 團隊 發佈了 據稱是 o1 的第一個“公開”挑戰者(它可以下載、微調並在本地運行)。
是什麼打開了推理模型的閘門?首先,就是尋找改進生成式人工智能的新方法。正如 TechCrunch 最近 報道的那樣,用於擴展模型的蠻力技術不再能帶來曾經的改進。
並非所有人都相信推理模型是最佳的發展方向。首先,它們往往價格昂貴,因爲運行它們需要大量的計算能力。儘管到目前爲止,它們在基準測試中表現良好,但尚不清楚推理模型是否能保持這種進步速度。
有趣的是,o3 的發佈正值 OpenAI 最有成就的科學家之一離職之際。Alec Radford 是 OpenAI 生成式 AI 模型GPT 系列(即 GPT-3、GPT-4 等)學術論文的主要作者,本週他宣佈將離職從事獨立研究。