OpenAI CEO談AI:中國將有獨特的大模型,全球10-20個大模型能“存活”

在近日瑞士舉行的2024年人工智能向善全球峰會(AI for Good Global Summit)上,OpenAI CEO山姆·奧爾特曼(Sam Altman)與《大西洋月刊》CEO尼古拉斯·湯普森(Nicholas Thompson)進行了連線交流,提及AI的全球化、安全性、合成數據訓練以及下一代大模型等相關問題。

奧爾特曼在對話中預測,中國將會擁有自己獨特的大語言模型,與世界其他地區的模型不同。當被問到三年後會有多少基礎的大語言模型存在時,奧爾特曼表示,當下有許多模型正在訓練,這種趨勢將會持續,“將有成千上萬的大語言模型被開發出來,但其中只有少數,如10個、20個或類似的數量,會獲得大量的使用和最密集的資源投入。”

奧爾特曼認爲,我們仍處在AGI的初級階段,還有許多未知等待去探索,還有許多科學上的突破即將到來,因此在這一點上做出任何自信的預測都是非常困難的。

另一點是關於人工智能的全球化和公平問題,有人認爲,GPT-4和其他大語言模型在英語、西班牙語和法語上的表現要優於斯瓦希里語(一種在非洲廣泛使用的語言)等語言。奧爾特曼則回覆,GPT-4o在更多種類的語言上都表現出色,OpenAI此前公佈的統計數據顯示,GPT-4o已經能夠覆蓋97%人羣的母語。

關於OpenAI,近段時間備受關注的仍然是其安全性問題,在GPT-4o模型發佈不久後,負責安全事務的聯合創始人、首席科學家伊爾亞·蘇茨克維(Ilya Sutskever)就官宣離職,而另一位在安全領域作出重大貢獻的超級對齊團隊聯合負責人楊·萊克(Jan Leike)也離開OpenAI轉投Anthropic,並在社交媒體X上稱“(OpenAI)安全文化和安全流程已經讓位給閃亮的產品”。

奧爾特曼在對話中表示,在確保安全性方面,模型的可解釋性是一個值得探究的領域,目前儘管尚未解決可解釋性問題,但他“對正在發生的許多事情感到非常興奮”。在他看來,對模型內部運作的理解越深入,就越能做出更好的決策,“這可以成爲我們構建和驗證安全性聲明的綜合性方案的一部分。”

此外,人道科技中心聯合創始人兼執行主管特里斯坦·哈里斯(Tristan Harris)曾提出一個建議是,大語言模型公司每投入100萬美元用於增強模型的能力,也應同等投入100萬美元用於安全性研究。奧爾特曼認爲,人們往往傾向於把世界簡單地劃分爲性能與安全兩個部分,並制定一些聽起來很有道理的政策,而要界定許多工作的性質是非常困難的。

如果在生產中使用一個模型,用戶確實會希望它能夠完成既定任務,同時不會產生任何負面影響。不過,讓模型在既定的界限內,按照用戶的期望去運行,是一個綜合性的問題。奧爾特曼將這個過程比喻爲搭乘飛機,用戶期望它能安全地將自己送達目的地,同時也希望在整個飛行過程中不會出現任何故障。

“在飛機設計中,有些部分可以明確區分爲能力提升或安全措施,但總體而言,我們是在努力設計一個綜合系統,旨在安全、迅速地將您帶到目的地,並確保飛行中不會出現任何部件脫落的問題。”奧爾特曼的觀點是,有關產品能力提升和安全措施的這種界限,實際上並沒有表面上看起來那麼清晰。

不過,在有關安全的關鍵人才離開之後,OpenAI “飛機的機翼”依然穩固嗎?針對公衆的質疑,奧爾特曼認爲,這種評價應基於公司行動,包括髮布的模型、所開展的工作、進行的科學研究,實際上公司已經進行了對齊研究、建立了安全系統、實施了監控措施。

在對話中,談及下一代模型是否會迎來指數增長的顯著飛躍,奧爾特曼表示,“我們並不認爲我們正處於任何指數增長的臨界點。”他認爲大模型仍然有很大的發展空間,並預期在某些領域將實現巨大的進步,但在其他一些領域可能提升並不如預期顯著,這與之前每次模型更新時的情況相似。

訓練大模型最關鍵的部分之一是數據,在對話中奧爾特曼提到,爲了訓練下一代模型,OpenAI在大量生成合成數據用以訓練方面進行了各種實驗。但如果訓練模型的最佳途徑僅僅是創造數以萬億計的合成數據並將其重新輸入系統,這種方法在某種程度上顯得效率不高,“應該存在一種機制,讓模型在訓練過程中能夠更有效地從數據中學習,我認爲我們還有許多問題需要解決。”

合成數據是否會引發數據出錯問題?奧爾特曼認爲,無論是合成數據還是人類生成的數據,都存在質量良莠不齊的問題,關鍵在於獲取高質量的數據。只要能夠收集到足夠高質量的數據來訓練模型,或者能夠開發出提高數據效率的方法,從較少的數據量中學習更多,出錯的問題是可以解決的。