☰

OpenAI首席科學家有個計劃，尋找方法控制超級人工智能

12月15日消息，早在OpenAI成立之初，便承諾構建有益於全人類的人工智能，即使這些人工智能有可能比其創造者更聰明。自ChatGPT首次亮相以來，OpenAI的商業野心逐漸凸顯。最近，該公司宣佈成立了一個致力於研究未來超級人工智能的新研究團隊，並已經開始取得一些成果。

OpenAI的研究人員利奧波德·阿森布倫納（Leopold Aschenbrenner）指出：“通用人工智能（AGI）正在迅速接近，我們將看到具有巨大能力但也可能非常危險的超智能模型，而我們還沒有找到控制它們的方法。”他參與了今年7月成立的“超級對齊”（Superalignment）研究團隊。OpenAI表示，將把其可用算力的五分之一用於“超級對齊”項目，以探索如何確保超級人工智能的安全性和可控性。

OpenAI最近發佈了一篇研究論文，介紹了一項實驗結果。該實驗旨在測試一種方法，讓一個較差的人工智能模型在不降低智能的情況下指導一個更聰明的人工智能模型。儘管所涉及的技術還沒有超過人類的靈活性，但該實驗是爲了應對未來人類必須與比自己更聰明的人工智能系統合作的時代而設計的。

在實驗中，OpenAI的研究人員檢查了一種被稱爲監督的過程，它被用來調整像GPT-4這樣的系統，使其更有幫助、更少傷害。GPT是ChatGPT背後的大語言模型。目前，這涉及到人類向人工智能系統反饋哪些答案是好的，哪些是壞的。隨着人工智能的進步，研究人員正在探索如何將這一過程自動化以節省時間。此外，這也是因爲他們認爲，隨着人工智能變得越來越強大，人類可能無法提供有用的反饋。

在對照實驗中，研究人員使用OpenAI於2019年首次發佈的GPT-2文本生成器來教授GPT-4，並測試了兩種解決方法。其中一種方法是逐步訓練更大的模型，以減少每一步的性能損失；另一種方法是對GPT-4進行了算法調整，允許較強的模型遵循較弱模型的指導，而不會削弱其性能。第二種方法被證明更有效，儘管研究人員承認這些方法並不能保證更強的模型會完美運行，但可以將其作爲進一步研究的起點。

人工智能安全中心主任丹·亨德里克斯（Dan Hendryks）表示：“很高興看到OpenAI主動解決控制超級人工智能的問題，我們需要多年的努力來應對這一挑戰。”人工智能安全中心是舊金山一家致力於管理人工智能風險的非營利組織。

阿森布倫納與“超級對齊”團隊的其他兩名成員科林·伯恩斯（Collin Burns）和帕維爾·伊茲梅洛夫（Pavel Izmailov）在接受採訪時均表示，他們爲邁出重要的第一步感到鼓舞，認爲這有助於馴服潛在的超級人工智能。伊茲梅洛夫打了個比方：“就像一個六年級的學生，儘管他們比大學數學專業的學生所掌握的數學知識要少，但他們仍然能夠向大學生傳達他們想要達到的目標，而這正是我們所追求的效果。”

“超級對齊”團隊由OpenAI的首席科學家和聯合創始人伊利亞·蘇茨凱弗（Ilya Sutskever）共同領導。蘇茨凱弗也是上個月投票解僱首席執行官薩姆·奧特曼（Sam Altman）的原董事會成員之一。不過後來他撤回了這一決定，並威脅說如果不讓奧特曼復職，他就辭職。蘇茨凱弗是這篇最新論文的合著者，但OpenAI拒絕讓他討論這個項目。

上個月，奧特曼與OpenAI達成了協議，董事會的大部分成員都已經辭職，蘇茨凱弗在OpenAI的未來也充滿了不確定性。儘管如此，阿森布倫納表示：“我們非常感謝蘇茨凱弗，他是這個項目的推動者。”

在人工智能領域，OpenAI的研究人員並不是第一個嘗試使用現有技術來測試有助於馴服未來人工智能系統的團隊。然而，與之前的企業和學術實驗室的研究一樣，我們無法確定在精心設計的實驗中有效的想法在未來是否實用。研究人員將讓一個較弱的人工智能模型訓練一個更強的人工智能模型，他們稱這種能力爲“解決更廣泛的‘超級對齊’問題的關鍵組成部分”。

這種人工智能對齊實驗也引發了一個關鍵問題：控制系統的可信度有多高？OpenAI新技術的核心在於，更強大的人工智能系統能夠自己決定可以忽略較弱系統的哪些指導，這種選擇可能會使其忽略可能阻止其未來以不安全方式行事的重要信息。爲了使這樣的系統有效，需要在提供一致性方面取得進展。伯恩斯強調：“你最終需要高度的信任。”

加州大學伯克利分校研究人工智能安全的教授斯圖爾特·拉塞爾（Stuart Russell）表示，使用不那麼強大的人工智能模型來控制更強大人工智能模型的想法已經存在了一段時間。但他也指出，到目前爲止，我們還不清楚用於教授人工智能行爲的方法是否可行，因爲它們尚未能使當前的模型可靠地運行。

儘管OpenAI正在邁出控制更先進人工智能的第一步，但該公司也渴望獲得外界的幫助。OpenAI宣佈將與谷歌前首席執行官埃裡克·施密特（Eric Schmidt）合作，向外部研究人員提供1000萬美元的資助，以鼓勵他們在從弱到強的監管、高級模型的可解釋性以及針對旨在打破限制的提示下加強模型等領域取得進展。參與撰寫這篇新論文的研究人員表示，OpenAI明年還將舉行一次關於“超級對齊”的會議。

作爲OpenAI的聯合創始人，也是“超級對齊”團隊的聯合負責人，他領導了該公司許多最重要的技術工作。同時，他也是越來越擔心如何控制人工智能的知名專家之一，因爲人工智能變得越來越強大。今年以來，如何控制未來人工智能技術的問題獲得了新的關注，這在很大程度上歸功於ChatGPT的影響。蘇茨凱弗曾在深度神經網絡先驅傑弗裡·辛頓（Geoffrey Hinton）的指導下攻讀博士學位。後者於今年5月離開谷歌，以警告人們人工智能在某些任務中似乎正在接近人類的水平。（小小）

OpenAI首席科學家有個計劃，尋找方法控制超級人工智能

相關資訊