Yann LeCun舌戰參議院:捍衛Llama開源大模型
文:城主
前言
近日,AI三巨頭之一的楊立昆Yann LeCun在參議院接受了質詢,議員們的問題基本都圍繞着Llama大模型是否應該開源展開。Yann LeCun給予了有理有據的迴應。
Llama對於AI學界和企業界的重要性不言而喻,作爲當今世界上毫無疑問排名第一的開源LLM大模型,Llama2已經形成了一個很好的發展社區,而且一切纔剛開始。很多的垂直生態和衍生模型都基於Llama2火熱開展中。雖然吃瓜羣衆都比較喜歡噴Meta,但在AI開源貢獻上,城主認爲全世界都是要感謝Meta。
而作爲Meta AI的扛把子,楊立昆面對面的接受參議院議員詢問,捍衛Llama頂尖大模型開源對人類社會的正當性和必要性,這是讓人尊敬的。
喜歡看視頻的讀者以下是傳送門:
【LeCun舌戰參議院實錄:捍衛Llama開源大模型【LeCun個人Cut】-嗶哩嗶哩】 https://b23.tv/Tk8B23b
=以下是本城根據談話內容重寫的全文=
華納主席、盧比奧副主席以及尊敬的委員會成員們,感謝您們給予我今天這個機會,來到這裡,和您們探討關於人工智能的重要問題。我叫Yann LeCun 楊立昆,目前是紐約大學計算機科學和數據科學的教授,同時也是Meta的首席AI科學家,以及Meta基礎人工智能研究實驗室的聯合創始人。在Meta,我的工作重點是人工智能研究、發展戰略和科學領導。
自從我在20世紀80年代開始我的研究生生涯以來,人工智能取得了突飛猛進的發展。今天,我們正在見證生成式人工智能,特別是大型語言模型(LLM)的快速發展。這些系統通過自我監督學習進行訓練,簡而言之,它們被訓練來填補空白。在這個過程中,這些AI模型學會了理解文本或圖像,包括多種語言的含義、風格和語法。然後,這些內部表示可以應用於各種下游任務,例如翻譯、主題分類等。它們還能用於預測文本中的下一個單詞,從而使LLM能夠回答問題、撰寫論文並編寫代碼。我們不能低估這些模型所帶來的深遠潛在機會。
人工智能的發展具有微處理器的發明、個人電腦、互聯網和移動設備等基礎性技術的影響力。就像所有基礎技術一樣,人工智能將具有多種用途,而且,人們會將其用於正面或負面的目的。隨着人工智能系統的不斷髮展,我想強調兩個關鍵問題:第一個是安全性,第二個是可訪問性。
解決這兩個問題的一種方法是公開共享當前的技術和科學信息。科學論文、代碼的自由交換以及AI訓練模型的公開共享使美國在科學技術領域保持領先地位。這個理念並非新穎,很久以前就有了。開源技術推動了我們現在視爲基礎設施的系統,例如互聯網和移動通信網絡,取得了快速進步。
這並不意味着每個模型都可以或應該開放。專有模型和開源模型都有其作用,但開源基礎模型應該是構建活力四射的生態系統的基石。開源模型創建了行業標準,就像90年代中期的互聯網模型一樣。通過這種協作努力,AI技術將更快地發展,變得更加可靠、更加安全。
開源還爲企業和研究人員提供了他們無法自行構建的工具,這有助於創造大量的社會和經濟機會。換句話說,開源實現了對訪問的民主化。它讓更多的人和企業有能力利用最先進的技術,並彌補潛在的弱點。這也有助於促進民主價值觀和制度,減少社會差距並改善競爭。
我們希望確保美國和美國公司,以及其他民主國家在人工智能開發方面領先於我們的競爭對手,以便在這裡開發基礎模型,並代表和分享我們的價值觀。通過開源當前的人工智能工具,我們可以比競爭對手更快地發展我們的研發生態系統。隨着人工智能技術的進步,各國政府,特別是民主國家,有迫切的需要共同努力,制定共同的人工智能標準和治理模式。
這是一個具有價值的領域,我們歡迎與監管機構合作,制定適當的透明度要求、紅隊標準和安全緩解措施,以幫助確保這些行爲準則、標準和保護措施在世界各地保持一致。白宮的自願承諾是確保負責任保護措施的關鍵一步,併爲其他政府樹立了榜樣。美國國會和白宮的持續領導對於確保社會能夠從人工智能創新中獲益,同時在保護權利和自由之間取得適當平衡,維護國家安全利益並減輕出現的風險,都非常重要。
最後,我要感謝華納主席、副主席盧比奧和委員會的各位成員,感謝您們的領導。歸根結底,我們的任務是與您們、與國會、與其他國家以及與其他公司合作,以安全、可靠且符合我們國家安全利益的方式推動創新和進步。謝謝您,我期待您的提問。
我們確實對此投入了深思熟慮。我認爲,思考這個問題的最佳方式是將迄今爲止已發佈的人工智能系統視爲基礎設施。這些系統本身並不特別有用,爲了發揮作用,它們需要針對特定的垂直應用程序進行定製。一個很好的例子就是開源的互聯網基礎設施。最初,它並不是開源的,而是爲了商業目的而創建的。後來,因爲開源平臺更安全、更容易定製、更可靠,並具有各種優勢,所以逐漸流行起來。
人工智能將成爲一個通用平臺,由於其通用性,如果我們希望它成爲可以構建整個生態系統的平臺,就需要實行開源。我們需要在這種模式下工作,因爲這是儘可能快地取得進展的最佳方式。我非常贊同丁教授的觀點,事實上,在美國,我們非常擅長抓住機會,當新的創新或科學進展出現時,它會很快擴散到本地產業中。這就是硅谷能夠成爲硅谷的原因。信息在那裡流動得非常快,而其他智力上生態系統較爲孤立的國家不會產生同樣的效果。因此,擁有開放的平臺對我們有利。
我對有關立法的細節不甚瞭解。當然,在基本原則上,這些都符合我個人和META公司的想法。我很願意幫助您與公司內負責立法事務的相關人員取得聯繫。
聽到您對這些原則的認同,是一個良好的開端,我們會繼續跟進。目前,美國智能領域對人工智能的使用提出了許多疑問,首先是問責制的問題。如果人工智能要爲智能界的監視決策提供信息,我想問的是,當一個美國人被監視並確定違法時,應由誰負責?
參議員,這已超出了我的專業知識範圍,我並非律師或立法者。在優先事項方面,隱私和安全始終是我們的首要任務,這些原則絕對值得我們遵循,我們會盡力執行。
需要明確的一點是,當前的人工智能技術,如大型語言模型,是基於公共數據和公開可用數據進行訓練的,而非私人用戶數據。因此,不存在任何形式的侵犯隱私的可能性。您強調了問責制的重要性,以及制定人工智能行業應遵循的指導方針,這與您的提問密切相關。感謝您的提問。
一般而言,使機器達到智能的問題要比人們最初意識到的複雜得多。人工智能的發展歷程就是一系列新思想的誕生,人們曾認爲這些新思想會引領我們創造出與人類一樣智能的機器。但一次又一次,我們發現答案都是否定的。這些新思想解決了許多問題,但人類水平的智能仍然遙不可及,至今仍是如此。因此,儘管我們有了極爲強大、流暢且看似能夠掌握語言的系統,至少與人類相當,但這些系統距離真正的人類智能還有很長的路要走。
現在,直接回答您的問題,我們之所以在過去十年裡頻繁聽到人工智能,主要原因是一種名爲深度學習的新技術的出現。這種技術使得機器不再是直接編程,而是針對特定任務進行訓練。這一方法在相對狹窄的任務上取得了極大的成功,我們可以訓練機器達到超人的表現。但至今爲止,我們還沒有辦法像訓練人類或動物一樣有效地訓練機器。這就是我們至今仍然沒有自動駕駛汽車和能夠清理餐桌、裝滿洗碗機的家用機器人的原因。在將系統投入實際使用之前,還有很多道德和其他問題需要解決。
您認爲META的人工智能和信任安全團隊,或者任何人工智能開發團隊,是否有能力真正瞭解潛在的風險和收益,從而做出是否應該開發某一系統,將其投入實際使用或開放給公衆的決定?
參議員,感謝您的提問。我可以簡要描述一下我們在開發Llama和Llama2系統時的過程。首先,Llama系統並沒有完全開源。開源包含兩個部分,一是代碼,實際上代碼相對簡單,沒有太多創新之處;二是訓練模型和權重,這是開發中的重要部分,目前主要由大公司完成。我們發佈的模型是不允許用於商業目的的,我們還對可以下載此模型的人進行了審查,主要是研究人員和學者。
在此基礎上,我們還有三年開源LLM模型的經驗,迄今爲止並未出現重大問題。對於Llama2系統,我們執行了一套非常詳盡的流程。首先,在整理數據集時,我們剔除了其中最具爭議和有毒的內容,以保證模型的質量。其次,我們組織了多個紅隊,這些團隊嘗試找出系統的漏洞,製造危險的輸出,這個過程耗費了數千個小時。我們還設有一個專門負責這項工作的團隊,名爲Responsible AI。
此外,我們還在DEF CON會議上有限地向白帽黑客提供了該模型,這一較大的社區中有專業人士嘗試找出系統的漏洞,從而增強我們對這些系統的信心。我們對找出的漏洞進行了修復,制定了錯誤獎勵政策,以激勵那些發現我們系統中弱點的人告訴我們。實際上,自Llama 2發佈以來,開源社區的反饋熱情很高,我們一直在收到反饋,不斷提高系統的安全性。
LeCun博士,我想我會將這個問題交給您來回答。我是一個負責爲商業、司法和科學部門撥款的小組委員會的首席共和黨人。NSF正在進行的一項工作就是國家人工智能研究所計劃。我很高興聽到您或我們的任何小組成員對該計劃的成果或能力提出批評或讚揚。我們如何才能確保該計劃適應大多數由私營部門進行的研究?
參議員先生,這是一個很好的問題。作爲一個在學術界和工業界都有涉足的人,我們今天觀察到,在進行人工智能研究時,學術界因缺乏計算資源而陷入困境。因此,我認爲該法案中的一項內容是爲學術界和其他非商業科學家提供基礎設施、計算基礎設施來取得進展,這可能是資金的最佳用途。另一個可能性是促進信息和思想的自由流通,從根本上改善工業界和學術界之間的交流過程。在一些歐洲國家,有一些項目允許博士生進行工業實習,這不僅僅是短期實習,而是在攻讀博士學位期間花費長達兩三年的時間。實際上,我們在META已經與美國各地的大學簽訂了雙邊協議,建立了類似的項目,因爲它在歐洲非常成功,所以我們試圖將其引入到這裡。如果政府能爲此提供一些幫助,那就太好了。最後一點是關於數據訪問,這是詹森博士在不同背景下提到的,但這對醫療保健領域的研究,例如醫學領域,尤爲重要。如果研究人員能夠更好地獲得數據,情況會大大改善,而目前這些數據由於各種原因、複雜的法律問題而大多保密。也許國會可以幫助解決這個問題。謝謝。
關於如何定製現成的人工智能模型,它們是如何組合在一起的?政府如何才能最好地利用商業的、現成的和定製的人工智能技術,以確保充分發揮人工智能的能力,特別是在智能界?
參議員先生,我認爲目前人工智能市場的狀態以及我預測的發展方向會有點像互聯網。因爲會有一些本質上是開源的通用平臺,由如MITA這樣的公司生產,並可能有學術界的貢獻。在這些平臺之上,會產生商業產品,這些產品不一定是開源的,它們可能會以各種方式進行商業化。還會有一些定製化的、針對特定應用進行微調的解決方案,無論是在政府部門、教育、工業、製造服務,還是娛樂,都是如此。我認爲這就是未來的模式。這是我們今天在軟件各個領域,當然也包括互聯網,所觀察到的模型類型。我認爲這就是發展的方向。謝謝。
一個非常實際的問題。人工智能生成圖像的水印可行性如何?坦白地說,這是我們所關心的,因爲我們很可能受到人工智能生成的虛假信息的影響,非常熟練地模仿我們的臉、我們的聲音、我們的手勢,但完全是虛假的。要求人工智能在 Facebook、TikTok 或 Instagram 上生成的圖像都帶有水印或標籤,以便消費者知道他們所看到的並非真實,這在技術上可行嗎?當我們考慮監管時,這是我們應該考慮的事項嗎?
參議員先生,確實,這是一個非常實際的問題。從技術上講,這是可行的。主要的問題在於採納全行業的通用標準。因此,需要有一種通用的方法來以可見或不可見的方式使用隱寫術加水印。事實上,這可以通過圖像、視頻和音頻的生成過程來實現,以便計算機能夠檢測這個系統是否是由生成式人工智能系統生成的。但是,用戶必須接受它,並使用符合該標準的產品。因此,這需要全行業範圍內的採納。對於文本來說,問題更爲複雜,沒有簡單的方法可以在文本內隱藏水印。人們試圖通過調整不同單詞的頻率來實現這一點,但效果尚不完美。但對於文本來說,文本是由人類產生的。它不像照片那樣可以隨意傳播。發佈文字的人最終應該對其內容負責,因此我們不應該有像第230條那樣的責任保護。
出版商應該對他們的作品負責嗎?主席,我希望專家組能幫助我們解決這個水印問題,因爲這是我們需要理解的問題。這很可能成爲我們即將制定的任何立法的一部分。我們需要您在這方面的專業知識,消費者應該知道他們所看到的是什麼。謝謝。
參議員,我不是律師,但我知道第230條對互聯網的發展至關重要。我當然願意讓您與專家聯繫。
如果每個平臺都有不同的標準,我們可能會有七、八或十個不同的標準,這將不利於實現我們的目標。
歐洲目前已經在開發一種模式,或者至少他們正在通過歐洲議會制定這種模式,來監管人工智能。他們確定了高風險類別和其他兩個風險較低的類別。您有機會了解這個模式嗎?您對他們採取這種方法來監管人工智能有何看法?
參議員先生,我認爲該法案中的一些原則可能是個好主意,但坦白地說,我不瞭解細節。據我瞭解,歐洲的初創企業和工業界已經相當一致地反對這項規定,並不是因爲您提出的觀點(我認爲這些觀點可能很好),而是因爲法規的細節。坦白說,我對它的瞭解太膚淺,無法發表更多評論。
我認爲這不應該被強制執行,它不應該因監管而消失。有人認爲人工智能技術,特別是未來的人工智能技術,太危險,無法接觸。而我所主張的是,至少應該開放基礎技術,而不是基於它的產品,以確保美國的領導地位,因爲這是我們所知道的推動進步並保持領先地位的唯一方式。這是第一點。然後,就有一種未來,想象一下未來的人工智能系統達到了人類智力水平。假設從現在起一兩年,雖然這個時間可能有誤。我們與數字世界的每一次互動都將由人工智能系統介導。我們每個人都會有一個人工智能助手,時刻在日常生活中幫助我們。所以這基本上就像擁有一個可能比您更聰明的員工。我很熟悉與比我更聰明的人共事。
我認爲,我們無法預知20年後主要的職業將是什麼。肯定會出現新的職業類型,而今天我們無法想象它們。然而,延續這個話題,每個人的信息以及與數字世界的互動都將由這些人工智能系統之一來協調,這基本上將構成所有人類知識的存儲庫。這不能是專有的,這樣太危險了。它必須是開放的,且由廣泛的人羣貢獻,就像維基百科是通過衆包製作的一樣。這是唯一能培養出能夠講所有語言,瞭解所有文化的多樣化觀點的方法。這不可能由單一的私人實體來完成。它必須是開放的。如果不加以管制,它將消失,因爲這是最自然的發展方式,就像互聯網一樣。互聯網已經變得開放,因爲這是最有效的模型。
如果我理解正確的話,我認爲這涉及了幾個問題。第一,供應商應該被信任嗎?這就是我們制定法規的原因,例如,針對汽車駕駛輔助系統或使用人工智能的醫學圖像分析系統。但是,您應該知道,至少在社交媒體方面,儘管已經有公司表示願意,國會還是什麼也沒做。我非常清楚這一點。所以,社交網絡所經歷的有趣歷史,某些未預料到的副作用,可能是由於某種程度的天真或其他原因,但它們並未被預見。然而,對於其中大多數人來說,它們已經被儘快修復。因此,每當有攻擊發生,例如,試圖干擾選舉,都會有相應的對策。
對於傳播CSAM內容,誤導信息,危險的錯誤信息,Deepfakes等等,都有對策。所有這些對策都大量使用了人工智能。所以,這實際上是人工智能不是問題,而是解決方案的例子。例如,在過去五年中,已經取得了顯著進展,刪除了令人反感的內容,打擊了恐怖主義宣傳等。所以,再次強調,我不會重複老生常談,但良好的人工智能比邪惡的人工智能更爲優越,因爲好人更多,受過更多的教育,擁有更多的人工智能資源。而且,人工智能是對抗人工智能攻擊的對策。這就是第二點。
第三點,我認爲推斷是錯誤的,關於當前人工智能系統、當前LLM的侷限性。LLM非常適合創作詩歌,但它們不太擅長生成事實上正確的東西。它們不能很好地替代...它可以很有趣,這是肯定的,但事實上正確是不同的。所以,我實際上不認爲現有的人工智能技術,特別是LLM,可以用於詹森博士所說的那種應用,因爲它目前太不可靠了。
然而,這項技術即將取得進展。我個人一直在從事的一個方面,以及其他許多人,是研發能夠進行規劃和推理的人工智能系統。當前的LLM不具備規劃能力,它們沒有推理能力。您不會希望將它們用於國防應用,因爲它們無法進行規劃。它們可以檢索已經過培訓的現有計劃,並使之適應當前情況,但這並不是真正的規劃。這更像是一種記憶檢索。
因此,直到我們擁有真正能夠在實際情況下進行規劃的技術爲止,我們現在擁有的這種技術僅限於遊戲。例如,能夠發揮外交作用的系統,我們剛剛與詹森博士討論過這個問題,或者玩撲克或圍棋之類的,這些系統都可以進行規劃。但目前,我們還沒有能夠處理現實世界、進行規劃的系統。這種進步可能會在未來十年內實現。我一直稱之爲目標驅動的人工智能。
因此,這是一種人工智能系統,它不僅僅生成一個接一個的單詞,就像LLM一樣,而是能夠規劃它們的回答,使之滿足多種約束和限制。這些將是未來的人工智能系統,與現有的系統有很大的不同。它們將變得更加可控、更加安全、更加有用、更加智能。我無法準確告訴您它們何時會出現,這是未來幾年的事情,也許是未來十年的事情。這是我們必須努力達成的目標。