AI公司擠破頭搶數據OpenAI“扒”視頻內容,谷歌“覬覦”辦公數據

4月4日,在接受Bloomberg Originals採訪時,YouTube首席執行官尼爾·莫漢(Neal Mohan)對OpenAI發起了警告,稱如果Sora利用了YouTube的視頻來訓練,這將是違反平臺政策和規定的,因爲創作者並不希望自己的內容被拿來利用。

但有趣的是,當主持人Emily Cheung追問Google是否也用YouTube數據訓練過自家的Gemini AI,是否爲創作者支付了相關費用時,這位CEO的表述變得有些“曖昧”。他承認Google確實使用了YouTube的數據來訓練Gemini,但同時聲稱他們是“按照條款規則”進行的,並沒有透露是否有爲創作者支付相關費用。

這種迴應顯然無法讓網友信服,於是他們開始了“花式”吐槽:

“創作者們,看到了嗎?YouTube現在說它擁有你們製作的內容。”

“不要把‘不該說’的事情說出來!”

“谷歌也沒有爲創作者支付數據費用吧?好吧,是的,服務條款說不用付費。”

儘管目前尚無證據顯示Sora確實使用了YouTube視頻進行訓練,但這位CEO的警告很可能是受到最近《華爾街日報》的一篇報道影響。該報道稱,OpenAI開發了語音識別工具Whisper,可以將YouTube視頻轉錄爲文字,爲其大型語言模型提供新的訓練數據。

表面上,YouTube似乎站在創作者一邊,但實際上,無論是谷歌還是OpenAI,他們都在竭盡全力尋找各種合規或灰色地帶的手段來獲取大量訓練數據,以確保在人工智能領域保持領先地位,而創作者利益等問題,顯然並不是他們的首要考慮。

2020 年 1 月,約翰·霍普金斯大學理論物理學家賈裡德·卡普蘭(Jared Kaplan)和九名 OpenAI 研究人員一起發表了一篇關於人工智能的開創性論文,得出了一個明確的結論—訓練大型語言模型的數據越多,它的性能就越好。

自此,“(數據)規模就是一切”成爲人工智能領域的一大信條。OpenAI的ChatGPT-3.5的驚豔表現,更是點燃了整個生成式AI賽道的狂歡,引爆了對數據的需求。

Meta全球合作伙伴和內容副總裁尼克·格魯丁 (Nick Grudin) 曾在一次會議上表示:“唯一阻礙我們達到 ChatGPT 水平的因素就是數據量。”

AI巨頭們隨之開啓了爭奪數據資源的激烈競賽:GPT-3於2020年3月推出,使用了3000億的token;去年上線的GPT-4使用了12萬億token;如果遵循當前的增長軌跡,GPT-5可能會需要 60 萬億到 100 萬億的token。谷歌於去年推出的PaLM 2使用了3.6萬億的token,而2022年上線的PaLm只用了7800萬的token。

(不同的大語言模型對訓練數據的需求量。Credit:《紐約時報》)

由於這些大語言模型使用數據的速度比產生數據的速度還要快,這便導致數據資源,尤其是高質量的,已經被大量“開採”和使用。

根據人工智能研究機構Epoch的預測,到2026年,所有高質量可用數據都可能被耗盡, 去年5月,OpenAI首席執行官Sam Altman也在技術會議上公開承認,AI公司們在不久的將來會耗盡互聯網上所有可用的數據。

(低質量的語言數據預計在2050年被用完,高質量的語言數據預計在2026年用完,視覺數據預計在2060年用完。Credit:Epoch)

如果沒有新的數據源或者無法提高數據利用效率,那麼依賴龐大數據集的機器學習模型的發展速度將逐漸放緩。這意味着,AI公司爲了維持技術領先優勢,不得不開啓激烈的數據爭奪戰,不斷地尋找新的數據源。

OpenAI在2021年底就已經感受到了“數據飢渴”的壓力,爲了訓練更大的模型,他們開始四處尋覓數據。在OpenAI總裁Greg Brockman的帶領下,Whisper項目應運而生,通過轉錄超過100萬小時的YouTube視頻,爲GPT-4模型注入新的血液。雖然這種做法有法律風險,但OpenAI的團隊依然認爲這是值得的。

另一邊,谷歌並沒有“高尚”到哪去,它也轉錄了 YouTube 視頻爲其大語言模型獲取文本,甚至還盯上了用戶在Google Docs(谷歌文檔),Google Sheets(谷歌表格),Google Slides(谷歌PPT),以及Google Maps(谷歌地圖)等服務裡產生的內容。

據估算,這些應用程序中蘊藏着數十億個token。爲了以後能有機會利用這些數據,去年6月,谷歌要求隱私團隊修改政策,並特意在美國獨立日假期期間7月1日發佈了新政策,以分散公衆的注意力。目前,谷歌聲稱沒有在實驗計劃之外使用這些數據。

在這場“數據淘金潮”中,擁有大量用戶數據的平臺格外受到關注:

在ChatGPT推出後不久,“受到刺激”的Meta、谷歌、亞馬遜和蘋果等科技巨頭紛紛與Shutterstock等圖片庫提供商達成協議,獲取其數億張圖片、視頻和音樂文件用於AI訓練。據Shutterstock透露,最初的交易額在2500萬美元到5000萬美元之間,隨着對數據的需求增加,這一數字還在不斷上升。

Photobucket,這個曾服務於Myspace和Friendster的圖片託管網站,也變成了科技公司爭奪數據的焦點。據稱,多家科技巨頭正在與Photobucket談判,意圖獲取其130億張照片和視頻資料,以用於訓練他們的生成式人工智能模型。這些資料的定價範圍,從每張圖片的5美分到1美元不等,而視頻的價值則更高,每個超過1美元。儘管Photobucket的當前用戶數僅爲200萬,遠低於其7000萬的巔峰用戶量,它所擁有的龐大數據量仍舊極具價值。

Shutterstock的競爭對手Freepik同樣宣佈已經與兩家大型科技公司達成協議,以每張圖片2到4美分的價格,許可其檔案中大部分的2億張圖像。該公司還表示,有5筆類似的交易正在進行中,但拒絕透露買家身份。

谷歌與Reddit簽訂了年度6000萬美元的使用協議,獲取高質量的長篇內容,用以訓練其大型語言模型。

即便擁有Facebook和Instagram這樣大規模的社交平臺,Meta仍面臨着高質量數據來源的短缺問題。由於這兩個平臺缺少深度內容的沉澱,Meta試圖收購Simon & Schuster出版社,以獲取長篇作品。此外,爲了快速獲取數據進行訓練,該公司抓取了互聯網上幾乎所有可用的英語書籍、散文、詩歌和新聞文章,甚至一些受版權保護的內容。

對於創作者來說,他們生產的大量內容在不知情的情況下被科技公司用於訓練,而這些公司利用這些數據來優化自己的盈利產品,而創作者卻分文不得,這種情況多少有些不公平。

《紐約時報》去年起訴 OpenAI 和微軟,稱其在未經許可的情況下使用受版權保護的新聞文章來訓練人工智能聊天機器人。OpenAI 和微軟卻表示,使用這些文章是“合理使用”,或者說是版權法允許的,因爲他們爲了不同的目的而改造了這些作品。

隨着互聯網上可用的“天然資源”變得日益稀缺,AI行業正在探索新的數據來源,以滿足未來大模型訓練的需求。其中,合成數據成爲了一條潛在的途徑。

顧名思義,合成數據並非直接從現實世界中收集,而是通過算法生成的文本、圖像和代碼,旨在模擬現實數據的特徵和行爲,從而讓系統能夠從自生成的內容中學習。

換句話說,系統從它們自己產生的東西中學習。

這是有成功案例的。例如,Anthropic在上個月推出的Claude 3 LLM就使用了部分“合成數據”來進行訓練,在最後的榜單性能跑分全面超越GPT-4。

Sam Altman在去年5月也提出了用合成數據來訓練大語言模型的路徑:模型可以產生類似人類的文本,然後這些文本數據可以再被用來訓練模型,將幫助開發人員構建日益強大的技術並減少對受版權保護的數據的依賴。

理論上,這種方法能夠形成一個完美的閉環,既滿足了大規模AI模型對數據的龐大需求,又避免了直接從用戶那裡收集敏感信息的爭議和風險。

但我們並不能過分樂觀,近幾個月來,研究人員發現,在人工智能生成的數據上訓練人工智能模型將是一種數字形式的“近親繁殖”,最終導致“模型崩潰”或“ 哈布斯堡詛咒(Habsburg AI)。”

而進一步模型崩潰會導致生成模型輸出低質量、缺乏多樣性的結果,不僅降低了模型的泛化能力和應用價值,增加了訓練和調試的難度及成本,損害用戶對模型及其背後系統的信任和可信度,最終對研究進展和技術創新造成阻礙。

無論是獲取天然數據還是生產合成數據,在人工智能競爭中,小型公司都面臨着嚴峻的挑戰。他們既沒有足夠的資金來購買版權數據,也無法獲取存放在科技巨頭擁有的平臺上的用戶數據。

在Reddit上,一些創業者感嘆道:“是的,這是違反了(YouTube)的用戶協議,但老實說,我們處於困境中,因爲大科技公司壟斷了市場。我的公司因爲無法爬取開放網絡的內容而崩潰,這是因爲 Twitter、Facebook 和 Google 的反競爭行爲。”

“這隻會引發一系列問題。所有這些公司都在不斷地侵犯對方,但這只是爲了排擠更小的公司。這些大公司都有罪,否則就無法正常運轉。”

在這個以數據爲王的時代,AI公司的行爲揭示了一個深刻的真相:在追求技術領先的路上,數據的獲取和使用成了無可避免的戰場。隨着數據資源的日益緊張,各大公司不惜一切代價尋找新的數據源,即便這意味着涉足法律和道德的灰色地帶。這種做法不僅引發了關於數據隱私、版權、以及創作者權益的廣泛爭論,也暴露了現有數據利用機制的漏洞和不足。

在這場由數據驅動的技術競賽中,既有激動人心的進展,也有令人憂慮的隱患。技術的發展不應以犧牲個人隱私和創作者權益爲代價,合理合法地利用數據,保護數據來源的同時,開發更加高效、公平的數據利用機制,將是人工智能行業未來發展的關鍵。隨着技術和社會的進步,我們期待一個更加透明、公正的數據生態系統的建立,以此推動人工智能技術健康、持續的發展。