谷歌推出新AI視頻生成器Veo 2,稱表現好於Sora

12月17日消息,谷歌今日發佈最新版本的視頻生成模型Veo 2,與OpenAI的Sora展開正面競爭。谷歌表示,Veo 2可以生成更爲逼真的視頻內容。

與此同時,谷歌還對其圖像生成模型Imagen進行了升級,推出了Imagen 3,旨在生成內容更爲豐富、細節更爲精緻的圖片。

谷歌指出,Veo 2“對現實世界的物理規律以及人類動作和表情的微妙之處有了更深入的理解”。目前,該模型可在谷歌實驗室的VideoFX平臺上試用,但用戶需通過谷歌表格註冊,加入等候名單,並等待谷歌在指定時間內臨時開放訪問。

谷歌在一篇博客文章中提到:“Veo 2同樣精通電影製作手法:只需指定一個類型、鏡頭以及一些電影特效建議,Veo 2即可生成最高可達4K分辨率的視頻。”

Veo 2視頻生成

儘管Veo 2目前僅對部分受邀用戶開放,但原始版本的Veo仍可在Vertex AI平臺上使用。通過Veo 2生成的視頻將嵌入谷歌特有的元數據水印SynthID,以此標識這些視頻爲人工智能生成內容。

谷歌也承認,Veo 2可能仍會偶爾出現如多餘手指等“幻覺”,但公司承諾新版本將大幅減少此類現象。

Veo 2將與OpenAI近期推出的Sora視頻生成模型直接競爭,爭奪電影製作人及內容創作者的市場。值得一提的是,Sora在全面開放給付費用戶之前,已進行了預覽測試。

在谷歌的內部測試中,Veo在“總體偏好”(即觀衆更喜歡哪些視頻)和“提示依從性”(視頻與人類創作者指令的匹配度)兩項指標上均超越了Sora及其他競爭對手的AI模型,這一表現尤爲亮眼。

今年5月,谷歌在I/O開發者大會上首次公佈Veo,並與演員兼音樂人唐納德·格洛沃(Donald Glover)合作,製作了一段展示視頻。

AI視頻生成仍需改進

長期以來,人工智能視頻生成一直是生成式AI領域的重要分支。谷歌、OpenAI等大模型開發者與RunwayML等較小規模的公司在這一領域展開了激烈競爭,互相追趕。

RunwayML作爲AI視頻生成的先驅之一,最近推出了Gen-3 Alpha Turbo模型,提供了更強大的控制能力。Pika Labs發佈了Pika 2.0,賦予用戶更多控制權,並支持在視頻中加入自定義角色。此外,Luma AI宣佈與亞馬遜AWS合作,將其模型引入Bedrock平臺,以滿足企業級需求,同時擴展了Dream Machine視頻生成模型的功能。

儘管如此,AI視頻生成技術仍需克服創作者和觀衆的質疑。例如,Sora發佈後仍有用戶批評其生成的內容存在違揹物理規律和人體結構的問題,結果表現不一致。

在最近的遊戲獎頒獎典禮上,觀衆對所謂“AI劣質內容”(AI slop)的不信任感也有所體現,反映了人們對AI生成內容質量的擔憂。

不過,部分電影製作人已開始探索AI視頻生成器的潛力。例如,著名導演詹姆斯·卡梅隆(James Cameron)加入了Stability AI的董事會,而演員安迪·瑟金斯(Andy Serkis)也宣佈成立一家專注於AI的製作公司。

谷歌表示,許多用戶對其AI視頻生成工具展現出極大的興趣。該公司透露,YouTube創作者已開始利用VideoFX平臺爲YouTube短片製作背景,從而節省時間並提升效率。

Imagen 3更新

谷歌還對其圖像生成模型Imagen進行了升級,推出了Imagen 3。該模型最近已通過Gemini聊天機器人提供服務,生成的圖像更加逼真且色彩鮮豔。

谷歌表示,Imagen 3能夠更準確地渲染多種藝術風格,包括寫實主義、印象派、抽象藝術及動畫風格。同時,模型在遵循用戶提示方面的表現也得到了顯著提升。

用戶可通過ImageFX平臺訪問並使用Imagen 3。(小小)