Sora終於來了,但卷王可靈已經「拍」上了AI電影
這次,輪到名導們下場整活了。
短片一開場就相當震撼:鍾馗手持一把斬鬼劍,穿行在一片烏漆麻黑、虯枝盤曲的密林中。
伴隨着一陣節奏急促的鑼鼓聲,野兔精、蛤蟆精、長滿骷髏的樹妖接連現身,緊張恐怖的氣氛拉滿。
但一聲長喝下,鏡頭一轉,手機屏幕彈出「勿擾模式」四個大字,底下滾動着被攔截的各種信息:
自動記賬 APP、多人視頻會議、4 個未知號碼來電、183 條微信羣消息、風險網站的跳轉鏈接,以及大 boss 正在打來的電話……
最後畫面緩緩打出「休假期間,百鬼勿擾」的字幕。本以爲是個中式志怪片,沒想到原來是個職場吐槽片。
更讓人驚喜的是,這部由俞白眉導演打造的 5 分鐘短片,竟完全出自可靈 AI 之手。
早在三個月前,快手可靈 AI 就聯合李少紅、賈樟柯、葉錦添、薛曉路、俞白眉、董潤年、張吃魚、王子川、王卯卯等 9 位知名導演共同發起了「可靈 AI 導演共創計劃」,製作出品 9 部 AIGC 電影短片。
12 月 6 日,導演們來交作業了。
視頻鏈接:https://mp.weixin.qq.com/s/Q3dneGt09iTMJBun4XCaEA
自嘲用普通話不會寫劇本的賈樟柯,在自己首部 AIGC 電影短片《麥收》中,藉助可靈 AI 的「對口型」功能,讓機器人說上了山西汾陽話。
《臥虎藏龍》藝術指導葉錦添則採用可靈 AI 的「首尾幀」功能,描繪了一個外星快遞員在太空中的冒險旅程。通過 AI 技術,每一幀畫面都逼真到讓人彷彿置身於一個真實的太空世界。
導演王子川在其作品《雛菊》中,從計算機、機器人等現代科技產物與人的關係展開,大量使用可靈 AI 的「圖生視頻」功能,通過重複蒙太奇、高速剪輯以及特效鏡頭,爲觀衆帶來強烈的視聽衝擊。
在助力影視創作方面,可靈 AI 最有發言權。快手科技副總裁、大模型團隊負責人張迪表示,「2024 年視覺生成領域 AI 大模型發展迅速,可靈 AI 自 6 月發佈以來,已讓衆多用戶感受到其在視頻創作上的能力。」
此次這 9 部具有實驗性質的電影短片,全部使用可靈 AI 進行視頻生成。電影導演完全依託視頻生成大模型,深度參與電影級內容創作,這在中國尚屬首次。
作爲中國首個 AIGC 導演共創計劃的成果,這 9 部 AIGC 電影短片已在快手平臺上線,並被中國電影博物館永久收藏、放映展示。這既是對中國電影歷史的一次致敬,也是對未來電影創作的一次大膽探索。
6 個月迭代十餘次
可靈 AI 是怎麼煉成的?
今年年初 Sora 一把火,徹底點燃了 AI視頻生成這個賽道。
6 月 6 日,快手率先推出自研的視頻生成大模型「可靈AI」,成爲全球首個用戶可用的真實影像級視頻生成大模型。
此後,可靈 AI 又接連上線了圖生視頻、視頻續寫、運動筆刷等功能,不僅在畫面質量、指令遵從和運動幅度等方面有顯著提升,還將生成視頻時長延伸約 3 分鐘,創作者單次生成的文生視頻時長也增加至 10 秒。
儘管取得不錯的戰績,但可靈 AI 並沒有躺在功勞簿上吃老本,而是繼續馬不停蹄地推陳出新。
9 月 19 日,可靈 1.5 模型重磅登場,直接讓畫質質量、動態質量、美學表現、運動合理性以及語義理解提升了一個 level。
全球網友也開啓瘋狂整活模式,社交平臺上涌現出一堆腦洞大開的鬼畜視頻,比如蒙娜麗莎戴墨鏡、熊貓彈吉他、豬八戒吃麪條等。
在商業化方面,可靈 AI 同樣走在行業前列。
可靈 AI 先後上線 Web 端、獨立 App,打造多端跨平臺產品矩陣,並全面開放內測,陸續向國內外的用戶推出會員付費體系。此外,可靈 AI 還面向 B 端開放了 API 服務,涵蓋視頻生成、圖像生成和虛擬試穿等多個模塊。
爲了給創作者提供商業變現新渠道,可靈 AI 於 10 月 18 日啓動「未來合夥人計劃」,率先推出一站式 AIGC 生態合作平臺。
這半年來,可靈 AI 一路「狂飆」,十餘次迭代升級,也讓它有了穩站行業第一梯隊的底氣。截至 12 月 10 日,可靈 AI 已擁有超 600 萬用戶,累計生成超 6500 萬個視頻和超 1.75 億張圖片。
重塑影視行業
可靈 AI 又捲起來
近期,可靈 AI 趁熱打鐵,陸續推出 AI 人臉定製模型和 AI 試衣功能,爲影視創作者提供了更強大的工具支持。
AI 定製模型
攻克「人物一致性」難題
在視頻生成過程中,目前的視頻大模型仍具有較強的隨機性。它們在處理相同的文字描述時,往往會產生不同的視頻主體,這種隨機性難以維持故事的連貫性和人物形象的一致性。
對此,可靈 AI 推出了人臉定製模型。創作者只需上傳 10 段 5 秒的多角度高清視頻,就能自助訓練一個人臉模型。如果想要效果更佳,最多可上傳 99 段視頻。
完成訓練後,就可以在可靈 1.5 模型的文生視頻中,生成人臉一致的視頻結果,滿足創作者生成多個包含同一人物鏡頭的訴求,而且單個鏡頭中的人臉,也會更穩定更清晰。
我們上手體驗了一把,訓練出 Sam Altman 的人臉模型,然後將其放置在各種場景中。
比如,Sam Altman 在餐廳吃意大利麪:
Sam Altman 在餐廳吃水餃:
以及 Sam Altman 在車水馬龍的大街上騎摩托:
還有科幻風格的,讓 Altman 化身鋼鐵俠行走在賽博朋克風格的大街上:
由此可見,可靈 AI 的人臉定製模型在解決人物 IP 穩定性這一行業難題上邁出了新的一步,這也標誌着 AI視頻生成領域實現了又一個重要技術突破。
AI 試衣
影視造型新探索
電影《穿普拉達的女王》中,有一幕經典的蒙太奇變裝。安妮・海瑟薇在不到一分鐘內,換了六身絕美穿搭,每套都堪稱驚豔。
視頻鏈接:https://mp.weixin.qq.com/s/Q3dneGt09iTMJBun4XCaEA
視頻來源:電影《穿普拉達的女王》
那麼 AI 能否實現影視製作中的服裝搭配、造型設計呢?
可靈 AI 新近上線的「AI 試衣」功能就能搞定。它在可圖文生圖模型基礎上,引入衣服 SKU 保持網絡、人物 Pose 姿勢、背景修復等技術,實現任意衣服、任意身材、任意動作的試穿效果生成。
用法也很簡單。只需上傳一張模特照和一套服裝圖,即可一秒變裝,這無疑大大提高了影視製作中服裝搭配和效果展示的效率。
比如,讓安妮・海瑟薇換上一件旗袍,換裝後的衣服不僅自然貼合身材曲線,還能根據風格搭配手包。
再比如,原本身着露肩襯衫外加牛仔短褲的黴黴,經過可靈 AI 一番改造,立馬從休閒風變成淑女風,換裝後的衣褶、打的結都生成得很自然。
給鳳姐換上一件黑色皮夾克,在保持複雜頭飾不變的情況下,它完美保留了毛領子、拉鍊等細節。
最絕的還是大魔王凱特・布蘭切特的變裝。前一秒還是酷颯的黑色緊身 T 恤,下一秒就換上一身白色玫瑰連衣裙。
它細緻展示了裙子絲綢材質,就連玫瑰花的顏色、位置也都一一還原。
世界名畫或雕像也能瞬間換裝。讓身着黑色長袍的蒙娜麗莎「套」上東北大花襖:
給兵馬俑穿上圓領 polo 衫和灰色長褲:
此外,它還可以通過 AI 擴圖和可靈 AI 的圖生視頻大模型,實現全流程素材生成。
比如皇后換上的灰色連帽衛衣,經過 AI 擴圖變成一件寬鬆長袍。
再用鏡頭控制功能將其轉成穿搭視頻。
或者輸入 Prompt「模特左右轉身向觀衆展示身上的服裝」,讓換上皮草的黃仁勳動起來。
從文生視頻、圖生視頻,到首尾幀功能,再到人臉模型、AI 換裝…… 這些創新技術的連續推出,無一不彰顯了快手對於未來影視行業發展趨勢的深刻洞察。
開放共享
引領 AIGC 革新
作爲 AI視頻生成賽道的佼佼者,快手可靈大模型團隊在不斷拓展技術邊界的同時,還公開了一系列技術進展,積極和行業分享技術研發成果。
在 AI視頻生成領域,視頻生成基礎模型和數據是構建高質量視頻內容生成系統的基石。爲了啃下這塊硬骨頭,可靈團隊進行了系統性研究,並率先提出一種給視頻生成模型(Video DiT)量身定製的 Scaling Law 建模方法。
這種方法能夠在較低的計算成本下,提前預測大規模模型的性能表現,幫助研究者優化技術選擇,調整模型參數,從而大幅降低實驗試錯成本。
Video DiT 架構下的精準 Scaling Law 建模
另外,可靈大模型團隊還公開了其視頻訓練數據的部分核心預處理流程,並基於此流程推出了高質量視頻生成數據集 Koala-36M。
該數據集是目前全球領先的大規模高質量視頻 - 文本數據集之一,包含 3600 萬個視頻片段,平均時長爲 13.75 秒,分辨率達到 720p,每個視頻片段配有平均 202 字的詳細描述。
數據處理流程
在與其他數據集的比較中,基於 Koala-36M 數據集訓練的模型展現出了卓越的性能,無論是在視頻質量還是文本與視頻內容的一致性方面均達到了最優。
在視頻生成的可控性和交互性方面,可靈團隊也取得一系列的進展。
比如,發佈了 3D 軌跡控制的視頻生成項目 3DTrajMaster:
3DTrajMaster 能夠精準控制視頻中不同主體在 3D 空間中的運動
多機位視頻生成項目 SynCamMaster:
SynCamMaster 支持多種相機視角變化,例如改變相機方位角、俯仰角、距離遠近等
以及精準視頻風格化項目 StyleMaster:
視頻鏈接:https://mp.weixin.qq.com/s/Q3dneGt09iTMJBun4XCaEA
StyleMaster 支持圖像風格遷移、視頻風格遷移、風格化視頻生成等多種功能
這些項目不僅能夠控制視頻中主體的三維運動,還能根據用戶的文本描述生成多視角視頻,並支持任意藝術風格的視頻風格轉換。
此外,團隊還開發了具有泛化能力的遊戲視頻生成器 GameFactory,能夠使用戶自定義角色動作,享受個性化的虛擬世界體驗。
通過持續開放核心數據和技術組件,以及分享論文技術方案,可靈團隊不僅爲影視創作領域注入了新的動力,也爲未來的創意表達和內容創作開闢了更多可能。
開啓影視創作新時代
回顧百年影史,技術的革新始終是電影產業發展的關鍵驅動力。
從無聲到有聲,從黑白到彩色,從膠片到數字…… 每一次技術的飛躍,都促進電影藝術向更高的階段邁進。
如今,隨着 AI 技術的不斷迭代和突破,以可靈 AI 爲代表的視覺大模型及產品逐漸成爲視覺行業的新基建和新工具,它們正以其獨特的優勢,重塑着影視行業的未來。
在傳統電影拍攝中,導演天馬行空的想法往往會受到物理條件和現實世界的約束,而 AI 則打破了這些界限,創造出任何導演想象中的場景,而這種創作自由度爲電影敘事提供了無限可能。
王子川導演在與可靈 AI 的合作中就深刻體會到文生視頻和圖生視頻技術對電影敘事方式的深遠影響。「可靈 AI 可以把創作者的想象快速變成一個可視化的內容呈現出來,儘可能地模擬出你想要的每一個動態和整體的敘事節奏,包括所有的衝突、畫面內部的調度等」。
在他看來,技術不僅僅是工具,也是敘事藝術的新維度,爲電影敘事提供了一種全新的語言。
另一方面,AI 極大地優化了電影產業成本效率。
曾經,拍電影是一件奢侈的事情。就以影史上燒錢鉅作《阿凡達:水之道》爲例,其製作成本超過 4.5 億美元。按 193 分鐘的片長來算,每分鐘製作費就高達 233 萬美元。如此一擲千金,即使是財大氣粗的好萊塢也一度吃不消。
相比之下,AI 生成電影能夠在虛擬環境中完成大部分工作,大幅降低了成本。同時,AI 的高效率使得電影製作週期大大縮短,這對於追求快速回報的電影產業來說,無疑是一個巨大的優勢。
當然,目前的 AI視頻生成技術仍處於發展階段,在模擬人類情感的微妙變化、創造深度敘事結構以及捕捉現實世界中不可預測的偶然性方面仍存在不足。
不過正如俞白眉導演所說,儘管今天的 AI 作品並不是偉大的作品,但對於走過來的人來說彌足珍貴。相信幾年之後,AI 將製作出非常有水準的電影大作。