讓創意不斷涌現—AIGC視頻生成技術應用
2024年2月,OpenAI發佈了文生視頻的重磅工具Sora,又掀起了一場軒然大波。人們用各種語言在全球的社交媒體上驚呼:現實,不存在了。
Sora的出現,對人工智能的整體發展,到底意味着什麼?
它能夠爲我們做哪些事情?
對教育行業會帶來哪些影響?
人類離通用人工智能(AGI)還有多遠?
本文將和大家一起來了解基於AIGC的視頻生成技術的原理,探索如何使用各類工具生成視頻,讓創意不斷涌現。
2024年2月16日凌晨,OpenAI發佈了一款“文生視頻”的工具Sora,整個世界再次被震撼了。這也是ChatGPT掀起熱潮時隔一年後,又一次史詩級的更新。
3月上旬,由50位AI領域藝術家組成的團隊利用人工智能技術翻拍了90分鐘的經典科幻電影《終結者2:審判日》,這部全球矚目的電影,將對影視行業產生怎樣的顛覆性影響。從文本到圖片,再到聲音和視頻,AIGC技術正以超乎人類想象的速度進化。
有人預料,Sora的出現,可能意味着,通用人工智能(AGI)正在加速到來。接下來,我們一起來了解文生視頻的發展歷程、關鍵技術,探討未來發展。
文生視頻技術發展歷程
生成視頻的方式有很多,可以用攝像設備拍攝,用錄屏軟件錄製,也可以用視頻編輯工具製作生成,更可以通過輸入提示語自動實現視頻生成。前幾種比較依賴設備和軟件技術,最後一種主要是依託模型算法,尤其是人工智能技術。
具體來說,文生視頻是根據給定的文本描述、圖片、視頻等,自動生成符合場景需求的視頻內容,如生成電影、電視劇、遊戲中的虛擬場景、角色、特效等,或根據原始影片生成電影預告片,根據產品文字介紹生成視頻廣告等。
可以說,在當下視頻創作生產領域,人工智能的引入能夠成爲創作體系下的先進生產力,伴隨着圖形處理技術與硬件製程工藝的蓬勃發展,人工智能技術在視頻製作領域中的應用能力也在逐步擴大。
近年來,以Runway爲代表的文生視頻公司在不斷涌現,互聯網行業的巨頭,如谷歌、Meta、微軟,同樣投入人員和精力參與其中,國內目前文生視頻技術還處在初期發展階段。
文生視頻模型的發展經歷了三個關鍵階段:圖像拼接生成階段、GAN/VAE/Flow-Based生成階段、自迴歸和擴散模型階段。近年來,視頻生成在畫質、長度、連貫性等方面都有了很大提升。
第一,圖像拼接生成階段。在早期階段,視頻生成主要基於圖像技術,將每一幀靜態圖像拼接成一個連續的視頻流。利用圖像拼接合成視頻的方法較爲簡單易用,但缺點是生成的視頻質量低,連貫性較差。
第二,GAN/VAE/Flow-based生成階段。隨着機器學習技術的發展,生成對抗網絡(GAN)、變分自編碼器(VAE)以及基於流的模型(F1ow-based model)開始被用於視頻生成任務,這個階段的發展主要集中於改進模型訓練和生成算法。
由於對視頻直接建模的難度很高,一些模型通過將前景和背景解耦、運動和內容分解等方式生成視頻,或基於對圖像的翻譯來改進生成效果,以加強連續幀之間的平滑過渡,但在總體效果上生成視頻的質量仍然不理想,難以實際應用。
第三,自迴歸和擴散模型階段。隨着Transformer、Stable Diffusion在語言生成、圖像生成領域取得成功,基於自迴歸模型和擴散模型的視頻生成架構逐漸成爲主流,自迴歸模型可以根據先前的幀來預測下一幀,視頻較爲連貫自然,但存在生成效率低且錯誤易積累的問題。
一些研究將擴散模型在圖像生成研究中的成果成功遷移到了視頻生成中,通過對圖像生成架構的改進使其適應視頻生成任務,這種方法的優點是生成的視頻具有高保真的效果,但相應地也需要更多的訓練數據、時間和計算資源。
在這個階段,由於算法的不完善,視頻仍然不可避免地出現跳幀現象,並存在內容表現的邏輯性欠缺等問題。
AIGC技術生成視頻關鍵技術原理
視頻內容其實是圖像在時間維度上的疊加,圖片生成算法爲動畫內容的生成奠定了基礎。
文本生成圖像的熱門模型有Midjourney、Disco Diffusion、Stable Diffusion、Dall·E2等。
其基本原理是在無監督預訓練後,根據擴散模型去噪過程中的圖像評估與文本的匹配度,引導擴散模型生成最符合文本的圖像。
爲提高生成圖像的準確度,模型往往支持文本描述與圖片參考共同作爲生成圖像的標準。
AIGC技術可以用於快速生成短視頻、宣傳片、動畫片等視頻內容。
通過圖像生成算法和視頻處理技術,可以自動生成具有特定風格和內容的視頻作品。
此外,AIGC技術還可以用於視頻修復、視頻剪輯等領域,提高視頻的質量和效果。
2019年穀歌發佈的一項預測視頻的人工智能技術——VideoBERT,將Transformer拓展到“文本——視頻”領域,驗證了Transformer預訓練用於多模態學習的可行性。
2021年OpenAI提出的CLIP模型基於Transformer進行預訓練,分別提取文本與圖像的特徵並進行對比,得到“文本——圖像”的相似度,使得兩種不同模態的數據得到關聯。
1.主要模型介紹
(1)自迴歸模型Auto-regressive Model
自迴歸模型(Auto-regressive Model)是採用Transformer進行自迴歸圖像生成。
Transformer能夠模擬像素和高級屬性(紋理、語義和比例)之間的空間關係,利用自注意力機制進行編碼和解碼。
採用該架構模型的文生圖通常將文本和圖像分別轉化成tokens序列,然後利用生成式的Transformer架構從文本序列中預測圖像序列,最後使用圖像生成技術(VAE、GAN等)對圖像序列進行解碼,得到最終生成圖像。
自迴歸模型的特點是穩定性好及生成圖像的邏輯相對合理,這也是模型的優勢所在。
(2)擴散模型Diffusion Transformer
擴散模型的工作原理是通過連續添加高斯噪聲來破壞訓練數據,然後通過逆轉這個加噪過程來學習恢復數據。
訓練後可以使用擴散模型來生成數據,只需通過學習到的去噪過程來傳遞隨機採樣的噪聲。
擴散模型是一種潛變量模型,逐漸向數據添加噪聲,以獲得近似的後驗。在原有語義分割模型的基礎上,升級成了可伸縮性更強的Transformer。能夠通過增加參數規模和訓練數據量來快速提升模型的性能表現,模型在圖片生成任務上也表現優異。
實踐表明,該模型降低了對算力的需求,展現了良好的視頻生成能力。
(3)時空圖像塊Spacetime Patch
視頻其實是記錄了時空信息的載體,時空碎片Patch可以看作是三維空間的點集(x,y,z)的運動(t),或者說其實是個四維時空模型(x,y,z,t)。
Sora和Lumiere之類的生成模型的第一步都是如何從中提取出相應的關鍵信息。
以Sora爲例,能夠將視頻轉換爲若干個時空區塊,並通過視覺塊嵌入代碼實現多鏡頭無縫切換。這使得生成的視頻具有高度可擴展和有效的視頻數據處理能力。
碎片Patch已經被證明是一個有效的視覺數據表徵模型,且高度可擴展表徵不同類型的視頻和圖像。
將視頻壓縮到一個低維的潛變量空間,然後將其拆解爲時空碎片Spacetime Latent Patches。用戶提供的圖像或視頻可以自然地編碼爲時空碎片Patch,用於各種圖像和視頻編輯任務。
2.AIGC文生視頻技術
目前,AIGC技術在文本生成和圖像生成領域已經取得了顯著的成果。其中,ChatGPT、Google Bert、Stable Diffusion和Midjourney V5等模型已經被廣泛應用於文本和圖像生成方面,展現出了強勁的創作輔助能力和製作提效能力,也帶動了視頻創作與製作領域的創作形式和製作效率的驚人變化。
構建類似Sora的應用最重要的是針對視覺數據的建模,而碎片Patch已經被證明是一個有效的視覺數據表徵模型。如圖1所示,圖像或視頻可以自編碼爲時空碎片Patch,用於各種圖像和視頻編輯任務。
圖1
Sora的出現其實是在時空潛變量碎片上學習到了可視層面或者表面意義上的狀態空間模型SSM(State Space Model),從而在視頻生成上展現出強大的涌現能力:人和景物在三維空間移動一致性;長程時間相關性與對象持久性,如一個事物被遮擋後也能夠擴展重現,事物與周邊世界的互動性,仿真數字世界等。
OpenAI認爲,持續擴大視頻模型的規模,將可以用來模擬整個物理和數字世界,畢竟它們純粹是尺度的現象。
3.部分文本生成視頻的模型
清華CogVideo,是首個開源的中文文本生成視頻模型,基於自迴歸模型。該模型能夠更好地對齊文本和視頻剪輯,顯著地提高視頻生成的準確性,這種訓練策略賦予了CogVideo在複雜語義運動的生成過程中控制變化強度的能力。
基於預訓練的文本生成圖像模型:通過微調預訓練的文本生成圖像模型,節省了從頭開始預訓練的花費,提高了生成的效率。
字節MagicVideo,是字節跳動提出的一種基於潛在擴散模型的高效文本到視頻生成框架,MagicVideo可以生成與給定文本描述一致的平滑視頻剪輯。
MagicVideo的核心在於關鍵幀生成,通過擴散模型來近似低維潛在空間中16個關鍵幀的分佈,結合具有高效的視頻分配適配器和定向時間注意力模塊的3D U-Net解碼器,用於視頻生成。
爲了改善生成的視頻中的像素抖動,MagicVideo提出了一種新穎的VideoVAE自動編碼器,以實現更好重建。
谷歌Phenaki,由Google Research開發製作,該模型是第一個能夠從開放域時間變量提示中生成視頻的模型,能夠根據一系列開放域文本提示生成可變長度的視頻。
通過將視頻壓縮爲離散令牌的小型表示形式,詞例化程序使用時間上的因果注意力,允許處理可變長度的視頻。
Phenaki是第一個可以通過一長串的文本描述並且可以隨着時間的推移而變化以生成長達2分鐘連貫視頻的模型。
使用工具,製作創意短片
AI生成能夠爲作品賦予獨特風格和想象力,爲創作者提供靈感,配合高超的剪輯技巧和敘事能力,製作出超乎想象的效果。
隨着算法、預訓練模型和多模態技術的日益完善,越來越多的人工智能生成內容作品涌現出來。
目前,雖然Sora還不能使用,但我們也可以嘗試用以下工具來製作創意視頻短片。
1.視頻生成工具推薦
在國外已經有不少優秀的視頻生成工具。
首先是Runway,一個強大的AI視頻製作工具,綠幕摳像、視頻合成等都可以實現。用戶可以創建併發布預先訓練好的機器學習模型,用於生成逼真的圖像或視頻等。
Runway發佈的Gen-2模型允許用戶從文本、圖像和視頻片段中生成視頻內容。Runway已經被廣泛應用於電影、電視與廣告等領域,電影《瞬息全宇宙》背後的視覺效果團隊使用了Runway的技術來幫助創建某些場景。
其次是Pika,一個AI視頻生成和編輯工具,是由美國AI初創公司Pika labs在2023年11月發佈的。
用戶只需輸入文字或圖像,即可快速生成3D動畫、動漫、卡通、電影等風格的視頻。
再次是Pictory,一個基於人工智能的在線視頻製作編輯器工具,可以幫助用戶快速、簡單、高效地製作各種類型的視頻。基於強大的AI技術和豐富的素材庫,就可以輕鬆創建專業品質的視頻,並分享到各個社交媒體平臺上。
在國內也有很多值得期待的產品。
首先是剪映,它是2019年由字節跳動旗下的一家公司推出的短視頻編輯工具。剪映具有圖文成片功能,用戶只需要輸入文字,就能夠自動生成文案,選擇聲音後就能夠生成圖文和音樂結合的視頻,非常方便。
其次是智影,它是騰訊出品的一個雲端智能視頻創作工具,無需下載安裝,只需通過瀏覽器訪問,就可以在線視頻剪輯和製作。
騰訊智影基於人工智能技術打造的智影數字人播報能力,以及聯合更多騰訊AI能力推出的素材管理、AI文本配音、自動字幕識別、文章轉視頻、去水印、視頻解說、橫轉豎等功能,幫助用戶更好地進行視頻化的表達。
再次是近期由阿里巴巴團隊發佈的生成視頻模型EMO(Emote Portrait Alive),用戶輸入一張參考圖和聲音,該框架就能夠生成具有豐富面部表情和頭部姿勢的聲音肖像視頻,以及實現無縫對接的動態小視頻,最長時間可達1分30秒左右。
2.視頻生成工具體驗
下面,以“剪映”爲例,演示自動生成視頻。
①使用“圖文成片”功能,輸入主題,如“小學生開學了”,選擇文章想要表達的話題類別,如“學習成長、知識海洋”,再選擇“視頻時長”,如“1~3分鐘”,然後點擊下方的生成文案按鈕,就會自動生成右側的文案內容(如圖2)。文案可以選擇不同風格,並進行修改。
圖2
②在確定文案後,選擇不同類型的音色和生成視頻的方式就能夠自動生成視頻了。
③等待一會後,剪映就會自動生成一個完整的視頻,字幕、圖像、配音、背景音樂等一應俱全,且適配度較高(如圖3)。我們還可以使用剪映的強大編輯功能,做進一步修改完善。
圖3
Sora等技術對教育的影響
Sora等AIGC技術的發展如此迅猛,衝擊着各行各業。作爲教育工作者,筆者不禁思考,Sora等技術會給教育帶來哪些影響?
對教師而言,Sora等技術帶來的影響有 :
①增強教育資源生成效果。 面對枯燥生硬的知識內容,教師以往只能通過文字、語言或者形體動作來闡釋,其效果明顯受限。 而AIGC生成視頻技術能夠用較短的時間展現全景逼真的效果,給學生帶來完全不一樣的體驗,也必然增強教學效果,同時,生成的海量資源也將成爲教師的教學寶庫,幫助其豐富教學內容,提高教學效果。
②降低教育資源製作成本。Sora等技術不僅使得不同地區、不同層次的學校都能接觸到高水平的教學視頻,還將深刻影響傳統的教學方法和理念。教師可以利用文生視頻模型的海量資源來激發學生的探究精神和創造力,提高學習效率,這樣不僅可以激發學生的學習興趣和動力,還可以幫助他們更深入地理解和掌握知識。
對學生來說,Sora等技術帶來的影響有:
①高效展示學生生成作品。學生內心往往有很好的創意想法,但受限於工具和表現能力不能很好地表達,視頻生成技術只需輸入少量文字就可以展示全景效果,讓創意快速成爲現實。
②輕鬆實現個性化沉浸式學習。根據學生的學習特點和進度,多模態智能對話,推薦適合的學習資源和學習路徑,實現因材施教。
此外,Sora等技術也將打破時空界限,讓優質教育資源得以共享,更好更快地實現教育公平;
改變教育和學校的形態,使得學習和互動將會無處不在;
打破學校的物理邊界,讓教師和學生足不出戶也能進行沉浸式學習和交流。
思考與展望
面對Sora等技術的衝擊及其對教育的影響,我們也要注意到技術帶來的諸多問題。
首先是版權問題,AIGC模型進行學習、訓練的樣本庫來自網絡大量的數據信息,生成內容是基於樣本信息的再創作。
雖然部分模型官方以付費方式出售生成內容的使用版權,但對於樣本的原作者是否構成侵權卻無法界定,還缺少明文條例用以說明AIGC的版權問題。
依照其快速發展的趨勢,我們期望未來能夠完善體制,以保障原創者的權益。
其次是安全問題。AIGC追求還原真實性,若有可能被不法分子利用生成違法信息、宣傳虛假內容會造成嚴重後果。
因此,模型供應方需篩選文本敏感詞彙,產出數據也需要第三方合理監管、跟蹤。
還有一個更爲重要的問題是人工智能教育問題,人類如果無法掌握人工智能技術,那將更爲可怕。
面向未來的人工智能教育是大勢所趨,我國一直非常重視人工智能教育,大力提倡在中小學、高校開設人工智能課程。
我們可喜地看到,南京大學在2月27日發佈了2024年9月面向全體新生開設的“人工智能通識核心課程體系”總體方案,擬建設“1+X+Y”三層次的課程體系,學生經過系統的學習和訓練,滿足一定條件,可以獲得人工智能專業修讀證書。我們可以期待,這樣的課程措施越來越多。
隨着Sora等技術的發展,AIGC技術將成爲未來媒體行業發展的主流趨勢,新技術正在助力媒體融合轉型迭代,語言大模型對行業的影響還會加劇,當然也包括教育領域。
總之,大膽地去做吧,你只管出點子、給提示,AIGC視頻生成技術會讓你的創意不斷涌現。
本文作者:
倪俊傑
杭州師範大學經亨頤教育學院
浙江省桐鄉市鳳鳴高級中學
文章刊登於《中國信息技術教育》2024年第07期
引用請註明參考文獻:
倪俊傑.讓創意不斷涌現—AIGC視頻生成技術應用[J].中國信息技術教育,2024(07):69-73.
歡迎訂閱
點擊圖片即可訂閱