字節音樂大模型炸場!Seed-Music發佈,支持一鍵生成高質量歌曲

機器之心發佈

機器之心編輯部

放假期間,本 i 人又領教了被 e 人支配的恐懼。

跟 e 人朋友出門玩,先被拉去飯局尬聊,再和陌生人組隊打本,下面這首歌真是唱出了 i 人心聲。

試聽鏈接:https://mp.weixin.qq.com/s/bnIR4zaEoJEZA4AZjGl50g

後兩天假期就舒服多了。通關了黑神話悟空還不過癮,我在家補經典 86 版的《西遊記》。無論多少次重溫,還是會被大聖的魅力吸引。

試聽鏈接:https://mp.weixin.qq.com/s/bnIR4zaEoJEZA4AZjGl50g

這歌怎麼樣,是不是感覺鬥戰勝佛活靈活現,如在眼前?

實際上,兩首歌都並非真人所作,而是全靠字節最新發布的音樂大模型 ——Seed-Music。

Seed-Music 官網:https://team.doubao.com/seed-music

據豆包大模型團隊官網介紹,Seed-Music 是一個具有靈活控制能力的音樂生成系統,包含 Lyrics2Song、Lyrics2Leadsheet2Song、Music Editing、Singing Voice Conversion 四大核心功能,具體涵蓋十種創作任務。

剛發佈,Seed-Music 就已經在海外平臺引起了關注。

有音樂人表示:“(Seed-Music)生成的音樂質量比同類模型都高出一籌。已經期待它能作爲一項服務被使用。”

AI 音樂難點重重

Seed-Music 放新招

雖說 AIGC 很火,但相較於語音合成、文本生成,音樂生成面臨着更爲複雜的挑戰。

目前,業界在 AI 音樂領域的研究主要集中在以下幾個核心問題:

無論是傳統的音樂輔助創作工具,還是當下熱門的 AI 音樂生成的研究和產品,面向上述問題,均還處於摸索階段。

比如針對音樂信號複雜性,Google、Meta、Stability AI 等各家在音頻、演奏、曲譜層面上做了建模嘗試,效果各有優缺,而且各家的評估方法均有侷限,人工評測仍必不可少。

面對這些挑戰,字節 Seed-Music 採用了創新的統一框架,將語言模型和擴散模型的優勢相結合,並融入符號音樂的處理。

視頻鏈接:https://mp.weixin.qq.com/s/bnIR4zaEoJEZA4AZjGl50g

通過官方視頻展示,我們發現,與其他音樂模型相比,Seed-Music 能更好地滿足不同羣體的音樂創作需求。

滿足多元需求

專門提供高靈活編輯

我們仔細研究了 Seed-Music 的音樂生成 demo,發現其能力真・豐富多樣,且 demo 人聲效果逼真度,絕了。

接下來,我製作成幾個短視頻,向大家直觀展示下效果。

對於專業音樂人來說,使用 AI 工具輔助創作,最大痛點莫過於無法對音樂進行編輯。

Seed-Music 創新點之一,在於能通過 lead sheet(領譜)來編輯音樂,這增加了音樂創作可解釋性。

在官方視頻的 Lead2Song 部分,可以看到同一版歌詞,通過領譜增減音軌、改變輸入風格後,就能得到不同結果的歌曲,顯著提高模型的實用性。

除領譜外,Seed-Music 也能直接調整歌詞或旋律。比如,“情人節的玫瑰花,你送給了誰 / 你送給別人”,歌詞修改前後,旋律保持不變,音樂的連貫性得以保持,過渡效果非常平滑。

視頻鏈接:https://mp.weixin.qq.com/s/bnIR4zaEoJEZA4AZjGl50g

即使是音樂小白,Seed-Music 也提供了簡單有趣的創作場景。

文生音樂這一必備能力,自然少不了。

輸入內容除了文本,也可以是音頻,它能基於原曲輸出續作或仿作。下面這首英文歌曲“搖身一變”,仿寫成了中文古風歌。

視頻鏈接:https://mp.weixin.qq.com/s/bnIR4zaEoJEZA4AZjGl50g

哪怕輸入臨時錄製的 10 秒人聲, Seed-Music 的零樣本音頻轉換技術都能夠將其轉化爲流暢的聲樂。

驚喜的是,Seed-Music 能將中文人聲輸入轉換爲英文聲樂輸出,實現了跨語種人聲克隆,擴大了音樂小白們的創作空間。

視頻鏈接:https://mp.weixin.qq.com/s/bnIR4zaEoJEZA4AZjGl50g

統一框架

實現高質量音樂生成

那爲什麼 Seed-Music 能做到生成高質量音樂、提供靈活編輯能力呢?

來自豆包大模型團隊的研究者們表示,這主要得益於統一框架,關鍵技術貢獻如下:

Seed-Music 架構

根據官方論文,如上圖所示,從高層次來看 Seed-Music 有着統一的音樂生成框架,主要包含以下三個核心組件:一個表徵模型,用於將原始音頻波形壓縮成某種壓縮表徵形式;一個生成器,經過訓練可以接受各種用戶控制輸入,並相應地生成中間表徵;一個渲染器,能夠從生成器輸出的中間表徵中,合成高質量的音頻波形。

基於統一框架,Seed-Music 建立了三種適用於不同場景的中間表徵:音頻 token、符號音樂 token 和聲碼器 latent。

Seed-Music pipeline

如圖所示,中間表徵對整個系統來說很重要,每種表徵都有其特點和適用場景,具體選擇取決於用戶的音樂創作任務。

在上述鏈路中,Seed-Music 經歷三個訓練階段:預訓練、微調和後訓練。預訓練旨在爲音樂音頻建模建立強大的基礎模型;微調包括基於高質量音樂數據集的數據微調,以增強音樂性,或者針對特定創作任務提高可控性、可解釋性和交互性的指令微調;後訓練是通過強化學習進行的,從整體上提高了模型的穩定性。

此外,在推理時,樣本解碼方案對於從訓練模型中誘導出最佳結果至關重要。研究者們同時會應用模型蒸餾和流式解碼方案來提高系統的延遲。

音樂生成技術

激發社交新場景

回顧過往,新技術往往能夠激發新創新。可以看到,Seed-Music 將音樂生成自然地嵌入不同創作羣體的工作流中,使 AI 音樂具備獨特的社交屬性,這是其與傳統音樂創作模式的不同之處。在未來,或許會由此涌現創作音樂、欣賞音樂、分享音樂的新場景。

就目前觀察到的業界各玩家動向來說,Meta 和谷歌在 MusicGen 和 MusicLM 論文發佈、Lyria 短暫內測之後,暫無更多消息放出。Suno、Udio 更爲活躍,正側重於改善效果。Seed-Music 此番在技術研發層面提供了更多可能。

期待 Seed-Music 乃至 AI 產業各類玩家能在未來獲取更多突破。

最後,歡迎對 Seed-Music 感興趣的朋友訪問豆包大模型團隊官網 https://team.doubao.com/seed-music,瞭解更多相關的信息。

https://team.doubao.com/en/special/seed-music?view_from=jiqizhixin