這家AI公司,做出了全球最大的原生3D大模型

作者|八度

“在淘寶上,有特別多做3D創意設計的店鋪,他們一年的銷量能達到幾十萬件。原先他們是半人工操作,現在我們現在能夠藉助AI、通過3D生成直接打印就可以了。”DreamTech創始人張飛虎向「甲子光年」展示道。

DreamTech雖然是一家成立僅9個月的AI創業公司,但其戰略路線明確,專注於原生3D生成,並且團隊在這一領域的經驗豐富。

CEO張飛虎博士畢業於牛津大學,師從英國皇家科學院、皇家工程院兩院院士Philip Torr。Philip Torr教授在3D建模方面有重點研究。此外,DreamTech創始團隊成員還曾成功創立多家3D領域標杆公司,後被蘋果、谷歌等業界巨頭收購。

這一次,DreamTech的成立,對於張飛虎和其團隊來說,都是新的出發。不過在張飛虎看來,創業並非心血來潮,而是籌備已久:3D生成,終於走到了商業化的門前。

2023年下半年,DreamTech團隊發現了3D技術的新方向——能夠實現端到端的生成模型,類似於圖像或視頻的處理方式。緊接着,他們又攻克了3D模型表徵的關鍵難題。這兩者技術突破,讓張飛虎和他的團隊看到了希望,隨即開展了一系列緊鑼密鼓的動作。

2024年5月,DreamTech團隊公佈了其研發的3D生成大模型Direct3D的算法研究論文,這也是全球首個公開發布的具備可擴展性的原生3D生成大模型。該學術成果受到行業的廣泛關注,Meta、Apple、Adobe等企業相繼跟進該研究論文。

8月份,DreamTech團隊又推出了最新的Direct3D-5B版本,具備50億參數規模,成爲目前全世界參數規模最大的3D生成大模型,這一模型具備scaling up能力,基本結論爲:3D生成模型參數量每增加4倍,生成結果質量精度提高2倍。

具體來說,在3D領域,動畫人物的手指等精細部位也可以被立體地生成。在模型幾何結構規整度、細節精度上,Direct3D-5B也都實現了明顯的提升。

Direct3D-1B(上)與Direct3D-5B(下)對比

在產品即將正式上線前夕,張飛虎接受了「甲子光年」的專訪,詳細介紹了3D生成過去的痛點、如今在3D數據合成、算力、scaling law等方向上的突破。同時他還講述了今年對DreamTech團隊來說,最爲重要的一件事。

以下爲採訪內容,經過編輯整理。

甲子光年:去年12月,DreamTech公司成立。當時,是什麼契機促使你們決定回國創業?

張飛虎:實際上,創業這個想法我準備了比較長的一段時間,但確實在去年下半年纔開始融資。

當時,我們發現了一個核心的技術收斂:3D領域可以像圖像或視頻一樣做出端到端的生成模型,這是其他公司或研究人員尚未發現的。我們看到了3D領域scaling law的能力。

去年上半年還出現了一項新的技術進展,叫DiT架構,它被應用於文生圖。緊接着,我們自己解決了一個3D模型表徵的問題,這是一個關鍵問題。將這兩者結合起來,我們看到了希望,認爲這個項目可以開始實施,並有望在今年(2024年)商業化。

簡單來說,去年下半年我們判斷今年可以開始進行3D生成的商業化,而在此之前這是不可能的。

甲子光年:你剛提到爲創業籌備了很久,是你在此之前一直在等這個時機?

張飛虎:對,其實在2022年初,我們就開始進行相關的研究和開發。那年,我們在WAIC大會上展示了相關的demo,當時關注度也比較高。但當時的技術水平僅限於製作一些演示,而且速度非常慢,可能需要一個小時才能生成一個3D模型,效果也不理想。我當時看到這個情況,就覺得它還沒有達到商業化的程度,所以我們一直在不斷地打磨和完善相關的技術。

直到去年,我們發現了新的算法實現方案,情況不一樣了。只要算力夠,我們能立馬去訓練這個模型並開展商業化,所以我們在去年下半年啓動創業。

甲子光年:聽起來,你們關於創業的整個決策過程是比較順其自然的,並沒有太多困惑和矛盾?

張飛虎:我認爲這是我們最自豪的一點。我們的戰略決策做得就比較對,比如與市場上其他一些做3D生成的公司相比,包括海外的公司,他們在開始時選擇了2D轉3D這樣一套方案,花費了幾千萬去做這樣一個模型或者上線產品。

但我們一直堅持做端到端的原生3D,當我們推出新方案後,舊的方案就全部被淘汰了。即便你投入了數千萬甚至上億的資金,在新的方案出來之後,所有的資源都要推倒重來。

我們在戰略決策上,由於我們自身的經驗比較豐富,我們團隊是做3D領域起家的,也做過公司並出售過,在3D領域有十年以上的一個積累。所以我們在戰略決策時判斷哪些算法可行,哪些事情該做,我們的方向就比較準確。

在融資拿到錢之後,我們就立馬就把這套方案給做出來了,基本上沒有浪費什麼時間和資源。

甲子光年:在你看來創業最重要的是什麼?或者說,你在創業之初的一個目標是什麼?

張飛虎:我的目標其實當時考慮得很簡單。我2022年博士畢業前,也就是2021年,我已經拿到了包括Google、Facebook等大公司的offer,也拿到了教職的邀請。

但我當時想的是,我想要做出一些影響力較大的東西,而不是僅僅在學校或大公司的研究所裡繼續做一些小規模的研究。

比如,我想要開展一些大型項目,但無論是在學校還是在大公司,我都做不到這一點。因爲在大公司,我不可能一進去就能獨立開展一個非常大的項目,比如像現在的3D生成項目。

另外,在學校裡,資源是有限的,尤其是數據和算力資源,這是學校無法提供的。因此,我當時就想,如果想要做一個有影響力的大型項目,我就出來自己搞唄。這就是我當時的想法。

甲子光年:你剛剛提到,在高校中進行這項工作時,數據和算力無法滿足需求,是嗎?

張飛虎:對,首先,數據方面確實是一個難題。比如我們現在動輒需要處理的數據量達到1PB級別,這對於高校來說是無法支撐的。不僅是國內高校,即便是世界頂尖的學府,像牛津大學這種,儘管有龐大的經費,但它的算力也是有限的。

實際上,我們要做一些好的工作,其實大部分情況下還是需要跟外部公司做合作的,算力和數據,都存在這樣一個瓶頸。

甲子光年:創業時,如何解決數據算力難題?

張飛虎:第一個是數據這塊,3D數據的獲取實際上非常困難。我們採取的策略是數據合成。

在我博士研究期間,我的課題是3D AI結合數據合成。因此,我們從2022年開始到2023年初,持續在做3D數據合成的工作,合成了非常多3D的數據。比如你剛纔看到的那些二次元角色的數據,都是我們合成的成果。

利用合成的3D數據訓練AI,這是我們的獨家秘籍。

甲子光年:你們已經合成了2000萬的數據?

張飛虎:對,3D數據的成本非常高,單個3D資產的平均製作成本大約是1000美元一個。

如果人工製作這些數據,成本將是2000萬乘以1000美元,所以人工製作是不現實的,全世界沒有那麼多人力可以完成這樣的工作,因此3D製作的難度非常大。唯一的解決方案就是數據合成。

我們在這塊做了比較領先的一些方案,而且把它做到了一個全球領先的程度,甚至有些大公司可能會來挖我們的人才。核心原因在於,我們不僅理解了算法,而且擁有大規模的數據支撐。這些數據的規模可能比世界上任何一家公司都要大。

數據合成是一套非常複雜的系統,它需要日積月累的的經驗和系統構建,以及反饋機制。它是一個機器學習系統,類似於我們早年看到的AlphaGo,涉及強化學習和監督學習,然後通過整個反饋過程,組合出一些真正有用的成果。

甲子光年:數據合成是從去年開始的嗎?

張飛虎:是的,去年年初開始,到現在有一年半了。

相比之下,其他公司可能需要購買數據,或者花錢去爬取數據,這當然存在一定的法律風險,屬於灰色地帶。另外,購買數據的成本非常高。所以我們的優勢在於可以用低成本獲取大量合成數據。

甲子光年:你們是最開始就意識到數據是一個痛點,所以很早就往這個方向去突破了,是嗎?

張飛虎:確實,我們在算法之前,去年上半年,我們已經開始搞數據了。

因爲我們堅定認爲(數據)這件事比較重要,我對這方面的認識比較足。我所在的牛津實驗室是世界上非常知名的能夠進行數據合成的實驗室,爲蘋果公司提供過相關的服務。我的導師認爲,在算法層面,它並沒有大家想象的那麼困難,你不去做別人也會去做,但數據工作屬於基礎研究的領域。

整個AI領域都是建立在數據基礎之上的。例如,我們看大語言模型,Facebook開源的Llama 3與Llama 2相比,它的模型本身並沒有大改,它只是更新了數據,將訓練數據清洗得更乾淨,並使用了更多的訓練數據,它的效果就直線提升了。實際上,數據纔是AI的一個本質問題。

有了數據的支撐,我們可以疊scaling law了。我們最近在研究中發現了一個非常重要的規律,在5月份時我還沒有完全搞清楚,但最近我們迭代出新版本的模型後,發現了一個特別重要的事情:3D生成領域的scaling law,咱們看大語言模型生成了scaling law,圖像模型生成了scaling law。

那到3D生成領域的scaling law是怎樣的呢?

我們發現:模型參數每提升4倍,模型的精細度就能提高2倍,也就是說我們生成的圖像質量可以提高2倍。比如原來我能做1釐米厚度的東西,我現在就能做到5毫米。

比如從1B到現在公開的5B,精細度的提升非常明顯。1B的手指有些彎曲,但5B的手指就非常直了。

甲子光年:在你看來,目前市場上有哪些算是DreamTech的競品?

張飛虎:我們在數據上的優勢是任何一家公司都不具備的,哪怕是大公司。在算法層面上,我們迭代得非常快,實際上各家可能主要在參考我們的一些相關研究,我們推動了這一波的技術革新。

長遠看,數據一定是DreamTech最大的優勢。

短期內,比如半年內,我們在算法上的優勢也很大。從長遠來看,可能取決於我們擁有多大規模的數據。這是一個持續的過程,而且是一個門檻非常高的領域。

甲子光年:我看過資料,你們目前已經開發了兩款產品,這其中哪款產品會被優先開發?

張飛虎:你所看到的是Neural4D,這個產品是爲創作者設計的。

另一款產品則是名爲AnimeIt的應用程序,它具備聊天和陪伴等功能,更偏向於C端市場。

我們的商業化進程是有明確時間節點的,特別是在10月份,我們將重點放在創作者產品這一部分,並計劃做一些活動,例如近期我們做了一個CuteMe的創意玩法,用戶可以通過照片創作Q版風格化的3D形象,讓普通用戶也可以自由發揮創意。

Direct3D-1B 3D打印件效果

甲子光年:你們會爲客戶提供哪些服務模式?

張飛虎:我們的服務模式之一是創意平臺,通過我們的產品,設計師可以註冊賬號,並推出一些增值功能,例如付費用戶能夠體驗到更多的功能。用戶在網站上生成內容後,可以進行編輯,並利用工具製作動畫,這些操作都可以在網站上完成。

用戶可以根據自己的需求使用這些內容,比如遊戲開發者可以將其用於遊戲開發,動畫師可以用於動畫製作,或者3D設計師可以將其打印出來,這是針對創作者的服務,我們稱之爲小B端的創作羣體。

對於普通用戶,可能平時沒有意識到自己是3D資產的消費者,但實際上大衆都是3D內容的消費者。

例如,在玩遊戲時,我們可以爲普通用戶開放一個APP。這個APP的功能允許用戶創造角色,包括Q版或二次元風格的角色,並與之進行互動,比如聊天和社交體驗,還可以爲角色裝扮,類似於過去的QQ秀。

此外,用戶還可以將這些角色打印出來作爲禮物送給他人,比如將家人的形象轉換成風格化的角色後,作爲禮物送給朋友或家人。

用戶還可以在APP上玩遊戲,甚至自己製作小遊戲,因爲我們的生成技術非常強大,用戶可以創造出場景,拼接資產,享受無限的可能性,比如自己創造遊戲等。

甲子光年:現在生成需要多長時間?

張飛虎:大約1~2分鐘,這取決於後臺用戶排隊的情況。如果等待時間較長,很可能是因爲後臺用戶太多。去年這個時候,可能最快也需要20分鐘。

甲子光年:你們是什麼時候確定走二次元路線?

張飛虎:我們在做3D生成的時候進行過市場調研,普通用戶大多不喜歡那種真實還原的效果。比如我給自己拍一張照片,然後做成100%還原的樣子,普通用戶並不喜歡,他們喜歡的是風格化、可愛、卡通化的效果。

而且,這種風格的受衆和市場規模要比其他風格大得多。比如二次元在整個3D內容消費市場中佔據了50%的份額,加上Q版風格的,兩者加起來超過了80%。

所以去年我們確定以風格化作爲主要的路線。我們不會追求100%的真實還原,而是會進行風格化處理,比如你輸入的是一個人的真人圖像,我們可能會將其轉換成二次元形象,或者轉換成Q版形象。

甲子光年:基於你剛剛提到的全世界最大,包括之前也有資料顯示是全球首個原生3D大模型。我如何辨別或證明是否爲全球首個?

張飛虎:你可以看到我們5月份最早發表的一篇關於原生3D的論文。這是目前公開發表的第一篇達到這種水平的論文。在此之前,確實還沒有類似的研究,大家都在嘗試其他的方案,但我們的這套方案是目前大家公認的。例如,我們瞭解到歐美的大企業都在跟進這套方案,都在朝這個方向去做。

甲子光年:外界會對3D市場有刻板印象,認爲3D的AI應用會是一個相對小衆的市場,更適合設計師人羣。你怎麼看待這種觀點?

張飛虎:其實我剛纔介紹行業的時候,每一個行業都非常非常大。當時我們在做市場調研的時候,就發現一個問題,比如現在非常熱的圖像和視頻,大家傳統意義上認爲市場比較大,但大家會發現一個點,就是大衆不太願意爲這些付費,因爲互聯網上這些東西都是天然存在的,是免費的。

但在3D領域,並不是如此。在3D領域,我們平時獲取資產時,要麼自己訂閱軟件,比如在海外,當付費習慣較好時,使用的都是正版軟件,如3D Max等建模軟件,年訂閱費用約爲1萬美元。

而當用戶需要購買模型時,這與圖像和視頻也不一樣,因爲圖像和視頻可以輕易地截圖或錄製。但購買3D資產或虛擬資產時都需要付費,比如在sketchfab上購買一個最簡單的資產,可能需要花費大約10到15美元。即使在國內,用戶不太願意付費的情況下,他們也會知道在淘寶上購買盜版模型可能需要花費幾塊錢。

所以這些是3D領域與其它領域不同的地方,我們不必擔心用戶不願意付費的問題,他們的付費習慣非常好,也願意爲這些3D資產付費。

另一個支撐這個行業龐大的因素是其下游應用場景非常廣泛。

例如,遊戲行業就是一個非常大的市場。再比如3D設計行業,它是一個萬億級別的行業。我們接觸到的許多用戶,比如珠寶設計師、鞋類設計師,或者其它類型的設計師,他們可能會設計出某個產品,生成一個3D模型,並將其製作成3D打印產品。此外,有些用戶可能會購買一個花瓶,如果只是普通購買,可能只需要花費10元錢,但如果這個花瓶是用戶自己創造的、獨一無二的設計,那麼他們可能願意花費幾百元。

在歐洲和國內,年輕人在創業和設計領域的需求非常大。具體來說,有幾個非常大的行業。首先是創意設計領域,我們一直認爲它是一個千億甚至萬億級別的市場,這完全依賴於3D技術,因爲它需要製作實物。另一個是遊戲行業,我們看到了《黑神話:悟空》上線幾天就賺取了十幾億的收入,它完全是基於3D技術。

當我們的3D生成技術成熟後,我們認爲即使是小團隊也能夠開發3A級別的大作。

目前3D應用最困難的部分還是模型的製作,可能需要花費數年時間進行建模和掃描。但在3D技術成熟後,開發這類3A大作遊戲將變得非常簡單。還有動畫行業,現在3D動畫正成爲主流,動畫也是一個千億級別的市場。

爲什麼說3D動畫的體驗感要比2D好很多?2D動畫是一張張圖畫,然後將它們連接起來使動畫動起來。而3D動畫則是先建立3D模型,然後通過動作捕捉技術,讓人的表情和動作驅動模型,最後渲染出一部動畫,其流暢性和連貫性都非常好。還有大家期待非常高的AR和VR行業,整個生態完全依賴於3D技術。

甲子光年:3D其實是在迭代這些行業?

張飛虎:對,它會讓這些行業做得更好玩,而且讓每一個用戶都可以獨立創作。同時,比如我們期待的元宇宙和AR、VR技術,爲何之前的發展並不成熟,沒有起來?核心原因有兩個:一是內容太少,無法生產出好玩的內容。3D建模太難了,沒有這類資產和數據,不像圖像或視頻那樣簡單,3D建模的難度確實很大。

另一個原因就是硬件設備還不成熟。設備的成熟可能是一個漸進的過程,當然,這需要硬件公司來解決。

我們把3D內容這塊做好,這是3D生態的一個基礎技術,它的重要性就像現在的文字和圖像在互聯網上的重要性一樣,在XR這個生態系統中,3D是一個基礎元素級別的關鍵要素。

甲子光年:你認爲今年對DreamTech來說最重要的一件事是什麼?

張飛虎:我們認爲最重要的是在年底前完成15B至16B模型,也就是我們稱之爲XL模型的迭代。

這個模型對我們的數據處理要求非常高,它意味着我們從數據合成階段進入到數據閉環階段。同時,在這一基礎上,我們將開發出更多的商業應用。這是我們今年年底的目標,就是訓練出一個具有160億參數的模型。

目前,由於算力限制,我們實際上並沒有使用全部數據進行訓練,例如我們的5B版本模型僅使用了大約400萬數據。而XL模型將使用全部2000萬訓練數據。

Direct3D 迭代路線圖,DreamTech下一個目標:Direct3D-XL(16B)版本,將進一步提升生成結果質量精度

甲子光年:這個一旦做成其實也是一個里程碑。

張飛虎:對,它將是一個非常大的里程碑。我們自己的C端產品都可以在這個基礎上做得非常好。而在明年上半年,基於這個模型,我們可能會經歷一個用戶數量激增的階段。

(封面圖來源及文中圖片來源:DreamTech)