☰

最神秘國產大模型團隊冒泡，出手就是萬億參數MoE，2款應用敞開玩

國內基礎大模型創業公司，最後一位強實力選手終於正式來到臺前。

它就是微軟前全球副總裁姜大昕所創辦的階躍星辰。

一年前，量子位就對這位大牛的創業動向有所耳聞。

姜大昕在微軟工作16年有餘，曾任職微軟全球副總裁，微軟亞洲互聯網工程院（STCA）首席科學家，全面負責微軟必應搜索的技術研發工作。但就是這麼一位風雲人物，此番創業，卻有不少令人費解的動作。

一來，他在微軟職級極高，在微軟混得風生水起，怎麼想不開創業？

二來，階躍星辰已經成立一年，但在百模羣戰的2023年，這家公司低調得近乎隱形。不僅沒有主動對外發聲，連量子位在圈內打聽消息也探不得虛實。

現如今，大模型五虎已經初成格局，市場的注意力已經被瓜分不少，階躍星辰的亮相才姍姍來遲——會不會晚了？

會者不晚。

一出手，階躍星辰就亮出了自己蟄伏水下一年沉澱的成績：

千億模型有了，ToC產品有了，萬億模型在路上，且通往AGI的路也十分明確：

走一條“單模態—多模態—多模理解和生成的統一—世界模型—AGI（通用人工智能）”的路。

階躍星辰的產品是什麼？

不玩虛的，一露面，階躍星辰就直接帶來了2款面向C端市場的應用：

躍問和冒泡鴨，均全面開放使用。

它們一個是聊天類應用，定位個人效率助手。

一個是AI開放世界平臺，提供海量智能體，主打一個休閒娛樂。

具體效果怎麼樣？火速註冊登錄，量子位帶大夥一睹爲快。

先來看效率工具躍問。

第一輪基本問答我們讓它對比一下ChatGPT和Claude的不同，重點：以圖表形式呈現。

結果很快啊——

不止是開發公司、模型結構、文件讀取能力這種硬性對比，也有專注方向、創新水平、安全性等偏主觀的總結，一共14個小項，主打一個全面：

第二輪看看聯網、信息檢索能力。

和很多大模型一樣，躍問的知識庫信息只截止到2023年，後面的信息自然只能現搜了。

“今天的天氣如何”太簡單，我們直接問它馬斯克腦機接口公司的進展如何。

結果，準確檢索到1月份首位志願者植入芯片的重大事件。

不過不知道是不是對“重大進展”這一詞有不同理解，躍問沒提幾天前這位志願者可以打遊戲的報道。

我們追問之下，它倒也準確“交代”出來，包括志願者名字、玩的什麼遊戲——除了遊戲，下象棋7勝4負的事兒也一併提了。

第三輪：文件處理。

身處AI科技圈，最新論文和大佬教程我們自然要緊跟步伐。

先用OpenAI前科學家Karpathy不久前的《從頭構建GPT Tokenizer》視頻摸摸底。

直接給倆小時長的視頻目前沒有哪個大模型能直接解析，我們還是上傳字幕文件。

很快，全英文的內容躍問刷刷刷地就總結完畢：

仔細幫大家驗證了，裡面提到的例子都有都對。用起來相當給力。

對於論文來說就更簡單了，直接給arXiv的鏈接就行。

一篇8.3萬字（基本滿足日常所需）的大模型微調方法論文（《AutoFT: Robust Fine-Tuning by Optimizing Hyperparameters on OOD Data》）丟進去，最核心的內容幾秒便可知。

至於數據處理，如下圖所示，圖片轉表格、淨增長率計算，這種需要複雜邏輯推理的任務，躍問用代碼的方式輕鬆解決。

最後，大家關心的多模態：

解讀表情包，easy。

挑戰一下投資機構整理的AI視頻公司全景圖。

別看logo們字體五花八門，躍問不僅迅速識別，還按照原圖歸門別類，閱讀起來相當清晰。

相比之下，有同類選手不僅識別漏洞一個接一個，格式也完全顧不上。

總的來說，說起目前市面上的AI個人效率助手，已經不算少。但躍問，該有的功能不僅有，在多模態、長文本理解上也能做得更好。

並且最重要的是：免費！

使用起來沒啥限制，目前也不用擔心宕機、模型“太累了”回答不出問題（手動狗頭），所以完全不失爲一個優秀的平替。

至於冒泡鴨，它有app版也有web版。

平臺上載有各種由多模態大模型驅動的智能對話體，可以進行各種有趣的對話、也可以探索有趣的劇情互動遊戲（“戲精”們有福了）。

實在不夠，還可以自己上手創建：

官方也提供了非常詳細的上手文檔，包教包會。

我們淺試了《逃離精神病院》這一劇情。

和AI的對話相當流暢、沉浸，讓人一不小心擡頭看時間才發現已經玩了好久。

（不瞞您說，量子位開了好幾輪都沒能成功逃出“精神病院”，難度還是有億點點的。）

對於大模型產品，姜大昕表示：“我把模型和產品的關係比喻成靈魂和皮囊。大家一定聽過一句話，好看的皮囊千篇一律，有趣的靈魂萬里挑一。我們希望靈魂能更加有趣一點，才能顯示出產品的不同。”

那麼，躍問和冒泡鴨背後的“靈魂”——大模型們長什麼樣？

冒泡鴨和躍問的背後，是階躍星辰已經成熟的兩款千億參數大模型。

該公司將其稱爲Step系列通用大模型，分別是Step-1千億參數語言大模型，以及Step-1V千億參數多模態大模型。

一路看來，階躍星辰訓模型的路，走得出奇的順。

去年7月起，研發團隊正式開始訓練模型。

2個月後，綜合性能超過GPT-3.5的千億參數大模型Step-1，一次性訓練成功。

在大模型遍地開花的時代，聽起來擁有一個模型並不是什麼難事，但短時間內一次成功，這種效率仍然令人咋舌。

姜大昕把原因歸結於兩點。

這次成功極大地鼓舞了團隊的信心，“這驗證了我們的方法是正確的。”

再2個月後，也就是去年11月，千億參數的多模態大模型Step-1V又告成。

Step-1V大模型可以精準描述和理解圖像中的文字、數據、圖表等信息，並根據圖像信息實現內容創作、邏輯推理、數據分析等多項任務。此外，它還能理解視頻中的內容。

上海人工智能實驗室推出的大型模型評估平臺“司南”（OpenCompass）多模態模型評測榜單顯示，階躍星辰研發的Step-1V位列第一，性能比肩GPT-4V。

“千億參數的GPT-3.5模型是一個重要的分水嶺。”姜大昕表示。

模型要達到GPT-4的萬億參數規模，各個維度的要求都上了一個臺階。

譬如，訓練萬億模型需要等效A800萬卡單一集羣，進行高效穩定的訓練；需要十萬億tokens的高質量數據；需要駕馭好新穎的MoE架構。

姜大昕稱，以上幾點，無論是有哪一點有所不足，都會導致Scaling Law難以向上攀登。

但是！

就在前幾天的全球開發者先鋒大會開幕式上，階躍星辰又給出了萬億參數MoE語言大模型Step-2的預覽版——這也是國內初創公司，首次交出的萬億參數模型答卷。

姜大昕介紹，Step-2從去年12月啓動訓練，目前訓練穩定，待完全訓練完畢和打磨成熟。

“我堅信Scaling Law，（會）訓練更大模型。”姜大昕談到，團隊追求的是多模理解和生成的統一，“Step系列大模型將爲多模理解和生成的統一奠定堅實基礎。”

基於實踐經驗，團隊把攀登Scaling Law稱爲一個“鐵人四項”般的超級工程。

哪四項？

算力、系統、數據、算法。

而階躍星辰自然有自己熟稔的打怪套路。

算力方面，通過自建機房+租用算力，積極進行算力儲備；

系統方面，團隊核心成員實踐過單集羣萬卡以上的系統建設與管理，訓練千億模型的MFU（有效算力輸出）達 57%；

數據方面，數據團隊核心骨幹出身必應搜索引擎，曾支持全球100多種語言，爲200多個國家和地區提供服務，對全球互聯網高質量語料的分佈有深入瞭解，並建立起強大的數據處理和知識圖譜流水線；

算法方面，團隊不僅能駕馭各種架構，比如萬億參數的MoE架構，而且對大模型的認知以及發展路線有深刻洞察。

面對鐵人四項和多模態融合之路，階躍星辰就這麼默默進發了一年。

那麼，是什麼樣的團隊行進在這條Scaling Law之路上？

量子位得知的消息是，階躍星辰現在已經有一支150多人的隊伍。

領隊者姜大昕，現任階躍星辰CEO，同時也是團隊算法負責人。

2005年，姜大昕獲紐約布法羅州紐約州立大學計算機科學博士，在機器學習、數據挖掘、自然語言處理、生物信息等領域有豐富的經驗和工程經驗。

博士畢業後，他先後任南洋理工大學擔任助理教授，MSRA（微軟亞研院）研究員。

2011年開始，姜大昕轉入微軟亞洲互聯網工程院（STCA）工作。

該中心主要負責微軟全球產品的研發工作，包括必應搜索引擎、智能語音助手Cortana、Azure認知服務以及Microsoft 365的自然語言理解系統等。

去年3月，姜大昕正式升任爲微軟副總裁，同時兼任亞洲軟件技術中心WebXT S+D（網絡體驗、搜索和分銷）集團總經理。

——是的，你沒聽錯，剛剛被升職，明明可以在微軟幹到退休，卻跑出來創業了。

“在微軟，只能基於OpenAI的模型做工作。”姜大昕回憶，即便是微軟和OpenAI的關係，使用其模型也只能調用API，對黑盒裡的秘密、模型算法的修復/迭代建議，完全插不上手。

琢磨再三，姜大昕決心不能再被動地風中凌亂。

於是，離開微軟；於是，躬身入局。

有了創業想法的姜大昕，與現在階躍星辰的數據負責人焦斌星“密謀”兩個多小時，一拍即合。

焦斌星同樣出身微軟，是中科大和MSRA聯合培養博士。

博士畢業後，焦斌星正式入職微軟，是微軟必應引擎核心搜索團隊前負責人，日常工作主要是利用數據挖掘和NLP算法優化索引和搜索質量；也曾開發全球高質量站點的自動挖掘算法並用於索引和排序。

還在微軟時，他二人就聽說過外界盛傳大模型時代的“數據荒”，即Scaling Law所需的數據不夠用了。

當時，他們不以爲然。有搜索引擎背景在，眼見互聯網有上億、上萬億的網頁網站，怎麼會不夠用？

等到自己置身其中時，發現是真的不夠用（笑死）。

好在現在既可以從多模態數據中挖掘更多數據，也可以像OpenAI訓練Sora那樣使用人造數據。

核心團隊的另外一位成員，朱亦博，此前擁有多次單集羣萬卡以上的系統建設與管理實踐經驗。

他博士畢業於美國加州大學聖芭芭拉分校，曾任微軟研究院研究員。

在這一波浪潮襲來之前，他的工作主要面向大規模系統以及超高速度性能網絡。

2018年，他任職字節跳動，負責公司AI基礎設施與基礎AI框架，開始積累萬卡集羣的搭建經驗；2022年底，他離開字節，跳槽至Google任高級主管，直接支持OpenAI最大勁敵、Claude的背後公司Anthropic。

可以說，階躍星辰三位核心骨幹的經歷十分相似，就是第一階段（博士期間）進行相關研究，第二階段進入大廠在一線打拼，一直都在和AI的最新進展親密貼貼。

當ChatGPT引領的大模型時代開始時，他們都意識到這是一個大變革，因此以最快速、最靈活、最全面的方式投身變革當中。

最最最後，階躍星辰的個人效率助手躍問，剛剛上線了一個很讚的新功能。

叫一圖讀懂。

說大白話就是丟給它一個文檔，就能一鍵生成解析重點的長圖文

這是此前的ChatBot沒上線過的功能，想要體驗的朋友們，速去喲～

最神秘國產大模型團隊冒泡，出手就是萬億參數MoE，2款應用敞開玩

相關資訊