智元發佈首個通用具身基座大模型,“天才少年”稚暉君的AI棋局

經歷了過去一年的沉澱和發展之後,具身智能機器人公司們的發展路徑也變得更爲清晰。

3月10日,由華爲前“天才少年”稚暉君創立的智元機器人(以下簡稱:智元)發佈首個通用具身基座大模型:智元啓元大模型(GenieOperator-1)。據智元官方介紹,該模型基於Vision-Language-Latent-Action (ViLLA)架構,該架構由VLM(多模態大模型) + MoE(混合專家)組成。這種模型架構可以讓機器人持續學習進化,利用人類視頻學習,完成小樣本快速泛化,將具身智能推上一個新臺階。

模型發佈後,智元合夥人、具身業務部總裁姚卯青和智元具身研究中心常務主任任廣輝接受了包括新京報貝殼財經在內的媒體採訪。

近兩個小時的採訪裡,數據、AI是被討論和提及最多的詞彙,姚卯青和任廣輝多次強調了AI對智元的戰略意義。進入2025年,機器人行業之間的競爭將變得更爲激烈。

通過分析人類視頻進行學習,實現小樣本快速泛化

能走能跑能跳舞的人形機器人從去年開始就一直是科技圈討論的焦點,酷炫的外形總給人一種科幻照進現實的感覺。但對於部分機器人企業的從業者來說,相較於外觀,數據纔是他們更爲關注的。

據智元官方介紹,智元啓元大模型發佈的初衷就是爲了解決具身模型在落地上的困境。在任廣輝看來,現在很多具身模型的泛化性相對差一些,比如在實驗室訓練的模型到了一些新的場景中成功率就會大幅下降;或者機器人在接受訓練了一個任務之後想要再做其他的任務就會再次需要大量的數據,這樣就會導致數據成本比較高;另外,很多數據在不同的機器人本體之間是無法共用的,行業缺乏一個完整的數據迴流的系統,這就導致模型無法持續地進行性能提升,也是現在機器人落地難的主要原因。

Vision-Language-Latent-Action在利用視覺、語言大模型之外,還讓機器人學習人類的操作視頻和真機的示教數據,任廣輝認爲,這樣的架構就可以構建一個非常完整通用的能力,包括場景理解、指令理解、動作理解,還有精細的動作、操作能力等。所謂小範圍泛化則是指可以在極少數據甚至零樣本下泛化到新場景、新任務,降低了具身模型的使用門檻,使得後續訓練成本非常低。

“在內部討論會上,我們會對比不同企業之間的數據量,這比產品外觀更能說明各家進度。”銀河通用機器人的一位研發工程師告訴貝殼財經記者。數據質量決定了算法的形式,算法又決定了機器人行動軌跡,這都是非常重要的。

爲了解決數據不足的問題,銀河通用發佈端到端具身抓取基礎大模型 GraspVLA。銀河通用介紹,GraspVLA 的訓練包含預訓練和後訓練兩部分,其中預訓練完全基於合成大數據,預訓練後,模型可直接在真實場景和物體上零樣本測試。

另外,據媒體報道,特斯拉也於去年大量招聘操作員收集動作數據,不同企業都在出招解決數據機器人企業數據匱乏的問題。

機器人公司不做大模型將沒有未來

在接受媒體採訪的時間裡,兩位受訪對象多次提及AI對智元的戰略意義以及對於機器人企業發展的重要性,這背後也可以看到智元的發展路徑。任廣輝認爲,機器人公司不做大模型將沒有未來。

“今年具身智能、智能機器人首次寫入政府工作報告,這說明行業即將迎來更多的新玩家,但同時競爭也會加劇,這對機器人企業本身也提出更高的要求,公司團隊規模、產品研發實力、商業化能力是接下來企業之間比拼的重點,只有綜合實力過硬的企業纔會搶佔先機。”姚卯青告訴貝殼財經記者。

按照國際機器人協會預測,2021年到2030年,全球人形機器人市場規模年複合增長率將高達71%。中國電子學會數據顯示,到2030年,中國人形機器人市場規模有望達到8700億元。

行業快速增長,機器人企業之間的發展路線以及商業化模式也開始出現明顯分化。

在任廣輝看來,AI能力將來一定是區分整個機器人產品競爭力的核心,機器人公司不做大模型將沒有未來,沒有智能化、沒有作業能力的機器人只是一個硬件,能做的事情非常有限,智元未來一定會持續加大對AI的投入。

銀河通用機器人、智平方機器人也和智元的觀點類似,但在春晚爆火的宇樹科技的優勢卻是在本體硬件層面,對AI的投入比較剋制。

去年世界機器人大會召開時,宇樹科技創始人王興興在接受媒體採訪時表示,目前人形機器人行業最大的難題在於,機器人的AI發展是落後於通用AI的,目前尚未達到突破臨界點的時刻。

“目前具身智能領域,每家企業的想法都不太一樣,技術路線上有所差別,甚至連一些共性的方面都不太一樣。例如機器人的相機應該裝什麼?裝幾個?裝在哪?傳感器數據應該怎麼採集,是存在很多的差異性的,這就導致整個機器人AI模型的技術路線其實沒有那麼統一,其實很難評價哪個正確哪個錯誤,宇樹科技在AI的投入是比較剋制的。”王興興表示。

今年年初,具身智能公司傅利葉在宣佈拿到近8億元E輪融資時,傅利葉創始人兼首席執行官表示,“本輪融資的完成讓我們更加堅定了‘爲AI打造最佳具身本體’的產品目標。”

從整個機器人行業發展來看,有的企業着力發展具身大模型,有的在本體方面具備優勢,就像姚卯青所說,目前“偏科”的機器人公司比較多,有的擅長算法,當然也有其他大量做本體的公司,但智元把自己定位爲從硬件、數據、算法,端到端都具備研發能力。然而在行業發展初期,究竟哪種模式更能受到市場認可還有待檢驗。

新京報貝殼財經記者 張晗

編輯 白昊天

校對 柳寶慶