萬億賽道的具身智能,到底是什麼?
本文來自微信公衆號:王智遠,作者:王智遠
週末和朋友聊天,提到具身智能。有諸多觀點,但讓我意外的是,大家對具身智能的理解不太一樣。
有的說,機械臂在工廠內能自動搬運貨物,這是具身智能;有的朋友認爲,具身智能應該是像人一樣能走路的機器人。還有人說,具身智能像大模型一樣,有意識、認知。
這些觀點到底哪個是準確的呢?說實話,我也有點懵;於是,回來後趕緊惡補了這堂課,搞清楚具身智能到底是什麼。
什麼是具身智能,和傳統人工智能核心區別是什麼?
準確而言,具身智能(Embodied Intelligence)分爲具身(Embodiment)、具身的(Embodied)、具身智能(Embodied AI)、以及非具身智能(Disembodied AI)四個維度。
具身,指具有支持感覺和運動(sensorimotor)的物理身體。而具身的,強調智能體,通過身體與環境交互來實現智能行爲,它可交互、具有感知。
比如:
一個掃地機器人,用攝像頭感知環境,用輪子移動來探索周圍,再通過傳感器識別障礙物並自動調整路徑,最終完成清掃任務;這種用身體和環境的直接交互,來實現功能的過程,就是具身的。
那具身智能呢?可以總結爲,一個一個身體力行的智能體,不僅擁有身體,還支持物理交互,能夠用身體與環境的交互實現智能行爲,像家用服務機器人、無人車等非常符合核心特徵。
而非具身智能(Disembodied AI)是沒有身體,只有大腦、智能被動接受人類採集、製作好的數據,像一個紙上談兵、或運籌帷幄的傢伙。
寫到這,問題來了:通過概念可以看出,具身的和具身智能很像。到底如何區別它們呢?
簡單粗暴地說,“具身的”靠身體跟環境互動,比如:機械臂抓個東西、搬個貨,乾點基礎活兒;而“具身智能”高級多了,不光要動手,還得會動腦,要感知環境、自己做決定,還能邊幹邊學,越幹越聰明。
說白了,“具身的”是純體力活,而“具身智能”是“體力+腦力”的結合體。
這或許,也是宇樹科技創始人王興興在3月23日接受《每日經濟新聞》採訪時提到的觀點。
他說,現在人形機器人最大的坎兒是大模型,尤其是多模態大模型。多模態搞定了,具身智能離通用人工智能就不遠了。
所以,王興興那句“具身智能到通用已經很快了”,在暗示:大模型一突破,機器人滿地跑的日子真不遠了;明白這些,你也就理解了什麼是具身智能,它和傳統人工智能的核心區別是什麼。
既然這樣,當前具身智能發展是處於“嬰兒期”還是“青春期”呢?
我覺得還處在嬰兒期。這不是瞎說。大家都這麼認爲。
中國信通院(CAICT)2024年的報告裡提到,工業和服務領域確實已經有一些成熟的案例,但這些應用,基本都侷限在特定場景,功能有限,離全能型還差得很遠。
其他報告裡,也差不多是同一個意思;說白了,要讓具身智能幹更復雜、更廣泛的工作,還要在很多地方下功夫,其中,更根本的是底層能力的不足。
一個最顯眼可見的例子是:減速機。
什麼是減速機?你可以把它看成機器人的“關節”,連接動力源和執行機構的關鍵部件。咱們國家在覈心零部件和材料技術上進步很快,也實現了部分國產化,但和人類關節那種靈活自如的能力相比,差距非常明顯。
比如說,工業機器人常用的兩種“關節”:RV減速器和諧波減速器。RV減速器像健身房裡壯漢的膝蓋,能扛起幾百公斤的重物;諧波減速器則像瑜伽達人的手腕,能靈活轉動還不費勁。
國產RV減速器已能替代進口(雙環傳動市佔率15%),但要讓機器人像人類關節那樣既能舉啞鈴又能繡花,還差着代際差距。
目前來看,國內減速機領域的領先企業包括國茂股份、中大力德、綠的諧波、雙環傳動等,它們的產品主要用在工業機器人領域。
雙環傳動在RV減速器市場中表現突出。它從2013年開始立項研發RV減速器,經過多年的努力,在2017年實現了量產,填補了國內在這一領域的空白。
2021年,雙環傳動成功打破了日本納博特斯克長期以來的市場壟斷,其產品在國內市場的佔有率達到了15.1%,成爲國產品牌第一。
所以,從時間軸上看,我們在覈心零部件上已經取得不少進展,要讓機器人像人一樣靈活自主,還有很長的路要走。
在調研時我發現,像減速機這種關鍵部件是冰山一角,還有好多地方要突破。最值得一提的是:機器人的“小腦”,也就是它的運動控制系統。
小腦的組成包括,運動規劃模塊、動力學控制模塊、傳感器融合系統,以及技能學習與分解模塊。這些模塊協同工作,才能讓機器人能夠像人類一樣靈活地完成各種動作。
這麼說,你也許感觸不大。我舉個例子:
機器人找到冰箱的位置、避開障礙物走過去,再用合適的力度拉門。難點在於,怎麼在複雜動態環境(比如有人突然擋路)中快速規劃路徑,還要在長時間任務中保持穩定,這得靠規劃模塊來實現了。
再比如,要協調全身關節的動作,調整走路時的重心、控制手臂的力度,目前的挑戰是,怎麼讓機器人像人一樣靈活應對突發情況。比如:被人推一下也不摔倒。
還有,把傳感器融合在一塊,也是一大難題。
你想,現在有很多攝像頭、IMU(慣性測量單元)、力覺傳感器,怎麼把數據捏合到一塊,做到視覺、觸覺同步進行呢?最新報告顯示,這些都要進一步研究。
另外,技能學習和分解模塊也要進一步突破。教機器人開門,要把動作拆解成“接近門、抓把手、旋轉、拉門”等基本操作,再通過強化學習訓練。
但目前這些技能很難在不同場景下複用。比如:換個門把手形狀就懵了。
這一切表面上看似簡單的動作,背後是一系列複雜的融合挑戰,每一個小進步都要在硬件、軟件上持續投入,才能讓人一樣靈活智能。
如果實現難度這麼大,那麼,評價具身智能標準,到底應該以完成任務爲主,還是以環境適應爲主呢?
我認爲,問題的關鍵在於到底要追求專用性,還是通用性。
專用性是什麼?拿工業機器人來說,在流水線上,它替代了人,專注地完成焊接、裝配這些固定任務;服務機器人也一樣,專注於清潔、搬運。這就是完成任務的專業性,它們在特定場景下表現出色,效率高、精度高。
那通用性,或者說環境適應性呢?我再舉個例子:
奧運會上,突然停電了,大家都找不到安全出口。這時候,機器人該扮演什麼角色?它肯定不能像其他人一樣摸黑亂撞,它得是個超級智能體,迅速感知環境變化,引導人們安全疏散。
這個問題聽起來有點荒誕,卻恰恰戳中了具身智能評價體系的死穴:現在的廠商到底是在比拼誰擰螺絲釘更快,還是誰能應對突發狀況?
所以,環境適應爲主的機器人,顯然是一個更高層次的目標。它技術難度高,短期很難實現,但它更貼近人類的本質。畢竟,人類之所以被認爲智能,不僅是因爲能完成具體任務,更在於能在環境中隨機應變。
因此,我認爲完成任務更適合目前發展,它能有效推動具身智能在垂直行業的落地;而以適應環境爲主,則是未來需要突破的方向。
那麼,在當前技術條件下,哪些具體技術突破最有可能推動具身智能從專用性向通用性邁進?
最近有一篇論文叫:《Exploring Embodied Multimodal Large Models: Development, Datasets, and Future Directions》,裡面重點提到了具身多模態大模型(EMLMs)技術。
這篇論文厲害的地方在於,它填補了現有研究中的一個空白。研究團隊啃了300多篇文獻,從基礎大模型到仿真技術,全都捋了一遍,尤其是像機器人怎麼感知環境、怎麼導航、怎麼跟人互動這些關鍵問題,都講得挺透徹。
具體來說,論文提到了四點:
一,跨模態預訓練和微調。怎麼研究出更聰明的跨模態預訓練和微調方法,讓不同模型在任務中都能表現得很好;二,自監督學習。怎麼讓模型通過沒標註的數據,學到更豐富的知識,變得更靈活、更實用。
三,怎麼把多模態模型跟強化學習結合起來是個好方向;最後一點是,端到端的發展。現在有很多大模型是爲不同任務設計,但未來,朝着一個大模型包攬所有任務的方向發展,會是一個重要的趨勢。
所以,最後得出結論是:現在最大挑戰是怎麼把多模態感知、推理和行動整合到一起。說白了,核心集中在大腦、小腦上。
另外一個是高精尖的傳感器技術。爲啥是傳感器,不是硬件?
傳感器像一把鑰匙,能把現實中的各種信息,轉化成機器能理解的數據。比如溫度、壓力、位置。在國家戰略層面,傳感器是關鍵的“勝負手”——它的性能直接決定了重大裝備和戰略產品的質量。
舉個例子:
咱們國家的高鐵“和諧號380AL”,一輛列車上有超過1000個傳感器,平均每個零部件都得有個傳感器盯着;這些傳感器幹啥用?監測列車運行狀態、檢查軌道有沒有問題、保障列車安全防護。
再看看醫療領域,你拍心電圖、量血壓、測血糖靠什麼?依然是傳感器。現在的醫生,很多時候靠傳感器給的數據做判斷。
前段時間,宇樹科技G1機器人火了,能跳舞、完成拍手、扭腰等動作,還能跟着音樂節奏舞動,甚至能施展揮拳、旋踢等高難度武術動作,迴旋踢完之後,腿可以穩穩落地而不倒。
這背後靠什麼?還是傳感器。
傳感器讓機器人有了“觸覺”,能感知地面情況,從而靈活調整動作。換句話說,傳感器不僅提升了機器人的運動能力,還讓它能夠更好地感知環境,完成更復雜的任務。
宇樹科技這樣的通用機器人爲啥受到國內外青睞?不是因爲它便宜,是它成了綜合型選手。正是傳感器技術的發展,才推動機器人從“專用型選手”向“通用型高手”邁進,爲未來帶來更廣泛的應用可能。
所以,不管是具身多模態大模型的技術突破,還是高精尖傳感器的升級換代,都在給具身智能添磚加瓦,讓它從只能幹“專活”的小工,變成啥都能幹的“全能選手”。
希望以上分析能帶來點新啓發,使你看問題時多幾個新角度。
本文來自微信公衆號:王智遠,作者:王智遠
本內容爲作者獨立觀點,不代表虎嗅立場。未經允許不得轉載,授權事宜請聯繫 hezuo@huxiu.com
本文來自虎嗅,原文鏈接:https://www.huxiu.com/article/4156637.html?f=wyxwapp