理想汽車直播爲何公然逆行,原因是靠不住的視覺語言模型

業界專家一致認爲,常規的端到端方案最終只能實現L3級自動駕駛,生成式AI大模型才能實現L4。

那麼,大模型技術真正在車端落地,需要突破多少難關呢?

對大佬們的話做閱讀理解,一定要結合他發言的上下文,否則很容易斷章取義。

比方說,特斯拉前自動駕駛部門負責人Andrej Karpathy曾經說過,大模型的幻覺是特點,不是缺陷,大語言模型的工作機制就是做夢,幻覺是正常現象。

從助力科學發現的角度來看,大模型的幻覺問題的確不是缺陷。

但是,對於汽車駕駛這種高安全要求、約束邊界非常明顯的場景而言,幻覺問題是必須解決的一道難關。

定量來看,當下大模型的錯誤率和L4級自動駕駛能容忍的錯誤率到底有多大的差距呢?

華爲在《雲計算2030》中表示,L3級自動駕駛的容錯率爲0.1-1%,L4級自動駕駛容錯率在0.0001-0.001%之間。

隨着參數量的加大、訓練數據規模的提升和新方法的引入,大模型的準確率一直在穩步提升。

2020年問世的GPT3錯誤率在40%左右,到了2022年底,GPT3.5的錯誤率已經下降到了20%,GPT4更是百尺竿頭、更進一步,將錯誤率降低到了10%。

不過,饒是如此,10%和L4級自動駕駛的容錯率0.0001%依然差着5個數量級。

前段時間,理想汽車的雙系統方案在直播測試中公然逆行,暴露了由LLM改造而來的視覺語言模型輸出錯誤率依然不低的現實。

理想的視覺語言模型DriveVLM基於阿里巴巴的Qwen-VL或Meta的LLaMA2-3B改造而來。

即便在它們的基礎上新增訓練了一些駕駛場景數據,做了RAG檢索增強、AI對齊、強化學習、優化提示詞等工作,準確率的提升也相當有限。

幻覺問題的解決任重而道遠。

前段時間,李彥宏在百度世界2024大會上表示:過去兩年AI行業的最大變化就是大模型基本消除了幻覺。

我們無從揣測李彥宏是不是出現了幻覺,但他這個觀點非常值得商榷。

在絕大多數情況下,文字只不過是無關痛癢的表達,操縱鋼鐵巨獸的自動駕駛系統面對的卻是可以直接決定他人性命,務必要慎之再慎!

有人說,人生最大的幸福就是在對的時間和環境下,和對的人一起做對的事,一旦時間變了,一切就都變了。

自動駕駛也要在對的時間、空間下,及時地做出對的決策,實時地行駛出對的軌跡。

交通場景瞬息萬變,自動駕駛系統必須及時感知車輛周圍環境、實時預判周圍交通參與者的潛在軌跡,經過整體的統籌,即時規劃出安全、舒適、高效的行駛路徑。

要保證複雜車流環境下的實時性,模型的運行頻率至少要在十幾赫茲。

目前,理想汽車視覺語言模型的運行頻率在3.3赫茲左右,只能起到輔助提醒的作用,無法參與實時的軌跡規劃。

現在坊間有一個簡單粗暴的觀點,理想汽車如果在下一代智駕系統中將Orin升級爲英偉達下一代艙駕一體芯片Thor。

NPU從254 TOPS提升到1000 TOPS。 再加上Thor對Transformer架構的原生支持,應該有望將DriveVLM的運行頻率提高到十幾赫茲。

這個看法相當門外漢。天上雲追月,地下風吹柳,更高等級的自動駕駛對模型的參數量必然有着更高的需求。

目前,理想汽車用來實現L3級自動駕駛的視覺語言模型的參數量只有22億參數,這種參數規模的大模型無法實現L4級自動駕駛。

可以拿特斯拉FSD的模型參數量做個對比。

2022年的AI Day上,特斯拉披露了其分模塊方案FSD的參數規模爲10億(1B),進化到端到端方案之後,FSD模型的參數量必然有增無減。

特斯拉曾經表示過,從V12.4到V12.5,FSD模型參數量提高了5倍,從V12.5到志在實現L4級自動駕駛的V13,模型參數量再次提高了3倍。

做一個合理的推算,FSD當前的模型參數量恐怕得在200億左右,比DriveVLM的22億參數量高了整整1個數量級。

這就意味着,除非降低對自動駕駛能力等級的需求,即將量產的智能駕駛芯片標杆英偉達雷神(參數丨圖片)芯片也無法解決車端運行大模型的實時性難題。

萬丈高樓平地起,那是因爲有地基。

進入2024年下半年,本土智駕企業紛紛開啓在車端自動駕駛大模型上的實踐,並非因爲他們自己水平有多麼強悍,而是因爲頭部AI企業訓練出並開源了具備圖像理解能力的多模態大模型。

智駕企業們在這些涵蓋多個不同科目和子領域、具備通用多模態能力的視覺模型/視覺語言模型/視覺語言動作模型的基礎上,再設計一些面向駕駛場景的問答,進行簡單的微調訓練,自家的視覺語言智駕大模型就順利出爐了。

這些萬億美金市值的AI巨頭提供了免費的午餐,也順帶着決定了基於它們改造而來的智駕視覺語言模型的性能天花板。

先說樂觀的一面,這些大模型具備圖文識別能力,可用於識別潮汐車道、公交車道、路牌文字,理想汽車的VLM可以結合當前時間段給出使用或駛離公交車道的建議,其能力就來自這裡。

這些大模型也具備一定的場景理解能力,比如判斷路面的坑窪情況,給出減速建議。

當然,如果自家的車型具備真正的魔毯能力,或許只需要適時調節空懸和CDC就可以了。

再說悲觀的一面,這些面向數字世界的AI大模型並不具備真正的空間理解能力。

建立空間理解能力的關鍵在於可以同時輸入車前、車後、左前、右前、左後、右後的多個攝像頭的圖像輸入,站在3D視角下進行綜合的判斷,BEV前融合的價值就在這裡。

反觀視覺語言模型,雖然可以依次輸入前視、後視、周視攝像頭採集到的圖像,但它只能像BEV出現之前的自動駕駛算法那樣做後融合,直接杜絕了建立精準的空間理解能力的可能。

目前的智駕視覺語言模型只能給出車道、加減速這些中間層的建議,而無法輸出最終的軌跡,本質原因就在這裡,特斯拉和蔚來汽車死磕具備空間理解能力的世界模型的本質原因也在這裡。

生成式AI爆發之後,業界對自動駕駛能力的進展速度一度變得非常樂觀,但是,從以上分析可以看出,通過生成式AI大模型提升自動駕駛能力,這條路依然任重道遠!