乾貨 | DeepSeek爲何會火?又怎麼賦能汽車?
本文沒有廢話,只談三件事兒。第一是簡介DeepSeek的基礎知識,二來彙總一下當下融合DeepSeek的車企,最後聊聊DeepSeek對汽車的影響。全文約5000字,建議開啓「聽全文」。
DeepSeek火爆的原因是什麼?
說『火爆』二字並非僞命題!據悉,DeepSeek僅僅上線數日,便在各大應用商店下載量登頂,成功躋身全球AI應用的前列。尤其是在美國地區,它力壓ChatGPT,讓這個曾經的行業霸主首次跌落神壇,這一成績無疑是對DeepSeek實力的有力證明。
若要一句話總結其火爆的原因,那便是,ChatGPT給到的解釋是:『DeepSeek火爆源於性能卓越,在多任務表現出色;成本優勢突出,訓練和使用成本低;秉持開源理念,促進全球開發者共創;應用場景廣泛,與金融、汽車、政務等多行業深度融合。』
看來『同行』的評價也不低哦~~那麼拆分來看,DeepSeek的優勢到底是什麼,個人認爲大致分爲這樣三個方面:
創新架構
DeepSeek能在衆多AI模型裡表現突出,它獨特的架構設計起了很大作用。就拿DeepSeek-V3來說,它用的是混合專家架構(MoE),就好比一個超級大智囊團,這個智囊團有6710億個『小助手』,但每次遇到問題的時候,不會把所有『小助手』都叫過來,只會挑出370億個最擅長解決這個問題的『小助手』來幫忙。這就像我們在一個班級裡,要完成不同任務,比如畫畫、唱歌、寫作,不會讓全班同學都去做同一件事,而是讓最擅長的同學去做,這樣既節省了力氣,又能把事情做好,大大降低了計算成本,還能保持很高的效率。
當遇到複雜的自然語言處理任務,像給文章分類、分析句子裡的感情是開心還是難過、把中文翻譯成英文這些,MoE架構就像一個聰明的班長,能根據任務的特點,把任務分配給最合適的『小助手』模塊,避免了所有『小助手』都擠過來幹活造成的資源浪費,讓模型處理複雜任務又快又好。
除了MoE架構,DeepSeek-V3還加入了多頭潛在注意力(MLA)機制。在傳統的Transformer架構裡,多頭注意力(MHA)機制就像一個記性不太好的人,在處理很長很長的文章時,要記住的東西越來越多,就像書包裡要裝的書越來越多,最後書包都裝不下了,給模型帶來很大的內存壓力。
而MLA就像一個整理小能手,通過低秩聯合壓縮機制,把要記住的東西整理壓縮成小小的『精華』,也就是低維潛在向量,這樣就不需要佔太多內存了。比如我們看長篇小說、學術論文這些長文本的時候,MLA機制能一下子抓住文章的重點,不會因爲看了後面忘了前面,理解錯意思。而且在推理的時候,MLA就像一個只帶必需品的旅行者,只需要『背』着特定的向量,大大減小了要『背』的『書包』(KV緩存)的大小,讓模型處理大規模數據的時候速度更快,效率更高。
訓練優化
在訓練的時候,DeepSeek用了好多厲害的技術,就像給訓練過程『開外掛』,讓訓練效率變得更高,模型表現也更好。
其中,無輔助損失負載均衡策略特別有創意。打個比方,MoE架構就像是一個大工廠,裡面有很多不同的工人(專家模塊)。有時候,有些工人手上的活兒特別多,忙得不可開交;而有些工人卻閒得沒事幹。這樣下去,整個工廠的生產效率肯定高不了。
DeepSeek的無輔助損失負載均衡策略就像一個聰明的車間調度員,它給每個工人都安排了一個『小助手』(動態偏置項),這個『小助手』會實時盯着每個工人的工作量,然後根據實際情況,動態調整每個工人的任務分配,讓大家都能合理地幹活,避免有人累死,有人閒死。同時,還有一個序列級輔助損失補充機制,就像一個質量監督員,專門盯着每個生產環節(單個序列內)有沒有出現任務分配不均的情況。這兩個機制雙管齊下,讓模型訓練更穩定,效果更好。
再說說多Token預測(MTP)技術,這也是DeepSeek的一大特色。以前的模型預測就像小朋友學說話,一個字一個字地往外蹦,效率特別低。而DeepSeek的MTP技術就像我們大人說話,能一口氣說出好幾個詞,表達一個完整的意思。這樣一來,模型在訓練的時候能得到更多有用的信息,就像吃飯吃得飽飽的,幹活更有力氣。它能更好地預測接下來會出現什麼內容,在實際應用中,解碼速度就像坐了火箭一樣快。
比如說在寫文章的時候,以前的模型寫一個詞停一下,像擠牙膏一樣;而用了MTP技術的模型,能一下子寫出好幾個連續的詞,文章寫得又快又通順,還能更好地理解上下文的意思,寫出來的內容更準確、更自然。
另外,DeepSeek-V3還設計了FP8混合精度訓練框架,就像是給模型訓練找到了一個省錢又高效的『妙招』。在模型訓練的時候,數據的精度就像商品的質量,很重要。但是高精度的數據就像豪華包裝的商品,又佔地方(存儲需求大),加工起來還費勁(計算量大)。
FP8混合精度訓練就像一個精打細算的管家,對於一些不太重要的『小活兒』(對精度要求不高的計算任務),就用便宜實惠的『簡包裝』(FP8格式的數據)來處理;而對於那些關鍵的『大活兒』(關鍵的計算任務),就用高質量的『精包裝』(更高精度的數據)來保證質量。這樣既能保證訓練效果,又能大大降低成本(計算成本和內存需求),是不是很厲害?
推理強化
DeepSeek在推理方面表現超棒。就說DeepSeek-R1吧,它用的知識蒸餾技術,就好比學霸把自己總結的學習方法教給普通同學。那些知識多、能力強的大模型,把自己學到的知識和技巧,傳授給規模小一些的小模型。
這樣一來,小模型雖然沒有大模型那麼『聰明』,但推理能力可不差。DeepSeek-R1從複雜的長鏈推理模型裡提取精華,交給標準語言模型,讓標準語言模型回答問題時,理解得更透徹,回答得更準確,不管多複雜的問題都能輕鬆應對。
同時,DeepSeek還試着用純強化學習的方法訓練模型。比如訓練R1-Zero的時候,就像讓模型玩遊戲,不斷嘗試各種操作。模型根據遊戲給出的獎勵或者懲罰,判斷自己做得對不對,慢慢就能找到最好的操作方法。不過這種訓練方法有點小缺點,模型輸出的內容可能會不停地重複,讀起來也不太順口。但它就像給模型訓練打開了一扇新門,爲以後的研究提供了很有價值的經驗和想法。只要我們不斷探索、改進,以後在強化學習訓練方面,說不定能取得更大的突破,讓模型能力更強,用起來也更厲害。
已經入局的車企有哪些?
從2月6日開始,短短几天內,吉利、極氪、嵐圖、智己、東風、零跑、長城等近20家車企及品牌陸續宣佈在智能座艙或AI運營領域與DeepSeek完成深度融合,DeepSeek迅速成爲了汽車行業的『新寵』。
在這場車企與DeepSeek的『聯姻』盛宴中,各車企與DeepSeek的融合方式和應用場景各有特色。吉利汽車率先宣佈,其自研的星睿大模型與DeepSeek-R1已完成深度融合,並計劃對星睿車控Function Call大模型以及汽車主動交互端側大模型進行蒸餾訓練。
這一融合使得吉利智能汽車AI能夠精準理解用戶的模糊意圖,調用約2000個車載接口,還能基於場景主動分析用戶潛在需求,提供車輛控制、主動對話、售後等服務,大幅提升了智能交互體驗。例如,當用戶在車內說『我有點熱』,車機系統不僅能理解用戶的需求並自動調節空調溫度,還可能根據用戶的習慣,同時開啓座椅通風功能,爲用戶提供更加舒適的駕乘環境。
極氪汽車也不甘落後,其智能座艙團隊將自研的Kr AI大模型與DeepSeekR1大模型深度融合,顯著提升了Eva助手的智能化水平。Eva助手變得更加『聰明』,具備了深度思考能力,能夠更全面精準地回答用戶的問題,提供更貼心的服務。比如,在用戶規劃長途旅行時,Eva助手可以根據實時路況、沿途的充電樁分佈以及用戶的駕駛習慣,爲用戶制定最佳的出行路線,並提前提醒用戶在合適的地點進行充電,讓用戶的出行更加安心、便捷。
東風汽車更是動作迅速,一口氣完成了DeepSeek全系列大語言模型的接入工作,旗下猛士、奕派、風神、納米等自主品牌車型都將於近期陸續搭載應用。這一舉措將革新用戶與汽車的交互方式,實現從『被動執行指令』到『主動理解需求』的轉變。
以東風猛士917爲例,其智能座艙已完成DeepSeek-R1模型的接入,計劃在2025年4月上海車展前,率先通過OTA推送更新。屆時,用戶將體驗到更加智能的座艙服務,車輛能夠更好地理解用戶在越野場景下的各種需求,如調整懸掛高度、切換駕駛模式等,爲用戶帶來更加暢快的越野體驗。
嵐圖汽車同樣積極擁抱DeepSeek,旗下嵐圖知音成爲汽車行業首個融合DeepSeek的量產車型。從2月14日起,嵐圖知音用戶可通過OTA更新,體驗到AI智能體座艙的強大功能,包括AI語義識別、AI作詩、AI作畫、AI對聯、AI閒聊、AI信息實時檢索等。用戶在旅途中可以與車機進行有趣的互動,讓枯燥的駕駛變得充滿樂趣。全新嵐圖夢想家(參數丨圖片)也將同步搭載DeepSeek系列模型,進一步提升其智能座艙的語音交互、車載娛樂、智能推薦等功能,爲用戶打造更加高端、智能的出行體驗。
智己汽車則在智能座艙系統中深度引入DeepSeek大模型,並與豆包、通義等多款大模型展開合作,構建了多場景插拔式AI矩陣平臺。這一平臺能夠根據不同場景需求靈活調用不同AI功能,顯著提升了智能座艙的交互體驗。在導航場景中,系統可以根據實時路況和用戶偏好,快速規劃最優路線,並提供精準的語音導航提示;在娛樂場景中,用戶可以通過語音指令輕鬆播放自己喜歡的音樂、電影等,享受愉悅的駕乘時光。
DeepSeek能帶來什麼?
DeepSeek的接入,如同爲車機系統注入了一股強大的『智慧源泉』,爲車機帶來了全方位的變革,這些變革不僅體現在用戶的交互體驗上,更深入到智能駕駛的核心能力層面。
智能交互體驗升級
在智能交互方面,DeepSeek強大的語言理解和生成能力,讓車機系統實現了從『機械應答』到『智能交流』的飛躍。以往,傳統車機的語音交互功能往往只能理解簡單、明確的指令,對於模糊、隱晦的表達常常『一頭霧水』,用戶體驗較差。而DeepSeek接入後,車機能夠理解自然語言的複雜語義和語境,實現自然流暢的多輪對話和上下文理解交互。用戶可以像與朋友聊天一樣與車機進行交流,無需再使用刻板、生硬的指令。比如,當用戶說『我有點無聊,找點樂子』,車機不僅能理解用戶想要娛樂的需求,還能根據用戶的歷史偏好,推薦合適的音樂、有聲讀物或者有趣的小遊戲,甚至還能陪用戶聊聊天、講個笑話,讓枯燥的駕駛時光變得輕鬆愉快。
在上下文理解方面,DeepSeek也表現出色。假設用戶先詢問『附近有什麼好吃的火鍋店』,車機給出相關推薦後,用戶接着說『找個評分高的』,車機能夠理解這是基於上一個問題的延續,精準地篩選出評分高的火鍋店推薦給用戶,而不會出現理解偏差,這種智能的交互體驗大大提升了用戶與車機交流的便捷性和流暢性。
智能駕駛能力提升
從智能駕駛的角度來看,DeepSeek的多模態能力爲其帶來了質的提升。智能駕駛需要車輛對複雜的路況、交通信號、行人等多方面信息進行快速、準確的感知和決策。DeepSeek可以融合視覺、語音、環境等多維度數據,加速複雜場景決策模型的訓練效率,助力算法優化。在遇到前方道路施工、交通擁堵等突發情況時,車機系統能夠利用DeepSeek強大的分析能力,快速規劃出合理的繞行路線,避免用戶陷入長時間的等待。
DeepSeek還能降低智能駕駛對高算力硬件的依賴。通過其獨特的算法優化,車企可以在有限的算力條件下,推動性能更強模型的誕生,從而降低研發成本,提高智能駕駛系統的性價比。這意味着更多的車型,尤其是中低端車型,也能夠享受到先進的智能駕駛技術,加速智能駕駛的普及進程。
1
當然,我們也不能一吹一貶地看待當下的AI技術。
就以DeepSeek和ChatGPT爲例。DeepSeek採用混合專家模型(MoE)和多頭潛注意力(MLA)等創新架構,在技術複雜度較高的場景中表現優異,尤其擅長邏輯推理任務,在處理編碼、數學問題以及複雜的技術任務時,能提供更精準、高效的回答,且它是開源模型,成本較低,API定價約爲每百萬令牌0.48美元,對預算有限的用戶很友好。
而ChatGPT憑藉Transformer架構,擁有龐大的用戶基礎,在通用性和適應性上表現出色,生成的內容更具創造性,語言風格也較爲輕鬆隨意,適合日常對話、文案創作等一般性任務,但它處理實時數據的能力較弱,針對特定領域問題的準確性有時欠佳,且使用高級功能需付費訂閱,每月20美元,API成本根據模型不同,每百萬令牌3-15美元不等。
應該說,兩者各有千秋,都是推動AI技術發展的重要一員。
不過,隨着各大模型接入車機,無疑是汽車智能化發展道路上的重要一步,它爲汽車智能化帶來了新的契機和變革。通過提升智能交互體驗和智能駕駛能力,讓汽車變得更加『聰明』,更加貼近用戶的需求。
而對於車企與DeepSeek而言,同樣面臨着一些挑戰,如同質化競爭風險和安全與合規隱患,但這些挑戰也爲行業的發展提供了改進和創新的方向。隨着技術的不斷進步和完善,以及車企與科技企業合作的不斷深入,這些問題有望逐步得到解決。
展望未來,汽車智能化的發展方向將更加多元化和深入化,車企與DeepSeek的合作只是汽車智能化發展的一個縮影,未來,隨着更多先進技術的涌現和應用,汽車智能化的發展或將充滿無限可能。