去年12月,DeepSeek上線并開源了DeepSeek V3/ R1/Janus Pro,隨后多個云平臺宣布上線DeepSeek大模型。從2月份開始,多家汽車相關企業開始宣布接入DeepSeek,用于賦能不同領域的用戶體驗,但更多的集中表現在云端模型、座艙交互AI以及渠道服務方面。
北汽極狐在座艙領域接入DeepSeek,優化問答。不過北汽還接入了豆包、MiniMax等多個大模型。
筆者也在撰稿時讓DeepSeek和ChatGPT同時整理DeepSeek與整車企業的合作狀態(輸入問題為:deepseek和哪些汽車企業建立了合作,合作內容是什么,整合到一張表格里邊)。
顯示結果如下。在一次問答中,兩者均給出了10家合作動態。而真實情況遠不止如此,在不進行連續補充提問的情況,兩者均出現一些遺漏,但在整理資料方面,DeepSeek的表現基本與ChatGPT相當,并且中文支持更好。
左側圖為DeepSeek,右側圖為ChatGPT
01.
DeepSeek和其背后的技術
相比于Open AI這些成名已久的大模型,除性能外,DeepSeek的另一優勢在于其較低的訓練成本。其V3的訓練成本僅用了557.6萬的訓練成本。當然V3的成本并不能一定說明其總成本的優勢,事實上對于其成本具體數值說法不一,但對其成本的討論熱度就可看出其成本方面確實存在一定優勢。
除訓練成本外,最為關鍵的是DeepSeek推理成本的降低。 并且和標準的Transformer架構相比,并沒有引入特殊的算子,這也就意味著可以快速部署在各類芯片上(當然這也是美國芯片禁令的無奈之舉),這也是為什么稱幻方是“手擼算子的天才”的原因。
來源:天津大學自然語言處理實驗室
推理成本降低加上輕松部署,加上沒有中文互聯網的限制,使得AI在一夜間快速普及。各智能終端產品也在一夜間擁抱AI。
而DeepSeek能夠快速崛起的原因,根本還是來自于其技術的選擇。在天津大學自然語言處理實驗室發布的報告中提到,DeepSeek在模型架構上選擇稀疏MoE模型而非稠密模型,在推理模型訓練中有效解決R1-Zero問題,采用蒙特卡洛估算取代Value模型,將推理與對齊合為一體。在小模型應用中,將大模型的推理能力直接蒸餾到小模型,比小模型直接訓練更具規模化優勢,也就意味著成本可以更低。
受此帶動,混合專家(MoE:Mixture-of-Experts)架構再次成為行業的焦點。MoE架構即將數據分割為多個Token,然后通過門控網絡技術(Gating Network)把每組數據分配到特定的專家模型。這些專家模型專注于處理不同的任務。MoE架構的好處在于提供模型靈活性和效率的同時,也會顯著降低計算成本。這也是DeepSeek訓練成本低于ChatGPT的核心原因。
DeepSeek MoE示意圖
由無數個專家模型組成的大模型被稱之為教師模型(參數量大、性能強大),基于此模型可以針對性蒸餾出不同專業子模型,子模型也被稱之為學生模型(輕量級)。
因此不僅是DeepSeek本身,MoE架構和蒸餾技術對未來座艙和智駕技術都將產生深遠的影響。
02.
認識一下MoE
MoE理論提出時間很早,在1991年Geoffrey Hinton和Michael I. Jordan就發表了論文《Adaptive Mixtures of Local Experts》,這也是如今MoE模型引用最早的論文,這也意味著在傳統機器學習時代,MoE的理念就開始應用。
進入深度學習時代后,MoE開始在神經網絡中應用。2013年12月《Learning Factored Representations in a Deep Mixture of Experts》論文將MoE融合進去了神經網絡結構中,并設計出橫向拓展神經網絡的方法,使其可以隨著網絡深度的增加實現指數級上升。
真正將MoE應用在大參數模型是Google Brain團隊在2017年發布的論文《Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer》,訓練出了137B參數的模型。
最大的改進在于可以根據輸入的內容,決定采用哪一部分模型進行計算,提升模型計算的效率。這樣有利于模型規模增加后,成本不會出現指數級增加。該案例中最大使用了13萬個專家模型。當然,后續在應用MoE架構時還會面臨工程化難題,即如何協同算力。
進入Transformer時代后,MoE繼續得到應用。2020年6月,Google發布《GShard: Scaling Giant Models with Conditional Computation and Automatic Sharding》,把FFN層替換成MoE層。2021年1月,Google緊接著發布了《Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity》,進一步提升了模型的參數量,達到1.6T。最大的改變是只為每個Token分配一個專家模型而非此前的多個,使得門控網絡(Gating Network)可以用BP直接訓練。
并提出了容量因子(Capacity Factor)的概念。原理上來看,模型計算時希望最大限度讓每個專家模型拿到均分的Token,以最大限度發揮機器算力。但實際情況Tokens是沒有辦法被均分的。因此就需要為每個專家模型分配一個緩沖區(buffer),buffer的大小等于平均分配到每個專家模型的Token乘以Capacity Factor。如果buffer溢出,直接將Token丟棄,相當于跳過該FFN層的計算。
對應的,通過容量因子,可以實現計算速度和訓練質量的trade-off。即加大容量因子會保證每個Token得到計算,但計算會變慢。減少容量因子可以加速訓練,但會導致更多的Token被丟棄。
Switch Transformer主要的成就在于在工程上驗證了MoE在大型Transformer模型上的效果,不再僅僅停留在理論層面。 在計算量不變的調節下加速模型訓練,提升模型效果。對MoE的應用有著巨大的推進作用,對后續的scaling law、蒸餾做了很多詳細的探索,奠定了技術的方向和基礎。
2022年Google再次發布了ST-MoE模型,《ST-MoE: Designing Stable and Transferable Sparse Expert Models》,進一步推進MoE模型的發展。ST-MoE主要解決兩個問題,一是訓練過程中的不穩定。二是特定任務的小數據集微調預訓練任務(fine-tune)上表現不佳,與通用大數據集訓練(pre-train)差異明顯。為了解決這些問題,ST-MoE提出了新的loss,即router z-loss,提出模型的穩定性。ST-MoE模型也提出一些手段解決Fine-tune效果不佳的問題,主要解決過擬合難題。提出了兩個方向,一是只更新模型部分參數,二是使用于Fine-tune Dense模型不一樣的超參數。
ST-MoE模型在工程化繼續向前推進 ,但考慮到其時間段,模型依然是Encoder-Decoder架構。如今,架構更多是Decoder-only架構,即純自回歸任務訓練。
2021年12月,AI行業進入GPT時代,Google也發布了GLaM,《GLaM: Efficient Scaling of Language Models with Mixture-of-Experts》,訓練出了最大為1.2T參數量的Decoder-only模型,MoE模型正式在Decoder-only架構中使用。
可以看出經過多年的發展,MoE模型在理論和工程化方面都得到了提升和完善,在模型效果、訓練速度和算力成本方面都表現出較大的優勢。但Fine-tune效果不佳的問題也一直在存在,需要行業繼續去解決。Google在MoE領域是絕對的先驅者、拓荒者。
(本章節內容參考自知乎,作者:Verlocksss)
隨著技術的發展,2023年開始開源的MoE模型開始向業內開放。
2023年12月,法國公司Mistral AI發布了全球首個開源MoE模型,Mixtral 8*7B,采用decode-only架構。2024年1月,幻方量化發布《DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models》,也是國內第一個開源的MoE模型。
隨著開源生態的建立,MoE高性價比的特性凸顯,2024年之后,MoE迎來大發展,僅上半年全球發布的MoE模型就超過20多個,過往三年總量才10個左右。MoE的使用傾向也不盡相同,有些企業采用MoE提升大模型性能,有些企業則利用MoE低成本的優勢加速其AI產品的應用。
DeepSeek的成功,把MoE在一次推到了前所未有的高度,證明了其工程化的可行性。這是因為在以往,包括MLB、FP8訓練、MoE all-to-all通信、MTP等技術雖然早已提出,但從未在如此大的模型中得到協同創新,更未有開源的模型出現。
03.
DeepSeek及技術在智駕領域應用
從2024年開始,在AI技術的推動下,智能汽車進入AI定義汽車元年。各類AI技術或應用將在汽車中得到嘗試。
拋開營銷服務領域,汽車中DeepSeek落地最快的云端模型,車端領域是座艙和智駕。云端本身就已探索各類大模型的應用,座艙則直接可以通過聯網接入云端,甚至在座艙直接部署一個端側小模型提升用戶語音問答體驗(如果算力、內存、帶寬允許)。
其實早在DeepSeek大火之前,開源MoE模型便已出現,MoE模型在車載領域應用的時間段要早于DeepSeek。
2024年10月,小鵬在AI技術分享會上便提到了其端到端架構即車端大模型是基于其云端大模型蒸餾所得,據了解云端模型架構即采用的是MoE。理想汽車CEO宣布轉型進入AI領域后,據透露其Mind GPT模型也將采用MoE模型和Transformer結合。并且理想汽車還與上海期智研究院、復旦大學推出STR2。STR2面向自動駕駛領域規劃控制領域,通過結合Vision Transformer編碼器和MoE架構,實現對復雜交通環境的深度學習和有效規劃。
DeepSeek的出現加快了MoE的進程,配合蒸餾技術,為智駕技術打開了想象空間。
據了解,DeepSeek對智駕的影響主要有兩個方向。一是加速云端智駕模型性能提升(訓練教師模型,已經在推進中),二是車端模型優化(部署學生模型,探索過程中)。
在云端,主要的做法是基于當前智駕企業積累的數據庫,選用DeepSeek的開源模型做數據生成來完善場景構建。主要的應用方向有三個,分別是場景理解、感知融合和軌跡規劃。
采用DeepSeek后,一方面利用其模型性能可以節省標注成本。有業內人士指出,可以節省約90%的標注成本,還可以生成海量的增強數據。比如經驗豐富的司機駕駛風格數據,通過與模型生產的軌跡進行對比,可以評估軌跡生成結果。并且還有利于提升極端路況的表現,這點在城市NOA中尤其適用。
在功能應用上,相比于感知融合,軌跡規劃方面的進展預計會更快。這是因為視覺部分涉及到位置坐標表示,對精度要求更高。DeepSeek作為語言模型對此描述比較模糊,存在FP8精度相對較差的問題。比如車道線的對比,雖然效率有著顯著提升,但誤差增加,短期內無法滿足要求。但可以通過其語言部分與視覺結果做對比,以更好的實現軌跡預測。
當前由于時間進度原因,云端模型還在接入部署階段。最大的挑戰在于教師模型的完善,借助包括DeepSeek等多個大模型技術來優化性能,在這個過程中一些特殊場景的數據需要同步挖掘。預計在今年下半年會有相關企業公布進展。
在車端方面,主要的做法是借助DeepSeek所展示出的技術從教師模型中蒸餾得到學生模型,無需單獨對其進行訓練(理想情況)。
在這個過程中需要評估芯片算子的框架,當前進展較快的主要是英偉達和華為的芯片,地平線芯片還在適配中。然后便是算法移植,將學生模型部署在車端芯片中。
從進度來看,車端模型的適配和部署還在推進中,一方面要適配不同的芯片,另外還需評估模型部署完成后,車端模型實際的表現。在這個過程中,也可以直接借用DeepSeek的一些小模型,比如目標識別、語義分割等作為現有模型的補充。
04.
對未來智駕行業的影響
首先是降低云端訓練成本,即降低算力租賃的費用,實現系統降本。
基于教師模型可以蒸餾得到多種學生模型,不同版本智駕方案無需重復開發,開發效率也會提升。尤其是會減少第三方智駕企業的資金壓力和項目周期壓力。
一旦教師模型趨于成熟穩定,中階智駕和高階智駕技術邊界會越來越模糊,理想情況下可以來源于同一教師模型。屆時,只需要按照功能定義對應的蒸餾出相應模型即可。該方向比較依賴教師模型的成熟度,DeepSeek本身無法作為智駕教師模型使用(上文提到的精度問題),因此共用教師模型尚需一定時日。
其次是車端算力要求的降低。本身DeepSeek的一些小模型便可以直接應用于智駕,比如上文提到的語義分割,目標識別等,以優化現有模型。長遠來看,基于教師模型蒸餾得到的學生模型也會更加精細化,并且DeepSeek所展示的推理效率也有一定的借鑒意義。這也就意味車端所需的芯片算力要求會有所降低,行業希望其可以節省30%的算力。對應的,現有算力平臺能夠實現的功能也會增加。個別企業表示,基于DeepSeek的技術路徑甚至可以在單Orin-X上部署L3的功能。
此外,對艙駕一體的應用也有幫助。這取決于教師模型的功能定義,需要將智駕和座艙放在同一模型上進行迭代升級。但目前未看到有明確的技術動向。
End.
DeepSeek的大火證實了AI技術在成本可控的情況下,的確存在廣闊的市場需求。促使業內加速探索AI的應用場景需求,加強了AI產業的信心。
對于汽車而言,一方面DeepSeek的低成本優勢帶來了降本的方向和可能,尤其加速AI在云端和車端座艙里邊的應用。更重要的,DeepSeek背后的技術理念和工程化實現方式會對現有技術架構體系帶來啟發,提供新的思路和方向,這點對智駕尤其有用。
來源:第一電動網
作者:NE時代
本文地址:http://www.155ck.com/kol/262989
文中圖片源自互聯網,如有侵權請聯系admin#d1ev.com(#替換成@)刪除。