ChatGPT 引發大語言模型爆發之后,自動駕駛界打響了大模型之戰。
首當其沖,有特斯拉提出的端到端方案、毫末智行首發自動駕駛生成式大模型,華為盤古大模型 3.0 聚焦自動駕駛場景提升數據閉環、商湯也提出自動駕駛通用大模型 UniAD。
另一面,各家車企也爭相追逐大模型:長城、奇瑞、吉利、長安、廣汽、蔚來、小鵬、小鵬等陸續公布了大模型的相關進展。
自動駕駛大模型熱潮,要從自動駕駛公司毫末智行在國內率先帶節奏說起。
今年 4 月份,毫末智行在第八屆 HAOMO AI DAY 上,發布了行業首個自動駕駛生成式大模型 DriveGPT,解決自動駕駛研發過程中困擾已久的認知決策問題,并通過能力迭代,最終試圖實現端到端自動駕駛。
而毫末的更新迭代是以「天」為單位計算。
10 月 11 日,毫末在 200 天后舉辦第九屆 AI DAY,宣布 DriveGPT 新進展——通用感知實現萬物識別,通用認知融入世界知識。
同時在產品端,毫末智行還發布了第二代三款千元級重磅 HPilot 產品。
毫末用技術和產品回答了大模型有多大才算大、智駕產品有多卷才算卷。
01 更新后的毫末大模型,有什么看頭?
地基已經建成。
DriveGPT 作為自動駕駛場景生成式大模型,輸入的是感知融合后的文本序列,輸出是自動駕駛場景文本序列,是通向端到端自動駕駛的大殺器。
但在自動駕駛大模型熱中,擺在眼前的痛點問題是:數據量大小,以及落地問題。
本次 DriveGPT 的更新,不僅是自動駕駛開發模式的范式變革,也同時解決了數據量、落地的痛點問題。
大模型多大才算大?
毫末智行數據智能科學家賀翔解答了汽車之心的疑問:「里程數 1 億只是開始。」
截止目前,DriveGPT 學習時長達到 103 萬小時,用戶使用輔助駕駛里程 8700 萬公里,正加速朝 1 億公里數據規模狂奔。
數據量膨脹、又如何在海量數據中挑出對大模型訓練更有價值的數據?
讓 DriveGPT 擁有世界知識,成了毫末智行大模型訓練的解題思路。
賀翔舉了這樣一個例子:
以前智駕系統在泊車時如果感知到一堆雜草,可能會直接判別其為障礙物,繼而停止倒車。DriveGPT 更新后,不僅能識別出是雜草,還能挖出物體隱含信息。比如系統會深入學習草的特性——最終系統可以直接碾過雜草,繼續倒車。
要做到這一步并不容易,DriveGPT 能夠做到像人一樣決策、判斷,主要依靠兩個重大更新:
第一,在感知大模型新增加圖文多模態大模型;
第二,在認知大模型中增加大語言模型 LLM。
在自動駕駛開發 2.0 模式到 3.0 模式的過渡期,感知、認知、執行三大模塊分別對應車端感知模型、車端及云端認知模型、車端控制模型,并最終走向端到端自動駕駛。
首先,在毫末視覺大模型架構中,通過圖像編碼器,在訓練過程采用自監督預訓練學習的方式,從而能高效地處理高達百億的圖片,而這種自監督方式是通過圖像掩碼恢復建模來提高預訓練模型的圖像表征能力,對優化下游任務效果起到關鍵作用。
接著,DriveGPT 在感知大模型中引入 NeRF 技術,將 Clips 序列的前 K 幀的部分輸入模型,用 NeRF(神經輻射場)渲染出后續 H 幀,在這個過程中要經過 4D 編碼器、多模態教師、NeRF 渲染器的加工,將物體視覺特征對齊文本語音特征,做到識別萬物的能力。
這一步相當于系統不僅可以識別一捧雜草、柱子等障礙物,甚至也能識別非洲大陸上的羚羊與大象。
第二步要讓系統知道「草可以碾過」這樣的物理特性。
毫末在認知大模型中增加了一個壓縮了人類社會全部知識的大語言模型 LLM,相當于在云端為汽車植入了最強大腦,要讓大模型看懂、理解駕駛行為。
車端的一顆芯片,自然無法裝得下如此規模參數的大模型。
云端的進展變成車端優秀的駕駛表現,考驗的不只是云端的底子,還有將云端大模型能力蒸餾至車端的能力。
蒸餾,原本指的是將混合物分離、純化。
在自動駕駛領域,蒸餾指的是將云端積累的能力精煉到車端的能力。
毫末智行落地云端大模型的方法有兩種:
一種是車端模型與云端同步輸出偽標簽,車端模型在逐漸擬合云端大模型的過程中得到進化,相當于云端刷題,給車端傳輸方法論。
另一種是直接讓車端小模型對齊云端 Feature Map,更加迅速提升車端小模型的能力,相當于車端直接抄云端答案。
目前毫末智行通過蒸餾使得車端模型感知指標提升 5%。
這種提升效果在一些實際測試中明顯體現出來,在毫末內部有一計劃被命名為小動物保護,目的是為了考察車端 NOH 系統對于小目標的感知檢測能力。
在毫末 AI DAY 公開的測試視頻中,毫末城市 NOH 在時速最高 70 公里的 50 米距離外,就能檢測到高度 35cm 的小目標障礙物。也就是說開啟 NOH 后,即便城市道路上突然出現動物出現,也不用擔心剎停問題。
此外,云端大模型還能形成閉環,反哺數據量。
目前,毫末利用 DriveGPT 落地了場景理解、場景標注、場景生成、場景遷移、行為解釋、環境預測、模型開發等七大應用實踐。
譬如,場景生成可以通過簡單幾筆直線生成近乎真實的駕駛場景。場景遷移則利用單張圖片就可以改變黑夜、白天、雨雪天氣等環境特征。這些應用不僅能夠節約數據訓練成本,還提升了數據訓練精度。
從發布 DriveGPT,再到為其融入世界知識,毫末正在補齊自動駕駛大數據、大模型、大算力的金字塔結構。
02 猛打智駕性價比,3000 元實現智駕體驗
毫末 DriveGPT 的外化是產品,這一次 AI DAY 毫末放出量產殺器,一口氣發布了三款 HPilot 產品。
HP170:針對高速場景,3000 元級的高速無圖 NOH,可以實現行泊一體。算力 5TOPS,傳感器方案標配 1 個前視相機、4 個魚眼相機、2 個后角雷達、12 個超聲波雷達。目前,毫末 HP170 是業內唯一一個將高速無圖 NOH 系統壓縮到一顆 MCU 上的智駕產品。
HP370:針對城市場景,5000 元級的 HP370 可以完成城市記憶行車與記憶泊車,是毫末城市 NOH 的最小集。算力 32TOPS,傳感器方案比 HP170 的相機攝像頭數量翻 2 倍,同時增加了側視相機、后視相機、前雷達及后角雷達,可以實現學習用戶通勤、日常路線,做到像用戶開車一樣老司機。
HP570:針對城市場景,8000 元級城市全場景無圖 NOH,算力可選 72TOPS 和 100TOPS 兩款芯片,傳感器還支持選配 1 顆激光雷達,可以做到城區道路內通行,全程無圖 NOH、全場景智能繞障等功能一應俱全。
毫末智行董事長張凱現場表示,HP570 比起上一代平臺成本下降三分之二,將會是行業內最具性價比的全場景無圖 NOA 產品。
三款產品最大的特性就是定位都在千元級,全部是行泊一體,包含高速無圖 NOH到城市全場景無圖 NOH,主打一個極致性價比。
汽車之心觀察到的情況是,智能汽車相關企業最近發布產品時有了直接以價格定性能、定區間的趨勢。
成本和產品力即將形成交叉時,自動駕駛棋局就開始互相兌子——各方權衡利弊下,以高價值兌換低價值。
將毫末智行三款產品可實現的功能級別對應到智能駕駛市場中,就會發現目前市場智駕產品的性價比還有進一步提升的空間。
行泊一體功能上車車型主要有小鵬 P5、榮威 RX5、寶駿 KIWI 等,這些車型售價集中在 10-20 萬。若要擁有記憶行車、記憶泊車類似功能,那么小鵬 G6、寶駿云朵靈犀版是代表,其售價集中在 15-25 萬。
類似的,全場景城市 NOA 對系統軟硬件要求高,目前理想 L9 Max、小鵬 G6/G9 Max 版本、阿維塔 11/問界 M5/M7 智駕版均可以實現城市 NOA,而這一列平均價格至少在 25 萬元以上。
毫末三款 HPilot 產品以更高的性價比,實現了三檔不同水平智駕能力的下放,對于實現智駕技術平權、提升了用戶智駕體驗大有裨益。
據汽車之心了解,目前使用毫末 HPilot 智能輔助駕駛產品的用戶月度活躍率達到 88%。
在 AI DAY 上,毫末智行 CEO 顧維灝提到的一個用戶案例尤為有趣:
在搭載 HPilot 產品的車輛中,一位摩卡用戶單輛最長累計智駕里程是 82073 公里,智駕功能使用率 76.2%,相當于使用輔助輔助駕駛繞著地球跑了快兩圈了。
更加平價的智駕系統,扭轉了自動駕駛命運的齒輪。
乘用車聯合會數據顯示,2023 年乘用車智能駕駛滲透率與價格呈反向增長,乘用車市場 L2 及以上智能駕駛滲透率達 42.4%,預計 2025 年將達 70%,并普及到 10-20 萬的主流車型上。
目前,有不少車型的高階智駕系統選購率突破了歷史值:
用戶選購小鵬 G6/G9 Max 版本的占比分別到達了 60% 和 80%;
國慶假期訂單爆發的問界,新款問界 M7 超 5 萬訂單里,智駕版超過 3.3 萬臺,占比近 66%;
寶駿推出的云朵靈犀版,用戶選購智駕版本的占比達到了 80%。
智駕能夠在用戶端迅速鋪開的一大原因就是「價格香,體驗好」。
而以毫末為代表的玩家,將滿足高、中、低價位車型的量產需求,進一步催化智能駕駛平權,將智能駕駛的使用門檻再降一檔。
03 自動駕駛還要打贏四場戰役
自動駕駛是人工智能最大的問題,在外界看來自動駕駛突破節點,像是呼嘯而過、一夜爆發的「技術奇點」。
實則不然,自動駕駛爆發背后必然包含了技術升維、商業落地、場景開拓、數據膨脹等艱難、恒久的歷程。
毫末將這些歷程稱為四場戰役:智能駕駛裝機量之戰、MANA 大模型之戰、城市 NOH 百城大戰、末端物流自動配送車商業之戰。
量產之戰、大模型之戰不再贅述,考驗的是性價比與技術的平衡。
而城市 NOH 百城大戰與末端物流自動配送則是毫末堅持以技術撬動場景,兩條腿走路的戰略體現。
開城之戰已經打響,從小鵬、華為、長城宣布開拓百城,再到蔚來提出以路開城,快節奏、多元化開城使得城市 NOA 走向價值兌付。
在 AI DAY 上,毫末首次釋放了城市 NOH 路測表現。
顧維灝與張凱兩人搭檔測試了魏牌藍山的 NOH,從保定哈弗中心出發在保定鬧市區行駛 12 公里,僅手動接管 3 次。
在視頻中,NOH 流暢完成了多車道匯入單一車道、無保護右轉等動作,即便在復雜的電動自行車無規則穿行路況下,依舊能夠及時響應,完成避讓。
在夜間場景下依舊表現出色,夜間識別橫穿行人、及時避讓行人,面對擁堵道路、紅綠燈交替以及機非混行等復雜場景穩如老司機。
據汽車之心了解,具備城市 NOH 導航輔助駕駛功能的毫末 HP550,將搭載魏牌藍山在 2024 年第一季度正式量產上市。
進一步地,毫末百城 NOH 目標將會先后在北京、保定、上海等城市全面鋪開。
另一個撬動量產的杠桿是毫末在末端物流的進展。
乘用車的智駕滲透率、商業落地是緩慢進行的,但在自動駕駛垂直場景,大規模盈利拐點將會更快到來。
此次,毫末第三代末端物流自動配送車小魔駝 3.0 實車亮相 AI DAY,這是個能夠滿足商超、物流、零售多場景多需求的自動駕駛「大塊頭」,也是全球首款 9 萬元內中型末端物流自動配送車。
目前,小魔駝已完成 22 萬個無人配送訂單,在北京順義、亦莊等地區已經能看到小魔駝實車。
隨著毫末智行在第四季度與達達物流進行合作加速落地更多地區,毫末也將在第四季度商超履約配送場景率先實現盈利。
梳理自動駕駛行業現狀就會發現,2025 年到來之前,智駕鋪開的速度與規模,成為自動駕駛企業留在牌桌上的決賽項目。
背靠長城的毫末已經有了極為充沛的量產實踐。
中國工程院院士、清華大學教授張亞勤指出,毫末智行是推動智能駕駛量產的重要角色。
他認為自動駕駛開發模式可以分三個時代,而毫末是 2.0 時代過渡到 3.0 時代的代表企業:
1.0 時代:硬件驅動,在這個階段算力僅為數 T,數據規模停留在 100 萬公里,感知和認知主要依靠激光雷達和人工規則,智駕水平并不流暢。
2.0 時代:軟件驅動,硬件、軟件、數據三者支撐,數據規模達到 1 億公里,傳感器可以單獨輸出結果,但認知仍為人工規則。
3.0 時代:數據驅動,數據量超過 1 億公里,感知依靠多傳感器融合輸出,認知層可以輸出可解釋的、場景化駕駛常識,大數據、大模型、大算力成為發展三要素。
永遠追逐先進技術,保證智駕安全性是自動駕駛不變的命題。
就連張亞勤也直言:
「技術要始終往前推進,不能保證未來 5 年一定是 Transformer 路線。即便是 Transformer 大模型,其運行效率要比人腦也要低 1000 倍。」
自動駕駛技術路漫漫,但在 AI DAY 最后的沙龍環節,不少自動駕駛行業從業者用黎明、實用性、風起云涌來形容行業進展。
曙光的本質是——智能駕駛正逐漸被用戶需要。在這樣的趨勢下,一個具備技術競爭力、高價值的毫末將會更加被需要。
來源:第一電動網
作者:汽車之心
本文地址:http://www.155ck.com/kol/211350
文中圖片源自互聯網,如有侵權請聯系admin#d1ev.com(#替換成@)刪除。