8月30日的直播我們邀請了51Sim CEO鮑世強以及清華AIR助理教授趙昊,共同討論當前自動駕駛仿真難點以及新的方向。
嘉賓精彩發言及觀點:
Graphics 改變了整個動畫和游戲行業,但它不適合做重建;NeRF要直接改變所有的渲染框架,還需要有足夠強的商業動因。
無論是規控仿真還是感知仿真,核心挑戰之一是解決真實數據太死和仿真數據太假這兩個問題。
感知仿真關注的重點是在路面、路上和周圍的交通參與者、以及馬路上的一些標識、道路標牌等這些要素的真實性,道路旁邊一些建筑是不是具有真實性,其實不那么重要。
我們需要保證采集回來的數據本身價值比較高,否則可能存儲數據的成本會超過數據本身的價值。
越往后發展,仿真越不是數據的生成器,而是一個數據倍增器的作用。
測試主要兩個目標,一個是發現問題,另外一個是證明沒有問題。
AIGC核心目的不是為了生成新的數據,而是為了幫助用戶更快捷地通過自然語言的方式提高場景制作的效率。
以下為直播聊天實錄,有所刪減,完整直播視頻請查看「智車星球」視頻號:
1
—
NeRF帶來的新方向
智車星球:傳統的渲染框架和剛剛說到神經渲染框架有什么核心的區別?
趙昊:從CV界的視角來看,Modeling(建模)就是重建物理世界。這個世界上每個真實的物體都對應一個幾何特征,物體本身會有一些表面的材質。這個世界上有了光,我們有一個成像模型,通過這些我們就拿到了一張圖片,然后就要去解決 Inverse problem (逆問題)。這件事情從計算機視覺誕生的那一刻起,就是一個圣杯。
早期Graphics(圖形學)有很多種方式去渲染,最后打贏的一派是適合做動畫的和做游戲的,但是這一件東西就是這一套 rendering pipeline (渲染流水線),可能只適合做動畫和游戲,但不適合做重建。
所以在2020年的時候,谷歌的Graphics專家Jon Barron重新把 volume rendering(體積渲染)給了搬出來,這就直接把Inverse rendering(反向渲染)用一種全新的思路去解決了。
而NeRF有一個比較成功的點在于用一個MLP就讓大家都明白它是什么意思,所以我覺得Jon Barron的思想比較深刻,他把最后的結果以大道至簡的形式呈現出來,并觸發了這一場革命。當然從純學術史的角度來講,他一開始并不是為了重建,他一開始是為了做Novel view synthesis(新視角合成)。NeRF的volume rendering這個范式的改變,直接打開了新思路,現在NeRF的formation已經各種各樣了。
總的來說,圖形學改變了整個動畫和游戲行業,但它不適合做重建。然后inverse rendering被NeRF又給救了回來,進而改變了我們去思考如何重建物理世界的方式。但如果NeRF要直接改變所有的渲染框架,改變整個電影和游戲工業界,甚至改變GPU的架構為它適應,我覺得還是比較遙遠的事情,這更多是一個商業行為,要看后面有沒有足夠的商業動因。但我覺得大家對于圖像真實性的不懈追求肯定一直有,我覺得是慢慢朝著那個方向改變。
智車星球:自動駕駛仿真主要是感知仿真與規控仿真,從大框架看兩者都包括了仿真場景的建立、仿真執行以及仿真評價,但在具體操作上,二者有哪些區別?核心的挑戰是什么?
鮑世強:如果大家對測試工作比較了解的話,就知道這個測試包括單元測試、模塊測試、集成測試等,是一個從小到大的過程,在不同的開發環節,會產生不同級別的一些測試。
對于智駕的仿真測試就涉及到感知系統、定位、規控系統的測試,實際執行上又有比如說軟件層面的測試,一些硬件在環方面的測試。
所以大多數情況不能泛泛來講,要看我們到底要測什么,被測物的環節越小越集中,測試的針對性越強,如果發現了一些問題,指向性也非常明顯。
感知系統單獨的測試,一般通過開環、回灌的這樣一些方式可能居多,其實某種程度上來講它其實很難算仿真,因為用真實數據更多一點,當然也可以用仿真生成的虛擬數據集去做回灌,這也是未來的一個趨勢。
目前規控測試更成熟一點,大家對它的確定性并沒有太大的異議。
感知的仿真,我覺得其實目前還在于比較偏前瞻的領域,現在也有兩種方法,一種基于傳統圖形的方法,另外是基于神經渲染NeRF的方式。
兩者的挑戰在于數據,無論是規控仿真還是感知仿真,從我的角度,可以在一個框架下來理解,可以看作是一個軸的兩端,一端完全是真實數據,一端完全是虛擬數據,然后他們各有優缺點,下一步工作是去平衡兩端。
真實數據它是歷史上某一些時刻的記錄,是一個比較死的數據,怎么讓它具備一定的靈活性是一個核心挑戰。而仿真數據是一個人造的東西,有的時候可能跟真實數據有一定的差異,所以我覺得核心挑戰是解決真實數據太死和仿真數據太假這兩個問題。
那么現在的一個趨勢我覺得是互相滲透的方式,比如把真實數據的某一部分進行邏輯化和智能化,以解決真實數據太死的問題。然后依托大量真實數據去做仿真數據的合成,解決仿真數據太假的問題,我覺得這是兩個核心的方向。
智車星球:您曾經提過關于感知用仿真場景的構建,下一步方向就是程序化生成結合NeRF重建,這個方向它有什么樣的好處,又有哪些短板?
鮑世強:可能對現代圖形沒有那么了解的人一般會質疑真實感,但真實感首先并不是不可逾越的,比如我們做一個電影特效,其實可以達到非常真實的效果。但這有另外的一個問題,成本的問題,我們不可能不考慮成本去談真實感。做感知仿真測試需要生成大量的數據,不可能每一個東西都做得和電影一樣,否則成本上是完全不能承受的。所以會考慮采用一些新的技術,比如說用一些程序化生成的技術。
NeRF這個方案我認為有非常強的顛覆性,甚至對圖形領域都會產生沖擊,它不僅會對感知仿真領域帶來一些新的思路和方案,對于傳統的基于圖形的體系架構也會產生一些影響。我認為這個方向非常好,他有一個非常長的長板式真實性,潛力非常大,但是目前應該還是處于相對比較早期的階段,還需要解決很多的問題。比如性能、動靜態場景的解耦、可編輯性以及生成泛化性等。我覺得NeRF的長板和短板正好跟傳統圖形是比較互補的,所以未來的方向可能是兩者結合的一個方案。
說到真實性,因為我們是做智駕感知仿真這個專門的應用落地場景,關注的重點是在路面、路上和周圍的交通參與者、以及馬路上的一些標識、道路標牌等這些要素的真實性,道路旁邊一些建筑是不是具有真實性,其實不那么重要。真正核心還是圍繞路面交通這一特別具體的場景,能否重現一些車道線的涂改變化和破損、路面上出現的一些特種車輛、摩托車拉一些人,各種各樣長尾的小概率場景,光照條件,傳感器的一些工況,比如濺水,臟污,這種特點能不能針對這些具體的場景,發揮虛擬仿真技術的放大作用,通過合成數據的方式補全充一些訓練數據,提升感知系統面對這些長尾場景的性能。
這里面有幾個關鍵的要素,一個是場景的真實感,一個是場景的多樣性,一個是傳感器模型的精確性,一個是成本。如果你要讓我排第一名,我認為應該是場景的多樣性。傳感器的精度和場景真實度要求是很高的,但我們可以設置一個較高的門檻,過了門檻再往上提升,它的性價比就會下降。
這時候我們要解決的重點問題就轉移到怎么樣通過盡量低的成本去解決場景多樣性的問題。NeRF在真實性方面有很大的幫助,但是多樣性的方面其實帶來的改變不大,一些生成式AI的方向會更有幫助。
智車星球:激光雷達基于物理方式的建模和基于真值加噪聲的建模方式,哪種更適合算法去做測試訓練。
鮑世強:我們的方式還是采用實采,比如實際的某種品牌的激光雷達,它的數據采過來,看點云是什么樣的,包括它的掃描的方式、強度的映射等。我們還是把激光雷達當做一個黑盒的方式來做,按物理的方式做也行,但實時性很難。
對于數據集來講,我還是秉持這樣的一個觀點,目前還是在精度達到一個較高水平的基礎上以最便宜的方式獲得最高的多樣性,實際上是目前要解決的核心的問題。其他深入的東西也許不要糾結得過于細節,這些可能對實際的結果產生的影響并沒有你想象的那么大。
2
—
如何提升數據閉環效率
智車星球:現在大家都在談數據閉環,51Sim其實也算是數據的消費者,你們是如何定義數據閉環的?數據驅動閉環仿真的挑戰有哪些?
鮑世強:數據閉環我覺得概念非常大,它涉及到的流程非常長,首先是數據的采集,后邊當然有很多合規性的問題,要進行脫密脫敏,
然后需要說清楚數據本身是什么數據,有一些是感知用的,有一些結構化的規控數據,有一些是給定位用的。然后就是數據怎么樣去采集和利用。
目前我們碰到的最核心的問題是數據的閉環效率其實并沒有那么高,絕大多數的數據實際上沒有任何價值,然后就變成了怎樣把有價值的數據挑出來并有效利用的問題。這里有很多的問題要去解決,比如說數據采集,研發階段可以全量去采集,量產之后可能要通過觸發式的方式進行采集。我們需要保證采集回來的數據本身價值比較高,否則后期要處理的時候,如果對數據進行挑選的效率和機制不健全,可能存儲這些數據的成本會超過數據本身的價值,這個就比較悲劇了。
而且,隨著大家智駕水平的不斷提高,有價值的數據比例越低。這就意味著必須提升數據的采集、挖掘、有效利用的能力以及數據的識別能力。比如說新的算法可能接口改了或者中間件發生了變化,怎么樣利用舊的數據,提升數據靈活性和利用率,我覺得這是一個長期話題。
比如還是拿NeRF來舉例,我覺得NeRF某種程度上提升了感知數據集采和利用的靈活性,因為它比一幀一幀的圖片靈活性高,我可能換一些視角和傳感器配置,舊的數據還是能用。
智車星球:現在的量產的智能駕駛車在路上跑的越來越多了,車企能采集到的數據也越來越多,對于仿真來說。是能利用的數據變多了嗎?
鮑世強:能利用數據是變多了,但仿真實際上是整個數據閉環的下游,我們現在的問題不是數據太少,而是數據太多的問題。
首先仿真你可以理解是一個數據生成器,仿真原本就是做一些場景做一些數據。但越往后發展,它越不是數據的生成器,它其實起到的是一個數據倍增器,或者叫放大器的作用。
比如說我們從真實世界采集到的corner case,有針對感知的,也有針對規控的,然后仿真怎樣從這些數據出發去構建出更多類似的case,是仿真往后發展要解決的根本問題。
仿真本質上我覺得起到兩個作用,一個叫保下限,就是當你迭代算法時,怎么保證改的東西起到正面作用而不是搞壞了其他地方,需要有測試;另一個就是剛才我說的放大器作用,我們管它叫提上限,當碰到了一些case,怎樣在仿真的環境里重建。當然,我們可以先用真實數據去回放重現,然后在此基礎之上看能不能產生一些額外的變化,讓整個修改做一些局部的覆蓋性,然后更具有代表性,我覺得這是仿真往后發展的一個核心思路。
智車星球:合成的數據它對比這種真實采集來的數據來說,它的價值有哪些?
鮑世強:合成數據現在討論得很多,但是我覺得憑空合成3D場景這件事還是挺難的。我理解就兩種方式,一種是自然語言生成圖像,然后通過NeRF 把3D的場景創建出來,但這個圖像怎么保證多視角的連續性是一個問題,另外一種方式是直接拿3D模型去做訓練。
3D的AIGC方面我認為目前還很不成熟,難度也比較大,但是另外的一個角度其實也有人在探索,因為我們最終的目的是給比如說智駕的感知算法去進行訓練或者是測試,那么是否3D場景是必須的?這其實也是可以探討的,因為你的目的是同時生成多傳感器的數據來完成訓練和測試,只是要保障多傳感器數據的一致性,還有一些物理的規律,也可以不構建3D場景,完全通過圖像合成的方式去做。
3
—
AIGC助力場景描述
智車星球:現在很多車企也是在做城市NOA,跟之前高速場景下的仿真相比,你們遇見過哪些不同的問題?
鮑世強:既有的規控仿真體系,一個是基于數據回灌的logSim的體系,一個是基于WordSim的體系,一般是基于OpenX這樣的一些場景描述語言。
但是進入到這個城市NOA后,場景已經非常難以描述,然后純數據回放有很多適配性的問題,我覺得整體難度還是要大很多。
OpenX這套體系,我覺得是一套具體場景邏輯場景的體系,對于高速場景來講可能是比較完備的。
從測試的角度來講,測試我覺得有兩個目標,一個目標是發現問題,另外一個目標其實更高級,證明沒有問題,這是一個非常難的目標。通過剛才那套體系,試圖在類似于高速這樣的場景達到這樣的目標,當然需要非常多的數據。但如果在城市的場景,你會發現描述場景就變得非常的困難,因為參與交互的車非常多。寫出這樣的場景本身對于一個場景制作的人員來講,是一個技術含量非常高的工作,我們需要有新方法新思路
智車星球:AIGC對于場景描述是否是一個助力?
鮑世強:當然是一個幫助,OpenX動態場景有1.0的體系,有2.0的體系,2.0其實已經是一種類似于領域語言的方式,交互非常復雜,對于用戶來講,門檻其實非常高。面向更復雜的場景時,交互編輯效率也比較差。
目前GPT的應用很廣泛,從自然語言變成這個領域相關語言的一些工作,GPT是可以做到的,當然可能需要一些比如上下文的保證和輸入,怎么樣和交互式場景的編輯去做結合,這是我們在做一個方向。但是核心目的不是為了生成新的數據,而是幫助用戶更快捷地通過自然語言的方式提高場景制作的效率。
智車星球:OpenX系列是不是不太適合于去做對抗場景的自動生成?
鮑世強:我覺得這是兩個思路,一個從測試的角度來講,我們希望兩次測試跑出來的結果是完全一致,否則這個測試就沒有確定性,從測試角度來講這其實是不可以接受的。但是另外一個角度我們可能會需要比如說有多智能體交互的智能的行為,可以和你形成一些博弈,這是另外的一個case。顯然Open體系不太適合做這樣的一個case。
智車星球:如何去評價真實?我們人眼看到的真實和算法看到的真實是否是一致的?
鮑世強:目前這個東西從理論上證明我認為難度還是非常大的,我們現在更多的是從實踐的方向,比如說有多少比例的虛擬數據混合進來,會對實際的性能產生多大的影響,或者我拿虛擬數據訓練一個模型,然后去識別一些真實的數據到大概的性能會有多少。
同時我們也在做一些交叉的驗證,比如說在測試場的純物理環境下,實際構建一個場景去觸發,然后在虛擬的環境中1:1還原,去對比結果。
智車星球:現在的數據生成、訓練、測試整個閉環有沒有可能直接端到端來做?
鮑世強:端到端仿真我們內部叫大閉環仿真,是可以實現的,但是整個流程比較長,非常有挑戰性。
現在的車堆料其實比較嚴重,動不動就是11個攝像頭,如果做端到端的測試,相當于要生成11個攝像頭的原始數據,可能還有雷達,對算力的需求是比較大的。這需要弄一個很大的臺架,如果要做規模化的閉環仿真,我認為整體投入是比較大的。
來源:第一電動網
作者:智車星球
本文地址:http://www.155ck.com/kol/210279
文中圖片源自互聯網,如有侵權請聯系admin#d1ev.com(#替換成@)刪除。