2023 年 10 月 27 日,蟄伏了 3 年之久的極越 01 正式上市,相比于已經(jīng)曝光到幾乎明牌的整車,我更對極越 01 所搭載的這套輔助駕駛系統(tǒng)更感興趣。 主要有兩個點:
Apollo 高階自動駕駛能力全面賦能
單挑特斯拉,中國唯一的量產(chǎn)純視覺方案
這兩個點提取一個關(guān)鍵詞最終都落在了「純視覺」上,如果長期研究輔助駕駛技術(shù)的對純視覺輔助駕駛方案都不陌生,這是目前僅有特斯拉一家量產(chǎn)應(yīng)用上車的智駕方案。
在 2023 年新能源汽車行業(yè)如此內(nèi)卷的態(tài)勢下,極越 01 作為一個新選手要用什么姿態(tài)來奪得大眾的目光?
顯然智駕是一個比較好的選擇,不管是華為、蔚來、理想、小鵬都明確了自家要在智能化這條道上比拼到底,而這中間最核心的部分當(dāng)屬智駕。
智駕比拼是一個確定性的答案,可是在國內(nèi)沒有一家說要完全切換到純視覺,當(dāng)然除了極越。
這是一個很有趣的現(xiàn)象,一方面是國內(nèi)各家不敢切換還是不想切換;另一方面純視覺究竟有什么魔力,讓特斯拉和其他廠商分歧如此之大。
對于中國路況,其他主機廠給出的答案是要用激光雷達解決多復(fù)雜場景,實現(xiàn)安全容易,而極越的選擇是用「純視覺」挑戰(zhàn)技術(shù)極限。
01
先了解整車
極越 01 目前推出兩個版本:
極越 01 MAX
CLTC 續(xù)航 550km
后驅(qū)電機最大功率 200 kW
標(biāo)配高通 8295、2 顆 Orin X?等支持城市輔助駕駛的智駕硬件
售價 24.99 萬元(1.9 萬上市權(quán)益包后 23.09 萬)
選裝 100 度電池包,續(xù)航可達?720km
極越 01 MAX Performance
標(biāo)配 100 度電池包,CLTC 續(xù)航 660km
四驅(qū)雙電機?200kW + 200kW
標(biāo)配高通 8295、2 顆 Orin X?等支持城市輔助駕駛的智駕硬件
標(biāo)配可升降尾翼
售價 33.99 萬元(1.9 萬元上市權(quán)益包后 32.09 萬元)
從實際體驗來看,作為一個新品牌,新產(chǎn)品極越 01 的完成度是不錯的,以智能化為整體差異化的方式雖然很難,但路徑選擇道也合理,整車設(shè)計并沒有出現(xiàn)過于嘩眾取寵的點。
可是極越 01 最大的難點在于,一上市就遇到了汽車行業(yè)史無前例的價格戰(zhàn),特別是整車的優(yōu)惠權(quán)益讓很多潛在用戶看不懂的情況下,24.99 萬的起售價顯得并不是很有沖擊力。
但真的如此嗎?
先說一個現(xiàn)象:「極越 01 整體優(yōu)惠后的價格其實非常有誠意,但是極越對于權(quán)益的策略制定卻非常混亂,這個混亂導(dǎo)致很多真實的潛在用戶根本看不懂?!?/p>
一個一個說:
一,現(xiàn)金優(yōu)惠
這個優(yōu)惠是實打?qū)嵉默F(xiàn)金權(quán)益,是直接抵扣在車價里面的,這里面包含兩個部分:
1.9 萬元上市權(quán)益金:9000 元盲訂膨脹金 + 5000 元大定立減金 + 5000 元邀請獎勵(4000 元京東卡加上 10000 積分);
1.5 萬元選裝基金:如果選擇收費選裝項目可以立減 1.5 萬元。
也就是,1.9 萬元和 1.5 萬元疊加使用后,可綜合優(yōu)惠 3.4 萬元。
二,整車權(quán)益
在 11 月 30 日之前的定購的用戶,均可享受三個非常劃算的權(quán)益:
終身整車及三電質(zhì)保、道路救援:價值 8000 元
直流家充樁或 2 年免費充電:價值 7500 元
ROBO Drive MAX 6 個月免費訂閱:價值 5880 元
也就是說,購買極越 01 MAX 550km 版疊加完權(quán)益后只需要 23.59 萬元,同時還能免費拿一套舒享套裝。
但智駕權(quán)益里面有一個小細(xì)節(jié),按照目前的權(quán)益策略是買斷 1.99 萬元、訂閱 980 元/月,但如果你用選裝基金買斷智駕系統(tǒng)的話只需要 4900 元買斷。
但你需要注意一個細(xì)節(jié),如果你用 1.5 萬元選裝基金去抵扣智駕買斷,那么你也會失去舒享套裝。
總結(jié)則是,舒享套裝和智駕系統(tǒng)你只能白嫖一個。
講完整車,下面智駕才是極越 01 的核心。
02
智駕最終要回歸到硬件的合理性上
硬件堆疊并不能保證最終的體驗
在講極越 01 的純視覺方案之前,先說一個背景:
我們都知道市面上將智駕分為「純視覺」和「激光雷達融合」方案兩種,可是對于這兩種方案區(qū)別性的解釋,往往只歸結(jié)在有無激光雷達硬件這一個維度上。
顯然,這么理解對于輔助駕駛的解釋即不明確也不立體。
我們先理解輔助駕駛系統(tǒng)包含的核心兩個能力,很好理解:一個是硬件,包含計算平臺、感知傳感器、定位等;另一個則是算法,一個系統(tǒng)運行的基本神經(jīng)網(wǎng)絡(luò)系統(tǒng)。
純視覺和激光雷達方案,除了字面意思理解到的感知傳感器的區(qū)別,還有就是算法對于攝像頭和激光雷達數(shù)據(jù)處理的方式。
簡單說就是,即使使用了激光雷達,但激光雷達數(shù)據(jù)的融合方式也決定了系統(tǒng)整個能力的表現(xiàn),有些廠商的方案是視覺數(shù)據(jù)和激光雷達數(shù)據(jù)是分別處理的,融合過程在各自輸出結(jié)果的層面上完成,也就是自動駕駛領(lǐng)域常說的?「后融合」。
這樣做可以盡可能地保證兩個系統(tǒng)之間的獨立性,并為彼此提供安全冗余。
但后融合也導(dǎo)致神經(jīng)網(wǎng)絡(luò),無法充分利用兩個異構(gòu)傳感器之間數(shù)據(jù)的互補性,來學(xué)習(xí)最有價值的特征。
這也是異構(gòu)感知傳感器系統(tǒng),為什么大部分都存在「時間上的感知不連續(xù)、空間上的感知碎片化」的問題。」
我回想起 2021 年,車企爭相宣布擺脫供應(yīng)商方案,選擇自動駕駛「全棧自研」,彼時輔助駕駛賽道還是 Mobileye 的天下,大部分車企的輔助駕駛方案都來自于 MobilEye 的能力,乃至于國內(nèi)第一個高速導(dǎo)航輔助駕駛量產(chǎn)方案蔚來 NOP 也是基于 MobilEye 視覺方案進行的二次開發(fā)。
從供應(yīng)商切換到自研意味著一切從零開始,但是要很快追平原有方案的體驗。
但是新產(chǎn)品的上市,只留給了車企們兩年的時間,而 Mobileye 成立于 1999 年,2008 年就提供了 Eye Q1 芯片,目前出貨量已經(jīng)超過一億片。
到了 2020 年 Eye Q4 已經(jīng)是全球出貨量最大的智駕芯片,Mobileye 的 L2 方案幾乎拿下來國內(nèi)外大部分頂級廠商,蔚來、理想、寶馬等等。
這種競爭并不公平。
好在我們有一條清晰的捷徑?「激光雷達」,它可以提供珍貴的距離真值,給出了相對直接的世界描述,給開發(fā)提供了極大便利。
也正因如此,一切就顯得水到渠成,眾多車企開始比拼激光雷達的數(shù)目。鋪天蓋地的宣傳下「硬件性能不等于最終體驗」這件事卻被有意忽略了。
硬件只是基礎(chǔ),算法的能力決定了系統(tǒng)的上限。
到 2023 年,消費者開始發(fā)現(xiàn),即使攝像頭和激光雷達遍布全車,更高階的輔助駕駛功能并沒有如期而至。
車企的算法能力沒有因為硬件的堆疊而得到質(zhì)的飛躍,而特斯拉依然靠著幾乎普通的感知硬件,用純視覺始終保持在輔助駕駛第一陣營。
純視覺通往高階輔助駕駛的最優(yōu)解?
人靠視覺就能開車,那么視覺就能完成輔助駕駛。這是馬斯克的第一性原理,特斯拉死磕純視覺的理由。
那么技術(shù)上是怎么實現(xiàn)的?
我們在路上看到一輛車能夠知道,這可能是一個障礙物,同時我們也可以大概估計這輛車離我們有多遠(yuǎn)。
純視覺算法也是如此。
本質(zhì)上是通過對圖像信息的特征進行廣泛的訓(xùn)練,讓神經(jīng)網(wǎng)絡(luò)獲得視覺估計距離的能力。?
經(jīng)過大量數(shù)據(jù)訓(xùn)練的算法,能夠得到前方障礙物的類型,同時得到一個位置估計,提供給下游規(guī)劃控制算法。
當(dāng)然,這里最重要的是:「精確的真值標(biāo)注」和「大量的數(shù)據(jù)」。
這不是一件簡單的事情。
需要用數(shù)據(jù)壓榨算法的能力,在弱硬件上得到足夠好的性能,逐漸逼近算法的上限。
03
純視覺算法的上限在哪?
純視覺估計距離具備足夠的數(shù)學(xué)理論基礎(chǔ)
這里舉一個例子,雙目測距,假設(shè)我們有一個點 P,但是我們用不同的攝像頭去拍攝這個點,那么這個點會分別在左邊和右邊的圖片上分別形成一個點。
如果我們對這兩個點的位置尋找得足夠準(zhǔn)確的話,根據(jù)圖片上這兩個點 p_l,p_r 的位置差別,我們可以按照相似三角形的原理,計算出 P 點在世界中的位置。

當(dāng)然,這里有許多局限,在圖片上的點進行搜索時,我們并不總能如愿找到精確兩個點對,所以傳統(tǒng)雙目測距會有一定的局限性。
但是,這種數(shù)學(xué)原理也告訴我們,視覺算法的上限是足夠高的。
本質(zhì)原理即:多個攝像頭之間的視覺特征互相驗證,能夠獲得相對精確的距離信息。
實際上目前主流的 BEV 的網(wǎng)絡(luò),某種程度上也可以看作將視覺特征投影到 BEV 俯視圖下,各視角的特征進行互相自動驗證,最終得到一個相對精確的結(jié)果的。
但即使業(yè)界認(rèn)為視覺的上限很高,但執(zhí)行量產(chǎn)的動作卻是一個地獄級別的難度,那么純視覺難度在何處?
「純視覺」企業(yè)工程師的噩夢
從傳統(tǒng)雙目視覺的角度看,我們無法如愿找到精確的兩個點對,而從深度學(xué)習(xí)的角度看,我們無法保證神經(jīng)網(wǎng)絡(luò)內(nèi)部的多個攝像頭的視覺互相驗證時正確的。
算法一直都在不斷演進,例如 BEV 視角去進行自動駕駛感知,Transformer 結(jié)構(gòu)也獲得了很多關(guān)注。
但是在特斯拉驗證可行之前,沒有人這么做量產(chǎn)。
因為需要大量的數(shù)據(jù)進行神經(jīng)網(wǎng)絡(luò)的訓(xùn)練,來逐步提升距離估計的精確。
特斯拉用強大的工程能力完成數(shù)據(jù)閉環(huán),示范這件事情可行?;叵肫?2021 年看特斯拉 AI Day 那個夜晚,行業(yè)驚呼特斯拉的工程能力之強,也驚呼純視覺的上限竟然如此高。
那么需要怎么做?
為了保證輔助駕駛的可靠性,工程師需要一個對周圍障礙物估計的網(wǎng)絡(luò),這樣就車輛能夠看到周圍交通參與者,并且能夠?qū)λ鼈冞M行及時的反應(yīng)。
這就是 BEV 動態(tài)網(wǎng)絡(luò),本質(zhì)上俯視圖,將所有的攝像頭信息都投影到這個俯視圖上,由于每個攝像頭之間有互相的信息補齊,這樣對遮擋的物體也能夠較好的識別,并且當(dāng)引入時序信息。
也就是說,將這一個時間段前面的信息也融合進來也能夠多一些信息進行推理,這樣會給 PNC 帶來更好的障礙物軌跡預(yù)測結(jié)果,進而帶來更安全且順滑的體驗。
視頻截圖是基于極越 01 前段時間在上海市區(qū),基于 BEV Transformer 的純視覺架構(gòu)跑出來的效果,展現(xiàn)出的足夠高的精度和足夠遠(yuǎn)的感知距離,可以證明極越的純視覺方案已經(jīng)有比較高的完成度。
但是這還不夠。
除了障礙物,系統(tǒng)還需要車道線和道路拓?fù)浣Y(jié)構(gòu)的識別,同樣的,將周圍的攝像頭轉(zhuǎn)換到BEV 空間下,將周圍的地圖繪制出來,這就是常說的實時繪制地圖。
這些部分完成之后,最難的部分來了。
這些本質(zhì)上到目前所感知到的障礙物還是白名單物體,并且還是物體級的識別。當(dāng)在城市中駕駛時,很多物體需要被更精確的描述,而且很多物體在并不在常見的白名單中。
這里出現(xiàn)了一個新的詞:白名單。
其實你就簡單理解成,這個時候系統(tǒng)所感知到的障礙物都是通過標(biāo)準(zhǔn)完成的,工程師將感知到的數(shù)據(jù)進行數(shù)據(jù)標(biāo)準(zhǔn),形成一個可用數(shù)據(jù)包然后通過云端和實時感知進行數(shù)據(jù)比對,這樣系統(tǒng)在駕駛開啟時所感知到的物體都是經(jīng)過標(biāo)注后的。
但這有個問題,即使今天自動標(biāo)注也已經(jīng)逐步量產(chǎn),但在真實物理世界里所出現(xiàn)的障礙物也不能被窮盡,同時數(shù)據(jù)標(biāo)注的精度不夠高,也不能描述具體物體的 3D 信息。
一句話總結(jié)則是:白名單里的物體都是工程師標(biāo)注后系統(tǒng)已知的物體。
那系統(tǒng)不知道的物體呢?
這里就需要一個「占用網(wǎng)絡(luò)」。
簡單來說就是,純視覺將世界感知分為無數(shù)個網(wǎng)格體,每個網(wǎng)格體里面代表被占據(jù)的概率。
在極越 01 上市之前,極越官方釋放了一個基于 OCC 占用網(wǎng)絡(luò)的視頻 demo,可以看到視頻里包含的感知內(nèi)容:一個常規(guī)的周圍環(huán)境實時顯示;另一個通用占用網(wǎng)絡(luò)。
這便是極越的輔助駕駛方案:動態(tài) BEV + 靜態(tài) BEV + 占用網(wǎng)絡(luò)。
這條路與特斯拉基本一致,不同的是極越的攝像頭是 800 萬像素,而特斯拉的攝像頭是 200 萬。對于相對較遠(yuǎn)的物體,極越這套硬件可以分配到更多的像素理論上限會更高。
BEV 動態(tài)識別網(wǎng)絡(luò) + BEV 靜態(tài)網(wǎng)絡(luò)做地圖構(gòu)建,這是相對常規(guī)的內(nèi)容,頭部的幾家也基本上完成了 BEV 的量產(chǎn)。
為什么占用網(wǎng)絡(luò)上車才能證明純視覺最終能走通?
占用網(wǎng)絡(luò)將世界感知為相對比較小的占用空間,每個空間里面有被占據(jù)的概率。相較于常規(guī)的畫一個 3D 或者 2D 框來描述某一個具體的物體,占用網(wǎng)格的描述更加細(xì)膩。
例如一個兩節(jié)的大公交車,常規(guī)的描述是一個 3D 長寬高, 但是當(dāng)這輛公交正在進行轉(zhuǎn)向的時候描述就顯得不夠精確了。
如果將這輛公交車分割成很多塊,這樣即使運動起來,描述也足夠精準(zhǔn)。
極越這里也展現(xiàn)了不是畫一個 2D 框,顯示這個是一輛車,而是顯示這是一些被占據(jù)的空間。
這樣更加精細(xì)地描述了感知世界之后,邏輯就可以變成:
如果道路上沒有被占據(jù)就是可行駛空間,這就完全跳脫出原來識別是一個具體物體(人,車,錐桶等),然后再考慮能不能開的邏輯,而是有障礙物影響就需要做繞行或者新的路徑規(guī)劃。
這就規(guī)避了窮舉道路上所有目標(biāo)的問題。
為什么純視覺占用網(wǎng)絡(luò)不像 BEV 一樣,提出之后被大量跟進,到目前國內(nèi)也只有極越宣布今年 12 月上車?
因為二者的技術(shù)迭代路線已經(jīng)出現(xiàn)了顯著的分歧,大部分高度重視激光雷達的算法方案,都在研究如何將激光雷達的真值更好地使用。
激光雷達可以相對天然得到一個占用網(wǎng)格結(jié)果,尤其是在前視部分。
比如華為提出的 GOD,從某種意義就是 Lidar 點云作為基礎(chǔ),得出的占用網(wǎng)絡(luò)結(jié)果,通過 3D 點獲得 3D 占用網(wǎng)絡(luò),再通過視覺進行一定的融合表現(xiàn)也很好。
相較于 Lidar 直接獲得真值,純視覺這條路要靠多攝像頭直接推導(dǎo)出距離信息,這中間的難度極大。
但是純視覺這條路得出占用網(wǎng)絡(luò)(Occupancy Grid 3D)并不是終局。
之后還會有:
「Occupancy Flow 」:就是對占用網(wǎng)絡(luò)運動狀態(tài)相關(guān)的估計,這個格子的自身運動狀態(tài)是什么。例如視頻里第二張圖中的紅色圈出的部分,估計出非剛體的不同部分的運動狀態(tài),藍(lán)色運動,紅色靜止;
Occupancy prediction:對占據(jù)網(wǎng)格預(yù)測相關(guān)的估計,這個格子下一步怎么走
也就是說,以前目標(biāo)級別的任務(wù),在更細(xì)粒度上的占用網(wǎng)格上都可以做一遍,占據(jù)網(wǎng)絡(luò)對周圍世界的理解,不是目標(biāo)級別的感知可以比擬的。
寫在最后
極越選了一條非常難并且不一樣的路,在選擇的過程中一定會伴隨著質(zhì)疑,但是極越還是勇敢地站出來。
當(dāng)視覺能力足夠強時,足夠完成城區(qū)高階輔助駕駛。
若無必要,勿增實體,這是互聯(lián)網(wǎng)產(chǎn)品圈非常流行的一句話。
極越方案里的純視覺選擇就是這么出現(xiàn)的,不看硬件,只關(guān)注體驗。
純視覺的核心是:
構(gòu)建以視覺為中心的輔助駕駛系統(tǒng),不被其他的傳感器分掉研發(fā)精力,并且構(gòu)建出一個非常精簡的數(shù)據(jù)閉環(huán)系統(tǒng),在之后的方案迭代中能夠保證數(shù)據(jù)的高度可復(fù)用性。
也期待極越使用純視覺完成端到端的方案構(gòu)建。
這條路很難,但是選擇最難的這條路,或許是通向未來的最正確的一條路。
編輯:黃飛
?
電子發(fā)燒友App











評論