自動駕駛純視覺算法的上限在哪?

2023 年 10 月 27 日，蟄伏了 3 年之久的極越 01 正式上市，相比于已經(jīng)曝光到幾乎明牌的整車，我更對極越 01 所搭載的這套輔助駕駛系統(tǒng)更感興趣。主要有兩個點：

Apollo 高階自動駕駛能力全面賦能

單挑特斯拉，中國唯一的量產(chǎn)純視覺方案

這兩個點提取一個關(guān)鍵詞最終都落在了「純視覺」上，如果長期研究輔助駕駛技術(shù)的對純視覺輔助駕駛方案都不陌生，這是目前僅有特斯拉一家量產(chǎn)應(yīng)用上車的智駕方案。

在 2023 年新能源汽車行業(yè)如此內(nèi)卷的態(tài)勢下，極越 01 作為一個新選手要用什么姿態(tài)來奪得大眾的目光？

顯然智駕是一個比較好的選擇，不管是華為、蔚來、理想、小鵬都明確了自家要在智能化這條道上比拼到底，而這中間最核心的部分當(dāng)屬智駕。

智駕比拼是一個確定性的答案，可是在國內(nèi)沒有一家說要完全切換到純視覺，當(dāng)然除了極越。

這是一個很有趣的現(xiàn)象，一方面是國內(nèi)各家不敢切換還是不想切換；另一方面純視覺究竟有什么魔力，讓特斯拉和其他廠商分歧如此之大。

對于中國路況，其他主機廠給出的答案是要用激光雷達解決多復(fù)雜場景，實現(xiàn)安全容易，而極越的選擇是用「純視覺」挑戰(zhàn)技術(shù)極限。

先了解整車

極越 01 目前推出兩個版本：

極越 01 MAX

CLTC 續(xù)航 550km

后驅(qū)電機最大功率 200 kW

標(biāo)配高通 8295、2 顆 Orin X?等支持城市輔助駕駛的智駕硬件

售價 24.99 萬元（1.9 萬上市權(quán)益包后 23.09 萬）

選裝 100 度電池包，續(xù)航可達?720km

極越 01 MAX Performance

標(biāo)配 100 度電池包，CLTC 續(xù)航 660km

四驅(qū)雙電機?200kW + 200kW

標(biāo)配高通 8295、2 顆 Orin X?等支持城市輔助駕駛的智駕硬件

標(biāo)配可升降尾翼

售價 33.99 萬元（1.9 萬元上市權(quán)益包后 32.09 萬元）

從實際體驗來看，作為一個新品牌，新產(chǎn)品極越 01 的完成度是不錯的，以智能化為整體差異化的方式雖然很難，但路徑選擇道也合理，整車設(shè)計并沒有出現(xiàn)過于嘩眾取寵的點。

可是極越 01 最大的難點在于，一上市就遇到了汽車行業(yè)史無前例的價格戰(zhàn)，特別是整車的優(yōu)惠權(quán)益讓很多潛在用戶看不懂的情況下，24.99 萬的起售價顯得并不是很有沖擊力。

但真的如此嗎？

先說一個現(xiàn)象：「極越 01 整體優(yōu)惠后的價格其實非常有誠意，但是極越對于權(quán)益的策略制定卻非常混亂，這個混亂導(dǎo)致很多真實的潛在用戶根本看不懂?！?/p>

一個一個說：

一，現(xiàn)金優(yōu)惠

這個優(yōu)惠是實打?qū)嵉默F(xiàn)金權(quán)益，是直接抵扣在車價里面的，這里面包含兩個部分：

1.9 萬元上市權(quán)益金：9000 元盲訂膨脹金 + 5000 元大定立減金 + 5000 元邀請獎勵（4000 元京東卡加上 10000 積分）；

1.5 萬元選裝基金：如果選擇收費選裝項目可以立減 1.5 萬元。

也就是，1.9 萬元和 1.5 萬元疊加使用后，可綜合優(yōu)惠 3.4 萬元。

二，整車權(quán)益

在 11 月 30 日之前的定購的用戶，均可享受三個非常劃算的權(quán)益：

終身整車及三電質(zhì)保、道路救援：價值 8000 元

直流家充樁或 2 年免費充電：價值 7500 元

ROBO Drive MAX 6 個月免費訂閱：價值 5880 元

也就是說，購買極越 01 MAX 550km 版疊加完權(quán)益后只需要 23.59 萬元，同時還能免費拿一套舒享套裝。

但智駕權(quán)益里面有一個小細(xì)節(jié)，按照目前的權(quán)益策略是買斷 1.99 萬元、訂閱 980 元/月，但如果你用選裝基金買斷智駕系統(tǒng)的話只需要 4900 元買斷。

但你需要注意一個細(xì)節(jié)，如果你用 1.5 萬元選裝基金去抵扣智駕買斷，那么你也會失去舒享套裝。

總結(jié)則是，舒享套裝和智駕系統(tǒng)你只能白嫖一個。

講完整車，下面智駕才是極越 01 的核心。

智駕最終要回歸到硬件的合理性上

硬件堆疊并不能保證最終的體驗

在講極越 01 的純視覺方案之前，先說一個背景：

我們都知道市面上將智駕分為「純視覺」和「激光雷達融合」方案兩種，可是對于這兩種方案區(qū)別性的解釋，往往只歸結(jié)在有無激光雷達硬件這一個維度上。

顯然，這么理解對于輔助駕駛的解釋即不明確也不立體。

我們先理解輔助駕駛系統(tǒng)包含的核心兩個能力，很好理解：一個是硬件，包含計算平臺、感知傳感器、定位等；另一個則是算法，一個系統(tǒng)運行的基本神經(jīng)網(wǎng)絡(luò)系統(tǒng)。

純視覺和激光雷達方案，除了字面意思理解到的感知傳感器的區(qū)別，還有就是算法對于攝像頭和激光雷達數(shù)據(jù)處理的方式。

簡單說就是，即使使用了激光雷達，但激光雷達數(shù)據(jù)的融合方式也決定了系統(tǒng)整個能力的表現(xiàn)，有些廠商的方案是視覺數(shù)據(jù)和激光雷達數(shù)據(jù)是分別處理的，融合過程在各自輸出結(jié)果的層面上完成，也就是自動駕駛領(lǐng)域常說的?「后融合」。

這樣做可以盡可能地保證兩個系統(tǒng)之間的獨立性，并為彼此提供安全冗余。

但后融合也導(dǎo)致神經(jīng)網(wǎng)絡(luò)，無法充分利用兩個異構(gòu)傳感器之間數(shù)據(jù)的互補性，來學(xué)習(xí)最有價值的特征。

這也是異構(gòu)感知傳感器系統(tǒng)，為什么大部分都存在「時間上的感知不連續(xù)、空間上的感知碎片化」的問題。」

我回想起 2021 年，車企爭相宣布擺脫供應(yīng)商方案，選擇自動駕駛「全棧自研」，彼時輔助駕駛賽道還是 Mobileye 的天下，大部分車企的輔助駕駛方案都來自于 MobilEye 的能力，乃至于國內(nèi)第一個高速導(dǎo)航輔助駕駛量產(chǎn)方案蔚來 NOP 也是基于 MobilEye 視覺方案進行的二次開發(fā)。

從供應(yīng)商切換到自研意味著一切從零開始，但是要很快追平原有方案的體驗。

但是新產(chǎn)品的上市，只留給了車企們兩年的時間，而 Mobileye 成立于 1999 年，2008 年就提供了 Eye Q1 芯片，目前出貨量已經(jīng)超過一億片。

到了 2020 年 Eye Q4 已經(jīng)是全球出貨量最大的智駕芯片，Mobileye 的 L2 方案幾乎拿下來國內(nèi)外大部分頂級廠商，蔚來、理想、寶馬等等。

這種競爭并不公平。

好在我們有一條清晰的捷徑?「激光雷達」，它可以提供珍貴的距離真值，給出了相對直接的世界描述，給開發(fā)提供了極大便利。

也正因如此，一切就顯得水到渠成，眾多車企開始比拼激光雷達的數(shù)目。鋪天蓋地的宣傳下「硬件性能不等于最終體驗」這件事卻被有意忽略了。

硬件只是基礎(chǔ)，算法的能力決定了系統(tǒng)的上限。

到 2023 年，消費者開始發(fā)現(xiàn)，即使攝像頭和激光雷達遍布全車，更高階的輔助駕駛功能并沒有如期而至。

車企的算法能力沒有因為硬件的堆疊而得到質(zhì)的飛躍，而特斯拉依然靠著幾乎普通的感知硬件，用純視覺始終保持在輔助駕駛第一陣營。

純視覺通往高階輔助駕駛的最優(yōu)解？

人靠視覺就能開車，那么視覺就能完成輔助駕駛。這是馬斯克的第一性原理，特斯拉死磕純視覺的理由。

那么技術(shù)上是怎么實現(xiàn)的？

我們在路上看到一輛車能夠知道，這可能是一個障礙物，同時我們也可以大概估計這輛車離我們有多遠(yuǎn)。

純視覺算法也是如此。

本質(zhì)上是通過對圖像信息的特征進行廣泛的訓(xùn)練，讓神經(jīng)網(wǎng)絡(luò)獲得視覺估計距離的能力。?

經(jīng)過大量數(shù)據(jù)訓(xùn)練的算法，能夠得到前方障礙物的類型，同時得到一個位置估計，提供給下游規(guī)劃控制算法。

當(dāng)然，這里最重要的是：「精確的真值標(biāo)注」和「大量的數(shù)據(jù)」。

這不是一件簡單的事情。

需要用數(shù)據(jù)壓榨算法的能力，在弱硬件上得到足夠好的性能，逐漸逼近算法的上限。

純視覺算法的上限在哪?

純視覺估計距離具備足夠的數(shù)學(xué)理論基礎(chǔ)

這里舉一個例子，雙目測距，假設(shè)我們有一個點 P，但是我們用不同的攝像頭去拍攝這個點，那么這個點會分別在左邊和右邊的圖片上分別形成一個點。

如果我們對這兩個點的位置尋找得足夠準(zhǔn)確的話，根據(jù)圖片上這兩個點 p_l，p_r 的位置差別，我們可以按照相似三角形的原理，計算出 P 點在世界中的位置。

當(dāng)然，這里有許多局限，在圖片上的點進行搜索時，我們并不總能如愿找到精確兩個點對，所以傳統(tǒng)雙目測距會有一定的局限性。

但是，這種數(shù)學(xué)原理也告訴我們，視覺算法的上限是足夠高的。

本質(zhì)原理即：多個攝像頭之間的視覺特征互相驗證，能夠獲得相對精確的距離信息。

實際上目前主流的 BEV 的網(wǎng)絡(luò)，某種程度上也可以看作將視覺特征投影到 BEV 俯視圖下，各視角的特征進行互相自動驗證，最終得到一個相對精確的結(jié)果的。

但即使業(yè)界認(rèn)為視覺的上限很高，但執(zhí)行量產(chǎn)的動作卻是一個地獄級別的難度，那么純視覺難度在何處？

「純視覺」企業(yè)工程師的噩夢

從傳統(tǒng)雙目視覺的角度看，我們無法如愿找到精確的兩個點對，而從深度學(xué)習(xí)的角度看，我們無法保證神經(jīng)網(wǎng)絡(luò)內(nèi)部的多個攝像頭的視覺互相驗證時正確的。

算法一直都在不斷演進，例如 BEV 視角去進行自動駕駛感知，Transformer 結(jié)構(gòu)也獲得了很多關(guān)注。

但是在特斯拉驗證可行之前，沒有人這么做量產(chǎn)。

因為需要大量的數(shù)據(jù)進行神經(jīng)網(wǎng)絡(luò)的訓(xùn)練，來逐步提升距離估計的精確。

特斯拉用強大的工程能力完成數(shù)據(jù)閉環(huán)，示范這件事情可行?；叵肫?2021 年看特斯拉 AI Day 那個夜晚，行業(yè)驚呼特斯拉的工程能力之強，也驚呼純視覺的上限竟然如此高。

那么需要怎么做？

為了保證輔助駕駛的可靠性，工程師需要一個對周圍障礙物估計的網(wǎng)絡(luò)，這樣就車輛能夠看到周圍交通參與者，并且能夠?qū)λ鼈冞M行及時的反應(yīng)。

這就是 BEV 動態(tài)網(wǎng)絡(luò)，本質(zhì)上俯視圖，將所有的攝像頭信息都投影到這個俯視圖上，由于每個攝像頭之間有互相的信息補齊，這樣對遮擋的物體也能夠較好的識別，并且當(dāng)引入時序信息。

也就是說，將這一個時間段前面的信息也融合進來也能夠多一些信息進行推理，這樣會給 PNC 帶來更好的障礙物軌跡預(yù)測結(jié)果，進而帶來更安全且順滑的體驗。

視頻截圖是基于極越 01 前段時間在上海市區(qū)，基于 BEV Transformer 的純視覺架構(gòu)跑出來的效果，展現(xiàn)出的足夠高的精度和足夠遠(yuǎn)的感知距離，可以證明極越的純視覺方案已經(jīng)有比較高的完成度。

但是這還不夠。

除了障礙物，系統(tǒng)還需要車道線和道路拓?fù)浣Y(jié)構(gòu)的識別，同樣的，將周圍的攝像頭轉(zhuǎn)換到BEV 空間下，將周圍的地圖繪制出來，這就是常說的實時繪制地圖。

這些部分完成之后，最難的部分來了。

這些本質(zhì)上到目前所感知到的障礙物還是白名單物體，并且還是物體級的識別。當(dāng)在城市中駕駛時，很多物體需要被更精確的描述，而且很多物體在并不在常見的白名單中。

這里出現(xiàn)了一個新的詞：白名單。

其實你就簡單理解成，這個時候系統(tǒng)所感知到的障礙物都是通過標(biāo)準(zhǔn)完成的，工程師將感知到的數(shù)據(jù)進行數(shù)據(jù)標(biāo)準(zhǔn)，形成一個可用數(shù)據(jù)包然后通過云端和實時感知進行數(shù)據(jù)比對，這樣系統(tǒng)在駕駛開啟時所感知到的物體都是經(jīng)過標(biāo)注后的。

但這有個問題，即使今天自動標(biāo)注也已經(jīng)逐步量產(chǎn)，但在真實物理世界里所出現(xiàn)的障礙物也不能被窮盡，同時數(shù)據(jù)標(biāo)注的精度不夠高，也不能描述具體物體的 3D 信息。

一句話總結(jié)則是：白名單里的物體都是工程師標(biāo)注后系統(tǒng)已知的物體。

那系統(tǒng)不知道的物體呢？

這里就需要一個「占用網(wǎng)絡(luò)」。

簡單來說就是，純視覺將世界感知分為無數(shù)個網(wǎng)格體，每個網(wǎng)格體里面代表被占據(jù)的概率。

在極越 01 上市之前，極越官方釋放了一個基于 OCC 占用網(wǎng)絡(luò)的視頻 demo，可以看到視頻里包含的感知內(nèi)容：一個常規(guī)的周圍環(huán)境實時顯示；另一個通用占用網(wǎng)絡(luò)。

這便是極越的輔助駕駛方案：動態(tài) BEV + 靜態(tài) BEV + 占用網(wǎng)絡(luò)。

這條路與特斯拉基本一致，不同的是極越的攝像頭是 800 萬像素，而特斯拉的攝像頭是 200 萬。對于相對較遠(yuǎn)的物體，極越這套硬件可以分配到更多的像素理論上限會更高。

BEV 動態(tài)識別網(wǎng)絡(luò) + BEV 靜態(tài)網(wǎng)絡(luò)做地圖構(gòu)建，這是相對常規(guī)的內(nèi)容，頭部的幾家也基本上完成了 BEV 的量產(chǎn)。

為什么占用網(wǎng)絡(luò)上車才能證明純視覺最終能走通？

占用網(wǎng)絡(luò)將世界感知為相對比較小的占用空間，每個空間里面有被占據(jù)的概率。相較于常規(guī)的畫一個 3D 或者 2D 框來描述某一個具體的物體，占用網(wǎng)格的描述更加細(xì)膩。

例如一個兩節(jié)的大公交車，常規(guī)的描述是一個 3D 長寬高，但是當(dāng)這輛公交正在進行轉(zhuǎn)向的時候描述就顯得不夠精確了。

如果將這輛公交車分割成很多塊，這樣即使運動起來，描述也足夠精準(zhǔn)。

極越這里也展現(xiàn)了不是畫一個 2D 框，顯示這個是一輛車，而是顯示這是一些被占據(jù)的空間。

這樣更加精細(xì)地描述了感知世界之后，邏輯就可以變成：

如果道路上沒有被占據(jù)就是可行駛空間，這就完全跳脫出原來識別是一個具體物體（人，車，錐桶等），然后再考慮能不能開的邏輯，而是有障礙物影響就需要做繞行或者新的路徑規(guī)劃。

這就規(guī)避了窮舉道路上所有目標(biāo)的問題。

為什么純視覺占用網(wǎng)絡(luò)不像 BEV 一樣，提出之后被大量跟進，到目前國內(nèi)也只有極越宣布今年 12 月上車？

因為二者的技術(shù)迭代路線已經(jīng)出現(xiàn)了顯著的分歧，大部分高度重視激光雷達的算法方案，都在研究如何將激光雷達的真值更好地使用。

激光雷達可以相對天然得到一個占用網(wǎng)格結(jié)果，尤其是在前視部分。

比如華為提出的 GOD，從某種意義就是 Lidar 點云作為基礎(chǔ)，得出的占用網(wǎng)絡(luò)結(jié)果，通過 3D 點獲得 3D 占用網(wǎng)絡(luò)，再通過視覺進行一定的融合表現(xiàn)也很好。

相較于 Lidar 直接獲得真值，純視覺這條路要靠多攝像頭直接推導(dǎo)出距離信息，這中間的難度極大。

但是純視覺這條路得出占用網(wǎng)絡(luò)（Occupancy Grid 3D）并不是終局。

之后還會有：

「Occupancy Flow 」：就是對占用網(wǎng)絡(luò)運動狀態(tài)相關(guān)的估計，這個格子的自身運動狀態(tài)是什么。例如視頻里第二張圖中的紅色圈出的部分，估計出非剛體的不同部分的運動狀態(tài)，藍(lán)色運動，紅色靜止；

Occupancy prediction：對占據(jù)網(wǎng)格預(yù)測相關(guān)的估計，這個格子下一步怎么走

也就是說，以前目標(biāo)級別的任務(wù)，在更細(xì)粒度上的占用網(wǎng)格上都可以做一遍，占據(jù)網(wǎng)絡(luò)對周圍世界的理解，不是目標(biāo)級別的感知可以比擬的。

寫在最后

極越選了一條非常難并且不一樣的路，在選擇的過程中一定會伴隨著質(zhì)疑，但是極越還是勇敢地站出來。

當(dāng)視覺能力足夠強時，足夠完成城區(qū)高階輔助駕駛。

若無必要，勿增實體，這是互聯(lián)網(wǎng)產(chǎn)品圈非常流行的一句話。

極越方案里的純視覺選擇就是這么出現(xiàn)的，不看硬件，只關(guān)注體驗。

純視覺的核心是：

構(gòu)建以視覺為中心的輔助駕駛系統(tǒng)，不被其他的傳感器分掉研發(fā)精力，并且構(gòu)建出一個非常精簡的數(shù)據(jù)閉環(huán)系統(tǒng)，在之后的方案迭代中能夠保證數(shù)據(jù)的高度可復(fù)用性。

也期待極越使用純視覺完成端到端的方案構(gòu)建。

這條路很難，但是選擇最難的這條路，或許是通向未來的最正確的一條路。

編輯：黃飛

閱讀全文

傳感器(788353) 傳感器(788353)
新能源汽車(104950) 新能源汽車(104950)
攝像頭(102715) 攝像頭(102715)
激光雷達(195805) 激光雷達(195805)
自動駕駛(177675) 自動駕駛(177675)

chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛兴趣闲谈,欧美亚洲精品 8区,国产精品久久久久精品免费

搜索歷史

自動駕駛純視覺算法的上限在哪?

評論