近日,地平線兩篇論文入選國際計算機視覺頂會ECCV 2024,自動駕駛算法技術(shù)再有新突破。
ECCV(European Conference on Computer Vision,即歐洲計算機視覺國際會議),是計算機視覺領(lǐng)域中最頂級的會議之一,與ICCV(International Conference on Computer Vision)和CVPR(Conference on Computer Vision and Pattern Recognition)并稱為計算機視覺領(lǐng)域的“三大頂會”。ECCV每兩年舉行一次,吸引了全球頂尖的研究人員、學(xué)者和業(yè)界專家,分享最新的研究成果與技術(shù)創(chuàng)新。
聚創(chuàng)新之力 答智駕課題
本次地平線被錄用的2篇論文是:
1、Lane Graph as Path: Continuity-preserving Path-wise Modeling for Online Lane Graph Construction
(《LaneGAP:用于在線車道圖構(gòu)建的連續(xù)性路徑建模》)
論文鏈接:https://arxiv.org/abs/2303.08815
2、Occupancy as Set of Points
(《OSP:基于點集表征的占據(jù)網(wǎng)格預(yù)測》)
論文鏈接:https://arxiv.org/abs/2407.04049
車道圖構(gòu)建新方案:
端到端學(xué)習(xí)路徑,大幅提升預(yù)測規(guī)劃性能
在線車道圖構(gòu)建是自動駕駛領(lǐng)域一項有前途但具有挑戰(zhàn)性的任務(wù)。LaneGAP 是一種車道圖構(gòu)建新方法,將端到端矢量地圖在線構(gòu)建方法 MapTR(入選深度學(xué)習(xí)頂會ICLR spotlight論文)拓展到道路拓?fù)浣?,能夠大幅提升預(yù)測規(guī)劃性能,應(yīng)對各種復(fù)雜交通狀況。LaneGAP 和 MapTR 相關(guān)工作已經(jīng)在地平線高階智駕系統(tǒng)SuperDrive中落地應(yīng)用。

具體而言,以前的方法通常在像素或片段級別對車道圖進(jìn)行建模,并通過逐像素或分段連接恢復(fù)車道圖,這會破壞車道的連續(xù)性。作者提出一種基于路徑的在線車道圖構(gòu)建方法—— LaneGAP,它采用了端到端學(xué)習(xí)路徑,并通過 Path2Graph 算法恢復(fù)車道圖。LaneGAP在具有挑戰(zhàn)性的 nuScenes 和 Argoverse2 數(shù)據(jù)集上定性和定量地證明了 LaneGAP 優(yōu)于傳統(tǒng)的基于像素和基于片段的方法。豐富的可視化效果顯示 LaneGAP 可以應(yīng)對各種復(fù)雜交通狀況。
Occupancy新突破:
全新視角,性能更強大,計算更靈活
OSP提出了全新視角下的自動駕駛場景建模算法——稀疏點集占據(jù)網(wǎng)格預(yù)測方法,通過與2D圖像特征交互的點查詢,建立了一種新的基于點的占用表示,可以全面理解3D場景,并且框架更靈活,性能更強大。

本文探索了利用多視角圖像進(jìn)行3D占據(jù)網(wǎng)格預(yù)測的新方法,稱為“點集占據(jù)網(wǎng)格”。現(xiàn)有方法傾向于利用BEV表征進(jìn)行占據(jù)網(wǎng)格預(yù)測,因此很難將注意力集中在特殊區(qū)域或感知范圍之外的區(qū)域。相比之下,本文提出了Points of Interest (PoIs) 來表示場景,并提出了 OSP,一種基于點的 3D 占用預(yù)測的新框架。得益于點集表征的靈活性,OSP 與現(xiàn)有方法相比實現(xiàn)了強大的性能,并且在訓(xùn)練和推理適應(yīng)性方面表現(xiàn)出色:可以預(yù)測感知邊界外的范圍;可以與基于體特征的方法集成以提升性能。在Occ3D nuScenes占用基準(zhǔn)上的實驗表明,OSP具有強大的性能和靈活性。
除了這兩篇斬獲ECCV 2024的最新成果,地平線在ICCV 2023上提出的VAD也有創(chuàng)新進(jìn)展。VADv2首次提出基于概率建模的多模態(tài)決策端到端自動駕駛大模型,在閉環(huán)榜單Carla Town05 Benchmark上達(dá)到SOTA的端到端自動駕駛規(guī)劃性能。
此前,VAD初步探索了基于矢量化場景表征的端到端自動駕駛算法框架,在此基礎(chǔ)上,VADv2首次將多模態(tài)概率規(guī)劃引入端到端自動駕駛,用于解決判決式模型無法建模決策的天然多模態(tài)特性的問題,從而有效提升決策的準(zhǔn)確率。VADv2以數(shù)據(jù)驅(qū)動的范式從大量駕駛數(shù)據(jù)中端到端學(xué)習(xí)駕駛策略,在Carla閉環(huán)榜單上,相比于此前的方案,VADv2大幅提升駕駛評分,實現(xiàn)SOTA性能,在無需規(guī)則后處理的情況下也能有良好的駕駛表現(xiàn)。

于7月21日-27日,正在奧地利維也納舉辦的2024國際機器學(xué)習(xí)大會(ICML 2024)上,地平線被ICML 2024接收的最新工作Vision Mamba(簡稱Vim)也受邀做了分享。Vision Mamba是一種新的通用視覺主干模型,相比現(xiàn)有的視覺Transformer,在性能上有顯著提升,是接替Transformer的下一代視覺基礎(chǔ)模型。

Vision Mamba使用雙向狀態(tài)空間模型(SSM)對圖像序列進(jìn)行位置嵌入,并利用雙向SSM壓縮視覺表示。在ImageNet分類、COCO目標(biāo)檢測和ADE20k語義分割任務(wù)中,Vim相比現(xiàn)有的視覺Transformer(如DeiT)在性能上有大幅提升,同時在計算和內(nèi)存效率上也有顯著改進(jìn)。例如,在進(jìn)行分辨率為1248×1248的批量推理時,Vim比DeiT快2.8倍,GPU內(nèi)存節(jié)省86.8%。這些結(jié)果表明,Vim能夠克服在高分辨率圖像理解中執(zhí)行Transformer樣式的計算和內(nèi)存限制,具有成為下一代視覺基礎(chǔ)模型主干的潛力。
地平線「你好,開發(fā)者」直播預(yù)告
為了讓智駕開發(fā)者更深入地了解這些最新的研究成果與算法創(chuàng)新,地平線策劃推出2024年「你好,開發(fā)者」自動駕駛技術(shù)專場,邀請到地平線各位技術(shù)專家進(jìn)行直播分享。敬請關(guān)注!
-
計算機視覺
+關(guān)注
關(guān)注
9文章
1714瀏覽量
47443 -
自動駕駛
+關(guān)注
關(guān)注
791文章
14661瀏覽量
176218 -
地平線
+關(guān)注
關(guān)注
0文章
425瀏覽量
16107
原文標(biāo)題:地平線自動駕駛算法新突破,科研論文入選學(xué)術(shù)頂會 ECCV 2024
文章出處:【微信號:horizonrobotics,微信公眾號:地平線HorizonRobotics】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
地平線五篇論文入選NeurIPS 2025與AAAI 2026
地平線HSD量產(chǎn)先鋒品鑒會圓滿落幕
后摩智能六篇論文入選四大國際頂會
地平線亮相2025慕尼黑國際車展
易控智駕榮獲計算機視覺頂會CVPR 2025認(rèn)可
格靈深瞳六篇論文入選ICCV 2025
理想汽車八篇論文入選ICCV 2025
地平線攜城區(qū)輔助駕駛系統(tǒng)亮相2025香港車博會
后摩智能四篇論文入選三大國際頂會
Arm攜手地平線推動汽車智能化變革
地平線城區(qū)輔助駕駛系統(tǒng)HSD解讀
后摩智能5篇論文入選國際頂會

地平線科研論文入選國際計算機視覺頂會ECCV 2024
評論