自動(dòng)駕駛公開數(shù)據(jù)集的現(xiàn)狀與挑戰(zhàn)

隨著數(shù)據(jù)采集設(shè)備的優(yōu)化升級(jí)，自動(dòng)駕駛數(shù)據(jù)集也在不斷升級(jí)迭代。國內(nèi)外各大自動(dòng)駕駛公司、研究所都先后推出自動(dòng)駕駛數(shù)據(jù)集，為未來自動(dòng)駕駛領(lǐng)域的技術(shù)發(fā)展提供重要研究材料。《自動(dòng)駕駛開源數(shù)據(jù)體系：現(xiàn)狀與未來》一文系統(tǒng)性地梳理自動(dòng)駕駛開源數(shù)據(jù)集，對(duì)于助推產(chǎn)業(yè)生態(tài)良性循環(huán)有著重要意義。該文章是由上海人工智能實(shí)驗(yàn)室聯(lián)合上海交大、復(fù)旦大學(xué)、百度、比亞迪、蔚來等多個(gè)單位，發(fā)布的自動(dòng)駕駛開源數(shù)據(jù)集綜述。該綜述首次系統(tǒng)性梳理了國內(nèi)外七十余種開源自動(dòng)駕駛數(shù)據(jù)集，對(duì)如何構(gòu)建高質(zhì)量數(shù)據(jù)集、數(shù)據(jù)在算法閉環(huán)體系中發(fā)揮的核心作用、如何利用生成式大模型規(guī)?；a(chǎn)數(shù)據(jù)等進(jìn)行了總結(jié)。在此基礎(chǔ)上，對(duì)未來第三代自動(dòng)駕駛數(shù)據(jù)集所應(yīng)具有的特征、數(shù)據(jù)規(guī)模、需要解決的關(guān)鍵科學(xué)和技術(shù)問題展開深入分析與討論。

概述

自動(dòng)駕駛作為人工智能重要應(yīng)用領(lǐng)域之一，有望重塑現(xiàn)有的交通和運(yùn)輸模式，極大提升交通效率和安全性，對(duì)未來城市和社會(huì)發(fā)展產(chǎn)生深遠(yuǎn)影響。目前，國內(nèi)的智能網(wǎng)聯(lián)汽車產(chǎn)業(yè)已經(jīng)邁入商業(yè)化的試水和起步階段。道路測試和示范應(yīng)用場景趨于成熟，自動(dòng)駕駛功能技術(shù)加速迭代，車聯(lián)網(wǎng)應(yīng)用場景日益豐富，各層面相關(guān)法規(guī)政策加速出臺(tái)，共同推動(dòng)市場進(jìn)入高速發(fā)展期。一方面，自動(dòng)駕駛技術(shù)需要大量數(shù)據(jù)來訓(xùn)練算法模型，以識(shí)別和理解道路環(huán)境，從而做出正確的決策和行動(dòng)，實(shí)現(xiàn)準(zhǔn)確、穩(wěn)定和安全的駕駛體驗(yàn)，數(shù)據(jù)的建設(shè)對(duì)于自動(dòng)駕駛技術(shù)的發(fā)展至關(guān)重要。另一方面，自然語言處理和通用視覺領(lǐng)域大模型的出現(xiàn)，更加印證了海量高質(zhì)量數(shù)據(jù)的重要性，給予自動(dòng)駕駛的數(shù)據(jù)集建設(shè)以啟發(fā)！綜述文章架構(gòu)

自動(dòng)駕駛數(shù)據(jù)集

該綜述把目前開源的近百種數(shù)據(jù)集分為兩代：第一代數(shù)據(jù)集以 KITTI 為標(biāo)志，該數(shù)據(jù)集于2012年提出，輸入傳感模態(tài)由單目攝像頭與激光雷達(dá)構(gòu)成，并提出了一系列綜合感知任務(wù)。第二代數(shù)據(jù)集以 nuScenes 及 Waymo 數(shù)據(jù)集為代表，傳感模態(tài)復(fù)雜度變高，環(huán)視相機(jī)、激光雷達(dá)、定位信息以及高精地圖成為常見組成部分，下游任務(wù)面向感知、建圖、預(yù)測與路徑規(guī)劃綜合任務(wù)。

傳感器模態(tài)復(fù)雜度逐漸提高：環(huán)視相機(jī)，激光雷達(dá)，高精地圖，超聲波雷達(dá)傳感器，GPS、IMU、HD Map等。

數(shù)據(jù)集規(guī)模與多樣性日益增長：在數(shù)據(jù)豐富度方面，主流自動(dòng)駕駛數(shù)據(jù)集的采集時(shí)長由最初的10小時(shí)左右逐漸提升至100小時(shí)，隨著自動(dòng)標(biāo)注技術(shù)及標(biāo)注工具的演進(jìn)，近些年也出現(xiàn)了超過 1000 小時(shí)的數(shù)據(jù)集。駕駛場景的多樣性也是自動(dòng)駕駛系統(tǒng)表現(xiàn)的另一關(guān)鍵因素。為了提高算法在特定場景下的表現(xiàn)能力，部分?jǐn)?shù)據(jù)集分別在多個(gè)大洲多個(gè)城市進(jìn)行采集。

數(shù)據(jù)集任務(wù)從感知延伸至預(yù)測與規(guī)劃：2016 年推出的 Cityscapes 與 Mapillary 等數(shù)據(jù)集下游任務(wù)聚焦于動(dòng)態(tài)物體檢測。2019 年推出的 SemanticKITTI 、DrivingStereo等數(shù)據(jù)集引入語義分割、深度估計(jì)、光流估計(jì)等任務(wù)。在傳統(tǒng)預(yù)測與規(guī)劃模塊一般應(yīng)用數(shù)值計(jì)算、優(yōu)化、搜索等方法求解。2019 年前后提出的 nuScenes、Waymo 、Argoverse V2 等數(shù)據(jù)集，不僅包括感知任務(wù)還涵蓋預(yù)測與規(guī)劃任務(wù)，實(shí)現(xiàn)了在同一數(shù)據(jù)集上進(jìn)行多種任務(wù)研究，同時(shí)引領(lǐng)社區(qū)在傳統(tǒng)多個(gè)模塊范式下端到端自動(dòng)駕駛研究的潮流。自動(dòng)駕駛開源數(shù)據(jù)集影響力估計(jì)

數(shù)據(jù)算法閉環(huán)體系

模塊化自動(dòng)駕駛系統(tǒng)包括感知、決策、規(guī)劃、控制等組件，其中大部分功能是通過數(shù)據(jù)驅(qū)動(dòng)的神經(jīng)網(wǎng)絡(luò)模型實(shí)現(xiàn)的。對(duì)于這些模塊來說，海量和高質(zhì)量的數(shù)據(jù)是確保模塊性能的必要條件。首先，海量數(shù)據(jù)的引入對(duì)于解決現(xiàn)存自動(dòng)駕駛系統(tǒng)中的各種問題都很有必要。自動(dòng)駕駛工程中一直存在的問題是長尾問題。其產(chǎn)生原因在于訓(xùn)練模型的數(shù)據(jù)量不足而導(dǎo)致存在少量情況未被模型學(xué)習(xí)，而在模型推理階段，模型并不能對(duì)這些邊緣場景給出正確的結(jié)果。另外，對(duì)于基于規(guī)則的模塊，現(xiàn)有的方式是通過人工設(shè)計(jì)各種規(guī)則來使模塊輸出符合人為設(shè)計(jì)邏輯的結(jié)果。這個(gè)方法耗時(shí)耗力，并且難以覆蓋所有情況，有可能導(dǎo)致自動(dòng)駕駛系統(tǒng)在某些未見場景下失效。而使用數(shù)據(jù)驅(qū)動(dòng)的神經(jīng)網(wǎng)絡(luò)代替這些模塊是一個(gè)可能的解決方案。同時(shí)，在神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)過程中，數(shù)據(jù)噪聲的引入會(huì)不可避免地對(duì)優(yōu)化過程產(chǎn)生負(fù)面影響，并降低模型性能。數(shù)據(jù)質(zhì)量不僅包括傳感器數(shù)據(jù)的分辨率和同步性等，還包括標(biāo)簽的準(zhǔn)確性。在這兩個(gè)方面中，任意一個(gè)方面存在質(zhì)量問題都直接影響著自動(dòng)駕駛系統(tǒng)的性能和安全性。綜上，海量和高質(zhì)量的數(shù)據(jù)成為構(gòu)建自動(dòng)駕駛系統(tǒng)必不可少的一個(gè)環(huán)節(jié)。

大模型時(shí)代下的新一代自動(dòng)駕駛數(shù)據(jù)集

當(dāng)前基礎(chǔ)大模型在自然語言處理、計(jì)算機(jī)視覺等領(lǐng)域取得了舉世矚目的成果，但目前市面上還沒有面向自動(dòng)駕駛垂直領(lǐng)域的大模型。以其他領(lǐng)域的大模型作為參照，新一代數(shù)據(jù)集至少應(yīng)將數(shù)據(jù)量提升至與其他領(lǐng)域相近才能夠賦能自動(dòng)駕駛大模型。在保證數(shù)據(jù)數(shù)量的前提下，場景豐富度對(duì)算法性能更為重要。自動(dòng)駕駛車輛在真實(shí)世界中會(huì)不可避免地遇到訓(xùn)練數(shù)據(jù)之外的場景大規(guī)模地應(yīng)用自動(dòng)駕駛技術(shù)必然要求模型能夠在罕見場景中做出正確行為，避免發(fā)生危險(xiǎn)或功能失效的情況。對(duì)于絕大多數(shù)交通場景來說，并不需要十分大量的數(shù)據(jù)就能夠覆蓋，而更需要關(guān)注的是長尾場景，由于某些交通場景十分罕見，如撞車等，數(shù)據(jù)的缺失會(huì)對(duì)自動(dòng)駕駛系統(tǒng)的性能影響巨大。

第一、二代自動(dòng)駕駛數(shù)據(jù)集已經(jīng)不能夠繼續(xù)滿足自動(dòng)駕駛系統(tǒng)的發(fā)展需求，新一代數(shù)據(jù)集的建設(shè)亟待提上日程。在大模型時(shí)代，大數(shù)據(jù)成為新一代數(shù)據(jù)集不可缺少的一個(gè)特點(diǎn)。同時(shí)，模塊化設(shè)計(jì)的自動(dòng)駕駛系統(tǒng)在落地過程遇到迭代成本高、性能上界受限等問題，端到端自動(dòng)駕駛架構(gòu)逐步受到業(yè)界的青睞。除此之外，多模態(tài)傳感器、高質(zhì)量標(biāo)注、模型邏輯推理能力等方面也需要得到重視。基于此，該綜述總結(jié)歸納了新一代數(shù)據(jù)集的發(fā)展目標(biāo)：面向多模態(tài)、保質(zhì)保量；面向端到端、決策導(dǎo)向；面向智能化、邏輯推理。

大模型時(shí)代下的自動(dòng)駕駛數(shù)據(jù)集展望

結(jié)論

該綜述全面回顧了自動(dòng)駕駛公開數(shù)據(jù)集的現(xiàn)狀與挑戰(zhàn)。針對(duì)數(shù)據(jù)算法閉環(huán)體系，結(jié)合當(dāng)前大模型發(fā)展趨勢，提出了下一代自動(dòng)駕駛數(shù)據(jù)集的愿景與規(guī)劃。該綜述系統(tǒng)性地總結(jié)了自動(dòng)駕駛發(fā)展歷程中所使用的數(shù)據(jù)集，并展示了通過挑戰(zhàn)賽與榜單促進(jìn)社區(qū)發(fā)展的重要性；概括性地分析了自動(dòng)駕駛數(shù)據(jù)算法閉環(huán)體系，并總結(jié)其中各個(gè)重要環(huán)節(jié)的作用，最后通過應(yīng)用案例展現(xiàn)對(duì)數(shù)據(jù)算法閉環(huán)體系的使用方法。

? 編輯：黃飛

閱讀全文

傳感器(788353) 傳感器(788353)
人工智能(262995) 人工智能(262995)
車聯(lián)網(wǎng)(93725) 車聯(lián)網(wǎng)(93725)
數(shù)據(jù)集(26104) 數(shù)據(jù)集(26104)
自動(dòng)駕駛(177675) 自動(dòng)駕駛(177675)

評(píng)論

chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛兴趣闲谈,欧美亚洲精品 8区,国产精品久久久久精品免费

搜索歷史

自動(dòng)駕駛公開數(shù)據(jù)集的現(xiàn)狀與挑戰(zhàn)

評(píng)論