chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

打破端到端自動駕駛感知和規(guī)劃的耦合障礙!

3D視覺工坊 ? 來源:3D視覺工坊 ? 2023-08-07 15:07 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

0. 筆者個人體會

端到端自動駕駛一直是研究的重點和熱點,輸入RGB圖像或雷達點云,輸出自車的控制信號或運動規(guī)劃。但目前很多工作都是只做感知或者只做規(guī)劃,很重要的一個原因是端到端模型訓(xùn)練時間太長了,而且最終學(xué)習(xí)到的控制信號也未見得多好?,F(xiàn)有的教師-學(xué)生范式還可能產(chǎn)生很嚴重的Causal Confusion問題。

今天要為大家介紹的就是ICCV 2023開源的工作DriveAdapter,解決了自動駕駛感知和規(guī)劃的耦合障礙,來源于上交和上海AI Lab,這里不得不慨嘆AI Lab實在高產(chǎn),剛剛用UniAD拿了CVPR的Best Paper就又產(chǎn)出了新成果。

DriveAdapter的做法是,用學(xué)生模型來感知,用教師模型來規(guī)劃,并且引入新的適配器和特征對齊損失來打破感知和規(guī)劃的耦合障礙!想法很新穎!

1. 問題引出

最直接的端到端自動駕駛框架,就是輸入RGB圖,利用強化學(xué)習(xí)直接輸出控制信號(a)。但這樣做效率太低了,在使用預(yù)訓(xùn)練模型的情況下甚至都需要20天才能收斂!

8df6a13a-34ad-11ee-9e74-dac502259ad0.png

現(xiàn)在主流框架基本都是教師-學(xué)生模型,也就是說首先用強化學(xué)習(xí)訓(xùn)練一個復(fù)雜的教師模型,然后用原始的傳感器數(shù)據(jù)讓小模型去模仿教師模型的行為(Behavior Cloning)。這種范式的效率非常高!但是仍然有很大的問題,也就是由行為克隆引發(fā)的因果混淆問題(Causal Confusion)。這里也推薦「3D視覺工坊」新課程《深度剖析面向自動駕駛領(lǐng)域的車載傳感器空間同步(標定)》。

聽起來很繞口,那么這到底是個啥?

舉個簡單例子:

當車輛位于十字路口時,自車的路徑實際上應(yīng)該是根據(jù)信號燈來決定的。但是在圖像上信號燈很小,周圍車輛很大。所以學(xué)生模型從教師學(xué)習(xí)到的實際情況很可能是:根據(jù)其他車輛的行為來規(guī)劃自車。那么如果自車處在路口第一輛車的位置,很有可能自車會永遠不動!

8e0b8a82-34ad-11ee-9e74-dac502259ad0.png

那么DriveAdapter這個方案打算怎么做呢?

簡單來說,它是解耦了學(xué)生和教師模型。學(xué)生負責(zé)進行感知,輸入RGB圖像,輸出BEV分割圖。然后BEV分割圖輸送給教師,進行自車的路徑規(guī)劃!

8e3764cc-34ad-11ee-9e74-dac502259ad0.png

當然里面還有特別多的細節(jié),下面我們一起來看具體的論文信息。

2. 論文信息

標題:DriveAdapter: Breaking the Coupling Barrier of Perception and Planning in End-to-End Autonomous Driving

作者:Xiaosong Jia, Yulu Gao, Li Chen, Junchi Yan, Patrick Langechuan Liu, Hongyang Li

機構(gòu):上海交通大學(xué)、上海AI Lab、北航、安克創(chuàng)新

原文鏈接:https://arxiv.org/abs/2308.00398

代碼鏈接:https://github.com/OpenDriveLab/DriveAdapter

3. 摘要

端到端的自動駕駛旨在構(gòu)建一個以原始傳感器數(shù)據(jù)為輸入,直接輸出自車的規(guī)劃軌跡或控制信號的完全可微系統(tǒng)。最先進的方法通常遵循"教師-學(xué)生"范式。該模型使用權(quán)限信息(周圍智能體和地圖要素的真實情況)來學(xué)習(xí)駕駛策略。學(xué)生模型只具有獲取原始傳感器數(shù)據(jù)的權(quán)限,并對教師模型采集的數(shù)據(jù)進行行為克隆。通過在規(guī)劃學(xué)習(xí)過程中消除感知部分的噪聲,與那些耦合的工作相比,最先進的工作可以用更少的數(shù)據(jù)獲得更好的性能。

然而,在當前的教師-學(xué)生范式下,學(xué)生模型仍然需要從頭開始學(xué)習(xí)一個規(guī)劃頭,由于原始傳感器輸入的冗余和噪聲性質(zhì)以及行為克隆的偶然混淆問題,這可能具有挑戰(zhàn)性。在這項工作中,我們旨在探索在讓學(xué)生模型更專注于感知部分的同時,直接采用強教師模型進行規(guī)劃的可能性。我們發(fā)現(xiàn),即使配備了SOTA感知模型,直接讓學(xué)生模型學(xué)習(xí)教師模型所需的輸入也會導(dǎo)致較差的駕駛性能,這來自于預(yù)測的特權(quán)輸入與真實值之間的較大分布差距。

為此,我們提出了DriveAdapter,它在學(xué)生(感知)和教師(規(guī)劃)模塊之間使用具有特征對齊目標函數(shù)的適配器。此外,由于基于純學(xué)習(xí)的教師模型本身是不完美的,偶爾會破壞安全規(guī)則,我們針對那些不完美的教師特征提出了一種帶有掩碼的引導(dǎo)特征學(xué)習(xí)的方法,進一步將手工規(guī)則的先驗注入到學(xué)習(xí)過程中。DriveAdapter在多個基于CARLA的閉環(huán)仿真測試集上實現(xiàn)了SOTA性能。

4. 算法解析

DriveAdapter整體的思路非常清晰,學(xué)生模型將原始傳感器數(shù)據(jù)作為輸入,并提取BEV特征以供BEV分割和適配器模塊使用。之后,預(yù)測的BEV分割圖被饋送到凍結(jié)的教師模型和適配器模塊中。最后,適配器模塊接收來自具有GT教師特征的監(jiān)督,以及學(xué)生模型提供的BEV特征。對于教師模型引入規(guī)則的情況,對"對齊損失"應(yīng)用掩碼,并且所有適配器模塊的監(jiān)督來自動作損失的反向傳播。

8e6b9c24-34ad-11ee-9e74-dac502259ad0.png

4.1 感知學(xué)習(xí)的學(xué)生模型

學(xué)生模型將4個相機圖像和1個雷達點云作為輸入,目的是生成BEV的語義分割圖。具體流程是,首先使用BEVFusion將原始傳感器數(shù)據(jù)轉(zhuǎn)換成2D的BEV特征,然后使用Mask2former執(zhí)行語義分割。

但關(guān)鍵問題是,即使使用SOTA感知模塊,如果直接將預(yù)測的BEV分割饋送給教師模型,也并不會產(chǎn)生多好的預(yù)測和規(guī)劃效果。

這是因為啥呢?

首先就是語義分割的不準確問題。搞過語義分割的小伙伴肯定清楚,模型直接輸出的分割圖其實效果并不是太好,很多甚至需要經(jīng)過復(fù)雜的后處理才可以使用,分割的路線、車輛和信號燈非常不準,直接用的話噪聲非常大。畢竟教師模型是用BEV分割的Ground Truth來訓(xùn)練的,直接用學(xué)生模型輸出的BEV分割肯定是效果非常差。

8e855cea-34ad-11ee-9e74-dac502259ad0.png

另一個原因就是教師模式的不完善。其實單獨使用教師模型來輸出運動規(guī)劃,其結(jié)果也是非常不準的,所以學(xué)術(shù)界很多做法都是加入一些手工設(shè)計的規(guī)則來進行二次約束,這樣來提高性能。

8eb2cfe0-34ad-11ee-9e74-dac502259ad0.png

解耦教師和學(xué)生模型的思路確實很棒,但是這兩個問題也確實很尖銳。那么怎么解決這兩個問題呢?這就要涉及到DriveAdapter的另一個關(guān)鍵模塊:適配器。

4.2 適配器模塊

為了獲得更低的成本和更好的適應(yīng)性,作者在學(xué)生和教師模型之間添加適配器。雖然感覺這個適配器長得有點像很多論文里提到的"即插即用"模塊?

適配器是分級插入的,第一層輸入是原始的BEV分割圖和學(xué)生模型的底層特征。之后,一方面不斷編碼BEV分割圖,另一方面使用卷積層來對BEV特征進行降采樣,來對其不同特征層之間的分辨率。

8ecc3fc0-34ad-11ee-9e74-dac502259ad0.png

那么,具體怎么彌補BEV分割圖和GT之間的差距呢?這里是為每個適配器都設(shè)計了一個特征對齊目標函數(shù)。實際上,相當于每個適配器模塊都使用了一個額外的信息源,并且用原始BEV特征來恢復(fù)教師模型所需的GT特征。通過這種方式,可以以逐層監(jiān)督的方式逐步縮小預(yù)測與真實特征之間的分布差距:

8ede3a4a-34ad-11ee-9e74-dac502259ad0.png

針對教師模型不完善的問題,作者是通過兩種方式將手工規(guī)則的先驗注入訓(xùn)練過程:(1)特征對齊Mask:對于教師模型錯誤并被規(guī)則檢測的情況,由于教師模型中的原始特征導(dǎo)致錯誤的決策,就不讓適配器模塊恢復(fù)。(2)行動引導(dǎo)特征學(xué)習(xí):計算模型預(yù)測和實際決策之間的損失,并通過凍結(jié)的教師模型和適配器模塊進行反向傳播。這里也推薦「3D視覺工坊」新課程《深度剖析面向自動駕駛領(lǐng)域的車載傳感器空間同步(標定)》。

5. 實驗結(jié)果

作者使用CARLA模擬器進行數(shù)據(jù)收集和閉環(huán)駕駛性能評估,每幀采集4臺相機和1臺激光雷達的原始數(shù)據(jù)。訓(xùn)練是在Town01、Town03、Town04和Town06進行,總共189K幀。評估指標方面,用的是CARLA的官方指標,包括:**違規(guī)指數(shù)( IS )衡量沿途發(fā)生的違規(guī)行為數(shù)量,路徑完成度( RC )評估車輛完成路徑的百分比。駕駛得分( DS )**表示路線完成度和違規(guī)得分的乘積。

和其他SOTA方法的對比是在Town05 Long和Longest6序列上進行??梢园l(fā)現(xiàn),DriveAdapter甚至可以與經(jīng)過10倍數(shù)據(jù)量訓(xùn)練的模型相媲美,而在DriveAdapter也使用10倍數(shù)據(jù)以后,性能進一步提升,這其實是因為訓(xùn)練更好得感知了紅燈。

8ef87b80-34ad-11ee-9e74-dac502259ad0.png

8f321ce6-34ad-11ee-9e74-dac502259ad0.png

兩個消融實驗,一方面對比了特征對齊損失、特征對齊Mask、行為引導(dǎo)損失,一方面對比了適配器的各個階段:

8f4248c8-34ad-11ee-9e74-dac502259ad0.png

8f5ee686-34ad-11ee-9e74-dac502259ad0.png

最后這個實驗很有意思,不知道讀者有沒有這樣的想法:"學(xué)生模型能不能不生成BEV分割,而是直接生成教師模型的中間特征圖,那么性能會不會不一樣?"。

8f7d31e0-34ad-11ee-9e74-dac502259ad0.png

實際上,隨著學(xué)生模型的學(xué)習(xí)目標變深,整個駕駛性能是增加的。作者認為,將特征直接輸入到教師模型的更深層會遇到更少的累積誤差。但有個極端例外,就是只做行為克隆,也就相當于完全不使用教師模型,這樣會遇到嚴重的慣性問題,導(dǎo)致路徑完成度( RC )較低。

那既然學(xué)習(xí)目標變深以后,性能會變好,為啥還要生成BEV分割呢?作者主要是考慮到,早期階段的特征包含更多關(guān)于場景的詳細信息,可能會對教師模型決策很重要,并且適配器可以緩解累積誤差。另一方面,語義分割可以直觀得調(diào)試學(xué)生模型的感知情況。

6. 總結(jié)

今天給大家介紹的是ICCV 2023的開源工作DriveAdapter,它很好得解耦了自動駕駛感知和規(guī)劃的行為克隆,提出了一種新的端到端范式。直接利用通過RL學(xué)習(xí)的教師模型中的駕駛知識,并且克服了感知不完善和教師模型不完善的問題。筆者覺得更重要的是整篇文章分析問題的思路很通順,讀起來很舒服。算法剛剛開源,感興趣的小伙伴趕快試試吧。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 傳感器
    +關(guān)注

    關(guān)注

    2574

    文章

    54401

    瀏覽量

    786222
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3649

    瀏覽量

    51719
  • 自動駕駛
    +關(guān)注

    關(guān)注

    791

    文章

    14672

    瀏覽量

    176611

原文標題:ICCV 2023開源!打破端到端自動駕駛感知和規(guī)劃的耦合障礙!

文章出處:【微信號:3D視覺工坊,微信公眾號:3D視覺工坊】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    未來已來,多傳感器融合感知自動駕駛破局的關(guān)鍵

    巨大的進展;自動駕駛開始摒棄手動編碼規(guī)則和機器學(xué)習(xí)模型的方法,轉(zhuǎn)向全面采用的神經(jīng)網(wǎng)絡(luò)AI系統(tǒng),它能模仿學(xué)習(xí)人類司機的駕駛,遇到場景直接
    發(fā)表于 04-11 10:26

    即插即用的自動駕駛LiDAR感知算法盒子 RS-Box

    ,即可快速、無縫地將激光雷達感知模塊嵌入自己的無人駕駛方案中,真正實現(xiàn)“一鍵獲得自動駕駛激光雷達環(huán)境感知能力”。RS-BoxLiDAR
    發(fā)表于 12-15 14:20

    自動駕駛技術(shù)的實現(xiàn)

    的帶寬有了更高的要求。從而使用以太網(wǎng)技術(shù)及中央域控制(Domain)和區(qū)域控制(Zonal)架構(gòu)是下一代車載網(wǎng)絡(luò)的發(fā)展方向。然而對于自動駕駛技術(shù)的實現(xiàn),涉及感知規(guī)劃、執(zhí)行三個層面。
    發(fā)表于 09-03 08:31

    如何基于深度神經(jīng)網(wǎng)絡(luò)設(shè)計一個自動駕駛模型?

    如何基于深度神經(jīng)網(wǎng)絡(luò)設(shè)計一個自動駕駛模型?如何設(shè)計一個基于增強學(xué)習(xí)的自動駕駛決策系統(tǒng)?
    的頭像 發(fā)表于 04-29 16:44 ?5660次閱讀
    如何基于深度神經(jīng)網(wǎng)絡(luò)設(shè)計一個<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>的<b class='flag-5'>自動駕駛</b>模型?

    實現(xiàn)自動駕駛,唯有

    ,去年行業(yè)主流方案還是輕高精地圖城區(qū)智駕,今年大家的目標都瞄到了(End-to-End, E2E)。
    的頭像 發(fā)表于 08-12 09:14 ?2094次閱讀
    實現(xiàn)<b class='flag-5'>自動駕駛</b>,唯有<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>?

    Mobileye自動駕駛解決方案的深度解析

    強大的技術(shù)優(yōu)勢。 Mobileye的解決方案概述 1.1 什么是
    的頭像 發(fā)表于 10-17 09:35 ?1266次閱讀
    Mobileye<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b><b class='flag-5'>自動駕駛</b>解決方案的深度解析

    連接視覺語言大模型與自動駕駛

    自動駕駛在大規(guī)模駕駛數(shù)據(jù)上訓(xùn)練,展現(xiàn)出很強的決策規(guī)劃能力,但是面對復(fù)雜罕見的
    的頭像 發(fā)表于 11-07 15:15 ?1127次閱讀
    連接視覺語言大模型與<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b><b class='flag-5'>自動駕駛</b>

    自動駕駛技術(shù)研究與分析

    編者語:「智駕最前沿」微信公眾號后臺回復(fù):C-0450,獲取本文參考報告:《自動駕駛行業(yè)研究報告》pdf下載方式。 自動駕駛進入202
    的頭像 發(fā)表于 12-19 13:07 ?1518次閱讀

    動量感知規(guī)劃自動駕駛框架MomAD解析

    自動駕駛框架實現(xiàn)了感知規(guī)劃的無縫集成,但通常依賴于一次性軌跡預(yù)測,這可能導(dǎo)致控制不穩(wěn)定,
    的頭像 發(fā)表于 03-18 09:31 ?1473次閱讀
    動量<b class='flag-5'>感知</b><b class='flag-5'>規(guī)劃</b>的<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b><b class='flag-5'>自動駕駛</b>框架MomAD解析

    為什么自動駕駛大模型有黑盒特性?

    [首發(fā)于智駕最前沿微信公眾號]隨著自動駕駛技術(shù)落地,(End-to-End)大模型也成為行業(yè)研究與應(yīng)用的熱門方向。相較于傳統(tǒng)自動駕駛
    的頭像 發(fā)表于 07-04 16:50 ?595次閱讀
    為什么<b class='flag-5'>自動駕駛</b><b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>大模型有黑盒特性?

    Nullmax自動駕駛最新研究成果入選ICCV 2025

    近日,國際計算機視覺大會 ICCV 2025 正式公布論文錄用結(jié)果,Nullmax 感知團隊在自動駕駛方向的最新研究成果《HiP-AD
    的頭像 發(fā)表于 07-05 15:40 ?1568次閱讀
    Nullmax<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b><b class='flag-5'>自動駕駛</b>最新研究成果入選ICCV 2025

    自動駕駛相較傳統(tǒng)自動駕駛到底有何提升?

    [首發(fā)于智駕最前沿微信公眾號]自動駕駛技術(shù)自誕生以來,便承載了人類對安全、高效、智能出行的美好憧憬。傳統(tǒng)自動駕駛系統(tǒng)以層次化、模塊化的架構(gòu)為主,將感知、定位、規(guī)劃與決策、控制四大核心功
    的頭像 發(fā)表于 09-02 09:09 ?508次閱讀
    <b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b><b class='flag-5'>自動駕駛</b>相較傳統(tǒng)<b class='flag-5'>自動駕駛</b>到底有何提升?

    一文讀懂特斯拉自動駕駛FSD從輔助的演進

    [首發(fā)于智駕最前沿微信公眾號]自動駕駛行業(yè)發(fā)展至今,特斯拉一直被很多企業(yè)對標,其FSD系統(tǒng)的每一次更新,都會獲得非常多人的關(guān)注。早期自動駕駛是一個分層的、由多模塊組成的系統(tǒng),感知、定位、預(yù)測、
    的頭像 發(fā)表于 10-11 09:13 ?394次閱讀
    一文讀懂特斯拉<b class='flag-5'>自動駕駛</b>FSD從輔助<b class='flag-5'>到</b><b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>的演進

    自動駕駛仿真與基于規(guī)則的仿真有什么區(qū)別?

    自動駕駛領(lǐng)域,“仿真”指的是將感知控制的整個決策鏈條視為一個整體,從而進行訓(xùn)練和驗證的
    的頭像 發(fā)表于 11-02 11:33 ?1431次閱讀

    如何訓(xùn)練好自動駕駛模型?

    [首發(fā)于智駕最前沿微信公眾號]最近有位小伙伴在后臺留言提問:算法是怎樣訓(xùn)練的?是模仿學(xué)習(xí)、強化學(xué)習(xí)和離線強化學(xué)習(xí)這三類嗎?其實
    的頭像 發(fā)表于 12-08 16:31 ?922次閱讀
    如何訓(xùn)練好<b class='flag-5'>自動駕駛</b><b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>模型?