chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

基于純視覺的感知方法

地平線HorizonRobotics ? 來源:地平線HorizonRobotics ? 2023-06-15 14:20 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

背景 近年來,基于純視覺的感知方法由于其較高的信噪比和較低的成本,在自動駕駛領(lǐng)域占有重要地位。其中,鳥瞰圖(BEV)感知已成為主流的方法。在以視覺為中心的自動駕駛?cè)蝿?wù)中,BEV表示學習是指將周圍多個攝像頭的連續(xù)幀作為輸入,然后將像平面視角轉(zhuǎn)換為鳥瞰圖視角,在得到的鳥瞰圖特征上執(zhí)行諸如三維目標檢測、地圖視圖語義分割和運動預測等感知任務(wù)。 BEV感知性能的提高取決于如何快速且精準地獲取道路和物體特征表示。圖1中展示了現(xiàn)有的兩類基于不同交互機制的BEV感知管道:(a)后交互和(b)中間交互。后交互管道[1]在每個相機視角上獨立地進行感知,然后將感知結(jié)果在時間和空間上融合到一個統(tǒng)一的BEV特征空間中。中間交互管道[2,3,4]是最近使用得最廣泛的方案,它將所有的相機視角圖像耦合輸入到網(wǎng)絡(luò)中,通過網(wǎng)絡(luò)將它們轉(zhuǎn)換到BEV空間,然后直接輸出結(jié)果。中間交互管道中的特征提取、空間轉(zhuǎn)換和BEV空間的學習都有一個明確的順序。

bb012d7e-0b42-11ee-962d-dac502259ad0.png

圖1:后交互、中間交互和我們提出的前置交互框架示意圖 基于視覺的BEV感知的核心挑戰(zhàn)是從仿射視角(Perspective View, PV)向鳥瞰圖視角(BEV)的轉(zhuǎn)換。然而,利用現(xiàn)有的兩種交互策略將PV轉(zhuǎn)換到BEV仍然存在許多問題:(1) 圖像空間backbone只依次提取不同分辨率的圖像特征,而沒有融合任何跨分辨率的信息;(2) 現(xiàn)有的交互策略中核心模塊的計算量主要由圖像空間backbone占據(jù),但它不包含任何BEV空間信息,導致大量的計算并沒有執(zhí)行PV到BEV轉(zhuǎn)換這一關(guān)鍵任務(wù);(3) 后交互策略和中間交互策略的前向處理中的信息流是單向的,信息從圖像空間流到BEV空間,而BEV空間中的信息并沒有有效地影響圖像空間中的特征。為了解決這些問題,我們提出了一種新的基于Transformer的雙向前置交互框架,以有效地將多尺度圖像特征聚合成更好的BEV特征表示,并執(zhí)行BEV語義分割任務(wù)。 與現(xiàn)有的兩種策略相比,我們提出的前置交互方法具有明顯的優(yōu)勢。首先,我們提出的雙向前置交互方法可以融合全局上下文信息和局部細節(jié),從而能夠向BEV空間傳遞更豐富的語義信息。其次,我們提出PV到BEV的轉(zhuǎn)換不僅可以是圖像特征提取后,而且可以在提取過程中進行逐步轉(zhuǎn)換,于是,通過我們提出的雙向交叉注意力機制,信息流可以隱式地進行雙向交互,從而對齊PV和BEV中的特征。此外,我們的方法可以將跨空間對齊學習擴散到整個框架中,即圖像網(wǎng)絡(luò)學習不僅可以學習到良好的特征表示,而且可以起到跨空間對齊的作用。 方法

整體框架

BAEFormer的整體框架如圖2所示,總共包含兩個部分:(1)雙向前置交互編碼器,用于提取圖像特征并將其從PV轉(zhuǎn)換為BEV;(2)將低分辨率BEV特征上采樣到高分辨率BEV特征的解碼器,用于執(zhí)行下游任務(wù)。

bb41a520-0b42-11ee-962d-dac502259ad0.png

圖2:BAEFormer整體框架圖

前置交互

對于前置交互模塊,我們使用EfficientNet[5]的預訓練模型來提取環(huán)視圖像的特征,特征提取器包含三層,分別提取圖像的4x,8x,16x分辨率的特征。4x分辨率的特征首先被提取出來,通過一個降采樣模塊之后和BEV特征進行交互得到更新之后的4x分辨率特征,將更新之后的4x特征上采樣,并作為特征提取器的下一層的輸入來提取8x分辨率特征。以此類推,我們得到更新之后的8x特征并作為特征提取器最后一層的輸入,由此得到16x圖像特征。我們的多尺度前置交互方法可以充分利用分層預訓練的模型來整合多尺度圖像特征。同時,BEV的空間信息可以流入主干網(wǎng)絡(luò),使前置交互主干網(wǎng)絡(luò)承擔了部分異質(zhì)空間對齊的功能。

雙向交叉注意力

如圖3中所示,我們提出的雙向交叉注意力模型包含兩個分支,一個用于多視圖圖像特征的精細化,另一個用于BEV特征的精細化。 首先,N個環(huán)視圖像特征首先被編碼為查詢特征,鍵特征和值特征,其中c表示特征維度,h和w分別表示特征的高和寬。相似的,BEV特征編碼也被轉(zhuǎn)換為查詢特征,鍵特征和值特征。于是圖像特征和BEV特征的交叉注意力可以表示為: 整個Transformer模塊就可以使用下式計算: 其中,和表示第l層的輸入,和表示第l層的輸出。LN(?)表示層歸一化操作,MLP(?)表示有2個全連接層和一個非線性層的多層感知機模塊,MHBiCA(?)表示擁有多頭交叉注意力機制的BiCA(?)模塊。

bb745b5a-0b42-11ee-962d-dac502259ad0.png

圖3:雙向交叉注意力框架圖 實驗結(jié)果 表1展示了BAEFormer方法和之前的方法在兩種設(shè)置下的性能、參數(shù)和推理速度的對比結(jié)果??梢钥闯?,BAEFormer在使用相同輸入分辨率(224x480)的設(shè)置下,在精度上超過了現(xiàn)有的實時方法。同時,雖然先前的BEVFormer[2]實現(xiàn)了高性能,但它非常耗時,模型參數(shù)高達68.1M。我們的BAEFormer在大輸入圖像分辨率(504x1056)下的運行速度比BEVFormer快12倍,而參數(shù)量大約是它的1/12。

bb8b8cc6-0b42-11ee-962d-dac502259ad0.png

表1:nuScenes數(shù)據(jù)集上車輛類別的語義分割結(jié)果

消融實驗

表2展示了我們在nuScenes數(shù)據(jù)集上對車輛類別進行的不同交互方式的消融實驗。實驗結(jié)果表明,我們的BAEFormer方法可以將雙向交叉注意力機制和前置交互方式充分地結(jié)合以得到更好的BEV特征表示。

bba9ec34-0b42-11ee-962d-dac502259ad0.png

表2:不同交互方式的消融實驗 表3展示了具有不同輸入分辨率和圖像特征尺度的模型的mIoU性能和內(nèi)存使用情況。結(jié)果說明,使用多尺度特征可以帶來更好的性能;增大輸入圖像分辨率可以提高性能,但會帶來顯存的劇增;我們發(fā)現(xiàn),如(j)-(n)所示,在交互過程中,輸入圖像的分辨率對最終的精度沒有太大的影響;因此我們可以在提高輸入圖像分辨率來提升性能的同時,通過對交互時的圖像特征進行降采樣來保證計算量是可控的。

bbb94b34-0b42-11ee-962d-dac502259ad0.png

表3: 不同輸入分辨率和不同圖像特征尺度的組合

可視化結(jié)果

圖4展示了BEV下的可視化結(jié)果,可以看出BAEFormer對比baseline模型,不僅對于近處物體漏檢(紅色圈)的數(shù)目有效減少,且對于遠處物體(綠色圈)也能進行有效的感知,進一步說明了我們方法的感知能力具有一定的優(yōu)勢。

bbd7ff20-0b42-11ee-962d-dac502259ad0.png

圖4:不同模型的可視化結(jié)果對比 結(jié)論 在本文中,我們提出了一種稱為BAEFormer的BEV語義分割新框架,采用雙向交叉注意力機制,通過對圖像特征空間和 BEV 特征空間中的信息流施加雙向約束來建立改進的跨空間對齊,同時利用前置交互方法來合并跨尺度信息,并實現(xiàn)更精細的語義表示。實驗結(jié)果表明,BAEFormer在保持實時推理速度的同時能夠提高BEV語義分割的性能。 點擊“閱讀原文”,下載論文獲取更多信息。
責任編輯:彭菁

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 相機
    +關(guān)注

    關(guān)注

    4

    文章

    1468

    瀏覽量

    54694
  • 視覺
    +關(guān)注

    關(guān)注

    1

    文章

    163

    瀏覽量

    24371
  • 感知
    +關(guān)注

    關(guān)注

    1

    文章

    72

    瀏覽量

    12470

原文標題:CVPR 2023|BAEFormer:基于雙向前置交互Transformer的BEV語義分割方法

文章出處:【微信號:horizonrobotics,微信公眾號:地平線HorizonRobotics】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    有誰是做認知無線電頻譜感知方向的嗎

    本人研二,研究方向為認知無線電頻譜感知方法的研究,主要是處理數(shù)字端,有哪位童鞋跟我是同方向,一起探討探討啊
    發(fā)表于 09-11 22:13

    人類視覺感知方式對VR的挑戰(zhàn)

    美國VR開發(fā)商Oculus VR首席科學家邁克爾·阿布拉西(Michael Abrash)近日撰文,闡述了人類視覺感知給虛擬現(xiàn)實(VR)發(fā)展帶來的重大影響。作為人類,我們看到的影像其實都是視覺騙局
    發(fā)表于 07-29 07:35

    智能感知方案怎么幫助實現(xiàn)安全的自動駕駛?

    未來,自動駕駛將不再是科幻電影里的橋段,這是未來汽車的一個趨勢,感知是自動駕駛的重要組成部分,同時安全性至關(guān)重要。作為全球第7大汽車半導體供應(yīng)商,安森美半導體提供全面的智能感知方案,包括圖像傳感器
    發(fā)表于 07-31 07:11

    認知無線電中基于循環(huán)平穩(wěn)特征的頻譜感知方法

    認知無線電中基于循環(huán)平穩(wěn)特征的頻譜感知方法.
    發(fā)表于 03-16 15:55 ?35次下載
    認知無線電中基于循環(huán)平穩(wěn)特征的頻譜<b class='flag-5'>感知方法</b>

    智能機器人多傳感器融合感知方法

    智能機器人多傳感器融合感知方法,感興趣的小伙伴們可以瞧一瞧。
    發(fā)表于 09-20 16:10 ?19次下載

    一種基于智能終端的環(huán)境與接近度感知方法

    提出一種基于智能終端的環(huán)境與接近度感知方法。首先,基于智能終端多種內(nèi)置傳感器采集的環(huán)境數(shù)據(jù),提出一種環(huán)境感知算法,可以有效地識別不同場景切換;其次,以log-normal衰落模型得到的藍牙信號
    發(fā)表于 11-16 11:17 ?7次下載
    一種基于智能終端的環(huán)境與接近度<b class='flag-5'>感知方法</b>

    基于信道歷史狀態(tài)信息的頻譜感知方法

    針對衛(wèi)星認知網(wǎng)絡(luò)環(huán)境中待檢測信號強度不斷變化的特點,為了突破傳統(tǒng)能量檢測的性能極限,提出一種基于信道歷史狀態(tài)信息的頻譜感知方法。首先,通過建立具有遺忘機制的信道歷史狀態(tài)判決模型實現(xiàn)對當前時刻信道狀態(tài)
    發(fā)表于 01-15 15:33 ?0次下載
    基于信道歷史狀態(tài)信息的頻譜<b class='flag-5'>感知方法</b>

    激光雷達vs計算機視覺 自動駕駛的兩大流派

    激光雷達流派和計算機視覺流派一直在自動駕駛技術(shù)中的感知層解決方案上喋喋不休。激光雷達派認為視覺算法在數(shù)據(jù)形式和精度上的不足;
    的頭像 發(fā)表于 05-22 11:25 ?1.1w次閱讀

    新的工業(yè)應(yīng)用智能感知方

    推動高能效創(chuàng)新的安森美半導體(ON Semiconductor,美國納斯達克上市代號:ON),將于 7 月 3 日至 5 日在 2020 中國(上海)機器視覺展展示廣泛的智能圖像感知方案。
    發(fā)表于 07-03 11:40 ?1052次閱讀

    基于雙向前置交互Transformer的BEV語義分割方法

    近年來,基于視覺感知方法由于其較高的信噪比和較低的成本,在自動駕駛領(lǐng)域占有重要地位。
    發(fā)表于 06-15 14:15 ?858次閱讀
    基于雙向前置交互Transformer的BEV語義分割<b class='flag-5'>方法</b>

    4分鐘了解吸頂燈具智能感知方案測試方法

    視頻版吸頂燈智能感知方案測試方法從照明燈具、家電家居、安防系統(tǒng)、健康看護系統(tǒng)到商業(yè)設(shè)備,我們身邊的智能設(shè)備變得越來越聰明。在這場智能化革命中,富奧星雷達傳感器賦予了這些設(shè)備感知、檢測和互動能力,成功
    的頭像 發(fā)表于 12-01 10:20 ?1567次閱讀
    4分鐘了解吸頂燈具智能<b class='flag-5'>感知方</b>案測試<b class='flag-5'>方法</b>

    ?人工智能技術(shù)解密——機器視覺技術(shù)及應(yīng)用

    視覺是人類最敏感、最直接的感知方式,在不進行實際接觸的情況下,視覺感知可以使得我們獲取周圍環(huán)境的諸多信息
    的頭像 發(fā)表于 07-07 14:15 ?1039次閱讀
    ?人工智能技術(shù)解密——機器<b class='flag-5'>視覺</b>技術(shù)及應(yīng)用

    自動駕駛中激光雷達和視覺感知的區(qū)別

    視覺自動駕駛方案從產(chǎn)品分析,目前特斯拉的產(chǎn)品還處于L2的階段,從今年第一季度的財報上看視覺自動駕駛方案是這樣解釋:目前道路交通系統(tǒng)是基于人類視覺
    發(fā)表于 08-08 12:49 ?1919次閱讀
    自動駕駛中激光雷達和<b class='flag-5'>視覺</b><b class='flag-5'>感知</b>的區(qū)別

    激光雷達與視覺方案,哪個才是自動駕駛最優(yōu)選?

    主要分為兩大類:激光雷達與視覺感知。激光雷達因其能夠提供精確的距離和形狀信息,在自動駕駛技術(shù)早期的開發(fā)中被廣泛應(yīng)用。然而,隨著計算機視覺技術(shù)的飛速進步,基于攝像頭的
    的頭像 發(fā)表于 09-29 10:47 ?1159次閱讀

    奧迪威CES展出智能皮膚預警感知方案,賦予汽車“觸覺皮膚”!

    在2025年CES國際大展上奧迪威展出其突破性的智能皮膚預警感知方案,為汽車安全和交互功能帶來了革命性的變革。
    的頭像 發(fā)表于 02-27 15:01 ?625次閱讀
    奧迪威CES展出智能皮膚預警<b class='flag-5'>感知方</b>案,賦予汽車“觸覺皮膚”!