chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

介紹一種新的全景視覺里程計框架PVO

3D視覺工坊 ? 來源:自動駕駛之心 ? 2023-05-09 16:51 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

論文提出了PVO,這是一種新的全景視覺里程計框架,用于實現(xiàn)場景運動、幾何和全景分割信息的更全面建模。提出的PVO在統(tǒng)一的視圖中對視覺里程計(VO)和視頻全景分割(VPS)進(jìn)行建模,這使得這兩項任務(wù)互惠互利。具體來說,在圖像全景分割的指導(dǎo)下,在VO模塊中引入了全景更新模塊。

該全景增強(qiáng)VO模塊可以通過全景感知動態(tài)mask來減輕動態(tài)目標(biāo)在相機(jī)姿態(tài)估計中的影響。另一方面,VO增強(qiáng)型VPS模塊還利用從VO模塊獲得的相機(jī)姿態(tài)、深度和光流等幾何信息,將當(dāng)前幀的全景分割結(jié)果融合到相鄰幀,從而提高了分割精度,這兩個模塊通過反復(fù)迭代優(yōu)化相互促進(jìn)。大量實驗表明,PVO在視覺里程計和視頻全景分割任務(wù)中都優(yōu)于最先進(jìn)的方法。

eee0d53e-e63c-11ed-ab56-dac502259ad0.png

領(lǐng)域背景

了解場景的運動、幾何和全景分割在計算機(jī)視覺機(jī)器人技術(shù)中發(fā)揮著至關(guān)重要的作用,其應(yīng)用范圍從自動駕駛到增強(qiáng)現(xiàn)實,本文朝著解決這個問題邁出了一步,以實現(xiàn)單目視頻場景的更全面建模!已經(jīng)提出了兩項任務(wù)來解決這個問題,即視覺里程計(VO)和視頻全景分割(VPS)。特別地,VO[9,11,38]將單目視頻作為輸入,并在靜態(tài)場景假設(shè)下估計相機(jī)姿態(tài)。為了處理場景中的動態(tài)對象,一些動態(tài)SLAM系統(tǒng)使用實例分割網(wǎng)絡(luò)進(jìn)行分割,并明確過濾出某些類別的目標(biāo),這些目標(biāo)可能是動態(tài)的,例如行人或車輛。

然而,這種方法忽略了這樣一個事實,即潛在的動態(tài)目標(biāo)實際上可能在場景中是靜止的,例如停放的車輛。相比之下,VPS專注于在給定一些初始全景分割結(jié)果的情況下,跨視頻幀跟蹤場景中的單個實例。當(dāng)前的VPS方法沒有明確區(qū)分目標(biāo)實例是否在移動,盡管現(xiàn)有的方法廣泛地獨立地解決了這兩個任務(wù),但值得注意的是,場景中的動態(tài)目標(biāo)會使這兩項任務(wù)都具有挑戰(zhàn)性。認(rèn)識到兩個任務(wù)之間的這種相關(guān)性,一些方法試圖同時處理這兩個任務(wù),并以多任務(wù)的方式訓(xùn)練運動語義網(wǎng)絡(luò),如圖2所示。然而,這些方法中使用的損失函數(shù)可能相互矛盾,從而導(dǎo)致性能下降。

eeef5b7c-e63c-11ed-ab56-dac502259ad0.png

本文提出了一種新的全景視覺里程計(PVO)框架,該框架使用統(tǒng)一的視圖將這兩項任務(wù)緊密耦合,以對場景進(jìn)行全面建模。VPS可以利用全景分割信息調(diào)整VO的權(quán)重(每個實例的像素的權(quán)重應(yīng)該相互關(guān)聯(lián)),VO可以將視頻全景分割的跟蹤和融合從2D轉(zhuǎn)換為3D。受開創(chuàng)性的期望最大化算法的啟發(fā),遞歸迭代優(yōu)化策略可以使這兩項任務(wù)互惠互利。

PVO由三個模塊組成,一個圖像全景分割模塊、一個全景增強(qiáng)型VO模塊和一個VO增強(qiáng)型VPS模塊。全景分割模塊獲取單個圖像并輸出圖像全景分割結(jié)果,然后被饋送到全景增強(qiáng)VO模塊中作為初始化。注意,盡管本文選擇PanopticFPN,但任何分割模型都可以用于全景分割模塊。在全景增強(qiáng)VO模塊,提出了一個全景更新模塊來過濾動態(tài)目標(biāo)的干擾,從而提高了動態(tài)場景中姿態(tài)估計的準(zhǔn)確性。在VO增強(qiáng)的VPS模塊中,引入了一種在線融合機(jī)制,根據(jù)估計的姿態(tài)、深度和光流,將當(dāng)前幀的多分辨率特征與相鄰幀對齊,這種在線融合機(jī)制可以有效地解決多目標(biāo)遮擋的問題。實驗表明,遞歸迭代優(yōu)化策略提高了VO和VPS的性能。本文的主要貢獻(xiàn)概括為四個方面:

1.本文提出了一種新的全景視覺里程計(PVO)框架,該框架可以將VO和VPS任務(wù)統(tǒng)一起來,對場景進(jìn)行全面建模;

2.引入全景更新模塊,并將其納入全景增強(qiáng)VO模塊,以改進(jìn)姿態(tài)估計;

3.在VOEnhanced VPS模塊中提出了一種在線融合機(jī)制,有助于改進(jìn)視頻全景分割;

4.大量實驗表明,提出的具有遞歸迭代優(yōu)化的PVO在視覺里程計和視頻全景分割任務(wù)中都優(yōu)于最先進(jìn)的方法;

1)視頻全景分割

視頻全景分割旨在生成一致的全景分割,并跟蹤視頻幀中所有像素的實例。作為一項先驅(qū)工作,VPSNet定義了這項新任務(wù),并提出了一種基于實例級跟蹤的方法。SiamTrack通過提出pixel-tube匹配損失和對比度損失來擴(kuò)展VPSNet,以提高實例嵌入的判別能力。VIPDeplab通過引入額外的深度信息,提供了一個深度感知VPS網(wǎng)絡(luò)。而STEP提出對視頻全景分割的每個像素進(jìn)行分割和跟蹤,HybridTracker提出從兩個角度跟蹤實例:特征空間和空間位置。與現(xiàn)有方法不同,本文引入了一種VO增強(qiáng)的VPS模塊,該模塊利用VO估計的相機(jī)姿態(tài)、深度和光流來跟蹤和融合從當(dāng)前幀到相鄰幀的信息,并可以處理遮擋。

2)SLAM和視覺里程計

SLAM同時進(jìn)行定位和地圖構(gòu)建,視覺里程計作為SLAM的前端,專注于姿態(tài)估計?,F(xiàn)代SLAM系統(tǒng)大致分為兩類,基于幾何的方法和基于學(xué)習(xí)的方法。由于基于監(jiān)督學(xué)習(xí)的方法具有良好的性能,基于無監(jiān)督學(xué)習(xí)的VO方法受到了廣泛的關(guān)注,但它們的性能不如有監(jiān)督的方法。一些無監(jiān)督方法利用多任務(wù)學(xué)習(xí)和深度和光流等輔助任務(wù)來提高性能。

最近,TartanVO提出建立一個可推廣基于學(xué)習(xí)的VO,并在具有挑戰(zhàn)性的SLAM數(shù)據(jù)集TartanAir上測試該系統(tǒng)。DROID-SLAM提出使用bundle adjustment層迭代更新相機(jī)姿態(tài)和像素深度,并展示了卓越的性能。DeFlowSLAM進(jìn)一步提出了dual-flow表示和自監(jiān)督方法,以提高SLAM系統(tǒng)在動態(tài)場景中的性能。為了應(yīng)對動態(tài)場景的挑戰(zhàn),動態(tài)SLAM系統(tǒng)通常利用語義信息作為約束但它們主要作用于stereo、RGBD或LiDAR序列。相反,本文引入了全景更新模塊,并在DROID-SLAM上構(gòu)建了全景增強(qiáng)型VO,可以用于單目視頻。這樣的組合可以更好地理解場景幾何和語義,從而對場景中的動態(tài)對象更加魯棒。與其它多任務(wù)端到端模型不同,本文的PVO具有循環(huán)迭代優(yōu)化策略,可以防止任務(wù)相互干擾。

本文提出的方法

給定一個單目視頻,PVO的目標(biāo)是同時定位和全景3D映射。圖3描述了PVO模型的框架,它由三個主要模塊組成:圖像全景分割模塊、全景增強(qiáng)VO模塊和VO增強(qiáng)VPS模塊。VO模塊旨在估計攝像機(jī)的姿態(tài)、深度和光流,而VPS模塊輸出相應(yīng)的視頻全景分割,最后兩個模塊以反復(fù)互動的方式相互促進(jìn)!

eefd685c-e63c-11ed-ab56-dac502259ad0.png

1)圖像全景分割

圖像全景分割以單個圖像為輸入,輸出圖像的全景分割結(jié)果,將語義分割和實例分割相結(jié)合,對圖像的實例進(jìn)行綜合建模。輸出結(jié)果用于初始化視頻全景分割,然后輸入全景增強(qiáng)VO模塊。在本文的實驗中,如果沒有特別指出,使用廣泛使用的圖像全景分割網(wǎng)絡(luò)PanopticFPN。PanopticFPN建立在具有權(quán)重θ_e的ResNetf_{θ_e}的主干上,并提取圖像的多尺度特征I_t:

ef099bea-e63c-11ed-ab56-dac502259ad0.png

它使用具有權(quán)重θ_d的解碼器g_{θ_d}輸出全景分割結(jié)果,該解碼器由語義分割和實例分割組成,每個像素p的全景分割結(jié)果為:

ef13f4f0-e63c-11ed-ab56-dac502259ad0.png

被饋送到解碼器中的多尺度特征隨著時間的推移而更新。一開始,編碼器生成的多尺度特征被直接輸入解碼器(圖3藍(lán)色部分)。在隨后的時間步長中,這些多尺度特征在被饋送到解碼器之前用在線特征融合模塊進(jìn)行更新。

2)全景增強(qiáng) VO 模塊

在視覺里程計中,動態(tài)場景無處不在,過濾掉動態(tài)目標(biāo)的干擾至關(guān)重要。DROID-SLAM的前端以單目視頻{{I_t}}^N_{t=0}為輸入,并優(yōu)化相機(jī)姿態(tài){G_t}^N_{t=0}∈SE(3)和反深度d_t∈R^{H×W}+,通過迭代優(yōu)化光流delta r{ij}∈R^{HW2}。它不考慮大多數(shù)背景是靜態(tài)的,前景目標(biāo)可能是動態(tài)的,并且每個目標(biāo)的像素權(quán)重應(yīng)該是相關(guān)的。全景增強(qiáng)VO模塊(見圖4)是通過結(jié)合全景分割的信息,幫助獲得更好的置信度估計(見圖7),因此,全景增強(qiáng)VO可以獲得更精確的相機(jī)姿勢。接下來,將簡要回顧DROID-SLAM的類似部分(特征提取和相關(guān)性),并重點介紹全景更新模塊的復(fù)雜設(shè)計。

ef1c107c-e63c-11ed-ab56-dac502259ad0.png

ef22e38e-e63c-11ed-ab56-dac502259ad0.png

特征提取:與DROID-SLAM類似,全景增強(qiáng)VO模塊借用了RAFT的關(guān)鍵組件來提取特征。本文使用兩個獨立的網(wǎng)絡(luò)(一個特征編碼器和一個上下文編碼器) 提取每個圖像的多尺度特征,其中利用特征編碼器的特征構(gòu)建成對圖像的4D相關(guān)volumes,并將上下文編碼器的特征注入全景更新模塊。特征編碼器的結(jié)構(gòu)類似于全景分割網(wǎng)絡(luò)的主干,并且它們可以使用共享編碼器。

相關(guān)金字塔和查找表:與DROIDSLAM類似,本文采用幀圖(V,E)來指示幀之間的共同可見性。例如,邊(i,j)∈E表示保持重疊區(qū)域的兩個圖像I_i和I_j,并且可以通過這兩個圖像的特征向量之間的點積來構(gòu)建4D相關(guān)volumes:

ef2e099e-e63c-11ed-ab56-dac502259ad0.png

遵循平均池化層以獲得金字塔相關(guān)性,本文使用DROID-SLAM中定義的相同查找運算符來使用雙線性插值對金字塔相關(guān)volumes值進(jìn)行索引,這些相關(guān)特征被串聯(lián),從而產(chǎn)生最終的特征向量。Panoptic增強(qiáng)型VO模塊繼承了DROID-SLAM的前端VO模塊,利用全景分割信息來調(diào)整VO的權(quán)重。將通過將初始光流饋送到流編碼器而獲得的flow信息和從兩幀建立的4D相關(guān)volumes以及上下文編碼器獲取的特征作為中間變量饋送到GRU,然后三個卷積層輸出動態(tài)掩碼M_{d_{ij}},相關(guān)置信度map w_{ij}和稠密光流delta r_{ij}。給定初始化的全景分割,可以將動態(tài)掩碼調(diào)整為全景感知動態(tài)掩碼,為了便于理解,保持符號不變。置信度和全景感知動態(tài)掩碼通過全景感知濾波器模塊以獲得全景感知置信度:

ef34f61e-e63c-11ed-ab56-dac502259ad0.png

深度和動態(tài)的殘差掩碼被添加到當(dāng)前深度和動態(tài)掩碼,分別為:

ef407a02-e63c-11ed-ab56-dac502259ad0.png

ef672a12-e63c-11ed-ab56-dac502259ad0.png

Correspondence:首先在每次迭代中使用當(dāng)前的姿態(tài)和深度估計來搜索對應(yīng)關(guān)系。參考DROID-SLAM,對于幀i中的每個像素坐標(biāo)pi,幀圖中每個邊(i,j)∈E的稠密對應(yīng)域pij可以計算如下:

ef706e06-e63c-11ed-ab56-dac502259ad0.png

DBA層:使用DROID-SLAM中定義的密集束調(diào)整層(DBA)來map stream revisions,以更新當(dāng)前估計的逐像素深度和姿態(tài),成本函數(shù)可以定義如下:

ef7d1a0c-e63c-11ed-ab56-dac502259ad0.png

3)VO增強(qiáng)型VPS模塊

視頻全景分割旨在獲得每幀的全景分割結(jié)果,并保持幀間分割的一致性。為了提高分割精度和跟蹤精度,F(xiàn)useTrack等一些方法試圖利用光流信息對特征進(jìn)行融合,并根據(jù)特征的相似性進(jìn)行跟蹤。這些方法僅來自可能遇到遮擋或劇烈運動的2D視角。我們生活在一個3D世界中,可以使用額外的深度信息來更好地建模場景。本文的VO增強(qiáng)型VPS模塊正是基于這一理解,能夠更好地解決上述問題。

圖5顯示了VO增強(qiáng)型VPS模塊,該模塊通過使用從視覺里程計獲得的深度、姿態(tài)和光流信息,將前一幀t?1的特征wrap到當(dāng)前幀t,從而獲得wrap的特征。在線融合模塊將融合當(dāng)前幀t的特征和wrap的特征,以獲得融合的特征。為了保持視頻分割的一致性,首先將wrap的特征t?1(包含幾何運動信息)和融合的特征圖t輸入解碼器,分別獲得全景分割t?1和t,然后使用簡單的IoU匹配模塊來獲得一致的全景分割,該結(jié)果將被輸入Panoptic增強(qiáng)型VO模塊。

ef88ea62-e63c-11ed-ab56-dac502259ad0.png

4)遞歸迭代優(yōu)化

受EM算法的啟發(fā),可以以遞歸迭代的方式優(yōu)化所提出的全景增強(qiáng)VO模塊和VO增強(qiáng)VPS模塊,直到收斂。在實驗上,循環(huán)通常只需要兩次迭代就可以收斂,表5和表6表明,反復(fù)迭代優(yōu)化可以提高VPS和VO模塊的性能。

efa1818a-e63c-11ed-ab56-dac502259ad0.pngefac750e-e63c-11ed-ab56-dac502259ad0.png

5)實施細(xì)則

PVO由PyTorch實現(xiàn),由三個主要模塊組成:圖像全景分割、全景增強(qiáng)VO模塊和VO增強(qiáng)VPS模塊。本文使用三個階段來訓(xùn)練網(wǎng)絡(luò),在KITTI數(shù)據(jù)集上訓(xùn)練圖像全景分割作為初始化。在PanopticFCN之后,訓(xùn)練過程中采用了多尺度縮放策略。在兩個GeForce RTX 3090 GPU上以1e-4的初始速率優(yōu)化網(wǎng)絡(luò),其中每個小批量有八個圖像,SGD優(yōu)化器的使用具有1e-4的重量衰減和0.9的動量。

全景增強(qiáng)VO模塊的訓(xùn)練遵循DROIDSLAM,只是它額外提供了地面實況全景分割結(jié)果。在訓(xùn)練VO增強(qiáng)視頻全景分割模塊時,使用GT深度、光流和姿態(tài)信息作為幾何先驗來對齊特征,并固定訓(xùn)練的單圖像全景分割的主干,然后僅訓(xùn)練融合模塊。該網(wǎng)絡(luò)在一個GeForce RTX 3090 GPU上以1e-5的初始學(xué)習(xí)率進(jìn)行了優(yōu)化,其中每個批次有八個圖像。當(dāng)融合網(wǎng)絡(luò)基本收斂時,添加了一個分割一致性損失函數(shù)來進(jìn)一步完善VPS模塊!

實驗結(jié)果

1)視覺里程計

本文在三個具有動態(tài)場景的數(shù)據(jù)集上進(jìn)行實驗:Virtual KITTI、KITTI和TUM RGBD動態(tài)序列,使用絕對軌跡誤差(ATE)進(jìn)行評估。對于視頻全景分割,在cityscape和VIPER數(shù)據(jù)集上使用視頻全景質(zhì)量(VPQ)度量。本文進(jìn)一步對Virtual KITTI進(jìn)行消融研究,以分析本文的框架設(shè)計。最后,展示了PVO在視頻編輯方面的適用性,如補(bǔ)充材料中的第B節(jié)所示。

VKITTI2

虛擬KITTI數(shù)據(jù)集[3]由從KITTI跟蹤基準(zhǔn)克隆的5個序列組成,為每個序列提供RGB、深度、類分割、實例分割、相機(jī)姿態(tài)、flow和場景flow數(shù)據(jù)。如表6和圖6所示,在大多數(shù)序列中,本文的PVO以很大的優(yōu)勢優(yōu)于DROID SLAM,并在序列02中實現(xiàn)了有競爭力的性能。

efb6e368-e63c-11ed-ab56-dac502259ad0.pngefc1029e-e63c-11ed-ab56-dac502259ad0.png

KITTI

KITTI是一個捕捉真實世界交通場景的數(shù)據(jù)集,從農(nóng)村地區(qū)的高速公路到擁有大量靜態(tài)和動態(tài)對象的城市街道。本文將在VKITTI2[3]數(shù)據(jù)集上訓(xùn)練的PVO模型應(yīng)用于KITTI序列。如圖6所示,PVO的姿態(tài)估計誤差僅為DROID-SLAM的一半,這證明了PVO具有良好的泛化能力。表1顯示了KITTI和VKITTI數(shù)據(jù)集上的完整SLAM比較結(jié)果,其中PVO在大多數(shù)情況下都大大優(yōu)于DROID-SLAM和DynaSLAM,DynaSLAM在VKITTI2 02、06和18序列中屬于災(zāi)難性系統(tǒng)故障。

efcc0c98-e63c-11ed-ab56-dac502259ad0.png

TUM-RGBD

TUM RGBD是一個用手持相機(jī)捕捉室內(nèi)場景的數(shù)據(jù)集,本文選擇TUM RGBD數(shù)據(jù)集的動態(tài)序列來顯示本文的方法的有效性。將PVO與DROIDSLAM以及三種最先進(jìn)的動態(tài)RGB-D SLAM系統(tǒng)進(jìn)行了比較,即DVO-SLAM、ORB-SLAM2和PointCorr。請注意,PVO和DROID-SLAM僅使用單目RGB視頻。表2表明PVO在所有場景中都優(yōu)于DROID-SLAM,與傳統(tǒng)的RGB-D SLAM系統(tǒng)相比,本文的方法在大多數(shù)場景中也表現(xiàn)得更好。

efed4750-e63c-11ed-ab56-dac502259ad0.png

2)視頻全景分割

將PVO與三種基于實例的視頻全景分割方法進(jìn)行了比較,即VPSNetTrack、VPSNetFuseTrack和SiamTrack。在圖像全景分割模型UPSNet的基礎(chǔ)上,VPSNetTrack還添加了MaskTrack head,以形成視頻全景分割模型?;赩PSNet Track的VPSNet FuseTrack額外注入了時間特征聚合和融合,而SiamTrack利用pixel-tubel 匹配損失和對比度損耗對VPSNet Track進(jìn)行微調(diào),性能略有提高,比較VPSNet FuseTrack主要是因為SiamTrack的代碼不可用。

Cityscape:本文在VPS中采用了Cityscape的公共訓(xùn)練/val/test分割,其中每個視頻包含30個連續(xù)幀,每五幀有相應(yīng)的GT注釋。表3表明,使用PanopticFCN的方法在val數(shù)據(jù)集上優(yōu)于最先進(jìn)的方法,實現(xiàn)了比VPSNet Track高+1.6%VPQ。與VPSNetFuseTrack相比,本文的方法略有改進(jìn),可以保持一致的視頻分割,如補(bǔ)充材料中的圖A4所示。原因是由于內(nèi)存有限,論文的VO模塊只能獲得1/8分辨率的光流和深度。

VIPER:VIPER維護(hù)了大量高質(zhì)量的全景視頻注釋,這是另一個視頻全景分割基準(zhǔn)。遵循VPS[19],并采用其公共train/val拆分。使用從日常場景中選擇的10個視頻,每個視頻的前60幀用于評估。表4表明,與VPSNet FuseTrack相比,PanopticFCN方法在VIPER數(shù)據(jù)集上獲得了更高的分?jǐn)?shù)(+3.1VPQ)。

effd0316-e63c-11ed-ab56-dac502259ad0.png

3)消融實驗

VPS增強(qiáng)型VO模塊:在全景增強(qiáng)型VO模塊中,使用DROID-SLAM作為基線,(VPS->VO)意味著增加了全景信息先驗以增強(qiáng)VO基線,(VPS->VO x2)意味著可以迭代優(yōu)化VO模塊兩次。(VPS->VO x3)意味著對VO模塊進(jìn)行3次反復(fù)迭代優(yōu)化,表6和圖7顯示,在大多數(shù)高度動態(tài)的VKITTI2數(shù)據(jù)集上,全景信息可以幫助提高DROID-SLAM的準(zhǔn)確性,遞歸迭代優(yōu)化可以進(jìn)一步改善結(jié)果。

VO增強(qiáng)型VPS模塊:為了評估VO是否有助于VPS,首先使用PanopticFPN來獲得每個幀的全景分割結(jié)果,然后使用來自RAFT的光流信息進(jìn)行幀間跟蹤,這被設(shè)置為VPS基線。(VPS基線+w/fusion)意味著額外地將特征與流量估計相融合。(VO->VPS+w/o融合)意味著在基線之上使用額外的深度、姿勢和其他信息,(VO->VPS)意味著我們額外融合了該功能。

VO增強(qiáng)型VPS模塊中的在線融合:為了驗證所提出的特征對齊損失(fea損失)和分割一致性損失(seg損失)的有效性,方法如下:(VO->VPS+w/fusion+w/o fealoss)意味著在沒有特征對齊損失的情況下訓(xùn)練在線融合模塊,(VO->VPS+w/fusion+w/o-seg loss)意味著在沒有Segmentation Consistent loss的情況下訓(xùn)練在線融合模塊,表5展示了這兩種損失函數(shù)的有效性!

一些結(jié)論

論文提出了一種新的全景視覺里程計方法,該方法在統(tǒng)一的視圖中對VO和VPS進(jìn)行建模,使這兩項任務(wù)能夠相互促進(jìn)。全景更新模塊可以幫助改進(jìn)姿態(tài)估計,而在線融合模塊有助于改進(jìn)全景分割。大量實驗表明,本文的PVO在這兩項任務(wù)中都優(yōu)于最先進(jìn)的方法。局限性主要是PVO建立在DROID-SLAM和全景分割的基礎(chǔ)上,這使得網(wǎng)絡(luò)很重,需要大量內(nèi)存。盡管PVO可以在動態(tài)場景中穩(wěn)健地執(zhí)行,但它忽略了當(dāng)攝像機(jī)返回到之前的位置時環(huán)路閉合的問題,探索一種低成本、高效的閉環(huán)SLAM系統(tǒng)是未來的工作。





審核編輯:劉清

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 攝像機(jī)
    +關(guān)注

    關(guān)注

    3

    文章

    1703

    瀏覽量

    61393
  • Droid
    +關(guān)注

    關(guān)注

    0

    文章

    2

    瀏覽量

    6479
  • SLAM
    +關(guān)注

    關(guān)注

    24

    文章

    441

    瀏覽量

    32496
  • vps
    vps
    +關(guān)注

    關(guān)注

    1

    文章

    115

    瀏覽量

    12258

原文標(biāo)題:CVPR 2023 | PVO:全景視覺里程計(VO和全景分割雙SOTA)!

文章出處:【微信號:3D視覺工坊,微信公眾號:3D視覺工坊】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    【「# ROS 2智能機(jī)器人開發(fā)實踐」閱讀體驗】視覺實現(xiàn)的基礎(chǔ)算法的應(yīng)用

    結(jié)合IMU(慣性測量單元)進(jìn)行多傳感器融合。 三、總結(jié)與展望 技術(shù)融合趨勢 機(jī)器人視覺與SLAM的結(jié)合(如視覺慣性里程計VIO)是當(dāng)前研究熱點,未來可能進(jìn)步結(jié)合語義SLAM,讓機(jī)
    發(fā)表于 05-03 19:41

    一種新型激光雷達(dá)慣性視覺里程計系統(tǒng)介紹

    針對具有挑戰(zhàn)性的光照條件和惡劣環(huán)境,本文提出了LIR-LIVO,這是一種輕量級且穩(wěn)健的激光雷達(dá)-慣性-視覺里程計系統(tǒng)。通過采用諸如利用深度與激光雷達(dá)點云關(guān)聯(lián)實現(xiàn)特征的均勻深度分布等先進(jìn)技術(shù),以及利用
    的頭像 發(fā)表于 04-28 11:18 ?351次閱讀
    <b class='flag-5'>一種</b>新型激光雷達(dá)慣性<b class='flag-5'>視覺</b><b class='flag-5'>里程計</b>系統(tǒng)<b class='flag-5'>介紹</b>

    一種實時多線程VSLAM框架vS-Graphs介紹

    針對現(xiàn)有VSLAM系統(tǒng)語義表達(dá)不足、地圖可解釋性差的問題,本文提出vS-Graphs,一種實時多線程VSLAM框架。該方案顯著提升了重建地圖的語義豐富度、可解釋性及定位精度。實驗表明
    的頭像 發(fā)表于 04-19 14:07 ?390次閱讀
    <b class='flag-5'>一種</b>實時多線程VSLAM<b class='flag-5'>框架</b>vS-Graphs<b class='flag-5'>介紹</b>

    無線電愛好者實用電子制作精選

    魔音門鈴,對講音樂門鈴,自動穩(wěn)光的調(diào)光臺燈,自熄臺燈,音樂彩燈,彩虹吸頂燈,簡易卡拉OK話筒,簡易電視天線放大器,電熱毯通電指示器,電飯煲火力調(diào)制器,電冰箱溫度顯示器,家用電器簡易過壓保護(hù)器,視力保護(hù)測光器,聲控音樂娃娃,電子溫度,自行車里程計等等。
    發(fā)表于 04-07 11:26

    一種多模態(tài)駕駛場景生成框架UMGen介紹

    端到端自動駕駛技術(shù)的快速發(fā)展對閉環(huán)仿真器提出了迫切需求,而生成式模型為其提供了一種有效的技術(shù)架構(gòu)。然而,現(xiàn)有的駕駛場景生成方法大多側(cè)重于圖像模態(tài),忽略了其他關(guān)鍵模態(tài)的建模,如地圖信息、智能交通參與者等,從而限制了其在真實駕駛場景中的適用性。
    的頭像 發(fā)表于 03-24 15:57 ?891次閱讀
    <b class='flag-5'>一種</b>多模態(tài)駕駛場景生成<b class='flag-5'>框架</b>UMGen<b class='flag-5'>介紹</b>

    成像式亮度色度產(chǎn)品原理及應(yīng)用介紹

    成像式亮度色度計工作原理:成像式亮度色度一種基于成像原理來進(jìn)行測光和測色的測量儀器,基本結(jié)構(gòu)是由視覺(或色覺)匹配的探測器(CCD或CMOS)、光學(xué)系統(tǒng)以及與亮度(或三刺激值XYZ)成比例的信號
    的頭像 發(fā)表于 01-16 11:05 ?1143次閱讀
    成像式亮度色度<b class='flag-5'>計</b>產(chǎn)品原理及應(yīng)用<b class='flag-5'>介紹</b>

    AI開發(fā)框架集成介紹

    隨著AI應(yīng)用的廣泛深入,單框架往往難以滿足多樣化的需求,因此,AI開發(fā)框架的集成成為了提升開發(fā)效率、促進(jìn)技術(shù)創(chuàng)新的關(guān)鍵路徑。以下,是對AI開發(fā)框架集成的
    的頭像 發(fā)表于 01-07 15:58 ?554次閱讀

    用于任意排列多相機(jī)的通用視覺里程計系統(tǒng)

    如何讓多相機(jī)視覺SLAM系統(tǒng)更易于部署且對環(huán)境更具魯棒性?本文提出了一種適用于任意排列多相機(jī)的通用視覺里程計系統(tǒng)。在KITTI-360和MultiCamData數(shù)據(jù)集上驗證了該方法對于
    的頭像 發(fā)表于 12-13 11:22 ?759次閱讀
    用于任意排列多相機(jī)的通用<b class='flag-5'>視覺</b><b class='flag-5'>里程計</b>系統(tǒng)

    一種面向飛行試驗的數(shù)據(jù)融合框架

    天地氣動數(shù)據(jù)致性,針對某外形飛行試驗數(shù)據(jù)開展了典型對象的天地氣動數(shù)據(jù)融合方法研究。結(jié)合數(shù)據(jù)挖掘的隨機(jī)森林方法,本文提出了一種面向飛行試驗的數(shù)據(jù)融合框架,通過引入地面風(fēng)洞試驗氣動數(shù)據(jù),實現(xiàn)了對復(fù)雜輸入?yún)?shù)的特征
    的頭像 發(fā)表于 11-27 11:34 ?842次閱讀
    <b class='flag-5'>一種</b>面向飛行試驗的數(shù)據(jù)融合<b class='flag-5'>框架</b>

    滲壓和水位之間有什么區(qū)別?

    問題,南京峟思今天就來給大家簡單的介紹下:滲壓和水位之間有什么區(qū)別?1.滲壓滲壓
    的頭像 發(fā)表于 11-26 15:18 ?595次閱讀
    滲壓<b class='flag-5'>計</b>和水位<b class='flag-5'>計</b>之間有什么區(qū)別?

    基于視覺語言模型的導(dǎo)航框架VLMnav

    本文提出了一種視覺語言模型(VLM)轉(zhuǎn)換為端到端導(dǎo)航策略的具體框架。不依賴于感知、規(guī)劃和控制之間的分離,而是使用VLM在步中直接選擇動作。驚訝的是,我們發(fā)現(xiàn)VLM可以作為
    的頭像 發(fā)表于 11-22 09:42 ?792次閱讀

    投入式水位是什么?投入式水位怎么安裝

    投入式水位一種在工程領(lǐng)域中廣泛應(yīng)用的監(jiān)測儀器,主要用于測量和顯示水位的變化量。本文將詳細(xì)介紹投入式水位的定義、特點以及安裝步驟,幫助大家更好地理解和應(yīng)用這
    的頭像 發(fā)表于 11-08 16:08 ?712次閱讀
    投入式水位<b class='flag-5'>計</b>是什么?投入式水位<b class='flag-5'>計</b>怎么安裝

    基于旋轉(zhuǎn)平移解耦框架視覺慣性初始化方法

    精確和魯棒的初始化對于視覺慣性里程計(VIO)至關(guān)重要,因為不良的初始化會嚴(yán)重降低姿態(tài)精度。
    的頭像 發(fā)表于 11-01 10:16 ?967次閱讀
    基于旋轉(zhuǎn)平移解耦<b class='flag-5'>框架</b>的<b class='flag-5'>視覺</b>慣性初始化方法

    一種完全分布式的點線協(xié)同視覺慣性導(dǎo)航系統(tǒng)

    在本文中,我們提出了一種完全分布式的點線協(xié)同視覺慣性導(dǎo)航系統(tǒng)。我們通過蒙特卡羅模擬和真實環(huán)境數(shù)據(jù)集,在稠密特征或稀疏特征環(huán)境下將所提出的算法與其他四算法進(jìn)行了比較。所有結(jié)果表明,我們的PL-CVIO優(yōu)于獨立的MSCKF和CVI
    的頭像 發(fā)表于 09-30 14:45 ?895次閱讀
    <b class='flag-5'>一種</b>完全分布式的點線協(xié)同<b class='flag-5'>視覺</b>慣性導(dǎo)航系統(tǒng)

    全景聲解碼器

    全景聲解碼器是款將音頻技術(shù)推向極致的產(chǎn)品。它不僅提供高質(zhì)量的音頻解碼,還讓用戶體驗到一種前所未有的聲音空間。無論您是想要享受音樂、觀看電影,還是沉浸于游戲世界,全景聲解碼器都能為您打
    的頭像 發(fā)表于 09-24 10:40 ?877次閱讀
    <b class='flag-5'>全景</b>聲解碼器