又大又爽的免费视频,老鸭窝laoyawo国产毛片在线

0. 引言

雖然近年來無監(jiān)督單目深度學(xué)習(xí)取得了很大的進(jìn)展，但仍然存在一些基本問題。首先，目前的方法存在尺度模糊性問題，因?yàn)榉赐七^程對(duì)于深度和平移來說相當(dāng)于任意尺度因子。其次，光度誤差對(duì)照明變化和移動(dòng)物體敏感。此外，盡管在無監(jiān)督學(xué)習(xí)框架下已經(jīng)為光度誤差圖引入了不確定性，但自我運(yùn)動(dòng)的不確定性度量仍然是重要的。在2022 ECCV論文"Towards Scale-Aware, Robust, and Generalizable Unsupervised Monocular Depth Estimation by Integrating IMU Motion Dynamics"，作者提出了一種感知框架，通過集成視覺和IMU來進(jìn)行真實(shí)尺度估計(jì)，算法已經(jīng)開源。

1. 論文信息

2. 摘要

近年來，無監(jiān)督單目深度和自我運(yùn)動(dòng)估計(jì)引起了廣泛的研究關(guān)注。盡管當(dāng)前的方法已經(jīng)達(dá)到了很高的尺度精度，但是由于利用單目序列進(jìn)行訓(xùn)練所固有的尺度模糊性，它們通常不能學(xué)習(xí)真實(shí)的尺度度量。在這項(xiàng)工作中，我們解決了這個(gè)問題，并提出了DynaDepth，一種新的尺度感知框架，集成了視覺和IMU運(yùn)動(dòng)動(dòng)力學(xué)的信息。

具體來說，我們首先提出了IMU光度損失和跨傳感器光度一致性損失，以提供稠密的監(jiān)督和絕對(duì)尺度。為了充分利用來自兩個(gè)傳感器的互補(bǔ)信息，我們進(jìn)一步驅(qū)動(dòng)一個(gè)可微分的以相機(jī)為中心的擴(kuò)展卡爾曼濾波器(EKF)，以在觀察視覺測(cè)量時(shí)更新IMU預(yù)積分。

此外，EKF公式使得能夠?qū)W習(xí)自我運(yùn)動(dòng)不確定性測(cè)量，這對(duì)于無監(jiān)督的方法來說不是微不足道的。通過在訓(xùn)練過程中利用IMU，DynaDepth不僅學(xué)習(xí)了絕對(duì)尺度，還提供了更好的泛化能力和對(duì)光照變化和移動(dòng)物體等視覺退化的魯棒性。我們通過在KITTI和Make3D數(shù)據(jù)集上進(jìn)行大量實(shí)驗(yàn)和仿真，驗(yàn)證了DynaDepth的有效性。

3. 算法分析

如圖1所示是作者提出的單目尺度感知深度估計(jì)和自我運(yùn)動(dòng)預(yù)測(cè)方法DynaDepth的概述，該系統(tǒng)在以相機(jī)為中心的擴(kuò)展卡爾曼濾波器(EKF)框架下，將IMU運(yùn)動(dòng)動(dòng)力學(xué)顯式集成到基于視覺的系統(tǒng)中。DynaDepth旨在聯(lián)合訓(xùn)練尺度感知深度網(wǎng)絡(luò)Md，以及融合IMU和相機(jī)信息的自我運(yùn)動(dòng)網(wǎng)絡(luò)Mp。

圖1 DynaDepth概述

DynaDepth通過使用IMU的估計(jì)運(yùn)動(dòng)執(zhí)行反向操作，來構(gòu)建尺度感知的IMU光度損失，并使用基于外觀的光度損失。為了校正由光照變化和運(yùn)動(dòng)物體引起的誤差，作者進(jìn)一步提出了跨傳感器光度一致性損失，分別使用網(wǎng)絡(luò)預(yù)測(cè)和IMU集成自我運(yùn)動(dòng)的合成目標(biāo)視圖。

與積累來自初始幀的重力和速度估計(jì)的經(jīng)典VIO-SLAM系統(tǒng)不同，對(duì)于無監(jiān)督深度估計(jì)方法，這兩個(gè)度量是未知的。為了解決這個(gè)問題，DynaDepth訓(xùn)練兩個(gè)超輕型網(wǎng)絡(luò)，這兩個(gè)網(wǎng)絡(luò)將兩個(gè)連續(xù)幀作為輸入，并在訓(xùn)練期間預(yù)測(cè)以相機(jī)為中心的重力和速度。

考慮到IMU和相機(jī)提供兩種互補(bǔ)的獨(dú)立傳感模式，作者進(jìn)一步為DynaDepth導(dǎo)出了一個(gè)可區(qū)分的以相機(jī)為中心的EKF框架，以充分利用這兩種傳感器。當(dāng)從相機(jī)觀察新的自我運(yùn)動(dòng)預(yù)測(cè)時(shí)，DynaDepth根據(jù)IMU誤差狀態(tài)和視覺預(yù)測(cè)的協(xié)方差更新IMU預(yù)積分。

這樣一方面可以通過視覺來糾正IMU噪聲偏差，另一方面還提供了一種學(xué)習(xí)預(yù)測(cè)自我運(yùn)動(dòng)的不確定性測(cè)量的方式，這對(duì)于最近出現(xiàn)的將深度學(xué)習(xí)納入經(jīng)典SLAM系統(tǒng)以實(shí)現(xiàn)學(xué)習(xí)、幾何和優(yōu)化的協(xié)同作用的研究方法是有益的。

綜上所述，作者所做工作的主要貢獻(xiàn)如下：

(1) 提出了IMU光度損失和交叉?zhèn)鞲衅鞴舛纫恢滦該p失，以提供稠密的監(jiān)督和絕對(duì)尺度；

(2) 為傳感器融合推導(dǎo)了一個(gè)可微分的以相機(jī)為中心的EKF框架；

(3) 通過在KITTI和Make3D數(shù)據(jù)集上的大量實(shí)驗(yàn)和仿真證明了DynaDepth有利于：<1>絕對(duì)尺度的學(xué)習(xí)；<2>泛化能力；<3>對(duì)諸如照明變化和移動(dòng)物體的視覺退化的魯棒性；<4>自我運(yùn)動(dòng)不確定性度量的學(xué)習(xí)。

3.1 IMU光度損失

如果直接將訓(xùn)練損失寫為IMU預(yù)積分項(xiàng)上的殘差，那么就只能為自我運(yùn)動(dòng)網(wǎng)絡(luò)提供稀疏的監(jiān)督，作者提出了一種IMU光度損失：

其中K和N是相機(jī)的固有特性，yi和zi是圖像中的像素坐標(biāo)系以及由Md預(yù)測(cè)的深度，I(yi)是yi處的像素強(qiáng)度，ψ()表示深度歸一化函數(shù)，SSIM()表示結(jié)構(gòu)相似性索引。

3.2 交叉?zhèn)鞲衅鞴舛纫恢滦該p失

作者進(jìn)一步提出跨傳感器光度一致性損失來對(duì)齊IMU預(yù)積分和Mp的自我運(yùn)動(dòng)，而不是直接比較。對(duì)于自我運(yùn)動(dòng)，作者使用反向圖像之間的光度誤差，這為Md和Mp提供了更密集的監(jiān)督信號(hào):

此外，DynaDepth中的總訓(xùn)練損失Ltotal還包括基于視覺的光度損失Lvis、平滑度損失Ls以及弱L2范數(shù)損失Lvg：

3.3 以相機(jī)為中心的EKF融合框架

為了充分利用互補(bǔ)的IMU和相機(jī)，作者提出了一個(gè)以相機(jī)為中心的EKF框架。與之前將EKF集成到基于深度學(xué)習(xí)的框架中以處理IMU數(shù)據(jù)的方法不同，DynaDepth不需要真實(shí)的自我運(yùn)動(dòng)和速度來獲得每個(gè)IMU幀的對(duì)齊速度和重力，而是提出{Mv，Mg}來預(yù)測(cè)。在論文中，作者推導(dǎo)了該EKF的傳播和更新過程。

EKF傳播：設(shè)ck表示時(shí)刻tk的相機(jī)幀，bt表示tk到tk+1之間的IMU幀，誤差狀態(tài)為：

EKF利用一階泰勒近似將狀態(tài)轉(zhuǎn)移模型在每個(gè)時(shí)間步線性化進(jìn)行傳播，誤差狀態(tài)的連續(xù)時(shí)間傳播模型為：δx*bt = Fδxbt + Gn，其中F和G為：

EKF更新公式為：

DynaDepth將觀測(cè)量定義為Mp預(yù)測(cè)的自我運(yùn)動(dòng)，為了完成以相機(jī)為中心的EKF更新步驟，可推導(dǎo)h和H為：

4. 實(shí)驗(yàn)

作者評(píng)估了DynaDepth在KITTI上的有效性，以及在Make3D上的泛化能力。此外，作者對(duì)IMU損耗、EKF框架、學(xué)習(xí)到的自我運(yùn)動(dòng)不確定性以及對(duì)光照變化和移動(dòng)物體的魯棒性進(jìn)行了消融實(shí)驗(yàn)。在具體試驗(yàn)階段，損失函數(shù)的四個(gè)權(quán)重依次為0.001，0.5，0.01，0.001，初始學(xué)習(xí)率為1e-4，在一個(gè)NVIDIA V100 GPU上訓(xùn)練了30輪。

4.1 KITTI上的尺度感知深度估計(jì)

如表1所示是將DynaDepth與最新的單目深度估計(jì)方法進(jìn)行比較的結(jié)果，作者為了公平比較只給出了圖像分辨率為640x192和尺寸適中的編碼器所取得的結(jié)果，即ResNet18(R18)和ResNet50(R50)。

表1 對(duì)KITTI進(jìn)行的每張圖像的重定標(biāo)深度評(píng)估

除了標(biāo)準(zhǔn)的深度評(píng)價(jià)指標(biāo)之外，作者還報(bào)告了重尺度因子的均值和標(biāo)準(zhǔn)誤差來證明尺度感知能力。值得注意的是DynaDepth達(dá)到了一個(gè)近乎完美的絕對(duì)尺度，在尺度感知方面甚至R18版本也優(yōu)于G2S R50 ，而后者使用了更重的編碼器。

如表2所示是對(duì)比結(jié)果，并與利用GPS信息構(gòu)造速度約束的PackNet-SfM和G2S進(jìn)行了比較。在這種情況下，DynaDepth實(shí)現(xiàn)了所有度量指標(biāo)的最佳性能，為單目方法的非尺度深度評(píng)估設(shè)定了一個(gè)新的基準(zhǔn)。為了更好的說明，圖1(b)給出了包含IMU和不包含IMU的比例直方圖。

表2 在KITTI進(jìn)行深度評(píng)估結(jié)果

4.2 Make3D上的泛化

作者利用KITTI上訓(xùn)練的模型進(jìn)一步檢驗(yàn)DynaDepth在Make3D上的泛化能力，圖1(c)給出了一個(gè)定性示例，其中沒有IMU的模型在玻璃和陰影區(qū)域失效，而DynaDepth實(shí)現(xiàn)了可區(qū)分的預(yù)測(cè)。定量結(jié)果如表3所示，DynaDepth取得了相當(dāng)好的尺度比例，表明DynaDepth學(xué)習(xí)的尺度能力可以很好地推廣到不可觀測(cè)的數(shù)據(jù)集。

此外，僅利用陀螺儀和加速度計(jì)IMU信息的DynaDepth取得了最好的泛化效果。作者解釋了可能的原因：首先，由于建模能力的提高，完整模型可能會(huì)過擬合KITTI數(shù)據(jù)集。第二，因?yàn)镸v和Mg都以圖像作為輸入，性能退化可能是由于視覺數(shù)據(jù)的域間隙造成的，這也解釋了這種情況下G2S的尺度損失。

此外，實(shí)驗(yàn)也表明EKF有明顯的提高泛化能力，可能是因?yàn)镋KF融合框架考慮了不確定性，以更合理的方式融合了可泛化IMU動(dòng)力學(xué)和特定視覺信息。

表3 Make 3d上的泛化結(jié)果

4.3 消融研究

作者對(duì)KITTI進(jìn)行了消融研究，并關(guān)注IMU相關(guān)損失、EKF融合框架和學(xué)習(xí)自我運(yùn)動(dòng)不確定性對(duì)KITTI的影響，結(jié)果如表4所示。此外，還設(shè)計(jì)了模擬實(shí)驗(yàn)來驗(yàn)證DynaDepth對(duì)光照變化和運(yùn)動(dòng)物體等視覺退化的魯棒性。

表4 KITTI上IMU相關(guān)損失和EKF融合框架的消融結(jié)果

結(jié)果顯示，IMU光度損失具有重要作用。但僅用IMU光度損失學(xué)習(xí)的只是一個(gè)粗略的尺度。將IMU光度損失和交叉?zhèn)鞲衅鞴舛葥p失結(jié)合在一起，可以提高準(zhǔn)確性，Lvg的使用進(jìn)一步增強(qiáng)了評(píng)價(jià)結(jié)果。

針對(duì)光照變化和運(yùn)動(dòng)物體，這兩種情況違反了光度損失的底層假設(shè)。作者通過在0.5范圍內(nèi)隨機(jī)交替的圖像對(duì)比度來模擬光照變化，通過隨機(jī)插入三個(gè)150x150的黑色方塊來模擬運(yùn)動(dòng)物體，結(jié)果如表5所示。在光照變化下，Mono deep2的精度按預(yù)期下降，DynaDepth則在一定程度上挽救了精度，保持了正確的絕對(duì)尺度。

在這種情況下，EKF幾乎改進(jìn)了所有的度量指標(biāo)，使用EKF和Lvg在AbsRel上達(dá)到了最優(yōu)。然而，沒有Lvg的模型在大多數(shù)度量指標(biāo)上都取得了最好的性能，其原因可能是Lvg對(duì)視覺數(shù)據(jù)的依賴性，對(duì)圖像質(zhì)量更加敏感。當(dāng)存在移動(dòng)對(duì)象時(shí)，Mono deep2完全失敗，使用EKF顯著地提高了性能，但考慮到任務(wù)的難度，仍然難以學(xué)習(xí)到尺度。在這種情況下，使用Lvg顯著提供了強(qiáng)有力的規(guī)模監(jiān)管，取得了良好的規(guī)模效果。

表5 對(duì)來自KITTI的模擬數(shù)據(jù)的魯棒性消融結(jié)果

作者以平均協(xié)方差作為不確定性度量，圖2說明了自我運(yùn)動(dòng)不確定性的訓(xùn)練過程。學(xué)習(xí)的不確定性表現(xiàn)出與深度誤差(AbsRel)類似的模式，這意味著隨著訓(xùn)練的繼續(xù)，模型對(duì)其預(yù)測(cè)變得更加確定。此外，DynaDepth R50比R18具有更低的不確定性，表明更大的模型容量也有助于提高預(yù)測(cè)的可信度，但這種差異并不明顯。

圖2 訓(xùn)練過程

5. 結(jié)論

在2022 ECCV論文"Towards Scale-Aware, Robust, and Generalizable Unsupervised Monocular Depth Estimation by Integrating IMU Motion Dynamics"中，作者提出了DynaDepth，這是一個(gè)使用IMU運(yùn)動(dòng)動(dòng)力學(xué)的尺度感知、魯棒和可推廣的單目深度估計(jì)框架。具體來說，作者提出了IMU光度損失和跨傳感器光度一致性損失，以提供稠密的監(jiān)督和絕對(duì)尺度。

此外，作者為傳感器融合推導(dǎo)了一個(gè)以攝像機(jī)為中心的EKF框架，它也提供了在無監(jiān)督學(xué)習(xí)設(shè)置下的自我運(yùn)動(dòng)不確定性度量。最后作者通過實(shí)驗(yàn)證明了DynaDepth在學(xué)習(xí)絕對(duì)尺度、泛化能力和抵抗視覺退化的魯棒性方面具有優(yōu)勢(shì)。

審核編輯：彭靜

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴