0. 引言
動(dòng)態(tài)環(huán)境下的SLAM系統(tǒng)一直都是一項(xiàng)具有挑戰(zhàn)的問題,基于學(xué)習(xí)的方法在動(dòng)態(tài)物體出現(xiàn)大面積遮擋時(shí)容易出現(xiàn)漏檢,而基于幾何的方法對(duì)于動(dòng)態(tài)物體的位姿估計(jì)不是那么準(zhǔn)確。在2022 IEEE RA-L論文"DynaVINS: A Visual-Inertial SLAM for Dynamic Environments"中,作者提出了一種動(dòng)態(tài)環(huán)境下的VINS系統(tǒng),筆者認(rèn)為最大的創(chuàng)新在于解決了臨時(shí)靜態(tài)對(duì)象引起的假陽性回環(huán)問題。
2. 摘要
視覺慣性里程計(jì)和SLAM算法廣泛應(yīng)用于各種領(lǐng)域,如服務(wù)機(jī)器人、無人機(jī)和自主車輛。大多數(shù)SLAM算法都是基于靜態(tài)環(huán)境假設(shè)。然而,在現(xiàn)實(shí)世界中,存在各種動(dòng)態(tài)對(duì)象,并且它們降低了姿態(tài)估計(jì)精度。此外,暫時(shí)靜止的對(duì)象(在觀察期間是靜止的,但當(dāng)它們離開視線時(shí)會(huì)移動(dòng))會(huì)觸發(fā)錯(cuò)誤的回環(huán)檢測。為了克服這些問題,我們提出了一種新的視覺慣性SLAM框架,稱為DynaVINS,它對(duì)動(dòng)態(tài)對(duì)象和暫時(shí)靜態(tài)對(duì)象都具有魯棒性。
在我們的框架中,我們首先提出了一種魯棒的BA,它可以通過利用IMU預(yù)積分估計(jì)的姿態(tài)先驗(yàn)來拒絕來自動(dòng)態(tài)對(duì)象的特征。然后,提出了關(guān)鍵幀分組和基于多重假設(shè)的約束分組方法,以減少暫時(shí)靜止物體對(duì)回環(huán)的影響。隨后,我們在包含大量動(dòng)態(tài)對(duì)象的公共數(shù)據(jù)集中評(píng)估了我們的方法。最后,實(shí)驗(yàn)結(jié)果證實(shí)了我們的DynaVINS通過成功地拒絕動(dòng)態(tài)和暫時(shí)靜態(tài)對(duì)象的影響,與其他最先進(jìn)的方法相比具有良好的性能。
3. 算法分析
如圖1所示是作者提出的Dyna-VINS的整體架構(gòu),算法的輸入為單目/雙目圖像和IMU信息,并進(jìn)行特征跟蹤和IMU預(yù)積分。然后,經(jīng)過魯棒BA來從動(dòng)態(tài)對(duì)象中丟棄跟蹤的特征,只有靜態(tài)對(duì)象的特征被保留。之后使用被追蹤特征的數(shù)量對(duì)關(guān)鍵幀進(jìn)行分組,并且聚類在當(dāng)前關(guān)鍵幀組中檢測到的回環(huán)假設(shè)。最后在選擇性優(yōu)化中使用或拒絕具有權(quán)重的每個(gè)假設(shè),最終獲得面向動(dòng)態(tài)和暫時(shí)靜態(tài)對(duì)象魯棒的軌跡。

圖1 Dyna-VINS架構(gòu)總覽
綜上所述,作者所做工作的主要貢獻(xiàn)如下:
(1) 提出了魯棒的VI-SLAM方法來處理主要的、未定義的動(dòng)態(tài)對(duì)象,這些對(duì)象不能僅通過基于學(xué)習(xí)或僅視覺的方法來解決。
(2) 提出了一種新的BA算法,用于同時(shí)估計(jì)相機(jī)姿態(tài)和丟棄動(dòng)態(tài)對(duì)象中明顯偏離運(yùn)動(dòng)先驗(yàn)的特征。
(3) 提出了一種魯棒的全局優(yōu)化方法,將約束分組為多個(gè)假設(shè),以拒絕來自暫時(shí)靜態(tài)對(duì)象的回環(huán)。
3.1 應(yīng)用場景
圖2所示是Dyna-VINS應(yīng)用的主要場景。圖2(a)和圖2(b)是城市環(huán)境中遇到大面積遮擋的情況,這種情況下深度學(xué)習(xí)方法可能會(huì)出現(xiàn)漏檢。圖2(c)是作者自建的臨時(shí)靜態(tài)物體場景,如果一個(gè)物體當(dāng)前被觀測的時(shí)刻是靜止的,但后期發(fā)生移動(dòng)的話,傳統(tǒng)的基于幾何的SLAM算法會(huì)發(fā)生假陽性回環(huán)。

圖2 主要測試的動(dòng)態(tài)環(huán)境 (a)--(b) VIODE數(shù)據(jù)集的city_day序列,包含大量遮擋;(c) 自建數(shù)據(jù)集,包含暫時(shí)靜態(tài)的對(duì)象
3.2 魯棒BA
因?yàn)镠uber損失并不完全拒絕異常值的殘差,所以一旦外點(diǎn)比例增加,傳統(tǒng)的Huber損失就容易失效。因此作者提出的BA方法由兩部分組成:a)利用IMU預(yù)積分的正則化因子,b)考慮每個(gè)權(quán)重的前一狀態(tài)的動(dòng)量因子。作者所提出的魯棒BA的流程如圖3所示。

圖3 魯棒BA框架,每個(gè)特征都有一個(gè)權(quán)重用于視覺殘差,每個(gè)權(quán)重通過正則化因子和權(quán)重動(dòng)量因子進(jìn)行優(yōu)化
3.3 關(guān)鍵幀分組
在傳統(tǒng)方法的回環(huán)檢測中,面對(duì)臨時(shí)靜止的物體,假陽性閉環(huán)可能導(dǎo)致SLAM框架的失敗。此外,來自臨時(shí)靜態(tài)對(duì)象的特征和來自靜態(tài)對(duì)象的特征可能存在于同一個(gè)關(guān)鍵幀中。因此,在DynaVINS中,作者使用了關(guān)鍵幀分組的概念:來自相同特征的回環(huán)被分組,即使它們來自不同的關(guān)鍵幀。因此,每個(gè)組只使用一個(gè)權(quán)重,從而實(shí)現(xiàn)更快的優(yōu)化。
如圖4(a)所示,在對(duì)回環(huán)進(jìn)行分組之前,必須對(duì)共享最少數(shù)量跟蹤特征的相鄰關(guān)鍵幀進(jìn)行分組。從第i個(gè)相機(jī)幀Ci開始的組定義為:

α表示跟蹤的最小特征數(shù),F(xiàn)ki表示從Ci跟蹤到Ck的特征集合。
之后。使用DBoW2識(shí)別與當(dāng)前組Gi中的每個(gè)關(guān)鍵幀Ck相似的關(guān)鍵幀Cm,如果沒有相似關(guān)鍵幀,則跳過Ck。在識(shí)別出k最多3個(gè)不同的m后,在Ck和這些關(guān)鍵幀之間進(jìn)行特征匹配,可以得到相對(duì)位姿T。如果用于匹配的特征來自同一對(duì)象,即使匹配的Ck和Cm不同,匹配的估計(jì)位姿也會(huì)位于彼此接近的位置。因此,通過計(jì)算回環(huán)位姿之間的歐氏距離,可以將歐氏距離較小的相似閉環(huán)進(jìn)行聚類,結(jié)果如圖4(c)所示。根據(jù)所選的回環(huán)集群,圖形優(yōu)化的軌跡結(jié)果有所不同。

圖4 多假設(shè)聚類的過程 (a)對(duì)共享所跟蹤功能的最少數(shù)量的關(guān)鍵幀進(jìn)行分組 (b) 用于匹配的特征有兩類:靜態(tài)特征和臨時(shí)靜態(tài)特征 (c) 臨時(shí)靜態(tài)特征從前一位置移動(dòng)
4. 實(shí)驗(yàn)結(jié)果
作者分別比較了DynaVINS與VINS-Fusion、ORB-SLAM3、DynaSLAM。每種算法都在單目慣性(-M-I)和雙目慣性(-S-I)模式下進(jìn)行測試,由于DynaSLAM沒有使用IMU,因此只在雙目(-S)模式下進(jìn)行進(jìn)行。評(píng)估在VIODE數(shù)據(jù)集上進(jìn)行,該數(shù)據(jù)集中存在一些大面積遮擋的數(shù)據(jù)。但由于VIODE數(shù)據(jù)集不包含由臨時(shí)靜態(tài)對(duì)象引起的錯(cuò)誤回環(huán)情況,因此作者建立了自己的數(shù)據(jù)集,包括4個(gè)序列。
4.1 VIODE數(shù)據(jù)集
表1所示是關(guān)于BA時(shí)間成本和準(zhǔn)確性的分析,結(jié)果顯示僅使用正則化因子比VINS-Fusion有更好的ATE,但是加上動(dòng)量因子以后,ATE進(jìn)一步降低,還減少了所需要更少的時(shí)間。
表1 在VIODE數(shù)據(jù)集的parking_lot high序列中的消融實(shí)驗(yàn)

如表2和圖5所示,目前的SOTA方法在靜態(tài)環(huán)境中有精確的姿態(tài)估計(jì)結(jié)果,但在動(dòng)態(tài)環(huán)境中性能變差。尤其是隨著動(dòng)態(tài)對(duì)象數(shù)量的增加,DynaSLAM會(huì)發(fā)散或輸出較大的ATE。ORB-SLAM3和VINS-Fusion也有同樣的問題。作者認(rèn)為這種性能下降是由于整體遮擋,導(dǎo)致語義分割模塊的失敗和靜態(tài)對(duì)象特征的缺失。
表2 動(dòng)態(tài)環(huán)境下的SOTA方法對(duì)比

?

圖5 在VIODE數(shù)據(jù)集的city_day序列上測試的SOTA算法
在如圖6所示的停車場序列中,即使其他算法受到動(dòng)態(tài)對(duì)象的影響,DynaVINS也能執(zhí)行穩(wěn)定的姿態(tài)估計(jì)。即使動(dòng)態(tài)對(duì)象的數(shù)量增加,與其他方法相比DynaVINS性能下降仍然很小,這是因?yàn)镈ynaVINS提出了一個(gè)魯棒的BA方法,表3也定量得驗(yàn)證了這一結(jié)論。實(shí)際上,這種方法是通過以自適應(yīng)的方式調(diào)整權(quán)重來濾除所有動(dòng)態(tài)特征。

圖6 在VIODE數(shù)據(jù)集parking_lot high序列上的定性結(jié)果 (a) 3D特征圖中每個(gè)算法的軌跡,低權(quán)重的特征用紅色表示。(b) (a)的放大圖,其他算法在觀察動(dòng)態(tài)對(duì)象時(shí)丟失軌跡或具有噪聲軌跡 (c) 特征加權(quán)結(jié)果中,來自動(dòng)態(tài)對(duì)象的特征(紅叉)具有低權(quán)重,而魯棒特征(綠圈)具有高權(quán)重
表3 性能降低比例的對(duì)比

此外,作者提出的BA方法通過拒絕不一致的特征(例如圖6(c)中黑暗區(qū)域的低權(quán)重特征)來實(shí)現(xiàn)對(duì)光照變化的魯棒性。因此,與其他SOTA方法相比,DynaVINS在城市夜晚場景中表現(xiàn)出顯著的性能,其中不僅存在動(dòng)態(tài)物體,而且缺乏光照。
4.2 自建數(shù)據(jù)集
如表2所示,在靜態(tài)場景中所有算法的ATE均較低。但在動(dòng)態(tài)跟隨場景中,其他算法試圖跟蹤遮擋物體,BA和回環(huán)會(huì)出現(xiàn)問題。因此,除了DynaVINS外,其他算法都有較高的ATE。此外,在臨時(shí)靜態(tài)物體環(huán)境中,ORB3和VINS-Fusion的雙目慣性模型可以正常運(yùn)行,但單目慣性模式下由于深度估計(jì)不準(zhǔn)確,出現(xiàn)了假陽性的閉環(huán)。
如圖7所示,在E-shape情況下,由于存在假陽性閉環(huán)其他算法無法優(yōu)化軌跡。然而,但DynaVINS優(yōu)化了每個(gè)假設(shè)的權(quán)重,因此可以在優(yōu)化中排除假陽性的回環(huán)。

圖7 E形序列的算法軌跡結(jié)果,由于假陽性回環(huán),其他算法是不準(zhǔn)確的。
5. 結(jié)論
在2022 IEEE RA-L論文"DynaVINS: A Visual-Inertial SLAM for Dynamic Environments"中,作者提出了DynaVINS,這是一個(gè)基于動(dòng)態(tài)環(huán)境中的魯棒BA和選擇性全局優(yōu)化的魯棒VI-SLAM框架。作者在VIODE數(shù)據(jù)集和自建數(shù)據(jù)集上分別對(duì)動(dòng)態(tài)物體和臨時(shí)靜態(tài)物體進(jìn)行了分析,結(jié)果顯示DynaVINS性能在動(dòng)態(tài)環(huán)境中比其他基于幾何的算法工作得更好。此外作者提出,他們后續(xù)的工作是提高速度和性能,并將在激光-視覺-慣性SLAM框架中采用DynaVINS的概念。
編輯:黃飛
?
電子發(fā)燒友App






評(píng)論