本文提出了一種穩(wěn)健的單目視覺(jué)SLAM系統(tǒng),該系統(tǒng)同時(shí)利用點(diǎn)、線和消失點(diǎn)特征來(lái)進(jìn)行精確的相機(jī)位姿估計(jì)和地圖構(gòu)建,有效解決了傳統(tǒng)基于點(diǎn)特征的SLAM的局限性。
? 文章:
MonoSLAM: Robust Monocular SLAM with Global Structure Optimization
? 作者:
Bingzheng Jiang, Jiayuan Wang, Han Ding, Lijun Zhu
? 論文鏈接:
https://arxiv.org/abs/2503.09296
? 編譯:
INDEMIND
01本文核心內(nèi)容
基于視覺(jué)輸入在未知三維場(chǎng)景中進(jìn)行跟蹤和重建是機(jī)器人技術(shù)和計(jì)算機(jī)視覺(jué)中的基本任務(wù)。定位和建圖模塊的性能對(duì)機(jī)器人自主系統(tǒng)和增強(qiáng)/虛擬現(xiàn)實(shí)設(shè)備的服務(wù)質(zhì)量有著顯著影響。然而,在增量相機(jī)跟蹤過(guò)程中,這些模塊常常會(huì)受到姿態(tài)漂移的影響。為了解決這個(gè)問(wèn)題,人們提出了不同的策略。一方面,可以使用深度相機(jī)、激光雷達(dá)和慣性測(cè)量單元(IMU)等先進(jìn)傳感器來(lái)提供更可靠的信息,以增強(qiáng)同步定位與建圖(SLAM)和基于IMU的系統(tǒng)的性能。另一方面,諸如局部束調(diào)整、滑動(dòng)窗口優(yōu)化和閉環(huán)技術(shù)等算法解決方案有助于減輕漂移。這些解決方案的核心優(yōu)化理論在于探索利用視覺(jué)重疊來(lái)構(gòu)建共視因子圖以進(jìn)行優(yōu)化。但對(duì)于在設(shè)備中廣泛使用的經(jīng)濟(jì)實(shí)惠的單目傳感器而言,可用于跟蹤的共視特征有限。因此,該領(lǐng)域仍存在一個(gè)關(guān)鍵挑戰(zhàn):如何捕捉和利用從單目輸入中獲取更多全局信息以提升SLAM性能。
點(diǎn)特征長(zhǎng)期以來(lái)一直是大多數(shù)視覺(jué)姿態(tài)估計(jì)系統(tǒng)的基石,這從其在多個(gè)主流方法中的廣泛應(yīng)用中可見(jiàn)一斑。盡管點(diǎn)特征廣泛存在且取得了諸多成功,但它們?cè)诰哂刑魬?zhàn)性的環(huán)境中(如室內(nèi)空間)表現(xiàn)出明顯的局限性。
在這些場(chǎng)景中,缺乏獨(dú)特且豐富的點(diǎn)特征常常阻礙SLAM系統(tǒng)的實(shí)時(shí)跟蹤能力,從而需要采用替代策略。例如,僅基于點(diǎn)的因子圖優(yōu)化的魯棒性會(huì)退化,而通過(guò)將線和平面地標(biāo)納入跟蹤和優(yōu)化模塊,可以在一定程度上增強(qiáng)其性能。平面檢測(cè)通常需要使用深度圖或卷積神經(jīng)網(wǎng)絡(luò)。相比之下,線可以從RGB圖像中輕松提取,為將信息融入視覺(jué)里程計(jì)系統(tǒng)提供了更通用且資源高效的替代方案。而在與線相關(guān)的SLAM系統(tǒng)中,最廣泛使用的線參數(shù)化方式是正交規(guī)范。算法,一種基于李群和李代數(shù)的精妙策略。
傳統(tǒng)而言,單個(gè)線段會(huì)為優(yōu)化模塊貢獻(xiàn)一個(gè)重投影因子,而一組線段則能提供更廣泛的結(jié)構(gòu)規(guī)律。確切地說(shuō),二維圖像平面上的一簇平行線段會(huì)匯聚于一個(gè)消失點(diǎn),此消失點(diǎn)可用作因子圖優(yōu)化的約束條件。通過(guò)假定一個(gè)亞特蘭大/曼哈頓世界環(huán)境,三維線地標(biāo)可被用于建立垂直和正交對(duì),有助于方向估計(jì)。一組正交消失方向向量構(gòu)建出一個(gè)曼哈頓世界結(jié)構(gòu),該假定支持視覺(jué)里程計(jì)方法中的無(wú)漂移旋轉(zhuǎn)估計(jì)策略,但在因子圖優(yōu)化模塊中,難以將此結(jié)構(gòu)作為一個(gè)基本單元進(jìn)行優(yōu)化。另外,當(dāng)從單目圖像中提取的稀疏點(diǎn)地標(biāo)檢測(cè)到三維平面時(shí),線地標(biāo)能夠提供共面性約束。然而,由三維線或消失點(diǎn)得出的重投影約束主要對(duì)調(diào)整局部區(qū)域有效,因?yàn)橐粋€(gè)三維線地標(biāo)通常僅在有限數(shù)量的幀中可見(jiàn)。雖然亞特蘭大/曼哈頓世界假定為跨幀提供了全局線索,但在復(fù)雜、無(wú)結(jié)構(gòu)的環(huán)境中面臨著重大挑戰(zhàn)。
為解決此問(wèn)題,該方法為單目輸入提出了一種新穎的SLAM架構(gòu),首先從連續(xù)圖像中探索全局且靈活的結(jié)構(gòu)基元,然后構(gòu)建新的因子圖以?xún)?yōu)化相機(jī)位姿和全局基元。與傳統(tǒng)因子相比,所提出的約束能夠在沒(méi)有視覺(jué)重疊的圖像之間構(gòu)建。
其貢獻(xiàn)可概括為:
? 一個(gè)不受環(huán)境結(jié)構(gòu)約束的高精度實(shí)時(shí)單目SLAM框架,從圖像中提取點(diǎn)特征、線特征和消失點(diǎn)特征。
? 一種基于全局基元的多幀非重疊區(qū)域圖像關(guān)聯(lián)策略。
? 一種結(jié)合全局基元以實(shí)現(xiàn)高精度位姿估計(jì)的有效因子圖優(yōu)化。
02方法架構(gòu)
如圖2所示,該系統(tǒng)包含前端和后端模塊。在前端,我們介紹了點(diǎn)、線和消失點(diǎn)的檢測(cè)方法。然后,在后端,第一部分是一種新的關(guān)聯(lián)策略,一方面利用點(diǎn)和線生成3D地標(biāo),即在地圖中收集的局部基元(LP),另一方面,在關(guān)聯(lián)過(guò)程中提供一種生成全局基元(GP)結(jié)構(gòu)信息的新策略。在檢測(cè)到局部和全局基元之后,后端的第二部分構(gòu)建了一個(gè)穩(wěn)健的因子圖優(yōu)化算法,用于精確的相機(jī)位姿估計(jì)。
03實(shí)驗(yàn)結(jié)果
A.實(shí)現(xiàn)細(xì)節(jié)
為評(píng)估所提出的系統(tǒng),在本節(jié)中使用公共數(shù)據(jù)集來(lái)驗(yàn)證最先進(jìn)的方法和我們的方法。所有評(píng)估均在配備英特爾酷睿i9-285KCPU的筆記本電腦上進(jìn)行,以確保所有實(shí)驗(yàn)結(jié)果的一致性和可重復(fù)性。
B.基線、指標(biāo)和數(shù)據(jù)集
我們通過(guò)與最先進(jìn)的單目SLAM系統(tǒng)進(jìn)行比較來(lái)評(píng)估我們系統(tǒng)的映射精度。為了驗(yàn)證我們提出的線段和消失點(diǎn)處理流程的效率,我們從ICL-NUIM數(shù)據(jù)集中選取了結(jié)構(gòu)化圖像序列,該數(shù)據(jù)集提供了低對(duì)比度和低紋理的合成室內(nèi)序列,這對(duì)單目SLAM來(lái)說(shuō)尤其具有挑戰(zhàn)性。均方根誤差(RMSE)被用作主要指標(biāo),使用evo工具包進(jìn)行計(jì)算。序列l(wèi)r和of分別代表ICL-NUIM數(shù)據(jù)集中的客廳和辦公室場(chǎng)景。
我們?cè)贗CL-NUIM數(shù)據(jù)集上與六個(gè)最先進(jìn)的系統(tǒng)進(jìn)行了比較,分別是GeoNet、LPVO、CNN-SLAM、LSD-SLAM、Structure-SLAM和ORB-SLAM3。GeoNet利用幾何和光度一致性來(lái)提高位姿估計(jì)的準(zhǔn)確性,特別是在動(dòng)態(tài)環(huán)境中,而CNN-SLAM和Structure-SLAM分別將基于神經(jīng)網(wǎng)絡(luò)的深度預(yù)測(cè)和法線圖集成到跟蹤模塊中。LPVO通過(guò)優(yōu)化現(xiàn)代硬件上的并行計(jì)算來(lái)實(shí)現(xiàn)高效和實(shí)時(shí)的性能,LSD-SLAM則采用直接方法進(jìn)行實(shí)時(shí)密集映射,無(wú)需特征提取。ORB-SLAM3是一個(gè)支持單目、立體和RGB-D相機(jī)的基于特征的SLAM系統(tǒng),具備閉環(huán)、重定位和地圖重用功能。此外,我們還在EuRoC數(shù)據(jù)集上評(píng)估了我們的方法,該數(shù)據(jù)集是視覺(jué)SLAM的廣泛使用的基準(zhǔn)。對(duì)于此次比較,我們重點(diǎn)關(guān)注能夠利用多種類(lèi)型特征(包括點(diǎn)、線和消失點(diǎn)特征)的系統(tǒng)。在該數(shù)據(jù)集上測(cè)試的選定基線系統(tǒng)為PL-SLAM、UV-SLAM、Struct-VIO、PLF-VINS、Structure-PLP-SLAM以及AirVIO。前兩個(gè)系統(tǒng)利用LBD描述符來(lái)利用線特征,而Struct-VIO通過(guò)沿線采樣點(diǎn)來(lái)跟蹤線特征。Structure-PLP-SLAM結(jié)合了點(diǎn)、線和平面以增強(qiáng)魯棒性。PLF-VINS和AirVIO在緊密耦合的視覺(jué)慣性框架內(nèi)整合視覺(jué)特征。
C. ICL-NUIM和EuRoC數(shù)據(jù)集上的對(duì)比
全局基元在單目SLAM中的有效性。ICL-NUIM數(shù)據(jù)集由于其低對(duì)比度、低紋理的序列,為單目SLAM提供了一個(gè)具有挑戰(zhàn)性的測(cè)試平臺(tái)。如表I所示,我們的方法在6個(gè)序列中的4個(gè)上取得了最佳結(jié)果,優(yōu)于LSD-SLAM、CNN-SLAM、LPVO、GeoNet、Structure-SLAM和ORB-SLAM3等先進(jìn)系統(tǒng)。這證明了我們的方法在處理傳統(tǒng)基于點(diǎn)的方法經(jīng)常失敗的環(huán)境中的魯棒性。線段和消失點(diǎn)的集成,結(jié)合設(shè)計(jì)良好的重投影誤差,顯著提高了姿態(tài)估計(jì)的精度和可靠性。
為了進(jìn)一步驗(yàn)證,我們?cè)贓uRoC數(shù)據(jù)集上評(píng)估了我們的方法,該數(shù)據(jù)集包含復(fù)雜和動(dòng)態(tài)的室內(nèi)序列。如表II所示,我們的方法始終優(yōu)于其他先進(jìn)系統(tǒng),包括PLSLAM、UV-SLAM、Struct-VIO、PLF-VINS、Structure-PLPSLAM和AirVIO。值得注意的是,我們的系統(tǒng)在5個(gè)序列中的4個(gè)上取得了最佳結(jié)果,平均平移誤差比第二優(yōu)系統(tǒng)PL-SLAM低12.7%。這一改進(jìn)突顯了將消失點(diǎn)與點(diǎn)和線特征集成的有效性,這增強(qiáng)了系統(tǒng)利用結(jié)構(gòu)規(guī)律性并提高整體精度的能力。
我們方法的卓越性能可歸因于以下因素:
穩(wěn)健的特征集成:通過(guò)結(jié)合點(diǎn)、線和消失點(diǎn)特征,我們的系統(tǒng)利用多種幾何線索,在低紋理和動(dòng)態(tài)環(huán)境中提高了魯棒性。
設(shè)計(jì)良好的重投影誤差:我們精心設(shè)計(jì)的誤差公式確保了特別是對(duì)于線段和消失點(diǎn)的準(zhǔn)確和穩(wěn)定的優(yōu)化。
結(jié)構(gòu)規(guī)律性的利用:消失點(diǎn)的引入使我們的系統(tǒng)能夠利用環(huán)境中的結(jié)構(gòu)規(guī)律性,提高了結(jié)構(gòu)化室內(nèi)場(chǎng)景中的姿態(tài)估計(jì)精度。
這些結(jié)果突顯了我們方法的顯著優(yōu)勢(shì),證明了其在推進(jìn)單目SLAM系統(tǒng)技術(shù)前沿方面的潛力,特別是在具有挑戰(zhàn)性和結(jié)構(gòu)化的環(huán)境中。
圖3提供了我們的單目SLAM系統(tǒng)與ORB-SLAM3在ICL-NUIM數(shù)據(jù)集上跟蹤性能的全面比較。如圖所示,我們的系統(tǒng)表現(xiàn)出更優(yōu)的性能,在各種場(chǎng)景中實(shí)現(xiàn)了顯著更高的跟蹤精度。這種改進(jìn)歸因于我們方法增強(qiáng)的魯棒性,特別是在具有挑戰(zhàn)性的環(huán)境中。相比之下,ORB-SLAM3僅依賴(lài)點(diǎn)特征進(jìn)行跟蹤,在數(shù)據(jù)集的低紋理區(qū)域容易發(fā)生跟蹤失敗和尺度漂移。這些區(qū)域中點(diǎn)特征的不足嚴(yán)重影響了其穩(wěn)定性和可靠性,突顯了僅基于點(diǎn)特征的框架的局限性。另一方面,我們的系統(tǒng)利用額外的幾何約束和特征類(lèi)型,即使在紋理貧乏的場(chǎng)景中也能確保一致的性能。這種比較分析,凸顯了我們的設(shè)計(jì)在解決傳統(tǒng)基于點(diǎn)特征的SLAM系統(tǒng)局限性方面的有效性。
04總結(jié)
我們提出了一種基于點(diǎn)、線和消失點(diǎn)特征的單目SLAM系統(tǒng),該系統(tǒng)利用全局特征來(lái)關(guān)聯(lián)多幀非重疊圖像,并采用了一種新穎的因子圖優(yōu)化方法。我們的系統(tǒng)達(dá)到了最先進(jìn)的性能。我們已經(jīng)證明,從單張RGB圖像中提取的消失點(diǎn)能夠顯著提高位姿估計(jì)的準(zhǔn)確性,且無(wú)需依賴(lài)環(huán)境假設(shè)。與其他先進(jìn)的實(shí)時(shí)單目SLAM方法相比,在沒(méi)有慣性測(cè)量單元(IMU)數(shù)據(jù)的情況下,我們的方法在高動(dòng)態(tài)運(yùn)動(dòng)(例如快速加速或減速)下難以保持高穩(wěn)定性。未來(lái),可以探索整合IMU信息以進(jìn)一步優(yōu)化相機(jī)位姿估計(jì)。
-
傳感器
+關(guān)注
關(guān)注
2566文章
53008瀏覽量
767571 -
機(jī)器人
+關(guān)注
關(guān)注
213文章
29748瀏覽量
212946 -
相機(jī)
+關(guān)注
關(guān)注
4文章
1468瀏覽量
54695 -
SLAM
+關(guān)注
關(guān)注
24文章
441瀏覽量
32506
原文標(biāo)題:低紋理環(huán)境下也能高精度定位與建圖!融合點(diǎn)、線與消失點(diǎn)特征的穩(wěn)健單目SLAM-MonoSLAM
文章出處:【微信號(hào):gh_c87a2bc99401,微信公眾號(hào):INDEMIND】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
基于圖的SLAM點(diǎn)稀疏化方法
一種網(wǎng)格狀電源線的布置方法
SLAM技術(shù)的應(yīng)用及發(fā)展現(xiàn)狀
HOOFR-SLAM的系統(tǒng)框架及其特征提取
單目視覺(jué)SLAM仿真系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
一種快速的公交專(zhuān)用車(chē)道檢測(cè)方法

一種去冗余的SIFT特征提取方法

機(jī)器人SLAM實(shí)現(xiàn)
一種適用于動(dòng)態(tài)場(chǎng)景的SLAM方法

基于概率運(yùn)動(dòng)統(tǒng)計(jì)特征匹配的單目視覺(jué)SLAM算法
分享一種基于深度圖像梯度的線特征提取算法download
密集單目SLAM的概率體積融合概述
一種基于直接法的動(dòng)態(tài)稠密SLAM方案
一種融合語(yǔ)義不變量的點(diǎn)線立體SLAM系統(tǒng)

評(píng)論