無需相機內(nèi)參、極致輕量的前端(前端模型大小僅為同類35%),實時單目視覺SLAM,ViSTA-SLAM。與現(xiàn)有方法相比,ViSTA-SLAM不僅更輕、更快,在相機跟蹤和密集3D重建質(zhì)量方面也均表現(xiàn)出色。
? 文章:
ViSTA-SLAM: Visual SLAM with Symmetric Two-view Association
? 作者:
Ganlin Zhang, Shenhan Qian, Xi Wang, Daniel Cremers
? 論文鏈接:
https://arxiv.org/abs/2509.01584
? 編譯:
INDEMIND
Github倉庫:
https://github.com/zhangganlin/vista-slam
01本文核心內(nèi)容
經(jīng)典視覺SLAM方法大致可分為兩類,第一類是基于特征的SLAM;第二類稱為直接法。這兩類方法通常都采用前端(基于特征或直接法)和后端進行優(yōu)化,最常見的是聯(lián)合優(yōu)化位姿和結(jié)構(gòu)的光束平差法。然而,它們都嚴重依賴于精確的相機內(nèi)參。
基于深度學習的SLAM方法雖然強大,但大多數(shù)方法仍然需要精確的相機內(nèi)參,并且由于計算量大,很多方法難以實現(xiàn)真正的實時性能。
而隨著3D基礎(chǔ)模型的出現(xiàn),出現(xiàn)了幾種無需內(nèi)參的SLAM框架,旨在無需校準即可生成密集輸出。例如,Spann3R以及其他一些方法將兩視圖的DUSt3R模型擴展到序列輸入,直接在統(tǒng)一的全局坐標系中回歸點云。然而,盡管這些方法解決了某些經(jīng)典限制,但它們?nèi)源嬖陲@著的缺陷:
當前的雙視圖模型采用不對稱架構(gòu),將兩個視圖的點圖回歸到第一個視圖的坐標,這使得在后端優(yōu)化(例如閉環(huán)檢測)中難以解耦視圖。
純回歸方法利用先前的記憶來預測即將到來的幀,但存在漂移問題,并且一旦軌跡變長就會開始遺忘。
SLAM3R等方法基于當前的雙視圖模型,繼承了具有兩個獨立解碼器的不對稱架構(gòu),導致模型規(guī)模較大。基于子地圖的方法則采用規(guī)模更大的多視圖模型來構(gòu)建子地圖,這進一步增大了前端模型的規(guī)模。
為了解決這些問題,我們提出了ViSTA-SLAM,這是一種基于對稱雙視圖關(guān)聯(lián)的新型實時單目視覺SLAM管道。其核心是一個輕量級的對稱雙視圖關(guān)聯(lián)(STA)模型前端,它以兩張RGB圖像作為輸入,同時回歸出它們各自局部坐標系中的兩個點圖,以及它們之間的相對相機姿態(tài)。在訓練過程中,我們對相對姿態(tài)施加循環(huán)一致性約束,并對點圖施加幾何一致性約束,以提高準確性和穩(wěn)定性。與之前的3D模型不同,STA對其輸入完全對稱:不指定任何視圖為參考,對兩個視圖應(yīng)用相同的編碼器-解碼器架構(gòu)。在后端,我們執(zhí)行Sim(3)姿態(tài)圖優(yōu)化,并結(jié)合閉環(huán)來減少漂移并確保全局一致性。為了進一步增強魯棒性,每個視圖都由多個節(jié)點而非單個節(jié)點表示,這些節(jié)點通過僅含尺度的邊連接,以處理不同前向傳遞中的尺度不一致。
這種對稱設(shè)計使得我們的前端比現(xiàn)有方法輕量得多,STA是我們的模型大小僅為MASt3R的64%,VGGT的35%。與先前將多個視圖組合到單個子圖節(jié)點的方法不同,我們的方法為每個視圖在位姿圖中分配單獨的節(jié)點。利用STA前端生成的局部點圖,每個節(jié)點都可以獨立表示,僅通過相對變換與其他節(jié)點相連。與基于子圖的方法相比,這種設(shè)計產(chǎn)生了更靈活的圖結(jié)構(gòu)和更強的魯棒性。這種靈活性和輕量級架構(gòu)的結(jié)合是我們選擇對稱雙視圖模型作為前端的原因。
主要貢獻如下:
? 我們設(shè)計并訓練了一個輕量級、對稱的雙視圖關(guān)聯(lián)網(wǎng)絡(luò)作為前端,僅以兩張RGB圖像作為輸入,并回歸它們在局部坐標系中的點圖以及相對相機位姿。
? 我們構(gòu)建了一個具有閉環(huán)的Sim(3)位姿圖,并使用Levenberg-Marquardt算法對其進行優(yōu)化,以實現(xiàn)快速且穩(wěn)定的收斂。
? 通過整合這些組件,我們提出了一種實時的單目密集視覺SLAM框架,無需任何相機內(nèi)參即可運行。我們的方法在真實世界的7-Scenes和TUM-RGBD數(shù)據(jù)集上實現(xiàn)了最先進的性能,無論是相機軌跡估計還是密集的3D重建。
02方法架構(gòu)
作為一個單目密集SLAM(圖2),我們的目標是使用密集點云同時在線跟蹤相機姿態(tài)并重建記錄的場景。為了實現(xiàn)這一目標,我們提出了一種輕量級且新穎的對稱兩視圖關(guān)聯(lián)模型作為我們管道的前端,該模型提取兩個相鄰輸入幀的相對姿態(tài)和局部點圖,通過優(yōu)化結(jié)合回環(huán)閉合來減少漂移累積。
對稱雙視圖關(guān)聯(lián)模型
在經(jīng)典的單目SLAM管道中,雙視圖估計是最重要的組成部分之一,因為它建立了幾何約束,從而允許進一步優(yōu)化。在本工作中,我們遵循相同的原則;然而,我們沒有依賴傳統(tǒng)方法,而是提出了一種基于深度學習的對稱雙視圖關(guān)聯(lián)(STA)模型,該模型在SLAM過程中無需相機內(nèi)參。
STA是一個深度神經(jīng)網(wǎng)絡(luò),輸入是任意兩張RGB圖像,輸出是這兩張圖之間的相對相機位姿,以及一個局部的點云地圖。
如圖3所示,以往的非對稱(Asymmetric)架構(gòu),通常需要兩個獨立的解碼器來分別預測兩張視圖在同一個共享坐標系下的點云。而ViSTA-SLAM的對稱(Symmetric)架構(gòu),則 僅用一個解碼器 來回歸局部點云圖,同時預測出相對位姿。這種設(shè)計有兩大好處:
極致輕量:由于共享了大部分網(wǎng)絡(luò)結(jié)構(gòu),并且減少了一個解碼器,其模型參數(shù)量大幅降低。作者指出,其前端模型大小僅為0.4B參數(shù),相比之前SOTA方法的0.7B,減少了超過65%。
約束更優(yōu):對稱的設(shè)計使得從(圖A, 圖B)預測的位姿,與從(圖B, 圖A)預測的位姿天然地互為逆矩陣,這為后端的位姿圖優(yōu)化提供了更規(guī)整、更優(yōu)質(zhì)的約束。
后端位姿圖優(yōu)化
前端提供了大量的、兩兩視圖間的局部運動估計。后端的目標就是將這些“碎片化”的信息拼成一幅完整的“拼圖”。
ViSTA-SLAM的后端構(gòu)建了一個 Sim(3)位姿圖。在圖中,每個相機視圖是一個節(jié)點,而由前端STA模型估計出的相對位姿則構(gòu)成了連接節(jié)點的邊。構(gòu)建這樣一個圖的好處是,可以通過圖優(yōu)化算法(如Levenberg–Marquardt)來調(diào)整所有節(jié)點的位姿,使其全局誤差最小,從而有效抑制單步估計誤差累積而產(chǎn)生的“漂移”。
后端還集成了回環(huán)閉合(Loop Closures)檢測。當系統(tǒng)檢測到相機回到了一個曾經(jīng)到過的地方時,就會在位姿圖中當前節(jié)點與歷史節(jié)點之間增加一條強力的“回環(huán)邊”(上圖中的橙色邊)。這條邊會像一個“錨”一樣,將整個軌跡拉回到正確的位置上,極大地消除累積誤差。
03實驗評估
相機軌跡評估
在表1和表2中,我們報告了ATE均方根誤差。ViSTA-SLAM在兩個數(shù)據(jù)集上均取得了最佳的平均性能,分別比當前的最先進方法MASt3R-SLAM高出17%(0.055對比0.066)和13%(0.052對比0.060),并且超越了一些校準方法,如Deep patch visual SLAM。在TUM-RGBD360場景中,ViSTA-SLAM的表現(xiàn)稍遜,這是由于主要的相機旋轉(zhuǎn)運動導致前端模糊和性能下降。其他方法如VGGT-SLAM要么采用更復雜的多視角前端,要么采用更密集的優(yōu)化來減少這種影響。純回歸方法由于存在遺忘效應(yīng),在相機運動幅度大且序列長的情況下難以保持一致的配準。
在圖5中,我們展示了在7-Scenes辦公室和TUMRGBD房間上不同方法估計的軌跡。CUT3R在長序列上存在嚴重的遺忘問題;SLAM3R在具有挑戰(zhàn)性的TUM-RGBD房間場景中點配準效果不佳,因此無法生成正確的相機位姿。與純回歸方法相比,MASt3R-SLAM和VGGT-SLAM表現(xiàn)良好,而ViSTA-SLAM則實現(xiàn)了更高的軌跡精度。
密集重建評估
在表3中,我們對各種方法的重建質(zhì)量進行了評估。
憑借精確的相機位姿和一致的局部點云,ViSTA-SLAM在所有方法中實現(xiàn)了最佳的切比雪夫距離。盡管采用了輕量級的兩視圖前端,但ViSTA-SLAM結(jié)合定制的Sim(3)位姿圖優(yōu)化,在精度(0.45對比0.52)方面顯著優(yōu)于多視圖前端方法,同時在完整性方面達到或超過了它們。
為了證明我們輕量級前端的有效性,我們添加了另一個強大的基準,用兩視圖的VGGT替換我們的STA模型作為前端,并進行相同的姿態(tài)圖優(yōu)化。ViSTA-SLAM在切比雪夫距離、完整性和絕對軌跡誤差方面仍表現(xiàn)出色,突顯了我們的輕量級對稱前端在SLAM任務(wù)中優(yōu)于像VGGT這樣的大型多視圖模型。
在圖6中,我們展示了在7-Scenes的redkitchen、TUM-RGBD房間和BundleFusion的apt1場景中的定性重建結(jié)果。CUT3R由于遺忘問題無法正確重建,而SLAM3R在相機視角變化較大的場景中表現(xiàn)不佳。MASt3R-SLAM和VGGT-SLAM在物體邊界處產(chǎn)生偽影,無法清晰區(qū)分前景和背景,并且在不同視圖之間出現(xiàn)錯位。相比之下,ViSTA-SLAM通過訓練期間的幾何一致性約束克服了這些挑戰(zhàn)。值得注意的是,VGGT-SLAM在apt1場景中途失敗,因為后端優(yōu)化發(fā)散,這源于基于RANSAC的3D單應(yīng)性估計不穩(wěn)定,可能會采樣平面區(qū)域并造成歧義。在他們提出的SL(4)姿態(tài)圖優(yōu)化中。
模型大小與速度
我們在表4中比較了各方法的前端模型大小和處理速度。由于我們的對稱設(shè)計,解碼器和回歸頭僅使用現(xiàn)有前饋模型參數(shù)的一半。因此,我們的模型更加緊湊:僅為MASt3R(用于MASt3R-SLAM)的64%,VGGT(用于VGGT-SLAM)的35%。
速度評估進一步證實了ViSTA-SLAM實現(xiàn)了實時性能。得益于緊湊的前端和稀疏的位姿圖,我們的方法在運行時間方面極具競爭力——比純回歸方法CUT3R和SLAM3R更快,與VGGT-SLAM相當。值得注意的是,VGGT-SLAM每32個關(guān)鍵幀才進行一次推理,減少了總的推理步驟。當用兩視圖的VGGT替換我們的STA模型,每次輸入兩視圖信息時,運行速度顯著變慢,這進一步證明了我們輕量級前端的有效性。表5展示了主要流水線組件所花費的運行時間百分比。解碼兩視圖信息和位姿圖優(yōu)化占據(jù)了處理時間的主導地位。
04總結(jié)
我們提出了一種新穎的單目無內(nèi)參SLAM,即ViSTA-SLAM,其前端采用輕量級的對稱兩視圖關(guān)聯(lián)模型,后端則采用具有閉環(huán)的Sim(3)位姿圖優(yōu)化。實驗結(jié)果表明,ViSTA-SLAM在相機跟蹤精度和3D重建質(zhì)量方面表現(xiàn)出色。同時,與當前最先進的方法相比,它更輕量,運行速度更快或相當。
-
相機
+關(guān)注
關(guān)注
4文章
1511瀏覽量
55181 -
模型
+關(guān)注
關(guān)注
1文章
3609瀏覽量
51411 -
SLAM
+關(guān)注
關(guān)注
24文章
448瀏覽量
32967
原文標題:更輕、更快!無需相機參數(shù),前端模型縮小65%,全新輕量級SLAM,ViSTA-SLAM
文章出處:【微信號:gh_c87a2bc99401,微信公眾號:INDEMIND】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
輕量級Agent平臺怎么測試?
輕量級的ui框架如何去制作
一種嵌入式Linux輕量級GUI系統(tǒng)設(shè)計
一種嵌入式Linux輕量級GUI系統(tǒng)設(shè)計
基于Linux的輕量級嵌入式GUI系統(tǒng)及實現(xiàn)
輕量級工作流引擎架構(gòu)設(shè)計

輕量級Kubernetes-K3S工具介紹
PSoC NeoPixel Easy輕量級庫

“輕量級”的電源系統(tǒng),該如何設(shè)計?
輕量級”的電源系統(tǒng),該如何設(shè)計

評論