作者:小張Tt??
本文引入了Evidential Local-global Fusion (ELF)框架,用于解決立體匹配中的可信度估計和融合問題。與傳統(tǒng)方法僅預測視差圖不同,作者的模型估計了基于證據(jù)的視差,考慮了模糊不確定性和認知不確定性。通過正態(tài)逆伽馬分布進行證據(jù)融合,實現(xiàn)了多層次預測的內(nèi)部證據(jù)融合和基于成本體積和變換器的立體匹配的證據(jù)間融合。實驗結(jié)果表明,所提出的框架有效地利用了多視角信息,在準確性和跨域泛化性能上達到了最先進水平。

1 前言
立體匹配是在給定一對矯正圖像的情況下,估計密集視差圖的目標,是各種應用中最基礎的問題之一,例如3D重建、自動駕駛和機器人導航。借助卷積神經(jīng)網(wǎng)絡的快速發(fā)展,許多立體匹配模型通過構建代價體積并使用3D卷積的方式取得了有希望的性能。最近,借助transformer的支持,提出了利用自注意和交叉注意機制來利用全局信息的方法,為立體匹配帶來了一種替代方法。盡管性能有所改善,但立體匹配結(jié)果的不確定性量化一直被忽視?,F(xiàn)有立體匹配中經(jīng)常出現(xiàn)過于自信的預測,限制了算法的部署,特別是在安全關鍵應用中。深度學習模型在解釋性方面容易出現(xiàn)不可靠,特別是在面對域之外、低質(zhì)量或受擾動的樣本時。在立體匹配領域尤為如此,模型首先在大規(guī)模合成數(shù)據(jù)集上進行預訓練,并在來自真實場景的較小數(shù)據(jù)集上進行微調(diào)。這使得不確定性估計成為防止基于立體匹配結(jié)果的潛在災難性決策的重要組成部分。
同時,立體匹配中廣泛存在多視角互補信息,但如何有效和高效地利用它們提高準確性仍然是一個挑戰(zhàn)。例如,使用多尺度金字塔式代價體積可以提供從特征提取器獲取的由粗到精的知識,但當前的融合方法未考慮不同尺度的不確定性,導致集成不可信和不完整。另外,基于代價體積的方法和基于transformer的方法提供了完全不同的處理立體對策略:前者通過卷積聚合局部特征,后者使用transformer捕捉全局信息進行密集匹配。
我們發(fā)現(xiàn)這兩種方法互為補充。例如,如圖1(c)和1(d)的紅色區(qū)塊所示,基于代價體積的模型在光照變化較大的區(qū)域不穩(wěn)定,而基于transformer的模型在復雜的局部紋理上利用不充分。在這種情況下,不確定性估計是在不增加過多計算負載的同時,讓多視信息之間具有可信的融合策略的潛在模塊?;谶@些動機,作者提出了一種基于證據(jù)的局部-全局融合(ELF)立體匹配框架。該框架通過利用深度證據(jù)學習同時實現(xiàn)不確定性估計和可靠融合。具體而言,作者在模型的每個分支中采用可信的頭部來計算伴隨視差的不確定性。為了同時整合多尺度的代價體積信息和基于卷積和transformer的方法之間的互補信息,作者提出了一種基于混合正態(tài)-逆Gamma分布(MoNIG)的內(nèi)部證據(jù)融合模塊和外部證據(jù)融合模塊。這里也推薦「3D視覺工坊」新課程《面向自動駕駛領域目標檢測中的視覺Transformer》。
作者的貢獻可以總結(jié)如下:
作者將深度證據(jù)學習引入了基于成本體積和基于 Transformer 的立體匹配中,用于估計隨機不確定性和認知不確定性;
作者提出了一種新穎的證據(jù)局部-全局融合(ELF)框架,它能夠?qū)崿F(xiàn)不確定性估計和基于證據(jù)的兩階段信息融合;
作者進行了全面的實驗證明,設計的ELFNet在準確性和跨領域泛化方面始終提升了性能。

2 相關工作
本文綜述了在深度立體匹配領域中的兩種主要研究方法:基于成本體積和基于Transformer。基于成本體積的方法通過構建三維成本體積來進行立體匹配,但在處理大規(guī)模輸入時存在內(nèi)存和計算復雜度的問題?;赥ransformer的方法通過注意力機制來建模長程全局信息,但在處理局部紋理細節(jié)時效果不佳。為了提高整體性能,本文建議將基于成本體積和基于Transformer的方法進行融合,以捕捉互補的信息。此外,本文還討論了不確定性估計在深度學習中的重要性,并介紹了幾種不確定性估計方法,包括貝葉斯神經(jīng)網(wǎng)絡、蒙特卡洛dropout和深度集成等。最后,本文擴展了深度證據(jù)學習方法,利用內(nèi)部和外部證據(jù)融合策略來提高立體匹配任務中不確定性估計的性能。
3 方法
本文介紹了Evidential Localglobal Fusion(ELF)框架,該框架基于不確定性估計用于立體匹配。網(wǎng)絡架構由三個部分組成:基于代價體積的具有內(nèi)部證據(jù)融合的模塊、基于變換器的模塊和具有外部證據(jù)融合的模塊。通過金字塔組合網(wǎng)絡和可信賴的立體變換器,作者可以預測分布參數(shù){δlocal, γlocal, αlocal, βlocal}和{δglobal, γglobal, αglobal, βglobal}。通過利用正態(tài)-逆伽瑪分布的多視角混合,可以從整合分布{δ, γ, α, β}中進而推導出aleatoric不確定性和epistemic不確定性。
3.1 立體匹配的證據(jù)深度學習
3.1.1 背景與不確定性損失
本節(jié)介紹了立體匹配中的證據(jù)深度學習方法。通過建模視差的分布,使用正態(tài)和逆伽瑪分布對視差的均值和方差進行建模。通過求取后驗分布,可以計算出視差、aleatoric不確定性和epistemic不確定性。在訓練過程中,使用負對數(shù)模型證據(jù)作為損失函數(shù),并引入正則化項來減少錯誤預測的證據(jù)。通過期望值的形式定義總的不確定性損失,用于訓練深度模型進行密集立體匹配任務。
3.1.2 在立體匹配中的不確定性估計
在立體匹配中,通過使用不同的網(wǎng)絡結(jié)構,可以實現(xiàn)不確定性估計。在基于代價體的方法中,通過替換視差回歸模塊為可信回歸模塊,利用兩個3D卷積分支和Mish激活來輸出分布參數(shù),從而更準確地估計NIG分布的參數(shù)。而在基于Transformer的方法中,采用交叉和自注意機制,通過最優(yōu)傳輸模塊回歸視差和遮擋概率,并通過一個不確定性頭生成參數(shù)。通過這些方法,可以提高立體匹配的不確定性估計結(jié)果的校準性。

3.2 基于證據(jù)的融合策略
在融合策略中,作者使用混合正態(tài)逆伽瑪分布(MoNIG)來進行證據(jù)的融合。通過計算多個NIG分布的混合來得到MoNIG分布。融合操作通過對各個分布的參數(shù)進行加權求和,得到組合分布的參數(shù)。這種融合策略可以同時考慮到期望的置信水平和組合分布與各個單獨分布之間的方差,從而提供了有關于aleatoric和epistemic不確定性的信息。
3.2.1 基于代價體立體匹配的內(nèi)部證據(jù)融合
在基于代價體立體匹配中,作者使用多尺度代價體和代價體融合模塊來提取不同尺度的特征,并通過代價聚合和可信回歸模塊生成NIG分布的參數(shù)。然后,通過內(nèi)部證據(jù)融合模塊將多個NIG分布集成為一個分布,作為最終的金字塔融合結(jié)果。這種基于內(nèi)部證據(jù)融合的策略能夠從多尺度特征中整合出可靠的輸出。
3.2.2 基于成本體積和基于Transformer的立體匹配之間的相互證據(jù)融合
卷積模型和Transformer模型在立體匹配中各有優(yōu)勢,卻有著不同的焦點。為了整合這兩種方法的預測結(jié)果,作者采用了MoNIG分布進行相互證據(jù)融合,并基于不確定性進行融合策略。具體而言,利用公式將局部和全局預測結(jié)果進行融合,得到最終的分布。

3.3 損失函數(shù)
作者定義了局部輸出、全局輸出和最終合并輸出的不確定性損失,并且利用Transformer模塊獲得了注意力權重和遮擋概率。除此之外,作者采用了相對響應損失和二值熵損失函數(shù)來增強模型的準確性。最終的損失函數(shù)通過權重λi來控制不同損失的重要性。

4 實驗
作者在各種數(shù)據(jù)集上評估了所提出的ELFNet,包括Scene Flow ,KITTI 2012和KITTI 2015 和Middlebury 2014 。此外,作者進行不確定性分析,探討模型性能和不確定性之間的關系。
4.1 數(shù)據(jù)集與評估指標
作者使用了FlyingThings3D子集、KITTI 2012、KITTI 2015和Middlebury 2014數(shù)據(jù)集進行實驗評估。評估指標包括端點誤差、視差異常點百分比和超過3像素的誤差百分比。
4.2 實驗細節(jié)
作者的ELF框架可以與基于Transformer和多尺度成本體積的模型兼容。在實驗中,作者選擇了STTR作為基于Transformer的部分,PCWNet作為基于成本體積的部分。作者使用AdamW優(yōu)化器進行端到端訓練,并在Scene Flow FlyingThings3D子集上進行預訓練。實驗中采用了數(shù)據(jù)增強技術,并在NVIDIA RTX 3090 GPU上進行了實驗。

4.3 與最先進方法的比較
通過與多種最先進方法的比較,作者的方法在Scene Flow數(shù)據(jù)集上取得了優(yōu)秀的性能。在EPE和D1-1px兩個指標下,作者的方法均優(yōu)于其他方法。具體來說,在Disparity < 192的設置下,相較于最好的方法CSTR,作者的方法在EPE上提升了19.5%,在D1-1px上提升了9.2%。在All Pixels設置下,相較于當前最先進方法,作者的方法將EPE減少了11.2%。同時,作者的ELFNet在視差估計準確性上超越了基于cost-volume和基于transformer模型,同時保持了transformer提供的遮擋估計能力。與STTR相比,作者的方法在遮擋交集聯(lián)合分數(shù)上達到了相當水平。這些結(jié)果表明了作者方法的有效性和優(yōu)越性。
4.4 消融實驗
消融實驗通過對ELF框架中各個模塊的驗證,證明了其各個設計的不可或缺性,并驗證了證據(jù)融合在性能提升中的關鍵作用。具體而言,消融實驗結(jié)果表明,不確定性估計模塊、跨證據(jù)融合模塊和內(nèi)部證據(jù)融合模塊對性能的提升都起到了重要作用。在Scene Flow數(shù)據(jù)集上,ELF框架通過提供不確定性估計、跨證據(jù)融合和內(nèi)部證據(jù)融合的設計,將EPE減少了21.4%,并在D1-1px指標上優(yōu)于基準方法。

4.5 融合策略比較
通過與其他后期融合策略的比較,作者的ELFNet在Scene Flow數(shù)據(jù)集上展現(xiàn)出卓越的性能。與簡單取平均或使用卷積層后期融合相比,ELFNet通過有效地結(jié)合基于cost-volume的模型和基于transformer的模型,取得了改進的結(jié)果,表明了其強大的融合能力和優(yōu)越性能。

4.6 跨域泛化
通過在真實世界數(shù)據(jù)集上進行實驗,作者證明了在零樣本設置下,作者在合成的Scene Flow數(shù)據(jù)集上預訓練的ELFNet具有強大的跨域泛化能力。與現(xiàn)有最先進模型相比,ELFNet在Middlebury 2014和KITTI 2012數(shù)據(jù)集上分別取得了顯著的EPE和D1-3px分數(shù)的提升。同時,在KITTI 2015數(shù)據(jù)集上也取得了具有競爭力的泛化結(jié)果。這些實驗結(jié)果進一步驗證了ELFNet的優(yōu)越性能和廣泛適用性。
4.7 不確定性分析
本文研究了通過深度證據(jù)學習進行的不確定性估計,并提供了歸因不確定性和知識不確定性的分析結(jié)果。結(jié)果顯示,在模型從數(shù)據(jù)中學習更多信息時,不確定性逐漸減小。通過在不同數(shù)據(jù)集上進行皮爾遜相關分析,發(fā)現(xiàn)不確定性與準確性之間存在正相關關系。不同數(shù)據(jù)分布下的不同類型的誤差更可能與不同類型的不確定性相關。研究還發(fā)現(xiàn),估計的不確定性還受到模型架構、訓練策略和數(shù)據(jù)噪聲等因素的影響。此外,在定性結(jié)果中觀察到,在遮擋和邊界區(qū)域分配了較高的不確定性,并且不確定性圖在誤差發(fā)生的區(qū)域也顯示活躍,這表明不確定性圖為誤差估計提供了線索。這里也推薦「3D視覺工坊」新課程《面向自動駕駛領域目標檢測中的視覺Transformer》。

?

4.8 限制
盡管ELFNet能夠進行不確定性估計并取得不少改進,但其推理速度存在限制。由于ELFNet涉及到兩個獨立的部分,因此需要更多的時間。為了改進推理速度,未來的研究可以考慮采用高效的方法,如構建自適應和稀疏的代價體積。
5 結(jié)論
本文提出了一種基于證據(jù)的局部-全局融合(ELF)框架,用于可靠地融合多視圖信息進行立體匹配。通過利用深度證據(jù)學習來估計多層次的歸因和知識不確定性,作者的模型能夠在準確性和泛化性能方面表現(xiàn)出色。這為基于證據(jù)的融合策略提供了可靠的支持,并且能夠利用互補的知識進一步提升立體匹配的性能。
編輯:黃飛
?
電子發(fā)燒友App






















評論