基于圖像信息對目標(biāo)進(jìn)行三維空間定位具有十分重要的作用。例如,在機器人操作中,抓握和運動規(guī)劃等任務(wù)就需要對物體的6D姿態(tài)(3D位置和3D方向)信息進(jìn)行準(zhǔn)確的估計;在虛擬現(xiàn)實應(yīng)用中,人與物體之間的友好流暢的虛擬交互需要對目標(biāo)進(jìn)行準(zhǔn)確的6D姿態(tài)估計。
雖然最新的技術(shù)已經(jīng)在使用深度相機進(jìn)行物體姿態(tài)估計,但這種相機在幀速率、視場、分辨率和深度范圍等方面還存在相當(dāng)大的局限性,一些小的、薄的、透明的或快速移動的物體檢測起來還非常困難。目前,基于RGB的6D目標(biāo)姿態(tài)估計問題仍然具有挑戰(zhàn),因為圖像中目標(biāo)的表觀會受到一系列因素的影響,如光照、姿態(tài)變化、遮擋等。此外,魯棒的6D姿態(tài)估計方法還需要能處理有紋理和無紋理的目標(biāo)。
傳統(tǒng)方法往往通過將2D圖像中提取的局部特征與待檢測目標(biāo)3D模型中的特征相匹配來求解6D姿態(tài)估計問題,也就是基于2D-3D對應(yīng)關(guān)系求解PnP問題。但是,這種方法對局部特征依賴性太強,不能很好地處理無紋理目標(biāo)。為了處理無紋理目標(biāo),目前的文獻(xiàn)中有兩類方法:一類是,學(xué)習(xí)估計輸入圖像中的目標(biāo)關(guān)鍵點或像素的3D模型坐標(biāo);還有一類是,通過離散化姿態(tài)空間將6D姿態(tài)估計問題轉(zhuǎn)化為姿態(tài)分類問題,或轉(zhuǎn)化為姿態(tài)回歸問題。
這些方法雖然能夠處理無紋理目標(biāo),但是精度不夠高。為了提高精度,往往還需要進(jìn)一步的姿態(tài)優(yōu)化:給定初始姿態(tài)估計,對合成RGB圖像進(jìn)行渲染來和目標(biāo)輸入圖像進(jìn)行匹配,然后再計算出新的更準(zhǔn)的姿態(tài)估計?,F(xiàn)有的姿態(tài)優(yōu)化方法通常使用手工制作的圖像特征或匹配得分函數(shù)。
在本文工作中,作者提出了DeepIM——一種基于深度神經(jīng)網(wǎng)絡(luò)的迭代6D姿態(tài)匹配的新方法。給定測試圖像中目標(biāo)的初始6D姿態(tài)估計,DeepIM能夠給出相對SE(3)變換符合目標(biāo)渲染視圖與觀測圖像之間的匹配關(guān)系。提高精度后的姿態(tài)估計迭代地對目標(biāo)重新渲染,使得網(wǎng)絡(luò)的兩個輸入圖像會變得越來越相似,從而網(wǎng)絡(luò)能夠輸出越來越精確的姿勢估計。上圖展示了作者提出網(wǎng)絡(luò)用于姿態(tài)優(yōu)化的迭代匹配過程。
這項工作主要有以下貢獻(xiàn):
首先,將深度網(wǎng)絡(luò)引入到基于圖像的迭代姿態(tài)優(yōu)化問題,而無需任何手工制作的圖像特征,其能夠自動學(xué)習(xí)內(nèi)部優(yōu)化機制;
其次,提出了一種旋轉(zhuǎn)和平移解耦的SE(3)變換表示方法,能夠?qū)崿F(xiàn)精確的姿態(tài)估計,并且能使提出的方法適用于目標(biāo)不在訓(xùn)練集時的姿態(tài)估計問題。
最后,作者在LINEMOD和Occlusion數(shù)據(jù)集上進(jìn)行了大量實驗,以評估DeepIM的準(zhǔn)確性和各種性能。
兩個數(shù)據(jù)集上的實驗結(jié)果表明,作者提出的方法都比當(dāng)前最先進(jìn)的基于RGB的方法性能提高了很多。此外,初步的實驗表明,DeepIM還能夠在對一些訓(xùn)練集中未出現(xiàn)的物體的姿態(tài)進(jìn)行準(zhǔn)確估計。
下面讓我們看看一些算法流程的細(xì)節(jié)。如上圖所示,作者為了獲得足夠的信息進(jìn)行姿態(tài)匹配,對觀測圖像進(jìn)行放大,并在輸入網(wǎng)絡(luò)前進(jìn)行渲染。要注意的是,在每次迭代過程中,都會根據(jù)上一次得到的姿態(tài)估計來重新渲染,這樣才能夠通過迭代來增加姿態(tài)估計的準(zhǔn)確度。DeepIM的網(wǎng)絡(luò)結(jié)構(gòu)圖如下圖所示,輸入觀測圖像、渲染圖像以及對應(yīng)的掩膜。使用FlowNetSimple網(wǎng)絡(luò)第11個卷積層輸出的特征圖作為輸入,然后連接兩個全連接層FC256,最后旋轉(zhuǎn)和平移的估計分別用兩個全連接層FC3和FC4作為輸入。
通常目標(biāo)從初始位置到新位置的旋轉(zhuǎn)與平移變換關(guān)系如上顯示。
一般來說旋轉(zhuǎn)變換會影響最后的平移變換,即兩者是耦合在一起的。如果將旋轉(zhuǎn)中心從相機坐標(biāo)系的原點轉(zhuǎn)移到目標(biāo)中心,就能解耦旋轉(zhuǎn)和平移。但這樣就需要能夠識別每個目標(biāo)并單獨存儲對應(yīng)的坐標(biāo)系,這會使得訓(xùn)練變得復(fù)雜且不能對未知目標(biāo)進(jìn)行姿態(tài)匹配。
在本文的工作中,作者讓坐標(biāo)軸平行于當(dāng)前相機坐標(biāo)軸,這樣可以算得相對旋轉(zhuǎn),后續(xù)實驗證明這樣效果更好。剩下的還要解決相對平移估計問題,一般的方法是直接在三維空間中計算原位置與新位置的xyz距離,但是這種方式既不利于網(wǎng)絡(luò)訓(xùn)練,也不利于處理大小不一、表觀相似的目標(biāo)或未經(jīng)訓(xùn)練的新目標(biāo)。
本文作者采用在二維圖像空間中進(jìn)行回歸估計平移變換,vx和vy分別是圖像水平方向和垂直方向上像素移動的距離,vz表示目標(biāo)尺度變化。其中,fx和fy是相機焦距,由于是常數(shù),在實際訓(xùn)練中作者將其設(shè)為1。
這樣一來,旋轉(zhuǎn)和平移解耦了,這種表示方法不需要目標(biāo)的任何先驗知識,并且能處理一些特殊情況,比如兩個外觀相似的物體,唯一的區(qū)別就是大小不一樣。
關(guān)于模型訓(xùn)練的損失函數(shù),通常直接的方法是將旋轉(zhuǎn)和平移分開計算,比如用角度距離表示旋轉(zhuǎn)誤差,L1距離表示平移誤差,但這種分離的方法很容易讓旋轉(zhuǎn)和平移兩種損失在訓(xùn)練時失衡。本文作者提出了一種同時計算旋轉(zhuǎn)和平移的Point Matching Loss函數(shù),來表達(dá)姿態(tài)真值和估計值之間的損失。其中,xj表示目標(biāo)模型上的三維點,n是總共用來計算損失函數(shù)的點個數(shù),本文中n=3000。
最后總的損失函數(shù)由L=αLpose +βLflow+γLmask組成,其中(α,β,γ)分別為(0.1,0.25,0.03)
實驗部分,作者主要使用了LINEMOD和OCCLUSION數(shù)據(jù)集。如下表顯示,在LINEMOD數(shù)據(jù)集上作者分別用PoseCNN和Faster R-CNN初始化DeepIM網(wǎng)絡(luò),發(fā)現(xiàn)即便兩個網(wǎng)絡(luò)性能差異很大,但是經(jīng)過DeepIM之后仍能得到差不多的結(jié)果。
LINEMOD數(shù)據(jù)集上的方法對比結(jié)果如下表顯示,作者提出的方法是最好的。
在目標(biāo)有遮擋的數(shù)據(jù)集上的實驗,本文提出的方法效果也相當(dāng)不錯哦。
除此之外,本文方法在ModelNet數(shù)據(jù)集上的表現(xiàn)也相當(dāng)驚艷,要注意的是,這些物體都不曾出現(xiàn)在訓(xùn)練集中哦。
利用這種方法實現(xiàn)6D位姿估計是十分有效的,希望能為小伙伴們的研究應(yīng)用帶來啟發(fā)和幫助~
-
神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
42文章
4798瀏覽量
102472 -
圖像
+關(guān)注
關(guān)注
2文章
1091瀏覽量
40950 -
函數(shù)
+關(guān)注
關(guān)注
3文章
4365瀏覽量
63952
原文標(biāo)題:DeepIM:基于深度網(wǎng)絡(luò)的6D位姿迭代新方法
文章出處:【微信號:thejiangmen,微信公眾號:將門創(chuàng)投】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
基于LabVIEW8.2提取ECG特征點的新方法
人工神經(jīng)網(wǎng)絡(luò)實現(xiàn)方法有哪些?
深度神經(jīng)網(wǎng)絡(luò)是什么
如何構(gòu)建神經(jīng)網(wǎng)絡(luò)?
傳感器故障檢測的Powell神經(jīng)網(wǎng)絡(luò)方法
基于GA優(yōu)化T_S模糊神經(jīng)網(wǎng)絡(luò)的小電流接地故障選線新方法_王磊
一種改進(jìn)的基于卷積神經(jīng)網(wǎng)絡(luò)的行人檢測方法

DENSER是一種用進(jìn)化算法自動設(shè)計人工神經(jīng)網(wǎng)絡(luò)(ANNs)的新方法

一種改進(jìn)的深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)搜索方法

卷積神經(jīng)網(wǎng)絡(luò)和深度神經(jīng)網(wǎng)絡(luò)的優(yōu)缺點 卷積神經(jīng)網(wǎng)絡(luò)和深度神經(jīng)網(wǎng)絡(luò)的區(qū)別
一種基于MCU的神經(jīng)網(wǎng)絡(luò)模型在線更新方案之?dāng)?shù)據(jù)處理篇

評論