人妻在厨房被剪电影,色婷婷在线视频jXj

主要內(nèi)容：

提出了一種新的基于學習的用于車輛上的視覺定位算法，該算法可以在城市規(guī)模的環(huán)境中實時運行。

算法設計了隱式姿態(tài)編碼，通過2個獨立的神經(jīng)網(wǎng)絡將圖像和相機姿態(tài)嵌入到一個共同的潛在表示中來計算每個圖像-姿態(tài)對的相似性得分。通過以分層的方式在潛在空間來評估候選者，相機位置和方向不是直接回歸的，而是逐漸細化的。算法占的存儲量非常緊湊且與參考數(shù)據(jù)庫大小無關。

Pipeline：

輸入為查詢圖像

輸出為查詢圖像的六自由度姿態(tài)（t，q）∈SE（3），t是平移向量，q是旋轉(zhuǎn)四元數(shù)。

訓練是在帶有相機姿態(tài)label的數(shù)據(jù)庫圖像上進行訓練，沒有用額外的場景3D模型。

先通過圖像編碼器計算表示圖像向量。然后通過評估分布在地圖上的初始姿態(tài)候選來搜索相機姿態(tài)。姿態(tài)編碼器對相機姿態(tài)進行處理以產(chǎn)生可以與圖像向量相匹配的潛在表示，每個候選姿態(tài)都會有一個基于到相機姿態(tài)的距離的分數(shù)。高分提供了用于選擇新候選者的粗略定位先驗。通過多次重復這個過程使候選池收斂到實際的相機姿態(tài)。

論文技術點：

圖像編碼器：

使用圖像編碼器從輸入的查詢圖像計算圖像特征向量。

編碼器架構包括一個預訓練的CNN backbone，然后是全局平均池以及一個具有d個輸出神經(jīng)元的全連接層。

特征向量比圖像檢索中常用的全局圖像描述符小一個數(shù)量級（使用d=256）以便在隨后的步驟中將其與一大組姿態(tài)候選進行有效比較。

初始姿態(tài)候選：

起點是一組N個相機姿態(tài)，這是從參考姿態(tài)（=訓練時相機姿態(tài)）中采樣。通過這種初始選擇為定位過程引入了先驗，類似于選擇錨點姿態(tài)。

姿態(tài)編碼器：

姿態(tài)候選通過一個神經(jīng)網(wǎng)絡處理，輸出潛在向量，這種隱式表示學習到了給定場景中的相機視點與圖像編碼器提供的特征向量之間的對應關系。

首先使用傅立葉特征將相機姿態(tài)的每個分量（tx，ty，tz，qx，qy，qz，qw）投影到更高維度：

，因為它有助于具有低維輸入的網(wǎng)絡擬合高頻函數(shù)。然后使用具有4層256個神經(jīng)元和隱藏層為ReLU激活的MLP。每一組候選姿態(tài)都是在一次batch的前向傳遞中計算出來的。

相似性分數(shù)：

為每個圖像-姿態(tài)對計算余弦相似性來獲得相似性得分s。

在點積之后添加一個ReLU層，使得s∈［0，1］。

直觀地說，其目標是學習與實際相機姿態(tài)接近的候選姿態(tài)的高分。

有了這個公式后可以評估關于相機姿態(tài)的假設，并搜索得分高的姿態(tài)候選者。

相似性分數(shù)定義為：

建議新的候選姿態(tài)：

基于在上一次迭代中使用的姿態(tài)候選獲得的分數(shù)，為這一次迭代選擇新的姿態(tài)候選。

首先選擇得分最高的B=100的姿態(tài)

然后從（hi）中以高斯混合模型的方式對新的候選者進行采樣：

迭代姿態(tài)優(yōu)化：

在每次迭代之后，將噪聲向量除以2，使得新的候選者被采樣為更接近先前的高分。

因此可以在千米級地圖中收斂到精確的姿態(tài)估計，同時只評估有限的稀疏姿態(tài)集。在每個時間步長獨立評估每個相機幀，但可以使用以前時間步長的定位先驗來減少車輛導航場景中的迭代次數(shù)。

每次迭代時所選姿態(tài)的示例如圖2所示。通過對初始姿態(tài)的N個候選進行采樣，保留了一個恒定的記憶峰值。

姿態(tài)平均：

最終的相機姿態(tài)估計是256個得分較高的候選姿態(tài)的加權平均值，與直接選擇得分最高的姿態(tài)相比，它具有更好的效果。使用分數(shù)作為加權系數(shù)，并實現(xiàn)3D旋轉(zhuǎn)平均。

損失函數(shù)：

通過計算參考圖像和以K種不同分辨率采樣的姿態(tài)候選者之間的分數(shù)來訓練網(wǎng)絡，

其中，st是基于相機姿態(tài)和候選姿態(tài)之間的平移和旋轉(zhuǎn)距離來定義。

實驗：

與最近的方法在幾個數(shù)據(jù)集上進行了比較，這些數(shù)據(jù)集涵蓋了大規(guī)模室外環(huán)境中的各種自動駕駛場景。

由于戶外環(huán)境的動態(tài)部分（移動物體、照明、遮擋等），這項任務極具挑戰(zhàn)性。

驗證了其算法能夠在9個不同的大型室外場景中進行精確定位。

然后展示了算法可以擴展到多地圖場景

Baseline：

將ImPosing與基于學習的方法進行比較。使用CoordiNet報告了牛津數(shù)據(jù)集上絕對姿態(tài)回歸結果作為基線。

將ImPosing與檢索進行比較，使用了NetVLAD和GeM，使用全尺寸圖像來計算全局圖像描述符，然后使用余弦相似度進行特征比較，然后對前20個數(shù)據(jù)庫圖像的姿態(tài)進行姿態(tài)平均。

沒有使用基于結構的方法進行實驗，因為使用3D模型進行幾何推理，這些方法比更準確，但由于存儲限制使得嵌入式部署變得困難。

在Oxford RobotCar和Daoxiang Lake數(shù)據(jù)集上的定位誤差比較

Daoxiang Lake是一個比Oxford RobotCar更具挑戰(zhàn)性的數(shù)據(jù)集，因為它的重復區(qū)域幾乎沒有判別特征，環(huán)境也多種多樣（城市、城郊、高速公路、自然等）。因此，圖像檢索的性能比姿態(tài)回歸差。ImPosing要準確得多，并且顯示出比競爭對手小4倍的中值誤差。

在4Seasons數(shù)據(jù)集上的比較：