无码中文 720p,小旅馆嫖妓不带套小少妇,色综合精品无码一区二区三区

論文題目：Accelerated Coordinate Encoding:Learning to Relocalize in Minutes using RGB and Poses

代碼主頁(yè)：https://github.com/nianticlabs/ace

這篇文章來(lái)自CVPR 2023(Highlight)，作者來(lái)自鼎鼎大名的Niantic Labs，是一個(gè)很有名的VR游戲開(kāi)發(fā)公司，做了增強(qiáng)現(xiàn)實(shí)游戲Ingress和位置發(fā)現(xiàn)應(yīng)用Field Trip和pokemon go手游。其引領(lǐng)著全球VR游戲的發(fā)展歷史。

1 介紹

本文是一篇基于學(xué)習(xí)的視覺(jué)定位算法，更具體的是通過(guò)網(wǎng)絡(luò)學(xué)習(xí)回歸圖像密集像素三維坐標(biāo)，建立2D-3D對(duì)應(yīng)后放在魯棒姿態(tài)估計(jì)器（RANSAC PNP + 迭代優(yōu)化）中估計(jì)相機(jī)六自由度姿態(tài)。

與以往基于學(xué)習(xí)的視覺(jué)定位算法的區(qū)別在于：以前的方法往往需要數(shù)小時(shí)或數(shù)天的訓(xùn)練，而且每個(gè)新場(chǎng)景都需要再次進(jìn)行訓(xùn)練，使得該方法在大多數(shù)應(yīng)用程序中不太現(xiàn)實(shí)，所以在本文中作者團(tuán)隊(duì)提出的方法改善了這一確定，使得可以在不到5分鐘的時(shí)間內(nèi)實(shí)現(xiàn)同樣的精度。

具體的，作者講定位網(wǎng)絡(luò)分為場(chǎng)景無(wú)關(guān)的特征backbone和場(chǎng)景特定的預(yù)測(cè)頭。而且預(yù)測(cè)頭不使用傳統(tǒng)的卷積網(wǎng)絡(luò)，而是使用MLP，這可以在每次訓(xùn)練迭代中同時(shí)對(duì)數(shù)千個(gè)視點(diǎn)進(jìn)行優(yōu)化，導(dǎo)致穩(wěn)定和極快的收斂。

此外使用一個(gè)魯棒姿態(tài)求解器的curriculum training替代有效但緩慢的端到端訓(xùn)練。

其方法在制圖方面比最先進(jìn)的場(chǎng)景坐標(biāo)回歸快了300倍！

curriculum training：Curriculum training是一種訓(xùn)練方法，訓(xùn)練時(shí)向模型提供訓(xùn)練樣本的難度逐漸變大。在對(duì)新數(shù)據(jù)進(jìn)行訓(xùn)練時(shí)，此方法需要對(duì)任務(wù)進(jìn)行標(biāo)注，將任務(wù)分為簡(jiǎn)單、中等或困難，然后對(duì)數(shù)據(jù)進(jìn)行采樣。

把原來(lái)的卷積網(wǎng)絡(luò)預(yù)測(cè)頭換成MLP預(yù)測(cè)頭的動(dòng)機(jī)是什么？作者認(rèn)為場(chǎng)景坐標(biāo)回歸可以看作從高維特征向量到場(chǎng)景空間三維點(diǎn)的映射，與卷積網(wǎng)絡(luò)相比，多層感知器(MLP)可以很好地表示這種映射，而且訓(xùn)練一個(gè)特定場(chǎng)景的MLP允許在每次訓(xùn)練迭代中一次優(yōu)化多個(gè)(通常是所有可用的)視圖，這會(huì)導(dǎo)致非常穩(wěn)定的梯度，使其能夠在非常積極的、高學(xué)習(xí)率的機(jī)制下操作。把這個(gè)和curriculum training結(jié)合在一起，讓網(wǎng)絡(luò)在后期訓(xùn)練階段burn in可靠的場(chǎng)景結(jié)構(gòu)，使其模擬了端到端訓(xùn)練方案，以此會(huì)極大提升訓(xùn)練速度和效率。

2 主要貢獻(xiàn)

（1）加速坐標(biāo)編碼(ACE)，一個(gè)場(chǎng)景坐標(biāo)回歸算法，可以在5分鐘內(nèi)映射一個(gè)新場(chǎng)景，以前最先進(jìn)的場(chǎng)景坐標(biāo)回歸系統(tǒng)需要數(shù)小時(shí)才能達(dá)到相當(dāng)?shù)闹囟ㄎ痪取?/p>

（2）ACE將場(chǎng)景編碼成4MB的網(wǎng)絡(luò)權(quán)重，以前的場(chǎng)景坐標(biāo)回歸系統(tǒng)需要7倍的存儲(chǔ)空間

（3）只需要RGB圖像和對(duì)應(yīng)的pose進(jìn)行訓(xùn)練，以前的依賴(lài)于像深度圖或場(chǎng)景網(wǎng)格這樣的先驗(yàn)知識(shí)來(lái)進(jìn)行。

3 方法

算法的目標(biāo)是估計(jì)給定的RGB圖像I的相機(jī)姿態(tài)h。定義的相機(jī)姿態(tài)為一個(gè)剛體變換，其將相機(jī)空間下的坐標(biāo)ei映射到場(chǎng)景空間的坐標(biāo)yi，即yi = h*ei。

其中C表示2D像素位置和3D場(chǎng)景坐標(biāo)之間的對(duì)應(yīng)，g表示一個(gè)魯棒的姿態(tài)估計(jì)器。

設(shè)計(jì)的網(wǎng)絡(luò)學(xué)習(xí)預(yù)測(cè)給定2D圖像點(diǎn)對(duì)應(yīng)的3D場(chǎng)景點(diǎn)，即：

其中f表示學(xué)習(xí)到的權(quán)重參數(shù)化的網(wǎng)絡(luò)，表示從圖像I的像素位置附近提取的圖像patch，所以f是一個(gè)patchs到場(chǎng)景坐標(biāo)的映射。

網(wǎng)絡(luò)在訓(xùn)練時(shí)在所有建圖圖像用他們的ground truth 作為監(jiān)督進(jìn)行訓(xùn)練：

3.1 通過(guò)解關(guān)聯(lián)梯度進(jìn)行高效訓(xùn)練

作者認(rèn)為以往的方法在每次訓(xùn)練迭代中優(yōu)化了成千上萬(wàn)個(gè)patch的預(yù)測(cè)，但它們都來(lái)自同一幅圖像，因此它們的損失和梯度將是高度相關(guān)的。所以這篇文章的關(guān)鍵思想是在整個(gè)訓(xùn)練集上隨機(jī)化patches，并從許多不同的視圖中構(gòu)造batch，這種方法可以解關(guān)聯(lián)batch中的梯度，從而得到穩(wěn)定的訓(xùn)練，而且對(duì)高學(xué)習(xí)率具有魯棒性，并最終實(shí)現(xiàn)快速收斂。

以往的方法的網(wǎng)絡(luò)如下圖所示，一次一副圖像，切圖像特征編碼器和預(yù)測(cè)頭解碼器都是CNN

作者將網(wǎng)絡(luò)拆分為卷積主干和多層感知器(MLP)頭，如下圖所示：

所以網(wǎng)絡(luò)拆分成兩部分：

其中是用來(lái)預(yù)測(cè)表示圖像特征的高維向量，是用來(lái)預(yù)測(cè)場(chǎng)景坐標(biāo)的回歸頭

作者認(rèn)為可以用場(chǎng)景無(wú)關(guān)的卷積網(wǎng)絡(luò)實(shí)現(xiàn)一個(gè)通用的特征提取器,可以使用一個(gè)MLP而不是另一個(gè)卷積網(wǎng)絡(luò)來(lái)實(shí)現(xiàn)。這樣做因?yàn)樵陬A(yù)測(cè)patch對(duì)應(yīng)的場(chǎng)景坐標(biāo)時(shí)是不需要空間上下文的，也就是說(shuō)，與backbone不同，不需要訪問(wèn)鄰近的像素來(lái)進(jìn)行計(jì)算，因此可以用所有圖像中的隨機(jī)樣本構(gòu)建的訓(xùn)練batch，具體就是通過(guò)在所有圖像上運(yùn)行預(yù)訓(xùn)練的backbone來(lái)構(gòu)建一個(gè)固定大小的訓(xùn)練緩沖區(qū)，這個(gè)緩沖區(qū)包含數(shù)以百萬(wàn)計(jì)的特征及其相關(guān)像素位置、相機(jī)內(nèi)參和ground truth ，在訓(xùn)練的第一分鐘就產(chǎn)生了這個(gè)緩沖。然后開(kāi)始在緩沖區(qū)上迭代主訓(xùn)練循環(huán)，即在每個(gè)epoch的開(kāi)始，shuffle緩沖區(qū)以混合所有圖像數(shù)據(jù)的特征，在每個(gè)訓(xùn)練步驟中，構(gòu)建數(shù)千個(gè)特征batch，這可能同時(shí)計(jì)算數(shù)千個(gè)視圖的參數(shù)更新，這樣不僅梯度計(jì)算對(duì)于MLP回歸頭非常高效，而且梯度也是不相關(guān)的，這允許使用高學(xué)習(xí)速度來(lái)快速收斂。

3.2 課程（Curriculum）訓(xùn)練

課程（Curriculum）訓(xùn)練：比如像我們上課一樣，開(kāi)始會(huì)講一些簡(jiǎn)單的東西，然后再慢慢深入學(xué)習(xí)復(fù)雜的東西，類(lèi)比網(wǎng)絡(luò)，就是開(kāi)始給寬松的閾值，讓網(wǎng)絡(luò)學(xué)習(xí)簡(jiǎn)單的知識(shí)，后續(xù)隨著訓(xùn)練時(shí)間的進(jìn)行，增大閾值，讓網(wǎng)絡(luò)學(xué)習(xí)復(fù)雜且魯棒的知識(shí)。

具體的，在整個(gè)訓(xùn)練過(guò)程中使用一個(gè)移動(dòng)的內(nèi)閾值，開(kāi)始時(shí)是寬松的，隨著訓(xùn)練的進(jìn)行，限制會(huì)越來(lái)越多，使得網(wǎng)絡(luò)可以專(zhuān)注于已經(jīng)很好的預(yù)測(cè)，而忽略在姿態(tài)估計(jì)過(guò)程中RANSAC會(huì)過(guò)濾掉的不太精確的預(yù)測(cè)。

這種損失優(yōu)化了所有有效坐標(biāo)預(yù)測(cè)的魯棒重投影誤差，有效的預(yù)測(cè)指在圖像平面前方10cm到1000m之間，且重投影誤差低于1000px。

再使用tanh夾持重投影誤差:

根據(jù)在訓(xùn)練過(guò)程中變化的閾值τ動(dòng)態(tài)地重新縮放tanh:

其中t∈(0,1)表示相對(duì)訓(xùn)練進(jìn)度。這個(gè)課程訓(xùn)練實(shí)現(xiàn)了一個(gè)循環(huán)的τ閾值時(shí)間表，τ閾值在訓(xùn)練開(kāi)始時(shí)保持在附近，在訓(xùn)練結(jié)束時(shí)趨于。

3.3 Backbone訓(xùn)練

backbone可以使用任何密集的特征描述網(wǎng)絡(luò)。作者提出了一種簡(jiǎn)單的方法來(lái)訓(xùn)練一個(gè)適合場(chǎng)景坐標(biāo)回歸的特征描述網(wǎng)絡(luò)。為了訓(xùn)練backbone，采用DSAC*的圖像級(jí)訓(xùn)練，并將其與課程訓(xùn)練相結(jié)合。用N個(gè)回歸頭并行地訓(xùn)練N個(gè)場(chǎng)景，而不是用一個(gè)回歸頭訓(xùn)練一個(gè)場(chǎng)景的backbone。這種瓶頸架構(gòu)使得backbone預(yù)測(cè)適用于廣泛場(chǎng)景的特性。在ScanNet的100個(gè)場(chǎng)景上訓(xùn)練1周，得到11MB的權(quán)重，可用于在任何新場(chǎng)景上提取密集的描述符。

4 實(shí)驗(yàn)

主要在兩個(gè)室內(nèi)數(shù)據(jù)集7Scenes和12Scenes和一個(gè)室外數(shù)據(jù)集Cambridge上進(jìn)行訓(xùn)練測(cè)試：

和DSAC*比較了在建圖訓(xùn)練上的時(shí)間損耗：

以及在無(wú)地圖定位數(shù)據(jù)集（自己構(gòu)建的 WaySpots）上的定位結(jié)果：

5 總結(jié)

這是一個(gè)能夠在5分鐘內(nèi)訓(xùn)練新環(huán)境的重定位算法。

與之前的場(chǎng)景坐標(biāo)回歸方法相比，將建圖的成本和存儲(chǔ)消耗降低了兩個(gè)數(shù)量級(jí)，使得算法具有實(shí)用性。

是一篇理論與工程完美結(jié)合的文章。

審核編輯：李倩

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴