chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

HighLight:視覺(jué)重定位,同等精度下速度提升300倍

3D視覺(jué)工坊 ? 來(lái)源:3D視覺(jué)工坊 ? 2023-06-01 14:38 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

5d5e0b50-003a-11ee-90ce-dac502259ad0.png

論文題目:Accelerated Coordinate Encoding:Learning to Relocalize in Minutes using RGB and Poses

代碼主頁(yè):https://github.com/nianticlabs/ace

這篇文章來(lái)自CVPR 2023(Highlight),作者來(lái)自鼎鼎大名的Niantic Labs,是一個(gè)很有名的VR游戲開(kāi)發(fā)公司,做了增強(qiáng)現(xiàn)實(shí)游戲Ingress和位置發(fā)現(xiàn)應(yīng)用Field Trip和pokemon go手游。其引領(lǐng)著全球VR游戲的發(fā)展歷史。

1 介紹

本文是一篇基于學(xué)習(xí)的視覺(jué)定位算法,更具體的是通過(guò)網(wǎng)絡(luò)學(xué)習(xí)回歸圖像密集像素三維坐標(biāo),建立2D-3D對(duì)應(yīng)后放在魯棒姿態(tài)估計(jì)器(RANSAC PNP + 迭代優(yōu)化)中估計(jì)相機(jī)六自由度姿態(tài)。

與以往基于學(xué)習(xí)的視覺(jué)定位算法的區(qū)別在于:以前的方法往往需要數(shù)小時(shí)或數(shù)天的訓(xùn)練,而且每個(gè)新場(chǎng)景都需要再次進(jìn)行訓(xùn)練,使得該方法在大多數(shù)應(yīng)用程序中不太現(xiàn)實(shí),所以在本文中作者團(tuán)隊(duì)提出的方法改善了這一確定,使得可以在不到5分鐘的時(shí)間內(nèi)實(shí)現(xiàn)同樣的精度。

具體的,作者講定位網(wǎng)絡(luò)分為場(chǎng)景無(wú)關(guān)的特征backbone和場(chǎng)景特定的預(yù)測(cè)頭。而且預(yù)測(cè)頭不使用傳統(tǒng)的卷積網(wǎng)絡(luò),而是使用MLP,這可以在每次訓(xùn)練迭代中同時(shí)對(duì)數(shù)千個(gè)視點(diǎn)進(jìn)行優(yōu)化,導(dǎo)致穩(wěn)定和極快的收斂。

此外使用一個(gè)魯棒姿態(tài)求解器的curriculum training替代有效但緩慢的端到端訓(xùn)練。

其方法在制圖方面比最先進(jìn)的場(chǎng)景坐標(biāo)回歸快了300倍!

curriculum training:Curriculum training是一種訓(xùn)練方法,訓(xùn)練時(shí)向模型提供訓(xùn)練樣本的難度逐漸變大。在對(duì)新數(shù)據(jù)進(jìn)行訓(xùn)練時(shí),此方法需要對(duì)任務(wù)進(jìn)行標(biāo)注,將任務(wù)分為簡(jiǎn)單、中等或困難,然后對(duì)數(shù)據(jù)進(jìn)行采樣。

把原來(lái)的卷積網(wǎng)絡(luò)預(yù)測(cè)頭換成MLP預(yù)測(cè)頭的動(dòng)機(jī)是什么?作者認(rèn)為場(chǎng)景坐標(biāo)回歸可以看作從高維特征向量到場(chǎng)景空間三維點(diǎn)的映射,與卷積網(wǎng)絡(luò)相比,多層感知器(MLP)可以很好地表示這種映射,而且訓(xùn)練一個(gè)特定場(chǎng)景的MLP允許在每次訓(xùn)練迭代中一次優(yōu)化多個(gè)(通常是所有可用的)視圖,這會(huì)導(dǎo)致非常穩(wěn)定的梯度,使其能夠在非常積極的、高學(xué)習(xí)率的機(jī)制下操作。把這個(gè)和curriculum training結(jié)合在一起,讓網(wǎng)絡(luò)在后期訓(xùn)練階段burn in可靠的場(chǎng)景結(jié)構(gòu),使其模擬了端到端訓(xùn)練方案,以此會(huì)極大提升訓(xùn)練速度和效率。

2 主要貢獻(xiàn)

(1)加速坐標(biāo)編碼(ACE),一個(gè)場(chǎng)景坐標(biāo)回歸算法,可以在5分鐘內(nèi)映射一個(gè)新場(chǎng)景,以前最先進(jìn)的場(chǎng)景坐標(biāo)回歸系統(tǒng)需要數(shù)小時(shí)才能達(dá)到相當(dāng)?shù)闹囟ㄎ痪取?/p>

(2)ACE將場(chǎng)景編碼成4MB的網(wǎng)絡(luò)權(quán)重,以前的場(chǎng)景坐標(biāo)回歸系統(tǒng)需要7倍的存儲(chǔ)空間

(3)只需要RGB圖像和對(duì)應(yīng)的pose進(jìn)行訓(xùn)練,以前的依賴(lài)于像深度圖或場(chǎng)景網(wǎng)格這樣的先驗(yàn)知識(shí)來(lái)進(jìn)行。

3 方法

算法的目標(biāo)是估計(jì)給定的RGB圖像I的相機(jī)姿態(tài)h。定義的相機(jī)姿態(tài)為一個(gè)剛體變換,其將相機(jī)空間下的坐標(biāo)ei映射到場(chǎng)景空間的坐標(biāo)yi,即yi = h*ei。

其中C表示2D像素位置和3D場(chǎng)景坐標(biāo)之間的對(duì)應(yīng),g表示一個(gè)魯棒的姿態(tài)估計(jì)器。

設(shè)計(jì)的網(wǎng)絡(luò)學(xué)習(xí)預(yù)測(cè)給定2D圖像點(diǎn)對(duì)應(yīng)的3D場(chǎng)景點(diǎn),即:

其中f表示學(xué)習(xí)到的權(quán)重參數(shù)化的網(wǎng)絡(luò),表示從圖像I的像素位置附近提取的圖像patch,所以f是一個(gè)patchs到場(chǎng)景坐標(biāo)的映射。

網(wǎng)絡(luò)在訓(xùn)練時(shí)在所有建圖圖像用他們的ground truth 作為監(jiān)督進(jìn)行訓(xùn)練:

5d6bae54-003a-11ee-90ce-dac502259ad0.png

3.1 通過(guò)解關(guān)聯(lián)梯度進(jìn)行高效訓(xùn)練

作者認(rèn)為以往的方法在每次訓(xùn)練迭代中優(yōu)化了成千上萬(wàn)個(gè)patch的預(yù)測(cè),但它們都來(lái)自同一幅圖像,因此它們的損失和梯度將是高度相關(guān)的。所以這篇文章的關(guān)鍵思想是在整個(gè)訓(xùn)練集上隨機(jī)化patches,并從許多不同的視圖中構(gòu)造batch,這種方法可以解關(guān)聯(lián)batch中的梯度,從而得到穩(wěn)定的訓(xùn)練,而且對(duì)高學(xué)習(xí)率具有魯棒性,并最終實(shí)現(xiàn)快速收斂。

以往的方法的網(wǎng)絡(luò)如下圖所示,一次一副圖像,切圖像特征編碼器和預(yù)測(cè)頭解碼器都是CNN

5d77405c-003a-11ee-90ce-dac502259ad0.png

作者將網(wǎng)絡(luò)拆分為卷積主干和多層感知器(MLP)頭,如下圖所示:

5d7fd316-003a-11ee-90ce-dac502259ad0.png

所以網(wǎng)絡(luò)拆分成兩部分:

5d87a2d0-003a-11ee-90ce-dac502259ad0.png

其中是用來(lái)預(yù)測(cè)表示圖像特征的高維向量,是用來(lái)預(yù)測(cè)場(chǎng)景坐標(biāo)的回歸頭

5d8f0584-003a-11ee-90ce-dac502259ad0.png

作者認(rèn)為可以用場(chǎng)景無(wú)關(guān)的卷積網(wǎng)絡(luò)實(shí)現(xiàn)一個(gè)通用的特征提取器,可以使用一個(gè)MLP而不是另一個(gè)卷積網(wǎng)絡(luò)來(lái)實(shí)現(xiàn)。這樣做因?yàn)樵陬A(yù)測(cè)patch對(duì)應(yīng)的場(chǎng)景坐標(biāo)時(shí)是不需要空間上下文的,也就是說(shuō),與backbone不同,不需要訪問(wèn)鄰近的像素來(lái)進(jìn)行計(jì)算,因此可以用所有圖像中的隨機(jī)樣本構(gòu)建的訓(xùn)練batch,具體就是通過(guò)在所有圖像上運(yùn)行預(yù)訓(xùn)練的backbone來(lái)構(gòu)建一個(gè)固定大小的訓(xùn)練緩沖區(qū),這個(gè)緩沖區(qū)包含數(shù)以百萬(wàn)計(jì)的特征及其相關(guān)像素位置、相機(jī)內(nèi)參和ground truth ,在訓(xùn)練的第一分鐘就產(chǎn)生了這個(gè)緩沖。然后開(kāi)始在緩沖區(qū)上迭代主訓(xùn)練循環(huán),即在每個(gè)epoch的開(kāi)始,shuffle緩沖區(qū)以混合所有圖像數(shù)據(jù)的特征,在每個(gè)訓(xùn)練步驟中,構(gòu)建數(shù)千個(gè)特征batch,這可能同時(shí)計(jì)算數(shù)千個(gè)視圖的參數(shù)更新,這樣不僅梯度計(jì)算對(duì)于MLP回歸頭非常高效,而且梯度也是不相關(guān)的,這允許使用高學(xué)習(xí)速度來(lái)快速收斂。

3.2 課程(Curriculum)訓(xùn)練

課程(Curriculum)訓(xùn)練:比如像我們上課一樣,開(kāi)始會(huì)講一些簡(jiǎn)單的東西,然后再慢慢深入學(xué)習(xí)復(fù)雜的東西,類(lèi)比網(wǎng)絡(luò),就是開(kāi)始給寬松的閾值,讓網(wǎng)絡(luò)學(xué)習(xí)簡(jiǎn)單的知識(shí),后續(xù)隨著訓(xùn)練時(shí)間的進(jìn)行,增大閾值,讓網(wǎng)絡(luò)學(xué)習(xí)復(fù)雜且魯棒的知識(shí)。

具體的,在整個(gè)訓(xùn)練過(guò)程中使用一個(gè)移動(dòng)的內(nèi)閾值,開(kāi)始時(shí)是寬松的,隨著訓(xùn)練的進(jìn)行,限制會(huì)越來(lái)越多,使得網(wǎng)絡(luò)可以專(zhuān)注于已經(jīng)很好的預(yù)測(cè),而忽略在姿態(tài)估計(jì)過(guò)程中RANSAC會(huì)過(guò)濾掉的不太精確的預(yù)測(cè)。

5d933e2e-003a-11ee-90ce-dac502259ad0.png

這種損失優(yōu)化了所有有效坐標(biāo)預(yù)測(cè)的魯棒重投影誤差,有效的預(yù)測(cè)指在圖像平面前方10cm到1000m之間,且重投影誤差低于1000px。

再使用tanh夾持重投影誤差:

5d9cf18a-003a-11ee-90ce-dac502259ad0.png

根據(jù)在訓(xùn)練過(guò)程中變化的閾值τ動(dòng)態(tài)地重新縮放tanh:

5da5c71a-003a-11ee-90ce-dac502259ad0.png

其中t∈(0,1)表示相對(duì)訓(xùn)練進(jìn)度。這個(gè)課程訓(xùn)練實(shí)現(xiàn)了一個(gè)循環(huán)的τ閾值時(shí)間表,τ閾值在訓(xùn)練開(kāi)始時(shí)保持在附近,在訓(xùn)練結(jié)束時(shí)趨于。

3.3 Backbone訓(xùn)練

backbone可以使用任何密集的特征描述網(wǎng)絡(luò)。作者提出了一種簡(jiǎn)單的方法來(lái)訓(xùn)練一個(gè)適合場(chǎng)景坐標(biāo)回歸的特征描述網(wǎng)絡(luò)。為了訓(xùn)練backbone,采用DSAC*的圖像級(jí)訓(xùn)練,并將其與課程訓(xùn)練相結(jié)合。用N個(gè)回歸頭并行地訓(xùn)練N個(gè)場(chǎng)景,而不是用一個(gè)回歸頭訓(xùn)練一個(gè)場(chǎng)景的backbone。這種瓶頸架構(gòu)使得backbone預(yù)測(cè)適用于廣泛場(chǎng)景的特性。在ScanNet的100個(gè)場(chǎng)景上訓(xùn)練1周,得到11MB的權(quán)重,可用于在任何新場(chǎng)景上提取密集的描述符。

4 實(shí)驗(yàn)

主要在兩個(gè)室內(nèi)數(shù)據(jù)集7Scenes和12Scenes和一個(gè)室外數(shù)據(jù)集Cambridge上進(jìn)行訓(xùn)練測(cè)試:

5daa2ef4-003a-11ee-90ce-dac502259ad0.png

5db49bd2-003a-11ee-90ce-dac502259ad0.png

和DSAC*比較了在建圖訓(xùn)練上的時(shí)間損耗:

5dbef118-003a-11ee-90ce-dac502259ad0.png

以及在無(wú)地圖定位數(shù)據(jù)集(自己構(gòu)建的 WaySpots)上的定位結(jié)果:

5dc5760a-003a-11ee-90ce-dac502259ad0.png

5dce70f2-003a-11ee-90ce-dac502259ad0.png

5 總結(jié)

這是一個(gè)能夠在5分鐘內(nèi)訓(xùn)練新環(huán)境的重定位算法。

與之前的場(chǎng)景坐標(biāo)回歸方法相比,將建圖的成本和存儲(chǔ)消耗降低了兩個(gè)數(shù)量級(jí),使得算法具有實(shí)用性。

是一篇理論與工程完美結(jié)合的文章。

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 算法
    +關(guān)注

    關(guān)注

    23

    文章

    4739

    瀏覽量

    96724
  • 精度
    +關(guān)注

    關(guān)注

    0

    文章

    268

    瀏覽量

    20659
  • 卷積網(wǎng)絡(luò)
    +關(guān)注

    關(guān)注

    0

    文章

    43

    瀏覽量

    3000

原文標(biāo)題:CVPR 2023 | HighLight:視覺(jué)重定位,同等精度下速度提升300倍

文章出處:【微信號(hào):3D視覺(jué)工坊,微信公眾號(hào):3D視覺(jué)工坊】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    低成本高精度定位方案是未來(lái)市場(chǎng)趨勢(shì),基于uwb高精度定位的案例分析

    高達(dá)10cm。隧道人員高精度定位系統(tǒng)支持全天候考勤,對(duì)施工人員實(shí)時(shí)自動(dòng)(位置)跟蹤,結(jié)合攝像頭可進(jìn)行無(wú)卡檢測(cè),全面掌握施工人員在隧道的活動(dòng)軌跡、位置分布,并且可實(shí)現(xiàn)緊急情況的雙向報(bào)警。最重要的是,當(dāng)遇到隧道突發(fā)事故,可以迅速找
    發(fā)表于 11-09 15:19

    直線電機(jī)定位精度和重復(fù)定位精度

    、直線電機(jī)的定位原理說(shuō)明( 博揚(yáng)直線電機(jī))直線電機(jī),通常根據(jù)機(jī)構(gòu)所要求的精度,配合選擇合適的光柵尺,形成閉環(huán)反饋,精度高直線電機(jī)和光柵尺大致決定了整個(gè)系統(tǒng)的定位
    發(fā)表于 07-12 06:56

    視覺(jué)定位方案求助,謝

    功能:視覺(jué)定位玻璃的位置和角度,給平面4軸機(jī)器人抓取1.附件是我自己用視覺(jué)助手做的驗(yàn)證,很不穩(wěn)定2.相機(jī)是1200W,視野范圍是350*200,玻璃規(guī)格大小有很多,圖片是其中一款3.定位
    發(fā)表于 10-05 17:15

    深圳CCD視覺(jué)檢測(cè)定位系統(tǒng)有什么特點(diǎn)?

    識(shí)別、測(cè)量、定位、判斷等功能。那么深圳CCD視覺(jué)檢測(cè)定位系統(tǒng)有什么特點(diǎn)?相信不少人是有疑問(wèn)的,今天深圳四元數(shù)就跟大家解答一!四元數(shù)CCD視覺(jué)
    發(fā)表于 10-09 14:45

    四元數(shù)數(shù)控:深圳機(jī)器視覺(jué)引導(dǎo)定位是什么?

    過(guò)來(lái)的實(shí)際物品進(jìn)行比較。機(jī)器視覺(jué)引導(dǎo)在許多任務(wù)中都能夠?qū)崿F(xiàn)比人工定位高得多的速度精度,比如將元件放入貨盤(pán)或從貨盤(pán)中拾取元件,對(duì)輸送帶上的元件進(jìn)行包裝,對(duì)元件進(jìn)行
    發(fā)表于 11-24 11:32

    CCD視覺(jué)定位系統(tǒng)在紫外激光打標(biāo)機(jī)上的應(yīng)用

    CCD視覺(jué)紫外激光打標(biāo)機(jī),紫外激光打標(biāo)機(jī)有了CCD視覺(jué)定位系統(tǒng)的加持在標(biāo)記加工領(lǐng)域更是如虎添翼,能夠?qū)⒆贤饧す獯驑?biāo)機(jī)的加工效率提升數(shù)倍,而且標(biāo)記的位置更加精準(zhǔn)。講到這里可能很多人還是不
    發(fā)表于 03-08 14:20

    精度定位技術(shù)需求日益凸顯,和SKYLAB了解一精度定位方案

    三號(hào)性能在北斗二號(hào)的基礎(chǔ)上,提升了1至2定位精度,建成后的北斗全球?qū)Ш较到y(tǒng)將為民用用戶(hù)免費(fèi)提供約10米精度
    的頭像 發(fā)表于 08-06 17:40 ?6432次閱讀

    iOS 12正式版即將推出,高負(fù)載app啟動(dòng)速度最高提升至2

    今日蘋(píng)果官方公眾號(hào)推送了一條消息稱(chēng),iOS 12 也馬上要正式推出,很快就可以下載了。蘋(píng)果表示,iOS 12正式版輕掃打開(kāi)相機(jī)的速度最高提升至70%;鍵盤(pán)的顯示速度最高提升至50%;高
    發(fā)表于 09-17 16:05 ?1257次閱讀

    蘋(píng)果正式宣布了iOS 13系統(tǒng)解鎖速度提升30%應(yīng)用程序啟動(dòng)速度提升

    The Verge報(bào)道稱(chēng),iOS 13系統(tǒng)主要有如下改進(jìn): ·性能提升 與去年的iOS 12一樣,蘋(píng)果也非常重視新系統(tǒng)的性能改進(jìn),特別是舊設(shè)備越來(lái)越慢的問(wèn)題。 蘋(píng)果承諾iOS 13上Face ID的解鎖速度提升
    發(fā)表于 06-04 09:44 ?2068次閱讀

    復(fù)雜環(huán)境的自動(dòng)駕駛高精度定位技術(shù)

    今天為大家分享,自動(dòng)駕駛在復(fù)雜環(huán)境的高精度定位技術(shù)。
    的頭像 發(fā)表于 06-28 13:55 ?5859次閱讀

    教你們視覺(jué)SLAM如何去提高定位精度

    EpsAvlc: 這個(gè)事情的回答需要基于你的動(dòng)機(jī)。 如果你想改進(jìn)已有的算法以獲得在數(shù)據(jù)集上的視覺(jué)里程計(jì)定位精度上的提升,那么我的判斷是比較難。 如果你是在實(shí)際場(chǎng)景中發(fā)現(xiàn)已有的框架(例如
    的頭像 發(fā)表于 07-06 10:57 ?4410次閱讀

    華為DATS路面感知響應(yīng)速度提升100

    華為動(dòng)態(tài)自適應(yīng)扭矩系統(tǒng)(DATS)識(shí)別顛簸路面動(dòng)態(tài),智能調(diào)整扭矩,大幅提升通過(guò)平順性。路面感知響應(yīng)速度提升100。
    的頭像 發(fā)表于 09-06 16:21 ?3722次閱讀
    華為DATS路面感知響應(yīng)<b class='flag-5'>速度</b><b class='flag-5'>提升</b>100<b class='flag-5'>倍</b>

    鐵路轉(zhuǎn)轍機(jī)視覺(jué)精度定位抓取,大幅提升了產(chǎn)線自動(dòng)化、柔性化水平

    鐵路轉(zhuǎn)轍機(jī)視覺(jué)精度定位抓取,高精度2D視覺(jué)大工件定位,既保證了較高的
    的頭像 發(fā)表于 03-22 09:03 ?1127次閱讀

    CVPR 2023:視覺(jué)定位同等精度速度提升300

    與以往基于學(xué)習(xí)的視覺(jué)定位算法的區(qū)別在于:以前的方法往往需要數(shù)小時(shí)或數(shù)天的訓(xùn)練,而且每個(gè)新場(chǎng)景都需要再次進(jìn)行訓(xùn)練,使得該方法在大多數(shù)應(yīng)用程序中不太現(xiàn)實(shí),所以在本文中作者團(tuán)隊(duì)提出的方法改善了這一確定,使得可以在不到5分鐘的時(shí)間內(nèi)實(shí)現(xiàn)同樣的
    的頭像 發(fā)表于 06-05 17:26 ?1908次閱讀
    CVPR 2023:<b class='flag-5'>視覺(jué)</b><b class='flag-5'>重</b><b class='flag-5'>定位</b>,<b class='flag-5'>同等</b><b class='flag-5'>精度</b><b class='flag-5'>下</b><b class='flag-5'>速度</b><b class='flag-5'>提升</b><b class='flag-5'>300</b><b class='flag-5'>倍</b>

    激光焊接視覺(jué)定位引導(dǎo)方法

    激光焊接是一種高效、精確的焊接技術(shù),廣泛應(yīng)用于汽車(chē)制造、航空航天、電子產(chǎn)品等領(lǐng)域。隨著工業(yè)自動(dòng)化和智能化的發(fā)展,激光焊接的精度和效率需求日益增加。在此背景,視覺(jué)定位引導(dǎo)技術(shù)成為
    的頭像 發(fā)表于 05-28 10:34 ?1098次閱讀
    激光焊接<b class='flag-5'>視覺(jué)</b><b class='flag-5'>定位</b>引導(dǎo)方法