chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

一種360°全景定制的Transformer框架

倩倩 ? 來(lái)源:極市平臺(tái) ? 作者:廖康@知乎 ? 2022-08-31 11:06 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

導(dǎo)讀

現(xiàn)有的基于CNN 的全景深度估計(jì)方法側(cè)重于消除全景失真,由于CNN中固定的接收?qǐng)觯瑹o(wú)法有效地感知全景結(jié)構(gòu)。本文提出了一種360°全景定制的Transformer框架,可以很容易地遷移到全景視覺(jué)其他dense prediction任務(wù)上,比如全景圖像語(yǔ)義分割,無(wú)需改變?nèi)魏尉W(wǎng)絡(luò)結(jié)構(gòu)便能取得SOTA性能。

342a6de0-28b9-11ed-ba43-dac502259ad0.jpg

論文鏈接:

https://arxiv.org/pdf/2203.09283.pdf

代碼鏈接:

https://github.com/zhijieshen-bjtu/PanoFormer

文案:申志杰,廖康

343bf8a8-28b9-11ed-ba43-dac502259ad0.jpg

PanoFormer簡(jiǎn)介圖

1. 研究背景及動(dòng)機(jī)

單目全景深度估計(jì)(monocular omnidirectional depth estimation, MODE)是三維場(chǎng)景理解中的一個(gè)子領(lǐng)域,其任務(wù)設(shè)定為給定一張360°全景RGB圖像,通過(guò)網(wǎng)絡(luò)建模推理得到對(duì)應(yīng)的360°深度圖,相較于立體視覺(jué)而言具有更好的便利性。

MODE使用更為常見(jiàn)的等距柱狀投影(ERP)全景圖作為輸入。這與正常的2D perspective圖像存在較大差異:ERP全景圖的360°視角增益是以畸變?yōu)榇鷥r(jià),因此導(dǎo)致整幅圖像存在規(guī)律性的扭曲(畸變程度由圖片水平軸線向垂直邊逐漸增大)。受限于CNN有限的感受野和固定的采樣位置,這種畸變特性使得MODE具有獨(dú)立于傳統(tǒng)單目深度估計(jì)任務(wù)之外的挑戰(zhàn)性。

當(dāng)然,此前的一些工作提出基于CUBE和ERP投影的雙分支融合結(jié)構(gòu)來(lái)增強(qiáng)網(wǎng)絡(luò)對(duì)于大畸變區(qū)域的特征提取和建模能力,但需要注意的是,CUBE格式的全景圖在投影過(guò)程中會(huì)有25%像素的丟失,這直接導(dǎo)致CUBE分支深度圖的模糊。如此兩個(gè)分支的有限結(jié)果決定了其性能上限。為了解決像素?fù)p失這一問(wèn)題,后續(xù)有工作提出基于旋轉(zhuǎn)CUBE設(shè)計(jì)雙分支結(jié)構(gòu),一定程度上緩和了這一矛盾。

隨著Transformer網(wǎng)絡(luò)框架的興起,其獨(dú)特的long-range建模能力為解決大畸變問(wèn)題提供了一個(gè)新的思路。但“拿來(lái)主義”真能行得通嗎?

2. 應(yīng)用挑戰(zhàn)

首先,我們回顧一下傳統(tǒng)的視覺(jué)Transformer在處理圖像時(shí)的步驟并分析一下其在ERP圖像上的應(yīng)用挑戰(zhàn):

劃分patch

在以ERP格式作為輸入的前提下會(huì)有兩種劃分patch的方法:(1)直接等間距劃分patch;(2)將球面全景圖投影成重疊的perspective視口自然地作為patch。首先,直接劃分patch的方法會(huì)顯著破壞大畸變區(qū)域的結(jié)構(gòu),而perspective視口可以將跨度非常大的物體投影回一個(gè)patch。這樣對(duì)比來(lái)看似乎后者更有趣且合理。

Patch->Embedding->Token

視覺(jué)Transformer中做位置嵌入是通過(guò)線性層壓縮特征維度實(shí)現(xiàn)的,那這種特征維度的壓縮對(duì)于深度估計(jì)這一類像素級(jí)回歸任務(wù)來(lái)說(shuō)會(huì)不會(huì)造成信息的丟失,從而導(dǎo)致性能的下降?

位置嵌入

此前的一些工作指出,在視覺(jué)領(lǐng)域位置嵌入能夠貢獻(xiàn)的力量似乎并沒(méi)有很大,且比較雞肋,很多工作甚至直接摒棄了位置嵌入模塊,他們認(rèn)為網(wǎng)絡(luò)中所引入的卷積結(jié)構(gòu)會(huì)暗含位置信息。但考慮步驟1,如果我們采用perspective視口patch的劃分方式,其真實(shí)的空間位置已經(jīng)發(fā)生了改變,因此一個(gè)合適的位置嵌入策略在MODE中是迫切需要的。那么如何設(shè)計(jì)一個(gè)合理的位置嵌入方式呢?

Self-attention

自注意力模塊通過(guò)壓縮后的特征生成q, k, v依次查詢計(jì)算全局注意力,如果我們的embedding設(shè)計(jì)成像素級(jí),將會(huì)帶來(lái)很大的計(jì)算復(fù)雜度,如何解決?

為了解決這些問(wèn)題我們提出了一種360°全景定制的Transformer框架。

3. 方法

344a7464-28b9-11ed-ba43-dac502259ad0.jpg

Spherical Token Locating Model (STLM)

劃分patch

如前所述,我們劃分patch可以盡可能地通過(guò)投影的方式劃分patch而不是直接在ERP圖上劃分。投影我們選擇CUBE格式的perspective視口。那么問(wèn)題是,我們?nèi)绾芜x擇CUBE patch的切點(diǎn)?以及如何確定patch的大???不考慮計(jì)算復(fù)雜度,我們可以將每個(gè)像素點(diǎn)都作為一次切點(diǎn),這樣信息會(huì)盡可能地全部保留。至于大小,我們?cè)谇懊嬗懻摿薈UBE投影的弊端之一是像素丟失,在這里我們還要討論一種弊端:對(duì)于CUBE投影面,理想情況下僅有CUBE的中心點(diǎn)(即切點(diǎn))不存在畸變,除此之外,其他位置會(huì)呈現(xiàn)出由切點(diǎn)向四周逐漸增大的畸變趨勢(shì)。考慮一種極端的情況,當(dāng)CUBE的大小收縮到極致,即每個(gè)CUBE面僅由中心切點(diǎn)及其周圍的八個(gè)點(diǎn)組成,CUBE面近似貼近球面,畸變影響降至最小。我們將此時(shí)的CUBE面稱為Tangent patch。

Embedding

從盡可能提高性能的角度出發(fā),我們可以通過(guò)等價(jià)映射將每個(gè)像素點(diǎn)映射成一個(gè)Token。區(qū)別于傳統(tǒng)Transformer中將每個(gè)Patch嵌入為每個(gè)Token,我們直接將每個(gè)Tangent Patch上的采樣點(diǎn)當(dāng)作Token。直觀的理解,我們的patch和token都是手工劃分的,patch在我們的網(wǎng)絡(luò)中多為一種抽象的概念,我們直接的操作對(duì)象是Token(采樣點(diǎn)),即每個(gè)切點(diǎn)及其周圍的八個(gè)點(diǎn)。

位置嵌入

Tangent Patch是相對(duì)于球面而言,為了定義其空間位置屬性,我們將手工劃分的patch反投影到ERP圖上。注意在球面全景圖上每個(gè)patch由切點(diǎn)及其周圍的八個(gè)投影點(diǎn)組成,而在ERP圖上這種空間對(duì)應(yīng)關(guān)系發(fā)生了改變,由于畸變的存在,他們?cè)贓RP上幾乎不再相鄰。這種位置投影對(duì)應(yīng)關(guān)系恰恰提供了我們Transformer里面所需要的位置嵌入。

34580d36-28b9-11ed-ba43-dac502259ad0.jpg

Panoramic Structure-guided Transformer (PST) block

計(jì)算注意力

首先如果我們像傳統(tǒng)Transformer那樣計(jì)算注意力,其計(jì)算開(kāi)銷非常大,但得益于我們patch劃分方式和位置嵌入策略,我們似乎找到了其最相關(guān)的位置對(duì)應(yīng)關(guān)系,即切點(diǎn)token及與其最相關(guān)的8個(gè)token。那么我們可以僅僅通過(guò)計(jì)算切點(diǎn)token(或中心token)與這8個(gè)token的注意力即可。但問(wèn)題如果這樣做,我們會(huì)犯了一個(gè)非常大的錯(cuò)誤,即把token的位置鎖死了,使得我們的網(wǎng)絡(luò)架構(gòu)喪失了傳統(tǒng)Transformer固有的靈活性。為了解決這一問(wèn)題,我們提出了token flow的概念,即通過(guò)學(xué)習(xí)一個(gè)偏移來(lái)彌補(bǔ)其結(jié)構(gòu)上靈活性的喪失。意外之喜是,這種流式的概念可以使網(wǎng)絡(luò)更好地建模全景結(jié)構(gòu)這一重要的深度線索。

最后,我們基于設(shè)計(jì)的PST block構(gòu)建最終的PanoFormer網(wǎng)絡(luò)框架:

346f3fba-28b9-11ed-ba43-dac502259ad0.jpg

PanoFormer網(wǎng)絡(luò)架構(gòu)圖

4. 新指標(biāo)

為了突出模型對(duì)于大畸變區(qū)域的建模能力,我們通過(guò)選取6個(gè)CUBE投影面的上下兩個(gè)面來(lái)設(shè)計(jì)Pole-RMSE指標(biāo)。(注意此指標(biāo)的應(yīng)用的一個(gè)前提條件是全景相機(jī)水平放置,目前的流行的數(shù)據(jù)集大都遵循這一假設(shè)。)

考慮到ERP全景圖的特性,左右可以實(shí)現(xiàn)無(wú)縫拼接,我們提出LRCE指標(biāo)來(lái)反映模型的長(zhǎng)距離建模能力。

詳細(xì)計(jì)算過(guò)程請(qǐng)參考論文。

5. 實(shí)驗(yàn)結(jié)果

我們?cè)谒膫€(gè)主流的MODE數(shù)據(jù)集上對(duì)我們的模型進(jìn)行了評(píng)估,結(jié)果顯示我們的模型取得了更有競(jìng)爭(zhēng)力的結(jié)果。但由于Stanford2D3D以及Matterport3D數(shù)據(jù)集的固有缺陷導(dǎo)致我們沒(méi)有辦法在這兩個(gè)數(shù)據(jù)集上評(píng)測(cè)我們的新指標(biāo)(P-RMSE),因此我們?cè)谶@兩個(gè)數(shù)據(jù)集上只報(bào)道了MRE和MAE的指標(biāo)性能,這兩個(gè)指標(biāo)的計(jì)算參照SliceNet(CVPR'21)所開(kāi)源的代碼執(zhí)行。此外,關(guān)于數(shù)據(jù)集的一些討論詳情見(jiàn)gihub代碼鏈接。

值得一提的是,PanoFormer可以很容易地遷移到全景視覺(jué)其他dense prediction任務(wù)上,比如全景圖像語(yǔ)義分割,無(wú)需改變?nèi)魏尉W(wǎng)絡(luò)結(jié)構(gòu)便能取得SOTA性能。

34877724-28b9-11ed-ba43-dac502259ad0.jpg

客觀指標(biāo)

34a098da-28b9-11ed-ba43-dac502259ad0.jpg

主觀對(duì)比

34b0608a-28b9-11ed-ba43-dac502259ad0.jpg

全景語(yǔ)義分割客觀指標(biāo)

6. 局限性

關(guān)于更高分辨率的擴(kuò)展計(jì)算復(fù)雜度可能是我們工作的一個(gè)待提升的點(diǎn)。這可以通過(guò)在encoder階段增加下采樣層,在decoder階段增加插值操作得到緩解。此外,如果仔細(xì)觀察可以發(fā)現(xiàn)attention計(jì)算部分存在比較多重復(fù)計(jì)算的情況,這可能是優(yōu)化我們網(wǎng)絡(luò)的一個(gè)方向。

希望我們的工作可以為該領(lǐng)域帶來(lái)啟發(fā)。

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 框架
    +關(guān)注

    關(guān)注

    0

    文章

    404

    瀏覽量

    18416
  • 數(shù)據(jù)集
    +關(guān)注

    關(guān)注

    4

    文章

    1236

    瀏覽量

    26187
  • Transformer
    +關(guān)注

    關(guān)注

    0

    文章

    156

    瀏覽量

    6937

原文標(biāo)題:首個(gè)360°全景定制的單目深度估計(jì)Transformer-PanoFormer(ECCV 2022)

文章出處:【微信號(hào):3D視覺(jué)工坊,微信公眾號(hào):3D視覺(jué)工坊】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    Transformer如何讓自動(dòng)駕駛大模型獲得思考能力?

    在談及自動(dòng)駕駛時(shí),Transformer直是非常關(guān)鍵的技術(shù),為何Transformer在自動(dòng)駕駛行業(yè)直被提及?
    的頭像 發(fā)表于 02-01 09:15 ?4151次閱讀

    一種無(wú)OS的MCU實(shí)用軟件框架

    介紹一種無(wú)OS的MCU實(shí)用軟件框架,包括任務(wù)輪詢管理,命令管理器、低功耗管理、環(huán)形緩沖區(qū)等實(shí)用模塊。系統(tǒng)中廣泛利用自定義段技術(shù)減少各個(gè)模塊間的耦合關(guān)系,大大提供程序的可維護(hù)性。 主要功能 支持模塊
    發(fā)表于 01-08 06:58

    Transformer如何讓自動(dòng)駕駛變得更聰明?

    ]自動(dòng)駕駛中常提的Transformer本質(zhì)上是一種神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),最早在自然語(yǔ)言處理里火起來(lái)。與卷積神經(jīng)網(wǎng)絡(luò)(CNN)或循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)不同,Transformer能夠自動(dòng)審視所有輸入信息,并動(dòng)態(tài)判斷哪些部分更為關(guān)鍵,同時(shí)
    的頭像 發(fā)表于 11-19 18:17 ?2252次閱讀

    為什么360°鏡頭容易“踩坑”?

    視場(chǎng)角來(lái)更直觀地描述其視野范圍。如何選擇與避坑?明確你的FOV需求:全視野(360°x180°):鏡頭正上方的半球形全景。這是最常見(jiàn)的360°鏡頭,能次性覆蓋機(jī)器
    的頭像 發(fā)表于 11-18 11:29 ?524次閱讀
    為什么<b class='flag-5'>360</b>°鏡頭容易“踩坑”?

    【「AI芯片:科技探索與AGI愿景」閱讀體驗(yàn)】+第二章 實(shí)現(xiàn)深度學(xué)習(xí)AI芯片的創(chuàng)新方法與架構(gòu)

    徹底改變了自然語(yǔ)義處理的研究和應(yīng)用。它引入了自注意機(jī)制和位置編碼,能夠有效的捕捉輸入序列中的關(guān)聯(lián)信息,實(shí)現(xiàn)更好的上下文理解和建模。 Transformer 模型由個(gè)編碼器和個(gè)解碼器組成,是
    發(fā)表于 09-12 17:30

    12 路 1080P 滿負(fù)載!米爾 RK3576 補(bǔ)全車載 360° 全景影像視野

    對(duì)車載 360° 全景影像來(lái)說(shuō),“看得全” 是基礎(chǔ),“看得清、看得快” 才是核心 —— 而這切的關(guān)鍵,在于硬件能否扛住多路高清視頻流的實(shí)時(shí)處理壓力。米爾電子基于瑞芯微 RK3576 打造的開(kāi)發(fā)板
    發(fā)表于 09-11 17:16

    一種適用于動(dòng)態(tài)環(huán)境的自適應(yīng)先驗(yàn)場(chǎng)景-對(duì)象SLAM框架

    由于傳統(tǒng)視覺(jué)SLAM在動(dòng)態(tài)場(chǎng)景中容易會(huì)出現(xiàn)嚴(yán)重的定位漂移,本文提出了一種新穎的基于場(chǎng)景-對(duì)象的可靠性評(píng)估框架,該框架通過(guò)當(dāng)前幀質(zhì)量指標(biāo)以及相對(duì)于可靠參考幀的場(chǎng)景變化,全面評(píng)估SLAM的穩(wěn)定性。
    的頭像 發(fā)表于 08-19 14:17 ?870次閱讀
    <b class='flag-5'>一種</b>適用于動(dòng)態(tài)環(huán)境的自適應(yīng)先驗(yàn)場(chǎng)景-對(duì)象SLAM<b class='flag-5'>框架</b>

    一種抗輻射加固檢錯(cuò)糾錯(cuò)電路的設(shè)計(jì)

    電子發(fā)燒友網(wǎng)站提供《一種抗輻射加固檢錯(cuò)糾錯(cuò)電路的設(shè)計(jì).pdf》資料免費(fèi)下載
    發(fā)表于 08-11 15:38 ?0次下載

    米爾RK3576核心板,讓360環(huán)視技術(shù)開(kāi)發(fā)更簡(jiǎn)單

    了專為視覺(jué)感知技術(shù)設(shè)計(jì)的RK3576核心板。這核心板兼顧性能、靈活性和易用性,旨在幫助開(kāi)發(fā)人員快速實(shí)現(xiàn)360環(huán)視方案。 米爾RK3576核心板資源框圖 ? 支持4路攝像頭,輕松實(shí)現(xiàn)全景拼接
    發(fā)表于 08-06 18:13

    Transformer架構(gòu)概述

    由于Transformer模型的出現(xiàn)和快速發(fā)展,深度學(xué)習(xí)領(lǐng)域正在經(jīng)歷場(chǎng)翻天覆地的變化。這些突破性的架構(gòu)不僅重新定義了自然語(yǔ)言處理(NLP)的標(biāo)準(zhǔn),而且拓寬了視野,徹底改變了AI的許多方面。
    的頭像 發(fā)表于 06-10 14:24 ?1281次閱讀
    <b class='flag-5'>Transformer</b>架構(gòu)概述

    重量級(jí)玩家入局,全景相機(jī)越來(lái)越卷?

    ? 電子發(fā)燒友網(wǎng)報(bào)道(文/黃晶晶)日前消息稱,大疆首款全景相機(jī)DJI Osmo 360進(jìn)入發(fā)布倒計(jì)時(shí),方面大疆的產(chǎn)品版圖拓寬,另方面當(dāng)前全景
    的頭像 發(fā)表于 06-08 07:57 ?6557次閱讀
    這<b class='flag-5'>一</b>重量級(jí)玩家入局,<b class='flag-5'>全景</b>相機(jī)越來(lái)越卷?

    一種新型寬帶鞭狀套筒天線

    電子發(fā)燒友網(wǎng)站提供《一種新型寬帶鞭狀套筒天線.pdf》資料免費(fèi)下載
    發(fā)表于 05-28 14:05 ?0次下載

    一種實(shí)時(shí)多線程VSLAM框架vS-Graphs介紹

    針對(duì)現(xiàn)有VSLAM系統(tǒng)語(yǔ)義表達(dá)不足、地圖可解釋性差的問(wèn)題,本文提出vS-Graphs,一種實(shí)時(shí)多線程VSLAM框架。該方案顯著提升了重建地圖的語(yǔ)義豐富度、可解釋性及定位精度。實(shí)驗(yàn)表明
    的頭像 發(fā)表于 04-19 14:07 ?997次閱讀
    <b class='flag-5'>一種</b>實(shí)時(shí)多線程VSLAM<b class='flag-5'>框架</b>vS-Graphs介紹

    DuxCam G2S全景相機(jī),提供360°全景測(cè)繪解決方案

    。配合6目定制魚眼鏡頭緊密排布設(shè)計(jì),多鏡頭視差相對(duì)競(jìng)品降低35%,顯著提升全景圖像的空間致性。 3. 智能圖像處理管線 內(nèi)置專業(yè)攝影機(jī)同系列ISP芯片,智能圖像處理管線,支持7200萬(wàn)像素滿分辨率下
    發(fā)表于 04-07 16:26

    一種多模態(tài)駕駛場(chǎng)景生成框架UMGen介紹

    端到端自動(dòng)駕駛技術(shù)的快速發(fā)展對(duì)閉環(huán)仿真器提出了迫切需求,而生成式模型為其提供了一種有效的技術(shù)架構(gòu)。然而,現(xiàn)有的駕駛場(chǎng)景生成方法大多側(cè)重于圖像模態(tài),忽略了其他關(guān)鍵模態(tài)的建模,如地圖信息、智能交通參與者等,從而限制了其在真實(shí)駕駛場(chǎng)景中的適用性。
    的頭像 發(fā)表于 03-24 15:57 ?1681次閱讀
    <b class='flag-5'>一種</b>多模態(tài)駕駛場(chǎng)景生成<b class='flag-5'>框架</b>UMGen介紹