chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

基于深度學(xué)習(xí)的三維點云分類方法

3D視覺工坊 ? 來源:3D視覺工坊 ? 2024-10-29 09:43 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

來源:3D視覺工坊

2. 摘要

近年來,點云表示已成為計算機視覺領(lǐng)域的研究熱點之一,并廣泛應(yīng)用于自動駕駛、虛擬現(xiàn)實、機器人等許多領(lǐng)域。雖然深度學(xué)習(xí)技術(shù)在處理常規(guī)結(jié)構(gòu)化的二維網(wǎng)格圖像數(shù)據(jù)方面取得了巨大成功,但在處理不規(guī)則、非結(jié)構(gòu)化的點云數(shù)據(jù)方面仍面臨著巨大挑戰(zhàn)。點云分類是點云分析的基礎(chǔ),許多基于深度學(xué)習(xí)的方法已被廣泛應(yīng)用于此任務(wù)。因此,本文旨在為該領(lǐng)域的研究人員提供最新的研究進展和未來趨勢。首先,我們介紹點云獲取、特征和挑戰(zhàn)。其次,我們回顧了用于點云分類的3D數(shù)據(jù)表示、存儲格式和常用數(shù)據(jù)集。然后,我們總結(jié)了基于深度學(xué)習(xí)的點云分類方法,并補充了最近的研究工作。接下來,我們比較和分析了主要方法的性能。最后,我們討論了點云分類的一些挑戰(zhàn)和未來方向。

3.引言

近年來,計算機視覺領(lǐng)域的二維圖像處理技術(shù)已接近成熟,許多研究人員已將研究重點轉(zhuǎn)向更符合現(xiàn)實世界的三維場景。在三維場景中,點云因其豐富的表達(dá)信息而在表示三維場景中發(fā)揮著重要作用。因此,點云已成為三維視覺研究中常見的數(shù)據(jù)表達(dá)形式。隨著技術(shù)的進步,點云數(shù)據(jù)的獲取變得越來越智能和便捷,有許多獲取方法,例如:激光雷達(dá)檢測、通過3D模型計算獲取點云、通過2D圖像進行3D重建獲取點云等。作為最基本的點云分析任務(wù),點云分類已廣泛應(yīng)用于安全檢測、目標(biāo)物體檢測、醫(yī)學(xué)和三維重建等許多領(lǐng)域。點云分類的目的是為點云中的每個點配備一個標(biāo)記,以識別點云的整體或部分屬性。由于點云的組成屬性屬于點云分割的范疇,在本文中,我們主要關(guān)注點云的整體屬性,即點云分類。如圖1所示,3D數(shù)據(jù)有各種表示形式。目前,可以將點云轉(zhuǎn)換為網(wǎng)格、體素或多視圖數(shù)據(jù),通過間接方法學(xué)習(xí)3D對象表示,但這些方法容易出現(xiàn)問題,如丟失對象的3D幾何信息或內(nèi)存消耗過多。在PointNet之前,由于點云的無序性和不規(guī)則性,深度學(xué)習(xí)技術(shù)無法直接處理點云。早期的點云處理使用手工設(shè)計的規(guī)則進行特征提取,然后使用基于機器學(xué)習(xí)的分類器(如支持向量機(SVM)、AdaBoost、隨機森林(RF)等)來預(yù)測點云的類別標(biāo)簽,但這些分類方法具有較差的適應(yīng)能力,并且容易受到噪聲的影響。一些研究通過合成上下文信息來解決噪聲問題,例如條件隨機場(CRF)、馬爾可夫隨機場(MRF)等,這在一定程度上提高了分類性能。然而,手工設(shè)計規(guī)則提取的特征表達(dá)能力有限,特別是在復(fù)雜場景下,模型的準(zhǔn)確性和泛化能力無法滿足人類的需求,而且這種方法嚴(yán)重依賴于具有專業(yè)知識和經(jīng)驗的研究人員。隨著計算機計算和數(shù)據(jù)處理能力的迅速發(fā)展,深度學(xué)習(xí)技術(shù)在點云分析中的應(yīng)用也得到了推廣。斯坦福大學(xué)的Charles等人于2017年發(fā)表的一篇論文提出了一個直接處理點云的深度學(xué)習(xí)網(wǎng)絡(luò),PointNet。這篇論文是一個里程碑,直接處理點云的方法逐漸占據(jù)主導(dǎo)地位。面對3D點云的無序性、無規(guī)律性和稀疏性,點云分類仍然是一個具有挑戰(zhàn)性的問題。目前有一些綜述分析和總結(jié)基于深度學(xué)習(xí)的3D點云分類方法。本文在以往工作的基礎(chǔ)上進行了改進,并增加了新的基于深度學(xué)習(xí)的3D點云分類方法,如最近流行的基于Transformer的方法。最后,展望了3D點云分類技術(shù)的未來研究方向。文章的整體結(jié)構(gòu)如圖2所示。具體來說,我們工作的主要貢獻如下:

我們首先對3D數(shù)據(jù)進行了詳細(xì)介紹,深入解釋了點云,以便讀者理解,并提供了用于點云分類的數(shù)據(jù)集及其獲取方法。

我們總結(jié)了最近發(fā)表的關(guān)于點云分類的研究綜述,基于此補充了最新研究方法。這些方法根據(jù)其特點分為四類,包括基于多視圖的、基于體素的、基于點云的方法和基于多形態(tài)融合的方法。然后將點云方法細(xì)分。

我們根據(jù)它們的分類特點,討論了各類方法的優(yōu)勢和局限性。這種分類更適合研究人員根據(jù)實際需求探索這些方法。

我們提供了方法的評估指標(biāo)和性能比較,以更好地展示各種方法在數(shù)據(jù)集上的性能,然后分析了該領(lǐng)域的一些當(dāng)前挑戰(zhàn)和未來趨勢。

92f65920-90d5-11ef-a511-92fbcf53809c.png

4. 3D數(shù)據(jù)

93118772-90d5-11ef-a511-92fbcf53809c.png

A. 3D數(shù)據(jù)表示

3D數(shù)據(jù)有各種表示形式,例如點云、網(wǎng)格和體素。

點云:點云本質(zhì)上是在3D空間中繪制的大量微小點的集合,如圖1(a)所示,它由使用3D激光掃描儀捕獲的大量點組成。這些點可以表達(dá)目標(biāo)的空間分布和表面特征。點云中的每個點包含豐富的信息,例如:三維坐標(biāo)(x、y、z)、顏色信息(r、g、b)和表面法向量等。

網(wǎng)格:3D數(shù)據(jù)也可以用網(wǎng)格網(wǎng)格表示,可以視為建立點之間局部關(guān)系的點集。三角網(wǎng)格,也稱為三角面片(如圖1(b)所示),是描述3D對象的常用網(wǎng)格之一。一個切片的點和邊的集合稱為網(wǎng)格。

體素:在3D對象表示中,體素也是一種重要的3D數(shù)據(jù)表示形式,如圖1(c)所示,體素擅長表示非均勻填充的規(guī)則采樣空間,因此,體素可以有效地表示具有大量空白或均勻填充空間的點云數(shù)據(jù)。通過將點云數(shù)據(jù)進行體素化,有利于提高數(shù)據(jù)計算效率并減少對隨機存儲器的訪問,但是點云數(shù)據(jù)的體素化不可避免地會帶來一定程度的信息丟失。

多視圖:多視圖圖像(如圖1(d)所示)也是點云數(shù)據(jù)的表示形式,它源自單視圖圖像,是將3D對象渲染為在特定角度下的多個視點的圖像。挑戰(zhàn)主要在于透視和透視融合的選擇。

B. 點云數(shù)據(jù)存儲格式

點云有數(shù)百種文件格式可用,不同的掃描儀會以許多格式生成原始數(shù)據(jù)。點云數(shù)據(jù)文件之間的最大區(qū)別在于使用ASCII和二進制。二進制系統(tǒng)直接將數(shù)據(jù)存儲在二進制代碼中。常見的點云二進制格式包括FLS、PCD、LAS等。其他幾種常見文件類型可以同時支持ASCII和二進制格式。其中包括PLY、FBX。E57以ASCII和二進制代碼存儲數(shù)據(jù),并將許多ASCII和二進制的優(yōu)點結(jié)合在一個文件類型中。以下是一些常用的點云數(shù)據(jù)存儲格式:

Obj:obj格式的點云文件由Wavefront Technologies開發(fā)。它是一個文本文件。它是一種簡單的數(shù)據(jù)格式,僅表示3D數(shù)據(jù)的幾何、法線、顏色和紋理信息。這種格式通常以ASCII形式表示,但也有專有的obj二進制版本。

Las:las格式主要用于存儲LIDAR點云數(shù)據(jù),本質(zhì)上是一個二進制格式文件。LAS文件由三部分組成:頭文件區(qū)(包括點總數(shù)、數(shù)據(jù)范圍、每個點的維度信息)、可變長度記錄區(qū)(包括坐標(biāo)系、額外維度等)、點集記錄區(qū)(包括點坐標(biāo)信息、R、G、B信息、分類信息、強度信息等)。las格式考慮到LIDAR數(shù)據(jù)的特點,結(jié)構(gòu)合理,易于擴展。

Ply:PLY的全稱是Polygon File Format,受obj啟發(fā),專門用于存儲3D數(shù)據(jù)。PLY使用名義上的平面多邊形列表來表示對象。它可以存儲包括顏色、透明度、表面法向量、紋理坐標(biāo)和數(shù)據(jù)置信度在內(nèi)的信息,并且可以為多邊形的前后兩側(cè)設(shè)置不同的屬性。該文件有兩個版本,一個是ASCII版本,一個是二進制版本。

E57:E57是用于點云存儲的供應(yīng)商中立文件格式。它還可以用于存儲激光掃描儀和其他3D成像系統(tǒng)生成的圖像和元數(shù)據(jù)信息,是一個使用固定大小字段和記錄的嚴(yán)格格式。它使用ASCII和二進制代碼保存數(shù)據(jù),并提供了ASCII的大部分可訪問性和二進制的速度,可以存儲3D點云數(shù)據(jù)、屬性、圖像。

PCD:PCD是Point Cloud Library的官方指定格式。它由頭文件和點云數(shù)據(jù)兩部分組成。它用于描述點云的整體信息。它有兩種數(shù)據(jù)存儲類型,ASCII和二進制,但PCD文件的頭文件必須使用ASCII編碼。PCD的一個好處是它很好地適應(yīng)了PCL,與PCL應(yīng)用程序相比,性能最高。

C. 3D點云公共數(shù)據(jù)集

今天,許多工業(yè)和大學(xué)提供了許多點云數(shù)據(jù)集。不同方法在這些數(shù)據(jù)集上的表現(xiàn)反映了方法的可靠性和準(zhǔn)確性。這些數(shù)據(jù)集包含虛擬或真實場景,可以為網(wǎng)絡(luò)訓(xùn)練提供地面真實標(biāo)簽。在本節(jié)中,我們將介紹一些常用的點云分類數(shù)據(jù)集,每個數(shù)據(jù)集的劃分如表I所示。

ModelNet40:該數(shù)據(jù)集由普林斯頓大學(xué)的視覺和機器人實驗室開發(fā)。ModelNet40數(shù)據(jù)集包含合成CAD對象。作為最廣泛使用的點云分析基準(zhǔn),ModelNet40因其多樣的類別、清晰的形狀和良好結(jié)構(gòu)的數(shù)據(jù)集而受歡迎。該數(shù)據(jù)集包含40個類別的對象(例如飛機、汽車、植物、燈具),其中9843個用于訓(xùn)練,2468個用于測試。相應(yīng)的點是從網(wǎng)格表面均勻采樣的,然后通過移動到原點并縮放到單位球來進一步預(yù)處理。

ModelNet-C:ModelNet-C集合包含185,000個不同的點云,是基于ModelNet40驗證集創(chuàng)建的。這個數(shù)據(jù)集主要用于測試3D點云識別的損傷魯棒性,其中包括15種損傷類型和每種損傷類型的5種嚴(yán)重程度,例如噪聲、密度等。有助于了解模型的魯棒性。

ModelNet10:ModelNet10是ModelNet40的一個子集,該數(shù)據(jù)集僅包含10個類別,分為3991個訓(xùn)練和908個測試形狀。

Sydney Urban Objects:該數(shù)據(jù)集收集于悉尼中央商務(wù)區(qū),包含各種常見的城市道路物體,包括631個類別為車輛、行人、標(biāo)志和樹木的掃描對象。

ShapeNet:ShapeNet是由斯坦福大學(xué)、普林斯頓大學(xué)和芝加哥豐田技術(shù)研究所的研究人員開發(fā)的大型3D CAD模型倉庫。該倉庫包含超過3億個模型,其中22萬個模型被分類為3135個類別,使用WordNet上下位關(guān)系排列。ShapeNetCore是ShapeNet的一個子集,包括近51,300個獨特的3D模型。它提供了55個常見物體類別和注釋。ShapeNetSem也是ShapeNet的一個子集,包含12,000個模型。規(guī)模較小,但覆蓋面更廣,包括270個類別。

ScanNet:ScanNet是一個實例級室內(nèi)RGB-D數(shù)據(jù)集,包含2D和3D數(shù)據(jù)。它是一個帶標(biāo)記的體素集合,而不是點或?qū)ο?。截至目前,最新版本的ScanNet,ScanNet v2,已經(jīng)收集了1513個帶有大約90%表面覆蓋率的標(biāo)記掃描。在語義分割任務(wù)中,該數(shù)據(jù)集用20個類別的注釋3D體素化對象進行標(biāo)記。

ScanObjectNN:ScanObjectNN是一個由2902個3D對象組成的真實世界數(shù)據(jù)集,分為15個類別,由于數(shù)據(jù)集中的背景、缺失部分和變形等因素,這是一個具有挑戰(zhàn)性的點云分類數(shù)據(jù)集。

93251f58-90d5-11ef-a511-92fbcf53809c.png933fc0b0-90d5-11ef-a511-92fbcf53809c.png935a3c92-90d5-11ef-a511-92fbcf53809c.png

5. 基于深度學(xué)習(xí)的點云分類方法

基于深度學(xué)習(xí)的點云分類模型由于其強大的泛化能力和高分類準(zhǔn)確性等優(yōu)勢,在點云分析中得到了廣泛應(yīng)用。本節(jié)詳細(xì)介紹了基于深度學(xué)習(xí)的點云分類方法的劃分,并補充了一些最近的研究工作。圖3顯示了每種分類方法的發(fā)表時間表。

A. 基于多視圖的方法

基于多視圖的方法利用多個視角的信息來描述和識別3D形狀。這種方法的優(yōu)勢在于可以從不同的角度獲取豐富的特征信息,從而提高了形狀識別的準(zhǔn)確性。然而,基于多視圖的方法在處理大規(guī)模場景和利用3D數(shù)據(jù)的固有幾何關(guān)系方面仍然存在挑戰(zhàn)。例如,在將多個視圖特征轉(zhuǎn)換為全局特征時,會忽略其他非最大元素的信息,導(dǎo)致信息丟失。因此,改進基于多視圖的方法以充分利用信息,并解決大規(guī)模場景和幾何關(guān)系的挑戰(zhàn)是未來研究的方向。

B. 基于體素的方法

基于體素的方法將3D點云模型轉(zhuǎn)換為體素形式,每個體素塊包含一組相關(guān)點,并使用3D卷積神經(jīng)網(wǎng)絡(luò)對體素進行分類。這種方法可以有效地表示對象的形狀,并在3D對象識別中取得了良好的效果。然而,由于3D卷積計算復(fù)雜,對于體素進行卷積會增加模型的復(fù)雜性。為了降低內(nèi)存消耗和提高計算效率,一些學(xué)者使用了八叉樹結(jié)構(gòu)代替固定分辨率的體素結(jié)構(gòu)。八叉樹結(jié)構(gòu)使得網(wǎng)絡(luò)可以更深層次地表示數(shù)據(jù),而不影響分辨率。然而,八叉樹結(jié)構(gòu)也存在一些局限性,例如不能充分利用局部數(shù)據(jù)特征,因此未來研究可以致力于解決這些問題以提高基于體素的方法在點云分類中的效果。

C. 基于點云的方法

許多當(dāng)前的研究方法更多地關(guān)注于使用深度學(xué)習(xí)技術(shù)直接處理點云。特征聚合運算符是處理點云的核心,它實現(xiàn)了離散點的信息傳遞。特征聚合運算符主要分為兩類:局部特征聚合和全局特征聚合。在本節(jié)中,從特征聚合的角度出發(fā),將介紹這兩類方法。 2017年,齊等人提出的PointNet(如圖7所示)是基于點云的方法的開創(chuàng)性研究,這是一種全局特征聚合的方法。該方法直接將點云作為輸入,通過T-Net模塊對其進行變換,然后通過共享全連接學(xué)習(xí)每個點,最后通過最大池化函數(shù)將點的特征聚合成全局特征。盡管PointNet是基于深度學(xué)習(xí)的先驅(qū),但仍然存在缺陷。例如,PointNet只捕捉了單個點和全局點的特征信息,但并未考慮相鄰點的關(guān)系表示,這使得PointNet無法有效地進行細(xì)粒度分類。

937c0214-90d5-11ef-a511-92fbcf53809c.png

局部特征聚合

局部特征聚合是點云處理的核心,實現(xiàn)了離散點的信息傳遞。從特征聚合的角度來看,局部特征聚合分為兩類方法:點對點方法和基于采樣的方法。點對點方法如PointNet++通過分層處理點云,每一層包含采樣、分組和PointNet層,能夠處理局部鄰域的特征,并考慮點之間的關(guān)系。在此基礎(chǔ)上,一些方法如PointNeXt、PointWeb和RandLA-Net進一步改進了局部特征的提取和聚合方式,提高了性能和效率?;诓蓸拥姆椒ㄍㄟ^空間填充曲線等方式對點云進行采樣,然后通過特征融合模塊學(xué)習(xí)結(jié)構(gòu)和相關(guān)信息,如PointSCNet。另外,一些方法如GDANet引入了幾何解纏模塊來捕捉和細(xì)化幾何信息,取得了良好的效果。局部特征聚合方法的發(fā)展使得點云處理能夠更好地捕捉局部結(jié)構(gòu),提高了處理效率和性能。

基于卷積的方法

基于卷積的方法將傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)(CNN)擴展到處理不規(guī)則的三維點云數(shù)據(jù)上,是處理點云分類的重要方法。這些方法主要包括以下方面的研究:

Point Convolution:將點云上的函數(shù)擴展為連續(xù)體函數(shù),并在此基礎(chǔ)上進行卷積操作,例如PCNN(Point Convolutional Neural Network)。

Relation-based Convolution:通過建立點云中點與點之間的關(guān)系來進行卷積操作,如RS-CNN(Relational Shape Convolutional Networks)。

Dynamic Filter Convolution:應(yīng)用動態(tài)濾波器來處理點云上的卷積操作,例如PointConv。

Monte Carlo Integration Convolution:將卷積看作蒙特卡洛積分來處理,如MCCNN。

Spatial Pooling Convolution:使用空間池化來對點云進行卷積,例如DNNSP。

Hierarchical Convolution:通過層級結(jié)構(gòu)進行卷積操作,例如SpiderCNN。

Anisotropic Spatial Geometry Convolution:利用空間覆蓋卷積來處理點云,如SC-CNN(Spatial Coverage Convolutional Neural Network)。

這些方法的設(shè)計旨在有效地處理點云的不規(guī)則性、稀疏性和無序性,從而提高點云分類的準(zhǔn)確性和效率。

基于圖的方法

基于圖的方法利用圖神經(jīng)網(wǎng)絡(luò)(GNN)等技術(shù)處理點云數(shù)據(jù)。這些方法主要包括以下幾種類型:

圖卷積網(wǎng)絡(luò)(GCN)優(yōu)化:GCN是對CNN的優(yōu)化,能夠在半監(jiān)督分類任務(wù)中表現(xiàn)良好。一些方法對GCN進行了改進,如使用覆蓋感知網(wǎng)絡(luò)查詢(CAGQ)提高空間覆蓋率,并簡化網(wǎng)絡(luò)模型以解決梯度消失問題。

邊緣條件卷積(ECC)網(wǎng)絡(luò):ECC網(wǎng)絡(luò)可應(yīng)用于任何圖結(jié)構(gòu),并能夠捕獲圖中點之間的關(guān)系,有助于圖像分割等任務(wù)。

動態(tài)圖CNN(DGCNN):DGCNN通過邊緣卷積(EdgeConv)網(wǎng)絡(luò)模塊提取點云的局部幾何特征,保持排列不變性,對于3D識別任務(wù)具有重要意義。

多級圖卷積網(wǎng)絡(luò)(GCN):這些網(wǎng)絡(luò)能夠分層聚合單視圖點云的形狀特征,有助于編碼對象的幾何線索和多視圖關(guān)系,生成更具體的全局特征。

鄰域圖濾波器:這種方法使用鄰域圖濾波器提取特征空間和笛卡爾空間中的鄰域特征信息和空間分布信息,有助于更好地理解點云數(shù)據(jù)。

基于圖的方法能夠有效地處理點云數(shù)據(jù),提取特征并解決分類、分割等任務(wù),為點云分析領(lǐng)域的研究提供了重要的技術(shù)支持。

基于注意力機制的方法

基于注意力機制的方法將人類感知的選擇性應(yīng)用于機器學(xué)習(xí),專注于處理數(shù)據(jù)的部分信息而非整體。在點云分類中,研究者們利用注意力機制來提高模型對關(guān)鍵信息的關(guān)注程度。這些方法包括以下幾個方面的工作:

點注意力變換器(PAT):使用高效的Group-Shuffle Attention(GSA)代替昂貴的Multi-Head Attention(MHA),從而減少計算成本。

特征金字塔注意力模塊(FPA)和全局注意力上采樣模塊(GAU):結(jié)合注意力機制和空間金字塔,提高模型對不同尺度特征的關(guān)注度。

局部空間感知(LSA)層:學(xué)習(xí)局部區(qū)域的空間關(guān)系,生成空間分布權(quán)重,執(zhí)行空間獨立操作,從而提取局部信息。

圖注意力卷積(GAC):利用圖注意力卷積來提高模型對點云中局部信息的關(guān)注度。

GAPointNet:結(jié)合自注意力機制和圖卷積,學(xué)習(xí)局部信息表示,并使用并行機制來聚合不同層級的注意力特征,從而更好地提取局部上下文特征。

這些方法通過增強模型對點云中不同區(qū)域的關(guān)注度,提高了點云分類任務(wù)的性能和準(zhǔn)確性。

9397148c-90d5-11ef-a511-92fbcf53809c.png

全局特征聚合

93b99dd6-90d5-11ef-a511-92fbcf53809c.png

基于Transformer的方法

基于Transformer的方法在點云處理領(lǐng)域取得了顯著的進展。這些方法通過將點云作為輸入,并利用Transformer結(jié)構(gòu)中的自注意力機制,實現(xiàn)了對點云的全局特征建模和關(guān)聯(lián)學(xué)習(xí)。具體而言,這些方法包括以下關(guān)鍵點:

Point Transformer: Engel等人提出的Point Transformer直接操作無序和非結(jié)構(gòu)化的點集。它使用學(xué)習(xí)分?jǐn)?shù)的焦點模塊來提取局部和全局特征,并通過排序網(wǎng)絡(luò)對局部特征進行排序,最后通過局部全局注意力關(guān)聯(lián)局部和全局特征。

Point TnT: Berg等人提出的Point TnT方法通過兩階段機制有效地實現(xiàn)了單個點和點集之間的相互關(guān)注,解決了傳統(tǒng)自注意力機制在處理全局關(guān)系時效率低下的問題。

Visual Transformer (VT): Wu等人的VT將Transformer應(yīng)用于基于特征圖的圖像標(biāo)簽,更高效地學(xué)習(xí)和關(guān)聯(lián)稀疏分布的高級概念。

Detection Transformer (DETR): Carion等人的DETR將目標(biāo)檢測視為直接集成預(yù)測問題,使用Transformer編碼器-解碼器生成邊界框,實現(xiàn)了端到端的檢測Transformer。

Point Cloud Transformer (PCT): Guo等人的PCT是一種基于Transformer的點云學(xué)習(xí)框架,通過偏移注意力和歸一化細(xì)化實現(xiàn)了對點云的全局特征建模,具有置換不變性。

Point-BERT: Yu等人的Point-BERT將BERT的概念推廣到點云,通過局部塊和點云標(biāo)記器生成局部信息的離散點標(biāo)簽,實現(xiàn)了對點云的建模和學(xué)習(xí)。

這些方法利用Transformer的優(yōu)勢,在點云處理中取得了令人矚目的成果,為點云的全局特征建模和關(guān)聯(lián)學(xué)習(xí)提供了新的思路和方法。

基于全局模塊的方法

基于全局模塊的方法旨在處理點云中的全局特征聚合問題。這些方法通過設(shè)計特定的模塊或網(wǎng)絡(luò)結(jié)構(gòu),能夠有效地捕獲整個點云的全局信息,從而提高了點云處理任務(wù)的性能。一些方法包括:

全局模塊:該模塊計算某個位置的響應(yīng),作為所有位置特征的加權(quán)和,從而聚合全局特征。

PointASNL:該端到端網(wǎng)絡(luò)結(jié)合了自適應(yīng)采樣模塊(AS)和局部非局部模塊(L-NL),可以有效地處理嘈雜的點云。AS模塊通過推理更新點的特征,并通過重新加權(quán)初始采樣點來緩解偏置效應(yīng)。L-NL模塊由點的局部和非局部單元組成,降低了學(xué)習(xí)過程對噪聲的敏感性。

DeepGCN:這是一種深度GCN架構(gòu),采用了一些CNN方法來支持。它包括GCN骨干模塊用于輸入點云特征轉(zhuǎn)換,融合模塊用于生成和融合全局特征,以及MLP模塊預(yù)測模塊用于預(yù)測標(biāo)簽。DeepGCN的設(shè)計旨在解決GCN訓(xùn)練中梯度消失的問題,使得可以訓(xùn)練更深層的GCN網(wǎng)絡(luò)。

CurveNet:這是一種基于聚合假設(shè)曲線的方法,有效地實現(xiàn)了曲線的聚合策略。CurveNet的網(wǎng)絡(luò)結(jié)構(gòu)由一系列構(gòu)建塊組成,其中包括曲線分組運算符和曲線聚合運算符。

基于RNN或LSTM的方法 RNN(循環(huán)神經(jīng)網(wǎng)絡(luò))

基于RNN或LSTM的方法通常利用這些循環(huán)結(jié)構(gòu)處理序列信息或全局上下文信息,以提高點云處理任務(wù)的性能和準(zhǔn)確性。Engelmann等人提出了擴展了PointNet的PointNet++,以處理大規(guī)模場景,并通過引入額外的上下文信息提高了性能。Liu等人提出的3DCNN-DQN-RNN方法融合了多種網(wǎng)絡(luò)結(jié)構(gòu),通過這種融合提高了處理大規(guī)模點云的準(zhǔn)確性。其他方法如RSNet、3P-RNN和Point2Sequence等也通過結(jié)合RNN或LSTM等循環(huán)結(jié)構(gòu),有效地利用了上下文信息,提高了點云處理的性能。

93cf7e44-90d5-11ef-a511-92fbcf53809c.png

D. 多態(tài)融合方法

多態(tài)融合方法將不同的數(shù)據(jù)表示方式融合在一起,以綜合利用它們的優(yōu)勢。Le等人提出了一種將點云和網(wǎng)格結(jié)合的策略,通過卷積塊和最大池化來表示不同層次的特征,能夠更好地識別細(xì)粒度模型和表示局部形狀。Zhang等人的PVT方法結(jié)合了稀疏窗口注意模塊和相對注意模塊,將體素和點云的思想相結(jié)合,在點云分類的準(zhǔn)確性方面表現(xiàn)出色。PointCLIP利用預(yù)訓(xùn)練的CLIP學(xué)習(xí)點云,通過投影到多視圖深度圖中進行編碼,實現(xiàn)了從2D預(yù)訓(xùn)練知識到3D域的零樣本識別。CrossPoint通過最大化點云和對應(yīng)渲染的2D圖像在不變空間中的表現(xiàn),實現(xiàn)了2D到3D的對應(yīng)。與傳統(tǒng)方法相比,多態(tài)融合方法能夠更好地利用不同表示方式的信息,有望成為未來點云處理的重要方向。

93e64f66-90d5-11ef-a511-92fbcf53809c.png

6. 評估

評估是用來衡量點云分類方法性能的重要過程。準(zhǔn)確度、空間復(fù)雜度、執(zhí)行時間等是評估方法的關(guān)鍵指標(biāo),其中準(zhǔn)確度是最為關(guān)鍵的指標(biāo)之一。通常使用準(zhǔn)確度(Acc)、精度(Pre)、召回率(Rec)和交并比(IoU)等指標(biāo)來評估方法的準(zhǔn)確性。

準(zhǔn)確度(Acc)表示正確預(yù)測的樣本數(shù)與總預(yù)測樣本數(shù)的比率,是衡量整體分類準(zhǔn)確性的指標(biāo)。

精度(Pre)表示被預(yù)測為正類的真實正類的比例,是衡量分類器預(yù)測正類的準(zhǔn)確性的指標(biāo)。

召回率(Rec)表示被預(yù)測為正類的樣本數(shù)與真實正類的總數(shù)的比率,是衡量分類器找出所有正類樣本的能力的指標(biāo)。

交并比(IoU)表示預(yù)測值與真實值的交集與并集的比率,是衡量兩個集合重疊程度的指標(biāo)。

除了上述指標(biāo)外,還可以使用整體準(zhǔn)確度(OA)、平均準(zhǔn)確度(MA)和平均交并比(mIoU)等綜合指標(biāo)來評估方法的性能。這些指標(biāo)可以幫助研究人員全面了解方法在不同數(shù)據(jù)集上的表現(xiàn),并為進一步改進提供參考。

93f9edaa-90d5-11ef-a511-92fbcf53809c.png

7 總結(jié)與展望

在點云分類領(lǐng)域,深度學(xué)習(xí)方法不斷創(chuàng)新,為3D應(yīng)用帶來新的可能性。本文綜述了近年來基于深度學(xué)習(xí)的點云分類方法,包括多視圖、體素、點云和多態(tài)融合等不同類型的方法。通過對比分析,可以看出各種方法在準(zhǔn)確性、效率和適用場景等方面存在差異。

在評估方面,準(zhǔn)確性是評價方法優(yōu)劣的關(guān)鍵指標(biāo),同時還需要考慮空間復(fù)雜度和執(zhí)行時間等。常用的評估指標(biāo)包括準(zhǔn)確率、精確度、召回率和交并比等,用于評估方法的性能。

未來的研究方向包括提高準(zhǔn)確性和效率的平衡、針對室外場景進一步優(yōu)化方法、簡化點云處理流程等。創(chuàng)新型方法的研究也是未來的重點,需要不斷探索新的思路和技術(shù)。

總的來說,基于深度學(xué)習(xí)的點云分類方法在不斷發(fā)展,未來有望取得更大的突破,為3D應(yīng)用帶來更多可能性。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 3D
    3D
    +關(guān)注

    關(guān)注

    9

    文章

    2986

    瀏覽量

    113718
  • 三維
    +關(guān)注

    關(guān)注

    1

    文章

    523

    瀏覽量

    29823
  • 計算機視覺
    +關(guān)注

    關(guān)注

    9

    文章

    1713

    瀏覽量

    47443
  • 深度學(xué)習(xí)
    +關(guān)注

    關(guān)注

    73

    文章

    5589

    瀏覽量

    123868

原文標(biāo)題:必看綜述!中科院帶你徹底了解基于深度學(xué)習(xí)的三維點云分類

文章出處:【微信號:3D視覺工坊,微信公眾號:3D視覺工坊】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    基于深度學(xué)習(xí)三維配準(zhǔn)方法

    基于深度學(xué)習(xí)三維配準(zhǔn)方法成為研究的主流,并隨之誕生了DeepVCP、DGR、Predato
    發(fā)表于 11-29 11:41 ?2355次閱讀

    三維快速建模技術(shù)與三維掃描建模的應(yīng)用

    的HANDYSCAN三維激光掃描儀采集它的三維信息,然后利用Vxelements軟件對多站式
    發(fā)表于 08-07 11:14

    計算機視覺:三維數(shù)據(jù)處理學(xué)習(xí)內(nèi)容總結(jié)

    三維計算視覺研究內(nèi)容包括: 1)三維匹配:兩幀或者多幀數(shù)據(jù)之間的匹配,因為激光掃描光束受物體遮擋的原因,不可能通過一次掃描完成對整個物體的三維
    的頭像 發(fā)表于 11-27 10:32 ?5565次閱讀

    通過多模態(tài)特征融合來設(shè)計三維分類模型

    針對數(shù)據(jù)本身信息量不足導(dǎo)致現(xiàn)有三維分類方法
    發(fā)表于 03-11 14:09 ?3次下載
    通過多模態(tài)特征融合來設(shè)計<b class='flag-5'>三維</b><b class='flag-5'>點</b><b class='flag-5'>云</b><b class='flag-5'>分類</b>模型

    基于深度學(xué)習(xí)三維語義分割研究分析

    近年來,深度傳感器和三維激光掃描儀的普及推動了三維處理方法的快速發(fā)展。
    發(fā)表于 04-01 14:48 ?16次下載
    基于<b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b>的<b class='flag-5'>三維</b><b class='flag-5'>點</b><b class='flag-5'>云</b>語義分割研究分析

    針對復(fù)雜場景處理的深度學(xué)習(xí)網(wǎng)絡(luò)

    數(shù)據(jù)的分類和語義分割在自動駕駛、智能機器人、全息投影等領(lǐng)域中有著重要應(yīng)用。傳統(tǒng)手工提取特征的方式,以及將
    發(fā)表于 05-18 16:01 ?10次下載

    的概念以及與三維圖像的關(guān)系

    概念 三維圖像的關(guān)系:三維圖像是一種特殊的信息表達(dá)形式,其特征是表達(dá)的空間中
    的頭像 發(fā)表于 08-17 09:18 ?8335次閱讀
    <b class='flag-5'>點</b><b class='flag-5'>云</b>的概念以及與<b class='flag-5'>三維</b>圖像的關(guān)系

    基于三維激光的目標(biāo)識別與跟蹤研究

    基于三維激光的目標(biāo)識別與跟蹤研究 來源:《汽車工程》?,作者徐國艷等 [摘要]?針對無人車環(huán)境感知中的障礙物檢測問題,設(shè)計了一套基于車載激光雷達(dá)的目標(biāo)識別與跟蹤方法。為降低計算量,
    的頭像 發(fā)表于 02-15 13:36 ?3660次閱讀
    基于<b class='flag-5'>三維</b>激光<b class='flag-5'>點</b><b class='flag-5'>云</b>的目標(biāo)識別與跟蹤研究

    什么樣的可以稱為三維云中的關(guān)鍵呢?

    本工作受D2-Net啟發(fā),提出了一種新的三維關(guān)鍵點定義方式,將其與三維的特征描述子關(guān)聯(lián)起來,有效的回答了什么是
    的頭像 發(fā)表于 11-22 09:46 ?2155次閱讀

    深度學(xué)習(xí)背景下的圖像三維重建技術(shù)進展綜述

    根據(jù)三維模型的表示形式可以將圖像三維重建方法分類為基于體素的三維重建、基于
    的頭像 發(fā)表于 01-09 14:26 ?3630次閱讀

    一文詳解三維圖像處理技術(shù)

    三維圖像的關(guān)系:三維圖像是一種特殊的信息表達(dá)形式,其特征是表達(dá)的空間中個維度的數(shù)據(jù),表現(xiàn)形式包括:
    的頭像 發(fā)表于 03-31 16:07 ?4215次閱讀

    基于深度學(xué)習(xí)三維配準(zhǔn)新方法

    一、摘要 本文介紹了一種基于深度學(xué)習(xí)三維配準(zhǔn)新方法。該架構(gòu)由
    的頭像 發(fā)表于 06-17 09:54 ?2135次閱讀
    基于<b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b>的<b class='flag-5'>三維</b><b class='flag-5'>點</b><b class='flag-5'>云</b>配準(zhǔn)新<b class='flag-5'>方法</b>

    基于深度學(xué)習(xí)分割的方法介紹

      摘 要:分割是數(shù)據(jù)理解中的一個關(guān)鍵技術(shù),但傳統(tǒng)算法無法進行實時語義分割。近年來深度學(xué)習(xí)
    發(fā)表于 07-20 15:23 ?3次下載

    什么是三維分割

    是世界的一種非結(jié)構(gòu)化三維數(shù)據(jù)表示,通常由激光雷達(dá)傳感器、立體相機或深度傳感器采集。它由一系列單個組成,每個
    的頭像 發(fā)表于 10-29 09:21 ?966次閱讀

    AI 驅(qū)動三維逆向:降噪算法工具與機器學(xué)習(xí)建模能力的前沿應(yīng)用

    三維逆向工程領(lǐng)域,傳統(tǒng)方法在處理復(fù)雜數(shù)據(jù)和構(gòu)建高精度模型時面臨諸多挑戰(zhàn)。隨著人工智能(AI)技術(shù)的發(fā)展,降噪算法工具與機器學(xué)習(xí)建模能力
    的頭像 發(fā)表于 08-20 10:00 ?419次閱讀
    AI 驅(qū)動<b class='flag-5'>三維</b>逆向:<b class='flag-5'>點</b><b class='flag-5'>云</b>降噪算法工具與機器<b class='flag-5'>學(xué)習(xí)</b>建模能力的前沿應(yīng)用