人妻少妇无码专区网站,亚洲精品无播放器在线播放,亚洲国产片论片在线播放

見過3D物體數(shù)據(jù)集，見過會(huì)動(dòng)的3D物體數(shù)據(jù)集嗎？

每段動(dòng)態(tài)視頻都以目標(biāo)為中心拍攝，不僅自帶標(biāo)注整體的邊界框，每個(gè)視頻還附帶相機(jī)位姿和稀疏點(diǎn)云。

這是谷歌的開源3D物體數(shù)據(jù)集 Objectron，包含 15000份短視頻樣本，以及從五個(gè)大洲、十個(gè)國家里收集來的 400多萬張帶注釋的圖像。

谷歌認(rèn)為，3D目標(biāo)理解領(lǐng)域，缺少像2D中的ImageNet這樣的大型數(shù)據(jù)集，而Objectron數(shù)據(jù)集能在一定程度上解決這個(gè)問題。

數(shù)據(jù)集一經(jīng)推出， 1.6k網(wǎng)友點(diǎn)贊。

有網(wǎng)友調(diào)侃，谷歌恰好在自己想“谷歌”這類數(shù)據(jù)集的時(shí)候，把它發(fā)了出來。

也有團(tuán)隊(duì)前成員表示，很高興看到這樣的數(shù)據(jù)集和模型，給AR帶來進(jìn)步的可能。

除此之外，谷歌還公布了用Objectron數(shù)據(jù)集訓(xùn)練的針對(duì) 鞋子、椅子、杯子和相機(jī)4種類別的3D目標(biāo)檢測(cè)模型。

來看看這個(gè)數(shù)據(jù)集包含什么，以及谷歌提供的3D目標(biāo)檢測(cè)方案吧~ （項(xiàng)目地址見文末）

9類物體，對(duì)AR挺友好

目前，這個(gè)數(shù)據(jù)集中包含的3D物體樣本，包括自行車，書籍，瓶子，照相機(jī)，麥片盒子，椅子，杯子，筆記本電腦和鞋子。

當(dāng)然，這個(gè)數(shù)據(jù)集，絕不僅僅只是一些以物體為中心拍攝的視頻和圖像，它具有如下特性：

注釋標(biāo)簽（3D目標(biāo)立體邊界框）

用于AR數(shù)據(jù)的數(shù)據(jù) （相機(jī)位姿、稀疏點(diǎn)云、二維表面）

數(shù)據(jù)預(yù)處理（圖像格式為tf.example，視頻格式為SequenceExample）

支持通過腳本運(yùn)行3D IoU指標(biāo)的評(píng)估

支持通過腳本實(shí)現(xiàn)Tensorflow、PyTorch、JAX的數(shù)據(jù)加載及可視化，包含“Hello World”樣例

支持Apache Beam，用于處理谷歌云（Google Cloud）基礎(chǔ)架構(gòu)上的數(shù)據(jù)集

所有可用樣本的索引，包括訓(xùn)練/測(cè)試部分，便于下載

圖像部分的畫風(fēng)，基本是這樣的，也標(biāo)注得非常詳細(xì)：

而在視頻中，不僅有從各個(gè)角度拍攝的、以目標(biāo)為中心的片段（從左到右、從下到上）：

也有不同數(shù)量的視頻類型（一個(gè)目標(biāo)、或者兩個(gè)以上的目標(biāo)）：

谷歌希望通過發(fā)布這個(gè)數(shù)據(jù)集，讓研究界能夠進(jìn)一步突破3D目標(biāo)理解領(lǐng)域，以及相關(guān)的如無監(jiān)督學(xué)習(xí)等方向的研究應(yīng)用。

怎么用？谷歌“以身示范”

拿到數(shù)據(jù)集的第一刻，并不知道它是否好用，而且總感覺有點(diǎn)無從下手？

別擔(dān)心，這個(gè)數(shù)據(jù)集的訓(xùn)練效果，谷歌已經(jīng)替我們?cè)囘^了。

看起來還不錯(cuò)：

此外，谷歌將訓(xùn)練好的3D目標(biāo)檢測(cè)模型，也一并給了出來。（傳送見文末）

算法主要包括兩部分，第一部分是Tensorflow的2D目標(biāo)檢測(cè)模型，用來“發(fā)現(xiàn)物體的位置”；

第二部分則進(jìn)行圖像裁剪，來估計(jì)3D物體的邊界框（同時(shí)計(jì)算目標(biāo)下一幀的2D裁剪，因此不需要運(yùn)行每個(gè)幀），整體結(jié)構(gòu)如下圖：

在模型的評(píng)估上，谷歌采用了 Sutherland-Hodgman多邊形裁剪算法，來計(jì)算兩個(gè)立體邊界框的交點(diǎn)，并計(jì)算出兩個(gè)立方體的相交體積，最終計(jì)算出3D目標(biāo)檢測(cè)模型的 IoU。

簡(jiǎn)單來說，兩個(gè)立方體重疊體積越大，3D目標(biāo)檢測(cè)模型效果就越好。

這個(gè)模型是谷歌推出的MediaPipe中的一個(gè)部分，后者是一個(gè)開源的跨平臺(tái)框架，用于構(gòu)建pipeline，以處理不同形式的感知數(shù)據(jù)。

它推出的MediaPipe Objectron實(shí)時(shí)3D目標(biāo)檢測(cè)模型，用移動(dòng)設(shè)備（手機(jī)）就能進(jìn)行目標(biāo)實(shí)時(shí)檢測(cè) 。

看，（他們玩得多歡快）實(shí)時(shí)目標(biāo)檢測(cè)的效果還不錯(cuò)：

其他部分3D數(shù)據(jù)集

除了谷歌推出的數(shù)據(jù)集以外，此前視覺3D目標(biāo)領(lǐng)域，也有許多類型不同的數(shù)據(jù)集，每個(gè)數(shù)據(jù)集都有自己的特點(diǎn)。

例如斯坦福大學(xué)等提出的 ScanNetV2，是個(gè)室內(nèi)場(chǎng)景數(shù)據(jù)集，而ScanNet則是個(gè)RGB-D視頻數(shù)據(jù)集，一共有21個(gè)目標(biāo)類，一共1513個(gè)采集場(chǎng)景數(shù)據(jù)，可做語義分割和目標(biāo)檢測(cè)任務(wù)。

而目前在自動(dòng)駕駛領(lǐng)域非常熱門的 KITTI數(shù)據(jù)集，也是一個(gè)3D數(shù)據(jù)集，是目前最大的自動(dòng)駕駛場(chǎng)景下計(jì)算機(jī)視覺的算法評(píng)測(cè)數(shù)據(jù)集，包含市區(qū)、鄉(xiāng)村和高速公路等場(chǎng)景采集的真實(shí)圖像數(shù)據(jù)。

此外，還有Waymo、SemanticKITTI、H3D等等數(shù)據(jù)集，也都用在不同的場(chǎng)景中。（例如SemanticKITTI，通常被專門用于自動(dòng)駕駛的3D語義分割）

無論是視頻還是圖像，這些數(shù)據(jù)集的單個(gè)樣本基本包含多個(gè)目標(biāo)，使用場(chǎng)景上也與谷歌的Objectron有所不同。

感興趣的小伙伴們，可以通過下方傳送門，瀏覽谷歌最新的3D目標(biāo)檢測(cè)數(shù)據(jù)集，以及相關(guān)模型~

Objectron數(shù)據(jù)集傳送門：

https://github.com/google-research-datasets/Objectron/

針對(duì)4種物體的3D目標(biāo)檢測(cè)模型：

https://google.github.io/mediapipe/solutions/objectron

參考鏈接：

https://ai.googleblog.com/2020/11/announcing-objectron-dataset.html

https://ai.googleblog.com/2020/03/real-time-3d-object-detection-on-mobile.html

責(zé)任編輯：PSY

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴