看到今天要給大家介紹的論文,也許現(xiàn)在大家已經(jīng)非常熟悉 Ross Girshic、Piotr Dollár 還有我們的大神何愷明的三人組了。沒(méi)錯(cuò),今天這篇重磅新作還是他們的產(chǎn)出,營(yíng)長(zhǎng)感覺(jué)剛介紹他們的新作好像沒(méi)多久??!想要追趕大神腳步,確實(shí)是不能懈怠?。?/p>
不過(guò)這次一作是來(lái)自 FAIR 的陳鑫磊博士,雖然和三人組合比起來(lái),一作陳鑫磊還沒(méi)有那么被大家所熟知,不過(guò)其實(shí)力也是不容小覷的(畢竟后面跟著三個(gè)實(shí)力響當(dāng)當(dāng)?shù)娜宋铮?。營(yíng)長(zhǎng)在陳鑫磊的個(gè)人主頁(yè)上看到他的學(xué)習(xí)經(jīng)歷和研究成果,也是忍不住點(diǎn)贊。陳鑫磊在浙江大學(xué)國(guó)家重點(diǎn)實(shí)驗(yàn)室 CAD&CG實(shí)驗(yàn)室學(xué)習(xí)時(shí),師從蔡登教授,隨后在 CMU 攻讀博士學(xué)位,現(xiàn)任職于 FAIR,畢業(yè)前曾在 Google Cloud 李飛飛和李佳組內(nèi)實(shí)習(xí)。在博士研究期間,每年和導(dǎo)師 Abhinav Gupta 教授都有論文發(fā)表在 AAAI、CVPR、ECCV、ICCV 等頂會(huì)上,考慮篇幅,營(yíng)長(zhǎng)就從每年成果中選一篇列舉出來(lái),大家可以前往陳鑫磊的個(gè)人主頁(yè)中可以看到全部作品。
2013-2018 年間的主要作品:
[1]、Xinlei Chen, Li-Jia Li, Li Fei-Fei, Abhinav Gupta.Iterative Visual Reasoning Beyond Convolutions. The 31st IEEE Conference on Computer Vision and Pattern Recognition(CVPR), 2018.Spotlight
[2]、Xinlei Chen, Abhinav Gupta.Spatial Memory for Context Reasoning in Object Detection. The 15th International Conference on Computer Vision(ICCV), 2017
[3]、Gunnar A. Sigurdsson,Xinlei Chen, Abhinav Gupta.Learning Visual Storylines with Skipping Recurrent Neural Networks. The 14th European Conference on Computer Vision(ECCV), 2016
[4]、Xinlei Chen, Abhinav Gupta.Webly Supervised Learning of Convolutional Networks. The 15th International Conference on Computer Vision(ICCV), 2015.Oral
[5]、Xinlei Chen, C. Lawrence Zitnick.Mind's Eye: A Recurrent Visual Representation for Image Caption Generation. The 28th IEEE Conference on Computer Vision and Pattern Recognition(CVPR), 2015
[6]、Xinlei Chen, Alan Ritter, Abhinav Gupta, Tom Mitchell.Sense Discovery via Co-Clustering on Images and Text. The 28th IEEE Conference on Computer Vision and Pattern Recognition(CVPR), 2015.
[7]、Xinlei Chen, Abhinav Shrivastava, Abhinav Gupta.Enriching Visual Knowledge Bases via Object Discovery and Segmentation. The 27th IEEE Conference on Computer Vision and Pattern Recognition(CVPR), 2014
[8]、Xinlei Chen, Abhinav Shrivastava, Abhinav Gupta.NEIL: Extracting Visual Knowledge from Web Data. The 14th International Conference on Computer Vision(ICCV), 2013.Oral.
這幾個(gè)人從出道至今,都有非常多的佳作,出產(chǎn)率也非常高,最近大家還在重談去年三人組合的論文《Rethinking ImageNet Pre-training》,今天就有了這篇在密集掩碼預(yù)測(cè)新突破:《TensorMask: A Foundation for Dense Object Segmentation》,大神們簡(jiǎn)直就是快要承包整個(gè) CV 界了!
“CV男團(tuán)”四人的個(gè)人主頁(yè)(一到四作的順序):
http://xinleic.xyz/#
http://www.rossgirshick.info/
http://kaiminghe.com/
http://pdollar.github.io/
接下來(lái),營(yíng)長(zhǎng)就為大家?guī)?lái)“CV男團(tuán)”這篇最新力作的初解讀,因?yàn)檎撐闹猩婕昂芏嗯c TensorMask 框架相關(guān)的專業(yè)術(shù)語(yǔ),函數(shù)定義等,還需要大家下來(lái)細(xì)細(xì)研究,感興趣的同學(xué)可以從下面的論文地址里下載論文進(jìn)一步學(xué)習(xí),也歡迎大家在后臺(tái)給我們留言,發(fā)表你的感想。
論文解讀
摘要
在目標(biāo)檢測(cè)任務(wù)中,采用滑窗方式生成目標(biāo)的檢測(cè)框是一種非常常用的方法。而在實(shí)例分割任務(wù)中,比較主流的圖像分割方法是首先檢測(cè)目標(biāo)邊界框,然后進(jìn)行裁剪和目標(biāo)分割,如 Mask RCNN。在這篇工作中,我們研究了密集滑窗實(shí)例分割(dense sliding-window instance segmentation)的模式,發(fā)現(xiàn)與其他的密集預(yù)測(cè)任務(wù)如語(yǔ)義分割,目標(biāo)檢測(cè)不同,實(shí)例分割滑窗在每個(gè)空間位置的輸出具有自己空間維度的幾何結(jié)構(gòu)。為了形式化這一點(diǎn),我們提出了一個(gè)通用的框架 TensorMask 來(lái)獲得這種幾何結(jié)構(gòu)。
我們通過(guò)張量視圖展示了相較于忽略這種結(jié)構(gòu)的 baseline 方法,它可以有一個(gè)大的效果提升,甚至比肩于 Mask R-CNN。這樣的實(shí)驗(yàn)結(jié)果足以說(shuō)明TensorMask 為密集掩碼預(yù)測(cè)任務(wù)提供了一個(gè)新的理解方向,并可以作為該領(lǐng)域新的基礎(chǔ)方法。
引言
滑窗范式(在一張圖的每個(gè)滑動(dòng)窗口里面去尋找目標(biāo))是視覺(jué)任務(wù)里面最早且非常成功的方法,并且可以很自然的和卷積網(wǎng)絡(luò)聯(lián)系起來(lái)。雖然像 RCNN 系列方法需要在滑窗的方法上再進(jìn)行精修,但是像 SSD、RetinaNet 的方法就是直接利用滑窗預(yù)測(cè)。在目標(biāo)檢測(cè)里面非常受歡迎的方法,在實(shí)例分割任務(wù)中卻沒(méi)得到足夠的關(guān)注。因此本文的工作就是來(lái)填補(bǔ)該缺失。本文主要的 insight 就是定義密集掩碼的表示方式,并且在神經(jīng)網(wǎng)絡(luò)中有效的實(shí)現(xiàn)它。與低維、尺度無(wú)關(guān)的檢測(cè)框不同,分割掩碼需要一種更具有結(jié)構(gòu)化的表示方式。因此,本文在空域上,采用結(jié)構(gòu)化的 4 維張量定義了掩碼的表示方式,并提出了一個(gè)基于滑窗方法的密集實(shí)例分割框架——TensorMask。在 4 維張量(V,U,H,W)中,H 和 W 表示目標(biāo)的位置,而 V 和 U 表示相關(guān)掩碼的位置。與僅直接在通道上加一個(gè)掩碼分支的方法不同,這種方法是具有幾何意義的,并且可以直接在(V,U)張量上進(jìn)行坐標(biāo)轉(zhuǎn)換,尺度縮放等操作。在 TensorMask 框架中,作者還順手開發(fā)了一個(gè)張量尺度金字塔(tensor bipyramid),用于 4 維的尺度縮放。如下公式所示,其中 K 就是尺度。
? ? ?
掩碼的張量表示
TensorMask 框架的主要想法就是利用結(jié)構(gòu)化的高維張量去表示密集的滑動(dòng)窗口。在理解這樣的一個(gè)框架時(shí),需要了解幾個(gè)重要的概念。
單位長(zhǎng)度(Unit of Length):在不同的軸和尺度上有不同的單位長(zhǎng)度,且 HW 和 VU 的單位長(zhǎng)度可以不相等。
? ? ?和 ? ? ? ?
? ? ?分別表示其單位長(zhǎng)度。
自然表示(Natural Representation):在點(diǎn)(y,x)處的滑窗內(nèi),某點(diǎn)的掩碼值表示,如下截圖所示,其中 alpha 表示 VU 和 HW 的單位長(zhǎng)度比率。
對(duì)齊表示(Aligned Representation):由于單位長(zhǎng)度中 stride 的存在,自然表示存在著像素偏移的問(wèn)題,因此這里有一個(gè)同 ROIAlign 相似的想法,需要從張量的角度定義一個(gè)像素級(jí)的表示。
坐標(biāo)轉(zhuǎn)換:用于自然表示和對(duì)齊表示間的轉(zhuǎn)換,論文給出了兩種情況下的轉(zhuǎn)換公式,一種是簡(jiǎn)化版的( ? ? ?),一種是一般版的(就是任意的單位長(zhǎng)度)。
上采樣轉(zhuǎn)換(Upscaling Transformation):下圖就是上采樣轉(zhuǎn)換的操作集合。實(shí)驗(yàn)證明它可以在不增加通道數(shù)的情況下,有效的生成高分辨率的掩碼。
張量尺度金字塔(Tensor Bipyramid):由于掩碼存在尺度問(wèn)題,它需要隨目標(biāo)的大小而進(jìn)行縮放,為了保持恒定的分辨率密度,提出了這種基于尺度來(lái)調(diào)整掩碼像素?cái)?shù)量的方法。
TensorMask結(jié)構(gòu)
基于 TensorMask 表示的模型,有一個(gè)采用滑窗的掩碼預(yù)測(cè)分支和一個(gè)類似于檢測(cè)框回歸的分類分支。該結(jié)構(gòu)不需要增加檢測(cè)框的分支。掩碼預(yù)測(cè)分支可以采用卷積的 backbone,比如 ResNet50。因此,論文提出了多個(gè)基礎(chǔ)(baseline)分支和張量尺度金字塔分支,幫助使用者快速上手 TensorMask。需要指出的是,張量尺度金字塔分支是最有效的一個(gè)模型。在訓(xùn)練時(shí),作者采用 DeepMask 來(lái)幫助標(biāo)記數(shù)據(jù),以及 focal loss 等等。
實(shí)驗(yàn)
為了說(shuō)明各分支或者操作的作用,論文做了大量的消融實(shí)驗(yàn)來(lái)進(jìn)行論證。具體結(jié)果見(jiàn)下圖表格的數(shù)據(jù)以及與 Mask-RCNN 可視化的對(duì)比。實(shí)驗(yàn)結(jié)果證明,TensorMask 能夠定性定量的比肩 MaskR-CNN。
該項(xiàng)工作將滑窗方法與實(shí)例分割任務(wù)直接聯(lián)系了起來(lái),能夠幫助該領(lǐng)域的研究者對(duì)實(shí)例分割有新的理解,期待代碼早日開源。
-
神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
42文章
4819瀏覽量
106072 -
框架
+關(guān)注
關(guān)注
0文章
404瀏覽量
18219 -
開源
+關(guān)注
關(guān)注
3文章
3880瀏覽量
45227
原文標(biāo)題:何愷明等人提TensorMask框架:比肩Mask R-CNN,4D張量預(yù)測(cè)新突破
文章出處:【微信號(hào):rgznai100,微信公眾號(hào):rgznai100】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
手機(jī)板 layout 走線跨分割問(wèn)題
Task任務(wù):LuatOS實(shí)現(xiàn)“任務(wù)級(jí)并發(fā)”的核心引擎

揭秘LuatOS Task:多任務(wù)管理的“智能中樞”

洲明科技與華輝煌簽訂100萬(wàn)臺(tái)AI智能硬件供貨框架協(xié)議
洲明科技與香港科晫集團(tuán)簽署戰(zhàn)略合作協(xié)議
【正點(diǎn)原子STM32MP257開發(fā)板試用】基于 DeepLab 模型的圖像分割
第三屆大會(huì)回顧第3期 | FFRT并發(fā)框架在OpenHarmony中的設(shè)計(jì)與實(shí)踐

洲明科技發(fā)布勃朗峰畫質(zhì)引擎UF4
百度飛槳框架3.0正式版發(fā)布

BEVFusion —面向自動(dòng)駕駛的多任務(wù)多傳感器高效融合框架技術(shù)詳解

德賽電池榮膺仲愷高新區(qū)三項(xiàng)榮譽(yù)
惠州隆利榮獲2024年仲愷高新區(qū)優(yōu)秀企業(yè)經(jīng)濟(jì)突出貢獻(xiàn)獎(jiǎng)
YOLOv8中的損失函數(shù)解析

淺談分割接地層的利弊

語(yǔ)義分割25種損失函數(shù)綜述和展望

評(píng)論