計(jì)算機(jī)視覺(jué)領(lǐng)域正在從統(tǒng)計(jì)方法轉(zhuǎn)向深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)方法。
計(jì)算機(jī)視覺(jué)中仍有許多具有挑戰(zhàn)性的問(wèn)題需要解決。然而,深度學(xué)習(xí)方法正在針對(duì)某些特定問(wèn)題取得最新成果。
在最基本的問(wèn)題上,最有趣的不僅僅是深度學(xué)習(xí)模型的表現(xiàn);事實(shí)上,單個(gè)模型可以從圖像中學(xué)習(xí)意義并執(zhí)行視覺(jué)任務(wù),從而無(wú)需使用專門的手工制作方法。
在這篇文章中,您將發(fā)現(xiàn)九個(gè)有趣的計(jì)算機(jī)視覺(jué)任務(wù),其中深度學(xué)習(xí)方法取得了一些進(jìn)展。
讓我們開始吧。
概觀
在這篇文章中,我們將研究以下使用深度學(xué)習(xí)的計(jì)算機(jī)視覺(jué)問(wèn)題:
圖像分類
具有本地化的圖像分類
物體檢測(cè)
對(duì)象分割
圖像樣式轉(zhuǎn)移
圖像著色
影像重建
圖像超分辨率
圖像合成
其他問(wèn)題
注意,當(dāng)涉及圖像分類(識(shí)別)任務(wù)時(shí),已采用ILSVRC的命名約定。雖然任務(wù)集中在圖像上,但它們可以推廣到視頻幀。
我試圖關(guān)注您可能感興趣的最終用戶問(wèn)題的類型,而不是深度學(xué)習(xí)能夠做得更好的學(xué)術(shù)問(wèn)題。
每個(gè)示例都提供了問(wèn)題的描述,示例以及對(duì)演示方法和結(jié)果的論文的引用。
圖像分類
圖像分類涉及為整個(gè)圖像或照片分配標(biāo)簽。
該問(wèn)題也被稱為“對(duì)象分類”,并且可能更一般地稱為“圖像識(shí)別”,盡管后一任務(wù)可以應(yīng)用于與分類圖像內(nèi)容相關(guān)的更廣泛的任務(wù)集。
圖像分類的一些示例包括:
1、將X射線標(biāo)記為癌癥與否(二元分類)。
2、對(duì)手寫數(shù)字進(jìn)行分類(多類分類)。
3、為臉部照片指定名稱(多類別分類)。
用作基準(zhǔn)問(wèn)題的圖像分類的流行示例是MNIST數(shù)據(jù)集。

分類數(shù)字照片的流行真實(shí)版本是街景房號(hào)(SVHN)數(shù)據(jù)集。
有許多圖像分類任務(wù)涉及對(duì)象的照片。兩個(gè)流行的例子包括CIFAR-10和CIFAR-100數(shù)據(jù)集,這些數(shù)據(jù)集的照片分別分為10類和100類。
大規(guī)模視覺(jué)識(shí)別挑戰(zhàn)賽(ILSVRC)是一項(xiàng)年度競(jìng)賽,其中團(tuán)隊(duì)在從ImageNet數(shù)據(jù)庫(kù)中提取的數(shù)據(jù)上競(jìng)爭(zhēng)一系列計(jì)算機(jī)視覺(jué)任務(wù)的最佳性能。圖像分類方面的許多重要進(jìn)步來(lái)自于發(fā)布在該挑戰(zhàn)或來(lái)自該挑戰(zhàn)的任務(wù)的論文,最值得注意的是關(guān)于圖像分類任務(wù)的早期論文。例如:
使用深度卷積神經(jīng)網(wǎng)絡(luò)的ImageNet分類,2012。
用于大規(guī)模圖像識(shí)別的非常深的卷積網(wǎng)絡(luò),2014。
圍繞卷積更深入,2015年。
圖像識(shí)別的深度殘留學(xué)習(xí),2015年。
具有本地化的圖像分類
具有本地化的圖像分類涉及為圖像分配類標(biāo)簽并通過(guò)邊界框(在對(duì)象周圍繪制框)來(lái)顯示圖像中對(duì)象的位置。
這是一個(gè)更具挑戰(zhàn)性的圖像分類版本。
本地化圖像分類的一些示例包括:
1.將X射線標(biāo)記為癌癥或在癌癥區(qū)域周圍畫一個(gè)盒子。
2.在每個(gè)場(chǎng)景中對(duì)動(dòng)物的照片進(jìn)行分類并在動(dòng)物周圍畫一個(gè)盒子。
用于具有定位的圖像分類的經(jīng)典數(shù)據(jù)集是PASCAL視覺(jué)對(duì)象類數(shù)據(jù)集,或簡(jiǎn)稱為PASCAL VOC(例如VOC 2012)。這些是多年來(lái)在計(jì)算機(jī)視覺(jué)挑戰(zhàn)中使用的數(shù)據(jù)集。
該任務(wù)可以涉及在圖像中的同一對(duì)象的多個(gè)示例周圍添加邊界框。因此,該任務(wù)有時(shí)可稱為“對(duì)象檢測(cè)”。
用于本地化圖像分類的ILSVRC2016數(shù)據(jù)集是一個(gè)流行的數(shù)據(jù)集,包含150,000張照片和1000種對(duì)象。
關(guān)于本地化圖像分類的論文的一些例子包括:
選擇性搜索對(duì)象識(shí)別,2013年。
用于精確對(duì)象檢測(cè)和語(yǔ)義分割的豐富特征層次結(jié)構(gòu),2014年。
快速R-CNN,2015年。
物體檢測(cè)
物體檢測(cè)是具有定位的圖像分類的任務(wù),盡管圖像可能包含需要定位和分類的多個(gè)對(duì)象。
與簡(jiǎn)單的圖像分類或具有定位的圖像分類相比,這是一項(xiàng)更具挑戰(zhàn)性的任務(wù),因?yàn)樵诓煌愋偷膱D像中通常存在多個(gè)對(duì)象。
通常,使用并展示用于具有定位的圖像分類的技術(shù)用于對(duì)象檢測(cè)。
對(duì)象檢測(cè)的一些示例包括:
繪制邊界框并標(biāo)記街道場(chǎng)景中的每個(gè)對(duì)象。
繪制邊界框并在室內(nèi)照片中標(biāo)記每個(gè)對(duì)象。
繪制邊界框并在橫向中標(biāo)記每個(gè)對(duì)象。
PASCAL Visual Object Classes數(shù)據(jù)集或簡(jiǎn)稱PASCAL VOC(例如VOC 2012)是用于對(duì)象檢測(cè)的常見數(shù)據(jù)集。
用于多個(gè)計(jì)算機(jī)視覺(jué)任務(wù)的另一個(gè)數(shù)據(jù)集是Microsoft的上下文數(shù)據(jù)集中的公共對(duì)象,通常稱為MS COCO。
關(guān)于物體檢測(cè)的論文的一些例子包括:
OverFeat:使用卷積網(wǎng)絡(luò)的集成識(shí)別,本地化和檢測(cè),2014年。
更快的R-CNN:利用區(qū)域提案網(wǎng)絡(luò)實(shí)現(xiàn)實(shí)時(shí)目標(biāo)檢測(cè),2015年。
您只看一次:統(tǒng)一,實(shí)時(shí)對(duì)象檢測(cè),2015年。
對(duì)象分割
對(duì)象分割或語(yǔ)義分割是對(duì)象檢測(cè)的任務(wù),其中在圖像中檢測(cè)到的每個(gè)對(duì)象周圍繪制線。圖像分割是將圖像分成段的更普遍的問(wèn)題。
對(duì)象檢測(cè)有時(shí)也稱為對(duì)象分割。
與涉及使用邊界框來(lái)識(shí)別對(duì)象的對(duì)象檢測(cè)不同,對(duì)象分割識(shí)別圖像中屬于對(duì)象的特定像素。這就像一個(gè)細(xì)粒度的本地化。
更一般地,“圖像分割”可以指將圖像中的所有像素分割成不同類別的對(duì)象。
同樣,VOC 2012和MS COCO數(shù)據(jù)集可用于對(duì)象分割。
KITTI Vision Benchmark Suite是另一種流行的對(duì)象分割數(shù)據(jù)集,提供用于自動(dòng)駕駛車輛訓(xùn)練模型的街道圖像。
關(guān)于對(duì)象分割的一些示例論文包括:
同步檢測(cè)和分割,2014年。
用于語(yǔ)義分割的完全卷積網(wǎng)絡(luò),2015。
用于對(duì)象分割和細(xì)粒度本地化的超級(jí)列,2015。
SegNet:用于圖像分割的深度卷積編碼器 - 解碼器架構(gòu),2016。
Mask R-CNN,2017年。
風(fēng)格轉(zhuǎn)移
風(fēng)格轉(zhuǎn)移或神經(jīng)風(fēng)格轉(zhuǎn)移是從一個(gè)或多個(gè)圖像學(xué)習(xí)風(fēng)格并將該風(fēng)格應(yīng)用于新圖像的任務(wù)。
該任務(wù)可以被認(rèn)為是一種可能沒(méi)有客觀評(píng)價(jià)的照片濾波器或變換。
例子包括將特定著名藝術(shù)品(例如Pablo Picasso或Vincent van Gogh)的風(fēng)格應(yīng)用于新照片。
數(shù)據(jù)集通常涉及使用公共領(lǐng)域的著名藝術(shù)作品和標(biāo)準(zhǔn)計(jì)算機(jī)視覺(jué)數(shù)據(jù)集中的照片。
一些論文包括:
藝術(shù)風(fēng)格的神經(jīng)算法,2015。
使用卷積神經(jīng)網(wǎng)絡(luò)的圖像樣式轉(zhuǎn)移,2016。
圖像著色
圖像著色或神經(jīng)著色涉及將灰度圖像轉(zhuǎn)換為全色圖像。
該任務(wù)可以被認(rèn)為是一種可能沒(méi)有客觀評(píng)價(jià)的照片濾波器或變換。
例子包括著色舊的黑白照片和電影。
數(shù)據(jù)集通常涉及使用現(xiàn)有的照片數(shù)據(jù)集并創(chuàng)建模型必須學(xué)習(xí)著色的照片的灰度版本。
一些論文包括:
彩色圖像著色,2016年。
讓我們有顏色:全球和本地圖像的聯(lián)合端到端學(xué)習(xí),用于同步分類的自動(dòng)圖像著色,2016。
深色著色,2016。
影像重建
圖像重建和圖像修復(fù)是填充圖像的缺失或損壞部分的任務(wù)。
該任務(wù)可以被認(rèn)為是一種可能沒(méi)有客觀評(píng)價(jià)的照片濾波器或變換。
示例包括重建舊的,損壞的黑白照片和電影(例如照片恢復(fù))。
數(shù)據(jù)集通常涉及使用現(xiàn)有的照片數(shù)據(jù)集并創(chuàng)建模型必須學(xué)會(huì)修復(fù)的損壞版本的照片。
一些論文包括:
像素回歸神經(jīng)網(wǎng)絡(luò),2016年。
使用部分卷積的圖像修復(fù)不規(guī)則孔,2018年。
使用具有帶通濾波的深度神經(jīng)網(wǎng)絡(luò)進(jìn)行高度可擴(kuò)展的圖像重建,2018年。
圖像超分辨率
圖像超分辨率是生成具有比原始圖像更高分辨率和細(xì)節(jié)的圖像的新版本的任務(wù)。
通常為圖像超分辨率開發(fā)的模型可用于圖像恢復(fù)和修復(fù),因?yàn)樗鼈兘鉀Q了相關(guān)問(wèn)題。
數(shù)據(jù)集通常涉及使用現(xiàn)有的照片數(shù)據(jù)集并創(chuàng)建縮小版照片,模型必須學(xué)會(huì)創(chuàng)建超分辨率版本。
一些論文包括:
使用生成對(duì)抗網(wǎng)絡(luò)的照片真實(shí)單圖像超分辨率,2017。
深拉普拉斯金字塔網(wǎng)絡(luò),快速準(zhǔn)確的超分辨率,2017。
Deep Image Prior,2017。
圖像合成
圖像合成是生成現(xiàn)有圖像或全新圖像的目標(biāo)修改的任務(wù)。
這是一個(gè)非常廣泛的領(lǐng)域,正在迅速發(fā)展。
它可能包括圖像和視頻的小修改(例如圖像到圖像的翻譯),例如:
更改場(chǎng)景中對(duì)象的樣式。
將對(duì)象添加到場(chǎng)景中。
將面添加到場(chǎng)景中。
它還可能包括生成全新的圖像,例如:
1、生成面孔。
2、生成浴室。
3、生成衣服。
一些論文包括:
用深度卷積生成對(duì)抗網(wǎng)絡(luò)學(xué)習(xí)無(wú)監(jiān)督表示,2015。
使用PixelCNN解碼器生成條件圖像,2016。
使用周期一致的對(duì)抗網(wǎng)絡(luò)進(jìn)行不成對(duì)的圖像到圖像轉(zhuǎn)換,2017。
其他問(wèn)題
還有其他重要且有趣的問(wèn)題我沒(méi)有涉及,因?yàn)樗鼈儾皇羌兇獾挠?jì)算機(jī)視覺(jué)任務(wù)。
值得注意的例子是圖像到文本和文本到圖像:
1、圖像字幕:生成圖像的文本描述。
Show and Tell:神經(jīng)圖像標(biāo)題生成器,2014。
2、圖像描述:生成圖像中每個(gè)對(duì)象的文本描述。
用于生成圖像描述的深層視覺(jué)語(yǔ)義對(duì)齊,2015。
3、文本到圖像:基于文本描述合成圖像。
AttnGAN:使用注意生成對(duì)抗網(wǎng)絡(luò)生成細(xì)粒度文本到圖像,2017。
據(jù)推測(cè),人們學(xué)會(huì)在其他模態(tài)和圖像之間進(jìn)行映射,例如音頻。
總結(jié)
在這篇文章中,您發(fā)現(xiàn)了九種深度學(xué)習(xí)應(yīng)用于計(jì)算機(jī)視覺(jué)任務(wù)。
編輯:黃飛
?
電子發(fā)燒友App

























評(píng)論