chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

詳解計(jì)算機(jī)視覺(jué)最重要的進(jìn)展

tUM2_ADA ? 來(lái)源:djl ? 作者:ADAS ? 2019-08-08 15:12 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

最近The M Tank發(fā)布了一份對(duì)計(jì)算機(jī)視覺(jué)領(lǐng)域最近一年進(jìn)展的報(bào)告《A Year in Computer Vision》,詳述了四大部分的內(nèi)容,包括分類(lèi)/定位,目標(biāo)檢測(cè),目標(biāo)追蹤等。不管對(duì)于初學(xué)者還是緊追前沿的研究者,這些都是不可多得的有用資料。

綜述:計(jì)算機(jī)視覺(jué)最重要的進(jìn)展

計(jì)算機(jī)視覺(jué)通常是指賦予機(jī)器視覺(jué)的能力,或賦予機(jī)器能夠直觀地分析它們的環(huán)境和內(nèi)在的刺激。這個(gè)過(guò)程通常包括對(duì)一個(gè)圖像、很多圖像或視頻的評(píng)估。英國(guó)機(jī)器視覺(jué)協(xié)會(huì)(BMVA)將計(jì)算機(jī)視覺(jué)定義為“自動(dòng)提取、分析和理解來(lái)自單個(gè)圖像或一系列圖像的有用信息的過(guò)程”。

這個(gè)定義中的“理解”這個(gè)詞說(shuō)明了計(jì)算機(jī)視覺(jué)的重要性和復(fù)雜性。對(duì)我們的環(huán)境的真正理解不是僅僅通過(guò)視覺(jué)表現(xiàn)來(lái)實(shí)現(xiàn)的。相反,視覺(jué)信號(hào)通過(guò)視覺(jué)神經(jīng)傳遞給主視覺(jué)皮層,并由大腦來(lái)解釋。從這些感官信息中得出的解釋包含了我們的自然編程和主觀體驗(yàn)的總體,即進(jìn)化是如何讓我們生存下來(lái),以及我們?cè)谏钪袑?duì)世界的理解。

從這個(gè)角度看,視覺(jué)僅僅與圖像的傳輸有關(guān);雖然計(jì)算機(jī)認(rèn)為圖像與思想或認(rèn)知更相似,涉及多個(gè)大腦區(qū)域的協(xié)作。因此,許多人認(rèn)為由于計(jì)算機(jī)視覺(jué)的跨領(lǐng)域性質(zhì),對(duì)視覺(jué)環(huán)境及其背景的真正理解能為未來(lái)的強(qiáng)人工智能的迭代開(kāi)拓道路。

然而,我們?nèi)匀惶幱谶@個(gè)迷人的領(lǐng)域的萌芽階段。這份報(bào)告的目的是為了讓我們對(duì)近年計(jì)算機(jī)視覺(jué)領(lǐng)域一些最重要的進(jìn)展。盡管我們盡可能寫(xiě)得簡(jiǎn)明,但由于領(lǐng)域的特殊性,可能有些部分讀起來(lái)比較晦澀。我們?yōu)槊總€(gè)主題提供了基本的定義,但這些定義通常只是對(duì)關(guān)鍵概念的基本解釋。為了將關(guān)注的重點(diǎn)放在2016年的新工作,限于篇幅,這份報(bào)告會(huì)遺漏一些內(nèi)容。

其中明顯省略的一個(gè)內(nèi)容是卷積神經(jīng)網(wǎng)絡(luò)(以下簡(jiǎn)稱(chēng)CNN或ConvNet)的功能,因?yàn)樗谟?jì)算機(jī)視覺(jué)領(lǐng)域無(wú)處不在。2012年出現(xiàn)的 AlexNet(一個(gè)在ImageNet競(jìng)賽獲得冠軍的CNN架構(gòu))的成功帶來(lái)了計(jì)算機(jī)視覺(jué)研究的轉(zhuǎn)折點(diǎn),許多研究人員開(kāi)始采用基于神經(jīng)網(wǎng)絡(luò)的方法,開(kāi)啟了計(jì)算機(jī)視覺(jué)的新時(shí)代。

4年過(guò)去了,CNN的各種變體仍然是視覺(jué)任務(wù)中新的神經(jīng)網(wǎng)絡(luò)架構(gòu)的主要部分,研究人員像搭樂(lè)高積木一樣創(chuàng)造它們,這是對(duì)開(kāi)源信息和深度學(xué)習(xí)能力的有力證明。不過(guò),解釋CNN的事情最好留給在這方面有更深入的專(zhuān)業(yè)知識(shí)的人。

對(duì)于那些希望在繼續(xù)進(jìn)行之前快速了解基礎(chǔ)知識(shí)的讀者,我們推薦下面的參考資料的前兩個(gè)。對(duì)于那些希望進(jìn)一步了解的人,以下的資料都值得一看:

深度神經(jīng)網(wǎng)絡(luò)如何看待你的自拍?by Andrej Karpathy 這篇文章能很好地幫助你了解產(chǎn)品和應(yīng)用背后的CNN技術(shù)。

Quora:什么是卷積神經(jīng)網(wǎng)絡(luò)。這個(gè)quora問(wèn)題下的回答有很多很好的參考鏈接和解釋?zhuān)m合初學(xué)者。

CS231n:視覺(jué)識(shí)別的卷積神經(jīng)網(wǎng)絡(luò)。這是斯坦福大學(xué)的一門(mén)深度的課程。

《深度學(xué)習(xí)》(Goodfellow, Bengio & Courville, 2016)第九章對(duì)CNN特征和功能提供了詳細(xì)的解釋。

對(duì)于那些希望更多地了解關(guān)于神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)的讀者,我們推薦:

神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)(Nielsen,2017),這是一本免費(fèi)的電子版教科書(shū),它為讀者提供了對(duì)于神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)的復(fù)雜性的非常直觀的理解。

我們希望讀者能從這份報(bào)告的信息匯總中獲益,無(wú)論以往的經(jīng)驗(yàn)如何,都可以進(jìn)一步增加知識(shí)。

本報(bào)告包括以下部分(限于篇幅,文章省略了參考文獻(xiàn)標(biāo)識(shí),請(qǐng)至原文查看):

第一部分:分類(lèi)/定位,目標(biāo)檢測(cè),目標(biāo)追蹤

第二部分:分割,超分辨率,自動(dòng)上色,風(fēng)格遷移,動(dòng)作識(shí)別

第三部分:3D世界理解

第四部分:卷積網(wǎng)絡(luò)架構(gòu),數(shù)據(jù)集,新興應(yīng)用

第一部分:分類(lèi)/定位,目標(biāo)檢測(cè),目標(biāo)追蹤

分類(lèi)/定位

涉及到圖像時(shí),“分類(lèi)”任務(wù)通常是指給一個(gè)圖像分配一個(gè)標(biāo)簽,例如“貓”。這種情況下,“定位”(locolisation)指的是找到某個(gè)對(duì)象(object)在圖像中的位置,通常輸出為對(duì)象周?chē)哪撤N形式的邊界框。當(dāng)前在ImageNet競(jìng)賽的圖像分類(lèi)/定位技術(shù)準(zhǔn)確性超過(guò)一個(gè)經(jīng)訓(xùn)練的人類(lèi)。

詳解計(jì)算機(jī)視覺(jué)最重要的進(jìn)展

圖:計(jì)算機(jī)視覺(jué)任務(wù)

Source: Fei-Fei Li, Andrej Karpathy & Justin Johnson (2016) cs231n, Lecture 8 - Slide 8, Spatial Localization and Detection (01/02/2016). Available:http://cs231n.stanford.edu/slides/2016/winter1516_...

然而,由于更大的數(shù)據(jù)集(增加了11個(gè)類(lèi)別)的引入,這很可能為近期的進(jìn)展提供新的度量標(biāo)準(zhǔn)。在這一點(diǎn)上,Keras的作者Fran?ois Chollet已經(jīng)在有超過(guò)3.5億的多標(biāo)簽圖像,包含17000個(gè)類(lèi)的谷歌內(nèi)部數(shù)據(jù)集應(yīng)用了新的技術(shù),包括流行的Xception架構(gòu)。

詳解計(jì)算機(jī)視覺(jué)最重要的進(jìn)展

圖:ILSVRC(2010-2016)圖像分類(lèi)/定位結(jié)果

Source: Jia Deng (2016). ILSVRC2016 object localisation: introduction, results. Slide 2.

2016年在ImageNet LSVRC 的一些主要進(jìn)步:

場(chǎng)景分類(lèi)(Scene Classification)是指用“溫室”、“體育館”、“大教堂”等特定場(chǎng)景來(lái)給圖像貼上標(biāo)簽的任務(wù)。去年,ImageNet 進(jìn)行了一個(gè)場(chǎng)景分類(lèi)競(jìng)賽,使用Places2數(shù)據(jù)集的一個(gè)子集:包含800萬(wàn)張圖片,用365類(lèi)場(chǎng)景訓(xùn)練。Hikvision 以 9% top-5 error贏了比賽,利用一個(gè)深 Inception-style 網(wǎng)絡(luò),以及一個(gè)不特別深的殘差網(wǎng)絡(luò)。

Trimps-Soushen以 2.99% 的top-5分類(lèi)錯(cuò)誤和7.71%的定位錯(cuò)誤贏得了ImageNet分類(lèi)任務(wù)。

Facebook的ResNeXt通過(guò)使用擴(kuò)展原始ResNet架構(gòu)的新架構(gòu),以3.03%在top-5 分類(lèi)錯(cuò)誤中排名第二。

對(duì)象檢測(cè)(Object Dection)

對(duì)象檢測(cè)的過(guò)程即檢測(cè)圖像中的某個(gè)對(duì)象。ILSVRC 2016 對(duì)對(duì)象檢測(cè)的定義包括為單個(gè)對(duì)象輸出邊界框和標(biāo)簽。這不同于分類(lèi)/定位任務(wù),分類(lèi)和定位的應(yīng)用是多個(gè)對(duì)象,而不是一個(gè)對(duì)象。

圖:對(duì)象檢測(cè)(人臉是該情況需要檢測(cè)的唯一一個(gè)類(lèi)別)

Source: Hu and Ramanan (2016, p. 1)

2016年對(duì)象檢測(cè)的主要趨勢(shì)是轉(zhuǎn)向更快、更高效的檢測(cè)系統(tǒng)。這在YOLO、SSD和R-FCN等方法中表現(xiàn)出來(lái),目的是為了在整個(gè)圖像上共享計(jì)算。因此,這些與計(jì)算昂貴的Fast R-CNN和Faster R-CNN相區(qū)別。這通常被稱(chēng)為“端到端訓(xùn)練/學(xué)習(xí)”。

其基本原理是避免將單獨(dú)的算法集中在各自的子問(wèn)題上,因?yàn)檫@通常會(huì)增加訓(xùn)練時(shí)間,并降低網(wǎng)絡(luò)的準(zhǔn)確性。也就是說(shuō),這種網(wǎng)絡(luò)的端到端適應(yīng)通常是在初始的子網(wǎng)絡(luò)解決方案之后進(jìn)行的,因此,是一種回顧性優(yōu)化( retrospective optimisation)。當(dāng)然,F(xiàn)ast R-CNN和Faster R-CNN仍然是非常有效的,并且被廣泛應(yīng)用于物體檢測(cè)。

SSD:Single Shot MultiBox Detector這篇論文利用單個(gè)神經(jīng)網(wǎng)絡(luò)來(lái)封裝所有必要的計(jì)算,它實(shí)現(xiàn)了“75.1%的mAP,超越了更先進(jìn)的R-CNN模型”(Liu et al., 2016)。我們?cè)?016年看到的最令人印象深刻的系統(tǒng)之一是“YOLO9000:Better, Faster, Stronger”,其中介紹了YOLOv2和YOLO9000檢測(cè)系統(tǒng)。YOLOv2大大改善了初始的YOLO模型,并且能夠以非常高的FPS獲得更好的結(jié)果。除了完成速度之外,系統(tǒng)在特定對(duì)象檢測(cè)數(shù)據(jù)集上的性能優(yōu)于使用ResNet和SSD的Faster-RCNN。

FAIR的Feature Pyramid Networks for Object Detection

R-FCN:Object Detection via Region-based Fully Convolutional Networks

詳解計(jì)算機(jī)視覺(jué)最重要的進(jìn)展

圖:不同架構(gòu)在對(duì)象檢測(cè)任務(wù)的準(zhǔn)確率

Source: Huang et al. (2016, p. 9)

ILSVRC 和 COCO Challenge的結(jié)果

COCO(Common Objects in Context)是另一個(gè)流行的圖像數(shù)據(jù)集。不過(guò),它比ImageNet小,也更具有策略性,在更廣泛的場(chǎng)景理解的背景下著重于對(duì)象識(shí)別。組織者每年都要針對(duì)對(duì)象檢測(cè),分割和關(guān)鍵點(diǎn)組織競(jìng)賽。 ILSVRC 和COCO 對(duì)象檢測(cè)挑戰(zhàn)的檢測(cè)是:

ImageNet LSVRC Object Detection from Images (DET):CUImage 66% meanAP. Won 109 out of 200 object categories.

ImageNet LSVRC Object Detection from video (VID):NUIST 80.8% mean AP

ImageNet LSVRC Object Detection from video with tracking:CUvideo 55.8% mean AP

COCO 2016 Detection Challenge (bounding boxes):G-RMI (Google) 41.5% AP (4.2% absolute percentage increase from 2015 winner MSRAVC)

詳解計(jì)算機(jī)視覺(jué)最重要的進(jìn)展

圖:ILSVRC 對(duì)象檢測(cè)結(jié)果(2013-2016)

Source: ImageNet. 2016. [Online] Workshop Presentation, Slide 2. Available:http://image-net.org/challenges/talks/2016/ECCV2016_ilsvrc_coco_detection_segmentation.pdf

對(duì)象跟蹤

對(duì)象跟蹤(Object Tracking)是指在給定場(chǎng)景中跟蹤特定對(duì)象或多個(gè)對(duì)象的過(guò)程。傳統(tǒng)上,它在視頻和現(xiàn)實(shí)世界的交互中都有應(yīng)用,例如,對(duì)象跟蹤對(duì)自動(dòng)駕駛系統(tǒng)至關(guān)重要。

用于對(duì)象跟蹤的全卷積的Siamese網(wǎng)絡(luò)(Fully-Convolutional Siamese Networks for Object Tracking)結(jié)合了一個(gè)基本的跟蹤算法和一個(gè)Siamese網(wǎng)絡(luò),經(jīng)過(guò)端到端的訓(xùn)練,它實(shí)現(xiàn)了SOTA,并且可以在幀速率超過(guò)實(shí)時(shí)的情況下進(jìn)行操作。

利用深度回歸網(wǎng)絡(luò)學(xué)習(xí)以100 FPS跟蹤(Learning to Track at 100 FPS with Deep Regression Networks)是另一篇試圖通過(guò)在線訓(xùn)練方法改善現(xiàn)有問(wèn)題的論文。作者提出了一種利用前饋網(wǎng)絡(luò)的跟蹤器來(lái)學(xué)習(xí)對(duì)象運(yùn)動(dòng)、外觀和定位的一般關(guān)系,從而有效地跟蹤沒(méi)有在線訓(xùn)練的新對(duì)象。它提供了SOTA標(biāo)準(zhǔn)跟蹤基準(zhǔn),同時(shí)實(shí)現(xiàn)了“以100 fps跟蹤通用對(duì)象”(Held et al., 2016)。

Deep Motion Features for Visual Tracking綜合了人工特征,deep RGB/外觀特征(來(lái)自CNN),以及深度運(yùn)動(dòng)特性(在光流圖像上訓(xùn)練)來(lái)實(shí)現(xiàn)SOTA。雖然Deep Motion Feature在動(dòng)作識(shí)別和視頻分類(lèi)中很常見(jiàn),但作者稱(chēng)這是第一次使用視覺(jué)追蹤技術(shù)。這篇論文獲得了2016年ICPR的最佳論文,用于“計(jì)算機(jī)視覺(jué)和機(jī)器人視覺(jué)”跟蹤。

Virtual Worlds as Proxy for Multi-Object Tracking Analysis,這篇文章在現(xiàn)有的視頻跟蹤基準(zhǔn)和數(shù)據(jù)集中,提出了一種新的現(xiàn)實(shí)世界克隆方法,該方法可以從零開(kāi)始生成豐富的、虛擬的、合成的、逼真的環(huán)境,并使用全標(biāo)簽來(lái)克服現(xiàn)有數(shù)據(jù)集的不足。這些生成的圖像被自動(dòng)地標(biāo)記為準(zhǔn)確的ground truth,允許包括對(duì)象檢測(cè)/跟蹤等一系列應(yīng)用。

全卷積網(wǎng)絡(luò)的全局最優(yōu)對(duì)象跟蹤(Globally Optimal Object Tracking with Fully Convolutional Networks),這篇文章解決了對(duì)象的變化和遮擋問(wèn)題,并將它們作為對(duì)象跟蹤中的兩個(gè)根限制。作者稱(chēng),“我們提出的方法利用一個(gè)全卷積的網(wǎng)絡(luò)解決了對(duì)象的外形變化問(wèn)題,并處理了動(dòng)態(tài)規(guī)劃的遮擋問(wèn)題”(Lee et al., 2016)。

第二部分:分割、 超分辨率/色彩化/風(fēng)格遷移、 行為識(shí)別

計(jì)算機(jī)視覺(jué)的中心就是分割的過(guò)程,它將整個(gè)圖像分成像素組,然后可以對(duì)這些組進(jìn)行標(biāo)記和分類(lèi)。此外,語(yǔ)義分割通過(guò)試圖在語(yǔ)義上理解圖像中每個(gè)像素的角色是貓,汽車(chē)還是其他類(lèi)型的,又在這一方向上前進(jìn)了一步。實(shí)例分割通過(guò)分割不同類(lèi)的實(shí)例來(lái)進(jìn)一步實(shí)現(xiàn)這一點(diǎn),比如,用三種不同顏色標(biāo)記三只不同的狗。這是目前在自動(dòng)駕駛技術(shù)套件中使用的計(jì)算機(jī)視覺(jué)應(yīng)用的一大集中點(diǎn)。

也許今年分割領(lǐng)域的一些最好的提升來(lái)自FAIR,他們從2015年開(kāi)始繼續(xù)深入研究DeepMask。DeepMask生成粗糙的“mask”作為分割的初始形式。 2016年,F(xiàn)air推出了SharpMask ,它改進(jìn)了DeepMask提供的“mask”,糾正了細(xì)節(jié)的缺失,改善了語(yǔ)義分割。除此之外,MultiPathNet 標(biāo)識(shí)了每個(gè)mask描繪的對(duì)象。

“為了捕捉一般的物體形狀,你必須對(duì)你正在看的東西有一個(gè)高水平的理解(DeepMask),但是要準(zhǔn)確地描述邊界,你需要再回過(guò)去看低水平的特征,一直到像素(SharpMask)?!?- Piotr Dollar,2016

圖:Demonstration of FAIR techniques in action

視頻傳播網(wǎng)絡(luò)(Vedio Propagation Network)試圖創(chuàng)建一個(gè)簡(jiǎn)單的模型來(lái)傳播準(zhǔn)確的對(duì)象mask,在第一幀分配整個(gè)視頻序列以及一些附加信息。

2016年,研究人員開(kāi)始尋找替代網(wǎng)絡(luò)配置來(lái)解決上述的規(guī)模和本地化問(wèn)題。 DeepLab 就是這樣一個(gè)例子,它為語(yǔ)義圖像分割任務(wù)取得了令人激動(dòng)的結(jié)果。 Khoreva等人(2016)基于Deeplab早期的工作(大約在2015年),提出了一種弱監(jiān)督訓(xùn)練方法,可以獲得與完全監(jiān)督網(wǎng)絡(luò)相當(dāng)?shù)慕Y(jié)果。

計(jì)算機(jī)視覺(jué)通過(guò)使用端到端網(wǎng)絡(luò)進(jìn)一步完善了有用信息網(wǎng)絡(luò)的共享方式,減少了分類(lèi)中,多個(gè)全向子任務(wù)的計(jì)算需求。兩個(gè)關(guān)鍵的論文使用這種方法是:

100 Layers Tiramisu是一個(gè)完全卷積的DenseNet,它以前饋的方式將每一層連接到每一層。它還通過(guò)較少的參數(shù)和訓(xùn)練/處理在多個(gè)基準(zhǔn)數(shù)據(jù)集上實(shí)現(xiàn)SOTA。

Fully Convolutional Instance-aware Semantic Segmentation共同執(zhí)行實(shí)例掩碼預(yù)測(cè)和分類(lèi)(兩個(gè)子任務(wù))。COCO分割挑戰(zhàn)冠軍MSRA。 37.3%AP。比起2015 COCO挑戰(zhàn)賽中的MSRAVC,絕對(duì)躍升了9.1%。

雖然ENet是一種用于實(shí)時(shí)語(yǔ)義分割的DNN體系結(jié)構(gòu),但它并不屬于這一類(lèi)別,它證明了降低計(jì)算成本和提供更多移動(dòng)設(shè)備訪問(wèn)的商業(yè)價(jià)值。

我們的工作希望將盡可能多的這些進(jìn)步回溯到有形的公開(kāi)應(yīng)用。考慮到這一點(diǎn),以下內(nèi)容包含2016年一些最有意義的醫(yī)療保健應(yīng)用細(xì)分市場(chǎng):

A Benchmark for Endoluminal Scene Segmentation of Colonoscopy Images

3D fully convolutional networks for subcortical segmentation in MRI: A large-scale study

Semi-supervised Learning using Denoising Autoencoders for Brain Lesion Detection and Segmentation

3D Ultrasound image segmentation: A Survey

A Fully Convolutional Neural Network based Structured Prediction Approach Towards the Retinal Vessel Segmentation

3-D Convolutional Neural Networks for Glioblastoma Segmentation

我們最喜歡的準(zhǔn)醫(yī)學(xué)分割應(yīng)用之一是FusionNet——一個(gè)深度全卷積神經(jīng)網(wǎng)絡(luò),用于連接組學(xué)的圖像分割,基于SOTA電子顯微鏡(EM)分割方法。

超分辨率、風(fēng)格遷移和著色

并非計(jì)算機(jī)視覺(jué)領(lǐng)域的所有研究都是為了擴(kuò)展機(jī)器的偽認(rèn)知能力,而且神經(jīng)網(wǎng)絡(luò)的神話般的可塑性以及其他ML技術(shù)常常適用于各種其他新穎的應(yīng)用,這些應(yīng)用可以滲透到公共空間中。超分辨率方案,風(fēng)格轉(zhuǎn)移和著色去年的進(jìn)步占據(jù)了整個(gè)領(lǐng)域。

超分辨率指的是從低分辨率對(duì)應(yīng)物估計(jì)高分辨率圖像的過(guò)程,以及不同放大倍數(shù)下圖像特征的預(yù)測(cè),這是人腦幾乎毫不費(fèi)力地完成的。最初的超分辨率是通過(guò)簡(jiǎn)單的技術(shù),如bicubic-interpolation和最近鄰。在商業(yè)應(yīng)用方面,克服低分辨率限制和實(shí)現(xiàn)“CSI Miami”風(fēng)格圖像增強(qiáng)的愿望推動(dòng)了該領(lǐng)域的研究。以下是今年的一些進(jìn)展及其潛在的影響:

Neural Enhance是Alex J. Champandard的創(chuàng)意,結(jié)合四篇不同研究論文的方法來(lái)實(shí)現(xiàn)超分辨率方法。

實(shí)時(shí)視頻超分辨率解決方案也在2016年進(jìn)行了兩次著名的嘗試。

RAISR:來(lái)自Google的快速而準(zhǔn)確的圖像超分辨率方法。通過(guò)使用低分辨率和高分辨率圖像對(duì)訓(xùn)練濾波器,避免了神經(jīng)網(wǎng)絡(luò)方法的昂貴內(nèi)存和速度要求。作為基于學(xué)習(xí)的框架,RAISR比同類(lèi)算法快兩個(gè)數(shù)量級(jí),并且與基于神經(jīng)網(wǎng)絡(luò)的方法相比,具有最小的存儲(chǔ)器需求。因此超分辨率可以擴(kuò)展到個(gè)人設(shè)備。

生成對(duì)抗網(wǎng)絡(luò)(GAN)的使用代表了當(dāng)前用于超分辨率的SOTA:

SRGAN通過(guò)訓(xùn)練區(qū)分超分辨率和原始照片真實(shí)圖像的辨別器網(wǎng)絡(luò),在公共基準(zhǔn)測(cè)試中提供多采樣圖像的逼真紋理。

盡管SRResNet在峰值信噪比(PSNR)方面的表現(xiàn)最佳,但SRGAN獲得更精細(xì)的紋理細(xì)節(jié)并達(dá)到最佳的平均評(píng)分(MOS),SRGAN表現(xiàn)最佳。

“據(jù)我們所知,這是第一個(gè)能夠推出4倍放大因子的照片般真實(shí)的自然圖像的框架?!币郧八械姆椒ǘ紵o(wú)法在較大的放大因子下恢復(fù)更精細(xì)的紋理細(xì)節(jié)。

Amortised MAP Inference for Image Super-resolution提出了一種使用卷積神經(jīng)網(wǎng)絡(luò)計(jì)算最大后驗(yàn)(MAP)推斷的方法。但是,他們的研究提出了三種優(yōu)化方法,GAN在其中實(shí)時(shí)圖像數(shù)據(jù)上表現(xiàn)明顯更好。

毫無(wú)疑問(wèn),Style Transfer集中體現(xiàn)了神經(jīng)網(wǎng)絡(luò)在公共領(lǐng)域的新用途,特別是去年的Facebook集成以及像Prisma 和Artomatix 這樣的公司。風(fēng)格轉(zhuǎn)換是一種較舊的技術(shù),但在2015年出版了一個(gè)神經(jīng)算法的藝術(shù)風(fēng)格轉(zhuǎn)換為神經(jīng)網(wǎng)絡(luò)。從那時(shí)起,風(fēng)格轉(zhuǎn)移的概念被Nikulin和Novak擴(kuò)展,并且也被用于視頻,就像計(jì)算機(jī)視覺(jué)中其他的共同進(jìn)步一樣。

圖:風(fēng)格遷移的例子

風(fēng)格轉(zhuǎn)換作為一個(gè)主題,一旦可視化是相當(dāng)直觀的,比如,拍攝一幅圖像,并用不同的圖像的風(fēng)格特征呈現(xiàn)。例如,以著名的繪畫(huà)或藝術(shù)家的風(fēng)格。今年Facebook發(fā)布了Caffe2Go,將其深度學(xué)習(xí)系統(tǒng)整合到移動(dòng)設(shè)備中。谷歌也發(fā)布了一些有趣的作品,試圖融合多種風(fēng)格,生成完全獨(dú)特的圖像風(fēng)格。

除了移動(dòng)端集成之外,風(fēng)格轉(zhuǎn)換還可以用于創(chuàng)建游戲資產(chǎn)。我們團(tuán)隊(duì)的成員最近看到了Artomatix的創(chuàng)始人兼首席技術(shù)官Eric Risser的演講,他討論了該技術(shù)在游戲內(nèi)容生成方面的新穎應(yīng)用(紋理突變等),因此大大減少了傳統(tǒng)紋理藝術(shù)家的工作。

著色

著色是將單色圖像更改為新的全色版本的過(guò)程。最初,這是由那些精心挑選的顏色由負(fù)責(zé)每個(gè)圖像中的特定像素的人手動(dòng)完成的。2016年,這一過(guò)程自動(dòng)化成為可能,同時(shí)保持了以人類(lèi)為中心的色彩過(guò)程的現(xiàn)實(shí)主義的外觀。雖然人類(lèi)可能無(wú)法準(zhǔn)確地表現(xiàn)給定場(chǎng)景的真實(shí)色彩,但是他們的真實(shí)世界知識(shí)允許以與圖像一致的方式和觀看所述圖像的另一個(gè)人一致的方式應(yīng)用顏色。

著色的過(guò)程是有趣的,因?yàn)榫W(wǎng)絡(luò)基于對(duì)物體位置,紋理和環(huán)境的理解(例如,圖像)為圖像分配最可能的著色。它知道皮膚是粉紅色,天空是藍(lán)色的。

“而且,我們的架構(gòu)可以處理任何分辨率的圖像,而不像現(xiàn)在大多數(shù)基于CNN的方法。”

在一個(gè)測(cè)試中,他們的色彩是多么的自然,用戶從他們的模型中得到一個(gè)隨機(jī)的圖像,并被問(wèn)到,“這個(gè)圖像看起來(lái)是自然的嗎?

他們的方法達(dá)到了92.6%,基線達(dá)到了大約70%,而實(shí)際情況(實(shí)際彩色照片)被認(rèn)為是自然的97.7%。

行為識(shí)別

行為識(shí)別的任務(wù)是指在給定的視頻幀內(nèi)動(dòng)作的分類(lèi),以及最近才出現(xiàn)的,用算法預(yù)測(cè)在動(dòng)作發(fā)生之前幾幀的可能的相互作用的結(jié)果。在這方面,我們看到最近的研究嘗試將上下文語(yǔ)境嵌入到算法決策中,類(lèi)似于計(jì)算機(jī)視覺(jué)的其他領(lǐng)域。這個(gè)領(lǐng)域的一些關(guān)鍵論文是:

Long-term Temporal Convolutions for Action Recognition利用人類(lèi)行為的時(shí)空結(jié)構(gòu),即特定的移動(dòng)和持續(xù)時(shí)間,以使用CNN變體正確識(shí)別動(dòng)作。為了克服CNN在長(zhǎng)期行為的次優(yōu)建模,作者提出了一種具有長(zhǎng)時(shí)間卷積(LTC-CNN)的神經(jīng)網(wǎng)絡(luò)來(lái)提高動(dòng)作識(shí)別的準(zhǔn)確性。簡(jiǎn)而言之,LTC可以查看視頻的較大部分來(lái)識(shí)別操作。他們的方法使用和擴(kuò)展了3D CNN,以便在更充分的時(shí)間尺度上進(jìn)行行動(dòng)表示。

“我們報(bào)告了人類(lèi)行為識(shí)別UCF101(92.7%)和HMDB51(67.2%)兩個(gè)具有挑戰(zhàn)性的基準(zhǔn)的最新成果。

用于視頻動(dòng)作識(shí)別的時(shí)空殘差網(wǎng)絡(luò)將兩個(gè)流CNN的變體應(yīng)用于動(dòng)作識(shí)別的任務(wù),該任務(wù)結(jié)合了來(lái)自傳統(tǒng)CNN方法和最近普及的殘留網(wǎng)絡(luò)(ResNet)的技術(shù)。這兩種方法從視覺(jué)皮層功能的神經(jīng)科學(xué)假設(shè)中獲得靈感,即分開(kāi)的路徑識(shí)別物體的形狀/顏色和運(yùn)動(dòng)。作者通過(guò)注入兩個(gè)CNN流之間的剩余連接來(lái)結(jié)合ResNets的分類(lèi)優(yōu)勢(shì)。

Anticipating Visual Representations from Unlabeled Video[89]是一個(gè)有趣的論文,盡管不是嚴(yán)格的行為分類(lèi)。該程序預(yù)測(cè)了在一個(gè)動(dòng)作之前一個(gè)視頻幀序列可能發(fā)生的動(dòng)作。該方法使用視覺(jué)表示而不是逐像素分類(lèi),這意味著程序可以在沒(méi)有標(biāo)記數(shù)據(jù)的情況下運(yùn)行,利用深度神經(jīng)網(wǎng)絡(luò)的特征學(xué)習(xí)特性。

Thumos Action Recognition Challenge 的組織者發(fā)表了一篇論文,描述了最近幾年來(lái)Action Action Recognition的一般方法。本文還提供了2013-2015年挑戰(zhàn)的概要,以及如何通過(guò)行動(dòng)識(shí)別讓計(jì)算機(jī)更全面地了解視頻的挑戰(zhàn)和想法的未來(lái)方向。

第三部分 走向理解3D世界

在計(jì)算機(jī)視覺(jué)中,正如我們所看到的,場(chǎng)景,對(duì)象和活動(dòng)的分類(lèi)以及邊界框和圖像分割的輸出是許多新研究的重點(diǎn)。實(shí)質(zhì)上,這些方法應(yīng)用計(jì)算來(lái)獲得圖像的二維空間的“理解”。然而,批評(píng)者指出,3D理解對(duì)于解釋系統(tǒng)成功和現(xiàn)實(shí)世界導(dǎo)航是必不可少的。

例如,一個(gè)網(wǎng)絡(luò)可能會(huì)在圖像中找到一只貓,為它的所有像素著色,并將其歸類(lèi)為一只貓。但是,在貓所處的環(huán)境中,網(wǎng)絡(luò)是否完全理解圖像中貓的位置?

詳解計(jì)算機(jī)視覺(jué)最重要的進(jìn)展

有人認(rèn)為,從上述任務(wù)中,計(jì)算機(jī)對(duì)于3D世界的了解很少。與此相反,即使在看2D圖片(即,透視圖,遮擋,深度,場(chǎng)景中的對(duì)象如何相關(guān))等情況下,人們也能夠以3D來(lái)理解世界。將這些3D表示及其相關(guān)知識(shí)傳遞給人造系統(tǒng)代表了下一個(gè)偉大計(jì)算機(jī)視覺(jué)的前沿。一般認(rèn)為這樣做的一個(gè)主要原因是:

“場(chǎng)景的2D投影是構(gòu)成場(chǎng)景的相機(jī),燈光和物體的屬性和位置的復(fù)雜功能的組合。如果賦予3D理解,智能體可以從這種復(fù)雜性中抽象出來(lái),形成穩(wěn)定的,不受限制的表示,例如,認(rèn)識(shí)到在不同的光照條件下,或者在部分遮擋下,是從上面或從側(cè)面看的椅子。“

但是,3D理解傳統(tǒng)上面臨著幾個(gè)障礙。首先關(guān)注“自我和正常遮擋”問(wèn)題以及適合給定2D表示的眾多3D形狀。由于無(wú)法將相同結(jié)構(gòu)的不同圖像映射到相同的3D空間以及處理這些表示的多模態(tài),所以理解問(wèn)題變得更加復(fù)雜。最后,實(shí)況3D數(shù)據(jù)集傳統(tǒng)上相當(dāng)昂貴且難以獲得,當(dāng)與表示3D結(jié)構(gòu)的不同方法結(jié)合時(shí),可能導(dǎo)致訓(xùn)練限制。

我們認(rèn)為,在這個(gè)領(lǐng)域進(jìn)行的工作很重要,需要注意。從早期的AGI系統(tǒng)和機(jī)器人技術(shù)的早期理論應(yīng)用,到在不久的將來(lái)會(huì)影響我們社會(huì),盡管還在萌芽期,由于利潤(rùn)豐厚的商業(yè)應(yīng)用,我們謹(jǐn)慎地預(yù)測(cè)這一計(jì)算機(jī)視覺(jué)領(lǐng)域的指數(shù)級(jí)增長(zhǎng),這意味著計(jì)算機(jī)很快就可以開(kāi)始推理世界,而不僅僅是像素。

OctNet: Learning Deep 3D Representations at High Resolutions

ObjectNet3D: A Large Scale Database for 3D Object Recognition

3D-R2N2: A Unified Approach for Single and Multi-view 3D Object Reconstruction

3D Shape Induction from 2D Views of Multiple Objects

Unsupervised Learning of 3D Structure from Images

人類(lèi)姿勢(shì)預(yù)估和關(guān)鍵點(diǎn)監(jiān)測(cè)

人體姿勢(shì)估計(jì)試圖找出人體部位的方向和構(gòu)型。 2D人體姿勢(shì)估計(jì)或關(guān)鍵點(diǎn)檢測(cè)一般是指定人體的身體部位,例如尋找膝蓋,眼睛,腳等的二維位置。

然而,三維姿態(tài)估計(jì)通過(guò)在三維空間中找到身體部位的方向來(lái)進(jìn)一步進(jìn)行,然后可以執(zhí)行形狀估計(jì)/建模的可選步驟。這些分支已經(jīng)有了很大的改進(jìn)。

在過(guò)去的幾年中,在競(jìng)爭(zhēng)性評(píng)估方面,“COCO2016挑戰(zhàn)包括同時(shí)檢測(cè)人和本地化關(guān)鍵點(diǎn)”。 ECCV 供了有關(guān)這些主題的更多的文獻(xiàn),但是我們想強(qiáng)調(diào)以下幾篇論文:

Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields

Keep it SMPL: Automatic Estimation of 3D Human Pose and Shape from a Single Image

重構(gòu)

如前所述,前面的部分介紹了重構(gòu)的一些例子,但總的來(lái)說(shuō)重點(diǎn)是物體,特別是它們的形狀和姿態(tài)。雖然其中一些在技術(shù)上是重構(gòu)的,但是該領(lǐng)域本身包括許多不同類(lèi)型的重構(gòu),例如,場(chǎng)景重構(gòu),多視點(diǎn)和單視點(diǎn)重建,運(yùn)動(dòng)結(jié)構(gòu)(SfM),SLAM等。此外,一些重構(gòu)方法利用附加(和多個(gè))傳感器和設(shè)備,例如事件或RGB-D攝像機(jī),多種技術(shù)來(lái)推動(dòng)進(jìn)步。

結(jié)果?整個(gè)場(chǎng)景可以非剛性地重建并且在時(shí)空上改變,例如,對(duì)你自己的高保真重構(gòu),以及你的動(dòng)作進(jìn)行實(shí)時(shí)更新。

如前所述,圍繞2D圖像映射到3D空間的問(wèn)題持續(xù)存在。以下文章介紹了大量創(chuàng)建高保真實(shí)時(shí)重建的方法:

Fusion4D: Real-time Performance Capture of Challenging Scenes

Real-Time 3D Reconstruction and 6-DoF Tracking with an Event Camera

Unsupervised CNN for Single View Depth Estimation: Geometry to the Rescue

其他未分類(lèi)3D

IM2CA

Learning Motion Patterns in Videos

Deep Image Homography Estimation

gvnn: Neural Network Library for Geometric Computer Vision

3D summation and SLAM

在整個(gè)這一節(jié)中,我們?cè)?D理解領(lǐng)域進(jìn)行了一個(gè)橫切面似的介紹,主要側(cè)重于姿態(tài)估計(jì),重構(gòu),深度估計(jì)和同形目錄。但是,還有更多的精彩的工作被我們忽略了,我們?cè)跀?shù)量上受到限制。所以,我們希望給讀者提供一個(gè)寶貴的出發(fā)點(diǎn)。

大部分突出顯示的作品可能被歸類(lèi)于幾何視覺(jué),它通常涉及從圖像直接測(cè)量真實(shí)世界的數(shù)量,如距離,形狀,面積和體積。我們的啟發(fā)是基于識(shí)別的任務(wù)比通常涉及幾何視覺(jué)中的應(yīng)用程序更關(guān)注更高級(jí)別的語(yǔ)義信息。但是,我們經(jīng)常發(fā)現(xiàn),這些3D理解的不同領(lǐng)域大部分是密不可分的。

最大的幾何問(wèn)題之一是SLAM,研究人員正在考慮SLAM是否會(huì)成為深度學(xué)習(xí)所面臨的下一個(gè)問(wèn)題。所謂“深度學(xué)習(xí)的普遍性”的懷疑論者,其中有很多都指出了SLAM作為算法的重要性和功能性:

“視覺(jué)SLAM算法能夠同時(shí)建立世界三維地圖,同時(shí)跟蹤攝像機(jī)的位置和方向?!?SLAM方法的幾何估計(jì)部分目前不適合深度學(xué)習(xí)方法,所以端到端學(xué)習(xí)不太可能。 SLAM代表了機(jī)器人中最重要的算法之一,并且是從計(jì)算機(jī)視覺(jué)領(lǐng)域的大量輸入設(shè)計(jì)的。該技術(shù)已經(jīng)在Google Maps,自動(dòng)駕駛汽車(chē),Google Tango 等AR設(shè)備,甚至Mars Luver等應(yīng)用。

第四部分:卷積架構(gòu)、數(shù)據(jù)集、新興應(yīng)用

ConvNet架構(gòu)最近在計(jì)算機(jī)視覺(jué)之外發(fā)現(xiàn)了許多新穎的應(yīng)用程序,其中一些應(yīng)用程序?qū)⒃谖覀兗磳l(fā)布的論文中出現(xiàn)。然而,他們繼續(xù)在計(jì)算機(jī)視覺(jué)領(lǐng)域占有突出的地位,架構(gòu)上的進(jìn)步為本文提到的許多應(yīng)用和任務(wù)提供了速度,準(zhǔn)確性和訓(xùn)練方面的改進(jìn)。

詳解計(jì)算機(jī)視覺(jué)最重要的進(jìn)展

圖:DenseNet架構(gòu)

基于這個(gè)原因,ConvNet體系結(jié)構(gòu)對(duì)整個(gè)計(jì)算機(jī)視覺(jué)至關(guān)重要。以下是2016年以來(lái)一些值得關(guān)注的ConvNet架構(gòu),其中許多從ResNets最近的成功中獲得靈感。

Inception-v4, Inception-ResNet and the Impact of Residual Connections on Learning

Densely Connected Convolutional Networks

FractalNet Ultra-Deep Neural Networks without Residuals

Lets keep it simple: using simple architectures to outperform deeper architectures

Swapout: Learning an ensemble of deep architectures

SqueezeNet

Concatenated Rectified Linear Units (CRelu)

Exponential Linear Units (ELUs)

Parametric Exponential Linear Unit (PELU)

Harmonic CNNs

Exploiting Cyclic Symmetry in Convolutional Neural Networks

Steerable CNNs


殘差網(wǎng)絡(luò)(Residual Networks)

詳解計(jì)算機(jī)視覺(jué)最重要的進(jìn)展

圖:Test-Error Rates on CIFAR Datasets

隨著微軟ResNet的成功,Residual Networks及其變體在2016年變得非常受歡迎,現(xiàn)在提供了許多開(kāi)源版本和預(yù)訓(xùn)練模型。在2015年,ResNet在ImageNet的檢測(cè),本地化和分類(lèi)任務(wù)以及COCO的檢測(cè)和分段挑戰(zhàn)中獲得了第一名。雖然深度問(wèn)題仍然存在,但ResNet處理梯度消失的問(wèn)題為“深度增加產(chǎn)生超級(jí)抽象”提供了更多的動(dòng)力,這是目前深度學(xué)習(xí)的基礎(chǔ)。

ResNet通常被概念化為一個(gè)較淺的網(wǎng)絡(luò)集合,它通過(guò)運(yùn)行平行于其卷積層的快捷連接來(lái)抵消深度神經(jīng)網(wǎng)絡(luò)(DNN)的層次性。這些快捷方式或跳過(guò)連接可減輕與DNN相關(guān)的消失/爆炸梯度問(wèn)題,從而允許在網(wǎng)絡(luò)層中更容易地反向傳播梯度。

殘差學(xué)習(xí)、理論與進(jìn)展

Wide Residual Networks

Deep Networks with Stochastic Depth

Learning Identity Mappings with Residual Gates

Residual Networks Behave Like Ensembles of Relatively Shallow Networks

Identity Mappings in Deep Residual Networks

Multi-Residual Networks: Improving the Speed and Accuracy of Residual Networks

Highway and Residual Networks learn Unrolled Iterative Estimation

Residual Networks of Residual Networks: Multilevel Residual Networks

Resnet in Resnet: Generalizing Residual Architectures

Wider or Deeper: Revisiting the ResNet Model for Visual Recognition

Bridging the Gaps Between Residual Learning, Recurrent Neural Networks and Visual Cortex

Convolutional Residual Memory Networks

Identity Matters in Deep Learning

Deep Residual Networks with Exponential Linear Unit

Weighted Residuals for Very Deep Networks

數(shù)據(jù)集

Places2

SceneNet RGB-D

CMPlaces

MS-Celeb-1M

Open Images

YouTube-8M

一些用例和趨勢(shì)

來(lái)自Facebook的盲人應(yīng)用程序和百度的硬件

情感檢測(cè)結(jié)合了面部檢測(cè)和語(yǔ)義分析,并且正在迅速增長(zhǎng)。目前有20多個(gè)API可用。

從航空影像中提取道路,從航空地圖和人口密度地圖中分類(lèi)土地。

盡管目前還存在一些功能性問(wèn)題,但Amazon Go進(jìn)一步提高了計(jì)算機(jī)視覺(jué)的形象,證明了無(wú)排隊(duì)的購(gòu)物體驗(yàn)。

對(duì)于我們基本上沒(méi)有提到無(wú)人駕駛,我們做了大量的工作。然而,對(duì)于那些希望深入研究一般市場(chǎng)趨勢(shì)的人來(lái)說(shuō),莫里茨·穆勒 - 弗雷塔格(Moritz Mueller-Freitag)就德國(guó)汽車(chē)工業(yè)和自動(dòng)駕駛汽車(chē)的影響作了精彩的介紹。

其他有趣的領(lǐng)域:圖像檢索/搜索,手勢(shì)識(shí)別,修復(fù)和面部重建。

數(shù)字成像與醫(yī)學(xué)通訊(DICOM)和其他醫(yī)學(xué)應(yīng)用(特別是與成像相關(guān)的)。例如,有許多Kaggle檢測(cè)競(jìng)賽(肺癌,宮頸癌),其中一些有較大的金錢(qián)誘因,其中的算法試圖在分類(lèi)/檢測(cè)任務(wù)中勝過(guò)專(zhuān)家。

硬件和市場(chǎng)

機(jī)器人視覺(jué)/機(jī)器視覺(jué)(獨(dú)立領(lǐng)域)和物聯(lián)網(wǎng)的潛在目標(biāo)市場(chǎng)不斷壯大。我們個(gè)人最喜歡的是一個(gè)日本的農(nóng)民的孩子使用深度學(xué)習(xí),樹(shù)莓派TensorFlow對(duì)黃瓜形狀,大小和顏色進(jìn)行分類(lèi)。這使他的母親分揀黃瓜所花的人力時(shí)間大大減少。

計(jì)算需求的縮減和移動(dòng)到移動(dòng)的趨勢(shì)是顯而易見(jiàn)的,但是它也是通過(guò)硬件加速來(lái)實(shí)現(xiàn)的。很快我們會(huì)看到口袋大小的CNN和視覺(jué)處理單元(VPUs)到處都是。例如,Movidius Myriad2被谷歌的Project Tango和無(wú)人機(jī)所使用。

Movidius Fathom 也使用了Myriad2的技術(shù),允許用戶將SOTA計(jì)算機(jī)視覺(jué)性能添加到消費(fèi)類(lèi)設(shè)備中。具有USB棒的物理特性的Fathom棒將神經(jīng)網(wǎng)絡(luò)的能力帶到幾乎任何設(shè)備:一根棒上的大腦。

傳感器和系統(tǒng)使用可見(jiàn)光以外的東西。例子包括雷達(dá),熱像儀,高光譜成像,聲納,磁共振成像等。

LIDAR的成本降低,它使用光線和雷達(dá)來(lái)測(cè)量距離,與普通的RGB相機(jī)相比具有許多優(yōu)點(diǎn)。目前有不少于500美元的LIDAR設(shè)備。

Hololens和近乎無(wú)數(shù)的其他增強(qiáng)現(xiàn)實(shí)頭盔進(jìn)入市場(chǎng)。

Google的Project Tango 代表了SLAM的下一個(gè)大型商業(yè)化領(lǐng)域。 Tango是一個(gè)增強(qiáng)現(xiàn)實(shí)計(jì)算平臺(tái),包含新穎的軟件和硬件。 Tango允許在不使用GPS或其他外部信息的情況下檢測(cè)移動(dòng)設(shè)備相對(duì)于世界的位置,同時(shí)以3D形式繪制設(shè)備周?chē)膮^(qū)域。

Google合作伙伴聯(lián)想于2016年推出了價(jià)格適中的Tango手機(jī),允許數(shù)百名開(kāi)發(fā)人員開(kāi)始為該平臺(tái)創(chuàng)建應(yīng)用程序。 Tango采用以下軟件技術(shù):運(yùn)動(dòng)跟蹤,區(qū)域?qū)W習(xí)和深度感知。

與其他領(lǐng)域結(jié)合的前沿研究:

唇語(yǔ)

生成模型

結(jié)論

總之,我們想突出一些在我們的研究回顧過(guò)程中反復(fù)出現(xiàn)的趨勢(shì)和反復(fù)出現(xiàn)的主題。首先,我們希望引起人們對(duì)機(jī)器學(xué)習(xí)研究社區(qū)極度追求優(yōu)化的關(guān)注。這是最值得注意的,體現(xiàn)在這一年里精確率的不斷提升。

錯(cuò)誤率不是唯一的狂熱優(yōu)化參數(shù),研究人員致力于提高速度、效率,甚至算法能夠以全新的方式推廣到其他任務(wù)和問(wèn)題。我們意識(shí)到這是研究的前沿,包括one-shot learning、生成模型、遷移學(xué)習(xí),以及最近的evolutionary learning,我們認(rèn)為這些研究原則正逐漸產(chǎn)生更大的影響。

雖然這最后一點(diǎn)毫無(wú)疑問(wèn)是值得稱(chēng)贊的,而不是對(duì)這一趨勢(shì)的貶低,但人們還是禁不住要把他們的注意力放在(非常)的通用人工智能。我們只是希望向?qū)<液头菍?zhuān)業(yè)人士強(qiáng)調(diào),這一擔(dān)憂源自于此,來(lái)自計(jì)算機(jī)視覺(jué)和其他人工智能領(lǐng)域的驚人進(jìn)展。通過(guò)對(duì)這些進(jìn)步及其總體影響的教育,可以減少公眾不必要的擔(dān)憂。這可能會(huì)反過(guò)來(lái)冷卻媒體的情緒和減少有關(guān)AI的錯(cuò)誤信息。

出于兩個(gè)原因,我們選擇專(zhuān)注于一年的時(shí)間里的進(jìn)展。第一個(gè)原因與這一領(lǐng)域的新工作數(shù)量之大有關(guān)。即使對(duì)那些密切關(guān)注這一領(lǐng)域的人來(lái)說(shuō),隨著出版物數(shù)量呈指數(shù)級(jí)的增長(zhǎng),跟上研究的步伐也變得越來(lái)越困難。第二個(gè)原因,讓我們回頭看看這一年內(nèi)的變化。

在了解這一年的進(jìn)展的同時(shí),讀者可以了解目前的研究進(jìn)展。在這么短的時(shí)間跨度里,我們看到了這么多的進(jìn)步,這是如何得到的?研究人員形成了以以前的方法(架構(gòu)、元架構(gòu)、技術(shù)、想法、技巧、結(jié)果等)和基礎(chǔ)設(shè)施(Keras、TensorFlow、PyTorch、TPU等)的全球社區(qū),這不禁值得鼓勵(lì),也值得慶祝。很少有開(kāi)源社區(qū)像這樣不斷吸引新的研究人員,并將它的技術(shù)應(yīng)用于經(jīng)濟(jì)學(xué)、物理學(xué)和其他無(wú)數(shù)領(lǐng)域。

對(duì)于那些尚未注意到的人來(lái)說(shuō),理解這一點(diǎn)非常重要,即在許多不同聲音中,宣稱(chēng)對(duì)這種技術(shù)的本質(zhì)有理解,至少有共識(shí),認(rèn)同這項(xiàng)技術(shù)將以新的令人興奮的方式改變世界。然而,在這些改變實(shí)現(xiàn)之前,仍存在許多分歧。

我們將繼續(xù)盡最大的努力提供信息。有了這樣的資源,我們希望滿足那些希望跟蹤計(jì)算機(jī)視覺(jué)和人工智能的進(jìn)展的人的需求,我們的項(xiàng)目希望為開(kāi)源革命增添一些價(jià)值,而這個(gè)革命正在技術(shù)領(lǐng)域悄然發(fā)生。

*推薦文章*

【ICCV2017論文技術(shù)解讀】阿里-基于層次化多模態(tài)LSTM的視覺(jué)語(yǔ)義聯(lián)合嵌入

NIPS 2017論文深度離散哈希算法,可用于圖像檢索

原文標(biāo)題:計(jì)算機(jī)視覺(jué)這一年:這是最全的一份CV技術(shù)報(bào)告

文章出處:【微信公眾號(hào):ADAS】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 3D
    3D
    +關(guān)注

    關(guān)注

    9

    文章

    2979

    瀏覽量

    112934
  • 人工智能
    +關(guān)注

    關(guān)注

    1811

    文章

    49497

    瀏覽量

    258189
  • 計(jì)算機(jī)視覺(jué)

    關(guān)注

    9

    文章

    1713

    瀏覽量

    47325
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    什么是計(jì)算機(jī)視覺(jué)計(jì)算機(jī)視覺(jué)的三種方法

    計(jì)算機(jī)視覺(jué)是指通過(guò)為計(jì)算機(jī)賦予人類(lèi)視覺(jué)這一技術(shù)目標(biāo),從而賦能裝配線檢查到駕駛輔助和機(jī)器人等應(yīng)用。計(jì)算機(jī)缺乏像人類(lèi)一樣憑直覺(jué)產(chǎn)生
    的頭像 發(fā)表于 11-16 16:38 ?5979次閱讀
    什么是<b class='flag-5'>計(jì)算機(jī)</b><b class='flag-5'>視覺(jué)</b>?<b class='flag-5'>計(jì)算機(jī)</b><b class='flag-5'>視覺(jué)</b>的三種方法

    計(jì)算機(jī)最重要的特點(diǎn)是什么

    的是______。A:體積龐大B:計(jì)算精度高C:運(yùn)算快速D:通用性強(qiáng)答案: A3、計(jì)算機(jī)最重要的特點(diǎn)是______。A:有記憶能力B:高速度與高精度C:可靠性與可用性D:存儲(chǔ)程序與自動(dòng)控制答案: D4、把
    發(fā)表于 09-10 07:07

    基于OpenCV的計(jì)算機(jī)視覺(jué)技術(shù)實(shí)現(xiàn)

    基于OpenCV的計(jì)算機(jī)視覺(jué)技術(shù)實(shí)現(xiàn)OpencV是用來(lái)實(shí)現(xiàn)計(jì)算機(jī)視覺(jué)相關(guān)技術(shù)的開(kāi)放源碼工作庫(kù),是計(jì)算機(jī)
    發(fā)表于 11-23 21:06 ?0次下載
    基于OpenCV的<b class='flag-5'>計(jì)算機(jī)</b><b class='flag-5'>視覺(jué)</b>技術(shù)實(shí)現(xiàn)

    計(jì)算機(jī)視覺(jué)與機(jī)器視覺(jué)區(qū)別

     “計(jì)算機(jī)視覺(jué)”,是指用計(jì)算機(jī)實(shí)現(xiàn)人的視覺(jué)功能,對(duì)客觀世界的三維場(chǎng)景的感知、識(shí)別和理解。計(jì)算機(jī)視覺(jué)
    的頭像 發(fā)表于 12-08 09:27 ?1.3w次閱讀

    計(jì)算機(jī)視覺(jué)常用算法_計(jì)算機(jī)視覺(jué)有哪些分類(lèi)

    本文主要介紹了計(jì)算機(jī)視覺(jué)常用算法及計(jì)算機(jī)視覺(jué)的分類(lèi)。
    的頭像 發(fā)表于 07-30 17:34 ?1.4w次閱讀

    基于計(jì)算機(jī)視覺(jué)的多維圖像智能

    利用攝像機(jī)和其他數(shù)據(jù)源,計(jì)算機(jī)視覺(jué)可以收集有關(guān)公司運(yùn)營(yíng)最重要方面的重要信息,這些信息包括構(gòu)成流程主干的人員、產(chǎn)品、資產(chǎn)和文檔的組合。當(dāng)企業(yè)收集數(shù)字圖像并應(yīng)用深度學(xué)習(xí)算法,通過(guò)對(duì)機(jī)器眼睛
    的頭像 發(fā)表于 08-04 10:39 ?3281次閱讀

    計(jì)算機(jī)視覺(jué)中的重要研究方向

    主要介紹計(jì)算機(jī)視覺(jué)中的幾個(gè)重要的研究方向。主要包括圖像分類(lèi)、目標(biāo)檢測(cè)、語(yǔ)義分割、實(shí)例分割、全景分割等。通過(guò)對(duì)這幾個(gè)計(jì)算機(jī)視覺(jué)任務(wù)的對(duì)比,我們
    的頭像 發(fā)表于 11-19 14:32 ?1.2w次閱讀

    計(jì)算機(jī)視覺(jué)入門(mén)指南

    這是一篇計(jì)算機(jī)視覺(jué)入門(mén)指南,從概念、原理、用例等角度介紹了計(jì)算機(jī)視覺(jué)。 「機(jī)器能夠模擬人類(lèi)視覺(jué)系統(tǒng)」的幻想已經(jīng)過(guò)時(shí)了。自 1960 年代第一
    的頭像 發(fā)表于 11-27 09:52 ?3344次閱讀

    計(jì)算機(jī)視覺(jué)重要性及如何幫助解決問(wèn)題

      機(jī)器學(xué)習(xí)計(jì)算機(jī)視覺(jué)是一種基于人工智能的計(jì)算機(jī)視覺(jué)?;谌斯ぶ悄艿幕跈C(jī)器學(xué)習(xí)的計(jì)算機(jī)視覺(jué)具有
    的頭像 發(fā)表于 04-06 16:49 ?4386次閱讀

    計(jì)算機(jī)視覺(jué)為何重要

    計(jì)算機(jī)視覺(jué)是一個(gè)研究領(lǐng)域,旨在助力計(jì)算機(jī)使用復(fù)雜算法(可以是傳統(tǒng)算法,也可以是基于深度學(xué)習(xí)的算法)來(lái)理解數(shù)字圖像和視頻并提取有用的信息。
    的頭像 發(fā)表于 04-29 14:21 ?4022次閱讀

    計(jì)算機(jī)視覺(jué)的基礎(chǔ)概念和現(xiàn)實(shí)應(yīng)用

    本文將介紹計(jì)算機(jī)視覺(jué)的基礎(chǔ)概念和現(xiàn)實(shí)應(yīng)用,對(duì)任何聽(tīng)說(shuō)過(guò)計(jì)算機(jī)視覺(jué)但不確定它是什么以及如何應(yīng)用的人,本文是了解計(jì)算機(jī)
    的頭像 發(fā)表于 11-08 10:10 ?2154次閱讀

    機(jī)器視覺(jué)計(jì)算機(jī)視覺(jué)的區(qū)別

    機(jī)器視覺(jué)計(jì)算機(jī)視覺(jué)的區(qū)別 機(jī)器視覺(jué)計(jì)算機(jī)視覺(jué)是兩個(gè)相關(guān)但不同的概念。雖然許多人使用這兩個(gè)術(shù)語(yǔ)
    的頭像 發(fā)表于 08-09 16:51 ?2785次閱讀

    計(jì)算機(jī)視覺(jué)的十大算法

    視覺(jué)技術(shù)的發(fā)展起到了重要的推動(dòng)作用。一、圖像分割算法圖像分割算法是計(jì)算機(jī)視覺(jué)領(lǐng)域的基礎(chǔ)算法之一,它的主要任務(wù)是將圖像分割成不同的區(qū)域或?qū)ο?。常?jiàn)的圖像分割算法包括基
    的頭像 發(fā)表于 02-19 13:26 ?2162次閱讀
    <b class='flag-5'>計(jì)算機(jī)</b><b class='flag-5'>視覺(jué)</b>的十大算法

    計(jì)算機(jī)視覺(jué)的主要研究方向

    計(jì)算機(jī)視覺(jué)(Computer Vision, CV)作為人工智能領(lǐng)域的一個(gè)重要分支,致力于使計(jì)算機(jī)能夠像人眼一樣理解和解釋圖像和視頻中的信息。隨著深度學(xué)習(xí)、大數(shù)據(jù)等技術(shù)的快速發(fā)展,
    的頭像 發(fā)表于 06-06 17:17 ?2362次閱讀

    計(jì)算機(jī)視覺(jué)屬于人工智能嗎

    屬于,計(jì)算機(jī)視覺(jué)是人工智能領(lǐng)域的一個(gè)重要分支。 引言 計(jì)算機(jī)視覺(jué)是一門(mén)研究如何使計(jì)算機(jī)具有
    的頭像 發(fā)表于 07-09 09:11 ?2627次閱讀