計(jì)算機(jī)視覺(jué)中的目標(biāo)檢測(cè),因其在真實(shí)世界的大量應(yīng)用需求,比如自動(dòng)駕駛、視頻監(jiān)控、機(jī)器人視覺(jué)等,而被研究學(xué)者廣泛關(guān)注。
幾天前,arXiv新出一篇目標(biāo)檢測(cè)文獻(xiàn)《Object Detection in 20 Years: A Survey》對(duì)該領(lǐng)域20年來(lái)出現(xiàn)的技術(shù)進(jìn)行了綜述,這是一篇投向PAMI的論文,作者們r(jià)eview了400+篇論文,總結(jié)了目標(biāo)檢測(cè)發(fā)展的里程碑算法和state-of-the-art,并且難能可貴的對(duì)算法流程各個(gè)技術(shù)模塊的演進(jìn)也進(jìn)行了說(shuō)明,還深入到目標(biāo)檢測(cè)的特定領(lǐng)域如人臉檢測(cè)、行人檢測(cè)等進(jìn)行了總結(jié),最后列舉了未來(lái)可能的發(fā)展方向。
溫故而知新,非常值得參考!
作者信息:
該文作者來(lái)自美國(guó)密歇根大學(xué)、北京航空航天大學(xué)、滴滴出行。
下圖是作者在谷歌學(xué)術(shù)檢索目標(biāo)檢測(cè)相關(guān)關(guān)鍵字返回的歷年文獻(xiàn)數(shù)量,可見(jiàn)該領(lǐng)域20年來(lái)越來(lái)越受到學(xué)術(shù)界的關(guān)注。2018年有將近1200篇相關(guān)文獻(xiàn)發(fā)表。
目標(biāo)檢測(cè)路線圖
作者將目標(biāo)檢測(cè)近20年來(lái)的里程碑算法畫在時(shí)間軸上,如下:
可見(jiàn)作者將算法大致分為2012年之前的傳統(tǒng)檢測(cè)方法與2012年之后出現(xiàn)的基于深度學(xué)習(xí)的檢測(cè)方法。
傳統(tǒng)方法比如我們所熟知的V-J檢測(cè)、HOG檢測(cè)、DPM算法。
深度學(xué)習(xí)方法截然不同的分為兩條技術(shù)路徑:?jiǎn)坞A段檢測(cè)算法與兩階段檢測(cè)算法。
同時(shí)作者把目標(biāo)檢測(cè)的一些精度提高的方法的出現(xiàn)也列在了時(shí)間軸上,比如bounding box regression、multi-resolution detection等。
在目前最知名的評(píng)估數(shù)據(jù)集 VOC 2007 、VOC 2012、 COCO 上不同年份出現(xiàn)的算法精度提高,如下圖:
可見(jiàn),深度學(xué)習(xí)在檢測(cè)領(lǐng)域的開(kāi)山之作 RCNN 取得了大幅度精度提高,開(kāi)辟了檢測(cè)的新時(shí)代。而今年新出的 TridentNet 是目前在 COCO 數(shù)據(jù)集上取得最高精度的算法。
目標(biāo)檢測(cè)數(shù)據(jù)集
作者總結(jié)了通用目標(biāo)檢測(cè)及幾個(gè)特定目標(biāo)檢測(cè)的數(shù)據(jù)集。
通用目標(biāo)檢測(cè)領(lǐng)域常用數(shù)據(jù)集:
幾個(gè)常用數(shù)據(jù)集的示例圖片:
行人檢測(cè)常用數(shù)據(jù)集:
人臉檢測(cè)常用數(shù)據(jù)集:
文本檢測(cè)常用數(shù)據(jù)集:
交通燈檢測(cè)與交通標(biāo)志檢測(cè)常用數(shù)據(jù)集:
遙感目標(biāo)檢測(cè)常用數(shù)據(jù)集:
目標(biāo)檢測(cè)技術(shù)演進(jìn)
作者將目標(biāo)檢測(cè)中涉及的各種技術(shù)的演進(jìn)鋪展開(kāi)來(lái),讓我們能就單一技術(shù)看到發(fā)展路徑。
早期目標(biāo)檢測(cè)算法代表:
多尺度檢測(cè)技術(shù)演進(jìn)路線圖:
包圍框回歸技術(shù)演進(jìn)路線圖:
目標(biāo)上下文建模技術(shù)演進(jìn)路線圖:
包圍框非極大抑制(NMS)技術(shù)演進(jìn)路線圖:
難檢測(cè)負(fù)樣本挖掘技術(shù)演進(jìn)路線圖:
目標(biāo)檢測(cè)計(jì)算加速
目標(biāo)檢測(cè)天生是計(jì)算密集型任務(wù),所以在其發(fā)展的各個(gè)階段,目標(biāo)檢測(cè)算法的加速就一直是一個(gè)重要議題。
作者總結(jié)的目標(biāo)檢測(cè)計(jì)算加速方法:
可見(jiàn)主要是在三個(gè)層次加速:
數(shù)值計(jì)算層次(如積分圖、矢量量化等)、
檢測(cè)引擎層次(網(wǎng)絡(luò)剪枝與量化、輕量級(jí)網(wǎng)絡(luò)設(shè)計(jì)等)、
檢測(cè)流程層次(特征圖共享、分類器加速、級(jí)連檢測(cè)等)。
因?yàn)槟壳癈NN檢測(cè)方法是主流,作者列出了近年出現(xiàn)的卷積計(jì)算的一些加速方法及其時(shí)間復(fù)雜度:
目標(biāo)檢測(cè)進(jìn)展
作者在這部分描述了近三年來(lái)state-of-the-art目標(biāo)檢測(cè)技術(shù)的研究進(jìn)展。
1. 更好地引擎(engine)
作者將深度學(xué)習(xí)目標(biāo)檢測(cè)網(wǎng)絡(luò)的骨干網(wǎng)稱為其引擎。改進(jìn)目標(biāo)檢測(cè)的一個(gè)直接思路就是使用更加先進(jìn)的骨干網(wǎng)。
如下圖:
相同算法用相同顏色的圓點(diǎn)表示,使用相同引擎的算法結(jié)果用一個(gè)大括號(hào)連接,我們可以輕易看出,使用不同的引擎對(duì)最終精度的影響更大。
2. 使用更好的特征
作者主要指:1)特征融合;2)學(xué)習(xí)大感受野的高分辨率特征
3. 超越滑動(dòng)窗口
不再是局限于候選區(qū)域再分類的模式。作者提到兩種新模式:
1)子區(qū)域搜索 sub-region search。將目標(biāo)檢測(cè)看為從初始網(wǎng)格到最終ground truth box的路徑規(guī)劃過(guò)程。
2)關(guān)鍵點(diǎn)定位。將目標(biāo)檢測(cè)看為特定語(yǔ)義點(diǎn)定位的過(guò)程。
比如:
ECCV18 Oral | CornerNet目標(biāo)檢測(cè)開(kāi)啟預(yù)測(cè)“邊界框”到預(yù)測(cè)“點(diǎn)對(duì)”的新思路
Grid R-CNN解讀:商湯最新目標(biāo)檢測(cè)算法
4. 目標(biāo)定位改進(jìn)
1)包圍框提精。
2)改進(jìn)loss函數(shù)用于精確定位。比如:
5. 檢測(cè)與分割一起進(jìn)行
分割可以幫助目標(biāo)檢測(cè)提高類別識(shí)別的精度、獲得更好地目標(biāo)定位、嵌入更加豐富的上下文。
分割的網(wǎng)絡(luò)可以作為目標(biāo)檢測(cè)的提取網(wǎng)絡(luò),也可以作為多任務(wù)學(xué)習(xí)的損失函數(shù),用以改進(jìn)目標(biāo)檢測(cè)。
6. 旋轉(zhuǎn)和尺度變化魯棒的目標(biāo)檢測(cè)
針對(duì)旋轉(zhuǎn)變化魯棒改進(jìn)方向:
1)旋轉(zhuǎn)不變損失函數(shù);
2)旋轉(zhuǎn)校正;
3)Rotation RoI Pooling。
針對(duì)尺度變化魯棒的改進(jìn):
1)尺度自適應(yīng)訓(xùn)練;
2)尺度自適應(yīng)檢測(cè)。
7. Training from Scratch
不使用預(yù)訓(xùn)練模型,從頭開(kāi)始訓(xùn)練目標(biāo)檢測(cè)網(wǎng)絡(luò)。
8. 對(duì)抗訓(xùn)練
比如有研究表明,GAN可以用來(lái)改進(jìn)小目標(biāo)的檢測(cè)。
9. 弱監(jiān)督的目標(biāo)檢測(cè)
不使用包圍框標(biāo)注,而僅使用圖像級(jí)的目標(biāo)標(biāo)注的算法。
減少標(biāo)注成本,擴(kuò)大訓(xùn)練集。
目標(biāo)檢測(cè)應(yīng)用
作者列舉了目標(biāo)檢測(cè)的幾個(gè)特殊應(yīng)用,包括行人檢測(cè)、人臉檢測(cè)、文本檢測(cè)、交通燈及標(biāo)志檢測(cè)、遙感目標(biāo)檢測(cè)。
指出每種檢測(cè)任務(wù)面臨的困難和挑戰(zhàn),并簡(jiǎn)述了目前應(yīng)對(duì)這些問(wèn)題的方法。
目標(biāo)檢測(cè)的未來(lái)方向
作者列舉的未來(lái)方向包括:
1. 輕量級(jí)目標(biāo)檢測(cè)算法;
2. 用AutoML設(shè)計(jì)目標(biāo)檢測(cè)算法;
3. 域適應(yīng)(domain adaptation)改進(jìn)目標(biāo)檢測(cè);
4. 弱監(jiān)督的目標(biāo)檢測(cè);
5. 小目標(biāo)檢測(cè);
6. 視頻目標(biāo)檢測(cè)
7. 融合其他傳感器信息的目標(biāo)檢測(cè)。
論文地址:
https://arxiv.org/abs/1905.05055v1
(*本文為 AI科技大本營(yíng)轉(zhuǎn)載文章,轉(zhuǎn)載請(qǐng)聯(lián)系作者)
◆
公開(kāi)課精彩推薦
◆
本次課程將會(huì)介紹如何利用TensorRT加速YOLO目標(biāo)檢測(cè),課程將會(huì)著重介紹編程方法。本次課程還會(huì)涉及到 TensorRT 中數(shù)據(jù)類型,流處理,多精度推理等細(xì)節(jié)的展示。本次課程特色是講解+示例分享。本次課程中,QA也是一個(gè)非常精彩的環(huán)節(jié)。
推薦閱讀
開(kāi)源要自立?華為如何“復(fù)制”Google模式
谷歌用1.2萬(wàn)個(gè)模型“推翻”現(xiàn)有無(wú)監(jiān)督研究成果!斬獲ICML 2019最佳論文
24式,加速你的Python
荔枝“自由”?朋友,你實(shí)現(xiàn)了嗎?
為防 Android 碎片化?Google 強(qiáng)迫開(kāi)發(fā)者使用自有開(kāi)發(fā)工具!
Docker 存儲(chǔ)選型,這些年我們遇到的坑
從制造業(yè)轉(zhuǎn)型物聯(lián)網(wǎng),看博世如何破界
回報(bào)率850%? 這個(gè)用Python優(yōu)化的比特幣交易機(jī)器人簡(jiǎn)直太燒腦了...
面試阿里技術(shù)崗,竟然掛在第4 輪……
你點(diǎn)的每個(gè)“在看”,我都認(rèn)真當(dāng)成了喜歡
-
視頻監(jiān)控
+關(guān)注
關(guān)注
17文章
1727瀏覽量
67006 -
計(jì)算機(jī)視覺(jué)
+關(guān)注
關(guān)注
9文章
1713瀏覽量
47306 -
自動(dòng)駕駛
+關(guān)注
關(guān)注
791文章
14539瀏覽量
173742
原文標(biāo)題:繼往開(kāi)來(lái)!目標(biāo)檢測(cè)二十年技術(shù)綜述
文章出處:【微信號(hào):rgznai100,微信公眾號(hào):rgznai100】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
電力電子技術(shù)的二十年及其未來(lái)【轉(zhuǎn)】
詳細(xì)分析stm32f10x.h
詳細(xì)分析了VTIM和VMIN的功能
高頻電子變壓器及其發(fā)展方向
電力電子技術(shù)的二十年及其未來(lái)——思考走向信息時(shí)代的電力電子學(xué)

評(píng)論