chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

二十年來目標檢測領域的關鍵技術,思路非常清晰

新機器視覺 ? 來源:DeepBlue深蘭科技 ? 2020-09-24 11:48 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

以2014年為分水嶺,作者將過去二十年的目標檢測發(fā)展進程分為兩個階段:2014年之前的傳統(tǒng)目標檢測,以及之后基于深度學習的目標檢測。接下來,文章列舉了二十年來目標檢測領域的關鍵技術,思路非常清晰。

過去二十年中與 “ 目標檢測 ” 相關的出版物數(shù)量的增長

二十年

計算機視覺領域中有幾個基本的任務:圖像分類[3]、目標檢測[4]、實例分割[5]及語義分割[6],其中目標檢測作為計算機視覺中最基本的任務在近年來引起了廣泛關注。某種意義上,它在過去二十年內(nèi)的發(fā)展也是計算機視覺發(fā)展史的縮影。如果我們將今天基于深度學習的目標檢測技術比作一場“熱兵器革命”,那么回顧20年前的技術時即可窺探“冷兵器”時代的智慧。

目標檢測是一項計算機視覺任務。正如視覺對于人的作用一樣,目標檢測旨在解決計算機視覺應用中兩個最基本的問題:1. 該物體是什么?2. 該物體在哪里?當然,聰明的人可能會立即想到第三個問題:“該物體在干什么?”這即是更進一步的邏輯及認知推理,這一點在近年來的目標檢測技術中也越來越被重視。不管怎樣,作為計算機視覺的基本任務,它也是其他計算機視覺任務的主要成分,如實例分割、圖像字幕、目標跟蹤等。

從應用的角度來看,目標檢測可以被分為兩個研究主題:“ 通用目標檢測(General Object Detection) ”及“檢測應用(Detection Applications)”,前者旨在探索在統(tǒng)一的框架下檢測不同類型物體的方法,以模擬人類的視覺和認知;后者是指特定應用場景下的檢測,如行人檢測、人臉檢測、文本檢測等。

近年來,隨著深度學習技術[7]的快速發(fā)展,為目標檢測注入了新鮮血液,取得了顯著的突破,也將其推向了一個前所未有的研究熱點。目前,目標檢測已廣泛應用于自動駕駛、機器人視覺、視頻監(jiān)控等領域。

二十年間的發(fā)展

如下圖所示,以2014年為分水嶺,目標檢測在過去的二十年中可大致分為兩個時期:2014年前的“傳統(tǒng)目標檢測期”及之后的“基于深度學習的目標檢測期”。接下來我們詳細談論兩個時期的發(fā)展。

1、傳統(tǒng)檢測

早期的目標檢測算法大多是基于手工特征構建的。由于當時缺乏有效的圖像表示,人們別無選擇,只能設計復雜的特征表示及各種加速技術對有限的計算資源物盡其用。

(1) Viola Jones檢測器

18年前,P. Viola和M. Jones在沒有任何約束(如膚色分割)的情況下首次實現(xiàn)了人臉的實時檢測[8][9]。他們所設計的檢測器在一臺配備700MHz Pentium III CPU電腦上運行,在保持同等檢測精度的條件下的運算速度是其他算法的數(shù)十甚至數(shù)百倍。這種檢測算法以共同作者的名字命名為“Viola-Jones (VJ) 檢測器”以紀念他們的重大貢獻。

VJ檢測器采用最直接的檢測方法,即滑動窗口(slide window):查看一張圖像中所有可能的窗口尺寸和位置并判斷是否有窗口包含人臉。這一過程雖然聽上去簡單,但它背后所需的計算量遠遠超出了當時計算機的算力。VJ檢測器結合了 “ 積分圖像 ”、“ 特征選擇 ” 和 “ 檢測級聯(lián) ” 三種重要技術,大大提高了檢測速度。

1)積分圖像:這是一種計算方法,以加快盒濾波或卷積過程。與當時的其他目標檢測算法一樣[10],在VJ檢測器中使用Haar小波作為圖像的特征表示。積分圖像使得VJ檢測器中每個窗口的計算復雜度與其窗口大小無關。

2)特征選擇:作者沒有使用一組手動選擇的Haar基過濾器,而是使用Adaboost算法從一組巨大的隨機特征池 (大約18萬維) 中選擇一組對人臉檢測最有幫助的小特征。

3)檢測級聯(lián):在VJ檢測器中引入了一個多級檢測范例 ( 又稱“檢測級聯(lián)”,detection cascades ),通過減少對背景窗口的計算,而增加對人臉目標的計算,從而減少了計算開銷。

(2) HOG 檢測器

方向梯度直方圖(HOG)特征描述器最初是由N. Dalal和B.Triggs在2005年提出的[11]。HOG對當時的尺度不變特征變換(scale-invariant feature transform)和形狀語境(shape contexts)做出重要改進。為了平衡特征不變性 ( 包括平移、尺度、光照等 ) 和非線性 ( 區(qū)分不同對象類別 ),HOG描述器被設計為在密集的均勻間隔單元網(wǎng)格(稱為一個“區(qū)塊”)上計算,并使用重疊局部對比度歸一化方法來提高精度。雖然HOG可以用來檢測各種對象類,但它的主要目標是行人檢測問題。如若要檢測不同大小的對象,則要讓HOG檢測器在保持檢測窗口大小不變的情況下,對輸入圖像進行多次重設尺寸(rescale)。這么多年來,HOG檢測器一直是許多目標檢測器和各種計算機視覺應用的重要基礎。

方向梯度直方圖(HOG),計算出每個像素朝四周的梯度方向和梯度強度,并統(tǒng)計形成梯度直方圖

(3) 基于可變形部件的模型(DPM)

DPM作為voco -07、-08、-09屆檢測挑戰(zhàn)賽的優(yōu)勝者,它曾是傳統(tǒng)目標檢測方法的巔峰。DPM最初是由P. Felzenszwalb提出的[12],于2008年作為HOG檢測器的擴展,之后R. Girshick進行了各種改進[13][14]。

DPM遵循“分而治之”的檢測思想,訓練可以簡單地看作是學習一種正確的分解對象的方法,推理可以看作是對不同對象部件的檢測的集合。例如,檢測“汽車”的問題可以看作是檢測它的窗口、車身和車輪。工作的這一部分,也就是“star model”由P.Felzenszwalb等人完成。后來,R. Girshick進一步將star model擴展到 “ 混合模型 ”,以處理更顯著變化下的現(xiàn)實世界中的物體。

一個典型的DPM檢測器由一個根過濾器(root-filter)和一些零件濾波器(part-filters)組成。該方法不需要手動設定零件濾波器的配置(如尺寸和位置),而是在開發(fā)了一種弱監(jiān)督學習方法并使用到了DPM中,所有零件濾波器的配置都可以作為潛在變量自動學習。R. Girshick將這個過程進一步表述為一個多實例學習的特殊案例,同時還應用了“困難負樣本挖掘(hard-negative mining)”、“邊界框回歸”、“語境啟動”等重要技術以提高檢測精度。而為了加快檢測速度,Girshick開發(fā)了一種技術,將檢測模型“ 編譯 ”成一個更快的模型,實現(xiàn)了級聯(lián)結構,在不犧牲任何精度的情況下實現(xiàn)了超過10倍的加速。

雖然今天的目標探測器在檢測精度方面已經(jīng)遠遠超過了DPM,但仍然受到DPM的許多有價值的見解的影響,如混合模型、困難負樣本挖掘、邊界框回歸等。2010年,P. Felzenszwalb和R. Girshick被授予PASCAL VOC的 “終身成就獎”。

2、基于卷積神經(jīng)網(wǎng)絡的雙級檢測器

隨著手動選取特征技術的性能趨于飽和,目標檢測在2010年之后達到了一個平穩(wěn)的發(fā)展期。2012年,卷積神經(jīng)網(wǎng)絡在世界范圍內(nèi)重新煥發(fā)生機[15]。由于深卷積網(wǎng)絡能夠?qū)W習圖像的魯棒性和高層次特征表示,一個自然而然的問題是:我們能否將其應用到目標檢測中?R. Girshick等人在2014年率先打破僵局,提出了具有CNN特征的區(qū)域(RCNN)用于目標檢測[16]。從那時起,目標檢測開始以前所未有的速度發(fā)展。在深度學習時代,目標檢測可以分為兩類:“雙級檢測(two-stage detection)” 和 “單級檢測(one-stage detection)”,前者將檢測框定為一個“從粗到細 ”的過程,而后者將其定義為“一步到位”。

雙級檢測的發(fā)展及各類檢測器的結構[2]

(1) RCNN

RCNN[17]的思路很簡單:它首先通過選擇性搜索來提取一組對象作為“提案(proposal)”并當做對象的候選框。然后將每個提案重新調(diào)整成一個固定大小的圖像,再輸入到一個在ImageNet上訓練得到的CNN模型(如AlexNet) 來提取特征。最后,利用線性SVM分類器對每個區(qū)域內(nèi)的目標進行預測,識別目標類別。RCNN在VOC07測試集上有明顯的性能提升,平均精準度 (mean Average Precision,mAP) 從33.7%(DPM-v5) 大幅提高到58.5%。

雖然RCNN已經(jīng)取得了很大的進步,但它的缺點是顯而易見的:需要在大量重疊的提案上進行冗余的特征計算 (一張圖片超過2000個框),導致檢測速度極慢(使用GPU時每張圖片耗時14秒)。同年晚些時候,有人提出了SPPNet并克服了這個問題。

(2) SPPNet

2014年,K. He等人提出了空間金字塔池化網(wǎng)絡( Spatial Pyramid Pooling Networks,SPPNet)[18]。以前的CNN模型需要固定大小的輸入,例如AlexNet需要224x224圖像。SPPNet的主要貢獻是引入了空間金字塔池化(SPP)層,它使CNN能夠生成固定長度的表示,而不需要重新調(diào)節(jié)有意義圖像的尺寸。利用SPPNet進行目標檢測時,只對整個圖像進行一次特征映射計算,然后生成任意區(qū)域的定長表示以訓練檢測器,避免了卷積特征的重復計算。SPPNet的速度是R-CNN的20多倍,并且沒有犧牲任何檢測精度(VOC07 mAP=59.2%)。

SPPNet雖然有效地提高了檢測速度,但仍然存在一些不足:第一,訓練仍然是多階段的,第二,SPPNet只對其全連接層進行微調(diào),而忽略了之前的所有層。而次年晚些時候出現(xiàn)Fast RCNN并解決了這些問題。

(3)Fast RCNN

2015年,R. Girshick提出了Fast RCNN檢測器[19],這是對R-CNN和SPPNet的進一步改進。Fast RCNN使我們能夠在相同的網(wǎng)絡配置下同時訓練檢測器和邊界框回歸器。在VOC07數(shù)據(jù)集上,F(xiàn)ast RCNN將mAP從58.5%( RCNN)提高到70.0%,檢測速度是R-CNN的200多倍。

雖然Fast-RCNN成功地融合了R-CNN和SPPNet的優(yōu)點,但其檢測速度仍然受到提案檢測的限制。然后,一個問題自然而然地出現(xiàn)了:“ 我們能用CNN模型生成對象提案嗎? ” 之后的Faster R-CNN解決了這個問題。

(4) Faster RCNN

2015年,S. Ren等人提出了Faster RCNN檢測器[20],在Fast RCNN之后不久。Faster RCNN 是第一個端到端的,也是第一個接近實時的深度學習檢測器(COCO mAP@.5=42.7%,COCO mAP@[.5,.95]=21.9%, VOC07 mAP=73.2%,VOC12 mAP=70.4%)。Faster RCNN的主要貢獻是引入了區(qū)域提案網(wǎng)絡 (RPN)從而允許幾乎所有的cost-free的區(qū)域提案。從RCNN到Faster RCNN,一個目標檢測系統(tǒng)中的大部分獨立塊,如提案檢測、特征提取、邊界框回歸等,都已經(jīng)逐漸集成到一個統(tǒng)一的端到端學習框架中。

雖然Faster RCNN突破了Fast RCNN的速度瓶頸,但是在后續(xù)的檢測階段仍然存在計算冗余。后來提出了多種改進方案,包括RFCN和 Light head RCNN。

(5) Feature Pyramid Networks(FPN)

2017年,T.-Y.Lin等人基于Faster RCNN提出了特征金字塔網(wǎng)絡(FPN)[21]。在FPN之前,大多數(shù)基于深度學習的檢測器只在網(wǎng)絡的頂層進行檢測。雖然CNN較深層的特征有利于分類識別,但不利于對象的定位。為此,開發(fā)了具有橫向連接的自頂向下體系結構,用于在所有級別構建高級語義。由于CNN通過它的正向傳播,自然形成了一個特征金字塔,F(xiàn)PN在檢測各種尺度的目標方面顯示出了巨大的進步。在基礎的Faster RCNN系統(tǒng)中使用FPN骨架可在無任何修飾的條件下在MS-COCO數(shù)據(jù)集上以單模型實現(xiàn)state-of-the-art 的效果(COCO mAP@.5=59.1%,COCO mAP@[.5,.95]= 36.2%)。FPN現(xiàn)在已經(jīng)成為許多最新探測器的基本組成部分。

3、基于卷積神經(jīng)網(wǎng)絡的單級檢測器

單階段檢測的發(fā)展及各類檢測器的結構[2]

(1) You Only Look Once (YOLO)

YOLO由R. Joseph等人于2015年提出[22]。它是深度學習時代的第一個單級檢測器。YOLO非??欤篩OLO的一個快速版本運行速度為155fps, VOC07 mAP=52.7%,而它的增強版本運行速度為45fps, VOC07 mAP=63.4%, VOC12 mAP=57.9%。YOLO是“ You Only Look Once ” 的縮寫。從它的名字可以看出,作者完全拋棄了之前的“提案檢測+驗證”的檢測范式。相反,它遵循一個完全不同的設計思路:將單個神經(jīng)網(wǎng)絡應用于整個圖像。該網(wǎng)絡將圖像分割成多個區(qū)域,同時預測每個區(qū)域的邊界框和概率。后來R. Joseph在 YOLO 的基礎上進行了一系列改進,其中包括以路徑聚合網(wǎng)絡(Path aggregation Network, PAN)取代FPN,定義新的損失函數(shù)等,陸續(xù)提出了其 v2、v3及v4版本(截止本文的2020年7月,Ultralytics發(fā)布了“YOLO v5”,但并沒有得到官方承認),在保持高檢測速度的同時進一步提高了檢測精度。

必須指出的是,盡管與雙級探測器相比YOLO的探測速度有了很大的提高,但它的定位精度有所下降,特別是對于一些小目標而言。YOLO的后續(xù)版本及在它之后提出的SSD更關注這個問題。

(2) Single Shot MultiBox Detector (SSD)

SSD由W. Liu等人于2015年提出[23]。這是深度學習時代的第二款單級探測器。SSD的主要貢獻是引入了多參考和多分辨率檢測技術,這大大提高了單級檢測器的檢測精度,特別是對于一些小目標。SSD在檢測速度和準確度上都有優(yōu)勢(VOC07 mAP=76.8%,VOC12 mAP=74.9%, COCO mAP@.5=46.5%,mAP@[.5,.95]=26.8%,快速版本運行速度為59fps) 。SSD與其他的檢測器的主要區(qū)別在于,前者在網(wǎng)絡的不同層檢測不同尺度的對象,而后者僅在其頂層運行檢測。

(3) RetinaNet

單級檢測器有速度快、結構簡單的優(yōu)點,但在精度上多年來一直落后于雙級檢測器。T.-Y.Lin等人發(fā)現(xiàn)了背后的原因,并在2017年提出了RetinaNet[24]。他們的觀點為精度不高的原因是在密集探測器訓練過程中極端的前景-背景階層不平衡(the extreme foreground-background class imbalance)現(xiàn)象。為此,他們在RetinaNet中引入了一個新的損失函數(shù) “ 焦點損失(focal loss)”,通過對標準交叉熵損失的重構,使檢測器在訓練過程中更加關注難分類的樣本。焦損耗使得單級檢測器在保持很高的檢測速度的同時,可以達到與雙級檢測器相當?shù)木取?COCO mAP@.5=59.1%,mAP@[.5, .95]=39.1% )。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 視頻監(jiān)控

    關注

    17

    文章

    1730

    瀏覽量

    67443
  • 目標檢測
    +關注

    關注

    0

    文章

    230

    瀏覽量

    16372
  • 計算機視覺
    +關注

    關注

    9

    文章

    1714

    瀏覽量

    47444

原文標題:綜述:目標檢測二十年

文章出處:【微信號:vision263com,微信公眾號:新機器視覺】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    實現(xiàn)OCXO超低相位噪聲的關鍵技術

    恒溫晶體振蕩器(OCXO)在精密計時領域具有不可替代的地位,其卓越性能源于對相位噪聲的系統(tǒng)性控制。要達成這一目標,需要從材料選擇、電路設計到環(huán)境控制的全方位優(yōu)化。以下是實現(xiàn)超低相位噪聲的六個關鍵技術
    的頭像 發(fā)表于 11-21 11:24 ?93次閱讀
    實現(xiàn)OCXO超低相位噪聲的<b class='flag-5'>關鍵技術</b>

    噪聲測量的關鍵技術方法與精度控制策略

    本文闡述了高速電路與低功耗系統(tǒng)中噪聲測量的關鍵技術,包括設備選型、環(huán)境優(yōu)化及參數(shù)設置,強調(diào)精度控制與干擾抑制。
    的頭像 發(fā)表于 10-30 14:10 ?107次閱讀

    恩智浦助力第二十屆全國大學生智能汽車競賽總決賽圓滿落幕

    日前,第二十屆全國大學生智能汽車競賽總決賽在杭州圓滿落幕。在二十年的發(fā)展歷程中,大賽累計吸引近50萬人次參與,恩智浦(包括前飛思卡爾半導體)連續(xù)20年全程為大賽護航,從技術到資源全方位助力大賽學子創(chuàng)新!
    的頭像 發(fā)表于 10-27 09:06 ?1033次閱讀

    Bosch Sensortec二十年發(fā)展歷程回顧

    一切始于一個大膽的構想與一枚微型芯片。2005 年,Bosch Sensortec 由一支擁有深厚技術背景的小型團隊創(chuàng)立,懷揣著讓 MEMS 傳感器在消費電子領域成為‘微處理器般核心存在’的雄心。
    的頭像 發(fā)表于 10-17 17:07 ?1043次閱讀

    杰理科技關鍵技術達到國際領先水平

    2025年9月4日,廣東省高新技術企業(yè)協(xié)會組織召開“自適應ANC低延時無線通信端側AI芯片關鍵技術研發(fā)與應用”科技成果評價會。經(jīng)評審,專家組一致認定杰理科技該技術成果在綜合技術領域已達
    的頭像 發(fā)表于 09-10 13:53 ?770次閱讀

    語音識別---大家怎么看呢?

    語音識別是一門交叉學科。近二十年來,語音識別技術取得顯著進步,開始從實驗室走向市場。人們預計,未來10年內(nèi),語音識別技術將進入工業(yè)、家電、通信、汽車電子、醫(yī)療、家庭服務、消費電子產(chǎn)品等各個領域
    發(fā)表于 08-09 10:54

    TI二十年現(xiàn)場技術應用工程師分享:以熱愛為帆,在 TI 通過技術創(chuàng)新改變世界

    客戶打磨出一個個值得信賴的解決方案 ? 他說: 看到我們的方案融入日常生活的點滴 我和團隊的伙伴們都感到無比自豪 二十年進階路 他沉淀了對行業(yè)的理解 攢下了并肩作戰(zhàn)的默契 更堅守著對技術創(chuàng)新的執(zhí)著 我是 TI 人 系列新一期上線!? 跟隨
    的頭像 發(fā)表于 08-04 11:49 ?1320次閱讀
    TI<b class='flag-5'>二十年</b>現(xiàn)場<b class='flag-5'>技術</b>應用工程師分享:以熱愛為帆,在 TI 通過<b class='flag-5'>技術</b>創(chuàng)新改變世界

    太陽光模擬器光譜匹配度測量:關鍵技術與標準解讀?

    為多領域提供高標準的模擬解決方案。下文Luminbox將帶大家了解光譜匹配度測量的關鍵技術與標準。光譜匹配度測量的關鍵技術luminbox光譜測量示意圖1.測量前
    的頭像 發(fā)表于 07-24 10:23 ?493次閱讀
    太陽光模擬器光譜匹配度測量:<b class='flag-5'>關鍵技術</b>與標準解讀?

    電機系統(tǒng)節(jié)能關鍵技術及展望

    節(jié)約能源既是我國經(jīng)濟和社會發(fā)展的一項長遠戰(zhàn)略和基本國策,也是當前的緊迫任務。論文在深入分析國內(nèi)外電機系統(tǒng)節(jié)能現(xiàn)狀和介紹先進的節(jié)能關鍵技術的基礎上,指出了現(xiàn)階段我國在電機系統(tǒng)節(jié)能方面存在的問題,并結合
    發(fā)表于 04-30 00:43

    解決錫膏焊接空洞率的關鍵技術

    抑制錫膏焊接空洞是確保焊接質(zhì)量的關鍵技術,需從材料、工藝、設備等多方面進行優(yōu)化,傲??萍级ㄖ苹_發(fā)的焊膏,可以顯著降低焊接空洞率。
    的頭像 發(fā)表于 04-29 08:41 ?1185次閱讀
    解決錫膏焊接空洞率的<b class='flag-5'>關鍵技術</b>

    NVIDIA Research在多個領域不斷取得突破

    二十年來,NVIDIA Research 的研究成果催生了包括 NVIDIA DLSS、NVLink 和 Cosmos 在內(nèi)的標志性產(chǎn)品。
    的頭像 發(fā)表于 03-28 09:52 ?725次閱讀

    淺談華為通信大模型的關鍵技術

    推理、幻覺糾正及多維聯(lián)合決策等方面創(chuàng)新成果的肯定。為此,我們將分三期深入解讀華為通信大模型無線的關鍵技術和價值應用,本期聚焦于通信大模型的部署、訓練和推理的關鍵技術。
    的頭像 發(fā)表于 03-26 14:35 ?990次閱讀

    國科微榮獲音視頻領域關鍵技術突破一等獎

    近日,第五屆“馬欄山杯”國際音視頻算法大賽-2024音視頻領域關鍵技術突破獎揭曉,國科微8K超高清視頻系列芯片憑借優(yōu)異的產(chǎn)品性能及示范性應用獲評一等獎。
    的頭像 發(fā)表于 12-26 15:11 ?847次閱讀

    洲明集團二十周年慶典成都站成功舉行

    近日,洲明集團二十周年慶典成都站成功舉行,這是集團繼大亞灣、北京、杭州等地活動后的收官之站,也是洲明面向西南市場邁出的重要一步。本次活動不僅回顧了洲明二十年的奮斗歷程,將感謝之心傳遞給所有支持洲明的合作伙伴,更面向行業(yè)未來,凝聚光顯共識,深入探討LED
    的頭像 發(fā)表于 12-18 15:07 ?868次閱讀

    云計算HPC軟件關鍵技術

    云計算HPC軟件關鍵技術涉及系統(tǒng)架構、處理器技術、操作系統(tǒng)、計算加速、網(wǎng)絡技術以及軟件優(yōu)化等多個方面。下面,AI部落小編帶您探討云計算HPC軟件的關鍵技術。
    的頭像 發(fā)表于 12-18 11:23 ?781次閱讀