自動(dòng)人臉識(shí)別的經(jīng)典流程分為三個(gè)步驟:人臉檢測(cè)、面部特征點(diǎn)定位(又稱FaceAlignment人臉對(duì)齊)、特征提取與分類器設(shè)計(jì)。一般而言,狹義的人臉識(shí)別指的是"特征提取+分類器"兩部分的算法研究。
在深度學(xué)習(xí)出現(xiàn)以前,人臉識(shí)別方法一般分為高維人工特征提?。ɡ纾篖BP,Gabor等)和降維兩個(gè)步驟,代表性的降維方法有PCA,LDA等子空間學(xué)習(xí)方法和LPP等流行學(xué)習(xí)方法。在深度學(xué)習(xí)方法流行之后,代表性方法為從原始的圖像空間直接學(xué)習(xí)判別性的人臉表示。
一般而言,人臉識(shí)別的研究歷史可以分為三個(gè)階段。在第一階段(1950s-1980s),人臉識(shí)別被當(dāng)作一個(gè)一般性的模式識(shí)別問題,主流技術(shù)基于人臉的幾何結(jié)構(gòu)特征。在第二階段(1990s)人臉識(shí)別迅速發(fā)展,出現(xiàn)了很多經(jīng)典的方法,例如Eigen Face, Fisher Face和彈性圖匹配,此時(shí)主流的技術(shù)路線為人臉表觀建模。在第三階段(1990s末期到現(xiàn)在),人臉識(shí)別的研究不斷深入,研究者開始關(guān)注面向真實(shí)條件的人臉識(shí)別問題,主要包括以下四個(gè)方面的研究:1)提出不同的人臉空間模型,包括以線性判別分析為代表的線性建模方法,以Kernel方法為代表的非線性建模方法和基于3D信息的3D人臉識(shí)別方法。2)深入分析和研究影響人臉識(shí)別的因素,包括光照不變?nèi)四樧R(shí)別、姿態(tài)不變?nèi)四樧R(shí)別和表情不變?nèi)四樧R(shí)別等。3)利用新的特征表示,包括局部描述子(Gabor Face, LBP Face等)和深度學(xué)習(xí)方法。4)利用新的數(shù)據(jù)源,例如基于視頻的人臉識(shí)別和基于素描、近紅外圖像的人臉識(shí)別。
2007年以來,LFW數(shù)據(jù)庫成為事實(shí)上的真實(shí)條件下的人臉識(shí)別問題的測(cè)試基準(zhǔn)。LFW數(shù)據(jù)集包括來源于因特網(wǎng)的5,749人的13,233張人臉圖像,其中有1680人有兩張或以上的圖像。LFW的標(biāo)準(zhǔn)測(cè)試協(xié)議包括6000對(duì)人臉的十折確認(rèn)任務(wù),每折包括300對(duì)正例和300對(duì)反例,采用十折平均精度作為性能評(píng)價(jià)指標(biāo)。
自從LFW發(fā)布以來,性能被不斷刷新。2013年之前,主要技術(shù)路線為人造或基于學(xué)習(xí)的局部描述子+測(cè)度學(xué)習(xí)。2014年之后,主要技術(shù)路線為深度學(xué)習(xí)。
2014年以來,深度學(xué)習(xí)+大數(shù)據(jù)(海量的有標(biāo)注人臉數(shù)據(jù))成為人臉識(shí)別領(lǐng)域的主流技術(shù)路線,其中兩個(gè)重要的趨勢(shì)為:1)網(wǎng)絡(luò)變大變深(VGGFace16層,F(xiàn)aceNet22層)。2)數(shù)據(jù)量不斷增大(DeepFace400萬,F(xiàn)aceNet2億),大數(shù)據(jù)成為提升人臉識(shí)別性能的關(guān)鍵。
在前DL時(shí)代,以VIPL實(shí)驗(yàn)室三代半SDK為例,關(guān)鍵技術(shù)點(diǎn)包括1)分塊人臉特征融合:Gabor特征+LPQ特征。 2)子空間學(xué)習(xí)進(jìn)行特征降(PCA+LDA)。3)融合多尺度的人臉歸一化模板。SDK3.5的相關(guān)技術(shù)在FRGC實(shí)驗(yàn)4上取得了0.1%錯(cuò)誤接受率條件下96%的確認(rèn)率,至今依然是FRGC數(shù)據(jù)集上最好結(jié)果。
需要指出的是,雖然深度學(xué)習(xí)強(qiáng)調(diào)特征學(xué)習(xí),但學(xué)習(xí)特征并不是DL的專利。在前DL時(shí)代,利用淺層模型從圖像中直接學(xué)習(xí)表示和基于人造描述子學(xué)習(xí)語義表示(例如學(xué)習(xí)中層屬性表示的Attributes and Simile Classifier和學(xué)習(xí)高層語義表示的Tom-vs-Pete)的工作都見于相關(guān)文獻(xiàn)。
2014年,F(xiàn)acebook發(fā)表于CVPR14的工作DeepFace將大數(shù)據(jù)(400萬人臉數(shù)據(jù))與深度卷積網(wǎng)絡(luò)相結(jié)合,在LFW數(shù)據(jù)集上逼近了人類的識(shí)別精度。其中DeepFace還引入了一個(gè)Local Connected卷積結(jié)構(gòu),在每個(gè)空間位置學(xué)習(xí)單獨(dú)的卷積核,缺點(diǎn)是會(huì)導(dǎo)致參數(shù)膨脹,這個(gè)結(jié)構(gòu)后來并沒有流行起來。
DeepID家族可以看作是DL時(shí)代人臉識(shí)別領(lǐng)域的一組代表性工作。最早的DeepID網(wǎng)絡(luò)包括四個(gè)卷積層,采用softmax損失函數(shù)。DeepID2在DeepID網(wǎng)絡(luò)的基礎(chǔ)上,同時(shí)考慮了分類損失(identityloss) 和確認(rèn)損失(verification loss),這兩種損失在Caffe深度學(xué)習(xí)框架中分別可以采用softmaxwithloss層和contrastiveloss層來實(shí)現(xiàn)。DeepID2+網(wǎng)絡(luò)則是在DeepID2的基礎(chǔ)上,增加了每一層的輔助損失函數(shù)(類似Deep Supervised Network)。
Google發(fā)表于CVPR2015的工作FaceNet采用了22層的深層卷積網(wǎng)絡(luò)和海量的人臉數(shù)據(jù)(800萬人的2億張圖像)以及常用于圖像檢索任務(wù)的Triplet Loss損失函數(shù)。值得一提的是,由于人臉類別數(shù)達(dá)到800萬類,如果使用softmax loss,輸出層節(jié)點(diǎn)將達(dá)到800萬個(gè),需要至少32GB顯存(假設(shè)上一個(gè)隱層節(jié)點(diǎn)1024個(gè),采用單精度浮點(diǎn)數(shù)),而Triplet Loss則不需要額外占用顯存。FaceNet在LFW數(shù)據(jù)集上十折平均精度達(dá)到99.63%,這也是迄今為止正式發(fā)表的論文中的最好結(jié)果,幾乎宣告了LFW上從2008年到2015年長(zhǎng)達(dá)8年之久的性能競(jìng)賽的結(jié)束。
-
數(shù)據(jù)庫
+關(guān)注
關(guān)注
7文章
3926瀏覽量
66195 -
人臉識(shí)別
+關(guān)注
關(guān)注
77文章
4081瀏覽量
84242 -
人臉檢測(cè)
+關(guān)注
關(guān)注
0文章
86瀏覽量
16848
發(fā)布評(píng)論請(qǐng)先 登錄
人臉識(shí)別的研究范圍和優(yōu)勢(shì)
人臉識(shí)別技術(shù)的60年發(fā)展史
隨著人臉識(shí)別技術(shù)迅速發(fā)展 人臉識(shí)別的應(yīng)用領(lǐng)域開始逐漸增多
靜態(tài)人臉識(shí)別和動(dòng)態(tài)人臉識(shí)別的區(qū)別對(duì)比分析
人臉識(shí)別的好處與壞處
我國(guó)人臉識(shí)別的市場(chǎng)還有多大的發(fā)展空間
人臉識(shí)別的原理說明
關(guān)于人臉識(shí)別的幾個(gè)問題
何為人臉識(shí)別_人臉識(shí)別的應(yīng)用場(chǎng)景
關(guān)于人臉識(shí)別的提案
人臉識(shí)別的優(yōu)點(diǎn)和識(shí)別方法

評(píng)論