王帥琛, 黃倩, 張?jiān)骑w, 李興, 聶云清, 雒國(guó)萃。 2022. 多模態(tài)數(shù)據(jù)的行為識(shí)別綜述。 中國(guó)圖象圖形學(xué)報(bào), 27(11): 3139-3159.
摘要:行為識(shí)別是當(dāng)前計(jì)算機(jī)視覺(jué)方向中視頻理解領(lǐng)域的重要研究課題。從視頻中準(zhǔn)確提取人體動(dòng)作的特征并識(shí)別動(dòng)作,能為醫(yī)療、安防等領(lǐng)域提供重要的信息,是一個(gè)十分具有前景的方向。本文從數(shù)據(jù)驅(qū)動(dòng)的角度出發(fā),全面介紹了行為識(shí)別技術(shù)的研究發(fā)展,對(duì)具有代表性的行為識(shí)別方法或模型進(jìn)行了系統(tǒng)闡述。行為識(shí)別的數(shù)據(jù)分為RGB模態(tài)數(shù)據(jù)、深度模態(tài)數(shù)據(jù)、骨骼模態(tài)數(shù)據(jù)以及融合模態(tài)數(shù)據(jù)。首先介紹了行為識(shí)別的主要過(guò)程和人類(lèi)行為識(shí)別領(lǐng)域不同數(shù)據(jù)模態(tài)的公開(kāi)數(shù)據(jù)集;然后根據(jù)數(shù)據(jù)模態(tài)分類(lèi),回顧了RGB模態(tài)、深度模態(tài)和骨骼模態(tài)下基于傳統(tǒng)手工特征和深度學(xué)習(xí)的行為識(shí)別方法,以及多模態(tài)融合分類(lèi)下RGB模態(tài)與深度模態(tài)融合的方法和其他模態(tài)融合的方法。傳統(tǒng)手工特征法包括基于時(shí)空體積和時(shí)空興趣點(diǎn)的方法(RGB模態(tài))、基于運(yùn)動(dòng)變化和外觀的方法(深度模態(tài))以及基于骨骼特征的方法(骨骼模態(tài))等;深度學(xué)習(xí)方法主要涉及卷積網(wǎng)絡(luò)、圖卷積網(wǎng)絡(luò)和混合網(wǎng)絡(luò),重點(diǎn)介紹了其改進(jìn)點(diǎn)、特點(diǎn)以及模型的創(chuàng)新點(diǎn)?;诓煌B(tài)的數(shù)據(jù)集分類(lèi)進(jìn)行不同行為識(shí)別技術(shù)的對(duì)比分析。通過(guò)類(lèi)別內(nèi)部和類(lèi)別之間兩個(gè)角度對(duì)比分析后,得出不同模態(tài)的優(yōu)缺點(diǎn)與適用場(chǎng)景、手工特征法與深度學(xué)習(xí)法的區(qū)別和融合多模態(tài)的優(yōu)勢(shì)。最后,總結(jié)了行為識(shí)別技術(shù)當(dāng)前面臨的問(wèn)題和挑戰(zhàn),并基于數(shù)據(jù)模態(tài)的角度提出了未來(lái)可行的研究方向和研究重點(diǎn)。
00 引言
人體行為識(shí)別是計(jì)算機(jī)視覺(jué)、深度學(xué)習(xí)、視頻處理和模式識(shí)別等學(xué)科交叉的研究課題,是當(dāng)前計(jì)算機(jī)視覺(jué)的一個(gè)研究熱點(diǎn)。行為識(shí)別是對(duì)包含人體動(dòng)作行為的視頻序列進(jìn)行動(dòng)作特征提取、特征表示和動(dòng)作識(shí)別等操作的過(guò)程。由于視頻采集傳感器的成本降低和快速發(fā)展,使得行為識(shí)別有了廣泛的應(yīng)用前景,例如視頻檢索、人機(jī)交互、醫(yī)學(xué)監(jiān)測(cè)和自動(dòng)駕駛等領(lǐng)域,都涉及行為識(shí)別的相關(guān)技術(shù)。行為識(shí)別屬于視頻理解的范疇,所以特征的提取和表示至關(guān)重要。這兩個(gè)過(guò)程的好壞會(huì)直接影響最終的分類(lèi)結(jié)果。特征可以通過(guò)手工制作和網(wǎng)絡(luò)學(xué)習(xí)獲取,圖 1介紹了兩種方法的基本過(guò)程。手工特征的方法利用圖像和數(shù)學(xué)等知識(shí),設(shè)計(jì)出一種表達(dá)動(dòng)作的方式,通過(guò)表達(dá)動(dòng)作的信息區(qū)分不同類(lèi)別的動(dòng)作。算法實(shí)現(xiàn)更簡(jiǎn)單,但是常常局限于某個(gè)數(shù)據(jù)集。深度學(xué)習(xí)網(wǎng)絡(luò)自適應(yīng)性更好,能夠根據(jù)輸入數(shù)據(jù)和設(shè)計(jì)的網(wǎng)絡(luò)提取出側(cè)重的特征,并能依靠反向傳播等手段優(yōu)化提取特征的過(guò)程,最終得到一個(gè)能高效提取動(dòng)作特征和正確分類(lèi)的網(wǎng)絡(luò)模型。
從數(shù)據(jù)驅(qū)動(dòng)的角度出發(fā),可將行為識(shí)別方法分為基于RGB數(shù)據(jù)的方法、基于深度數(shù)據(jù)的方法、基于骨骼數(shù)據(jù)的方法和融合以上模態(tài)數(shù)據(jù)的方法,如圖 2所示。每種數(shù)據(jù)的模態(tài)都有自身特性導(dǎo)致的優(yōu)缺點(diǎn),如RGB模態(tài)數(shù)據(jù)易采集但魯棒性較差。因此提出了融合多模態(tài)的方法,以克服一些單模態(tài)存在的問(wèn)題。本文相比較其他行為識(shí)別綜述的貢獻(xiàn)在于:1)本文的數(shù)據(jù)模態(tài)分類(lèi)、方法分類(lèi)和數(shù)據(jù)集分類(lèi)一一對(duì)應(yīng),對(duì)初學(xué)者或者長(zhǎng)期研究者都提供了一個(gè)結(jié)構(gòu)清晰的介紹和對(duì)比;2)其他的行為識(shí)別綜述通常注重單一模態(tài)下的論述,而本文更加全面地論述了多種數(shù)據(jù)模態(tài)和數(shù)據(jù)融合的行為識(shí)別;3)近年的行為識(shí)別綜述只包含深度學(xué)習(xí),缺少早期手工特征的方法,本文分析手工特征的思想優(yōu)點(diǎn)和深度學(xué)習(xí)的優(yōu)勢(shì),進(jìn)而實(shí)現(xiàn)優(yōu)勢(shì)互補(bǔ);4)討論了不同數(shù)據(jù)模態(tài)的優(yōu)劣性和動(dòng)作識(shí)別的挑戰(zhàn)以及未來(lái)研究方向。
01 行為識(shí)別數(shù)據(jù)集
在評(píng)價(jià)不同識(shí)別方法的性能時(shí),數(shù)據(jù)集有非常重要的作用。目前有許多公開(kāi)的行為數(shù)據(jù)集供研究人員使用。主流數(shù)據(jù)集的詳細(xì)信息如表 1所示。
HMDB-51(human motion database)(Kuehne等,2011)中數(shù)字51代表類(lèi)別數(shù)量。它是從各種互聯(lián)網(wǎng)資源和數(shù)字化電影中收集形成,此數(shù)據(jù)集的動(dòng)作主要是日常行為,如圖 3所示。該數(shù)據(jù)集包含6 849個(gè)視頻,分為51個(gè)動(dòng)作類(lèi)別,每種動(dòng)作包含101個(gè)視頻片段。該數(shù)據(jù)集的干擾因素主要是攝像機(jī)視角和運(yùn)動(dòng)的變化、背景雜亂、志愿者位置和外觀的變化。
UCF101(Soomro等,2012)是由美國(guó)中佛羅里達(dá)大學(xué)計(jì)算機(jī)視覺(jué)研究中心發(fā)布的數(shù)據(jù)集,是UCF50數(shù)據(jù)集的擴(kuò)展,收集自YouTube,提供了包含101個(gè)動(dòng)作類(lèi)別的13 320個(gè)視頻樣本數(shù)據(jù)。UCF101在動(dòng)作方面提供了最大的多樣性,在攝像機(jī)運(yùn)動(dòng)、對(duì)象的外觀和姿態(tài)、對(duì)象規(guī)模、視點(diǎn)、雜亂的背景以及照明條件等方面有很大的變化。Kinetics(Carreira和Zisserman,2017)是一個(gè)大規(guī)模、高質(zhì)量的YouTube視頻數(shù)據(jù)集,其中包括各種各樣的以人為中心的動(dòng)作。該數(shù)據(jù)集由大約300 000個(gè)視頻片段組成,涵蓋400種動(dòng)作類(lèi)別,每個(gè)動(dòng)作至少有400個(gè)視頻片段。每個(gè)片段持續(xù)大約10 s,并標(biāo)記為一個(gè)動(dòng)作類(lèi)別。所有片段都經(jīng)過(guò)多輪人工標(biāo)注,都是從一個(gè)獨(dú)特的YouTube視頻中獲得。這些動(dòng)作涵蓋了廣泛的動(dòng)作類(lèi)別,包括人與物的交互,如演奏樂(lè)器;以及人與人的交互,如握手和擁抱。發(fā)布者先后在2016年、2017年、2018年相繼發(fā)布了Kinetics-400、Kinetics-600(Carreira等,2018)和Kinetics-700(Carreira等,2019)系列,代表視頻中的動(dòng)作可分為400、600、700個(gè)類(lèi)別。Something-Something數(shù)據(jù)集(Goyal等,2017)是一個(gè)中等規(guī)模的數(shù)據(jù)集,它與一般數(shù)據(jù)集的最大區(qū)別在于,其內(nèi)容定義的是原子動(dòng)作,并且該數(shù)據(jù)集特別注重時(shí)序上的關(guān)系。第1版本和第2版本數(shù)據(jù)集由108 499個(gè)和220 847個(gè)視頻組成,均可分為174個(gè)動(dòng)作類(lèi)別。MSR-Action3D(Li等,2010)是微軟研究院利用Kinect深度相機(jī)捕獲的動(dòng)作數(shù)據(jù)集。它包含20種與人類(lèi)運(yùn)動(dòng)相關(guān)的活動(dòng),如慢跑、高爾夫揮桿等。圖 4為其中3個(gè)動(dòng)作的深度圖實(shí)例。這個(gè)數(shù)據(jù)集中的每個(gè)動(dòng)作由10個(gè)人執(zhí)行2~3次,總共包含567個(gè)樣本。因?yàn)閯?dòng)作的高度相似性,該數(shù)據(jù)集具有一定的挑戰(zhàn)性。
MSR-Daily Activity(Wang等,2012)是微軟研究院(MSR)利用Kinect相機(jī)拍攝日?;顒?dòng)采集而成的數(shù)據(jù)集,共有16種動(dòng)作類(lèi)別,320個(gè)活動(dòng)樣本。其中,骨骼跟蹤器提取的3維關(guān)節(jié)位置信息非常嘈雜,大部分活動(dòng)都涉及人與物的交互。因此,動(dòng)作的識(shí)別難度較大。UTD-MHAD(Chen等,2015a)數(shù)據(jù)集是美國(guó)得克薩斯大學(xué)達(dá)拉斯分校(The University of Texas at Dallas,UTD)發(fā)布的多模態(tài)人體行為識(shí)別數(shù)據(jù)集(MHAD),由8個(gè)表演者執(zhí)行27個(gè)類(lèi)別的動(dòng)作組成。每個(gè)表演者重復(fù)動(dòng)作4次,總共包括861個(gè)視頻序列。該數(shù)據(jù)集包含RGB模態(tài)、深度模態(tài)、骨架模態(tài)和慣性傳感器信號(hào)。NTU RGB+D(Shahroudy等,2016a)數(shù)據(jù)集由新加坡南洋理工大學(xué)創(chuàng)建,包含RGB模態(tài)和深度模態(tài)。它是迄今為止最大的動(dòng)作數(shù)據(jù)集,包含56 880個(gè)樣本數(shù)據(jù)和超過(guò)400萬(wàn)幀的視頻。該數(shù)據(jù)集一共有60個(gè)動(dòng)作類(lèi)別,基于3臺(tái)攝像機(jī),在3個(gè)不同的視角,拍攝表演者的動(dòng)作過(guò)程。這個(gè)數(shù)據(jù)集對(duì)于不同的視頻序列具有可變的序列長(zhǎng)度,并且表現(xiàn)出很高的類(lèi)內(nèi)變化。該數(shù)據(jù)集包含了RGB模態(tài)、深度模態(tài)和骨骼模態(tài)。骨骼模態(tài)的數(shù)據(jù)集包含了25個(gè)關(guān)節(jié)記錄信息,圖 5為人體的25個(gè)關(guān)節(jié)示意圖。NTU RGB+D 120(Liu等,2020a)是NTU RGB+D數(shù)據(jù)集的擴(kuò)展,添加了另外60個(gè)類(lèi)別動(dòng)作和57 600個(gè)視頻樣本,與之前的工作疊加形成120個(gè)動(dòng)作類(lèi)別和114 480個(gè)樣本的大型數(shù)據(jù)集。
02 基于RGB數(shù)據(jù)的行為識(shí)別方法
RGB數(shù)據(jù)的優(yōu)點(diǎn)在于成本低、易獲取,缺點(diǎn)在于對(duì)外觀的變化(如光線變化)缺少魯棒性。當(dāng)識(shí)別目標(biāo)與背景具有相似顏色和紋理時(shí),僅用RGB數(shù)據(jù)很難處理這個(gè)問(wèn)題,這些局限妨礙了基于RGB數(shù)據(jù)的行為識(shí)別技術(shù)在復(fù)雜環(huán)境中的應(yīng)用?;赗GB的行為特征的生成方式可分為手工制作和機(jī)器學(xué)習(xí)。
2.1 基于手工特征的方法
手工制作的目的是得到人體行為動(dòng)作的運(yùn)動(dòng)和時(shí)空變化,包括基于時(shí)空體積的動(dòng)作表示法、基于時(shí)空興趣點(diǎn)的方法和基于骨骼關(guān)節(jié)軌跡的方法?;跁r(shí)空體積的動(dòng)作表示法利用3維的時(shí)空模板進(jìn)行動(dòng)作識(shí)別,關(guān)鍵在于匹配模板的構(gòu)造和編碼運(yùn)動(dòng)信息。Bobick和Davis(2001)提出了MEI(motion-energy images)和MHI(motion-history images)分別表示動(dòng)作發(fā)生的空間位置和動(dòng)作發(fā)生的時(shí)間過(guò)程,如圖 6所示,MEI提取空間特征,MHI提取時(shí)間特征。在前期階段,運(yùn)動(dòng)歷史圖和運(yùn)動(dòng)能量圖十分相似,但在后期階段兩者有較大的區(qū)別。Klaser等人(2008)在2D HOG(histogram of oriented gradient)的基礎(chǔ)上,拓展出3D HOG特征來(lái)描述人體行為,提高了識(shí)別準(zhǔn)確率。上述文獻(xiàn)的創(chuàng)新在于特征的表示,新穎的特征表示思想十分具有參考價(jià)值。但背景的噪聲和遮擋會(huì)使特征提取十分困難,并且忽略了一些局部特征,對(duì)近似動(dòng)作識(shí)別具有局限性。
基于時(shí)空興趣點(diǎn)的方法較時(shí)空體積法對(duì)背景的要求降低,它通過(guò)提取運(yùn)動(dòng)變化明顯的關(guān)鍵區(qū)域來(lái)表示動(dòng)作,重點(diǎn)在于關(guān)鍵興趣點(diǎn)的檢測(cè)方法、描述的特征和分類(lèi)方法。最常見(jiàn)的方法是基于3D-Harris時(shí)空特征點(diǎn)來(lái)檢測(cè)關(guān)鍵區(qū)域。Chakraborty等人(2012)提出了一種改進(jìn)后的3D-Harris方法,將局部特征檢測(cè)技術(shù)從圖像擴(kuò)展到3維時(shí)空域,然后計(jì)算特征描述子,并利用描述行為的視覺(jué)詞袋模型來(lái)構(gòu)建視覺(jué)單詞詞匯表,用于加強(qiáng)對(duì)行為的描述。Nguyen等人(2015)提出了一種基于時(shí)空注意機(jī)制的關(guān)鍵區(qū)域提取方法,將密集采樣與視頻顯著信息驅(qū)動(dòng)的時(shí)空特征池相結(jié)合,構(gòu)造視覺(jué)詞典和動(dòng)作特征。密集采樣能更好地表示動(dòng)作,但是增加了算法的復(fù)雜度,因此平衡采樣密集度和算法復(fù)雜度的關(guān)系是時(shí)空興趣點(diǎn)方法的重點(diǎn)之一。上述方法易受遮擋和相機(jī)視角變化的干擾,所以提出了基于骨骼和關(guān)節(jié)軌跡的動(dòng)作表示方法,用于分析人體的局部運(yùn)動(dòng)信息。該方法從RGB圖像中提取骨骼關(guān)鍵點(diǎn)或者跟蹤人體骨骼運(yùn)動(dòng)的軌跡,根據(jù)關(guān)鍵點(diǎn)和軌跡判斷動(dòng)作的類(lèi)別。該方法的關(guān)鍵在于使用何種算法和模型從RGB圖像中提取關(guān)鍵點(diǎn)或者軌跡。Gaidon等人(2014)基于分裂聚類(lèi)法表示局部運(yùn)動(dòng)軌跡,計(jì)算軌跡特征并用聚類(lèi)結(jié)果表示不同運(yùn)動(dòng)類(lèi)別。Wang和Schmid(2013)借鑒興趣點(diǎn)密集采樣的思想,通過(guò)采集密集點(diǎn)云和光流法跟蹤特征點(diǎn),獲取密集軌跡(iDT),然后計(jì)算位移信息進(jìn)行識(shí)別。RGB模態(tài)的骨骼和關(guān)節(jié)軌跡方法仍然存在背景和遮擋的干擾。但是識(shí)別動(dòng)作的準(zhǔn)確性提高,促使之后的科研人員依靠傳感器采集骨骼模態(tài)形成數(shù)據(jù)集,從骨骼模態(tài)的角度研究行為識(shí)別。
2.2 基于深度學(xué)習(xí)的方法
深度學(xué)習(xí)的崛起逐漸影響了行為識(shí)別領(lǐng)域?;谏疃葘W(xué)習(xí)網(wǎng)絡(luò)提取的高層次特征,信息量豐富、有區(qū)分性,優(yōu)于傳統(tǒng)手工特征,應(yīng)用于行為識(shí)別領(lǐng)域取得了重大的突破。在2D-CNN的基礎(chǔ)上,Carreira和Zisserman(2017)提出了一種I3D模型,將卷積從2維擴(kuò)展到3維,并提出了雙流3D卷積網(wǎng)絡(luò)用于動(dòng)作識(shí)別,雙流網(wǎng)絡(luò)也成為后人模仿借鑒的經(jīng)典方法。圖 7為I3D中改進(jìn)后的Inception模塊,其中大小為1的3D卷積作用為減少參數(shù)量,尺寸都為3的最大池化和3D卷積提取不同尺度的特征,同時(shí)殘差連接輸入與輸出,保持模型的穩(wěn)定性。同時(shí)Carreira和Zisserman(2017)提出了Kinetics數(shù)據(jù)集,將許多經(jīng)典算法在此數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)對(duì)比,分析各算法的優(yōu)缺點(diǎn)。Zhu等人(2018)提出了一種名為隱式雙流神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的CNN體系結(jié)構(gòu),將原始視頻幀作為輸入并直接預(yù)測(cè)動(dòng)作類(lèi)別,通過(guò)隱式捕獲相鄰幀之間的運(yùn)動(dòng)信息,使用端到端的方法解決了需要計(jì)算光流的問(wèn)題。研究者通過(guò)改進(jìn)卷積網(wǎng)絡(luò)的模塊和深度,行為識(shí)別的準(zhǔn)確率大幅提升。雖然加深網(wǎng)絡(luò)能更有效地提取特征,但網(wǎng)絡(luò)也會(huì)變得臃腫和訓(xùn)練緩慢。為了保證時(shí)空流之間的可分辨性和探索互補(bǔ)信息,Zhang等人(2019)提出了一種新穎的協(xié)同跨流網(wǎng)絡(luò),該網(wǎng)絡(luò)調(diào)查多種不同模式中的聯(lián)合信息,通過(guò)端到端的學(xué)習(xí)方式提取共同空間和時(shí)間流的網(wǎng)絡(luò)特征,探索出不同流特征之間的相關(guān)性,從中提取不同模態(tài)的互補(bǔ)信息。神經(jīng)網(wǎng)絡(luò)方便了特征提取的方法,但不能拘泥于網(wǎng)絡(luò)深度等方面,更應(yīng)該從多個(gè)角度(幀選擇和跨流網(wǎng)絡(luò)的想法)優(yōu)化識(shí)別過(guò)程。為了解決光流的計(jì)算復(fù)雜度問(wèn)題,Kwon等人(2020)用運(yùn)動(dòng)特征的內(nèi)部信息和輕量級(jí)學(xué)習(xí)代替對(duì)光流的繁重計(jì)算,提出了一種名為MotionSqueeze的可訓(xùn)練神經(jīng)模塊,用于有效的運(yùn)動(dòng)特征提取。該模塊即插即用,能插入任何神經(jīng)網(wǎng)絡(luò)的中間來(lái)學(xué)習(xí)幀間關(guān)系,并將其轉(zhuǎn)換為運(yùn)動(dòng)特征,然后送到下一個(gè)網(wǎng)絡(luò)層進(jìn)行更好的預(yù)測(cè)。
學(xué)者的創(chuàng)新曾經(jīng)局限在提取特征的技術(shù),Gowda等人(2020)從幀選擇的角度出發(fā),保留行為特征在時(shí)間序列上區(qū)別明顯的“好”幀,剔除特征類(lèi)似和無(wú)法分類(lèi)的幀,提出一種名為SMART的智能幀選擇網(wǎng)絡(luò),如圖 8所示,綜合考慮單個(gè)幀和多個(gè)幀的質(zhì)量,而不是一次僅考慮一個(gè)幀。在降低計(jì)算量的同時(shí),提高了識(shí)別準(zhǔn)確率。Qiu等人(2019)注意到視頻是具有復(fù)雜時(shí)間變化的信息密集型媒體,而神經(jīng)網(wǎng)絡(luò)中的卷積濾波器都是局部操作,忽略了視頻幀之間的相關(guān)性,提出了一種新的基于局部和全局?jǐn)U散的時(shí)空表示學(xué)習(xí)框架,并行學(xué)習(xí)局部和全局表示。每個(gè)塊建模這兩種表示方式,并且兩者之間交換信息來(lái)更新局部和全局特征,多個(gè)塊組成此網(wǎng)絡(luò)結(jié)構(gòu),有效地保持了信息的局部性和整體性,獲得了強(qiáng)大的特征學(xué)習(xí)方式。這些行為識(shí)別技術(shù)的革新都是在其他研究的基礎(chǔ)上,保留優(yōu)點(diǎn),減弱負(fù)面影響或者解決存在的問(wèn)題,最終實(shí)現(xiàn)行為識(shí)別技術(shù)的突破。
03 基于深度數(shù)據(jù)的行為識(shí)別方法
RGB數(shù)據(jù)受干擾性較大,促使了深度數(shù)據(jù)的產(chǎn)生。深度圖中的紋理和顏色信息少,將圖像采集器到場(chǎng)景中各點(diǎn)的距離(深度)作為像素值,對(duì)光照的魯棒性強(qiáng)。深度傳感器的產(chǎn)生極大地?cái)U(kuò)展了計(jì)算機(jī)系統(tǒng)感知3D視覺(jué)世界和獲取視覺(jué)信息的能力。深度數(shù)據(jù)的信息與RGB數(shù)據(jù)本質(zhì)上不同,它對(duì)場(chǎng)景的距離信息進(jìn)行編碼,而不是對(duì)顏色強(qiáng)度進(jìn)行編碼。因此,深度數(shù)據(jù)可以更簡(jiǎn)單精確地獲取關(guān)鍵區(qū)域。但深度信息也不是一直具有魯棒性,遮擋物和閃爍噪聲可能會(huì)對(duì)行為識(shí)別造成誤差。
3.1 基于運(yùn)動(dòng)變化和外觀信息的方法
基于深度數(shù)據(jù)的行為識(shí)別方法主要利用人體深度圖中的運(yùn)動(dòng)變化來(lái)描述動(dòng)作。動(dòng)作的特征由深度變化的外觀或運(yùn)動(dòng)信息進(jìn)行描述。Yang等人(2012)通過(guò)深度運(yùn)動(dòng)圖(DMM)來(lái)投影和壓縮時(shí)空深度結(jié)構(gòu),再?gòu)恼妫瑐?cè)面和俯視圖形成3個(gè)運(yùn)動(dòng)歷史圖。然后,利用HOG特征表示這些運(yùn)動(dòng)歷史圖,并將生成的HOG特征串聯(lián)起來(lái)以描述動(dòng)作。除了計(jì)算運(yùn)動(dòng)變化來(lái)描述動(dòng)作的方法外,另一種流行的方法是通過(guò)外觀信息來(lái)描述動(dòng)作。Yang等人(2012)基于深度序列構(gòu)造一個(gè)超向量特征來(lái)表示動(dòng)作,通過(guò)連接來(lái)自深度視頻的局部相鄰超曲面法線來(lái)擴(kuò)展HON4D,聯(lián)合局部形狀和運(yùn)動(dòng)信息,引入了一種自適應(yīng)時(shí)空金字塔,將深度視頻細(xì)分為一組時(shí)空單元,以獲得更具鑒別力的特征。為了剔除噪聲影響,Xia和Aggarwal(2013)提出了一種新的深度長(zhǎng)方體相似性特征,用來(lái)描述具有自適應(yīng)支撐尺寸的3維深度長(zhǎng)方體,從而獲得更可靠的時(shí)空興趣點(diǎn)。Chen和Guo(2015)通過(guò)分析前、側(cè)和上方向的時(shí)空結(jié)構(gòu),提取時(shí)空興趣點(diǎn)的運(yùn)動(dòng)軌跡形狀和邊界直方圖特征,以及每個(gè)視圖中的密集樣本點(diǎn)和關(guān)節(jié)點(diǎn)來(lái)描述動(dòng)作。深度模態(tài)較RGB模態(tài)多了深度這一信息,因此如何充分利用深度相關(guān)信息,如大小、變化等,是基于深度模態(tài)的行為識(shí)別的關(guān)鍵。這一思想不但適用于手工特征法,也適用于深度學(xué)習(xí)法。
3.2 基于深度學(xué)習(xí)的方法
深度模態(tài)下基于深度學(xué)習(xí)的方法可分為兩類(lèi):一類(lèi)是深度特征圖和卷積神經(jīng)網(wǎng)絡(luò)的結(jié)合;另一類(lèi)是提取深度信息的點(diǎn)集與點(diǎn)云網(wǎng)絡(luò)的結(jié)合。為了充分利用深度序列中的空間、時(shí)間和結(jié)構(gòu)信息進(jìn)行不同時(shí)間尺度的動(dòng)作識(shí)別,Wang等人(2018a)提出了3種簡(jiǎn)單、緊湊而有效的深度序列表示方法,分別稱(chēng)為動(dòng)態(tài)深度圖像(DDI)、動(dòng)態(tài)深度法線圖像(DDNI)和動(dòng)態(tài)深度運(yùn)動(dòng)法線圖像(DDMNI),用于孤立和連續(xù)動(dòng)作識(shí)別。其中,DDI記錄了隨時(shí)間變化的動(dòng)態(tài)姿勢(shì),DDNI和DDMNI記錄了深度圖捕獲的3維結(jié)構(gòu)信息。然后將3種特征圖輸入神經(jīng)網(wǎng)絡(luò),提取不同的特征。Trelinski和Kwolek(2019)提出了一種基于深度圖序列的動(dòng)作識(shí)別算法。首先,在單個(gè)深度圖中提取描述人形的特征,然后,對(duì)每個(gè)類(lèi)單獨(dú)訓(xùn)練提取單個(gè)類(lèi)的特征,同時(shí)對(duì)每個(gè)深度圖中代表人形的像素計(jì)算手工的特征。最后,所有動(dòng)作共用的手工特征和特定動(dòng)作的特征連接在一起,形成動(dòng)作特征向量。深度圖和點(diǎn)云可以相互轉(zhuǎn)換,并且點(diǎn)云的表示簡(jiǎn)單,有非常統(tǒng)一的結(jié)構(gòu),避免組合的不規(guī)則性和復(fù)雜性。因此,Wang等人(2020)提出了3維動(dòng)態(tài)像素(3DV)作為新穎的3維運(yùn)動(dòng)表示。通過(guò)時(shí)間順序池化將深度視頻中的3維運(yùn)動(dòng)信息壓縮成規(guī)則的3DV像素點(diǎn)集,每個(gè)可用的3DV像素本質(zhì)上涉及3維空間和運(yùn)動(dòng)功能,然后將3DV抽象為一個(gè)點(diǎn)集。由于3維點(diǎn)集的不規(guī)則,常規(guī)的卷積神經(jīng)網(wǎng)絡(luò)不適合處理不規(guī)則的信息形狀,將點(diǎn)集輸入點(diǎn)云網(wǎng)絡(luò)(PointNet++),保持了點(diǎn)集的置換不變形。如圖 9所示,動(dòng)作流提取3D像素表示的人體動(dòng)作特征,外觀流提取人體的外觀特征,結(jié)合兩個(gè)特征的信息進(jìn)行行為識(shí)別。Wang等人(2015)將卷積網(wǎng)絡(luò)與深度圖結(jié)合起來(lái),通過(guò)卷積網(wǎng)絡(luò)來(lái)學(xué)習(xí)深度圖像序列的動(dòng)作特征。利用分層深度運(yùn)動(dòng)映射(HDMMs)來(lái)提取人體的形狀和運(yùn)動(dòng)信息,然后在HDMMs上訓(xùn)練一個(gè)卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行人體動(dòng)作識(shí)別。在此基礎(chǔ)上,Liu和Xu(2021)設(shè)計(jì)一個(gè)端到端的幾何運(yùn)動(dòng)網(wǎng)絡(luò)(GeometryMotion-Net),分別利用點(diǎn)云網(wǎng)絡(luò)提取運(yùn)動(dòng)特征和幾何特征,而3DV PointNet不能進(jìn)行端到端的訓(xùn)練。3DV PointNet并沒(méi)有充分考慮時(shí)間信息,而GeometryMotion-Net將每個(gè)點(diǎn)云序列表示為一個(gè)虛擬整體幾何點(diǎn)云和多個(gè)虛擬運(yùn)動(dòng)點(diǎn)云來(lái)明確時(shí)間信息。兩項(xiàng)改進(jìn)措施使得識(shí)別準(zhǔn)確率有了較大提升。
04 基于骨骼數(shù)據(jù)的行為識(shí)別方法
該方法通過(guò)骨骼關(guān)節(jié)實(shí)時(shí)對(duì)3D人體關(guān)節(jié)位置進(jìn)行編碼,實(shí)現(xiàn)人體行為的動(dòng)作識(shí)別。由于人體骨骼的運(yùn)動(dòng)可以區(qū)分許多動(dòng)作,利用骨骼數(shù)據(jù)進(jìn)行動(dòng)作識(shí)別是一個(gè)有前景的方向。骨骼數(shù)據(jù)包含的時(shí)空信息豐富,關(guān)節(jié)節(jié)點(diǎn)與其相鄰節(jié)點(diǎn)之間存在著很強(qiáng)的相關(guān)性,使得骨架數(shù)據(jù)不但能在同一幀中發(fā)現(xiàn)豐富的人體結(jié)構(gòu)信息,幀與幀之間也存在著強(qiáng)相關(guān)性。同時(shí)考慮骨骼和幀序列、時(shí)域和空域之間的共現(xiàn)關(guān)系能準(zhǔn)確地描述動(dòng)作。
4.1 基于骨骼特征提取的方法
對(duì)現(xiàn)有的基于骨骼數(shù)據(jù)的特征提取方法進(jìn)行分析,根據(jù)其所對(duì)應(yīng)的識(shí)別位置可分為基于關(guān)節(jié)和基于身體部位的行為識(shí)別方法。Vemulapalli等人(2014)提出了一種新的骨骼表示法,利用3維空間中的旋轉(zhuǎn)和平移來(lái)模擬身體各個(gè)部位之間的3維幾何關(guān)系。人體骨骼作為李群中的一點(diǎn),人的行為可以被建模為這個(gè)李群中的曲線,將李群中的動(dòng)作曲線映射到它的李代數(shù)上,形成一個(gè)向量空間。然后結(jié)合線性支持向量機(jī)進(jìn)行分類(lèi)。Koniusz等人(2016)使用張量表示來(lái)捕捉3維人體關(guān)節(jié)之間的高階關(guān)系,用于動(dòng)作識(shí)別,該方法采用兩種不同的核,稱(chēng)為序列相容核和動(dòng)態(tài)相容核。前者捕捉關(guān)節(jié)的時(shí)空相容性,后者則模擬序列的動(dòng)作動(dòng)力學(xué)。然后在這些核的線性化特征映射上訓(xùn)練支持向量機(jī)進(jìn)行動(dòng)作分類(lèi)。
4.2 基于深度學(xué)習(xí)的方法
Liu等人(2016)通過(guò)對(duì)骨架序列進(jìn)行樹(shù)結(jié)構(gòu)的遍歷,獲得了空間域的隱藏關(guān)系。其他方法進(jìn)行關(guān)節(jié)遍歷只是把骨架作為一條鏈,忽略了相鄰關(guān)節(jié)之間存在的依賴(lài)關(guān)系,而此遍歷方法不會(huì)增加虛假連接。同時(shí)使用帶信任門(mén)的長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)對(duì)輸入進(jìn)行判別,通過(guò)潛在的空間信息來(lái)更新存儲(chǔ)單元。Caetano等人(2019)提出了一種基于運(yùn)動(dòng)信息的新表示,稱(chēng)為SkeleMotion。它通過(guò)計(jì)算骨骼關(guān)節(jié)的大小和方向值來(lái)編碼形成每行的動(dòng)作信息和每列的描述時(shí)間信息,形成調(diào)整后的骨骼圖像。然而,人類(lèi)3維骨骼數(shù)據(jù)是一個(gè)拓?fù)鋱D,而不是基于RNN或CNN的方法處理的序列向量或偽圖像,而圖卷積網(wǎng)絡(luò)(GCN)具有天生處理圖結(jié)構(gòu)的優(yōu)勢(shì),使得它在基于骨骼的行為識(shí)別技術(shù)取得了重大突破?;趫D卷積的行為識(shí)別技術(shù)關(guān)鍵在于骨骼的表示,即如何將原始數(shù)據(jù)組織成拓?fù)鋱D。Yan等人(2018)首先提出了一種新的基于骨架的動(dòng)作識(shí)別模型,即時(shí)空?qǐng)D卷積網(wǎng)絡(luò)(ST-GCN),該網(wǎng)絡(luò)首先將人的關(guān)節(jié)作為時(shí)空?qǐng)D的頂點(diǎn),將人體物理關(guān)節(jié)連接和時(shí)間作為圖的邊;然后使用ST-GCN網(wǎng)絡(luò)進(jìn)行信息的傳遞匯集,獲取高級(jí)的特征圖,并用Softmax分類(lèi)器劃分為對(duì)應(yīng)的類(lèi)別。在此基礎(chǔ)上,Li等人(2019)提出的AS-GCN不僅可以識(shí)別人的動(dòng)作,而且可以利用多任務(wù)學(xué)習(xí)策略輸出對(duì)物體下一個(gè)可能姿勢(shì)的預(yù)測(cè)。
構(gòu)造的拓?fù)鋱D通過(guò)動(dòng)作連接和結(jié)構(gòu)連接的兩個(gè)模塊來(lái)捕捉關(guān)節(jié)之間更豐富的相關(guān)性。Shi等人(2020)提出了一種新的多流注意增強(qiáng)自適應(yīng)圖卷積神經(jīng)網(wǎng)絡(luò)來(lái)進(jìn)行基于骨架的動(dòng)作識(shí)別。模型中的圖拓?fù)淇梢曰谳斎霐?shù)據(jù)以端到端的方式統(tǒng)一或單獨(dú)地學(xué)習(xí)。這種數(shù)據(jù)驅(qū)動(dòng)的方法增加了圖形構(gòu)造模型的靈活性,使其更具有通用性,以適應(yīng)各種數(shù)據(jù)樣本。同時(shí)關(guān)節(jié)差值和幀間差值的數(shù)據(jù)構(gòu)造多流網(wǎng)絡(luò),在決策階段融合,實(shí)現(xiàn)識(shí)別率的進(jìn)一步提升。Obinata和Yamamoto (2021)從另一角度注意到幀間的拓?fù)鋱D,不僅僅在幀間同一關(guān)節(jié)對(duì)應(yīng)的頂點(diǎn)之間進(jìn)行連接,在幀間多個(gè)相鄰頂點(diǎn)之間添加連接,并提取額外的特征,實(shí)現(xiàn)識(shí)別率的提高。改進(jìn)拓?fù)鋱D后的識(shí)別效果理想,使得后續(xù)的許多研究都著重于這一點(diǎn),如設(shè)計(jì)動(dòng)態(tài)可訓(xùn)練拓?fù)鋱D(Ye等,2020)、各通道獨(dú)享的拓?fù)鋱D(Cheng等,2020a)以及結(jié)合全局和局部的拓?fù)鋱D(Chen等,2021a)。如圖 10所示,空間圖卷積過(guò)程是離重心(3號(hào)下方的最小點(diǎn))近的3號(hào)近心點(diǎn)和離重心遠(yuǎn)的6號(hào)和7號(hào)遠(yuǎn)心點(diǎn)通過(guò)骨骼連接向5號(hào)根節(jié)點(diǎn)傳遞信息,如此反復(fù),獲得提取空間特征;時(shí)間卷積是將同一關(guān)節(jié)在時(shí)間維度上進(jìn)行信息匯集,即同一關(guān)節(jié)的部分幀序列進(jìn)行信息匯集,得到時(shí)間特征。骨架序列的時(shí)空?qǐng)D表示是圖卷積網(wǎng)絡(luò)(GCN)的擴(kuò)展,專(zhuān)門(mén)用于執(zhí)行人類(lèi)行為識(shí)別。首先,通過(guò)在人體骨架的相鄰身體關(guān)節(jié)之間以及沿時(shí)間方向插入邊來(lái)構(gòu)造時(shí)空?qǐng)D。然后,應(yīng)用GCN和分類(lèi)器來(lái)推斷圖中的依賴(lài)關(guān)系并進(jìn)行分類(lèi)。
圖卷積作為基于骨骼數(shù)據(jù)的行為識(shí)別的熱點(diǎn)研究之一,其數(shù)據(jù)形式——拓?fù)鋱D十分契合人體骨骼圖,特征和信息的獲取與傳遞在物理結(jié)構(gòu)和語(yǔ)義層面都符合圖結(jié)構(gòu),因此取得了較為理想的效果。但圖結(jié)構(gòu)也成為行為識(shí)別的限制,如坐標(biāo)的分布會(huì)影響圖卷積的魯棒性,缺失一些重要的關(guān)節(jié)點(diǎn)會(huì)降低識(shí)別的效果。另外,圖卷積將每個(gè)關(guān)節(jié)點(diǎn)視為圖中的一個(gè)點(diǎn),其復(fù)雜性和人數(shù)成正比,而現(xiàn)實(shí)中的許多動(dòng)作涉及多人以及相關(guān)物體。成倍增加的計(jì)算消耗量使得圖卷積難以在多人動(dòng)作的任務(wù)上實(shí)現(xiàn)較好的應(yīng)用。
05 基于數(shù)據(jù)融合的行為識(shí)別方法
RGB數(shù)據(jù)、深度數(shù)據(jù)和骨骼數(shù)據(jù)具有各自的優(yōu)點(diǎn)。RGB數(shù)據(jù)的優(yōu)點(diǎn)是外觀信息豐富,深度數(shù)據(jù)的優(yōu)點(diǎn)是不易受光照影響,骨骼數(shù)據(jù)的優(yōu)點(diǎn)是通過(guò)關(guān)節(jié)能更準(zhǔn)確地描述動(dòng)作。所以,選擇哪種模態(tài)進(jìn)行行為識(shí)別也是研究人員權(quán)衡的方面之一。根據(jù)匯集的文獻(xiàn)資料,本文總結(jié)了各類(lèi)模態(tài)的特點(diǎn)和適用場(chǎng)景,如表 2所示。
由于單模態(tài)始終存在一些問(wèn)題,研究者嘗試使用多種方式進(jìn)行特征融合,克服這些問(wèn)題。
融合方式有3種:特征層融合、決策層融合和混合融合。不同的方式融合結(jié)果具有各自的優(yōu)點(diǎn),彌補(bǔ)缺點(diǎn),得到對(duì)運(yùn)動(dòng)的動(dòng)作有更好的描述。
5.1 基于RGB模態(tài)與深度模態(tài)的融合方法
根據(jù)模態(tài)產(chǎn)生的時(shí)間順序,RGB模態(tài)與深度模態(tài)的融合是最先提出也是最為普遍的組合方式。Jalal等人(2017)從連續(xù)的深度圖序列中分割人體深度輪廓,并提取4個(gè)骨骼關(guān)節(jié)特征和一個(gè)體形特征形成時(shí)空多融合特征,利用多融合特征的編碼向量進(jìn)行模型訓(xùn)練。Yu等人(2020)使用卷積神經(jīng)網(wǎng)絡(luò)分別訓(xùn)練多模態(tài)數(shù)據(jù),并在適當(dāng)位置進(jìn)行RGB和深度特征的實(shí)時(shí)融合,通過(guò)局部混合的合成獲得更具代表性的特征序列,提高了相似行為的識(shí)別性能。同時(shí)引入了一種改進(jìn)的注意機(jī)制,實(shí)時(shí)分配不同的權(quán)值來(lái)分別關(guān)注每一幀。Ren等人(2021)設(shè)計(jì)了一個(gè)分段協(xié)作的卷積網(wǎng)絡(luò)SC-ConvNets)來(lái)學(xué)習(xí)RGB-D模式的互補(bǔ)特征,整個(gè)網(wǎng)絡(luò)框架如圖 11所示。首先將整個(gè)RGB和深度數(shù)據(jù)序列壓縮成動(dòng)態(tài)圖像分別輸入雙流卷積網(wǎng)絡(luò)中,再計(jì)算距離的平方值獲得融合的特征。與先前基于卷積網(wǎng)絡(luò)的多通道特征學(xué)習(xí)方法不同,這個(gè)分段協(xié)作的網(wǎng)絡(luò)能夠聯(lián)合學(xué)習(xí),通過(guò)優(yōu)化單個(gè)損失函數(shù),縮小了RGB和深度模態(tài)之間的差異, 進(jìn)而提高了識(shí)別性能。
深度模態(tài)沒(méi)有RGB模態(tài)的紋理和顏色信息,RGB模態(tài)比深度模態(tài)在空間上少一個(gè)深度信息的維度,因此兩者的數(shù)據(jù)模態(tài)可以很好地互補(bǔ)對(duì)方缺失的特征信息。大量研究結(jié)果表明了此種融合方法的合理性和優(yōu)越性。因此提取另一個(gè)模態(tài)缺少的信息,避免相同信息的冗余,是模態(tài)融合的重點(diǎn)和難點(diǎn)。
5.2 其他模態(tài)的融合方法
其他模態(tài)的關(guān)系,如骨骼模態(tài)與深度模態(tài)互補(bǔ)關(guān)系,稍弱于RGB和深度模態(tài)的互補(bǔ)關(guān)系。但不同模態(tài)仍有互補(bǔ)信息的存在,所以不同模態(tài)融合也是研究人員的研究方向之一。Elmadany等人(2018)使用規(guī)范相關(guān)分析(CCA)來(lái)最大化從不同傳感器提取的特征的相關(guān)性。此論文研究的特征包括從骨架數(shù)據(jù)中提取的角度數(shù)據(jù)、從深度視頻中提取的深度運(yùn)動(dòng)圖和從RGB視頻提取的光流數(shù)據(jù),通過(guò)學(xué)習(xí)這些特征共享的子空間,再使用平均池化來(lái)獲取最終的特征描述符。Rahmani等人(2014)提出一種稱(chēng)為深度梯度直方圖的描述子,結(jié)合深度圖像和3維關(guān)節(jié)位置提取的4種局部特征來(lái)處理局部遮擋,分別計(jì)算深度、深度導(dǎo)數(shù)和關(guān)節(jié)位置差的直方圖,將每個(gè)關(guān)節(jié)運(yùn)動(dòng)量的變化并入全局特征向量中,形成時(shí)空特征,并使用兩個(gè)隨機(jī)決策森林,一個(gè)用于特征修剪,另一個(gè)用于分類(lèi),提高識(shí)別的精度。特征可以在初級(jí)階段融合,也可以在高級(jí)階段形成語(yǔ)義信息的時(shí)期融合。前者相當(dāng)于對(duì)數(shù)據(jù)進(jìn)行補(bǔ)充增廣,后者形成新的語(yǔ)義信息。融合也可以發(fā)生在決策階段,聯(lián)合不同模態(tài)的預(yù)測(cè)結(jié)果后得到一個(gè)綜合的預(yù)測(cè)結(jié)果。一般而言,越早期的模態(tài)融合需要的計(jì)算量越小,越后期的模態(tài)融合復(fù)雜度越大。研究者常常使用混合折中的方法,保持兩者優(yōu)勢(shì)的同時(shí),也克服了一些缺點(diǎn)。融合的具體方式及其優(yōu)缺點(diǎn)如表 3所示。對(duì)于神經(jīng)網(wǎng)絡(luò),不同模態(tài)的融合可以在特征提取階段,可以將多流網(wǎng)絡(luò)的輸出匯集到單個(gè)網(wǎng)絡(luò)中實(shí)現(xiàn)特征融合。融合的關(guān)鍵在于數(shù)據(jù)模態(tài)的選擇和融合的時(shí)間。研究者需要思考一種模態(tài)融入另一種模態(tài)后的特征是否克服了原有模態(tài)的缺點(diǎn),否則融合操作只會(huì)增加計(jì)算量。
06 行為識(shí)別方法對(duì)比
對(duì)不同數(shù)據(jù)模態(tài)下的行為識(shí)別方法進(jìn)行比較,通過(guò)表格和柱狀圖等方式的對(duì)比,以期得出一些行為識(shí)別技術(shù)的結(jié)論。Top-1代表概率最大的結(jié)果是正確答案的準(zhǔn)確率,Top-5代表概率排名前5的結(jié)果是正確答案的準(zhǔn)確率。交叉主題(cross subject)和交叉視角(cross view)是NTU RGB+D 60數(shù)據(jù)集中訓(xùn)練集和測(cè)試集的劃分。交叉主題將40個(gè)志愿者劃分為訓(xùn)練和測(cè)試兩個(gè)隊(duì)伍。每個(gè)隊(duì)伍包含20個(gè)志愿者,其中1,2,4,5,8,9,13,14,15,16,17,18,19,25,27,28,31,34,35,38為訓(xùn)練集,其余為測(cè)試集。交叉視角將3個(gè)視角的相機(jī)中,相機(jī)2號(hào)和3號(hào)作為訓(xùn)練集,相機(jī)1號(hào)為測(cè)試集。NTU RGB+D 120中的訓(xùn)練集和測(cè)試集劃分方式包括交叉主題(cross subject)和交叉設(shè)置(cross setup)兩種。交叉主題表示訓(xùn)練集包含53個(gè)主題,測(cè)試集包含另外53個(gè)主題。交叉設(shè)置表示訓(xùn)練集樣本來(lái)自偶數(shù)編號(hào),測(cè)試集樣本來(lái)自奇數(shù)編號(hào)。6.1 RGB模態(tài)的方法對(duì)比
RGB模態(tài)數(shù)據(jù)集選取了經(jīng)典的UCF101數(shù)據(jù)集和HMDB-51數(shù)據(jù)集,以及新穎的Something-Something數(shù)據(jù)集,對(duì)比了經(jīng)典方法和新發(fā)表的效果最佳的方法,如表4和表5所示。
對(duì)于HMDB-51數(shù)據(jù)集,手工特征方法的準(zhǔn)確率最高僅有61.7%,而深度學(xué)習(xí)方法的最低準(zhǔn)確率是55.2%?;谏疃葘W(xué)習(xí)的方法將該數(shù)據(jù)集的最高準(zhǔn)確率提高到85.1%。對(duì)于UCF101數(shù)據(jù)集,手工特征方法的最高準(zhǔn)確率88.3%,基于深度學(xué)習(xí)的方法將準(zhǔn)確率提高到98.7%,已經(jīng)基本符合應(yīng)用的要求。在Something-Something數(shù)據(jù)集上,手工特征法鮮有研究,大都是基于深度學(xué)習(xí)方法的開(kāi)展。原因是該數(shù)據(jù)集規(guī)模較大,手工制作的特征已經(jīng)無(wú)法準(zhǔn)確地描述動(dòng)作。而且動(dòng)作類(lèi)別多,使得Top-1的最高識(shí)別率僅有69%,是RGB模態(tài)的行為識(shí)別方向下一個(gè)需要攻克的數(shù)據(jù)集。根據(jù)大量文獻(xiàn)和實(shí)驗(yàn)的依據(jù),本文總結(jié)了兩類(lèi)方法的優(yōu)缺點(diǎn)如表 6所示。
本文將統(tǒng)計(jì)的數(shù)據(jù)繪制成柱狀圖,從圖12中能明顯觀察出,基于手工特征的方法(灰色表示的柱狀)基本低于深度學(xué)習(xí)方法的識(shí)別率(灰色以外的其他顏色),說(shuō)明深度學(xué)習(xí)的方法一般具有更好的識(shí)別性能。類(lèi)似的情況也發(fā)生在其他模態(tài)中。
6.2 深度模態(tài)的方法對(duì)比深度模態(tài)數(shù)據(jù)集選取了經(jīng)典的MSR-Action3D數(shù)據(jù)集與當(dāng)前主流的NTU RGB+D深度數(shù)據(jù)集,和RGB模態(tài)的實(shí)驗(yàn)思路相同,比較了經(jīng)典算法和最新卓越方法,結(jié)果如表 7和表 8所示。
當(dāng)前的多數(shù)方法已經(jīng)在MSR-Action3D深度數(shù)據(jù)集上達(dá)到了90%的準(zhǔn)確率,說(shuō)明該數(shù)據(jù)集的大部分價(jià)值已被挖掘,但MSR-Action3D仍然是評(píng)價(jià)一個(gè)算法好壞的經(jīng)典數(shù)據(jù)集之一。近期主流的數(shù)據(jù)集是NTU RGB+D數(shù)據(jù)集中的深度模態(tài)部分,深度數(shù)據(jù)模態(tài)的人體行為數(shù)據(jù)集相較其他兩個(gè)模態(tài)發(fā)布較少,在這方面還有很大的進(jìn)步空間。在NTU RGB+D數(shù)據(jù)集的深度模態(tài)部分,手工特征的方法在這個(gè)大型數(shù)據(jù)集上效果較差。原因與RGB模態(tài)的情況相似,該數(shù)據(jù)集規(guī)模大、樣本多、類(lèi)別多,手工制作的特征能表示部分動(dòng)作信息,但難以覆蓋整個(gè)數(shù)據(jù)集的動(dòng)作范圍。兩個(gè)新發(fā)布的網(wǎng)絡(luò)的變體:點(diǎn)云網(wǎng)絡(luò)(PointNet++)和Transformer網(wǎng)絡(luò),在NTU RGB+D深度模態(tài)部分的識(shí)別率達(dá)到了近90%和90.2%的高度。研究者可以從不同的角度改進(jìn)這兩個(gè)網(wǎng)絡(luò),可能會(huì)達(dá)到新的性能高度。這也給了研究者另一種想法,通過(guò)移植或者改進(jìn)領(lǐng)域外的新穎網(wǎng)絡(luò),適配到行為識(shí)別方向中,或許能取得意想不到的效果。
6.3 骨骼模態(tài)的方法對(duì)比
骨骼模態(tài)是近年越發(fā)流行的模態(tài),本文選取了主流的NTU RGB+D skeleton骨骼數(shù)據(jù)集,對(duì)比了許多算法的差異。在NTU RGB+D 60和120數(shù)據(jù)集的實(shí)驗(yàn)設(shè)置下,手工特征和深度學(xué)習(xí)的方法對(duì)比如表 9和表 10所示。深度學(xué)習(xí)的方法全面超越了手工特征方法。從中可發(fā)現(xiàn),基于深度學(xué)習(xí)的方法幾乎占據(jù)了全部范圍。其中,早期研究者多使用標(biāo)準(zhǔn)卷積網(wǎng)絡(luò)將骨骼數(shù)據(jù)編碼成像素排列的偽圖像,借鑒圖像分類(lèi)和視頻分類(lèi)的思想提取特征。這種方式取得的效果并不理想,因?yàn)樗盍蚜斯趋纼?nèi)在的連接性。之后,提出了卷積網(wǎng)絡(luò)的變體——圖卷積。由于圖的結(jié)構(gòu)十分符合人體骨骼連接,取得了理想的效果,也促進(jìn)了圖卷積在行為識(shí)別領(lǐng)域中快速發(fā)展。本文發(fā)現(xiàn),初期研究者往往僅考慮識(shí)別率的高低,忽略了算法和模型的復(fù)雜度。
統(tǒng)計(jì)在骨骼模態(tài)上相關(guān)模型的訓(xùn)練參數(shù)量后如表 11所示。以ST-GCN為基礎(chǔ),科研人員通過(guò)加深模型層次和改進(jìn)模型結(jié)構(gòu),設(shè)計(jì)出AS-GCN、2S-GCN等優(yōu)秀模型。雖然提高了識(shí)別性能,但是模型越來(lái)越龐大,識(shí)別率也達(dá)到了瓶頸。意識(shí)到這一問(wèn)題后,研究人員開(kāi)始設(shè)計(jì)更輕量的網(wǎng)絡(luò),如MS-G3D、Dynamic GCN、CTR-GCN等。在達(dá)到相同識(shí)別效果的同時(shí),設(shè)計(jì)了復(fù)雜度更小、訓(xùn)練速度更快的網(wǎng)絡(luò)。從模型優(yōu)化的角度進(jìn)一步發(fā)展了行為識(shí)別技術(shù)。
圖卷積的應(yīng)用將NTU RGB+D 60骨骼數(shù)據(jù)庫(kù)的交叉識(shí)別率從50%快速提升至88%。經(jīng)過(guò)科研人員的不斷努力研究,目前交叉主題和交叉視角的最高識(shí)別率已經(jīng)達(dá)到94.1%和97.1%。在NTU RGB+D 60數(shù)據(jù)集上已經(jīng)基本完成行為識(shí)別的任務(wù)。在NTU RGB+D 120數(shù)據(jù)集,動(dòng)作類(lèi)別數(shù)更多,更加有挑戰(zhàn)性和難度。目前的最高識(shí)別率只有90%左右。所以,NTU RGB+D 120數(shù)據(jù)集是目前最全面和權(quán)威評(píng)價(jià)一個(gè)算法和模型好壞的數(shù)據(jù)集。希望相關(guān)人員能首先考慮以該數(shù)據(jù)集作為基準(zhǔn),通過(guò)數(shù)據(jù)驅(qū)動(dòng)行為識(shí)別的進(jìn)一步發(fā)展。本文發(fā)現(xiàn),越高的識(shí)別率增長(zhǎng)的幅度越小。這也從側(cè)面反映了圖卷積在行為識(shí)別領(lǐng)域達(dá)到了一定的瓶頸期。從本文數(shù)據(jù)模態(tài)的角度出發(fā),有以下兩點(diǎn)建議:1)融合其他模態(tài)的數(shù)據(jù),補(bǔ)充骨骼數(shù)據(jù)的信息,進(jìn)而獲得更好的結(jié)果。2)使用一種新的方式代替拓?fù)鋱D表示骨骼的信息,便于提取更多的動(dòng)作特征。
6.4 多模態(tài)融合的方法對(duì)比
NTU RGB+D包括了RGB、深度和骨骼模態(tài),選擇該數(shù)據(jù)集作為基準(zhǔn)對(duì)比不同的算法,結(jié)果如表 12所示。
選取其中的兩個(gè)方法Pose-drive Attention和Deep Bilinear作為代表,比較其在不同模態(tài)下的識(shí)別率。從表 13中可以清楚地觀察到,對(duì)于Pose-drive Attention模型,RGB和骨骼模態(tài)融合的識(shí)別率明顯高于RGB或者骨骼單個(gè)模態(tài)的識(shí)別率。對(duì)于Deep Bilinear模型,3個(gè)模態(tài)融合后的識(shí)別率高于兩個(gè)模態(tài)融合的識(shí)別率。因此,融合多個(gè)模態(tài)的方法十分有利于行為識(shí)別的效果提升。
最常用的組合是RGB模態(tài)和深度模態(tài),原因是由于深度模態(tài)比RGB模態(tài)多了深度信息,而RGB模態(tài)比深度模態(tài)多了顏色紋理信息,兩者能較好地互補(bǔ)信息,從而提取到描述更好的特征,達(dá)到提高識(shí)別率的效果。其次是骨骼和其他模態(tài)的組合,由于骨骼數(shù)據(jù)在早期較難與其他模態(tài)融合,研究者一般都選擇在高維特征階段進(jìn)行融合,實(shí)現(xiàn)信息的互補(bǔ)。最后,本文從各類(lèi)模態(tài)內(nèi)部比較和各類(lèi)模態(tài)之間比較發(fā)現(xiàn)了一些規(guī)律和特點(diǎn)。骨骼模態(tài)數(shù)據(jù)和RGB模態(tài)數(shù)據(jù)是人體行為識(shí)別中使用較多的模態(tài)。在各類(lèi)模態(tài)下,深度學(xué)習(xí)的方法一般都優(yōu)于手工特征的方法,這是因?yàn)樯疃葘W(xué)習(xí)提取的特征基于數(shù)據(jù)集本身的數(shù)據(jù)信息,相較于手工特征,深度學(xué)習(xí)獲得的特征更加準(zhǔn)確地描述了動(dòng)作。通過(guò)融合不同數(shù)據(jù)模態(tài)的特征或者決策層融合,實(shí)現(xiàn)信息互補(bǔ),達(dá)到更優(yōu)異的效果。
07 結(jié)語(yǔ)
目前,行為識(shí)別在一些數(shù)據(jù)集上的識(shí)別率已經(jīng)很高,在日常生活中也有一些應(yīng)用。但是行為識(shí)別仍然存在許多挑戰(zhàn)。1)數(shù)據(jù)集的規(guī)模越來(lái)越大,環(huán)境越來(lái)越復(fù)雜,愈發(fā)符合現(xiàn)實(shí)場(chǎng)景。物體遮擋、視頻的像素值和幀數(shù)、交互運(yùn)動(dòng)以及圖像的多尺寸等因素,都會(huì)極大地影響識(shí)別過(guò)程。2)盡管目前有許多模態(tài)的數(shù)據(jù),但并非所有模態(tài)的數(shù)據(jù)都易采集。RGB模態(tài)是能夠利用一般相機(jī)直接獲得,深度模態(tài)需要深度傳感器(如Kinect相機(jī))獲得,而骨骼模態(tài)是從前兩者模態(tài)中抽象得到的一種描述人體行為的模態(tài)數(shù)據(jù)。3)特殊動(dòng)作的識(shí)別包括相似動(dòng)作的識(shí)別、多人動(dòng)作的識(shí)別以及高速動(dòng)作的識(shí)別。對(duì)于這些挑戰(zhàn),研究者還需不斷探索,尋找解決問(wèn)題的方案。本文總結(jié)了一些行為識(shí)別領(lǐng)域在未來(lái)可行的研究方向:1)多模態(tài)融合是一個(gè)具有前景的研究方向。無(wú)論是在特征層的特征融合,或者在預(yù)測(cè)階段的決策融合,都已經(jīng)被證明是一個(gè)可行的方案。除了上述所提的主流模態(tài)外,一些模態(tài)(如紅外線、聲音)等信息也能夠融合其中,實(shí)現(xiàn)信息補(bǔ)充,提高識(shí)別性能。2)深度學(xué)習(xí)網(wǎng)絡(luò)已經(jīng)成為主流,符合數(shù)據(jù)集規(guī)模增加的趨勢(shì)。手工制作的特征并非完全舍棄。研究人員依然可以借鑒制作特征的思想,從視頻中提取去除無(wú)關(guān)信息的手工特征后再輸入深度學(xué)習(xí)的網(wǎng)絡(luò)中,減少了網(wǎng)絡(luò)參數(shù),也提高了識(shí)別效果。3)設(shè)計(jì)和移植新型網(wǎng)絡(luò),增加注意力模塊。自從2D卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用在行為識(shí)別領(lǐng)域,識(shí)別效果大幅提升。然后,3D卷積神經(jīng)網(wǎng)絡(luò)、圖卷積網(wǎng)絡(luò)的應(yīng)用使識(shí)別效果又提升了一個(gè)層次。所以,設(shè)計(jì)新型的網(wǎng)絡(luò)或者移植其他領(lǐng)域的網(wǎng)絡(luò)是有參考價(jià)值的。同時(shí),注意力模塊在網(wǎng)絡(luò)中愈發(fā)廣泛應(yīng)用。注意力模塊能夠較好地去除時(shí)間和空間特征中的無(wú)關(guān)信息,將重點(diǎn)放在顯著區(qū)域,進(jìn)而提升識(shí)別準(zhǔn)確率。本文從多模態(tài)的角度對(duì)行為識(shí)別的研究進(jìn)行了綜述,整理了主流的數(shù)據(jù)集,全面分析了各類(lèi)模態(tài)的行為識(shí)別方法,重點(diǎn)分析了特征的設(shè)計(jì)和網(wǎng)絡(luò)的結(jié)構(gòu),最后對(duì)比不同算法或網(wǎng)絡(luò)的效果,總結(jié)出一些存在的問(wèn)題和未來(lái)可行的方向。本文的分類(lèi)結(jié)構(gòu)希望能給初學(xué)者提供一個(gè)完整的行為識(shí)別領(lǐng)域的知識(shí),使相關(guān)研究人員能從中獲得一些創(chuàng)新的思路和啟發(fā)。
編輯:黃飛
評(píng)論