圖卷積網(wǎng)絡(luò)(Graph Convolutional Network,GCN)是近年來(lái)逐漸流行的一種神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。不同于只能用于網(wǎng)格結(jié)構(gòu)(grid-based)數(shù)據(jù)的傳統(tǒng)網(wǎng)絡(luò)模型 LSTM 和 CNN,圖卷積網(wǎng)絡(luò)能夠處理具有廣義拓?fù)鋱D結(jié)構(gòu)的數(shù)據(jù),并深入發(fā)掘其特征和規(guī)律,例如 PageRank 引用網(wǎng)絡(luò)、社交網(wǎng)絡(luò)、通信網(wǎng)絡(luò)、蛋白質(zhì)分子結(jié)構(gòu)等一系列具有空間拓?fù)鋱D結(jié)構(gòu)的不規(guī)則數(shù)據(jù)。相比于一般的拓?fù)鋱D而言,人體骨骼拓?fù)鋱D具有更加良好的穩(wěn)定性和不變性,因此從2018年開(kāi)始,就有許多學(xué)者嘗試將圖卷積網(wǎng)絡(luò)應(yīng)用到基于人體骨骼的行為識(shí)別領(lǐng)域來(lái),也取得了不錯(cuò)的成果。下面就讓我們來(lái)深入了解一下什么是圖卷積網(wǎng)絡(luò),以及它在行為識(shí)別領(lǐng)域的最新工作進(jìn)展吧!
什么是圖(graph)?為什么要研究GCN?
我們知道,CNN 在處理圖像數(shù)據(jù)時(shí)具有很強(qiáng)的特征抽取能力和整合能力,這得益于卷積核(kernel ,or filter)的參數(shù)共享機(jī)制和加權(quán)平均機(jī)制。卷積本質(zhì)上就是一種加權(quán)求和的過(guò)程,而卷積核的參數(shù)就是不同像素點(diǎn)對(duì)應(yīng)的權(quán)重,并且不同的圖片都共享同一個(gè)卷積核,這使得CNN能夠通過(guò)對(duì)卷積核參數(shù)的迭代更新來(lái)隱式的學(xué)習(xí)圖像中具有的像素排列規(guī)律,進(jìn)而學(xué)習(xí)到不同的形狀特征和空間特征。
但值得注意的一點(diǎn)是,CNN 所處理的數(shù)據(jù)都具有規(guī)則的網(wǎng)格結(jié)構(gòu),也就是排列很整齊的矩陣,具有 Euclidean Structure,例如 RGB 圖片(圖1)。如果要將CNN應(yīng)用于非圖像領(lǐng)域,就必須將數(shù)據(jù)組合為規(guī)整的網(wǎng)絡(luò)結(jié)構(gòu),才能作為CNN的輸入。例如在 18 年之前的行為識(shí)別研究中,常用的方法就是以一定的順序?qū)⒁粋€(gè)動(dòng)作的關(guān)節(jié)坐標(biāo)序列轉(zhuǎn)換為一張 RGB 圖片,從而將動(dòng)作識(shí)別工作轉(zhuǎn)化為圖像識(shí)別工作。
圖1 規(guī)則空間結(jié)構(gòu)數(shù)據(jù)
然而現(xiàn)實(shí)生活和科學(xué)研究中有很多數(shù)據(jù)都不具備完整的矩陣結(jié)構(gòu),相反,更多的是以一定的連接關(guān)系聚合在一起,如圖2所示。社交網(wǎng)絡(luò),通信網(wǎng)絡(luò),互聯(lián)網(wǎng)絡(luò)等都具有類似的結(jié)構(gòu)。
圖2 社交網(wǎng)絡(luò)拓?fù)鋱D
類似這樣的網(wǎng)絡(luò)結(jié)構(gòu)就是圖論中所定義的拓?fù)鋱D。更一般的,圖就是指圖論中用頂點(diǎn)和邊建立相應(yīng)關(guān)系的拓?fù)鋱D。我們可以用一個(gè)點(diǎn)和邊的集合來(lái)表示圖:G=(E,V);其中E表示邊的集合,V表示頂點(diǎn)的集合。
那么對(duì)于這種具有拓?fù)鋱D結(jié)構(gòu)的數(shù)據(jù)而言,CNN 處理起來(lái)是非常困難的(但也不是沒(méi)有辦法哦),而且通常不能很好的抽取節(jié)點(diǎn)與節(jié)點(diǎn)之間的連接關(guān)系信息(是否相連),這也是我們研究 GCN 的重要原因。當(dāng)然,根本的原因還是在于數(shù)據(jù)的多樣性,廣義上來(lái)講,任何數(shù)據(jù)在賦范空間內(nèi)都可以建立拓?fù)潢P(guān)聯(lián),譜聚類就是應(yīng)用了這樣的思想。所以說(shuō)拓?fù)溥B接是一種廣義的數(shù)據(jù)結(jié)構(gòu),GCN 有很大的應(yīng)用空間。
圖卷積操作如何進(jìn)行呢?
目前有兩種類型的圖卷積操作,一種是基于空域的圖卷積,另一種是基于譜域的圖卷積,這里著重介紹第一種。
前面我們提到,卷積操作的本質(zhì)意義就是對(duì)一個(gè)范圍內(nèi)的像素點(diǎn)進(jìn)行加權(quán)求平均,這能有助于提取空間特征,那么如何將這種思想應(yīng)用到拓?fù)鋱D上呢?我們可以換一種方式來(lái)理解卷積操作,如圖3,對(duì)于feature map(藍(lán)色部分)中的一個(gè)點(diǎn)(紅色),其特征值實(shí)際上是周圍所有像素點(diǎn)將特征值傳播到中心點(diǎn)后進(jìn)行加權(quán)平均,這種操作等效于傳統(tǒng)的卷積操作,只不過(guò)我們?nèi)藶榈臑樘卣魈砑恿艘粋€(gè)傳播方向(邊),將每個(gè)像素點(diǎn)當(dāng)成頂點(diǎn),從而在圖結(jié)構(gòu)上再次定義了卷積操作。
圖3 卷積操作的另一種理解
進(jìn)一步的,對(duì)于廣義拓?fù)鋱D結(jié)構(gòu)的數(shù)據(jù),也可以按照這種思想來(lái)定義卷積操作,如圖4所示,將每個(gè)節(jié)點(diǎn)的鄰居節(jié)點(diǎn)的特征傳播到該節(jié)點(diǎn),再進(jìn)行加權(quán)平均,就可以得到該點(diǎn)的聚合特征值,只不過(guò)在 CNN 中,我們將這個(gè)聚合特征值當(dāng)做了 feature map 中的一個(gè)點(diǎn),而在 GCN 中沒(méi)有 feature map 的概念,我們直接將這個(gè)聚合特征值作為傳播到下一層的特征值。藍(lán)色部分就是圖卷積操作對(duì)應(yīng)的 kernel,這里是為了理解才畫出這個(gè)藍(lán)色區(qū)域,在 GCN 中也沒(méi)有 kernel 的概念,這也是因?yàn)閳D是不規(guī)則的。
類似于 CNN,圖卷積也采用共享權(quán)重,不過(guò)不同于 CNN 中每個(gè) kernel 的權(quán)重都是規(guī)則的矩陣,按照對(duì)應(yīng)位置分配,圖卷積中的權(quán)重通常是一個(gè)集合。在對(duì)一個(gè)節(jié)點(diǎn)計(jì)算聚合特征值時(shí),按一定規(guī)律將參與聚合的所有點(diǎn)分配為多個(gè)不同的子集,同一個(gè)子集內(nèi)的節(jié)點(diǎn)采用相同的權(quán)重,從而實(shí)現(xiàn)權(quán)重共享。例如對(duì)于圖4,我們可以規(guī)定和紅色點(diǎn)距離為 1 的點(diǎn)為 1 鄰域子集,距離為 2 的點(diǎn)為 2 鄰域子集。當(dāng)然,也可以采用更加復(fù)雜的策略,例如按照距離圖重心的遠(yuǎn)近來(lái)分配權(quán)重。權(quán)重的分配策略有時(shí)也稱為 label 策略,對(duì)鄰接節(jié)點(diǎn)分配 label,label 相同節(jié)點(diǎn)的共享一個(gè)權(quán)重。
到這里想必你已經(jīng)發(fā)現(xiàn)了,其實(shí)圖卷積操作就是傳統(tǒng)的卷積操作在拓?fù)鋱D上的概念延伸和轉(zhuǎn)移,通過(guò)對(duì)比二者,你能更好的學(xué)習(xí)到圖卷積網(wǎng)絡(luò)的精髓。
圖4 拓?fù)鋱D上的卷積操作
特征在層與層之間的傳播方式可以用公式表示如下:
其中 Hi 是第 i 層的特征矩陣,當(dāng) i=0時(shí),H0 就表示輸入圖的節(jié)點(diǎn)特征矩陣。A是輸入圖的鄰接矩陣,Wi表示第i層的權(quán)重矩陣。σ表示激活函數(shù)。通過(guò)鄰接矩陣左乘特征矩陣,可以實(shí)現(xiàn)特征的聚合操作,然后再右乘權(quán)重矩陣,可以實(shí)現(xiàn)加權(quán)操作。權(quán)重矩陣W和鄰接矩陣H是用圖卷積做行為識(shí)別工作時(shí)的重點(diǎn)研究對(duì)象。鄰接矩陣的示例如下圖:
圖5 鄰接矩陣示例
如果兩個(gè)節(jié)點(diǎn)相鄰,那么在矩陣中對(duì)應(yīng)位置為1,否則為0。這是一種非常基礎(chǔ)的定義,不同的行為識(shí)別工作會(huì)在此基礎(chǔ)上設(shè)計(jì)不同的變體定義。
概括的來(lái)說(shuō),圖卷積操作就是將每個(gè)節(jié)點(diǎn)的特征與其鄰居節(jié)點(diǎn)的特征加權(quán)平均后傳播到下一層。這種圖卷積操作稱為在空域上的圖卷積,有如下幾個(gè)特點(diǎn):
1. 隨著層數(shù)的加深,每個(gè)節(jié)點(diǎn)能聚合到的特征越遠(yuǎn),也就是感受野越大。
2. 權(quán)重是共享的,不會(huì)具體到每個(gè)節(jié)點(diǎn),這和傳統(tǒng)CNN相同。(直觀的理解,如果權(quán)重是因節(jié)點(diǎn)而不同的,那么一旦圖結(jié)構(gòu)發(fā)生變化,權(quán)重就會(huì)立刻失效)
3.每個(gè)頂點(diǎn)的鄰居節(jié)點(diǎn)數(shù)可能不同,這導(dǎo)致鄰居節(jié)點(diǎn)多的頂點(diǎn)的特征值更顯著。
4.鄰接矩陣在計(jì)算時(shí)無(wú)法將節(jié)點(diǎn)自身的特征包含到聚合特征值中。
此外,為了克服空域圖卷積的缺點(diǎn),學(xué)者們提出了譜域上的圖卷積,大概思想是利用圖的拉普拉斯矩陣和傅里葉變換來(lái)進(jìn)行卷積操作。基于譜域的圖卷積目前在行為識(shí)別中應(yīng)用較少,并且原理非常復(fù)雜,這里不做詳細(xì)介紹,有興趣的同學(xué)可以閱讀相關(guān)文章。
GCN在行為識(shí)別領(lǐng)域的應(yīng)用
行為識(shí)別的主要任務(wù)是分類識(shí)別,對(duì)給定的一段動(dòng)作信息(例如視頻,圖片,2D骨骼序列,3D骨骼序列),通過(guò)特征抽取分類來(lái)預(yù)測(cè)其類別。目前(18年過(guò)后)基于視頻和RGB圖片的主流方法是two-stream雙流網(wǎng)絡(luò),而基于骨骼數(shù)據(jù)的主流方法就是圖卷積網(wǎng)絡(luò)了。
人體的骨骼圖本身就是一個(gè)拓?fù)鋱D,因此將GCN運(yùn)用到動(dòng)作識(shí)別上是一個(gè)非常合理的想法。但不同于傳統(tǒng)的圖結(jié)構(gòu)數(shù)據(jù),人體運(yùn)動(dòng)數(shù)據(jù)是一連串的時(shí)間序列,在每個(gè)時(shí)間點(diǎn)上具有空間特征,而在幀于幀之間則具有時(shí)間特征,如何通過(guò)圖卷積網(wǎng)絡(luò)來(lái)綜合性的發(fā)掘運(yùn)動(dòng)的時(shí)空特征,是目前的行為識(shí)別領(lǐng)域的研究熱點(diǎn)。筆者選取了自18年以來(lái)將GCN和行為識(shí)別相結(jié)合的代表性工作,用于討論并分析這些工作的核心思想,以及在此基礎(chǔ)上可以嘗試的idea。
[1]SpatialTemporal Graph Convolutional Networks for Skeleton-Based Action Recognition(AAAI,2018)(cv,88.3%,表示在NTU RGB+D數(shù)據(jù)集上cross-view驗(yàn)證結(jié)果,下同)
主要貢獻(xiàn):
1.將圖卷積網(wǎng)絡(luò)擴(kuò)展到時(shí)空域,稱為時(shí)空?qǐng)D卷積網(wǎng)絡(luò)(ST-GCN)。對(duì)于每個(gè)關(guān)節(jié)而言,不僅考慮它在空間上的相鄰關(guān)節(jié),還要考慮它在時(shí)間上的相鄰關(guān)節(jié),也就是說(shuō)將鄰域的概念擴(kuò)展到了時(shí)間上。
2.新的權(quán)重分配策略,文章中提到了三種不同的權(quán)重分配策略:
圖(b)唯一劃分,將節(jié)點(diǎn)和其1鄰域節(jié)點(diǎn)劃分到相同的子集中,使他們具有相同的label,自然也就具有相同的權(quán)重。這樣的話每個(gè)kernel中的權(quán)重實(shí)際上就是一個(gè)1*N的向量,N是節(jié)點(diǎn)的特征維數(shù)。
圖(c)按距離劃分,將節(jié)點(diǎn)自身劃分為一個(gè)子集,1領(lǐng)域劃分到一個(gè)子集。每個(gè)kernel的權(quán)重是一個(gè)2*N的向量。
圖(d)按節(jié)點(diǎn)與重心距離劃分,距離重心更近(相對(duì)于中心節(jié)點(diǎn))的1鄰域節(jié)點(diǎn)為一個(gè)子集,距離重心更遠(yuǎn)的1鄰域節(jié)點(diǎn)為一個(gè)子集,中心節(jié)點(diǎn)自身為1個(gè)子集。每個(gè)kernel的權(quán)重是一個(gè)3*N的向量。
經(jīng)過(guò)測(cè)試發(fā)現(xiàn)第三種策略效果最好,這是因?yàn)榈谌N策略實(shí)際上也包含了對(duì)末肢關(guān)節(jié)賦予更多關(guān)注的思想,通常距離重心越近,運(yùn)動(dòng)幅度越小,同時(shí)能更好的區(qū)分向心運(yùn)動(dòng)和離心運(yùn)動(dòng)。
核心思想:
1.將圖卷積擴(kuò)展到了時(shí)域上,從而更好的發(fā)掘動(dòng)作的運(yùn)動(dòng)特征,而不僅僅是空間特征。
2.設(shè)計(jì)了新的權(quán)重分配策略,能更加差異化地學(xué)習(xí)不同節(jié)點(diǎn)的特征。
3.合理的運(yùn)用先驗(yàn)知識(shí),對(duì)運(yùn)動(dòng)幅度大的關(guān)節(jié)給予更多的關(guān)注,潛在的體現(xiàn)在權(quán)重分配策略中。
[2]DeepProgressive Reinforcement Learning for Skeleton-based Action Recognition(CVPR,2018)(cv,89.8%)
主要貢獻(xiàn):
1.首先通過(guò)深度漸進(jìn)式強(qiáng)化學(xué)習(xí)(DPRL),用類似蒸餾的方法逐步得從輸入的動(dòng)作幀序列中挑選最具識(shí)別力的幀,并忽略掉那些模棱兩可的幀,這是一種類似于lstem中的attention的機(jī)制,只不過(guò)注意力只放在了時(shí)域上。對(duì)應(yīng)的網(wǎng)絡(luò)是frame distillation network(FDNet)。
2.將FDNet的輸出作為GCN的輸入,用于動(dòng)作識(shí)別。不同于傳統(tǒng)的骨骼圖,本文還定義了一些特殊的骨骼連接,如下圖:
不僅包含了骨架的肢節(jié)連接(實(shí)線),為了發(fā)掘那些沒(méi)有直接連接的關(guān)節(jié)之間的關(guān)系,還定義了一些重要關(guān)節(jié)之間的間接連接(虛線)。例如系鞋帶,手部關(guān)節(jié)和腳部關(guān)節(jié)會(huì)有親密合作,但他們并沒(méi)有在骨骼圖中直接相連,距離較遠(yuǎn),需要經(jīng)過(guò)多層的圖卷積兩個(gè)關(guān)節(jié)的特征才會(huì)相互傳播給對(duì)方,因此可以通過(guò)額外建立間接連接來(lái)發(fā)掘其中的關(guān)系。這個(gè)思想體現(xiàn)在鄰接矩陣上,就是將鄰接矩陣中一部分原本值為0的元素改為其他大于0的值。此外,觀察上圖你會(huì)發(fā)現(xiàn),定義了虛線連接的那些關(guān)節(jié)大都是距離重心較遠(yuǎn)的關(guān)節(jié),這是因?yàn)樵诖蟛糠謩?dòng)作中,距重心越遠(yuǎn)的關(guān)節(jié)運(yùn)動(dòng)幅度越大,其蘊(yùn)含的信息越多。
核心思想:
1.attention機(jī)制,在時(shí)域上選擇具有代表性,識(shí)別能力更強(qiáng)的幀。
2.對(duì)鄰接矩陣進(jìn)行改進(jìn),不再是單一的0-1布爾矩陣,對(duì)沒(méi)有直接連接的節(jié)點(diǎn)之間也賦予一定的權(quán)重。
3.合理運(yùn)用先驗(yàn)知識(shí),對(duì)末肢關(guān)節(jié)賦予更多的關(guān)注,體現(xiàn)在鄰接矩陣上。
[3]Part-based Graph ConvolutionalNetwork for Action Recognition(BMVC,2018)(cv,93.2)
主要貢獻(xiàn):
1.用幾何特征(Geometric Features)和運(yùn)動(dòng)特征(Kinematic Features)來(lái)代替原始的空間三維坐標(biāo),作為每個(gè)節(jié)點(diǎn)的原始特征。如上圖中的圖(a)。
2.將人體骨架圖按一定的原則劃分為多個(gè)不同的子圖。對(duì)每個(gè)子圖分別進(jìn)行圖卷積操作,然后再通過(guò)一個(gè)融合函數(shù)將結(jié)果融合。具體思想是:首先對(duì)于一個(gè)節(jié)點(diǎn),計(jì)算該節(jié)點(diǎn)與所屬子圖內(nèi)的鄰接節(jié)點(diǎn)的卷積值,我們稱之為基本卷積值。而對(duì)于所屬子圖外的鄰接節(jié)點(diǎn)(屬于相鄰的另一個(gè)子圖),首先計(jì)算該鄰接節(jié)點(diǎn)的基本卷積值,然后將二者的基本卷積值以一定的權(quán)重融合。這么做可以在很大程度上提高每個(gè)子圖邊緣節(jié)點(diǎn)的感受野(直接覆蓋到相鄰子圖),同時(shí)對(duì)于每個(gè)子圖的非邊緣節(jié)點(diǎn)(于其他子圖不相連),則需要多次傳播才能獲取到其他子圖節(jié)點(diǎn)的特征。
本文測(cè)試了三種不同的劃分策略,分別是:
圖(b):按距離重心的距離,分為中軸關(guān)節(jié)和末肢關(guān)節(jié)兩個(gè)部分。
圖(c):在圖(b)的基礎(chǔ)上進(jìn)一步細(xì)化,按照關(guān)節(jié)的上下位置分為4個(gè)部分。
圖(d):在(c)的基礎(chǔ)上加入了左右關(guān)節(jié)的概念,按左右再細(xì)分為6個(gè)部分。
實(shí)驗(yàn)證明,圖(c)的劃分方法結(jié)果最好,這是因?yàn)槿绻訄D數(shù)量過(guò)多,會(huì)導(dǎo)致特征值得傳播更困難,而數(shù)量過(guò)少,則無(wú)法差異化地對(duì)待不同類型的關(guān)節(jié)。
3.時(shí)空域卷積。不同于文章[1],本文采用的時(shí)空卷積策略是:先對(duì)每一幀,按照子圖特征融合的方法進(jìn)行卷積,得到空域卷積結(jié)果,然后在將空域卷積結(jié)果作為時(shí)域上的特征值,再進(jìn)行時(shí)域上的卷積。這么做實(shí)際上是擴(kuò)大了計(jì)算量和復(fù)雜度,但能發(fā)掘的時(shí)空信息也更全面,不再局限于局部關(guān)節(jié)范圍。
核心思想:
1.定義了更加復(fù)雜的卷積策略,不再是簡(jiǎn)單的鄰域特征融合,而是擴(kuò)大了鄰域的概念,從而提高了節(jié)點(diǎn)的感受野。
2.采用了分圖策略,有助于挖掘局部范圍內(nèi)的關(guān)節(jié)聯(lián)系。通常這種策略我們稱為part-based或part-aware。
3.定義了范圍更廣的時(shí)空卷積操作,代價(jià)是計(jì)算量更大了。
4.傳統(tǒng)方法使用關(guān)節(jié)原始的坐標(biāo)信息作為GCN的輸入,而這里采用更具代表性的兩種不同類型特征作為輸入,可以進(jìn)一步提高識(shí)別能力。
[4]Actional-Structural Graph Convolutional Networksfor Skeleton-based Action Recognition(arXiv,2019)(cv,94.2)
頂會(huì)的文章真的是一年比一年復(fù)雜,雖然說(shuō)效果越做越好,但是特征工程和網(wǎng)絡(luò)結(jié)構(gòu)都非常復(fù)雜,有時(shí)候純粹是靠堆復(fù)雜度來(lái)提升結(jié)果,作者并不能合理解釋自己的網(wǎng)絡(luò)結(jié)構(gòu),而且這種工作也很難follow
主要貢獻(xiàn):
提出了AS-GCN,主要涉及了兩種網(wǎng)絡(luò)結(jié)構(gòu):Action-link和Structural-link。通過(guò)Action-link來(lái)發(fā)掘潛在的關(guān)節(jié)之間的聯(lián)系,通過(guò)structual-link來(lái)發(fā)掘骨骼圖的高階關(guān)系。
1.Action-Link提取關(guān)節(jié)連接信息
如圖(c),Action-Link實(shí)際上就是每個(gè)關(guān)節(jié)和其他所有關(guān)節(jié)的連接,通過(guò)一個(gè)編碼-解碼器來(lái)學(xué)習(xí)這些連接的權(quán)重,進(jìn)而發(fā)掘關(guān)節(jié)之間的潛在聯(lián)系,如下圖:
具體細(xì)節(jié)(理解難度較大,如果不深入研究可以忽略):
上圖中左側(cè)黃色和紫色分別代表某一幀的原始的joints features和links features,將兩種類型的特征反復(fù)迭代更新(encoder),可以實(shí)現(xiàn)特征在關(guān)節(jié)和邊中的流動(dòng)傳播,最終得到一個(gè)概率權(quán)重矩陣。將這個(gè)矩陣和該幀之前的所有時(shí)刻的幀信息結(jié)合起來(lái),通過(guò)一個(gè)decoder來(lái)預(yù)測(cè)下一時(shí)刻的關(guān)節(jié)位置。這樣就能通過(guò)反向傳播的方式來(lái)不斷的迭代更新網(wǎng)絡(luò)參數(shù),實(shí)現(xiàn)對(duì)網(wǎng)絡(luò)的訓(xùn)練。在網(wǎng)絡(luò)得到初步的訓(xùn)練后,將decoder去掉,只使用前半部分抽取A-link特征,用于動(dòng)作分類任務(wù)的進(jìn)一步訓(xùn)練。
2.Structural-link擴(kuò)大節(jié)點(diǎn)感受野
傳統(tǒng)的圖卷積網(wǎng)絡(luò)中,每個(gè)節(jié)點(diǎn)只將自己的信息傳播給鄰居節(jié)點(diǎn),這會(huì)導(dǎo)致節(jié)點(diǎn)感受野較小,不利于獲取長(zhǎng)距離的連接信息。通過(guò)對(duì)鄰接矩陣取一定次數(shù)的冪,可以擴(kuò)大感受野,如圖(b)。
3.多任務(wù)處理
將A-Link和S-link加權(quán)結(jié)合起來(lái)作為GCN的輸入。將GCN和Temporal-GCN結(jié)合,得到AS-GCN,作為基本網(wǎng)絡(luò)(Backbone)。接不同的后端網(wǎng)絡(luò),可以分別實(shí)現(xiàn)分類功能和預(yù)測(cè)功能,如下圖:
核心思想:
1.從原始的坐標(biāo)信息中提取出A-links特征信息作為輸入特征,具有更高的可識(shí)別度,類似于工作[3]。
2.通過(guò)對(duì)鄰接矩陣取多次冪來(lái)擴(kuò)大節(jié)點(diǎn)的感受域。
3.多個(gè)block疊加,通過(guò)提高復(fù)雜度來(lái)提高識(shí)別能力。
[5] An AttentionEnhanced Graph Convolutional LSTM Network for Skeleton-Based ActionRecognition(CVPR,2019)(cv,95%,目前最好)
主要貢獻(xiàn):
不同于前面介紹的工作,本文沒(méi)有采用GCN,而是將骨骼圖作為L(zhǎng)STM的輸入,通過(guò)注意力增強(qiáng)型圖卷積LSTM網(wǎng)絡(luò)(AGC-LSTM)來(lái)抽取圖中具有的空間和時(shí)間特征,并且設(shè)計(jì)了專門的損失函數(shù)和特殊的學(xué)習(xí)方法。
核心思想:
探究不同的圖處理方式,LSTM具有很強(qiáng)的時(shí)序特征獲取能力,將其于圖結(jié)構(gòu)結(jié)合起來(lái),可以實(shí)現(xiàn)對(duì)時(shí)空特征的獲取。
[6] SemanticGraph Convolutional Networks for 3D Human Pose Regression(arXiv,2019)
本文的工作不是行為識(shí)別,而是姿態(tài)估計(jì)。但筆者認(rèn)為其中用到的一些方法非常有道理,可以遷移到行為識(shí)別任務(wù)中。
主要貢獻(xiàn):
在我們之前介紹的圖卷積工作中,GCN網(wǎng)絡(luò)需要學(xué)習(xí)的通常都只有基本的權(quán)重矩陣(上面公式中的W),而對(duì)于鄰接矩陣都是通過(guò)一些先驗(yàn)知識(shí)提前設(shè)置好的,不會(huì)隨著網(wǎng)絡(luò)進(jìn)行迭代變化。然而事實(shí)上,鄰接矩陣的本質(zhì)也是權(quán)重,只不過(guò)通常這個(gè)權(quán)重是我們根據(jù)一些先驗(yàn)的知識(shí)或者規(guī)律提前設(shè)置好的,因此,本文作者提出,如果能通過(guò)網(wǎng)絡(luò)來(lái)學(xué)習(xí)鄰接矩陣的權(quán)重,也就是公式中的M,是否能更好的做到對(duì)特征的抽取呢?
按照這個(gè)思路,網(wǎng)絡(luò)就需要學(xué)習(xí)兩個(gè)不同的權(quán)重,其中基本權(quán)重W在不同的圖卷積層有不同的值,那么鄰接矩陣的權(quán)重M也應(yīng)該是在不同的層有不同的值??赡苡行』锇闀?huì)問(wèn),為什么不把M和W結(jié)合到一起呢?讀一讀原文,你就能找到答案了,這里只提供一種思路。
核心思想:
額外添加一個(gè)針對(duì)鄰接矩陣的權(quán)重,讓網(wǎng)絡(luò)自己去學(xué)習(xí)自己的鄰接矩陣。
總結(jié)
總的來(lái)說(shuō),在基于圖卷積的行為識(shí)別工作和類似的工作中,研究重點(diǎn)在以下幾個(gè)方面:
1.如何設(shè)計(jì)GCN的輸入,用一些更加具有識(shí)別能力的特征來(lái)代替空間坐標(biāo),作為網(wǎng)絡(luò)輸入。
2.如何根據(jù)問(wèn)題來(lái)定義卷積操作,這是非常硬核的問(wèn)題。
3.如何設(shè)計(jì)鄰接矩陣。
4.如何確定權(quán)重分配策略。
Idea可是無(wú)價(jià)之寶,不過(guò)還是分享出來(lái),有興趣的同學(xué)可以和我一起探討。
從前面的文章中我們可以發(fā)現(xiàn),鄰接矩陣和權(quán)重矩陣在GCN中非常重要,其中權(quán)重矩陣通常情況下是不隨圖的結(jié)構(gòu)變化的,也就是說(shuō)不僅在不同的節(jié)點(diǎn)之間共享,還會(huì)在不同的圖結(jié)構(gòu)中共享,這樣GCN就能在不同結(jié)構(gòu)的圖上訓(xùn)練和測(cè)試。但是行為識(shí)別工作是比較特殊的,因?yàn)槿说墓羌芡ǔ2粫?huì)發(fā)生變化,而且同一個(gè)數(shù)據(jù)集提供的骨架也是固定不變的,這樣的話,我們就不用考慮GCN的在不同結(jié)構(gòu)上的通用性,轉(zhuǎn)而將權(quán)重直接指派到每個(gè)關(guān)節(jié),也就是說(shuō),現(xiàn)在每個(gè)節(jié)點(diǎn)都有一個(gè)只屬于自己的權(quán)重,而不再依賴于label策略和其他節(jié)點(diǎn)共享。這么做能讓網(wǎng)絡(luò)能更加差異化地對(duì)待每一個(gè)關(guān)節(jié),從而對(duì)那些具有更強(qiáng)識(shí)別能力的關(guān)節(jié)賦予更多的關(guān)注。此外,自動(dòng)學(xué)習(xí)鄰接矩陣也是一個(gè)不錯(cuò)的思路,只不過(guò)在代碼實(shí)現(xiàn)上面難度會(huì)比較大。
基于空域的圖卷積網(wǎng)絡(luò)目前在NTU RGB+D數(shù)據(jù)集[7]上已經(jīng)達(dá)到了前所未有的高度,要想再有所提升恐怕會(huì)很困難,不過(guò)南洋理工大學(xué)rose lab已經(jīng)發(fā)布了新的NTU 120+數(shù)據(jù)集[8],而且越來(lái)越多的工作聚焦于基于2D骨骼的姿態(tài)識(shí)別,與之相對(duì)應(yīng)的Kinetic數(shù)據(jù)集也更有挑戰(zhàn)性,所以這個(gè)領(lǐng)域還是非常有研究?jī)r(jià)值和前景的。此外,譜圖卷積在近年也得到了很大的關(guān)注,但就目前來(lái)看筆者只發(fā)現(xiàn)了一篇與姿態(tài)識(shí)別有關(guān)的文章是使用了譜圖卷積的,筆者認(rèn)為主要是譜圖卷積相對(duì)于空域圖卷積而言復(fù)雜程度太高,導(dǎo)致很多人望而卻步,但越是復(fù)雜的東西其性能相對(duì)也越好,因此在下一篇文章中,筆者將為大家詳細(xì)剖析譜圖卷積的原理,以及相關(guān)的行為識(shí)別工作!
從目前頂會(huì)文章的發(fā)展趨勢(shì)來(lái)看,工作都是越來(lái)越復(fù)雜的,如果考慮沖擊頂會(huì),就要重點(diǎn)研究第1個(gè)和第2個(gè)思路,如果是次級(jí)一些的會(huì)議,就可以從第3和第4個(gè)思路入手。此外,盡量follow一些已經(jīng)在頂會(huì)上發(fā)表了的,被同行檢查過(guò)的文章,以及有源代碼的文章,這樣可以有效降低工作難度。
-
圖卷積網(wǎng)絡(luò)
+關(guān)注
關(guān)注
0文章
8瀏覽量
1617 -
GCN
+關(guān)注
關(guān)注
0文章
5瀏覽量
2527
原文標(biāo)題:入門學(xué)習(xí) | 什么是圖卷積網(wǎng)絡(luò)?行為識(shí)別領(lǐng)域新星
文章出處:【微信號(hào):rgznai100,微信公眾號(hào):rgznai100】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
卷積神經(jīng)網(wǎng)絡(luò)模型發(fā)展及應(yīng)用
《 AI加速器架構(gòu)設(shè)計(jì)與實(shí)現(xiàn)》+第一章卷積神經(jīng)網(wǎng)絡(luò)觀后感
圖卷積神經(jīng)網(wǎng)絡(luò)入門詳解

用圖卷積網(wǎng)絡(luò)解決語(yǔ)義分割問(wèn)題
基于圖卷積的層級(jí)圖網(wǎng)絡(luò)用于基于點(diǎn)云的3D目標(biāo)檢測(cè)

基于層級(jí)圖網(wǎng)絡(luò)的圖卷積,用點(diǎn)云完成3D目標(biāo)檢測(cè)
基于ST-GCN的人體動(dòng)作識(shí)別與生成
用于非精確圖匹配的改進(jìn)圖卷積神經(jīng)網(wǎng)絡(luò)模型

基于深度圖卷積膠囊網(wǎng)絡(luò)融合的圖分類模型
基于融合元路徑的圖卷積異質(zhì)信息表示學(xué)習(xí)算法
深入研究網(wǎng)絡(luò)傳播背后的理論和直覺(jué)

卷積神經(jīng)網(wǎng)絡(luò)層級(jí)結(jié)構(gòu) 卷積神經(jīng)網(wǎng)絡(luò)的卷積層講解
卷積神經(jīng)網(wǎng)絡(luò)的介紹 什么是卷積神經(jīng)網(wǎng)絡(luò)算法
一種基于因果路徑的層次圖卷積注意力網(wǎng)絡(luò)

評(píng)論