編者按:說到GAN在人臉上的應用,就不得不提起去年高麗大學、Clova AI Research、新澤西大學和香港科技大學共同發(fā)表的一項成果:一個可以在多域圖像間實現(xiàn)圖對圖轉換的統(tǒng)一生成對抗網絡——StarGAN。它不僅能調整圖像中的發(fā)色、肌理、膚色、性別,還能合成各種生動有趣的表情。而就在上周,美國的一群研究人員基于解剖學上的肌肉運動方式,提出了一種轉換表情的新方法。
近年來,生成對抗網絡(GAN)已經在面部表情合成任務中取得了令人印象深刻的結果,這為包括電影工業(yè)、攝影、時尚和電子商務在內的商業(yè)領域打開了一扇新大門:如果GAN真的能實現(xiàn)表情的自然轉換,企業(yè)、制片方不僅能進一步壓縮成本,還能加快產品的產出效率。
在這個背景下,去年提出的StarGAN無疑是目前最成功的架構,它只用一對生成器和判別器就能實現(xiàn)多個域之間的映射,且能對各個域的圖像進行有效訓練。雖然論文較以往成果有巨大進步,也顯示出了通用性,但它只是把以前的2個域擴展到現(xiàn)在的k個域,模型轉換效果還是受數(shù)據集注釋局限。
為了解決這個問題,近日,西班牙IRI和美國俄亥俄州立大學的研究人員提出了一種基于動作單元(AU)的新型GAN,它在連續(xù)流形中描述了解剖學意義上的人類面部表情。經過無監(jiān)督訓練后,只需控制每個AU的激活程度,并選取其中幾個進行組合,模型就能實現(xiàn)生動形象的表情轉換。
模型架構和方法
首先,我們來看這個GAN的具體構造。
對于任意表情,模型把輸入的RGB圖像定義為Iyr∈RH×W×3。通過把復雜表情解構成一個個動作單元(AU),我們可以用一組N個AU yr= (y1, . . . , yN)T對每個表情編碼,其中yn已經經過歸一化處理,取值在0到1之間。有了這種連續(xù)表征,我們就可以在不同表征之間進行自然插值,從而渲染各種逼真、平滑的面部表情。
簡而言之,我們的目標是學習一個映射M,它能把輸入圖像Iyr轉換成基于目標AU yg的輸出圖像Iyg。
上圖是GANimation的整體架構,可以發(fā)現(xiàn),它主要由兩部分組成:一個生成器G,一個判別器D。其中生成器負責回歸注意力(GI)和生成色彩掩模(GA),判別器負責鑒別生成圖像逼真與否(DI),并檢查表情是否連貫(y?g)。
既然重點是AU,那么模型的一個關鍵自然是專注于圖像中那些負責合成新表情的區(qū)域,換言之,我們需要弱化頭發(fā)、眼鏡、帽子或珠寶等其他元素對模型的干擾。為了實現(xiàn)這一點,如上圖所示,研究人員在生成器中引入注意力機制,把輸入圖像分成注意力掩模A和RGB掩模C,完成表情轉換后再合并渲染。
什么是AU
關于什么是AU,文中并沒有仔細說明,所以這里我們來看它重點引用的另一篇論文。
這篇名為Compound facial expressions of emotion的論文來自俄亥俄州立大學哥倫布分校,它和GANimation有一個共同的作者:Aleix M. Martinez。根據他們的研究,人類的不同面部表情可能存在一定相關性,比如當一個人感到驚喜時,他的面部肌肉群運動其實結合了愉悅、驚訝兩種基礎情緒的肌肉運動方式。
基于這個發(fā)現(xiàn),他們提出了一種名為復合情感類別的重要表達式。通過采集230名人類受試者的面部表情樣本圖像,并進行觀察實驗,最終他們定義了21種不同表情類別,其中的差異可以被計算機用來區(qū)分不同人類情感。
數(shù)據庫中的22種常見表情
用線條進行肌肉運動分析
六種復合面部表情的AU組成
很可惜,仔細瀏覽了論文好幾次,我還是沒能從中找出AU對照表。下表是目前已知的幾項內容:
不過不知道也沒關系,這個GAN已經公開了自己的pytorch實現(xiàn):github.com/albertpumarola/GANimation。如果有讀者希望獲得完整表格,建議直接聯(lián)系作者,或者依照俄亥俄州立大學論文中的方法自己總結,里面詳盡列出了數(shù)據來源、具體方法和操作細節(jié)。
實驗
最后是實驗對比,我們先來看看GANimation和DIAT、CycleGAN、IcGAN、StarGAN這些模型的性能區(qū)別。
如下圖所示,前三種模型都出現(xiàn)了不同程度的扭曲和畸變,表現(xiàn)較差;而StarGAN雖然保留了更多人臉細節(jié),生成表情也更自然,但犧牲了清晰度,輸出圖像比較模糊。相比之下,GANimation雖然在臉型上出現(xiàn)了一點小瑕疵,但它的綜合表現(xiàn)是最好的。
下圖是GANimation的一些成功和失敗的例子。其中前兩個例子(頂行)對應于類似人的雕塑和非現(xiàn)實主義風格繪畫。在這兩種情況下,生成器都能保持原始圖像的藝術效果,并且忽略諸如眼鏡遮擋之類的偽像。
第三行的示例顯示了模型對于面部非均勻紋理的穩(wěn)健性??梢钥吹?,把微笑轉換成不滿后,女郎鼻翼兩側出現(xiàn)了下陷的法令紋,但模型并沒有試圖通過添加/去除頭發(fā)來使紋理均勻化。
底部是一些失敗案例。研究人員歸納了失敗原因,認為這些很可能都是因為訓練數(shù)據不足引起的。如紅臉男子圖所示,當模型輸入極端表情時,RGB掩模沒有及時調整權重,導致嘴部出現(xiàn)透明化。此外,如果輸入圖像的主體不是人類,那模型的表現(xiàn)也會很差。
小結
傳統(tǒng)的方法,比如Face2Face,需要極度依賴3D面部重建模型,適用面非常小,也難以擴展到任意身份。相反地,這篇論文以解剖學意義上的肌肉運動為條件,在處理極端輸入時更穩(wěn)健,效果更好??偠灾?,這是篇不錯的論文,而且提出了全然不同的轉換方法,它的思路值得學習借鑒。
-
GaN
+關注
關注
19文章
2277瀏覽量
78561 -
生成器
+關注
關注
7文章
322瀏覽量
22393
原文標題:GANimation:基于解剖結構的面部表情轉換(附GitHub地址)
文章出處:【微信號:jqr_AI,微信公眾號:論智】歡迎添加關注!文章轉載請注明出處。
發(fā)布評論請先 登錄
基于直接反電動勢法的無刷直流電機準確換相新方法
基于硬件的無位置傳感器無刷直流電機啟動新方法
基于直接反電動勢法的無刷直流電機準確換相新方法
基于電感法無刷直流電機起動方法的優(yōu)化設計
芯片制造中高精度膜厚測量與校準:基于紅外干涉技術的新方法

無刷直流電機轉矩脈動抑制新方法
無刷直流電機反電勢過零檢測新方法
一種無刷直流電機霍耳信號與定子繞組關系自學習方法
大華股份榮獲中國創(chuàng)新方法大賽一等獎
基于遺傳算法的QD-SOA設計新方法

一種降低VIO/VSLAM系統(tǒng)漂移的新方法

大華股份榮獲2024年中國創(chuàng)新方法大賽一等獎
利用全息技術在硅晶圓內部制造納米結構的新方法
一種創(chuàng)新的動態(tài)軌跡預測方法

上海光機所提出強激光產生高能量子渦旋態(tài)電子新方法

評論