本文總結(jié)了2018年以來最重要的10篇計算機(jī)視覺/圖像生成相關(guān)的研究,包括許多新穎的架構(gòu)設(shè)計,圖像生成方面的突破等。
自從卷積神經(jīng)網(wǎng)絡(luò)在特定的圖像識別任務(wù)上開始超越人類以來,計算機(jī)視覺領(lǐng)域的研究一直在飛速發(fā)展。
CNN(或ConvNets)的基本架構(gòu)是在20世紀(jì)80年代開發(fā)的。Yann LeCun在1989年通過使用反向傳播訓(xùn)練模型識別手寫數(shù)字,改進(jìn)了最初的設(shè)計。
自那以后,這個領(lǐng)域取得了長足的進(jìn)步。
在2018年,我們看到計算機(jī)視覺領(lǐng)域出現(xiàn)了許多新穎的架構(gòu)設(shè)計,這些設(shè)計改進(jìn)性能基準(zhǔn),也擴(kuò)大了機(jī)器學(xué)習(xí)的模型可以分析的媒介范圍。
在圖像生成方面,我們也看到了一些突破,包括逼真的風(fēng)格轉(zhuǎn)換、高分辨率的圖像生成和視頻到視頻的合成。
我們在不久前總結(jié)了2018年的頂級機(jī)器學(xué)習(xí)論文。由于計算機(jī)視覺和圖像生成對于AI應(yīng)用的重要性和普及性,本文中,我們總結(jié)了2018年最重要的10篇視覺相關(guān)的研究。
以下是我們精選的2018必讀計算機(jī)視覺論文Top 10:
Spherical CNNs
Adversarial Examples that Fool both Computer Vision and Time-Limited Humans
A Closed-form Solution to Photorealistic Image Stylization
Group Normalization
Taskonomy: Disentangling Task Transfer Learning
Self-Attention Generative Adversarial Networks
GANimation: Anatomically-aware Facial Animation from a Single Image
Video-to-Video Synthesis
Everybody Dance Now
Large Scale GAN Training for High Fidelity Natural Image Synthesis
1、 球形CNN
標(biāo)題:Spherical CNNs
作者:Taco S. Cohen, Mario Geiger, Jonas Koehler, Max Welling
https://arxiv.org/abs/1801.10130
論文摘要
卷積神經(jīng)網(wǎng)絡(luò)(CNN)可以很好的處理二維平面圖像的問題。然而,對球面圖像進(jìn)行處理需求日益增加。例如,對無人機(jī)、機(jī)器人、自動駕駛汽車、分子回歸問題、全球天氣和氣候模型的全方位視覺處理問題。將球形信號的平面投影作為卷積神經(jīng)網(wǎng)絡(luò)的輸入的這種天真做法是注定要失敗的,因為這種投影引起的空間扭曲會導(dǎo)致CNN無法共享權(quán)重。
這篇論文介紹了球形CNN的基本構(gòu)建塊。我們提出了利用廣義傅里葉變換(FFT)進(jìn)行快速群卷積(互相關(guān))的操作。我們證明了球形CNN在三維模型識別和分子能量回歸分析中的計算效率、數(shù)值精度和有效性。
概要總結(jié)
汽車、無人機(jī)和其他機(jī)器人使用的全向攝像機(jī)能夠捕捉到它們周圍環(huán)境的球形圖像。我們可以通過將這些球形信號投射到平面上并使用CNN來分析它們。然而,球形信號的任何平面投影都會導(dǎo)致失真。為了解決這個問題,來自阿姆斯特丹大學(xué)的研究小組引入了球形CNN的理論,這種網(wǎng)絡(luò)可以分析球形圖像,而不會被扭曲所欺騙。該方法在3D形狀和球形MNIST圖像的分類以及分子能量回歸分析(計算化學(xué)中的一個重要問題)中都有很好的效果。
核心思想
球形信號的平面投影會導(dǎo)致嚴(yán)重的失真,因為有些區(qū)域看起來比實際面積大或小。
傳統(tǒng)的CNN對于球形圖像來說是無效的,因為當(dāng)物體在球體周圍移動時,它們也會出現(xiàn)收縮和拉伸(試想一下,地圖上格陵蘭島看起來比它實際要大得多)。
解決方案是使用球形CNN,它對輸入數(shù)據(jù)中的球形旋轉(zhuǎn)具有穩(wěn)健性。球形神經(jīng)網(wǎng)絡(luò)通過保持輸入數(shù)據(jù)的原始形狀,平等地對待球面上的所有對象而不失真。
最重要的成果
提出了構(gòu)建球形CNN的數(shù)學(xué)框架。
提供了易于使用、快速且內(nèi)存高效的PyTorch代碼來實現(xiàn)這些CNN。
為球形CNN在旋轉(zhuǎn)不變學(xué)習(xí)問題中的應(yīng)用提供了第一個經(jīng)驗支持:
球形MNIST圖像的分類
3D形狀分類,
分子能量回歸分析。
AI社區(qū)的評價
這篇論文獲得了ICLR 2018年的最佳論文獎,ICLR是一個領(lǐng)先的機(jī)器學(xué)習(xí)會議。
未來研究方向
為球體開發(fā)一個可操縱的CNN來分析球體上向量束的截面(例如,風(fēng)向)。
將數(shù)學(xué)理論從2D球面擴(kuò)展到3D點云,用于在反射和旋轉(zhuǎn)下不變的分類任務(wù)。
可能的應(yīng)用
能夠分析球面圖像的模型可以應(yīng)用于以下問題:
無人機(jī)、機(jī)器人和自動駕駛汽車的全向視覺;
計算化學(xué)中的分子回歸問題
全球天氣和氣候模型。
代碼
作者在GitHub上提供了這篇論文的原始實現(xiàn):
https://github.com/jonas-koehler/s2cnn
2、同時愚弄視覺系統(tǒng)和人類的對抗樣本
標(biāo)題:Adversarial Examples that Fool both Computer Vision and Time-Limited Humans
作者:Gamaleldin F. Elsayed, Shreya Shankar, Brian Cheung, Nicolas Papernot, Alex Kurakin, Ian Goodfellow, Jascha Sohl-Dickstein
https://arxiv.org/abs/1802.08195
論文摘要
機(jī)器學(xué)習(xí)模型很容易受到對抗性樣本(adversarial examples)的影響:圖像中的微小變化會導(dǎo)致計算機(jī)視覺模型出錯,比如把一輛校車誤識別成鴕鳥。然而,人類是否容易犯類似的錯誤,這仍然是一個懸而未決的問題。在這篇論文中,我們通過利用最近的技術(shù)來解決這個問題,這些技術(shù)可以將具有已知參數(shù)和架構(gòu)的計算機(jī)視覺模型轉(zhuǎn)換為具有未知參數(shù)和架構(gòu)的其他模型,并匹配人類視覺系統(tǒng)的初始處理。我們發(fā)現(xiàn),在計算機(jī)視覺模型之間強(qiáng)烈轉(zhuǎn)移的對抗性樣本會影響有時間限制的人類觀察者做出的分類。
概要總結(jié)
谷歌大腦的研究人員正在尋找這個問題的答案:那些不是特定于模型的對抗樣本,并且可以在不訪問模型的參數(shù)和架構(gòu)的情況下欺騙不同的計算機(jī)視覺模型,是否同時也可以欺騙有時間限制的人類?他們利用機(jī)器學(xué)習(xí)、神經(jīng)科學(xué)和心理物理學(xué)的關(guān)鍵思想,創(chuàng)造出對抗性樣本,這些樣本確實在時間有限的設(shè)置下影響人類的感知。因此,這篇論文介紹了一種人類和機(jī)器之間共享的錯覺。
核心思想
在第一步中,研究人員使用黑盒對抗性樣本構(gòu)建技術(shù),在不訪問模型架構(gòu)或參數(shù)的情況下創(chuàng)建對抗性示例。
然后,他們調(diào)整計算機(jī)視覺模型來模擬人類最初的視覺過程,包括:
在每個模型前面加上視網(wǎng)膜層,視網(wǎng)膜層對輸入進(jìn)行預(yù)處理,從而結(jié)合人眼執(zhí)行的一些轉(zhuǎn)換;
對圖像進(jìn)行偏心依賴的模糊處理,以接近受試者的視覺皮層通過其視網(wǎng)膜晶格接收到的輸入。
人類的分類決策在一個有時間限制的環(huán)境中進(jìn)行評估,以檢測人類感知中的細(xì)微影響。
最重要的成果
表明在計算機(jī)視覺模型之間傳遞的對抗性樣本也成功地影響了人類的感知。
證明了卷積神經(jīng)網(wǎng)絡(luò)與人類視覺系統(tǒng)的相似性。
AI社區(qū)的評價
這篇論文在AI社區(qū)得到廣泛討論。盡管大多數(shù)研究人員對這些結(jié)果感到震驚,但一些人認(rèn)為,我們需要對對抗性圖像進(jìn)行更嚴(yán)格的定義,因為如果人類將受到干擾的貓圖像歸類為狗,那么它很可能已經(jīng)是狗,而不是貓了。
未來研究方向
研究哪些技術(shù)對于將對抗性樣本轉(zhuǎn)移到人類身上是至關(guān)重要的(視網(wǎng)膜預(yù)處理,模型集成)。
可能的應(yīng)用
從業(yè)者應(yīng)該考慮這樣一種風(fēng)險,即圖像可能被操縱,導(dǎo)致人類觀察者產(chǎn)生不尋常的反應(yīng),因為對抗性樣本可能會在我們意識不到的情況下影響我們。
3、照片級逼真的圖像風(fēng)格化
標(biāo)題:A Closed-form Solution to Photorealistic Image Stylization
作者:Yijun Li, Ming-Yu Liu, Xueting Li, Ming-Hsuan Yang, Jan Kautz
https://arxiv.org/abs/1802.06474
論文摘要
照片級逼真的圖像風(fēng)格化涉及到將參考照片的風(fēng)格轉(zhuǎn)換為內(nèi)容照片,其約束條件是,經(jīng)過風(fēng)格化的照片應(yīng)保持照片級逼真程度。雖然存在多種逼真的圖像風(fēng)格化方法,但它們往往會產(chǎn)生具有明顯偽影的空間不一致。在這篇論文中,我們提出一種解決這些問題的方法。
該方法由風(fēng)格化步驟(stylization step)和平滑步驟(smoothing step)組成。當(dāng)風(fēng)格化步驟將引用照片的樣式轉(zhuǎn)換為內(nèi)容照片時,平滑步驟確??臻g上一致的樣式化。每個步驟都有一個封閉的解決方案,可以有效地計算。我們進(jìn)行了廣泛的實驗驗證。結(jié)果表明,與其他方法相比,該方法生成的逼真風(fēng)格輸出更受受試者的青睞,同時運行速度更快。源代碼和其他結(jié)果可在https://github.com/NVIDIA/FastPhotoStyle獲得。
概要總結(jié)
英偉達(dá)(NVIDIA)和加州大學(xué)默塞德分校的研究團(tuán)隊提出了一種新的解決照片級圖像風(fēng)格化的方法——FastPhotoStyle。該方法包括兩個步驟:風(fēng)格化和平滑化。大量的實驗表明,該方法生成的圖像比以前的最先進(jìn)的方法更真實、更引人注目。更重要的是,由于采用封閉式的解決方案,F(xiàn)astPhotoStyle生成風(fēng)格化圖像的速度比傳統(tǒng)方法快49倍。
核心思想
照片級真實的圖像風(fēng)格化的目標(biāo)是在保持輸出圖像逼真的同時,將參考照片的風(fēng)格轉(zhuǎn)換為內(nèi)容照片。
任務(wù)分為風(fēng)格化和平滑化兩個步驟:
風(fēng)格化步驟是基于增白和著色變換(WCT),通過特征投影處理圖像。然而,由于WCT是為藝術(shù)圖像的風(fēng)格化而開發(fā)的,因此,它常常會生成用于照片級真實圖像風(fēng)格化的結(jié)構(gòu)構(gòu)件。為了解決這個問題,本文引入了PhotoWCT方法,將WCT中的上采樣層替換為非池化層,從而保留了更多的空間信息。
平滑步驟用于解決第一步之后可能出現(xiàn)的空間不一致的樣式。平滑基于流形排序算法。
這兩個步驟都具有封閉形式的解決方案,這意味著可以通過固定數(shù)量的操作(即,卷積、最大池化、增白等)。因此,計算比傳統(tǒng)方法更有效。
最重要的成果
提出了一種新的圖像風(fēng)格化化方法:FastPhotoSyle,其中:
通過渲染更少的結(jié)構(gòu)偽影和不一致樣式,從而比藝術(shù)風(fēng)格化算法表現(xiàn)更好;
通過不僅合成風(fēng)格照片中色彩,而且合成風(fēng)格照片的圖案,從而優(yōu)于照片級真實的風(fēng)格化算法。
實驗表明,在風(fēng)格化化效果(63.1%)和光真實感(73.5%)方面,用戶更喜歡FastPhotoSyle的結(jié)果,而不是之前的最先進(jìn)的技術(shù)。
FastPhotoSyle可以在13秒內(nèi)合成一張分辨率為1024 x 512的圖像,而之前最先進(jìn)的方法需要650秒才能完成相同的任務(wù)。
AI社區(qū)的評價
該論文在歐洲計算機(jī)視覺會議ECCV 2018上發(fā)表。
未來研究方向
找到一種從風(fēng)格照片遷移小圖案的方法,因為這篇論文提出的方法可以將它們平滑化。
探索進(jìn)一步減少風(fēng)格化照片中的結(jié)構(gòu)偽影數(shù)量的可能性。
可能的應(yīng)用
內(nèi)容創(chuàng)建者可以從照片級真實的圖像風(fēng)格化技術(shù)中獲得很大的好處,因為該技術(shù)基本上允許你根據(jù)適合的內(nèi)容自動更改任何照片的風(fēng)格。
攝影師們也將受到這項技術(shù)的影響。
代碼
NVIDIA團(tuán)隊提供了該論文在GitHub上的原始實現(xiàn):
https://github.com/NVIDIA/FastPhotoStyle
4、Group Normalization
標(biāo)題:Group Normalization
作者:吳育昕, 何愷明
https://arxiv.org/abs/1803.08494
論文摘要
批標(biāo)準(zhǔn)化(Batch Normalization, BN)是深度學(xué)習(xí)進(jìn)展中的一項里程碑式技術(shù),它使各種網(wǎng)絡(luò)都能進(jìn)行訓(xùn)練。但是,沿batch dimension進(jìn)行標(biāo)準(zhǔn)化會帶來一些問題——由于批統(tǒng)計估計不準(zhǔn)確,當(dāng)batch size變小時,BN的誤差會迅速增大。這限制了BN用于訓(xùn)練更大模型和將特征遷移到計算機(jī)視覺任務(wù)(包括檢測、分割和視頻)的用途,這些任務(wù)受內(nèi)存消耗限制,需要小的batch size。
在這篇論文中,我們提出了組標(biāo)準(zhǔn)化(Group Normalization ,GN),作為BN的簡單替代。GN將通道劃分為組,并在每個組內(nèi)計算均值和方差以進(jìn)行標(biāo)準(zhǔn)化。GN的計算獨立于batch sizes,在各種范圍的batch sizes精度穩(wěn)定。
在ImageNet上訓(xùn)練的ResNet-50,當(dāng)batch size 為2時,GN的誤差比BN小10.6%;在使用典型 batch size時,GN與BN一般好,并且優(yōu)于其他標(biāo)準(zhǔn)化變體。此外,GN可以很自然地從預(yù)訓(xùn)練過渡到 fine-tuning。GN在COCO的目標(biāo)檢測和分割任務(wù),以及在Kinetics的視頻分類任務(wù)中都優(yōu)于基于BN的同類算法,這表明GN可以在各種任務(wù)中有效地替代強(qiáng)大的BN。GN可以通過現(xiàn)代庫中的幾行代碼輕松實現(xiàn)。
概要總結(jié)
Facebook AI研究團(tuán)隊建議使用Group Normalization (GN)代替Batch Normalization (BN)。這篇論文的作者是FAIR的吳育昕和何愷明,他們認(rèn)為,對于small batch sizes,BN的錯誤會急劇增加。這限制了BN的使用,因為當(dāng)使用大型模型來解決計算機(jī)視覺任務(wù)時,由于內(nèi)存限制而需要小的batch sizes。相反,Group Normalization與batch sizes無關(guān),因為它將通道劃分為組,并計算每個組內(nèi)標(biāo)準(zhǔn)化的均值和方差。實驗證實,GN在目標(biāo)檢測、分割、視頻分類等多種任務(wù)中都優(yōu)于BN。

核心思想
Group Normalization是Batch Normalization的一個簡單替代方法,特別是在batch size較小的場景中,例如需要高分辨率輸入的計算機(jī)視覺任務(wù)。
GN只探索層的維數(shù),因此它的計算是獨立于batch size的。具體地說,GN將通道或特征映射劃分為組,并在每個組內(nèi)對特征標(biāo)準(zhǔn)化。
Group Normalization可以通過PyTorch和TensorFlow中的幾行代碼輕松實現(xiàn)。
最重要的成果
提出了Group Normalization,一種新的有效的歸一化方法。
評估了GN在各種應(yīng)用中的表現(xiàn),并表明:
GN的計算獨立于batch sizes,在大范圍的batch sizes中精度穩(wěn)定。例如,對于batch size為2的ImageNet訓(xùn)練的ResNet-50, GN的錯誤率比基于BN的模型低10.6%。
GN也可以轉(zhuǎn)移到fine-tuning。實驗表明,在COCO數(shù)據(jù)集的目標(biāo)檢測和分割任務(wù),以及Kinetics數(shù)據(jù)集的視頻分類任務(wù),GN優(yōu)于BN。
AI社區(qū)的評價
該論文在ECCV 2018上獲得了最佳論文提名。
根據(jù)Arxiv Sanity Preserver,這篇論文也是2018年第二受歡迎的論文。
未來研究方向
將group normalization應(yīng)用到序列模型或生成模型。
研究GN在強(qiáng)化學(xué)習(xí)的學(xué)習(xí)表示方面的表現(xiàn)。
探索GN與合適的正則化項相結(jié)合能否改善結(jié)果。
可能的應(yīng)用
依賴基于BN的模型進(jìn)行對象檢測、分割、視頻分類和其他需要高分辨率輸入的計算機(jī)視覺任務(wù)的應(yīng)用可能會受益于基于GN的模型,因為它們在這些設(shè)置中更準(zhǔn)確。
代碼
FAIR團(tuán)隊提供Mask R-CNN基線結(jié)果和使用Group normalize訓(xùn)練的模型:
https://github.com/facebookresearch/Detectron/tree/master/projects/GN
GitHub上也提供了使用PyTorch實現(xiàn)的group normalization:
https://github.com/chengyangfu/pytorch-groupnormalization
5、分解任務(wù)遷移學(xué)習(xí)
標(biāo)題:Taskonomy: Disentangling Task Transfer Learning
ByAmir R. Zamir,Alexander Sax,William Shen,Leonidas J. Guibas,Jitendra Malik,Silvio Savarese(2018)
https://arxiv.org/abs/1804.08328
論文摘要
視覺任務(wù)之間有關(guān)聯(lián)嗎?例如,表面法線可以簡化對圖像深度的估計嗎?直覺回答了這些問題,暗示了視覺任務(wù)中存在結(jié)構(gòu)。了解這種結(jié)構(gòu)具有顯著的價值;它是遷移學(xué)習(xí)的基本概念,提供了一種原則性的方法來識別任務(wù)之間的冗余。
我們提出了一種完全計算的可視化任務(wù)空間結(jié)構(gòu)建模方法。這是通過在潛在空間中的二十六個2D,2.5D,3D和語義任務(wù)的字典中查找(一階和更高階)傳遞學(xué)習(xí)依賴性來完成的。該產(chǎn)品是用于任務(wù)遷移學(xué)習(xí)的計算分類映射。我們研究這種結(jié)構(gòu)的結(jié)果,例如出現(xiàn)的非平凡關(guān)系,并利用它們來減少對標(biāo)記數(shù)據(jù)的需求。例如,我們展示了在保持性能幾乎相同的情況下,解決一組10個任務(wù)所需的標(biāo)記數(shù)據(jù)點的總數(shù)可以減少大約2/3(與獨立訓(xùn)練相比)。我們提供了一組用于計算和探測這種分類結(jié)構(gòu)的工具,包括一個解決程序,用戶可以使用它來為他們的用例設(shè)計有效的監(jiān)督策略。
概覽
自現(xiàn)代計算機(jī)科學(xué)的早期以來,許多研究人員就斷言視覺任務(wù)之間存在一個結(jié)構(gòu)?,F(xiàn)在Amir Zamir和他的團(tuán)隊試圖找到這個結(jié)構(gòu)。他們使用完全計算的方法建模,并發(fā)現(xiàn)不同可視化任務(wù)之間的許多有用關(guān)系,包括一些重要的任務(wù)。他們還表明,通過利用這些相互依賴性,可以實現(xiàn)相同的模型性能,標(biāo)記數(shù)據(jù)要求大約減少2/3。
核心思想
了解不同可視化任務(wù)之間關(guān)系的模型需要更少的監(jiān)督、更少的計算和更可預(yù)測的行為。
一種完整的計算方法來發(fā)現(xiàn)視覺任務(wù)之間的關(guān)系是可取的,因為它避免了強(qiáng)加的、可能是不正確的假設(shè):先驗來自于人類的直覺或分析知識,而神經(jīng)網(wǎng)絡(luò)可能在不同的原理上運作。
最重要的成果
識別26個常見視覺任務(wù)之間的關(guān)系,如目標(biāo)識別、深度估計、邊緣檢測和姿態(tài)估計。
展示這個結(jié)構(gòu)如何幫助發(fā)現(xiàn)對每個視覺任務(wù)最有效的遷移學(xué)習(xí)類型。
AI社區(qū)的評價
該論文在計算機(jī)視覺與模式識別重要會議CVPR 2018上獲得了最佳論文獎。
結(jié)果非常重要,因為對于大多數(shù)實際任務(wù),大規(guī)模標(biāo)記數(shù)據(jù)集不可用。
未來研究方向
從一般的視覺任務(wù)完全由人類定義的模型,轉(zhuǎn)向?qū)⑷祟惗x的視覺任務(wù)視為由計算發(fā)現(xiàn)的潛在子任務(wù)組成的觀察樣本的方法。
探索將發(fā)現(xiàn)轉(zhuǎn)化為不完全是視覺任務(wù)的可能性。
可能的應(yīng)用
在本文中發(fā)現(xiàn)的關(guān)系可以用來構(gòu)建更有效的視覺系統(tǒng),這個系統(tǒng)將需要更少的標(biāo)記數(shù)據(jù)和更低的計算成本。
代碼
https://github.com/StanfordVL/taskonomy/tree/master/taskbank
6、自注意力生成對抗網(wǎng)絡(luò)
標(biāo)題:Self-Attention Generative Adversarial Networks
作者:Han Zhang, Ian Goodfellow, Dimitris Metaxas, Augustus Odena
https://arxiv.org/abs/1805.08318
論文摘要
在這篇論文中,我們提出了自注意力生成對抗網(wǎng)絡(luò)(SAGAN),它允許對圖像生成任務(wù)進(jìn)行注意力驅(qū)動、長期依賴關(guān)系建模。
在低分辨率特征圖中,傳統(tǒng)的卷積GAN只根據(jù)空間局部點生成高分辨率細(xì)節(jié)。在SAGAN中,可以使用來自所有特征位置的線索生成細(xì)節(jié)。此外,該鑒別器還可以檢查圖像中較遠(yuǎn)部分的細(xì)節(jié)特征是否一致。
最近的研究表明,生成器的調(diào)節(jié)會影響GAN的性能。利用這一點,我們將頻譜歸一化應(yīng)用于GAN發(fā)生器,并發(fā)現(xiàn)這改善了訓(xùn)練的動態(tài)性。
在具有挑戰(zhàn)性的ImageNet數(shù)據(jù)集上,提出的SAGAN實現(xiàn)了最佳的結(jié)果,將最佳Inception分?jǐn)?shù)從36.8提高到52.52,并將Frechet Inception距離從27.62降低到18.65。注意力層的可視化顯示,生成器利用的是與對象形狀對應(yīng)的鄰域,而不是固定形狀的局部區(qū)域。
概要總結(jié)
傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)在圖像合成方面顯示了較為優(yōu)秀的結(jié)果。然而,它們至少有一個重要的弱點——單獨的卷積層無法捕捉圖像中的幾何和結(jié)構(gòu)模式。由于卷積是一種局部操作,所以左上方的輸出幾乎不可能與右下方的輸出有任何關(guān)系。
本文介紹了一個簡單的解決方案 - 將自注意力機(jī)制納入GAN框架。 該解決方案與幾種穩(wěn)定技術(shù)相結(jié)合,有助于自注意力生成對抗網(wǎng)絡(luò)(SAGAN)在圖像合成中實現(xiàn)最佳的結(jié)果。
核心思想
單獨的卷積層在計算圖像中的長程依賴關(guān)系計算時效率低。相反,將自注意機(jī)制融入到GAN框架中,將使生成器和鑒別器都能夠有效地建模廣泛分離的空間區(qū)域之間的關(guān)系。
自注意力模塊將一個位置的響應(yīng)計算為所有位置特征的加權(quán)和。
以下技術(shù)有助于在具有挑戰(zhàn)性的數(shù)據(jù)集上穩(wěn)定GAN的訓(xùn)練:
對發(fā)生器和鑒別器應(yīng)用光譜歸一化。研究人員認(rèn)為,鑒別器和發(fā)生器都能從光譜歸一化中受益,因為它可以防止參數(shù)幅度的增大,避免異常梯度。
對發(fā)生器和鑒別器使用單獨的學(xué)習(xí)速率來補(bǔ)償正則化鑒別器中慢學(xué)習(xí)的問題,并使每個鑒別器步驟使用更少的發(fā)生器步驟成為可能。
最重要的成果
事實上,將自注意力模塊合并到GAN框架中可以有效地建模長期依賴關(guān)系。
驗證了所提出的穩(wěn)定化技術(shù)在GAN訓(xùn)練中的有效性。特別是表明:
應(yīng)用于生成器的頻譜歸一化穩(wěn)定了GAN訓(xùn)練;
利用不均衡的學(xué)習(xí)速率可以加快正規(guī)化鑒別器的訓(xùn)練。
通過將Inception的分?jǐn)?shù)從36.8提高到52.52,并將Frechet Inception的距離從27.62降低到18.65,從而在圖像合成方面獲得最先進(jìn)的結(jié)果。
AI社區(qū)的評價
威斯康星大學(xué)麥迪遜分校統(tǒng)計學(xué)助理Sebastian Raschka教授表示:“這個想法簡單直觀,卻非常有效,而且易于實施?!?/p>
未來研究方向
探索減少GAN產(chǎn)生的奇怪樣本數(shù)量的可能性
可能的應(yīng)用
使用GAN進(jìn)行圖像合成可以替代用于廣告和電子商務(wù)目的的昂貴手工媒體創(chuàng)建。
代碼
GitHub上提供了自注意力GAN的PyTorch和TensorFlow實現(xiàn)。
PyTorch:
https://github.com/heykeetae/Self-Attention-GAN
TensorFlow:
https://github.com/brain-research/self-attention-gan
7、GANimation
標(biāo)題:從單個圖像中獲取具有人臉解剖結(jié)構(gòu)的面部動畫
作者:Albert Pumarola, Antonio Agudo, Aleix M. Martinez, Alberto Sanfeliu, Francesc Moreno-Noguer
https://arxiv.org/abs/1807.09251
論文摘要
若是能單憑一張圖像就能自動地將面部表情生成動畫,那么將會為其它領(lǐng)域中的新應(yīng)用打開大門,包括電影行業(yè)、攝影技術(shù)、時尚和電子商務(wù)等等。隨著生成網(wǎng)絡(luò)和對抗網(wǎng)絡(luò)的流行,這項任務(wù)取得了重大進(jìn)展。像StarGAN這樣的結(jié)構(gòu)不僅能夠合成新表情,還能改變面部的其他屬性,如年齡、發(fā)色或性別。雖然StarGAN具有通用性,但它只能在離散的屬性中改變面部的一個特定方面,例如在面部表情合成任務(wù)中,對RaFD數(shù)據(jù)集進(jìn)行訓(xùn)練,該數(shù)據(jù)集只有8個面部表情的二元標(biāo)簽(binary label),分別是悲傷、中立、憤怒、輕蔑、厭惡、驚訝、恐懼和快樂。
為達(dá)到這個目的,我們使用EmotioNet數(shù)據(jù)集,它包含100萬張面部表情(使用其中的20萬張)圖像。并且構(gòu)建了一個GAN體系結(jié)構(gòu),其條件是一個一維向量:表示存在/缺失以及每個動作單元的大小。我們以一種無監(jiān)督的方式訓(xùn)練這個結(jié)構(gòu),僅需使用激活的AUs圖像。為了避免在不同表情下,對同一個人的圖像進(jìn)行訓(xùn)練時出現(xiàn)冗余現(xiàn)象,將該任務(wù)分為兩個階段。首先,給定一張訓(xùn)練照片,考慮一個基于AU條件的雙向?qū)菇Y(jié)構(gòu),并在期望的表情下呈現(xiàn)一張新圖像。然后將合成的圖像還原到原始的樣子,這樣可以直接與輸入圖像進(jìn)行比較,并結(jié)合損失來評估生成圖像的照片級真實感。此外,該系統(tǒng)還超越了最先進(jìn)的技術(shù),因為它可以在不斷變化的背景和照明條件下處理圖像。
概要總結(jié)
本文介紹了一種新的GAN模型,該模型能夠在不斷變化的背景和光照條件下,從單個圖像生成具有解剖學(xué)感知的面部動畫。而在此之前,只能解決離散情感類編輯和人像圖像的問題。該方法通過將面部變形編碼為動作單元來呈現(xiàn)多種情緒。即使在具有挑戰(zhàn)性的光照條件和背景,得到的動畫演示了一個非常平滑和一致的轉(zhuǎn)換幀。
核心思想
面部表情可以用動作單元(AU)來描述,其在解剖學(xué)上描述特定面部肌肉的收縮。 例如,“恐懼”的面部表情通常通過以下激活產(chǎn)生:Inner Brow Raiser(AU1),Outer Brow Raiser(AU2),Brow Lowerer(AU4),Upper Lid Raiser(AU5),Lid Tightener(AU7) ,Lip Stretcher(AU20)和Jaw Drop(AU26)。 每個AU的大小定義了情緒的程度。
合成人臉動畫的模型是基于GAN架構(gòu)的,它以一維向量為條件,表示每個動作單元的存在/不存在和大小。
為了避免同一人在不同表情下的訓(xùn)練圖像對的需要,使用雙向發(fā)生器將圖像轉(zhuǎn)換成所需的表情,并將合成的圖像轉(zhuǎn)換回原始姿態(tài)。
為了在不斷變化的背景和光照條件下處理圖像,該模型包括一個注意力層,該注意力層只將網(wǎng)絡(luò)的動作集中在圖像中與表達(dá)新表情相關(guān)的區(qū)域。
最重要的成果
引入一種全新的GAN模型用于野外人臉動畫,該模型可以在完全無監(jiān)督的情況下進(jìn)行訓(xùn)練,并在具有挑戰(zhàn)性的光照條件和非真實世界數(shù)據(jù)的情況下,通過幀間非常平滑和一致的轉(zhuǎn)換生成具有視覺吸引力的圖像。
演示如何通過在GAN已經(jīng)看到的情緒之間進(jìn)行插值來生成更豐富的情緒。
AI社區(qū)的評價
該論文在歐洲計算機(jī)視覺會議(ECCV 2018)上獲得了榮譽(yù)獎。
未來研究方向
將該方法應(yīng)用于視頻序列。
可能的應(yīng)用
這項技術(shù)可以從一張圖片中自動生成面部表情動畫,可以應(yīng)用于時尚界和電子商務(wù)、電影行業(yè)、攝影技術(shù)等多個領(lǐng)域。
代碼
作者提供了本研究論文在GitHub上的原始實現(xiàn)地址:
https://github.com/albertpumarola/GANimation
8、視頻到視頻的合成
標(biāo)題:視頻到視頻的合成Video-to-Video Synthesis
作者:Ting-Chun Wang, Ming-Yu Liu, Jun-Yan Zhu, Guilin Liu, Andrew Tao, Jan Kautz, Bryan Catanzaro
https://arxiv.org/abs/1808.06601
論文摘要
本文研究的問題是視頻到視頻(Video-to-Video)的合成,其目標(biāo)是學(xué)習(xí)一個映射函數(shù)從一個輸入源視頻(例如,語義分割掩碼序列)到一個輸出逼真的視頻,準(zhǔn)確地描述了源視頻的內(nèi)容。
與之對應(yīng)的圖像到圖像的合成問題是一個熱門話題,而視頻到視頻的合成問題在文獻(xiàn)中研究較少。在不了解時間動態(tài)的情況下,直接將現(xiàn)有的圖像合成方法應(yīng)用于輸入視頻往往會導(dǎo)致視頻在時間上不連貫,視覺質(zhì)量低下。
本文提出了一種在生成對抗學(xué)習(xí)框架下的視頻合成方法。通過精心設(shè)計的生成器和鑒別器架構(gòu),再加上時空對抗目標(biāo),可以在一組不同的輸入格式(包括分割掩碼、草圖和姿勢)上獲得高分辨率、逼真的、時間相干的視頻結(jié)果。
在多個基準(zhǔn)上的實驗表明,與強(qiáng)基線相比,本文的方法具有優(yōu)勢。特別是該模型能夠合成長達(dá)30秒的街道場景的2K分辨率視頻,大大提高了視頻合成的技術(shù)水平。最后,將該方法應(yīng)用于未來的視頻預(yù)測,表現(xiàn)優(yōu)于幾個最先進(jìn)的系統(tǒng)。
概要總結(jié)
英偉達(dá)的研究人員引入了一種新的視頻合成方法。該框架基于條件甘斯。具體地說,該方法將精心設(shè)計的發(fā)生器和鑒別器與時空對抗性目標(biāo)相結(jié)合。實驗表明,所提出的vid2vid方法可以在不同的輸入格式(包括分割掩碼、草圖和姿勢)上合成高分辨率、逼真、時間相干的視頻。它還可以預(yù)測下一幀,其結(jié)果遠(yuǎn)遠(yuǎn)優(yōu)于基線模型。
核心思想
視頻幀可以按順序生成,每個幀的生成只取決于三個因素:
電流源幀;
之前的兩個源幀;
之前兩個生成的幀。
使用多個鑒別器可以緩解GAN訓(xùn)練過程中的模式崩潰問題:
條件圖像鑒別器確保每個輸出幀類似于給定相同源圖像的真實圖像;
條件視頻鑒別器確保連續(xù)輸出幀類似于給定相同光流的真實視頻的時間動態(tài)。
在生成器設(shè)計中,前背景先驗進(jìn)一步提高了模型的綜合性能。
使用軟遮擋掩碼代替二進(jìn)制可以更好地處理“放大”場景:我們可以通過逐漸混合扭曲像素和新合成像素來添加細(xì)節(jié)。
最重要的成果
在視頻合成方面優(yōu)于強(qiáng)基線:
生成高分辨率(2048х2048)、逼真、時間相干視頻30秒;
根據(jù)采樣不同的特征向量,輸出多個具有不同視覺外觀的視頻。
在未來的視頻預(yù)測中優(yōu)于基線模型:
開源了一個PyTorch技術(shù)的實現(xiàn)。此代碼可用于:
將語義標(biāo)簽轉(zhuǎn)換為現(xiàn)實世界的視頻;
從邊緣映射生成正在說話的人的多個輸出;
在給定的姿勢下生成整個人體。
AI社區(qū)的評價
藝術(shù)家兼程序員吉恩·科根(Gene Kogan)說:“英偉達(dá)的新vid2vid是第一個開源代碼,它可以讓你從一個源視頻中令人信服地偽造任何人的臉?!?/p>
這篇論文也受到了一些批評,因為有人擔(dān)心它可能被用來制作深度偽造或篡改的視頻,從而欺騙人們。
未來研究方向
使用對象跟蹤信息,確保每個對象在整個視頻中具有一致的外觀。
研究是否使用較粗糙的語義標(biāo)簽訓(xùn)練模型將有助于減少在語義操縱之后出現(xiàn)的可見偽像(例如,將樹木變成建筑物)。
添加額外的3D線索,如深度地圖,以支持汽車轉(zhuǎn)彎的合成。
可能的應(yīng)用
市場營銷和廣告可以從vid2vid方法創(chuàng)造的機(jī)會中獲益(例如,在視頻中替換面部甚至整個身體)。然而,這應(yīng)該謹(jǐn)慎使用,需要想到道德倫理方面的一些顧慮。
代碼
英偉達(dá)團(tuán)隊提供了本研究論文在GitHub上的原始實現(xiàn)的代碼:
https://github.com/NVIDIA/vid2vid
9、人人來跳舞
標(biāo)題:人人都在跳舞
作者:Caroline Chan, Shiry Ginosar, Tinghui Zhou, Alexei A. Efros
https://arxiv.org/abs/1808.07371
論文摘要
本文提出了一種簡單的“按我做”的動作轉(zhuǎn)移方法:給定一個人跳舞的源視頻,我們可以在目標(biāo)對象執(zhí)行標(biāo)準(zhǔn)動作幾分鐘后將該表演轉(zhuǎn)換為一個新的(業(yè)余)目標(biāo)。
本文提出這個問題作為每幀圖像到圖像的轉(zhuǎn)換與時空平滑。利用位姿檢測作為源和目標(biāo)之間的中間表示,我們調(diào)整這個設(shè)置為時間相干視頻生成,包括現(xiàn)實的人臉合成。學(xué)習(xí)了從位姿圖像到目標(biāo)對象外觀的映射。視頻演示可以在https://youtu.be/PCBTZh41Ris找到。
概要總結(jié)
加州大學(xué)伯克利分校的研究人員提出了一種簡單的方法,可以讓業(yè)余舞蹈演員像專業(yè)舞蹈演員一樣表演,從而生成視頻。如果你想?yún)⒓舆@個實驗,你所需要做的就是錄下你自己表演一些標(biāo)準(zhǔn)動作的幾分鐘的視頻,然后拿起你想要重復(fù)的舞蹈的視頻。
神經(jīng)網(wǎng)絡(luò)將完成主要工作:它將問題解決為具有時空平滑的每幀圖像到圖像的轉(zhuǎn)換。通過將每幀上的預(yù)測調(diào)整為前一時間步長的預(yù)測以獲得時間平滑度并應(yīng)用專門的GAN進(jìn)行逼真的面部合成,該方法實現(xiàn)了非常驚人的結(jié)果。
核心思想
“跟我做”動傳遞被視為每幀圖像到圖像的平移,姿勢棒圖作為源和目標(biāo)之間的中間表示:
預(yù)先訓(xùn)練的最先進(jìn)的姿勢檢測器根據(jù)源視頻創(chuàng)建姿勢棒圖;
應(yīng)用全局姿勢標(biāo)準(zhǔn)化來解釋框架內(nèi)的體形和位置中的源和目標(biāo)主體之間的差異;
標(biāo)準(zhǔn)化的姿勢棒圖被映射到目標(biāo)對象。
為了使視頻流暢,研究人員建議在先前生成的幀上調(diào)節(jié)發(fā)生器,然后將兩個圖像提供給鑒別器。 姿勢關(guān)鍵點上的高斯平滑允許進(jìn)一步減少抖動。
為了生成更逼真的面部,該方法包括額外的面部特定GAN,其在主生成完成之后刷新面部。
最重要的成果
根據(jù)定性和定量評估,提出了一種優(yōu)于強(qiáng)基線(pix2pixHD)的運動傳輸新方法。
演示特定于人臉的GAN為輸出視頻添加了相當(dāng)多的細(xì)節(jié)。
AI社區(qū)的評價
谷歌大腦的技術(shù)人員湯姆·布朗(Tom Brown)說:“總的來說,我覺得這真的很有趣,而且執(zhí)行得很好。期待代碼的公布,這樣我就可以開始訓(xùn)練我的舞步了。”
Facebook人工智能研究工程師Soumith Chintala說:“卡洛琳·陳(Caroline Chan)、阿廖沙·埃夫羅斯(Alyosha Efros)和團(tuán)隊將舞蹈動作從一個主題轉(zhuǎn)移到另一個主題。只有這樣我才能跳得好。了不起的工作! ! !”
未來研究方向
用時間相干的輸入和專門為運動傳輸優(yōu)化的表示來替換姿態(tài)棒圖。
可能的應(yīng)用
“跟我做”在制作營銷和宣傳視頻時,可能會應(yīng)用動作轉(zhuǎn)移來替換主題。
代碼
本研究論文的PyTorch實現(xiàn)可在GitHub上獲得:
https://github.com/nyoki-mtl/pytorch-EverybodyDanceNow
10、用于高保真自然圖像合成的大規(guī)模GAN訓(xùn)練
標(biāo)題:Large Scale GAN Training For High Fidelity Natural Image Synthesis
By Andrew Brock,Jeff Donahue,Karen Simonyan(2018)
https://arxiv.org/abs/1809.11096
論文摘要
盡管生成圖像建模最近取得了進(jìn)展,但從ImageNet等復(fù)雜數(shù)據(jù)集成功生成高分辨率、多樣化的樣本仍然是一個難以實現(xiàn)的目標(biāo)。為此,我們在最大的規(guī)模下進(jìn)行了生成對抗網(wǎng)絡(luò)的訓(xùn)練,并研究了這種規(guī)模下的不穩(wěn)定性。我們發(fā)現(xiàn),將正交正則化應(yīng)用于發(fā)生器,使其服從于一個簡單的“截斷技巧”,可以允許通過截斷潛在空間來精細(xì)控制樣本保真度和多樣性之間的權(quán)衡。我們的修改使得模型在類條件圖像合成中達(dá)到了新的技術(shù)水平。 當(dāng)我們在ImageNet上以128×128分辨率進(jìn)行訓(xùn)練時,我們的模型(BigGAN)的初始得分(IS)為166.3,F(xiàn)rechet初始距離(FID)為9.6。
概覽
DeepMind團(tuán)隊發(fā)現(xiàn),當(dāng)前的技術(shù)足以從現(xiàn)有數(shù)據(jù)集(如ImageNet和JFT-300M)合成高分辨率、多樣化的圖像。他們特別指出,生成對抗網(wǎng)絡(luò)(GANs)可以生成看起來非常逼真的圖像,如果它們在非常大的范圍內(nèi)進(jìn)行訓(xùn)練,即使用比以前實驗多2到4倍的參數(shù)和8倍的批處理大小。這些大規(guī)模的GAN,或BigGAN,是類條件圖像合成的最新技術(shù)。
核心思想
隨著批(batch)大小和參數(shù)數(shù)量的增加,GAN的性能更好。
將正交正則化應(yīng)用到生成器中,使模型響應(yīng)特定的技術(shù)(“截斷技巧”),該技術(shù)提供了對樣本保真度和多樣性之間的權(quán)衡的控制。
最重要的成果
證明GAN可以從scaling中獲益;
構(gòu)建允許顯式、細(xì)粒度地控制樣本多樣性和保真度之間權(quán)衡的模型;
發(fā)現(xiàn)大規(guī)模GAN的不穩(wěn)定性;
BigGAN在ImageNet上以128×128分辨率進(jìn)行訓(xùn)練:初始得分(IS)為166.3,之前的最佳IS為52.52;Frechet Inception Distance (FID)為9.6,之前最好的FID為18.65。
AI社區(qū)的評價
該論文正在為ICLR 2019做準(zhǔn)備;
自從Big Hub上線BigGAN發(fā)生器之后,來自世界各地的AI研究人員正在玩BigGAN,來生成狗,手表,比基尼圖像,蒙娜麗莎,海濱以及更多主題。
未來研究方向
遷移到更大的數(shù)據(jù)集以減少GAN穩(wěn)定性問題;
探索減少GAN產(chǎn)生的奇怪樣本數(shù)量的可能性。
可能的應(yīng)用
取代昂貴的手工媒體創(chuàng)作,用于廣告和電子商務(wù)的目的。
-
神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
42文章
4831瀏覽量
107224 -
計算機(jī)視覺
+關(guān)注
關(guān)注
9文章
1715瀏覽量
47541 -
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8546瀏覽量
136523
原文標(biāo)題:必讀!2018最具突破性計算機(jī)視覺論文Top 10
文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
深度解析計算機(jī)視覺的圖像分割技術(shù)
2018年以來最重要的10篇計算機(jī)視覺/圖像生成相關(guān)的研究
評論