基于圖像的數(shù)據(jù)增強方法發(fā)展現(xiàn)狀綜述
摘要:
摘要: 現(xiàn)階段,基于深度學習的圖像處理和識別技術已經(jīng)發(fā)展的十分成熟,但在某些圖像識別任務中由于深度學習技術的特點,一些深度神經(jīng)網(wǎng)絡模型層數(shù)較多導致的學習能力較強,將圖像數(shù)據(jù)樣本中的特征學習的過于充分,使得神經(jīng)網(wǎng)絡模型在訓練數(shù)據(jù)上出現(xiàn)過擬合現(xiàn)象。同時,基于深度學習的圖像處理算法訓練的模型的好壞與數(shù)據(jù)集的質(zhì)量、規(guī)模息息相關,但由于客觀原因存在獲得的圖像數(shù)據(jù)集小、圖像質(zhì)量差,樣本分布不均衡等現(xiàn)象。針對上述問題,研究人員提出通過使用圖像數(shù)據(jù)增強技術實現(xiàn)對模型的輸入數(shù)據(jù)的規(guī)模、質(zhì)量和分布情況進行優(yōu)化,將數(shù)據(jù)增強后的數(shù)據(jù)集用于深度學習模型將有效降低出現(xiàn)過擬合現(xiàn)象的概率。本文的主要工作是對現(xiàn)有的圖像數(shù)據(jù)增強技術進行討論,從傳統(tǒng)圖像處理方法和基于深度學習數(shù)據(jù)增強方法兩方面進行梳理總結,其中傳統(tǒng)圖像處理方法有幾何變換、顏色變換和像素變換;基于機器學習的圖像數(shù)據(jù)增強方法有自動數(shù)據(jù)增強方法、基于生成對抗網(wǎng)絡數(shù)據(jù)增強方法和基于自動編碼器和生成對抗網(wǎng)絡組合的數(shù)據(jù)增強方法。本文著重對圖像融合、信息刪除以及基于生成對抗網(wǎng)絡的圖像數(shù)據(jù)增強方法等技術進行介紹,并且對文中提出的數(shù)據(jù)增強方法的思想及其優(yōu)缺點進行討論,為研究人員在不同圖像任務中利用對應的數(shù)據(jù)增強方法來優(yōu)化數(shù)據(jù)集從而提高模型準確率提供研究思路。
1. 引言
隨著人工智能技術的不斷發(fā)展,基于深度學習的圖像處理技術愈發(fā)成熟,應用也越來越廣泛。由數(shù)據(jù)集驅(qū)動的人工智能技術訓練的模型往往需要巨大規(guī)模的數(shù)據(jù)集,但由于時間成本和金錢成本的限制,可能常會遇到圖像數(shù)量少、圖像質(zhì)量差和類別不均衡 [1] 的情形,這給圖像識別任務帶來種種困難,數(shù)據(jù)集中圖像的質(zhì)量和數(shù)量極大的影響了深度學習模型的泛化能力。由于深度學習網(wǎng)絡模型有著極強的學習能力,模型可能經(jīng)常會將圖像數(shù)據(jù)集上數(shù)據(jù)的一般特征提取出來作為預測某一類結果的特性,這往往會導致模型在訓練集上會預測出很好的結果,而在測試集以及驗證集上的有較高的錯誤率,模型的泛化能力低 [2]。
基于圖像的數(shù)據(jù)增強能夠增加訓練樣本的多樣性,如通過翻轉(zhuǎn)、添加噪聲等基礎圖像處理操作或根據(jù)現(xiàn)有數(shù)據(jù)生成新的樣本進行數(shù)據(jù)集擴充、數(shù)據(jù)質(zhì)量的增強。使用數(shù)據(jù)增強方法后的數(shù)據(jù)集訓練模型,以達到提升模型的穩(wěn)健性、泛化能力的效果。
本文主要研究了基于圖像的數(shù)據(jù)增強技術,并對其進行歸類整理,著重介紹各類技術的特點及其解決的問題,對其存在的不足進行分析。對圖像數(shù)據(jù)增強技術待解決問題進行總結,為相關研究人員提供詳盡的技術發(fā)展狀況報告。
2. 圖像數(shù)據(jù)增強概述
2.1. 數(shù)據(jù)增強
數(shù)據(jù)增強,也叫數(shù)據(jù)增廣。數(shù)據(jù)增強方法的本質(zhì)實際上是在現(xiàn)有的有限數(shù)據(jù)的基礎上,在不實際收集更多數(shù)據(jù)的前提下,而讓數(shù)據(jù)產(chǎn)生等價于更大數(shù)據(jù)量的價值,即根據(jù)現(xiàn)有數(shù)據(jù)樣本按照規(guī)則生成增量數(shù)據(jù)的過程。數(shù)據(jù)增強方法不僅是數(shù)據(jù)樣本量的增多,更多的是數(shù)據(jù)本身特征的“增強”。樣本數(shù)據(jù)是整體數(shù)據(jù)的抽樣,當樣本數(shù)據(jù)量足夠大時,樣本的分布情況和總體的分布情況應相似。但由于客觀原因收集的樣本數(shù)據(jù)不夠完整,這時則可通過數(shù)據(jù)增強方法生成與真實數(shù)據(jù)分布更加相似的新樣本的數(shù)據(jù);深度學習網(wǎng)絡模型擁有極強的學習能力,因此學習到的一些無用的信息特征對最終的結果會產(chǎn)生負面影響,而數(shù)據(jù)增強技術可實現(xiàn)按照需求針對數(shù)據(jù)施加約束來增加先驗知識的前置過程,如將一些信息刪除或補全,來減少負面影響對處理圖像任務的模型性能的影響。
現(xiàn)階段數(shù)據(jù)增強方法的使用方式主要被分為兩種:離線增強和在線增強。離線增強是指對數(shù)據(jù)集執(zhí)行一次性轉(zhuǎn)換,該操作可成倍增加數(shù)據(jù)樣本的數(shù)量。使用數(shù)據(jù)增強方法產(chǎn)生的樣本數(shù)量為增強因子數(shù)與原始數(shù)據(jù)樣本量的乘積。離線增強由于一次性處理全部數(shù)據(jù)集,因此適用于較小的數(shù)據(jù)集。在線增強使在獲取批量的數(shù)據(jù)后就對其進行數(shù)據(jù)增強操作,隨后增強后的數(shù)據(jù)就被送入機器學習模型進行訓練,由于其批量處理的特性,因此一般適用于大數(shù)據(jù)集。
2.2. 基于圖像的數(shù)據(jù)增強的分類
數(shù)據(jù)增強方法主要有作用于圖像的和作用于文本的兩類,本文主要介紹基于圖像的數(shù)據(jù)增強方法 [3],根據(jù)是否使用機器學習技術,其被分為兩個部分進行討論:基于傳統(tǒng)圖像處理技術的圖像數(shù)據(jù)增強和基于機器學習的圖像數(shù)據(jù)增強技術,其中基于傳統(tǒng)圖像處理技術的圖像數(shù)據(jù)增強中將介紹針對圖像數(shù)據(jù)本身的幾何變換、色彩變換和像素變換?;跈C器學習的圖像數(shù)據(jù)增強技術將介紹自動數(shù)據(jù)增強技術、基于生成對抗網(wǎng)絡數(shù)據(jù)增強技術和基于自動編碼器和生成對抗網(wǎng)絡組合的數(shù)據(jù)增強方法,這些方法都是使用機器學習相關理論實現(xiàn)的圖像生成、圖像轉(zhuǎn)換模型。本文對于現(xiàn)有的圖像數(shù)據(jù)增強方法分類如圖1。
3. 傳統(tǒng)的圖像數(shù)據(jù)增強方法
傳統(tǒng)的圖像數(shù)據(jù)增強方法,通常使用圖像處理技術 [4] 來完成數(shù)據(jù)集的擴充和圖像質(zhì)量優(yōu)化,大致分為幾何變換、色彩變換、像素變換三大類。
3.1. 幾何變換
針對數(shù)據(jù)集進行空間幾何變換,常常會存在改變圖像原始的標簽信息或者增加一些不相關數(shù)據(jù)的情況,這稱之為不安全的轉(zhuǎn)換。例如對文字的識別任務中,對圖像進行翻轉(zhuǎn)操作是沒有意義的。但對于存在位置偏差的數(shù)據(jù)集,用幾何變換技術可以很好解決問題。但在真實情況下,訓練集與測試集的數(shù)據(jù)的差異十分復雜,除了移位旋轉(zhuǎn)等操作外,還包括其他復雜變換。因此幾何變換的應用范圍相對有限。
3.1.1. 圖像翻轉(zhuǎn)與旋轉(zhuǎn)
圖像翻轉(zhuǎn)操作包括對圖片進行垂直和水平翻轉(zhuǎn),其中垂直翻轉(zhuǎn)實現(xiàn)需要水平翻轉(zhuǎn)后再圖像進行180?旋轉(zhuǎn)處理,水平翻轉(zhuǎn)比垂直翻轉(zhuǎn)應用更為廣泛。這種技術的優(yōu)點是易于實現(xiàn),此外圖像翻轉(zhuǎn)在CIFAR-10數(shù)據(jù)集上具有較好的效果,但對文本識別的數(shù)據(jù)集,如MNIST,使用圖像翻轉(zhuǎn)會更改其標簽信息 [5]。
Figure 1. Classification of image data augmentation methods
圖1. 基于圖像的數(shù)據(jù)增強方法分類
進行圖像旋轉(zhuǎn)后得到的圖像與原始圖像的維數(shù)是否相同取決于圖像的旋轉(zhuǎn)度數(shù)以及原始圖像的形狀。當長方形的圖像旋轉(zhuǎn)180?或者正方形的圖像旋轉(zhuǎn)90?、180?、270?時,旋轉(zhuǎn)后的圖像與原始圖像能夠保持一致的維數(shù)。與圖像翻轉(zhuǎn)操作一樣,在特定的數(shù)據(jù)集上,例如文本識別數(shù)據(jù)集MNIST,其圖像變換的安全性取決于圖像的旋轉(zhuǎn)度數(shù),隨旋轉(zhuǎn)度數(shù)的增加,轉(zhuǎn)換后的圖片不在保留原標簽信息。
3.1.2. 圖像剪裁與縮放
圖像的隨機剪裁可視為從原始圖像上進行隨機抽樣,再將抽樣獲得的圖像數(shù)據(jù)樣本恢復為原始圖像大小。
圖像縮放分為向外縮放和向內(nèi)縮放。圖像縮放與圖像剪裁不同的是向外縮放會得到比原始圖像更大尺寸的圖像,再從中剪裁出與原始圖像大小相同的圖像,向內(nèi)縮放則縮小原始圖像的大小,并針對其超出邊界的部分進行填充操作從而獲得與原始圖像尺寸一致的圖像。
3.1.3. 圖像移位與邊緣填充
圖像移位是指不改變圖像的尺寸而將圖像在以坐標軸為移動參考進行橫軸和縱軸的移動,并針對邊緣部分進行填充處理。在進行了圖像移位操作后,大部分的圖像數(shù)據(jù)中對于圖像任務有用的部分將位于圖像的邊緣部分,因此深度學習模型在進行計算機視覺任務訓練時會將關注焦點轉(zhuǎn)移到任意位置,而不是僅僅針對圖像中心區(qū)域的學習,這種操作能夠有效的提高模型的魯棒性。
在對圖像數(shù)據(jù)樣本進行旋轉(zhuǎn)、移位、縮放等操作后,需要將變換后的圖像恢復到與原始圖像尺寸一致的大小,恢復的過程通過對于圖像的邊緣部分進行填充操作實現(xiàn)。常用的圖像填充方法包括:常數(shù)填充,使用常數(shù)值對圖像的邊緣部分進行填充,這種填充方式適用于單色背景的圖像數(shù);邊界值填充,在原始圖像邊界的外部填充原始圖像的邊界的像素值,此方法適用于短距離移位。
3.2. 色彩變換
3.2.1. 色彩空間
數(shù)字圖像數(shù)據(jù)通過使用長、寬和通道來表示數(shù)據(jù)。
常用的色彩空間包括:
1) 通過RGB通道的變化和疊加得到不同顏色的RGB色彩空間;
2) YUV色彩空間,其中Y表示亮度,UV表示色度;
3) HSV顏色模型,H表示色調(diào),S表示飽和度,V表示明暗程度。
此外還包括I1I2I3,L*a*b* [6] 和YcbCr [7],在這些顏色空間中,HSV顏色空間是直觀的,其組成部分可以很容易地與物理世界相關聯(lián) [8]。
在色彩通道上進行圖像亮度調(diào)節(jié)以及色度調(diào)劑是數(shù)據(jù)增強的一種有效方式。通常情況下,采集到的圖像數(shù)據(jù)的亮度覆蓋范圍不足,為達到深度學習對亮度魯棒性的基本要求,進行亮度轉(zhuǎn)換操作成為基于色彩空間的數(shù)據(jù)增強技術中最常用的一種方法。在圖像數(shù)據(jù)中,亮度偏暗的圖像,亮度方差也更小,從而整體的亮度范圍被壓縮。Gamma變換通過非線性變換將過亮或過暗的圖片進行調(diào)整。直方圖均衡化是更加高級的色彩空間增強方式,對對比度相近的圖像使用該技術可增強局部的對比度而不影響整體的對比度,這種方式對過亮或過暗的圖像數(shù)據(jù)能夠?qū)崿F(xiàn)有效的數(shù)據(jù)增強。
3.2.2. 色彩空間轉(zhuǎn)換
色彩空間轉(zhuǎn)換是色彩特征提取的一種非常有效的方式。不同的色彩空間表示形式雖各有特性,但由于其同構性,可以互相轉(zhuǎn)換。圖像通常位于三維RGB顏色空間中,但RGB顏色空間在感知上不均勻,顏色的接近度并不表示顏色相似性。色彩空間轉(zhuǎn)換通過將圖像在RGB、HSV、LAB等不同的顏色空間上轉(zhuǎn)換,使以不同的方式對每個分量進行加權,對于不同的數(shù)據(jù)集,通常需要選擇合適的顏色空間轉(zhuǎn)換來提高模型的性能。
色彩空間轉(zhuǎn)換的缺點除了會消耗大量內(nèi)存空間和時間,其也會產(chǎn)生不好的效果,例如人臉識別需要的關鍵信息使黑白黃,但若出現(xiàn)大量紅綠等顏色信息,則是不合理的。此外,顏色空間轉(zhuǎn)換的圖像增強效果是有限的,雖然比幾何變換更具多樣性,但不恰當?shù)氖褂每赡軙鼓P桶l(fā)生欠擬合。
Ze Lu等人 [9] 提出一種用于面部識別任務的色彩空間框架,提出色彩空間LuC1C2其通過比較RGB系數(shù)的顏色傳感器屬性選擇Lu亮度分量,通過RGB顏色空間的色度子空間和協(xié)方差分析來確定C1C2顏色分量的變換向量的方向。在AR、Georgia Tech、FRGC和LFW人臉圖像數(shù)據(jù)庫上實驗,確定了色彩空間LuC1C2具有更好的人臉識別性能。并且通過將LFW和FRGC數(shù)據(jù)庫上提取的LuC1C2顏色空間中的CNN特征與簡單的原始像素特征相結合,顯著提高面部驗證性能。
3.3. 像素變換
3.3.1. 噪聲
圖像噪聲是指在原始圖像上隨機疊加一些孤立的能夠引起較強的視覺效果像素點或像素塊,以擾亂圖像的可觀測信息,使其能夠更好的提高卷積神經(jīng)網(wǎng)絡模型的泛化能力。常見的噪聲有:椒鹽噪聲、高斯噪聲、Coarse Dropout、Simplex Noise Alpha、Frequency Noise Alpha。它們都是以不同的方式生成以不同數(shù)值填充的不同大小像素遮掩點,再與原圖混合,以擾亂原始圖像的一些特征。
3.3.2. 模糊
模糊的本質(zhì)上可視為對原始圖像進行卷積操作,常用的方法是高斯模糊,該方法服從的卷積核矩陣服從二維正態(tài)分布,以減少各像素點值的差異從而降低細節(jié)層次,使圖像數(shù)據(jù)的像素平滑化,達到模糊圖片的效果。模糊半徑越大,圖像就越模糊。
3.3.3. 圖像融合
圖像融合技術,通過求兩張圖像的像素值的均值將兩張圖片混合在一起,或者是隨機裁剪圖像并將裁剪后的圖像拼接在一起形成新圖像。當混合來自整個訓練集的圖像而不是僅來自同一類別的實例的圖像時,可以獲得更好的結果。圖像融合方法從人的視角看毫無意義,但從實驗的角度上觀察,確實能夠提升精度。
1) SMOTE [10]
采集到的數(shù)據(jù)集常存在的問題是樣本類別不平衡問題,樣本類別之間的較大差距會影響分類器的分類性能。SMOTE方法提出以小樣本類別合成新的樣本來解決樣本不平衡問題,該方法將提取的圖像特征映射到特征空間,確定好采樣倍率后,選取幾個最相鄰的樣本,從中隨機選取一個連線,并在連線上隨機選取一點作為新樣本點,重復至樣本均衡。杜金華 [11] 在研究中提出使用基于 SMOTE 算法的上采樣法分別對原始圖像數(shù)據(jù)集進行增強,實驗表明花崗石識別準確率有所提高。
2) MIXUP [12]
ERM方法會在各個類間形成明確的決策邊界,而Mixup方法是一種基于線性過渡的數(shù)據(jù)增強的方法,使用mixup能夠使得數(shù)據(jù)樣本之間像素點是漸變的,使樣本分類邊界模糊化,使得非0即1的預測變?yōu)檩^為平滑的預測效果,抑制模型在進行預測分類時的不穩(wěn)定性,增強模型的泛化能力。這種方法從訓練數(shù)據(jù)中隨機抽取兩條數(shù)據(jù)將抽取到的圖像數(shù)據(jù)的像素值進行符合Beat分布的融合比例的線性加權求和,同時將樣本對應的One-hot向量標簽也對應加權求和,預測生成的新樣本與加權求和后的標簽的損失,進行反向求導并更新參數(shù),同時抽取批量數(shù)據(jù)并進行隨機打散后進行加權求和。在CIFAR、 ImageNet圖像分類數(shù)據(jù)集語音數(shù)據(jù)集中使用該方法能夠?qū)崿F(xiàn)模型性能的提升,并且降低模型對不完整標簽的記憶。mixup方法盡管再在程上取得很好地效果,但缺乏理論支撐,且該方法需要較長的時間才能收斂出較好的結果。ERM方法與Mixup方法的對比如圖2所示。
Figure 2. Comparison of ERM and Mixup
圖2. ERM與Mixup對比
3) CUTMIX [13]
CutMix是一種改進的隨機擦除策略,隨機擦除用一塊矩形掩碼覆蓋原始圖像,實現(xiàn)擦除圖像上的一部分像素信息,但其缺點是減少了訓練圖像上的包含信息的像素比例,并且需要大量的計算,較為耗時。CutMix方法將隨機選中的區(qū)域填充其他圖像的補丁區(qū)域。這種方法與Mixup方法相比,改進了混合圖像后,人眼無法主觀辨別圖像標簽的情形。在擦除區(qū)域添加其他樣本信息,進一步增強模型定位能力。CutMix在CIFAR和ImageNet分類任務以及對ImageNet上的弱監(jiān)督的本地化任務領先于最新的數(shù)據(jù)增強策略,同時,在Pascal檢測和MS-COCO圖像字幕基準測試中獲得了性能提升。這種方法改進了針對輸入損壞及其模型失配檢測性能的模型魯棒性。
4) Sample Pairing [14]
Sample Pairing方法常用于圖像分類任務中的數(shù)據(jù)增強,該方法首先從訓練集中隨機選擇兩張圖片,與Mixup方法不同的是,隨機選擇圖像的方式是從訓練集中隨機抽取兩張圖片并分別進行基礎數(shù)據(jù)增強操作(如隨機翻轉(zhuǎn)等)處理后,再經(jīng)像素取平均值,最后疊加合成一個新的樣本。而標簽為原樣本標簽中的一種,理論上新樣本數(shù)量平方增加。這種方法能夠顯著提高所有測試數(shù)據(jù)集分類準確性。使用GoogleNet的ILSVRC 2012數(shù)據(jù)集的top-1錯誤率從33.5%降低到29.0%,而在CIFAR-10數(shù)據(jù)集中則從8.22%降低到6.93%。當訓練集中的樣本數(shù)量非常小時,SamplePairing技術大大提高了模型預測的準確性。因此該技術對于訓練數(shù)據(jù)量有限的任務(例如醫(yī)學成像任務)更有價值。SamplePairing方法實現(xiàn)簡單,效率大大增加,但缺少相應的理論支撐。
3.3.4. 信息刪除
1) 隨機擦除 [15]
隨機擦除方法與添加噪聲方法相似,通過隨機選取圖像中的矩形區(qū)域,并使用隨機像素值對其遮蓋。該技術可以很容易嵌入大部分卷積神經(jīng)網(wǎng)絡模型中。隨機擦除的好處在于迫使模型去學習有關圖像的更多描述性特征,從而防止過擬合某個特定視覺特征,確保網(wǎng)絡關注整個圖像,而不只是其中的一部分。隨機擦除的缺點是不一定會保留標簽(例如文本8->6)。Zhun Zhongy等人將隨機擦除方法用于圖像分類、物體檢測和人員重新識別任務,并通過該方法實現(xiàn)了性能的提升。使用隨機擦除方法進行大量實驗,在CIFAR、PASCAL VOC 2007、Fast-RCNN、re-ID、Market-1501、DukeMTMC-reID上表現(xiàn)出良好的效果。
2) CUTOUT [16]
與隨機擦除相似,Cutout是在圖像上的隨機位置使用一定大小的正方形path進行0-mask剪裁。蔣蕓等人提出了激活區(qū)域處理算法(Activation Region processing algorithm) [17] 并將其嵌入到CNN模型,對網(wǎng)絡卷積層的特征圖進行遮蓋處理,進一步提高模型的性能,降低過擬合的風險。該方法從卷積神經(jīng)網(wǎng)絡中提取出較為關鍵的局部特征的卷積層的素值最大的特征圖,對其上采樣后將像素值大于整個圖像素均值的像素點使用[0,1]的隨機噪聲進行遮蓋處理,輸入到下層網(wǎng)絡繼續(xù)訓練。算法在CIFAR和Fashion-MNIST數(shù)據(jù)集上得到更低的錯誤率。在不同的網(wǎng)絡結構RestNet-18、WRN-28-10、ResNext-8-64使用AR算法后,與未加任何遮擋的CNN模型相比,得到更低的錯誤率。隨機擦除、Cutout和GridMask方法的圖像增強效果如圖3所示。
Figure 3. Comparison of Rerasure, Cutout and GridMask
圖3. 隨機擦除、Cutout和GridMask對比
3) GRIDMASK [18]
Pengguang等人提出的GridMask的信息刪除方法平衡了刪除區(qū)域與保留區(qū)域的面積,其本質(zhì)是對圖像進行網(wǎng)格覆蓋,優(yōu)化了cutout和隨機擦除方法過度刪除問題,并保持圖像區(qū)域連續(xù),易于實現(xiàn)且快速靈活,與以前的方法相比,GridMask在各種數(shù)據(jù)集上得到更優(yōu)的效果,優(yōu)于所有以前的無監(jiān)督策略,包括AutoAugment [19] 提出的最佳組合策略。該方法可以用作數(shù)據(jù)擴增的新基準策略。
4. 基于深度學習的數(shù)據(jù)增強方法
在進行機器學習模型訓練的過程中,優(yōu)化模型的目標就是盡可能的實現(xiàn)模型的損失降低,因此為了完成這一優(yōu)化目標,往往需要大量的訓練數(shù)據(jù)作為支撐。傳統(tǒng)的數(shù)據(jù)增強技術依靠對現(xiàn)有數(shù)據(jù)集的微小調(diào)整,包括翻轉(zhuǎn)、旋轉(zhuǎn)和平移等調(diào)整方法,通過這些方法對數(shù)據(jù)集的調(diào)整,會產(chǎn)生大量具有微小的或者巨大差別的數(shù)據(jù)集,使用這種數(shù)據(jù)集的實驗方法將會把這些調(diào)整后的數(shù)據(jù)集視為與原始數(shù)據(jù)集不同的數(shù)據(jù),從而進行模型的訓練。數(shù)據(jù)增強的作用除了能夠增加訓練的樣本數(shù)量之外,提高模型的泛化能力之外,還可以通過增加噪聲數(shù)據(jù),從而提高模型的魯棒性。
除了傳統(tǒng)的數(shù)據(jù)增強技術以外,近年來,隨著機器學習的快速發(fā)展和廣泛應用,研究人員開始將機器學習技術用于數(shù)據(jù)增強領域的研究,并取得了一定科研成果。
4.1. 自動數(shù)據(jù)增強
從數(shù)據(jù)自身的特點出發(fā),搜索適合不同特點數(shù)據(jù)集的數(shù)據(jù)增強策略能夠從體系結構搜索的角度重新定義了一種數(shù)據(jù)增強的新模式。
谷歌大腦的研究人員提出了一種自動搜索合適的數(shù)據(jù)增強策略的方法(AutoAugment) [19],通過設計這種不改變深度學習的網(wǎng)絡架構的數(shù)據(jù)增強方法來實現(xiàn)具有更多不變性的數(shù)據(jù)增強策略,這種思想能夠避免對神經(jīng)網(wǎng)絡架構進行修改而從策略搜索的角度對模型的訓練過程進行性能上的優(yōu)化。該方法通過創(chuàng)建一個搜索空間用來保存數(shù)據(jù)增強策略,并針對不同的批量任務根據(jù)搜索算法從搜索空間中選擇合適的子策略,選擇的子策略能夠應用特定的圖像處理函數(shù)進行數(shù)據(jù)增強的操作,以使這樣訓練出的神經(jīng)網(wǎng)絡能獲得最佳的驗證準確率。該算法的性能接近不使用任何無標注樣本的半監(jiān)督學習方法。此外,該算法能夠?qū)崿F(xiàn)策略的遷移,將學習到的策略應用到其他類似的數(shù)據(jù)增強任務上,能夠得到較高的準確率,并且不需要在額外的數(shù)據(jù)上對預訓練的權重進行調(diào)整。該算法中使用強化學習作為搜索算法,并提出在搜索算法的方面能夠進一步研究,得到更好的實驗性能。但這種方法在簡化設置的情況下需要較長的訓練時間。
針對計算損耗巨大的問題,谷歌大腦的研究人員又提出了一種自動數(shù)據(jù)增強的方法,稱為RandAugmentation [20]。這種方法大大縮小了數(shù)據(jù)增強所產(chǎn)生的樣本空間,從而將數(shù)據(jù)增強的過程與深度學習模型的訓練過程集成起來,而不是將數(shù)據(jù)增強作為獨立的任務。該論文同時也證明了自動的選擇數(shù)據(jù)增強策略的方案通常是在規(guī)模較小的數(shù)據(jù)集上訓練參數(shù)量級較低的模型而實現(xiàn)的自動數(shù)據(jù)增強,在此基礎上再將搜索到的數(shù)據(jù)增強策略應用到大規(guī)模數(shù)據(jù)集上的方法不是最優(yōu)的 [20]。
自動數(shù)據(jù)增強是否或者何時需要作為一個單獨的搜索階段一直是困擾著研究人員,在該方面的突破也許能夠從根本上解決自動數(shù)據(jù)增強和模型的訓練過程之間的關系問題。此外
Yonggang Li等人 [21] 在2020年提出了一種新的數(shù)據(jù)增強技術,該論文提出了將可微分網(wǎng)絡架構搜索算法應用在數(shù)據(jù)增廣策略搜索任務上,該算法同樣針對AutoAugment中的昂貴計算導致AutoAugment方法在適用性上表現(xiàn)較差的問題。DADA算法提出通過Gumbel-Softmax將離散的數(shù)據(jù)增強策略選擇轉(zhuǎn)化為到一個可優(yōu)化的問題。
AutoAugment作為開創(chuàng)性的工作,提出了自動搜索策略用于數(shù)據(jù)增強,將策略的選擇過程視作一個組合優(yōu)化問題。但由于其需要消耗巨大的計算時間,導致其適用性較低,因此研究人員開始針對計算耗時問題提出不同的解決方案。除了上述的兩種針對Autoaugment的改進方法之外,還有Population Based Augmentation [22] 和Fast AutoAugment [23] 等方法。
4.2. 基于生成對抗網(wǎng)絡的數(shù)據(jù)增強方法
通過基于生成對抗網(wǎng)絡的生成建模的方式進行數(shù)據(jù)增強是現(xiàn)階段較為常用的手段。生成對抗網(wǎng)絡應用在數(shù)據(jù)增強任務上的思想主要是其通過生成新的訓練數(shù)據(jù)來擴充模型的訓練樣本,通過樣本空間的擴充實現(xiàn)圖像分類任務效果的提升。研究人員在原始生成對抗網(wǎng)絡框架的基礎上又提出了多種不同的改進方案,通過設計不同的神經(jīng)網(wǎng)絡架構和損失函數(shù)等手段不斷提升生成對抗網(wǎng)絡的變體的性能。
4.2.1. DCGAN
DCGAN [24] 嘗試將圖像領域應用廣泛的CNN與生成對抗網(wǎng)絡GAN結合起來,提出了Deep Convolutional GANs (DCGAN),在圖像分類任務上證明了其優(yōu)于其他無監(jiān)督算法。該算法的核心部分是對CNN架構進行了三處修改:(1) 使用卷積層替代了池化層。作者在GAN中的生成器中進行了此類修改,使得生成器能夠?qū)W習其自身空間的下采樣方式,而不是參數(shù)指定的下采樣方式。(2) 消除了卷積特征上的全連接層。作者嘗試將最高卷積特征分別直接連接到生成器和判別器的輸入和輸出。(3) 批量歸一化 [25]。使用批量標準化通過將輸入標準化以使零均值和單位方差為零來穩(wěn)定學習,并且能夠有效解決深度生成器的所有樣本坍塌到單點的問題。將該方法用到生成器的輸出層和判別器的輸入層會導致批量歸一化模型不穩(wěn)定問題,因此作者在剩余的所有層上都使用了批量歸一化的操作。DCGAN算法實現(xiàn)了CNN和GAN的結合,是一種有效的圖像生成模型,被廣泛的用于數(shù)據(jù)集樣本的生成。但使用該方法中,當訓練模型的時間較長時,仍然在部分模型中存在不穩(wěn)定的問題。
4.2.2. CycleGAN
CycleGAN [26] 作為圖像轉(zhuǎn)換領域的重要模型,可以實現(xiàn)樣本數(shù)據(jù)無需配對即可進行轉(zhuǎn)換,例如將一個名人轉(zhuǎn)換成一個卡通人物,這種圖像轉(zhuǎn)換的使用能夠?qū)颖緮?shù)據(jù)進行極大的擴充而保留原始圖像的輪廓。CycleGAN作為一種不對齊數(shù)據(jù)的圖像轉(zhuǎn)換方法現(xiàn)在被廣泛的用于圖像到圖像的轉(zhuǎn)換。
CycleGAN實際上是由兩個對稱的生成對抗網(wǎng)絡組成的環(huán)形網(wǎng)絡,將該模型與DCGAN進行比較后發(fā)現(xiàn),該模型能夠控制圖像生成,而DCGAN模型則輸入一個噪聲后輸出一張無法控制的圖片。CycleGAN的結構如圖4所示。
圖4. CycleGAN結構:(a) 該模型由兩個映射函數(shù)組成 G:X→YG:X→Y 和 F:Y→XF:Y→X,并包括兩個對抗判別器DY和DX,DY鼓勵G將X轉(zhuǎn)換為與Y無法區(qū)分的輸出,DX則鼓勵F將Y轉(zhuǎn)換為與X無法區(qū)分的輸出。為了進一步的將映射規(guī)范化,該模型定義了兩個“循環(huán)一致性損失”,這兩個損失函數(shù)保證了將一個域轉(zhuǎn)換為另一個域并再次轉(zhuǎn)換回來的時候,與原始的域盡可能保持一致。(b) 前向循環(huán)一致性損失: x→G(x)→F(G(x))≈xx→G(x)→F(G(x))≈x,(c) 反向循環(huán)一致性損失 y→F(y)→G(F(y))≈yy→F(y)→G(F(y))≈y [26]
4.2.3. Conditional GANs
2014年,Mehdi Mirza等人提出了Conditional GAN [27],論文中提出的模型不僅僅需要較高的逼真度而且需要在一定的條件約束下完成,由于其增加了條件約束,因此生成器和判別器的設計會發(fā)生較大的改變。通過根據(jù)附加信息對模型框架進行調(diào)整,可以用于指導數(shù)據(jù)的生成過程,這種根據(jù)條件生成數(shù)據(jù)的方式對于數(shù)據(jù)增強非常有效,研究人員在原始圖像上可以根據(jù)不同的需求條件生成增量數(shù)據(jù),并將增量數(shù)據(jù)應用到下游的神經(jīng)網(wǎng)絡模型中。Conditional GAN的結構如圖5所示。
Figure 5. The structure of Conditional GAN
圖5. Conditional GAN 的結構
盡管生成對抗網(wǎng)絡在生成圖像領域被廣泛的應用,但其訓練的不穩(wěn)定性,以及要求大量訓練數(shù)據(jù)的不適用性將導致其不同的變體方法在一些時候并不能有效的實現(xiàn)數(shù)據(jù)增強的任務。
4.3. 基于自動編碼器和生成對抗網(wǎng)絡組合的數(shù)據(jù)增強方法
自動編碼器通過將其網(wǎng)絡結構的一般用于編碼,獲得圖像的低維向量表示,將網(wǎng)絡結構的另一半用于解碼,獲得根據(jù)低維向量表示重新構造的圖像數(shù)據(jù),這種編碼解碼的方式能夠?qū)崿F(xiàn)訓練數(shù)據(jù)樣本和噪聲數(shù)據(jù)樣本的容量擴充,實現(xiàn)了利用數(shù)據(jù)增強技術提高神經(jīng)網(wǎng)絡的泛化能力和魯棒性。
在生成對抗網(wǎng)絡被廣泛應用到生成數(shù)據(jù)任務之后,研究人員開始提出生成對抗網(wǎng)絡與自動編碼器的結合形式,通過將變體的生成對抗網(wǎng)絡和變體的自動編碼器結合而形成一個通用的學習框架來生成細粒度類別的圖像,這種新穎的圖像生成方式同樣能夠有效的完成數(shù)據(jù)增強任務。Jianmin Bao等人 [28] 提出的CVAE-GAN通過將圖像建模為概率模型中圖像標簽和隱藏屬性的組合的形式。
CVAE-GAN首先使用編碼器將給定的訓練圖像數(shù)據(jù)和類別標簽編碼為符合給定概率分布的隱變量,再通過生成器將從隱變量中采樣得到的數(shù)據(jù)和對應的類別標簽生成圖像數(shù)據(jù),將該圖像數(shù)據(jù)輸入到分類器和判別器中從而輸入分類標簽和判別標簽,生成器和判別器構成了一個生成對抗網(wǎng)絡,其中生成器嘗試通過已經(jīng)學會了區(qū)分真實樣本和虛假樣本的判別器提供的的梯度來學習真實數(shù)據(jù)分布。作者還在其論文中證明了均值特征匹配也可以用于條件圖像生成任務中。CVAE-GAN方法能夠在多種圖像任務中取得較好的性能,包括圖像生成任務、圖像修復任務等,但在生成位置類別的樣本方面還存在一定的可探索性。
在自動編碼器和生成對抗網(wǎng)絡的組合應用方面,Yang He等人 [29] 提出了一種新穎的圖像生成方法,該方法可以被分類為一種隨機回歸方法,其學會了從單個條件輸入中產(chǎn)生多個不同的示例。這種方法與CVAE-GAN方法一樣結合了生成對抗網(wǎng)絡和自動編碼器的優(yōu)勢來完成圖像生成任務。這種新提出的算法通過使用隨機回歸公式為條件圖像生成任務提供了一種新穎的解決方案,該模型可以生成準確且多樣的樣本,并且可以穩(wěn)定地訓練并提供具有潛在向量表示形式的抽樣機制。該模型還應用了通道級別的dropout (channel-wise dropout),從改進網(wǎng)絡結構的角度提出解決多項選擇學習思想的方法。
將圖像生成技術用于數(shù)據(jù)增強任務的方法除了生成對抗網(wǎng)絡以及自動編碼器和生成對抗網(wǎng)絡的組合形式之外,研究人員還提出了一些其他的方法。Qifeng Chen等人 [30] 提出級聯(lián)優(yōu)化網(wǎng)絡(cascaded refinement networks, CRN),該模型將圖像生成任務轉(zhuǎn)化為回歸問題,該模型還證明了可以通過合適結構的前饋網(wǎng)絡合成圖像數(shù)據(jù),實現(xiàn)了將圖片無縫縮放到高分辨率,并在實驗中證明了模型的有效性。Justin Johnson等人 [31] 提出采用感知損失函數(shù)訓練前饋網(wǎng)絡進行圖像轉(zhuǎn)換的任務。模型通過訓練一個用于圖像轉(zhuǎn)換任務的前饋網(wǎng)絡,同時不需要進行像素級別的求差值操作而構造損失函數(shù)。使用感知損失函數(shù),從預訓練好的網(wǎng)絡中提取高級特征。該模型同樣在圖像轉(zhuǎn)換任務中取得了不錯的性能。
5. 總結
針對圖像數(shù)據(jù)集的數(shù)據(jù)增強技術可以分為兩種類型:對數(shù)據(jù)集進行變換操作達到擴充數(shù)據(jù)集的目的;對數(shù)據(jù)集進行過采樣或欠采樣達到樣本與真實分布相似效果。
隨著深度學習技術的不斷發(fā)展,應用于計算機視覺領域的深度模型也在不斷的被提出?;谏疃葘W習的數(shù)據(jù)增強技術主要從數(shù)據(jù)擴充的角度對模型進行性能上的提升,而不是改變深度模型的網(wǎng)絡結構?,F(xiàn)階段的傳統(tǒng)圖像數(shù)據(jù)增強和基于深度學習的數(shù)據(jù)增強技術都在不斷的發(fā)展和提出,將數(shù)據(jù)增強技術用于計算機視覺任務也正在成為學術研究的主流做法。傳統(tǒng)圖像處理方法有幾何變換、顏色變換和像素變換等,而基于深度學習的圖像數(shù)據(jù)增強技術主要包括:自動數(shù)據(jù)增強通過設計一種不改變深度網(wǎng)絡架構的數(shù)據(jù)增強方法來實現(xiàn)具有更多不變性的數(shù)據(jù)增強策略,通過創(chuàng)建一個搜索空間用來保存數(shù)據(jù)增強策略,并針對不同的任務根據(jù)搜索算法的運行進行適當子策略(例如剪裁、翻轉(zhuǎn))的選擇,從而實現(xiàn)自動數(shù)據(jù)增強的目的;而基于生成對抗網(wǎng)絡的數(shù)據(jù)增強主要是基于生成對抗網(wǎng)絡的機制進行生成器和判別器的設計,以及生成對抗網(wǎng)絡的算法框架的設計;而基于自動編碼器和生成對抗網(wǎng)絡組合形式的數(shù)據(jù)增強方法則是通過編碼器、解碼器、生成器和判別器的設計實現(xiàn)數(shù)據(jù)增強任務。本文總結了傳統(tǒng)圖像處理方法和基于深度學習數(shù)據(jù)增強方法兩方面技術,討論了不同圖像數(shù)據(jù)增強技術的優(yōu)缺點。
隨著深度學習技術的不斷革新,更多的深度模型將會被提出,而針對數(shù)據(jù)集優(yōu)化的數(shù)據(jù)增強技術也會隨之發(fā)展,未來研究人員將可能更多的通過改進基于深度學習的數(shù)據(jù)增強技術來適應模型算法的結構,實現(xiàn)模型試驗效果的提升。
審核編輯:湯梓紅
評論