來自瑞士蘇黎世聯(lián)邦理工學(xué)院的研究人員們提出了一種基于生成對抗網(wǎng)絡(luò)(GAN)的框架,可以以高畫質(zhì)壓縮圖像,并保證圖像尺寸降到最小。以下是論智對原論文的大致報道。

基于深度神經(jīng)網(wǎng)絡(luò)的圖像壓縮系統(tǒng)最近逐漸受到人們的關(guān)注。這些系統(tǒng)通常比目前由編碼解碼器驅(qū)動的系統(tǒng)(如BPG、WebP和JPEG2000)表現(xiàn)得好,除了能在自然圖像上實現(xiàn)更高的壓縮率之外,他們可以很容易地適應(yīng)特定目標(biāo)領(lǐng)域,例如立體圖像或醫(yī)學(xué)圖像,并且可以從壓縮版本中直接進(jìn)行高效地處理和索引。
然而,對于低于像素深度低于0.1bpp的圖像來說,這些算法仍會導(dǎo)致嚴(yán)重的畫質(zhì)下降。隨著比特率趨近于零,想呈現(xiàn)完整地圖像內(nèi)容就很困難,而且這樣會使峰值信噪比(PSNR)或多比例結(jié)構(gòu)相似性(MS-SSIM)等常見指標(biāo)將變得毫無意義,因為它們更傾向于精確地保留局部(高熵)結(jié)構(gòu),而不是保持總體的紋理。
為了進(jìn)一步提升深度圖像壓縮的質(zhì)量,開發(fā)超越PSNR和MS-SSIM的新指標(biāo)非常重要。其中重點(diǎn)關(guān)注的是對抗損失,最近的成果表明它能捕捉到全局的語義信息和局部紋理,產(chǎn)生強(qiáng)大的生成器,從而通過語義標(biāo)簽映射生成在視覺上吸引人的高分辨率圖像。
于是,來自蘇黎世聯(lián)邦理工學(xué)院的研究人員們提出并研究了基于生成對抗網(wǎng)絡(luò)(GAN)的針對極限壓縮圖像的框架,目標(biāo)是像素深度低于0.1bpp的圖像。他們提出了一個通用性的GAN公式,用于深度圖像壓縮,可以生成不同程度的圖像內(nèi)容。與先前的圖像壓縮工作相比,這次的生成器/解碼器在全分辨率的圖像上工作,并用多尺度鑒別器進(jìn)行訓(xùn)練。
研究人員對兩種操作模式進(jìn)行了分別研究:
全局生成壓縮(GC),保留圖像所有內(nèi)容,同時生成不同尺寸的結(jié)構(gòu),例如樹上的葉子或者某建筑物陽臺上的窗戶;
選擇性生成壓縮(SC),只通過語義標(biāo)簽映射生成圖像的部分內(nèi)容,同時以高還原度保留用戶指定區(qū)域。

上圖是研究人員所提出的壓縮網(wǎng)絡(luò)。E代表圖像x的編碼器,或者作為圖像s的語義標(biāo)簽映射。q將潛在的代碼w量化為w^。G是生成器,產(chǎn)生解壓縮的圖像x^,D是用于對抗訓(xùn)練的鑒別器。對于SC,F(xiàn)從s中提取特征,經(jīng)過二次采樣的熱圖乘以z^以分配空間位。
GC的典型應(yīng)用場景是帶寬受限的區(qū)域,在這種情況下用戶想盡可能保留完整的圖像,但沒有足夠的位數(shù)儲存原始像素,無法合成塊狀或模糊的斑點(diǎn),只能合成內(nèi)容。SC可以用于視頻場景,如果用戶想要完全保留視頻中的人物,但是看起來吸引人的合成背景能滿足我們的目的,即作為真實的背景。在GC操作模式下,圖像被轉(zhuǎn)換成比特流格式,并且用算數(shù)編碼進(jìn)行編碼。SC需要一個原圖的語義或?qū)嵗龢?biāo)簽映射,它們可以從語義或?qū)嵗指罹W(wǎng)絡(luò)得來(例如PSPNet或Mask R-CNN)。相比于編碼的成本,這種圖像壓縮的開銷是少的。另一方面,壓縮圖像的大小根據(jù)語義標(biāo)簽生成的區(qū)域按比例減少,通常也會降低儲存成本。
經(jīng)過綜合性的研究,在GC方面,研究人員提出的壓縮系統(tǒng)生成的圖像結(jié)果比BPG和基于自動編碼器的深度壓縮系統(tǒng)更好(BPG是目前最優(yōu)秀的壓縮算法)。尤其是從Cityscapes數(shù)據(jù)集中選取的街景圖片,用戶更喜歡本次系統(tǒng)生成的圖片,即使BPG使用的位數(shù)是我們的兩倍。據(jù)他們所知,這是第一個證明深度壓縮方法由于BPG的研究。
在SC操作模式中,該系統(tǒng)能將圖像中保留下來的內(nèi)容和合成內(nèi)容無縫銜接,即使被許多物體隔開的場景也很自然。利用這種分區(qū)域圖像生成的方法,圖像的像素深度減少了50%,但是沒有明顯降低圖像質(zhì)量。
結(jié)果對比
下面的表格展示了本文提出的方法的結(jié)果和最先進(jìn)的系統(tǒng)在Cityscapes數(shù)據(jù)集上的對比:

此次試驗結(jié)果要比BPG好,即使當(dāng)BPG使用的bpp數(shù)量是我們的兩倍也是如此。在本文中,系統(tǒng)在ADE20K數(shù)據(jù)集和Kodak壓縮基準(zhǔn)測試上獲得了相似的結(jié)果。
接著,研究人員用經(jīng)過預(yù)訓(xùn)練的PSPNet來測量保留的語義,結(jié)果如下:

與BPG相比,我們達(dá)到了較高的mIoU的值,利用語義進(jìn)行訓(xùn)練時這個值進(jìn)一步增加
將所提的方法與其他方法對比。同樣一張Kodak Image 13,用本文所提出的方法壓縮與BPG、JPEG2000等方法效果非常不同:

在選擇性合成方面,該方法可以選擇性地保留一部分內(nèi)容,將剩下的部分重新合成。

左下角的熱圖顯示了合成對象,灰色是合成的部分。同時還顯示了每張圖的bpp,以及由于選擇性生成節(jié)省的尺寸
-
神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
42文章
4830瀏覽量
106947 -
GaN
+關(guān)注
關(guān)注
21文章
2343瀏覽量
79382
原文標(biāo)題:基于GAN的極限圖像壓縮框架
文章出處:【微信號:jqr_AI,微信公眾號:論智】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
圖像生成對抗生成網(wǎng)絡(luò)gan_GAN生成汽車圖像 精選資料推薦
圖像生成對抗生成網(wǎng)絡(luò)
生成對抗網(wǎng)絡(luò)模型綜述
生成對抗網(wǎng)絡(luò)GAN,正在成為新的“深度學(xué)習(xí)”
生成對抗網(wǎng)絡(luò)在計算機(jī)視覺領(lǐng)域有什么應(yīng)用
如何使用生成對抗網(wǎng)絡(luò)進(jìn)行信息隱藏方案資料說明
如何使用深度殘差生成對抗網(wǎng)絡(luò)設(shè)計醫(yī)學(xué)影像超分辨率算法
必讀!生成對抗網(wǎng)絡(luò)GAN論文TOP 10
生成對抗網(wǎng)絡(luò)與其他生成模型之間的權(quán)衡取舍是什么?
基于密集卷積生成對抗網(wǎng)絡(luò)的圖像修復(fù)方法
GAN:生成對抗網(wǎng)絡(luò) Generative Adversarial Networks
生成對抗網(wǎng)絡(luò)GAN的七大開放性問題
PyTorch教程20.2之深度卷積生成對抗網(wǎng)絡(luò)

基于生成對抗網(wǎng)絡(luò)(GAN)的框架
評論