谷歌今日發(fā)文介紹新型深度CNN模型——NIMA(Neural Image Assessment),它能以接近人類的水平判斷出哪張圖片最好看。
圖像質(zhì)量和美學(xué)的量化一直是圖像處理和計(jì)算機(jī)視覺長期存在的問題。技術(shù)質(zhì)量評(píng)估測量的是圖像在像素級(jí)別的損壞,例如噪聲、模糊、人為壓縮等等,而對(duì)藝術(shù)的評(píng)估是為了捕捉圖像中的情感和美麗在語義級(jí)別的特征。最近,用帶有標(biāo)記的數(shù)據(jù)訓(xùn)練的深度卷積神經(jīng)網(wǎng)絡(luò)(CNNs)已被用于解決特殊圖像(例如景觀)圖像質(zhì)量的主觀屬性。然而,這些方法通常簡單地將圖像分為低質(zhì)量和高質(zhì)量的兩類,范圍有些狹窄。為了得到更準(zhǔn)確的圖像質(zhì)量預(yù)測,我們提出的方法可以得不出同的預(yù)測評(píng)級(jí),更接近于真實(shí)的評(píng)級(jí),更適用于一般圖像。
在NIMA:Neural Image Assessment這篇論文中,我們介紹了一個(gè)深度卷積神經(jīng)網(wǎng)絡(luò),通過訓(xùn)練,它可以判斷哪些是用戶認(rèn)為技術(shù)精湛的圖片(technically),哪些是有吸引力的圖片(aesthetically)。正是有了最先進(jìn)的能夠識(shí)別物體的深度神經(jīng)網(wǎng)絡(luò),NIMA才能在此基礎(chǔ)上理解更多類別的物體,不論有什么變化。我們提出的網(wǎng)絡(luò)不僅能給圖像打一個(gè)靠譜的分?jǐn)?shù)、接近人類的感知水準(zhǔn),同時(shí)還能用于各種需要大量勞動(dòng)力和主觀任務(wù)中,例如智能照片編輯、優(yōu)化視覺質(zhì)量,或者在pipeline中發(fā)現(xiàn)視覺錯(cuò)誤。
背景
一般來說,圖像質(zhì)量評(píng)估可分為全參考和無參考兩種方法。如果作為參考的理想圖片可用,則就會(huì)使用諸如PSNR、SSIM等衡量圖像質(zhì)量的尺度。當(dāng)參考圖像不可用時(shí),無參考方法就會(huì)依靠統(tǒng)計(jì)模型來預(yù)測圖像質(zhì)量。這兩種方法的主要目標(biāo)是預(yù)測一個(gè)與人類感知十分相近的質(zhì)量分?jǐn)?shù)。在利用深度卷積神經(jīng)網(wǎng)絡(luò)對(duì)圖像質(zhì)量進(jìn)行評(píng)估時(shí),需要通過在與對(duì)象分類器相關(guān)的數(shù)據(jù)集上進(jìn)行訓(xùn)練(例如ImageNet),以初始化權(quán)重。然后對(duì)注釋數(shù)據(jù)進(jìn)行微調(diào),以進(jìn)行感知質(zhì)量評(píng)估任務(wù)。
NIMA
通常判斷一幅圖像是否有吸引力是將其分成高低兩種質(zhì)量。這忽略了一個(gè)事實(shí),即訓(xùn)練數(shù)據(jù)中的每個(gè)圖像都與人類評(píng)分的直方圖相關(guān)聯(lián),而非簡單的二分類。人類評(píng)價(jià)直方圖是評(píng)價(jià)圖像整體質(zhì)量的指標(biāo),也是所有打分者的平均數(shù)。而在我們的新方法中,NIMA模型不是簡單地將圖像分為高或低質(zhì)量,或者進(jìn)行回歸得到平均分,而是對(duì)任意給定的圖像產(chǎn)出評(píng)級(jí)分布——分?jǐn)?shù)從1到10,NIMA計(jì)算出各個(gè)分?jǐn)?shù)的可能性。這也與訓(xùn)練數(shù)據(jù)的來源相一致,并且當(dāng)與其他方法對(duì)比時(shí),我們的方法更勝一籌。
接著,就可以使用NIMA的向量分?jǐn)?shù)的各種功能按照吸引力排列圖像了。下面展示了利用NIMA排名的圖片,他們都來自AVA數(shù)據(jù)集。在測試中,AVA中的每張圖片都由200人共同評(píng)分,訓(xùn)練結(jié)束后,NIMA對(duì)這些圖片的美感排名與人類評(píng)分員的平均分?jǐn)?shù)非常接近。我們發(fā)現(xiàn)NIMA在其他數(shù)據(jù)集上表現(xiàn)同樣很出色,對(duì)圖像質(zhì)量的預(yù)測和人類接近。
AVA中帶有“風(fēng)景”標(biāo)簽的圖片排名。括號(hào)中是人類打分,括號(hào)外是NIMA的預(yù)測分?jǐn)?shù)
NIMA的分?jǐn)?shù)也可以比較經(jīng)過扭曲的圖片與原圖的質(zhì)量差別,以下是TID2013測試集的一部分,其中包含各種類型和級(jí)別的圖像失真。
圖像感知增強(qiáng)(Perceptual Image Enhancement)
正如我們?cè)诹硪黄撐闹兴岬降?,質(zhì)量和吸引力分?jǐn)?shù)也可以用來調(diào)整圖像增強(qiáng)operators。換句話說,將NIMA分?jǐn)?shù)最大化作為損失函數(shù)的一部分,能夠提升圖像增強(qiáng)的感知質(zhì)量。下圖中的例子表明,NIMA可以作為訓(xùn)練損失來調(diào)整色調(diào)增強(qiáng)算法。我們發(fā)現(xiàn)對(duì)美感的基準(zhǔn)評(píng)分可以通過NIMA的評(píng)分指導(dǎo)的對(duì)比調(diào)整來改善。因此,我們的模型能夠引導(dǎo)一個(gè)深度卷積神經(jīng)網(wǎng)絡(luò)濾波器,以找到參數(shù)中接近最佳設(shè)置的位置,例如亮度、高光和陰影。
用CNN和NIMA改變?cè)瓐D的色調(diào)和對(duì)比度
展望未來
NIMA的結(jié)果表明,基于機(jī)器學(xué)習(xí)的質(zhì)量評(píng)估模型可能用途非常廣泛。比如,我們可以讓用戶很輕易地找出最好的照片,甚至實(shí)現(xiàn)在用戶拍照時(shí)進(jìn)行實(shí)時(shí)反饋。在后期處理上,該模型可以產(chǎn)生更優(yōu)秀的結(jié)果。
簡單地說,NIMA以及其他類似的網(wǎng)絡(luò)可以滿足人類對(duì)圖像甚至視頻的審美,雖然還不夠完美,但已經(jīng)比較可行了。俗話說,蘿卜青菜各有所愛,每個(gè)人對(duì)一張照片的評(píng)價(jià)也各不相同,所以想要了解所有人的審美水平是非常困難的。但我們將繼續(xù)訓(xùn)練測試模型,期待有更多的成果。
-
神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
42文章
4814瀏覽量
103654 -
圖像處理
+關(guān)注
關(guān)注
27文章
1329瀏覽量
58069 -
計(jì)算機(jī)視覺
+關(guān)注
關(guān)注
9文章
1709瀏覽量
46782
原文標(biāo)題:谷歌發(fā)布NIMA,一個(gè)有品位的CNN模型
文章出處:【微信號(hào):jqr_AI,微信公眾號(hào):論智】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
從AlexNet到MobileNet,帶你入門深度神經(jīng)網(wǎng)絡(luò)
利用工業(yè)相機(jī)聚焦過程采集的圖片,我們?cè)趺?b class='flag-5'>判斷哪張圖最清晰?
深度學(xué)習(xí)模型是如何創(chuàng)建的?
一文詳解CNN
小米6新增黑、藍(lán)“幽雅”兩色,小米6哪款顏色最好看?
基于FPGA的通用CNN加速設(shè)計(jì)

深度學(xué)習(xí)模型優(yōu)于人類醫(yī)生?

評(píng)論