5月9日,英偉達(dá)首席研究科學(xué)家劉明宇在社交網(wǎng)站公布了其最新研究成果:一種新型的GAN,在測(cè)試期間只需幾張示例圖像,就可以將圖像轉(zhuǎn)換為以前從未見(jiàn)過(guò)的對(duì)象類型。GAN之父Ian Goodfellow也對(duì)其進(jìn)行了轉(zhuǎn)發(fā)支持。
人類在泛化方面非常擅長(zhǎng)。
當(dāng)給出一張以前看不見(jiàn)的外來(lái)動(dòng)物的照片時(shí),我們可以用不同的姿勢(shì)形成同一動(dòng)物的生動(dòng)的心理圖像,特別是當(dāng)我們?cè)谥暗淖藙?shì)中遇到過(guò)相似但不同的動(dòng)物(圖像)時(shí)。
例如,一個(gè)人第一次看到一只站立的老虎,我們可以毫不費(fèi)力地想象它躺下來(lái)的樣子。
同時(shí),也很容易獲得一種伴認(rèn)知泛化能力,即其他的動(dòng)物躺下來(lái)會(huì)是什么樣子。
對(duì)于現(xiàn)有無(wú)監(jiān)督圖像到圖像的轉(zhuǎn)換算法,雖然已經(jīng)在跨圖像類轉(zhuǎn)換復(fù)雜的外觀變化方面非常成功,但基于先驗(yàn)知識(shí)從新類的少數(shù)樣本泛化的能力完全超出了它們的范圍。 具體地說(shuō),仍然在兩個(gè)方面受到限制:
首先,模型通常需要在訓(xùn)練期內(nèi)看到來(lái)自目標(biāo)類的大量圖像。
其次,在測(cè)試期內(nèi),不能將用于轉(zhuǎn)換任務(wù)的訓(xùn)練模型重新用于另一轉(zhuǎn)換任務(wù)。
簡(jiǎn)言之,現(xiàn)有的算法不支持小樣本泛化。
為了彌合人機(jī)與機(jī)器想象能力之間的差距,最近英偉達(dá)的研究人員提出了幾個(gè)無(wú)監(jiān)督的圖像到圖像轉(zhuǎn)換框架(FUNIT)來(lái)解決上述限制。
在訓(xùn)練時(shí),F(xiàn)UNIT模型會(huì)學(xué)習(xí)在從一組源類中采樣的任何兩個(gè)類之間轉(zhuǎn)換圖像。
在測(cè)試時(shí),模型會(huì)顯示一些它從未見(jiàn)過(guò)的目標(biāo)類的圖像。該模型利用這些少量示例圖像將源類的輸入圖像轉(zhuǎn)換為目標(biāo)類。
首先假設(shè)人類的小樣本泛化能力是從他們過(guò)去的視覺(jué)經(jīng)驗(yàn)中發(fā)展出來(lái)的 - 如果一個(gè)人在過(guò)去看過(guò)更多不同的對(duì)象類別,他們可以更好地想象一個(gè)新對(duì)象的視圖。
基于該假設(shè),研究人員使用包含許多不同對(duì)象類的圖像的數(shù)據(jù)集來(lái)訓(xùn)練FUNIT模型,以模擬過(guò)去的視覺(jué)體驗(yàn)。具體來(lái)說(shuō),他們通過(guò)利用另一個(gè)類的少量示例圖像來(lái)訓(xùn)練模型以將圖像從一個(gè)類轉(zhuǎn)換為另一個(gè)類。
假設(shè)通過(guò)學(xué)習(xí)從用于翻譯任務(wù)的少數(shù)示例圖像中提取外觀模式,該模型學(xué)習(xí)了一種可推廣的外觀模式提取器,其可以在測(cè)試時(shí)應(yīng)用于看不見(jiàn)的類的圖像,用于少數(shù)鏡頭到圖像到圖像的轉(zhuǎn)換任務(wù)。
左:訓(xùn)練。 訓(xùn)練集由各種對(duì)象類(源類)的圖像組成。 我們訓(xùn)練模型來(lái)在這些源對(duì)象類之間轉(zhuǎn)換圖像。右:部署。 我們向訓(xùn)練模型顯示目標(biāo)類的極少數(shù)圖像,這足以將源類的圖像轉(zhuǎn)換為目標(biāo)類的類似圖像,即使模型在訓(xùn)練期間從未見(jiàn)過(guò)來(lái)自目標(biāo)類的單個(gè)圖像。
請(qǐng)注意,F(xiàn)UNIT生成器需要兩個(gè)輸入:1)內(nèi)容圖像(紅色線圈選)和2)一組目標(biāo)類圖像(綠色線圈選)。 它旨在生成類似于目標(biāo)類圖像的輸入圖像的轉(zhuǎn)換。
架構(gòu)及轉(zhuǎn)換過(guò)程
框架基于生成對(duì)抗網(wǎng)絡(luò)(GAN),實(shí)驗(yàn)表明,通過(guò)將對(duì)抗性訓(xùn)練方案與新穎的網(wǎng)絡(luò)設(shè)計(jì)相結(jié)合,研究人員實(shí)現(xiàn)了所需的幾次無(wú)人監(jiān)督的圖像到圖像轉(zhuǎn)換能力。 通過(guò)對(duì)三個(gè)數(shù)據(jù)集的廣泛實(shí)驗(yàn)驗(yàn)證,包括使用各種性能指標(biāo)與幾種基線方法的比較,驗(yàn)證了框架的有效性。
少樣本無(wú)監(jiān)督的圖像到圖像轉(zhuǎn)換示例
研究人員展示了動(dòng)物面部轉(zhuǎn)換,鳥(niǎo)類轉(zhuǎn)換,花卉轉(zhuǎn)換和食物轉(zhuǎn)換的結(jié)果。對(duì)于每個(gè)例子,
y1和y2是測(cè)試期間可用的目標(biāo)類的少數(shù)示例圖像,
x是源類的輸入圖像,
x bar是從源類到目標(biāo)類的轉(zhuǎn)換。
模型能夠?qū)⒈愚D(zhuǎn)換成沙皮狗,即使它在訓(xùn)練期間從未見(jiàn)過(guò)單一的沙皮狗圖像。
動(dòng)物面部轉(zhuǎn)換
鳥(niǎo)類轉(zhuǎn)換
花卉轉(zhuǎn)換
食物轉(zhuǎn)換
結(jié)果表明,在訓(xùn)練過(guò)程中,當(dāng)模型沒(méi)有看到任何目標(biāo)類的圖像時(shí),F(xiàn)UNIT可以基于小樣本集生成可信的轉(zhuǎn)換輸出。
我們注意到輸出圖像中的對(duì)象與輸入具有相似的姿勢(shì)。
框架的局限性
當(dāng)看不見(jiàn)的對(duì)象類的外觀與源類的外觀(例如花和動(dòng)物的面部)顯著不同時(shí)。 擬議的FUNIT框架未能產(chǎn)生有意義的轉(zhuǎn)換輸出。
論文摘要
無(wú)監(jiān)督的圖像到圖像的轉(zhuǎn)換方法,是指學(xué)習(xí)利用圖像的非結(jié)構(gòu)化(未注冊(cè))數(shù)據(jù)集,將給定類中的圖像映射到不同類中的類似圖像。
雖然非常成功,但是當(dāng)前的方法需要在訓(xùn)練時(shí)訪問(wèn)源類和目標(biāo)類中的許多圖像。 我們認(rèn)為這極大地限制了它們的使用。
人類通常具有可以從少數(shù)例子中找到新物體本質(zhì)的能力,研究人員以此為靈感并加以推廣,他們尋求一種小樣本的、無(wú)監(jiān)督的圖像到圖像的轉(zhuǎn)換算法,該算法適用于以前從未見(jiàn)過(guò)的目標(biāo)類別。 在測(cè)試時(shí)僅指定幾個(gè)示例圖片,該模型通過(guò)將對(duì)抗訓(xùn)練方案與新穎的網(wǎng)絡(luò)設(shè)計(jì)相結(jié)合,實(shí)現(xiàn)了這種小樣本的泛化能力。 通過(guò)廣泛的實(shí)驗(yàn)驗(yàn)證和與基準(zhǔn)數(shù)據(jù)集的幾種基線方法的比較,驗(yàn)證了所提出框架的有效性。
代碼:
https: //nvlabs.github.io/FUNIT
Demo:
https://nvlabs.github.io/FUNIT/petswap.html
論文:
https://arxiv.org/pdf/1905.01723.pdf
-
圖像
+關(guān)注
關(guān)注
2文章
1094瀏覽量
42004 -
數(shù)據(jù)集
+關(guān)注
關(guān)注
4文章
1229瀏覽量
25913 -
英偉達(dá)
+關(guān)注
關(guān)注
23文章
4014瀏覽量
96791
原文標(biāo)題:英偉達(dá)發(fā)布新型GAN,豹子秒變沙皮狗!| 技術(shù)頭條
文章出處:【微信號(hào):rgznai100,微信公眾號(hào):rgznai100】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
評(píng)論