對于設(shè)計領(lǐng)域,特別是服裝和鞋類的設(shè)計是人類審美和技術(shù)的結(jié)晶。但在品牌和產(chǎn)品迅速迭代的今天,是否可以利用新的工具為美的理解和設(shè)計帶來更高的效率呢?人工智能技術(shù)在鞋類的審美和設(shè)計中給出了自己的探索。
GOAT是一家運(yùn)動鞋和街頭服裝在線銷售平臺,其數(shù)字團(tuán)隊的主要業(yè)務(wù)是幫助客戶表達(dá)自己喜歡的風(fēng)格并指引客戶找到自己喜歡的運(yùn)動鞋。為了告別過去需要人工學(xué)習(xí)和描述每一雙鞋的數(shù)據(jù)特征,其數(shù)據(jù)團(tuán)隊開始嘗試著研發(fā)出一系列工具來加速這一個過程。
要實現(xiàn)對運(yùn)動鞋視覺特征的描述,首先需要開發(fā)出一種可以描述出所有鞋的通用語言。但對于擁有30000雙鞋并在不斷增長的產(chǎn)品線來說,這并不是一件容易的事情。每款鞋的外形、材料和顏色都各不相同,用人工的方法將會是一場永無休止的工作。同時隨著每一雙新鞋的發(fā)行,需要不斷的更新這種描述的語言。這樣的工作光是想想就會心里打鼓。那怎么辦呢?GOAT的數(shù)據(jù)團(tuán)隊于是將目光轉(zhuǎn)到了強(qiáng)大的機(jī)器學(xué)習(xí)上來。研究人員們建立了能夠?qū)で蟛煌愋涂钍街g特征和相關(guān)性的模型,并通過學(xué)習(xí)不斷獲取描述的特征, 從而實現(xiàn)了一種得以描述上萬雙不同鞋的通用描述方法。
首先,研究人員們引入了隱變量模型(Latent Variable Models)。借由人工智能的方法,研究人員們得到了一系列隱變量來描述產(chǎn)品的視覺特征。在機(jī)器學(xué)習(xí)中,這樣的學(xué)習(xí)方式又被稱為流形(Manifold)學(xué)習(xí)。流型學(xué)習(xí)背后的主要假設(shè)在于數(shù)據(jù)分布通??梢员槐硎緸檩^低維度的表達(dá),在降維的同時卻保留了絕大部分的有用信息。這種方法可以將數(shù)百萬的像素壓縮到有很少變量表達(dá)的特征空間中去。
如果要形象地理解流型,我們可以用一個生活中的例子來解釋一番。你想要告訴你的小伙伴如何從地鐵站到公司,你肯定不會給他發(fā)一系列GPS的坐標(biāo)點,然后讓他沿著坐標(biāo)來。而是會告訴他出了地鐵幾號口,看到一棟白色建筑物,右轉(zhuǎn)沿街走50m右手邊這樣的更容易為人所理解的語義信息。在這里,GPS坐標(biāo)點很精確是原始數(shù)據(jù),但數(shù)據(jù)量太大對應(yīng)著高維空間;而你告訴他的近似路線則是語義信息,這就對應(yīng)著高維GPS坐標(biāo)在流型空間上的近似,也就是說我們對高維的GPS坐標(biāo)序列在低維的語義流型空間上進(jìn)行了編碼。
在流型空間的基礎(chǔ)上,研究人員通過變分自編碼器(VAE),生產(chǎn)對抗網(wǎng)絡(luò)(GAN)及其混合模型進(jìn)行非監(jiān)督學(xué)習(xí),將原始的運(yùn)動鞋照片轉(zhuǎn)換到隱空間中進(jìn)行編碼,并在其中包含了一系列具有審美特征的信息因素。
先前人們?yōu)榱藢⒑芏嘞袼氐膱D像編碼到隱空間一般會使用自編碼器(AE)來實現(xiàn)。自編碼器可以將原始的圖像壓縮(編碼)到隱空間中去,隨后對隱空間中的變量進(jìn)行解碼重建出輸入圖像。按照自編碼器的流程,研究人員們測試了模型的重建能力,并測算重建圖像與輸入圖像之間的誤差。自編碼器通過不斷重復(fù)壓縮編碼和解壓重建的過程,并利用誤差來調(diào)整網(wǎng)絡(luò)改善參數(shù)。最后,自編碼器可以實現(xiàn)如下圖所示的模型,在中心的隱空間中保留下對任務(wù)最為重要的特征。
但在實際的任務(wù)中,如果僅僅使用自編碼器重建圖像時遠(yuǎn)遠(yuǎn)不夠的。自編碼器在訓(xùn)練過程中由于數(shù)據(jù)集的原因會使得隱含空間中的特征向量不連續(xù)(裂縫/斷崖效應(yīng)),這樣的結(jié)果影響了模型的泛化性。為了解決這一問題,需要在模型中引入一些變化,變分自編碼器就是一種著名的工具,它在損失函數(shù)中添加了一項散度的正則項來對隱藏空間的不連續(xù)性進(jìn)行處理。
具體來說,它可以通過散度懲罰隱空間中那些與高斯分布不匹配的變量。在很多場合下,模型的原則最終歸結(jié)于對于散度度量的選擇、重建誤差函數(shù)的建立和先驗。例如著名的β-VAE和Wasserstein 自編碼器都利用的KL散度和對抗損失。下式描述了β-VAE的損失函數(shù),包括了重建誤差和帶權(quán)重的散度項。
在學(xué)習(xí)運(yùn)動鞋美學(xué)特征的任務(wù)中,希望得到盡可能多樣性的隱空間來覆蓋各式各樣的運(yùn)動鞋,這就意味著希望對于一些清奇的款式不要有太大的損失函數(shù)。
最終通過對于多款鞋的照片訓(xùn)練了一個可以學(xué)習(xí)到不同鞋型的變分自編碼器。下圖顯示了在保持隱空間編碼長度的同時,模型表現(xiàn)隨訓(xùn)練時間的變化。
可以看到隨著訓(xùn)練時間的增加,模型對于特征的理解和表達(dá)也逐漸提高。在開始訓(xùn)練的時模型主要集中于重建出精確的外形特征,并理解到了鞋底和鞋幫的對比度變化的特征;隨后模型開始學(xué)習(xí)鞋子表面的灰度分布情況。在理解了外形、輪廓、高寬等特征之后,模型會開始將更多的精力放在學(xué)習(xí)模式和顏色等更為復(fù)雜的特征。
在經(jīng)歷了多次訓(xùn)練迭代后,研究人員們得到了流暢順滑的隱空間變量。在下圖可以看到,在固定左邊一列和右邊一列兩雙鞋的隱變量之后,可以在隱空間中自由移動,探索不同的風(fēng)格組合。
除此之外,還可以在隱空間中進(jìn)行更多的探索,下圖中左上角的鞋子作為錨,將隱變量按照顏色、高度、鞋底和鞋型進(jìn)行變化,探索出了65中不同的變換。
同時研究人員們利用t-SNE來探索了高維空間可視化,以驗證不同特征的學(xué)習(xí)是否準(zhǔn)確。
此外隱空間中的編碼向量可以進(jìn)行算術(shù)操作,這使得不同鞋型之間的互相變換成為了可能。下圖是一個疊加兩款鞋的例子,可以看到結(jié)果保留了較寬踝部的和logo,但結(jié)合了第二雙鞋的外形和材料。
這樣方法很容易就能創(chuàng)造出新款的服飾,大大節(jié)省了設(shè)計成本,也極大的擴(kuò)大了設(shè)計空間。在不遠(yuǎn)的未來利用這樣的方法,你也可以設(shè)計出自己的喜歡的衣服和鞋子,可以用VAE試試哦!
-
人工智能
+關(guān)注
關(guān)注
1806文章
49028瀏覽量
249523 -
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8503瀏覽量
134620
原文標(biāo)題:“嗨! 你的運(yùn)動鞋真好看!”“哈哈,我是用AI設(shè)計的耶~”
文章出處:【微信號:thejiangmen,微信公眾號:將門創(chuàng)投】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
人工智能技術(shù)的現(xiàn)狀與未來發(fā)展趨勢
CES Asia 2025同期低空智能感知與空域管理技術(shù)論壇即將啟幕
最新人工智能硬件培訓(xùn)AI 基礎(chǔ)入門學(xué)習(xí)課程參考2025版(大模型篇)
中科曙光亮相2025全球人工智能技術(shù)大會
智慧路燈如何應(yīng)用人工智能技術(shù)

嵌入式和人工智能究竟是什么關(guān)系?
對話華為大咖,探討油氣行業(yè)數(shù)字化轉(zhuǎn)型和人工智能技術(shù)的應(yīng)用與實踐

評論