乱辈通奷欧美系中文字幕,国产一级a爱视频在线观看

聽(tīng)聲辨人，利用聲紋進(jìn)行解鎖，這種技術(shù)已廣泛應(yīng)用，人類的聲音含有該個(gè)體的一定特征，從而可以進(jìn)行區(qū)分。那么僅通過(guò)聲音，能否畫(huà)出人像，并且盡可能地與講話者相似呢？

近日，卡內(nèi)基梅隆大學(xué)的Yandong Wen 等人，利用生成對(duì)抗網(wǎng)絡(luò)模型（generative adversarial networks, GANs）首次對(duì)這一問(wèn)題作出研究，利用講話者的語(yǔ)音生成一些匹配原說(shuō)話者面部特征的人臉，并用交叉模態(tài)匹配（cross-modal matching task）評(píng)估了模型表現(xiàn)，可謂是語(yǔ)音畫(huà)像領(lǐng)域的一大突破。

模型框架

一個(gè)人的聲音和骨骼結(jié)構(gòu)、發(fā)聲部位的形狀等特征的確有關(guān)，但利用語(yǔ)音直接畫(huà)出人臉，如何做到？

該由聲音重建人臉的模型框架主要由四個(gè)卷積網(wǎng)絡(luò)：語(yǔ)音嵌入模型（voice embedding network）、生成器（Generator）、判別器（Discriminator）、分類器（classifier）組成。

語(yǔ)音嵌入模型（voice embedding network）將輸入的語(yǔ)音數(shù)據(jù)，梅爾倒頻譜（log mel-spectrograms）轉(zhuǎn)換為含有該聲音特征的向量 e。該模型含有 5 層一維卷積神經(jīng)網(wǎng)絡(luò)，每一層均是經(jīng)由卷積核為 3、步長(zhǎng)為 2、padding 為 1 得到，并且都經(jīng)過(guò)歸一化層處理和 ReLU 單元激活，最后經(jīng)過(guò)平均池化得到一個(gè) 64 維的向量。此模型是通過(guò)一個(gè)語(yǔ)音識(shí)別任務(wù)預(yù)先訓(xùn)練得到參數(shù)，并且參數(shù)在生成人臉的訓(xùn)練過(guò)程中保持不變。生成器（Generator）輸入為語(yǔ)音嵌入模型產(chǎn)生的向量 e，輸出是人臉 RGB 圖像 f'，由 6 層二維反卷積網(wǎng)絡(luò)構(gòu)成，激活函數(shù)采用 ReLU。

判別器（Discriminator）判斷輸入的圖像 f（或 f'）是生成器偽造的圖像還是真實(shí)的人臉，如果判斷為偽造圖會(huì)加大損失 Ld。由 6 層激活單元為 Leaky ReLU 的二維卷積網(wǎng)絡(luò)構(gòu)成，最后經(jīng)過(guò)全連接層得到人臉圖像數(shù)據(jù)。

分類器（classifier）用來(lái)將人臉圖像與說(shuō)話者匹配，如果匹配錯(cuò)誤會(huì)加大損失 Lc。該模型由 6 層二維卷積網(wǎng)絡(luò)和一個(gè)全連接層組成。具體的結(jié)構(gòu)如圖表，其中 Conv 3/2,1代表卷積核尺寸為 3，步長(zhǎng)為 2，padding 填充為 1。

圖 | 從聲音重建人臉模型的具體結(jié)構(gòu)。（來(lái)源：Yandong Wen, et al./CMU）模型通過(guò)最小化判別器與分類器的交叉熵?fù)p失 Ld 和 Lc 來(lái)訓(xùn)練，以期得到圖像逼真且符合說(shuō)話者特征的人臉。值得一提的是，此模型的測(cè)試集和訓(xùn)練集以及驗(yàn)證集相互獨(dú)立，即測(cè)試時(shí)的聲音是未聽(tīng)過(guò)的，人臉也未知。

模型表現(xiàn)

不特意挑選那些人臉和真實(shí)講話者完美一致的結(jié)果，一般來(lái)講，該模型的確能輸出具有講話者特征的人臉，即使不完全一模一樣，從種族以及一些其他典型的面部特征來(lái)看，這個(gè)模型的確學(xué)習(xí)到了一些信息，輸出結(jié)果和原講話者非常像，并且語(yǔ)音時(shí)間越長(zhǎng)，匹配的特征越多，兩者越類似。

圖 | 從不同時(shí)長(zhǎng)的正常錄音生成人臉的結(jié)果圖，右側(cè)Ref為真實(shí)講話者的不同臉部照片，從上到下的 4 位 Speaker 分別是 Danica McKellar, Cindy Williams, Damian Lewis, and Eva Green. （來(lái)源：Yandong Wen, et al./CMU）當(dāng)然，性別及年齡特征也可以很好地被學(xué)習(xí)到，左側(cè)輸出結(jié)果的年齡和性別與右側(cè)真實(shí)人臉的年齡性別保持一致。在整個(gè)測(cè)試集上，生成圖和真實(shí)講話者性別相同的概率可以達(dá)到 96.5%。

圖 | 從性別年齡的人臉重建，（a）是從老年聲音生成的人臉；（b）是男性聲音生成的人臉；（c）是女性聲音生成的人臉。其中左側(cè)為生成圖，右側(cè)為真實(shí)講話者。（來(lái)源：Yandong Wen, et al./CMU）如果用同一個(gè)人的不同語(yǔ)音片段，推測(cè)產(chǎn)生的人臉會(huì)保持相同特征嗎？模型結(jié)果告訴我們，是這樣。選用同一個(gè)講話者的 7 個(gè)不同語(yǔ)音片段，不特意挑選完美結(jié)果，模型所推測(cè)出的大概特征是十分一致的，這也側(cè)面說(shuō)明，模型的確可以從一個(gè)人的語(yǔ)音抽取出一些特征，映射成其臉部的某些特征。

圖 | 利用一個(gè)人的 7 段不同語(yǔ)音重建人臉，左圖（a）是重建的 7 張人臉圖，右圖（b）是對(duì)應(yīng)的真實(shí)人臉在不同情況的照片（來(lái)源：Yandong Wen, et al./CMU）進(jìn)一步來(lái)講，如果從語(yǔ)音中學(xué)到的特征真的可以映射成面部的特征，那么生成人臉圖必定和真實(shí)講話者的臉部是對(duì)應(yīng)匹配的。換句話說(shuō)，聲音中的特征可以被生成人臉中蘊(yùn)含的特征替代，那么由聲音重組人臉就變成了人臉識(shí)別問(wèn)題，兩張臉（生成的和真實(shí)的）匹配，那么計(jì)劃可行，這個(gè)匹配率也就成了衡量模型表現(xiàn)的指標(biāo)。在整個(gè)訓(xùn)練集和測(cè)試集上，該模型的匹配率分別是 96.83% 和 76.07%；將訓(xùn)練集和測(cè)試集按照性別分層，排除性別這一特征的助力，也就是直接比較同一性別上，生成的人臉和講話者是否相像，匹配率在訓(xùn)練集和測(cè)試集上分別是 93.98%和 59.69%，這也證明了模型所學(xué)到的信息不僅僅是性別，還有其他更詳細(xì)的面部特征。該模型表現(xiàn)不僅優(yōu)于 DIMNets-G，同時(shí)，測(cè)試集表現(xiàn)不如訓(xùn)練集，說(shuō)明模型還有很大提升空間。

圖 | 不同模型在性別分層以及不分層的數(shù)據(jù)集上的表現(xiàn)。（來(lái)源：Yandong Wen, et al./CMU）

展望

該模型雖然表現(xiàn)尚佳，但仍有可提升的地方，比如頭發(fā)和圖像背景等與聲音無(wú)關(guān)的特征，可以進(jìn)行數(shù)據(jù)清洗將其去除，而有一些明顯與發(fā)聲有關(guān)的面部特征也可以加以利用，從而模型會(huì)更加精確。

總的來(lái)說(shuō)，由音生貌，語(yǔ)音畫(huà)像問(wèn)題的一塊空白得到了填補(bǔ)。

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴