僅需3.7秒的音頻,中國(guó)科技巨頭百度開發(fā)的一種新的AI算法就可以克隆出一種非??尚诺奶摷俾曇?。就像機(jī)器學(xué)習(xí)軟件的迅速發(fā)展一樣,這種軟件可以使虛擬視頻的制作民主化,這項(xiàng)研究表明為什么越來越難相信互聯(lián)網(wǎng)上的任何媒體。
這家科技巨頭的研究人員在Deep Voice發(fā)布了他們的最新進(jìn)展,Deep Voice是一個(gè)為聲音克隆開發(fā)的系統(tǒng)。一年前,該技術(shù)需要大約30分鐘的音頻來創(chuàng)建新的假音頻片段。現(xiàn)在,只需幾秒鐘的培訓(xùn)材料,它可以創(chuàng)造出更好的結(jié)果。
百度近日宣布,百度開發(fā)的新 AI 算法Deep Voice可以通過3.7秒鐘的錄音樣本數(shù)據(jù)就能完美的克隆出一個(gè)人的聲音。
Deep Voice是百度AI研究院一個(gè)由深度神經(jīng)網(wǎng)絡(luò)構(gòu)建的高質(zhì)量語音轉(zhuǎn)(TTS )系統(tǒng)。該系統(tǒng)不僅提高的模擬的時(shí)間,百度還優(yōu)化了它出錯(cuò)的概率。甚至還在一個(gè)單GPU服務(wù)器上,把推斷規(guī)模提高到到每天1000萬次以上。

自適應(yīng)說話人編碼方法在訓(xùn)練、克隆和音頻生成中的應(yīng)用
Deep Voice最早是在2017年的年初發(fā)布了第一版,初版的系統(tǒng)就能模擬初簡(jiǎn)短的句子,而且說起話來幾乎無法區(qū)分和真人的區(qū)別。但是該系統(tǒng)一次只能模擬一個(gè)人的聲音,而且需要好幾個(gè)小時(shí)的學(xué)習(xí)才能克隆成功。但是最新發(fā)布的成功已經(jīng)縮短到3.7秒,并且能將女性聲音轉(zhuǎn)變成男性,英式聲音變成美式。

模擬器編碼器結(jié)構(gòu)
百度研究院的研究人員在預(yù)印本網(wǎng)站 arxiv 上的發(fā)表了其 Deep Voice 系統(tǒng)的最新進(jìn)展《Neural Voice Cloning with a Few Samples》。除了利用少量樣本克隆聲音外,系統(tǒng)還能將女性聲音轉(zhuǎn)變成男性,英式聲音變成美式。百度研究人員表示,這項(xiàng)研究可應(yīng)用于人機(jī)交互的個(gè)性化方面。
-
神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
42文章
4838瀏覽量
107795 -
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8553瀏覽量
136956
原文標(biāo)題:只需 3.7 秒, 百度最新AI算法就能克隆任何人的聲音!
文章出處:【微信號(hào):worldofai,微信公眾號(hào):worldofai】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
2022百度世界大會(huì)-百度AI數(shù)字人“希加加”帶你暢游AI世界
百度宣布“百度AI加速器”開營(yíng),選擇免費(fèi)開放AI相關(guān)技能
百度釋出新AI算法 可提升腫瘤辨識(shí)效率與正確性
百度開發(fā)聲音克隆技術(shù),通過訓(xùn)練數(shù)據(jù)便可復(fù)制聲音
借助深度學(xué)習(xí)算法實(shí)現(xiàn)5秒內(nèi)克隆你的聲音
百度Create AI開發(fā)者大會(huì):百度大腦位居中國(guó)市場(chǎng)第一
2022百度世界大會(huì)-百度智慧交管助力AI與交警共同成長(zhǎng)
2022百度世界大會(huì)—百度AI助力電力安全流淌
2022百度世界大會(huì)-百度攜手眼科專家AI學(xué)習(xí) AI護(hù)眼
百度最新AI算法就能克隆任何人的聲音!只需 3.7 秒!
評(píng)論