农民工老头在出租屋嫖老熟女,欧美Yellow网,色眯眯品国产在线视频

今天，谷歌發(fā)布Translatotron語(yǔ)音翻譯系統(tǒng)，這是第一個(gè)可以直接將一個(gè)人的聲音從一種語(yǔ)言轉(zhuǎn)換成另一種語(yǔ)言，同時(shí)保持說(shuō)話人的聲音和節(jié)奏的翻譯模型。

讓說(shuō)不同語(yǔ)言的人更容易地、直接地相互交流，這是語(yǔ)音到語(yǔ)音的翻譯系統(tǒng)(Speech-to-speech translation)的目的，這樣的系統(tǒng)在過(guò)去幾十年里取得了不錯(cuò)的進(jìn)展。

傳統(tǒng)上，語(yǔ)音翻譯系統(tǒng)通常有3個(gè)獨(dú)立的部分：自動(dòng)語(yǔ)音識(shí)別將源語(yǔ)音轉(zhuǎn)錄為文本，機(jī)器翻譯將轉(zhuǎn)錄的文本翻譯成目標(biāo)語(yǔ)言，最后，文本到語(yǔ)音合成(TTS)系統(tǒng)將翻譯文本轉(zhuǎn)換成目標(biāo)語(yǔ)言的語(yǔ)音。

許多商業(yè)語(yǔ)音到語(yǔ)音翻譯的產(chǎn)品都采用這樣的系統(tǒng)，包括Google Translate。但是，這類(lèi)系統(tǒng)依賴(lài)于中間文本，準(zhǔn)確率不高，而且效率較低。

谷歌的新工具Translatotron舍棄了將語(yǔ)音翻譯為文本再返回語(yǔ)音的步驟，而是采用端到端的技術(shù)，直接將說(shuō)話者的聲音翻譯成另一種語(yǔ)言。這使它能夠快速地翻譯，但更重要的是，能夠更容易反映說(shuō)話人的語(yǔ)調(diào)和節(jié)奏。

在論文《基于序列到序列模型的直接語(yǔ)音到語(yǔ)音翻譯》(Direct speech-to-speech translation with a sequence-to-sequence model）中，谷歌的研究人員提出一種基于單個(gè)注意力序列到序列模型的直接語(yǔ)音到語(yǔ)音翻譯的新實(shí)驗(yàn)系統(tǒng)，該系統(tǒng)不依賴(lài)于中間文本表示。

這個(gè)系統(tǒng)被稱(chēng)為T(mén)ranslatotron，避免了將任務(wù)劃分為獨(dú)立的階段，比級(jí)聯(lián)系統(tǒng)更有優(yōu)勢(shì)，包括推理速度快、自然地避免了識(shí)別和翻譯之間的復(fù)合錯(cuò)誤，能夠在翻譯后保留原說(shuō)話者的聲音，以及能夠更好地處理不需要翻譯的單詞(如名稱(chēng)和專(zhuān)有名詞)。

Translatotron：不依賴(lài)中間文本，直接翻譯語(yǔ)音

語(yǔ)音翻譯端到端模型的出現(xiàn)始于2016年，當(dāng)時(shí)研究人員證明了使用單個(gè)序列到序列模型進(jìn)行語(yǔ)音到文本翻譯的可行性。2017年，我們證明了這種端到端模型可以超越級(jí)聯(lián)模型(cascade models)。

最近有許多工作進(jìn)一步改進(jìn)了端到端語(yǔ)音到文本翻譯模型的方法，包括同樣來(lái)自谷歌的利用弱監(jiān)督數(shù)據(jù)的工作(https://arxiv.org/abs/1811.02050)。

Translatotron更進(jìn)一步，證明了單個(gè)序列到序列模型可以直接將一種語(yǔ)言的語(yǔ)音翻譯成另一種語(yǔ)言的語(yǔ)音，而不需要像級(jí)聯(lián)系統(tǒng)那樣依賴(lài)于任何一種語(yǔ)言的中間文本表示。

Translatotron基于一個(gè)sequence-to-sequence網(wǎng)絡(luò)，它將源聲譜圖(spectrograms)作為輸入，生成目標(biāo)語(yǔ)言翻譯內(nèi)容的聲譜圖。

輸入和生成的聲譜圖

此外，Translatotron還使用了另外兩個(gè)單獨(dú)訓(xùn)練的組件：一個(gè)神經(jīng)聲音編碼器(neuralvocoder)，可以將輸出聲譜圖轉(zhuǎn)換為時(shí)域波形；另外，還可以選擇使用一個(gè)speaker encoder，用于在合成翻譯語(yǔ)音時(shí)保持源speaker的語(yǔ)音特征。

在訓(xùn)練過(guò)程中，序列到序列模型使用一個(gè)多任務(wù)目標(biāo)預(yù)測(cè)源和目標(biāo)轉(zhuǎn)錄文本，同時(shí)生成目標(biāo)聲譜圖。然而，推理過(guò)程中不需要使用轉(zhuǎn)錄文本或其他中間文本表示。

Translatotron的模型結(jié)構(gòu)

性能

谷歌通過(guò)測(cè)量BLEU分?jǐn)?shù)來(lái)驗(yàn)證Translatotron的翻譯質(zhì)量。該分?jǐn)?shù)是通過(guò)語(yǔ)音識(shí)別系統(tǒng)轉(zhuǎn)錄的文本計(jì)算的。雖然結(jié)果落后于傳統(tǒng)的級(jí)聯(lián)系統(tǒng)，但已經(jīng)證明了端到端直接語(yǔ)音到語(yǔ)音轉(zhuǎn)換的可行性。

對(duì)比Translatotron到基線級(jí)聯(lián)方法的直接語(yǔ)音到語(yǔ)音翻譯輸出，在這種情況下，兩個(gè)系統(tǒng)都提供合適的翻譯并使用相同的規(guī)范語(yǔ)音很自然的說(shuō)話。

保持聲音特征

通過(guò)結(jié)合揚(yáng)聲器編碼器網(wǎng)絡(luò)，Translatotron還能夠在翻譯的語(yǔ)音中，保留原始說(shuō)話者的聲音特征，這使得翻譯的語(yǔ)音聽(tīng)起來(lái)更自然，不那么刺耳。

此功能利用了之前針對(duì)TTS的演講者驗(yàn)證和演講者調(diào)整的Google研究。揚(yáng)聲器編碼器在演講者驗(yàn)證任務(wù)上進(jìn)行預(yù)訓(xùn)練，學(xué)習(xí)從簡(jiǎn)短的示例話語(yǔ)對(duì)揚(yáng)聲器特性進(jìn)行編碼。在該編碼上調(diào)節(jié)頻譜圖解碼器，即使內(nèi)容是在不同的語(yǔ)言中，也可以合成具有類(lèi)似揚(yáng)聲器特性的語(yǔ)音。

谷歌提供了諸多使用示例，如下面的例子，Translatotron將西班牙語(yǔ)對(duì)話轉(zhuǎn)換為英語(yǔ)，下面的音頻分別是西班牙語(yǔ)輸入、真人參考翻譯，以及Translatotron的翻譯。

（由于微信智能插入一個(gè)音頻，請(qǐng)點(diǎn)擊原文鏈接聽(tīng)更多語(yǔ)音。）

Translatotron的翻譯：

更多示例：

https://google-research.github.io/lingvo-lab/translatotron/#conversational

在這個(gè)例子中，Translatotron提供比基線級(jí)聯(lián)模型更準(zhǔn)確的平移，同時(shí)能夠保留原始說(shuō)話者的聲音特征。保留原始說(shuō)話者聲音的Translatotron輸出訓(xùn)練的數(shù)據(jù)，少于使用規(guī)范聲音的數(shù)據(jù)，因此它們產(chǎn)生的翻譯略有不同。

結(jié)論

谷歌聲稱(chēng)，Translatotron是第一個(gè)可以直接將一種語(yǔ)言的語(yǔ)音，翻譯成另一種語(yǔ)言的語(yǔ)音的端到端模型。它還能夠在翻譯的語(yǔ)音中保留源說(shuō)話者的聲音。谷歌希望這項(xiàng)工作可以作為未來(lái)端到端語(yǔ)音轉(zhuǎn)語(yǔ)音翻譯系統(tǒng)研究的起點(diǎn)。

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

編碼器

編碼器

+關(guān)注

關(guān)注
45

文章
3906

瀏覽量
141489
谷歌

谷歌

+關(guān)注

關(guān)注
27

文章
6246

瀏覽量
110285
語(yǔ)音

語(yǔ)音

+關(guān)注

關(guān)注
3

文章
403

瀏覽量
39502

原文標(biāo)題：同聲傳譯被攻陷！谷歌發(fā)布Translatotron直接語(yǔ)音翻譯系統(tǒng)

文章出處：【微信號(hào)：AI_era，微信公眾號(hào)：新智元】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛兴趣闲谈,欧美亚洲精品 8区,国产精品久久久久精品免费

搜索歷史

谷歌發(fā)布Translatotron語(yǔ)音翻譯系統(tǒng)

評(píng)論