chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

谷歌發(fā)布Translatotron語(yǔ)音翻譯系統(tǒng)

DPVg_AI_era ? 來(lái)源:lq ? 2019-05-19 10:12 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

今天,谷歌發(fā)布Translatotron語(yǔ)音翻譯系統(tǒng),這是第一個(gè)可以直接將一個(gè)人的聲音從一種語(yǔ)言轉(zhuǎn)換成另一種語(yǔ)言,同時(shí)保持說(shuō)話人的聲音和節(jié)奏的翻譯模型。

讓說(shuō)不同語(yǔ)言的人更容易地、直接地相互交流,這是語(yǔ)音到語(yǔ)音的翻譯系統(tǒng)(Speech-to-speech translation)的目的,這樣的系統(tǒng)在過(guò)去幾十年里取得了不錯(cuò)的進(jìn)展。

今天,谷歌發(fā)布Translatotron語(yǔ)音翻譯系統(tǒng),這是第一個(gè)可以直接將一個(gè)人的聲音從一種語(yǔ)言轉(zhuǎn)換成另一種語(yǔ)言,同時(shí)保持說(shuō)話人的聲音和節(jié)奏的翻譯模型。

傳統(tǒng)上,語(yǔ)音翻譯系統(tǒng)通常有3個(gè)獨(dú)立的部分:自動(dòng)語(yǔ)音識(shí)別將源語(yǔ)音轉(zhuǎn)錄為文本,機(jī)器翻譯將轉(zhuǎn)錄的文本翻譯成目標(biāo)語(yǔ)言,最后,文本到語(yǔ)音合成(TTS)系統(tǒng)將翻譯文本轉(zhuǎn)換成目標(biāo)語(yǔ)言的語(yǔ)音。

許多商業(yè)語(yǔ)音到語(yǔ)音翻譯的產(chǎn)品都采用這樣的系統(tǒng),包括Google Translate。但是,這類(lèi)系統(tǒng)依賴(lài)于中間文本,準(zhǔn)確率不高,而且效率較低。

谷歌的新工具Translatotron舍棄了將語(yǔ)音翻譯為文本再返回語(yǔ)音的步驟,而是采用端到端的技術(shù),直接將說(shuō)話者的聲音翻譯成另一種語(yǔ)言。這使它能夠快速地翻譯,但更重要的是,能夠更容易反映說(shuō)話人的語(yǔ)調(diào)和節(jié)奏。

在論文《基于序列到序列模型的直接語(yǔ)音到語(yǔ)音翻譯》(Direct speech-to-speech translation with a sequence-to-sequence model)中,谷歌的研究人員提出一種基于單個(gè)注意力序列到序列模型的直接語(yǔ)音到語(yǔ)音翻譯的新實(shí)驗(yàn)系統(tǒng),該系統(tǒng)不依賴(lài)于中間文本表示。

這個(gè)系統(tǒng)被稱(chēng)為T(mén)ranslatotron,避免了將任務(wù)劃分為獨(dú)立的階段,比級(jí)聯(lián)系統(tǒng)更有優(yōu)勢(shì),包括推理速度快、自然地避免了識(shí)別和翻譯之間的復(fù)合錯(cuò)誤,能夠在翻譯后保留原說(shuō)話者的聲音,以及能夠更好地處理不需要翻譯的單詞(如名稱(chēng)和專(zhuān)有名詞)。

Translatotron:不依賴(lài)中間文本,直接翻譯語(yǔ)音

語(yǔ)音翻譯端到端模型的出現(xiàn)始于2016年,當(dāng)時(shí)研究人員證明了使用單個(gè)序列到序列模型進(jìn)行語(yǔ)音到文本翻譯的可行性。2017年,我們證明了這種端到端模型可以超越級(jí)聯(lián)模型(cascade models)。

最近有許多工作進(jìn)一步改進(jìn)了端到端語(yǔ)音到文本翻譯模型的方法,包括同樣來(lái)自谷歌的利用弱監(jiān)督數(shù)據(jù)的工作(https://arxiv.org/abs/1811.02050)。

Translatotron更進(jìn)一步,證明了單個(gè)序列到序列模型可以直接將一種語(yǔ)言的語(yǔ)音翻譯成另一種語(yǔ)言的語(yǔ)音,而不需要像級(jí)聯(lián)系統(tǒng)那樣依賴(lài)于任何一種語(yǔ)言的中間文本表示。

Translatotron基于一個(gè)sequence-to-sequence網(wǎng)絡(luò),它將源聲譜圖(spectrograms)作為輸入,生成目標(biāo)語(yǔ)言翻譯內(nèi)容的聲譜圖。

輸入和生成的聲譜圖

此外,Translatotron還使用了另外兩個(gè)單獨(dú)訓(xùn)練的組件:一個(gè)神經(jīng)聲音編碼器(neuralvocoder),可以將輸出聲譜圖轉(zhuǎn)換為時(shí)域波形;另外,還可以選擇使用一個(gè)speaker encoder,用于在合成翻譯語(yǔ)音時(shí)保持源speaker的語(yǔ)音特征。

在訓(xùn)練過(guò)程中,序列到序列模型使用一個(gè)多任務(wù)目標(biāo)預(yù)測(cè)源和目標(biāo)轉(zhuǎn)錄文本,同時(shí)生成目標(biāo)聲譜圖。然而,推理過(guò)程中不需要使用轉(zhuǎn)錄文本或其他中間文本表示。

Translatotron的模型結(jié)構(gòu)

性能

谷歌通過(guò)測(cè)量BLEU分?jǐn)?shù)來(lái)驗(yàn)證Translatotron的翻譯質(zhì)量。該分?jǐn)?shù)是通過(guò)語(yǔ)音識(shí)別系統(tǒng)轉(zhuǎn)錄的文本計(jì)算的。雖然結(jié)果落后于傳統(tǒng)的級(jí)聯(lián)系統(tǒng),但已經(jīng)證明了端到端直接語(yǔ)音到語(yǔ)音轉(zhuǎn)換的可行性。

對(duì)比Translatotron到基線級(jí)聯(lián)方法的直接語(yǔ)音到語(yǔ)音翻譯輸出,在這種情況下,兩個(gè)系統(tǒng)都提供合適的翻譯并使用相同的規(guī)范語(yǔ)音很自然的說(shuō)話。

保持聲音特征

通過(guò)結(jié)合揚(yáng)聲器編碼器網(wǎng)絡(luò),Translatotron還能夠在翻譯的語(yǔ)音中,保留原始說(shuō)話者的聲音特征,這使得翻譯的語(yǔ)音聽(tīng)起來(lái)更自然,不那么刺耳。

此功能利用了之前針對(duì)TTS的演講者驗(yàn)證和演講者調(diào)整的Google研究。揚(yáng)聲器編碼器在演講者驗(yàn)證任務(wù)上進(jìn)行預(yù)訓(xùn)練,學(xué)習(xí)從簡(jiǎn)短的示例話語(yǔ)對(duì)揚(yáng)聲器特性進(jìn)行編碼。在該編碼上調(diào)節(jié)頻譜圖解碼器,即使內(nèi)容是在不同的語(yǔ)言中,也可以合成具有類(lèi)似揚(yáng)聲器特性的語(yǔ)音。

谷歌提供了諸多使用示例,如下面的例子,Translatotron將西班牙語(yǔ)對(duì)話轉(zhuǎn)換為英語(yǔ),下面的音頻分別是西班牙語(yǔ)輸入、真人參考翻譯,以及Translatotron的翻譯。

(由于微信智能插入一個(gè)音頻,請(qǐng)點(diǎn)擊原文鏈接聽(tīng)更多語(yǔ)音。)

Translatotron的翻譯:

更多示例:

https://google-research.github.io/lingvo-lab/translatotron/#conversational

在這個(gè)例子中,Translatotron提供比基線級(jí)聯(lián)模型更準(zhǔn)確的平移,同時(shí)能夠保留原始說(shuō)話者的聲音特征。保留原始說(shuō)話者聲音的Translatotron輸出訓(xùn)練的數(shù)據(jù),少于使用規(guī)范聲音的數(shù)據(jù),因此它們產(chǎn)生的翻譯略有不同。

結(jié)論

谷歌聲稱(chēng),Translatotron是第一個(gè)可以直接將一種語(yǔ)言的語(yǔ)音,翻譯成另一種語(yǔ)言的語(yǔ)音的端到端模型。它還能夠在翻譯的語(yǔ)音中保留源說(shuō)話者的聲音。谷歌希望這項(xiàng)工作可以作為未來(lái)端到端語(yǔ)音轉(zhuǎn)語(yǔ)音翻譯系統(tǒng)研究的起點(diǎn)。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 編碼器
    +關(guān)注

    關(guān)注

    45

    文章

    3906

    瀏覽量

    141489
  • 谷歌
    +關(guān)注

    關(guān)注

    27

    文章

    6246

    瀏覽量

    110285
  • 語(yǔ)音
    +關(guān)注

    關(guān)注

    3

    文章

    403

    瀏覽量

    39502

原文標(biāo)題:同聲傳譯被攻陷!谷歌發(fā)布Translatotron直接語(yǔ)音翻譯系統(tǒng)

文章出處:【微信號(hào):AI_era,微信公眾號(hào):新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    視美泰發(fā)布AI即時(shí)翻譯機(jī)解決方案,硬核配置+多語(yǔ)種覆蓋破解跨語(yǔ)言溝通難題

    在全球化深入推進(jìn)與AI技術(shù)規(guī)?;逃玫碾p重驅(qū)動(dòng)下,跨語(yǔ)言溝通需求正迎來(lái)爆發(fā)式增長(zhǎng)。近日,視美泰正式發(fā)布AI即時(shí)翻譯機(jī)解決方案,以“核心硬件+智能算法+多模態(tài)交互”的完整技術(shù)矩陣,依托在線語(yǔ)音轉(zhuǎn)寫(xiě)
    的頭像 發(fā)表于 12-03 10:50 ?711次閱讀
    視美泰<b class='flag-5'>發(fā)布</b>AI即時(shí)<b class='flag-5'>翻譯</b>機(jī)解決方案,硬核配置+多語(yǔ)種覆蓋破解跨語(yǔ)言溝通難題

    語(yǔ)音識(shí)別系統(tǒng)的技術(shù)核心:從聲音到文字的智能轉(zhuǎn)換

    ? ? ? 語(yǔ)音識(shí)別技術(shù),也稱(chēng)為自動(dòng)語(yǔ)音識(shí)別(ASR),其核心目標(biāo)是將人類(lèi)語(yǔ)音信號(hào)轉(zhuǎn)換為對(duì)應(yīng)的文本或指令。隨著人工智能的發(fā)展,語(yǔ)音識(shí)別已成為智能助手、實(shí)時(shí)
    的頭像 發(fā)表于 09-05 14:04 ?575次閱讀

    聲智科技出席2025年北京市多語(yǔ)種AI語(yǔ)音翻譯大賽

    8月20日,由北京市科委、中關(guān)村管委會(huì)主辦,北京語(yǔ)言大學(xué)、北京第二外國(guó)語(yǔ)學(xué)院、北京市翻譯協(xié)會(huì)、中國(guó)人工智能百人會(huì)共同承辦的“2025年北京市多語(yǔ)種AI語(yǔ)音翻譯大賽”在中關(guān)村展示中心順利啟幕。聲智作為
    的頭像 發(fā)表于 08-25 17:18 ?1040次閱讀

    廣和通發(fā)布自研端側(cè)語(yǔ)音識(shí)別大模型FiboASR

    7月,全球領(lǐng)先的無(wú)線通信模組及AI解決方案提供商廣和通,發(fā)布其自主研發(fā)的語(yǔ)音識(shí)別大模型FiboASR。該模型專(zhuān)為端側(cè)設(shè)備上面臨的面對(duì)面實(shí)時(shí)對(duì)話及多人會(huì)議場(chǎng)景深度優(yōu)化,在低延遲語(yǔ)音交互、實(shí)時(shí)語(yǔ)音
    的頭像 發(fā)表于 08-04 11:43 ?1381次閱讀

    EASY EAl Orin Nano(RK3576) whisper語(yǔ)音識(shí)別訓(xùn)練部署教程

    1Whisper簡(jiǎn)介Whisper是OpenAI開(kāi)源的,識(shí)別語(yǔ)音識(shí)別能力已達(dá)到人類(lèi)水準(zhǔn)自動(dòng)語(yǔ)音識(shí)別系統(tǒng)。Whisper作為一個(gè)通用的語(yǔ)音識(shí)別模型,它使用了大量的多語(yǔ)言和多任務(wù)的監(jiān)督數(shù)據(jù)
    的頭像 發(fā)表于 07-25 15:21 ?579次閱讀
    EASY EAl Orin Nano(RK3576) whisper<b class='flag-5'>語(yǔ)音</b>識(shí)別訓(xùn)練部署教程

    “System Level EOS Testing Method”可以翻譯為: “系統(tǒng)級(jí)電性過(guò)應(yīng)力測(cè)試方法”

    “System Level EOS Testing Method”可以翻譯為: “系統(tǒng)級(jí)電性過(guò)應(yīng)力測(cè)試方法”
    的頭像 發(fā)表于 05-05 15:55 ?695次閱讀
    “System Level EOS Testing Method”可以<b class='flag-5'>翻譯</b>為: “<b class='flag-5'>系統(tǒng)</b>級(jí)電性過(guò)應(yīng)力測(cè)試方法”

    谷歌發(fā)布混合量子模擬方法

    據(jù)外媒報(bào)道,谷歌發(fā)布了一種混合量子模擬方法;論文已經(jīng)在Nature正式發(fā)表,谷歌混合量子模擬器的核心在于將模擬和數(shù)字技術(shù)相結(jié)合;是全新的模擬-數(shù)字方案,可在保持速度的同時(shí)增強(qiáng)可控制性,這一方案顛覆了
    的頭像 發(fā)表于 04-22 17:17 ?672次閱讀

    谷歌“減法”新動(dòng)作:砍掉耳機(jī)按鍵喚醒朗讀功能

    電子發(fā)燒友網(wǎng)報(bào)道(文/莫婷婷)近期,谷歌宣布將對(duì)耳機(jī)上的 Google Assistant語(yǔ)音助手功能進(jìn)行調(diào)整,取消通過(guò)觸控喚醒助理“自動(dòng)朗讀未讀通知”的功能。谷歌表示,要想完成該功能可以通過(guò)
    的頭像 發(fā)表于 02-22 22:56 ?2905次閱讀
    <b class='flag-5'>谷歌</b>“減法”新動(dòng)作:砍掉耳機(jī)按鍵喚醒朗讀功能

    AI助力實(shí)時(shí)翻譯耳機(jī)

    是一種能夠?qū)崟r(shí)將一種語(yǔ)言翻譯成另一種語(yǔ)言的耳機(jī)設(shè)備。它通常由一個(gè)耳機(jī)和一個(gè)配套的應(yīng)用程序組成,用戶(hù)可以通過(guò)應(yīng)用程序選擇需要翻譯的語(yǔ)言,并通過(guò)耳機(jī)聽(tīng)到翻譯結(jié)果。 2 實(shí)時(shí)翻譯耳機(jī)是如何工
    的頭像 發(fā)表于 01-24 11:14 ?3324次閱讀
    AI助力實(shí)時(shí)<b class='flag-5'>翻譯</b>耳機(jī)

    時(shí)空壺亮相CES首發(fā)AI翻譯操作系統(tǒng)Bable OS,登場(chǎng)驚艷全球

    , and Telegram. 此前,應(yīng)用Bable OS時(shí)空壺巴別系統(tǒng)的W4Pro AI同傳耳機(jī)憑借其創(chuàng)新性的雙向通話翻譯功能,為全球用戶(hù)帶來(lái)了高效、便
    的頭像 發(fā)表于 01-14 18:19 ?1112次閱讀

    廣和通發(fā)布AI Buddy產(chǎn)品及解決方案,創(chuàng)新AI智能終端

    1月9日,在2025國(guó)際消費(fèi)電子展覽會(huì)(CES)期間,廣和通發(fā)布集智能語(yǔ)音交互及翻譯、4G/5G全球漫游、隨身熱點(diǎn)、智能娛樂(lè)、充電續(xù)航等功能于一體的AIBuddy(AI陪伴)產(chǎn)品及解決方案,創(chuàng)新AI
    的頭像 發(fā)表于 01-09 18:24 ?1162次閱讀
    廣和通<b class='flag-5'>發(fā)布</b>AI Buddy產(chǎn)品及解決方案,創(chuàng)新AI智能終端

    標(biāo)貝數(shù)據(jù)標(biāo)注案例分享:車(chē)載語(yǔ)音系統(tǒng)數(shù)據(jù)標(biāo)注

    車(chē)載語(yǔ)音識(shí)別系統(tǒng)是指利用機(jī)器學(xué)習(xí)算法實(shí)現(xiàn)的一種自然語(yǔ)言處理技術(shù),載語(yǔ)音識(shí)別系統(tǒng)通過(guò)辨別聲音的語(yǔ)調(diào)、語(yǔ)速和音量,將所聽(tīng)到的語(yǔ)音轉(zhuǎn)化成可讀取的語(yǔ)
    的頭像 發(fā)表于 12-24 14:24 ?829次閱讀
    標(biāo)貝數(shù)據(jù)標(biāo)注案例分享:車(chē)載<b class='flag-5'>語(yǔ)音</b><b class='flag-5'>系統(tǒng)</b>數(shù)據(jù)標(biāo)注

    基于語(yǔ)音識(shí)別的智能會(huì)議系統(tǒng)具備哪些交互功能

    標(biāo)貝科技專(zhuān)注智能語(yǔ)音交互領(lǐng)域多年,在語(yǔ)音識(shí)別和語(yǔ)音合成領(lǐng)域有著多項(xiàng)大型企業(yè)合作案例,標(biāo)貝與多個(gè)智能會(huì)議系統(tǒng)廠商合作,成功將語(yǔ)音識(shí)別技術(shù)在智能
    的頭像 發(fā)表于 12-20 10:35 ?903次閱讀

    谷歌與三星聯(lián)合發(fā)布Android XR操作系統(tǒng)

    系統(tǒng)整合了谷歌在人工智能、增強(qiáng)現(xiàn)實(shí)(AR)以及虛擬現(xiàn)實(shí)(VR)領(lǐng)域的技術(shù)積累,充分展現(xiàn)了谷歌在技術(shù)創(chuàng)新方面的實(shí)力。通過(guò)這一系統(tǒng),用戶(hù)將能夠享受到更加逼真、生動(dòng)的虛擬世界,以及更加智能、
    的頭像 發(fā)表于 12-16 10:08 ?824次閱讀

    谷歌正式發(fā)布Gemini 2.0 性能提升近兩倍

    在智能體時(shí)代,谷歌再次引領(lǐng)技術(shù)潮流,正式發(fā)布了其最新力作——Gemini 2.0。這款A(yù)I模型不僅在性能上實(shí)現(xiàn)了顯著提升,更是在多模態(tài)表現(xiàn)和原生工具應(yīng)用方面展現(xiàn)了前所未有的強(qiáng)大功能。 Gemini
    的頭像 發(fā)表于 12-12 14:22 ?1128次閱讀