chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線(xiàn)課程
  • 觀(guān)看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

TTS和ASR的概念區(qū)別!TTS的評(píng)判標(biāo)準(zhǔn)

nlfO_thejiangme ? 來(lái)源:未知 ? 作者:李倩 ? 2018-10-13 09:52 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

TTS(Text-To-Speech,語(yǔ)音合成),目前是一個(gè)“小而美”的AI領(lǐng)域,但我個(gè)人覺(jué)得非常有意思,感覺(jué)TTS在未來(lái)會(huì)被行業(yè)真正重視起來(lái),并且會(huì)出現(xiàn)做得不錯(cuò)的創(chuàng)業(yè)公司。

本文,是作者收集了很多線(xiàn)上/線(xiàn)下的相關(guān)信息后,提煉出的AI產(chǎn)品經(jīng)理“最必要”了解的TTS技術(shù)知識(shí)和行業(yè)現(xiàn)狀(多了沒(méi)必要,少了又不足以入門(mén)、準(zhǔn)備面試或工作實(shí)戰(zhàn));不僅幫大家節(jié)省了時(shí)間,更是過(guò)濾了很多無(wú)用信息和過(guò)于技術(shù)的內(nèi)容。

目錄

一、核心概念

二、當(dāng)前技術(shù)邊界

三、瓶頸和機(jī)會(huì)(重點(diǎn))

一、核心概念

1、TTS和ASR的概念區(qū)別

我們比較熟悉的ASR技術(shù)(Automatic Speech Recognition,語(yǔ)音識(shí)別),是將聲音轉(zhuǎn)化為文字,可類(lèi)比于人類(lèi)的耳朵。

而TTS技術(shù)(Text-To-Speech,語(yǔ)音合成),是將文字轉(zhuǎn)化為聲音(朗讀出來(lái)),類(lèi)比于人類(lèi)的嘴巴。大家在Siri等各種語(yǔ)音助手中聽(tīng)到的聲音,都是由TTS來(lái)生成的,并不是真人在說(shuō)話(huà)。

TTS的技術(shù)實(shí)現(xiàn)方法,主要有兩種:“拼接法”和“參數(shù)法”。

2、拼接法

1)定義:從事先錄制的大量語(yǔ)音中,選擇所需的基本單位拼接而成。這樣的單位可以是音節(jié)、音素等等;為了追求合成語(yǔ)音的連貫性,也常常用使用雙音子(從一個(gè)音素的中央到下一個(gè)音素的中央)作為單位。

2)優(yōu)點(diǎn):語(yǔ)音質(zhì)量較高

3)缺點(diǎn):數(shù)據(jù)庫(kù)要求太大。一般需要幾十個(gè)小時(shí)的成品預(yù)料。企業(yè)級(jí)商用的話(huà),需要至少5萬(wàn)句,費(fèi)用成本在幾百萬(wàn)元。

3、參數(shù)法

1)定義:根據(jù)統(tǒng)計(jì)模型來(lái)產(chǎn)生每時(shí)每刻的語(yǔ)音參數(shù)(包括基頻、共振峰頻率等),然后把這些參數(shù)轉(zhuǎn)化為波形。主要分為3個(gè)模塊:前端、后端和聲碼器。

前端做的事情,是把文本進(jìn)行解析,決定每個(gè)字的發(fā)音是什么,這句話(huà)用什么樣的語(yǔ)氣語(yǔ)調(diào),用什么樣的節(jié)奏來(lái)讀,哪些地方是需要強(qiáng)調(diào)的重點(diǎn)等等。常見(jiàn)的語(yǔ)氣相關(guān)的數(shù)據(jù)描述包含但不限于下面這些:韻律邊界,重音,邊界調(diào),甚至情感。 還有更多的信息甚至是難以客觀(guān)描述的,目前的算法只能暫且忽略。

注:拼接法和參數(shù)法,都有前端模塊,拼接和參數(shù)的區(qū)別主要是后端聲學(xué)建模方法的區(qū)別。

2)優(yōu)點(diǎn):數(shù)據(jù)庫(kù)要求相對(duì)較小一些。

如果只需要出聲(做demo),大概500句就可以,但是效果肯定不行。

通用TTS,一般至少需要5000句,6個(gè)小時(shí)(一般錄制800句話(huà),需要1個(gè)小時(shí))。——從前期的準(zhǔn)備、找人、找錄音場(chǎng)地、錄制、數(shù)據(jù)篩選、標(biāo)注,最終成為“可以用的數(shù)據(jù)”,可能至少需要3個(gè)月。(訊飛在各方面比較成熟,用時(shí)會(huì)短很多)

個(gè)性化TTS,大多數(shù)是用“參數(shù)”方法的。(adobe、微軟也有嘗試過(guò)拼接法,不過(guò)相對(duì)參數(shù)方法來(lái)說(shuō)不是太成熟,效果也并不是太通用)

3)缺點(diǎn):質(zhì)量比拼接法差一些。因?yàn)槭苤朴诎l(fā)聲算法,有損失。

因?yàn)橹饕觞c(diǎn)和難點(diǎn)就是聲碼器。聲碼器的作用是復(fù)現(xiàn)聲音信號(hào),難在重現(xiàn)聲音細(xì)節(jié),并且讓人聽(tīng)不出各種雜音、沉悶、機(jī)械感等等。目前常見(jiàn)的聲碼器都是對(duì)聲音信號(hào)本身作各種理論模型以及簡(jiǎn)化假設(shè),可以說(shuō)對(duì)細(xì)節(jié)的描述近似于忽略。

注:DeepMind的WaveNet,基本解決了聲碼器的問(wèn)題。因?yàn)樗麄冎苯訉?duì)語(yǔ)音樣本進(jìn)行預(yù)測(cè),不依賴(lài)任何發(fā)音理論模型。最后出來(lái)的音質(zhì)細(xì)節(jié)十分豐富,基本達(dá)到了與原始語(yǔ)音類(lèi)似的音質(zhì)水準(zhǔn)(所謂質(zhì)量提高了50%,就是這里),而且?guī)缀蹩梢詫?duì)任意聲音建模(這就太牛了)。

4、TTS的評(píng)判標(biāo)準(zhǔn)

1)主觀(guān)測(cè)試(自然度),以MOS為主

A)MOS(Mean Opinion Scores),專(zhuān)家級(jí)評(píng)測(cè)(主觀(guān));1-5分,5分最好。

注:微軟小冰公開(kāi)宣傳是4.3分,但有業(yè)內(nèi)朋友認(rèn)為,也不能據(jù)此就說(shuō)其“絕對(duì)”比科大訊飛好,因?yàn)槊看卧u(píng)審的專(zhuān)家人選都不一樣。說(shuō)白了,目前整個(gè)AI行業(yè)內(nèi),還是各家說(shuō)自己好的節(jié)奏。

B)ABX,普通用戶(hù)評(píng)測(cè)(主觀(guān))。讓用戶(hù)來(lái)試聽(tīng)兩個(gè)TTS系統(tǒng),進(jìn)行對(duì)比,看哪個(gè)好。

C)每次主觀(guān)測(cè)評(píng)應(yīng)該有區(qū)分。比如這次著重聽(tīng)多音字,下次主要聽(tīng)語(yǔ)氣詞等。

2)客觀(guān)測(cè)試

A)對(duì)合成系統(tǒng)產(chǎn)生的聲學(xué)參數(shù)進(jìn)行評(píng)估,一般是計(jì)算歐式距離等(RMSE,LSD)。

B)對(duì)合成系統(tǒng)工程上的測(cè)試:實(shí)時(shí)率(合成耗時(shí)/語(yǔ)音時(shí)長(zhǎng))、首包響應(yīng)時(shí)間(用戶(hù)發(fā)出請(qǐng)求到用戶(hù)感知到的第一包到達(dá)時(shí)間)、內(nèi)存占用、CPU占用、3*24小時(shí)crash率等。

二、技術(shù)邊界

1、通用TTS

1)在用戶(hù)預(yù)期不苛刻的場(chǎng)景(APP/硬件),能滿(mǎn)足商業(yè)化需求,比如語(yǔ)音助手/滴滴/高德/智能音箱/機(jī)器人);但如果用戶(hù)預(yù)期非常高的話(huà),是很難滿(mǎn)足的,因?yàn)檫€是會(huì)有“機(jī)器感/機(jī)械感”,不能非常自然的模擬人聲。

2)目前行業(yè)各家公司的產(chǎn)品效果差不多,都基本能商用。

2、個(gè)性化TTS

1)在用戶(hù)預(yù)期不苛刻的場(chǎng)景,能“基本”滿(mǎn)足商業(yè)化需求,但是效果沒(méi)通用TTS那么好。但如果用戶(hù)預(yù)期非常高的話(huà),暫時(shí)是滿(mǎn)足不了的。

2)目前行業(yè)內(nèi)能成熟商用的,主要還是科大訊飛,也有些創(chuàng)業(yè)公司在這個(gè)領(lǐng)域有所布局,如微量分貝(HEARD)這家致力于海量?jī)?nèi)容音頻化的企業(yè),對(duì)聲音進(jìn)行了分門(mén)別類(lèi)的生成和儲(chǔ)備,他們瞄準(zhǔn)的企業(yè)級(jí)需求也會(huì)更為個(gè)性化、品牌化,諸如阿里巴巴旗下的“動(dòng)物園”品牌(如天貓、閑魚(yú)、盒馬、菜鳥(niǎo)等),都會(huì)生成諸如“小豬佩奇”這樣的角色化TTS 并被商用。

3、情感TTS

1)目前業(yè)界的情感合成更多了,是因?yàn)閿?shù)據(jù)本身變多了、更有節(jié)奏了,超過(guò)了傳統(tǒng)的播音風(fēng)格,但并不是真正的“喜怒哀樂(lè)”等情感合成(想高興就高興的這種智能)。

2)在情感TTS的理論方面,學(xué)術(shù)界是有儲(chǔ)備的,但是,整個(gè)行業(yè)目前都沒(méi)怎么做(或者沒(méi)做好),是因?yàn)榍楦蠺TS很依賴(lài)“情感意圖識(shí)別”,“情感特征挖掘”、“情感數(shù)據(jù)”以及“情感聲學(xué)技術(shù)”等,是個(gè)系統(tǒng)工程。其中第1點(diǎn),即是和自然語(yǔ)言處理相關(guān),比如需要知道“什么時(shí)侯該高興或悲傷”;同時(shí),具有情感演繹的語(yǔ)音數(shù)據(jù)的儲(chǔ)備,也非常重要。

三、瓶頸和機(jī)會(huì)

主要有5個(gè)方向的瓶頸(同時(shí)也是機(jī)會(huì))。

1、基礎(chǔ)技術(shù)

1)TTS技術(shù)正處于重大變革:端到端(End-to-End)的TTS建模方法,加上WaveNet 的聲碼器思想,是未來(lái)TTS的發(fā)展方向。

端到端TTS,一般指tacotron,tacotron只是Google提出的合并了原先時(shí)長(zhǎng)模型和聲學(xué)模型的中段結(jié)構(gòu),可以接任何TTS前端和TTS后端。TTS前端如中文分詞、注音、詞性,都會(huì)提升tacotron性能;后端,參數(shù)、拼接、wavenet都可以選用。

關(guān)于WaveNet技術(shù)的商業(yè)化:Google今年初將第二代WaveNet技術(shù)商業(yè)化了,速度比第一代快一萬(wàn)倍。而國(guó)內(nèi)各家公司,基本也仿制出來(lái)了(論文算法),但工程化還需要時(shí)間,而且成本還是太高,短期內(nèi)應(yīng)該沒(méi)法商用。

關(guān)于效果:TTS最終效果好壞,技術(shù)只占50%不到,在技術(shù)都差不多的情況下,聲優(yōu)質(zhì)量和數(shù)據(jù)量最重要,其次是相同部署規(guī)模和成本的TTS才能相互比較,即,不能簡(jiǎn)單的說(shuō)哪家公司的效果比另一家更好,a)比如,拿百度/騰訊/阿里/圖靈等很多家AI公司的WaveNet v1的效果,一般都能超過(guò)訊飛線(xiàn)上的接口,但部署成本高幾萬(wàn)倍,且不實(shí)時(shí);WaveNet V2商業(yè)化以后,雖然能實(shí)時(shí),但部署成本至少也比高配拼接TTS高10倍左右。b)成本,部分和采樣率相關(guān),例如,訊飛/百度TTS的采樣率都是16k,如果用24k和48k,主觀(guān)體驗(yàn)至少?gòu)?qiáng)50%,但成本會(huì)翻倍;也就是說(shuō),其他AI公司的24kTTS的MOS,能吊打訊飛/百度的API,但不能說(shuō)他們的技術(shù)就比訊飛/百度強(qiáng),因?yàn)樵谏虡I(yè)化時(shí),會(huì)犧牲效果來(lái)降低成本。

2)如何讓離線(xiàn)版效果達(dá)到在線(xiàn)版水平。很多客戶(hù)希望(奢望)有離線(xiàn)版本,并且效果和在線(xiàn)版本一樣好……現(xiàn)階段來(lái)說(shuō),可能真是“臣妾做不到啊”。

2、數(shù)據(jù)缺乏

一方面,特別是個(gè)性化TTS,需要數(shù)據(jù)量更大。比如默認(rèn)男孩聲音,要轉(zhuǎn)成女孩,就比較難。

另一方面,數(shù)據(jù)的獲取(制作)成本和周期,也是各家在初期的競(jìng)爭(zhēng)著力點(diǎn),比如,一般來(lái)說(shuō),一款(套)TTS數(shù)據(jù),至少需要先錄制2-3萬(wàn)句話(huà),再加上數(shù)據(jù)標(biāo)注,通常耗時(shí)在3個(gè)月以上(且需要主播全力配合),對(duì)于30小時(shí)的數(shù)據(jù),價(jià)格通常在30-50萬(wàn),而上文提到的微量分貝(HEARD)這家公司,調(diào)動(dòng)了8000+位優(yōu)質(zhì)播音人員,在給不同內(nèi)容配音的同時(shí),也做了大量結(jié)構(gòu)化數(shù)據(jù)的存儲(chǔ)(庫(kù)存化)。

這樣,針對(duì)大部分客戶(hù)的數(shù)據(jù)需求,并不需要再找主播進(jìn)行錄制,而是直接從倉(cāng)庫(kù)調(diào)取數(shù)據(jù)進(jìn)行解凍即可(數(shù)據(jù)標(biāo)注);通過(guò)將這種“邊進(jìn)行業(yè)務(wù)邊賺取數(shù)據(jù)”的流程標(biāo)準(zhǔn)化,其獲取數(shù)據(jù)的成本大大降低到行業(yè)的五分之一,并且一旦有需求,可以在1個(gè)月內(nèi)進(jìn)行交付。這家公司在南方搭建的數(shù)據(jù)標(biāo)注工場(chǎng)的規(guī)模,也是巨大的,包括華為等公司都從其采購(gòu)語(yǔ)音合成數(shù)據(jù)。

3、人才匱乏

不僅沒(méi)法跟NLP、CV等熱門(mén)AI人才比,就算跟同樣不算熱門(mén)的ASR比,TTS的人才都還要少一些。

4、產(chǎn)品化難度

由于技術(shù)限制,現(xiàn)階段不可能有非常完美的TTS效果,所以:

1)盡量選擇用戶(hù)預(yù)期不苛刻的場(chǎng)景,或者在產(chǎn)品體驗(yàn)設(shè)計(jì)時(shí),管理好用戶(hù)預(yù)期(比如打車(chē)軟件,郭德綱/林志玲的聲音,差不多就行)。

2)選擇“參數(shù)法”還是“拼接法”,和公司的技術(shù)儲(chǔ)備、成本、以及產(chǎn)品目標(biāo)相關(guān)。在垂直領(lǐng)域,現(xiàn)有的TTS技術(shù)(參數(shù)或者拼接)都可以針對(duì)產(chǎn)品做得很好?,F(xiàn)在行業(yè)還沒(méi)有太好的效果,很大原因是因?yàn)楫a(chǎn)品經(jīng)理還沒(méi)有深入介入,有很多細(xì)節(jié)的坑要踩(產(chǎn)品設(shè)計(jì)+工程化實(shí)現(xiàn))——未來(lái)應(yīng)該會(huì)有驚艷的產(chǎn)品出現(xiàn)。

3)體驗(yàn)細(xì)節(jié)設(shè)計(jì),和一般互聯(lián)網(wǎng)產(chǎn)品很不同,比如:

A)文案設(shè)計(jì),非常重要;因?yàn)樵谡Z(yǔ)音交互場(chǎng)景,不能太長(zhǎng),用戶(hù)沒(méi)耐心和時(shí)間聽(tīng)完的。

B)可以加入背景音樂(lè),掩蓋雜音等細(xì)節(jié)瑕疵。

C)特殊場(chǎng)景,還有特別的需求,比如遠(yuǎn)場(chǎng)場(chǎng)景和戴耳機(jī)場(chǎng)景相比,還是會(huì)有區(qū)別的。

D)中英文混合TTS。比如用戶(hù)想播首英語(yǔ)歌曲,困難在于:所有中文的發(fā)音當(dāng)中,中文和英文合拍念出來(lái)是很難的,為什么呢?因?yàn)橥浺舻娜?。錄中文是一批人,錄英文又是一批人。兩種語(yǔ)言結(jié)合起來(lái),再用機(jī)器學(xué)習(xí)學(xué)出來(lái),聲音就會(huì)變得非常怪。這方面,小雅音箱曾經(jīng)花了很大的精力和成本去“死磕”解決。

5、商業(yè)化壓力

1)如果要有足夠的市場(chǎng)競(jìng)爭(zhēng)力,至少需要12個(gè)月的時(shí)間,2~6人團(tuán)隊(duì)(如果有人做過(guò)前端相關(guān)工作,會(huì)節(jié)省巨大成本——工作量主要在中文前端NLP部分,比如分詞、注音、詞性文本規(guī)整化等),幾百萬(wàn)資金投入(1個(gè)GPU一年十萬(wàn),支持并發(fā)只有幾十個(gè))。并且,大公司的先發(fā)優(yōu)勢(shì)巨大,小公司必須切細(xì)分場(chǎng)景。

2)我個(gè)人認(rèn)為,個(gè)性化TTS、情感TTS會(huì)在各細(xì)分場(chǎng)景得到更大的應(yīng)用,比如知識(shí)付費(fèi)、明星IP、智能硬件、車(chē)聯(lián)網(wǎng)、實(shí)體/虛擬機(jī)器人等。

附:相關(guān)資料

1、相關(guān)高校及實(shí)驗(yàn)室

語(yǔ)音合成涉及專(zhuān)業(yè)領(lǐng)域較廣,包含語(yǔ)言學(xué)、聽(tīng)覺(jué)與發(fā)聲機(jī)理、自然語(yǔ)言分析、深度學(xué)習(xí)、信號(hào)處理等諸多領(lǐng)域,是一門(mén)綜合性學(xué)科。

國(guó)際上,英國(guó)愛(ài)丁堡大學(xué)Simon King教授,卡耐基梅隆大學(xué)Alan W Black教授, 日本和歌山大學(xué)Kawahara教授,谷歌Heiga Zen所在的實(shí)驗(yàn)室均為國(guó)際頂級(jí)實(shí)驗(yàn)室。

國(guó)內(nèi)來(lái)說(shuō),中國(guó)學(xué)術(shù)屆也一直走在行業(yè)的前列,國(guó)際語(yǔ)音合成挑戰(zhàn)賽blizzard challenge已經(jīng)連續(xù)10多年冠軍在中國(guó)。國(guó)內(nèi)大部分的語(yǔ)音合成人才,均來(lái)自于中科大、中科院自動(dòng)化所、中科院聲學(xué)所、清華大學(xué)、西北工業(yè)大學(xué)等幾家單位,比如西北工業(yè)大學(xué)的謝磊老師組,已向語(yǔ)音合成屆輸送了大量人才,在微軟、百度、搜狗、小米、IBM、訊飛、流利說(shuō)、出門(mén)問(wèn)問(wèn)、獵戶(hù)星空、同盾等公司的核心崗位上,都有來(lái)自西工大的學(xué)生。

2、參考文章

《目前,人工智能語(yǔ)音在說(shuō)中文時(shí)的語(yǔ)氣感覺(jué)上還比較機(jī)械,怎樣使人工智能語(yǔ)音的語(yǔ)氣更自然一些?》http://t.cn/RFnP7EH

《如何評(píng)價(jià)谷歌下一代語(yǔ)音合成系統(tǒng)WaveNet?》http://t.cn/RFnPUkA

《TTS(Text-To-Speech)的原理是什么?》http://t.cn/RFnPfP1

《百度Deep Voice作者與Bengio團(tuán)隊(duì)探討五大技術(shù)細(xì)節(jié),端到端的語(yǔ)音合成還有多遠(yuǎn)?》http://t.cn/RoUvHAg

3、相關(guān)產(chǎn)品

訊飛配音app、訊飛朗讀助手app、閃電配(http://www.soundems.com )等。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀(guān)點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • AI
    AI
    +關(guān)注

    關(guān)注

    89

    文章

    38091

    瀏覽量

    296579
  • 語(yǔ)音識(shí)別
    +關(guān)注

    關(guān)注

    39

    文章

    1803

    瀏覽量

    115559
  • TTS
    TTS
    +關(guān)注

    關(guān)注

    0

    文章

    62

    瀏覽量

    11453

原文標(biāo)題:語(yǔ)音合成(TTS)技術(shù)的概念、技術(shù)邊界與未來(lái)機(jī)會(huì)

文章出處:【微信號(hào):thejiangmen,微信公眾號(hào):將門(mén)創(chuàng)投】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    使用NVIDIA Triton和TensorRT-LLM部署TTS應(yīng)用的最佳實(shí)踐

    針對(duì)基于 Diffusion 和 LLM 類(lèi)別的 TTS 模型,NVIDIA Triton 和 TensorRT-LLM 方案能顯著提升推理速度。在單張 NVIDIA Ada Lovelace
    的頭像 發(fā)表于 06-12 15:37 ?1300次閱讀
    使用NVIDIA Triton和TensorRT-LLM部署<b class='flag-5'>TTS</b>應(yīng)用的最佳實(shí)踐

    使用google-translate和wwe合并后無(wú)法使用google-tts怎么解決?

    我打算使用lyrat-mini做一個(gè)使用喚醒詞喚醒然后后續(xù)通過(guò)google-sr和google-tts進(jìn)行交流的聊天機(jī)器人,但是當(dāng)我合并了adf的例子中的wwe和google-translate之后
    發(fā)表于 06-28 06:05

    整合離線(xiàn)語(yǔ)音識(shí)別ASRTTS,內(nèi)存映射時(shí)發(fā)生內(nèi)存不足怎么解決?

    整合TTSASR,發(fā)現(xiàn)識(shí)別模型和TTS字典映射沖突,應(yīng)該是只有4M的數(shù)據(jù)空間可以映射導(dǎo)致的,換了16M模組也不行,應(yīng)該不是flash的問(wèn)題,測(cè)試找到返回錯(cuò)誤0x101的位置是 按頁(yè)映射的函數(shù)里
    發(fā)表于 06-28 07:34

    【W(wǎng)RTnode2R申請(qǐng)】TTS中文語(yǔ)音處理

    申請(qǐng)理由:想用WRTnode做TTS中文語(yǔ)音處理項(xiàng)目描述:想用WRTnode做TTS中文語(yǔ)音處理
    發(fā)表于 09-10 11:26

    怎樣通過(guò)ekho8.0去實(shí)現(xiàn)tts技術(shù)呢

    本文通過(guò)ekho8.0實(shí)現(xiàn)的tts技術(shù)能夠準(zhǔn)確讀出英文、初步實(shí)現(xiàn)語(yǔ)法語(yǔ)義分析。能識(shí)別大部分多音字成語(yǔ)、正確讀出年月日。并且由于ekho采用基于人錄音的語(yǔ)料庫(kù)的聲音較其他大部分開(kāi)源TTS引擎都平滑自然。支持普通話(huà)、***話(huà)、客家話(huà)、藏語(yǔ)和英語(yǔ)等。
    發(fā)表于 11-04 06:01

    CB5654開(kāi)發(fā)應(yīng)用TTS

    前段時(shí)間實(shí)現(xiàn)一個(gè)播放SD的里的音樂(lè)的功能!今天試著實(shí)現(xiàn)讀取SD卡里的文件,并用TTS播放文件內(nèi)容!從文檔里我們可以知道該功能只用到了部分功能,如圖: 比如文件內(nèi)容如下:沁園春·雪作者*** 朝代
    發(fā)表于 03-08 06:37

    基于TTS技術(shù)和腦電采集設(shè)備的精神疲勞實(shí)驗(yàn)系統(tǒng)設(shè)計(jì)

    在精神疲勞研究中,能客觀(guān)地反映精神疲勞狀態(tài)的實(shí)驗(yàn)系統(tǒng)是研究的基礎(chǔ)。本文基于語(yǔ)音合成技術(shù)TTS,結(jié)合腦電采集設(shè)備,利用Microsoft Speech SDK語(yǔ)音開(kāi)發(fā)包、TTS引擎和微軟MFC基礎(chǔ)類(lèi)庫(kù),
    發(fā)表于 04-15 18:53 ?19次下載
    基于<b class='flag-5'>TTS</b>技術(shù)和腦電采集設(shè)備的精神疲勞實(shí)驗(yàn)系統(tǒng)設(shè)計(jì)

    液晶電源p42TTS-0060電路圖紙

    p42TTS-0060電路圖紙免費(fèi)下載。
    發(fā)表于 12-27 11:45 ?0次下載

    使用balena部署B(yǎng)asics Station TTS LoRa網(wǎng)關(guān)

    電子發(fā)燒友網(wǎng)站提供《使用balena部署B(yǎng)asics Station TTS LoRa網(wǎng)關(guān).zip》資料免費(fèi)下載
    發(fā)表于 06-15 10:10 ?0次下載
    使用balena部署B(yǎng)asics Station <b class='flag-5'>TTS</b> LoRa網(wǎng)關(guān)

    TTS語(yǔ)音合成技術(shù)及其應(yīng)用

    TTS語(yǔ)音合成技術(shù)是一種將文本轉(zhuǎn)換為自然語(yǔ)音的技術(shù),它利用計(jì)算機(jī)技術(shù)和人工智能技術(shù)來(lái)模擬人聲的發(fā)音和語(yǔ)調(diào)。該技術(shù)通過(guò)將文本轉(zhuǎn)換為音素序列,并使用聲學(xué)模型對(duì)每個(gè)音素進(jìn)行參數(shù)化,最終生成自然語(yǔ)音
    的頭像 發(fā)表于 06-24 02:28 ?2038次閱讀

    TTS語(yǔ)音合成技術(shù)的挑戰(zhàn)和未來(lái)發(fā)展

    TTS語(yǔ)音合成技術(shù)在實(shí)現(xiàn)過(guò)程中面臨著一些挑戰(zhàn)和問(wèn)題。 首先,TTS語(yǔ)音合成技術(shù)需要處理自然語(yǔ)言理解和語(yǔ)音識(shí)別等復(fù)雜的問(wèn)題,如何提高技術(shù)的準(zhǔn)確率和效率是TTS語(yǔ)音合成技術(shù)需要解決的問(wèn)題之一。其次
    的頭像 發(fā)表于 06-24 03:18 ?1838次閱讀

    基于GPS和TTS的自動(dòng)報(bào)站器方案設(shè)計(jì)

    電子發(fā)燒友網(wǎng)站提供《基于GPS和TTS的自動(dòng)報(bào)站器方案設(shè)計(jì).pdf》資料免費(fèi)下載
    發(fā)表于 10-08 10:21 ?1次下載
    基于GPS和<b class='flag-5'>TTS</b>的自動(dòng)報(bào)站器方案設(shè)計(jì)

    玩轉(zhuǎn)語(yǔ)音合成芯片(TTS芯片),看這一篇就夠了

    什么是語(yǔ)音合成芯片:語(yǔ)音合成芯片也稱(chēng)為TTS芯片,即文字轉(zhuǎn)語(yǔ)音芯片,是一種能夠?qū)⑤斎氲奈淖中畔⑥D(zhuǎn)換為語(yǔ)音輸出的芯片。通過(guò)TTS芯片,我們可以將文字信息轉(zhuǎn)化為自然語(yǔ)音,實(shí)現(xiàn)人機(jī)語(yǔ)音交互。
    的頭像 發(fā)表于 03-19 18:13 ?2871次閱讀
    玩轉(zhuǎn)語(yǔ)音合成芯片(<b class='flag-5'>TTS</b>芯片),看這一篇就夠了

    TTS語(yǔ)音播報(bào)控制器應(yīng)用場(chǎng)景

    TTS(Text-to-Speech)語(yǔ)音播報(bào)控制器,作為一種能夠?qū)⑽谋拘畔⑥D(zhuǎn)換為語(yǔ)音輸出的技術(shù)設(shè)備,在現(xiàn)代社會(huì)的各個(gè)領(lǐng)域中都展現(xiàn)出了廣泛的應(yīng)用前景。 應(yīng)用場(chǎng)景 教育領(lǐng)域:對(duì)于視力障礙的學(xué)生而言
    的頭像 發(fā)表于 02-18 16:15 ?1285次閱讀

    TTS語(yǔ)音播報(bào)模塊簡(jiǎn)介

    在現(xiàn)代科技日新月異的時(shí)代,語(yǔ)音技術(shù)作為人工智能領(lǐng)域的重要分支,正以前所未有的速度改變著我們的生活方式。其中,TTS(Text To Speech,文本轉(zhuǎn)語(yǔ)音)語(yǔ)音播報(bào)模塊作為連接數(shù)字世界與人類(lèi)聽(tīng)覺(jué)
    的頭像 發(fā)表于 02-18 16:16 ?1880次閱讀