蜜臀AV在线播放,在线观看亚洲成a,美女自视频慰娇喘视频a

自動(dòng)語(yǔ)音辨認(rèn)技術(shù)（ASR，Automatic Speech Recognition）是一種經(jīng)過(guò)讓機(jī)器經(jīng)過(guò)辨認(rèn)和了解的過(guò)程，把人類的語(yǔ)音信號(hào)轉(zhuǎn)變?yōu)橄鄳?yīng)文本的技術(shù)。我們先來(lái)看看語(yǔ)音辨認(rèn)的歷史，其實(shí)早在計(jì)算機(jī)創(chuàng)造之前，有關(guān)ASR技術(shù)的理念就曾經(jīng)降生了，而早期的聲碼器就能夠被視為是語(yǔ)音辨認(rèn)及合成的雛形。而1920年代消費(fèi)的"Radio Rex"玩具狗，可能是早的語(yǔ)音辨認(rèn)器，當(dāng)這只狗的名字被召喚的時(shí)分，它可以從底座上彈出來(lái)。這么看來(lái)論輩分它是阿爾法狗的爺爺……但毫無(wú)疑問(wèn)60年代計(jì)算機(jī)的開(kāi)展推進(jìn)了語(yǔ)音辨認(rèn)技術(shù)技術(shù)，這其中重要的一個(gè)里程碑就是動(dòng)態(tài)規(guī)劃技術(shù)（DP）和線性預(yù)測(cè)剖析技術(shù)（LP），后者又開(kāi)展出了更成熟的動(dòng)態(tài)時(shí)間歸正技術(shù)（DTW），包括矢量量化（VQ）和隱馬爾可夫模型（HMM）理論。但這些還都只是單調(diào)又晦澀的算法，換句話說(shuō)，工程師看到這些玩意也一頭霧水，基本沒(méi)方法疾速在應(yīng)用到理論里。所以在80年代時(shí)，著名的AT&T Bell實(shí)驗(yàn)室經(jīng)過(guò)努力，把本來(lái)深?yuàn)W無(wú)比的HMM純數(shù)學(xué)模型工程化，為應(yīng)用開(kāi)發(fā)打下了重要的基石。到90年代時(shí)，深度神經(jīng)網(wǎng)絡(luò)技術(shù)的打破性開(kāi)展，終于把語(yǔ)音辨認(rèn)技術(shù)本來(lái)的難關(guān)攻破了。所以在我們會(huì)發(fā)現(xiàn)，從21世紀(jì)后語(yǔ)音辨認(rèn)技術(shù)的開(kāi)展就疾速加快了。其實(shí)看起來(lái)高大上的語(yǔ)音辨認(rèn)技術(shù)，原理并沒(méi)有多么復(fù)雜。不管是微軟家的Cortana、三星家的S-voice蘋果家的Siri，還是國(guó)內(nèi)一些獨(dú)立做語(yǔ)音辨認(rèn)的比方訊飛、Rokid，在原理在實(shí)質(zhì)上沒(méi)有幾差別：就是語(yǔ)音輸入后，停止特征提取，將提取的特征值放進(jìn)模型庫(kù)里，再不時(shí)地停止鍛煉和匹配，終解碼得到結(jié)果。

假如要細(xì)說(shuō)的話就比擬復(fù)雜了，比方模型庫(kù)中又分為聲學(xué)模型和言語(yǔ)模型。其中言語(yǔ)模型是依據(jù)不同品種的言語(yǔ)，對(duì)詞串停止統(tǒng)計(jì)建模，目前普遍采用的是基于(n-1)階馬爾可夫鏈統(tǒng)計(jì)的n元語(yǔ)法模型。這里細(xì)致說(shuō)下聲學(xué)建模吧。首先經(jīng)過(guò)前端特征提取取得聲學(xué)特征，再進(jìn)一步對(duì)聲學(xué)特征停止統(tǒng)計(jì)建模。建模運(yùn)用到的貝葉斯統(tǒng)計(jì)建?？蚣?，也就是大后驗(yàn)概率決策原則。這里算法這種深?yuàn)W的東西就不說(shuō)了，除非深度開(kāi)發(fā)，否則直接套用就行了，我本人也是博古通今，還是念書的時(shí)分學(xué)的。說(shuō)說(shuō)提取聲學(xué)特征該如何完成：當(dāng)語(yǔ)音輸入之后，首先停止模電轉(zhuǎn)換，將模仿信號(hào)轉(zhuǎn)變?yōu)?a target="_blank">數(shù)字信號(hào)，再停止靜音切除去掉無(wú)關(guān)噪音，然后停止分幀。將此時(shí)的信號(hào)分紅一幀一幀之后（每一幀并不是獨(dú)立存在的而是相互關(guān)聯(lián)的），還要停止一系列的信號(hào)處置，包括預(yù)加重、加窗之后，再停止FFT變換之后，再經(jīng)過(guò)Mel參數(shù)的濾波和取對(duì)數(shù)、離散余弦變換等一系列算法處置后，能夠停止用梅爾頻率倒譜系數(shù)（MFCC）停止特征提取，得到聲學(xué)特征。覺(jué)得越說(shuō)越復(fù)雜了……后面簡(jiǎn)單點(diǎn)說(shuō)吧。前面說(shuō)了言語(yǔ)模型，而聲學(xué)模型就是將聲學(xué)特征統(tǒng)計(jì)建模后得到的。得到了模型庫(kù)之后就能夠停止模型鍛煉和形式匹配了。所謂模型鍛煉就是指依照一定的原則，從大量已知語(yǔ)音形式中獲取一個(gè)具特征的模型參數(shù)。而形式匹配則相反，是依據(jù)一定原則，將未知語(yǔ)音形式與模型庫(kù)中的某一個(gè)模型取得佳匹配后的解碼過(guò)程又能夠分紅動(dòng)態(tài)解碼網(wǎng)絡(luò)和靜態(tài)解碼網(wǎng)絡(luò)兩種：動(dòng)態(tài)網(wǎng)絡(luò)會(huì)編譯一個(gè)狀態(tài)網(wǎng)絡(luò)并構(gòu)成搜索空間，把單詞轉(zhuǎn)換成一個(gè)個(gè)的音素后將其依照語(yǔ)序拆分紅狀態(tài)序列，再依據(jù)音素上下文分歧性準(zhǔn)繩將狀態(tài)序列停止銜接。而靜態(tài)網(wǎng)絡(luò)普通是針對(duì)一些特殊詞（孤立詞）的辨認(rèn)網(wǎng)絡(luò)，它的構(gòu)造就簡(jiǎn)單多了：先將每條特殊詞擴(kuò)展成HMM狀態(tài)序列，然后再計(jì)算得分，選擇得分大的作為辨認(rèn)輸出結(jié)果。由于靜態(tài)網(wǎng)絡(luò)是依據(jù)聲學(xué)概率計(jì)算權(quán)重，不需求查詢言語(yǔ)模型概率，因而解碼速度很快。這樣的一個(gè)流程大致上就是語(yǔ)音辨認(rèn)技術(shù)的主要原理。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

語(yǔ)音識(shí)別

語(yǔ)音識(shí)別

+關(guān)注

關(guān)注
39

文章
1825

瀏覽量
116250

chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛兴趣闲谈,欧美亚洲精品 8区,国产精品久久久久精品免费

搜索歷史

語(yǔ)音識(shí)別的技術(shù)原理是什么？

評(píng)論