国产欧美日韩中文久久试看,国产亚洲人成V品,亚洲国内自拍色

語(yǔ)音識(shí)別作為信息技術(shù)中一種人機(jī)接口的關(guān)鍵技術(shù)，具有重要的研究意義和廣泛的應(yīng)用價(jià)值。介紹了語(yǔ)音識(shí)別技術(shù)發(fā)展的歷程，具體闡述了語(yǔ)音識(shí)別概念、基本原理、聲學(xué)建模方法等基本知識(shí)，并對(duì)語(yǔ)音識(shí)別技術(shù)在各領(lǐng)域的應(yīng)用作了簡(jiǎn)要介紹。

語(yǔ)言是人類(lèi)相互交流最常用、最有效、最重要和最方便的通信形式，語(yǔ)音是語(yǔ)言的聲學(xué)表現(xiàn)，與機(jī)器進(jìn)行語(yǔ)音交流是人類(lèi)一直以來(lái)的夢(mèng)想。隨著計(jì)算機(jī)技術(shù)的飛速發(fā)展，語(yǔ)音識(shí)別技術(shù)也取得突破性的成就，人與機(jī)器用自然語(yǔ)言進(jìn)行對(duì)話的夢(mèng)想逐步接近實(shí)現(xiàn)。語(yǔ)音識(shí)別技術(shù)的應(yīng)用范圍極為廣泛，不僅涉及到日常生活的方方面面，在軍事領(lǐng)域也發(fā)揮著極其重要的作用。它是信息社會(huì)朝著智能化和自動(dòng)化發(fā)展的關(guān)鍵技術(shù)，使人們對(duì)信息的處理和獲取更加便捷，從而提高人們的工作效率。

1 語(yǔ)音識(shí)別技術(shù)的發(fā)展

語(yǔ)音識(shí)別技術(shù)起始于20世紀(jì)50年代。這一時(shí)期，語(yǔ)音識(shí)別的研究主要集中在對(duì)元音、輔音、數(shù)字以及孤立詞的識(shí)別。

20世紀(jì)60年代，語(yǔ)音識(shí)別研究取得實(shí)質(zhì)性進(jìn)展。線性預(yù)測(cè)分析和動(dòng)態(tài)規(guī)劃的提出較好地解決了語(yǔ)音信號(hào)模型的產(chǎn)生和語(yǔ)音信號(hào)不等長(zhǎng)兩個(gè)問(wèn)題，并通過(guò)語(yǔ)音信號(hào)的線性預(yù)測(cè)編碼，有效地解決了語(yǔ)音信號(hào)的特征提取。

2O世紀(jì)70年代，語(yǔ)音識(shí)別技術(shù)取得突破性進(jìn)展?；趧?dòng)態(tài)規(guī)劃的動(dòng)態(tài)時(shí)間規(guī)整（Dynamic Time Warping，DTW）技術(shù)基本成熟，特別提出了矢量量化（Vector Quantization，VQ）和隱馬爾可夫模型（Hidden Markov Model，HMM）理論。

20世紀(jì)80年代，語(yǔ)音識(shí)別任務(wù)開(kāi)始從孤立詞、連接詞的識(shí)別轉(zhuǎn)向大詞匯量、非特定人、連續(xù)語(yǔ)音的識(shí)別，識(shí)別算法也從傳統(tǒng)的基于標(biāo)準(zhǔn)模板匹配的方法轉(zhuǎn)向基于統(tǒng)計(jì)模型的方法。在聲學(xué)模型方面，由于HMM能夠很好的描述語(yǔ)音時(shí)變性和平穩(wěn)性，開(kāi)始被廣泛應(yīng)用于大詞匯量連續(xù)語(yǔ)音識(shí)別（Large Vocabulary Continous Speech Recognition，LVCSR）的聲學(xué)建模；在語(yǔ)言模型方面，以N元文法為代表的統(tǒng)計(jì)語(yǔ)言模型開(kāi)始廣泛應(yīng)用于語(yǔ)音識(shí)別系統(tǒng) 。在這一階段，基于HMM/VQ、HMM/高斯混合模型、HMM/人工神經(jīng)網(wǎng)絡(luò)的語(yǔ)音建模方法開(kāi)始廣泛應(yīng)用于LVCSR系統(tǒng)，語(yǔ)音識(shí)別技術(shù)取得新突破。

20世紀(jì)90年代以后，伴隨著語(yǔ)音識(shí)別系統(tǒng)走向?qū)嵱没Z(yǔ)音識(shí)別在細(xì)化模型的設(shè)計(jì)、參數(shù)提取和優(yōu)化、系統(tǒng)的自適應(yīng)方面取得較大進(jìn)展。同時(shí)，人們更多地關(guān)注話者自適應(yīng)、聽(tīng)覺(jué)模型、快速搜索識(shí)別算法以及進(jìn)一步的語(yǔ)言模型的研究等課題。此外，語(yǔ)音識(shí)別技術(shù)開(kāi)始與其他領(lǐng)域相關(guān)技術(shù)進(jìn)行結(jié)合，以提高識(shí)別的準(zhǔn)確率，便于實(shí)現(xiàn)語(yǔ)音識(shí)別技術(shù)的產(chǎn)品化。

2 語(yǔ)音識(shí)別基礎(chǔ)

2．1 語(yǔ)音識(shí)別概念

語(yǔ)音識(shí)別是將人類(lèi)的聲音信號(hào)轉(zhuǎn)化為文字或者指令的過(guò)程。語(yǔ)音識(shí)別以語(yǔ)音為研究對(duì)象，它是語(yǔ)音信號(hào)處理的一個(gè)重要研究方向，是模式識(shí)別的一個(gè)分支。語(yǔ)音識(shí)別的研究涉及微機(jī)技術(shù)、人工智能、數(shù)字信號(hào)處理、模式識(shí)別、聲學(xué)、語(yǔ)言學(xué)和認(rèn)知科學(xué)等許多學(xué)科領(lǐng)域，是一個(gè)多學(xué)科綜合性研究領(lǐng)域。

根據(jù)在不同限制條件下的研究任務(wù)，產(chǎn)生了不同的研究領(lǐng)域。這些領(lǐng)域包括：根據(jù)對(duì)說(shuō)話人說(shuō)話方式的要求，可分為孤立字（詞）、連接詞和連續(xù)語(yǔ)音識(shí)別系統(tǒng)；根據(jù)對(duì)說(shuō)話人的依賴程度，可分為特定人和非特定人語(yǔ)音識(shí)別系統(tǒng)；根據(jù)詞匯量的大小，可分為小詞匯量、中等詞匯量、大詞匯量以及無(wú)限詞匯量語(yǔ)音識(shí)別系統(tǒng)。

2．2 語(yǔ)音識(shí)別基本原理

從語(yǔ)音識(shí)別模型的角度講，主流的語(yǔ)音識(shí)別系統(tǒng)理論是建立在統(tǒng)計(jì)模式識(shí)別基礎(chǔ)之上的。語(yǔ)音識(shí)別的目標(biāo)是利用語(yǔ)音學(xué)與語(yǔ)言學(xué)信息，把輸入的語(yǔ)音特征向量序列X=x1，x2，……，xT轉(zhuǎn)化成詞序列W=w1，w2，……，wN并輸出。基于最大后驗(yàn)概率的語(yǔ)音識(shí)別模型如下式所示：

上式表明，要尋找的最可能的詞序列，應(yīng)該使P（X|W）與P（W）的乘積達(dá)到最大。其中，P（X|W）是特征矢量序列X在給定W條件下的條件概率，由聲學(xué)模型決定。P（W）是W獨(dú)立于語(yǔ)音特征矢量的先驗(yàn)概率，由語(yǔ)言模型決定。由于將概率取對(duì)數(shù)不影響W的選取，第四個(gè)等式成立。logP（X|W）與logP（W）分別表示聲學(xué)得分與語(yǔ)言得分，且分別通過(guò)聲學(xué)模型與語(yǔ)言模型計(jì)算得到。A是平衡聲學(xué)模型與語(yǔ)言模型的權(quán)重。從語(yǔ)音識(shí)別系統(tǒng)構(gòu)成的角度講，一個(gè)完整的語(yǔ)音識(shí)別系統(tǒng)包括特征提取、聲學(xué)模型、語(yǔ)言模型、搜索算法等模塊。語(yǔ)音識(shí)別系統(tǒng)本質(zhì)上是一種多維模式識(shí)別系統(tǒng)，對(duì)于不同的語(yǔ)音識(shí)別系統(tǒng)，人們所采用的具體識(shí)別方法及技術(shù)不同，但其基本原理都是相同的，即將采集到的語(yǔ)音信號(hào)送到特征提取模塊處理，將所得到的語(yǔ)音特征參數(shù)送入模型庫(kù)模塊，由聲音模式匹配模塊根據(jù)模型庫(kù)對(duì)該段語(yǔ)音進(jìn)行識(shí)別，最后得出識(shí)別結(jié)果。

語(yǔ)音識(shí)別系統(tǒng)基本原理框圖如圖1所示，其中：預(yù)處理模塊濾除原始語(yǔ)音信號(hào)中的次要信息及背景噪音等，包括抗混疊濾波、預(yù)加重、模／數(shù)轉(zhuǎn)換、自動(dòng)增益控制等處理過(guò)程，將語(yǔ)音信號(hào)數(shù)字化；特征提取模塊對(duì)語(yǔ)音的聲學(xué)參數(shù)進(jìn)行分析后提取出語(yǔ)音特征參數(shù)，形成特征矢量序列。語(yǔ)音識(shí)別系統(tǒng)常用的特征參數(shù)有短時(shí)平均幅度、短時(shí)平均能量、線性預(yù)測(cè)編碼系數(shù)、短時(shí)頻譜等。特征提取和選擇是構(gòu)建系統(tǒng)的關(guān)鍵，對(duì)識(shí)別效果極為重要。

圖1 語(yǔ)音識(shí)別基本原理框圖

由于語(yǔ)音信號(hào)本質(zhì)上屬于非平穩(wěn)信號(hào)，目前對(duì)語(yǔ)音信號(hào)的分析是建立在短時(shí)平穩(wěn)性假設(shè)之上的。在對(duì)語(yǔ)音信號(hào)作短時(shí)平穩(wěn)假設(shè)后，通過(guò)對(duì)語(yǔ)音信號(hào)進(jìn)行加窗，實(shí)現(xiàn)短時(shí)語(yǔ)音片段上的特征提取。這些短時(shí)片段被稱(chēng)為幀，以幀為單位的特征序列構(gòu)成語(yǔ)音識(shí)別系統(tǒng)的輸人。由于梅爾倒譜系數(shù)及感知線性預(yù)測(cè)系數(shù)能夠從人耳聽(tīng)覺(jué)特性的角度準(zhǔn)確刻畫(huà)語(yǔ)音信號(hào)，已經(jīng)成為目前主流的語(yǔ)音特征。為補(bǔ)償幀間獨(dú)立性假設(shè)，人們?cè)谑褂妹窢柕棺V系數(shù)及感知線性預(yù)測(cè)系數(shù)時(shí)，通常加上它們的一階、二階差分，以引入信號(hào)特征的動(dòng)態(tài)特征。

聲學(xué)模型是語(yǔ)音識(shí)別系統(tǒng)中最為重要的部分之一。聲學(xué)建模涉及建模單元選取、模型狀態(tài)聚類(lèi)、模型參數(shù)估計(jì)等很多方面。在目前的LVCSR系統(tǒng)中，普遍采用上下文相關(guān)的模型作為基本建模單元，以刻畫(huà)連續(xù)語(yǔ)音的協(xié)同發(fā)音現(xiàn)象。在考慮了語(yǔ)境的影響后，聲學(xué)模型的數(shù)量急劇增加，LVCSR系統(tǒng)通常采用狀態(tài)聚類(lèi)的方法壓縮聲學(xué)參數(shù)的數(shù)量，以簡(jiǎn)化模型的訓(xùn)練。在訓(xùn)練過(guò)程中，系統(tǒng)對(duì)若干次訓(xùn)練語(yǔ)音進(jìn)行預(yù)處理，并通過(guò)特征提取得到特征矢量序列，然后由特征建模模塊建立訓(xùn)練語(yǔ)音的參考模式庫(kù)。

搜索是在指定的空間當(dāng)中，按照一定的優(yōu)化準(zhǔn)則，尋找最優(yōu)詞序列的過(guò)程。搜索的本質(zhì)是問(wèn)題求解，廣泛應(yīng)用于語(yǔ)音識(shí)別、機(jī)器翻譯等人工智能和模式識(shí)別的各個(gè)領(lǐng)域。它通過(guò)利用已掌握的知識(shí)（聲學(xué)知識(shí)、語(yǔ)音學(xué)知識(shí)、詞典知識(shí)、語(yǔ)言模型知識(shí)等），在狀態(tài)（從高層至底層依次為詞、聲學(xué)模型、HMM狀態(tài)）空間中找到最優(yōu)的狀態(tài)序列。最終的詞序列是對(duì)輸入的語(yǔ)音信號(hào)在一定準(zhǔn)則下的一個(gè)最優(yōu)描述。在識(shí)別階段，將輸入語(yǔ)音的特征矢量參數(shù)同訓(xùn)練得到的參考模板庫(kù)中的模式進(jìn)行相似性度量比較，將相似度最高的模式所屬的類(lèi)別作為識(shí)別中間候選結(jié)果輸出。為了提高識(shí)別的正確率，在后處理模塊中對(duì)上述得到的候選識(shí)別結(jié)果繼續(xù)處理，包括通過(guò)Lattice重打分融合更高元的語(yǔ)言模型、通過(guò)置信度度量得到識(shí)別結(jié)果的可靠程度等。最終通過(guò)增加約束，得到更可靠的識(shí)別結(jié)果。

2．3 聲學(xué)建模方法

常用的聲學(xué)建模方法包含以下三種：基于模式匹配的動(dòng)態(tài)時(shí)間規(guī)整法（DTW）；隱馬爾可夫模型法（HMM）；基于人工神經(jīng)網(wǎng)絡(luò)識(shí)別法（ANN）等。

DTW 是較早的一種模式匹配的方法。它基于動(dòng)態(tài)規(guī)劃的思想，解決孤立詞語(yǔ)音識(shí)別中的語(yǔ)音信號(hào)特征參數(shù)序列比較時(shí)長(zhǎng)度不一的模板匹配問(wèn)題在實(shí)際應(yīng)用中，DTW通過(guò)計(jì)算已預(yù)處理和分幀的語(yǔ)音信號(hào)與參考模板之間的相似度，再按照某種距離測(cè)度計(jì)算出模板間的相似度并選擇最佳路徑。

HMM是對(duì)語(yǔ)音信號(hào)的時(shí)間序列結(jié)構(gòu)所建立的統(tǒng)計(jì)模型，是在馬爾可夫鏈的基礎(chǔ)上發(fā)展起來(lái)的，它是一種基于參數(shù)模型的統(tǒng)計(jì)識(shí)別方法。HMM可模仿人的言語(yǔ)過(guò)程，可視作一個(gè)雙重隨機(jī)過(guò)程：一個(gè)是用具有有限狀態(tài)數(shù)的馬爾可夫鏈來(lái)模擬語(yǔ)音信號(hào)統(tǒng)計(jì)特性變化的隱含的隨機(jī)過(guò)程，另一個(gè)是與馬爾可夫鏈的每一個(gè)狀態(tài)相關(guān)聯(lián)的觀測(cè)序列的隨機(jī)過(guò)程。

ANN以數(shù)學(xué)模型模擬神經(jīng)元活動(dòng)，將人工神經(jīng)網(wǎng)絡(luò)中大量神經(jīng)元并行分布運(yùn)算的原理、高效的學(xué)習(xí)算法以及對(duì)人的認(rèn)知系統(tǒng)的模仿能力充分運(yùn)用到語(yǔ)音識(shí)別領(lǐng)域，并結(jié)合神經(jīng)網(wǎng)絡(luò)和隱含馬爾可夫模型的識(shí)別算法，克服了ANN在描述語(yǔ)音信號(hào)時(shí)間動(dòng)態(tài)特性方面的缺點(diǎn)，進(jìn)一步提高了語(yǔ)音識(shí)別的魯棒性和準(zhǔn)確率。其中成功的方法就是在混合模型中用ANN替代高斯混合模型估計(jì)音素或狀態(tài)的后驗(yàn)概率。2011年，微軟以深度神經(jīng)網(wǎng)絡(luò)替代多層感知機(jī)形成的混合模型系統(tǒng)大大提高了語(yǔ)音識(shí)別的準(zhǔn)確率。

3 語(yǔ)音識(shí)別的應(yīng)用

語(yǔ)音識(shí)別技術(shù)有著非常廣泛的應(yīng)用領(lǐng)域和市場(chǎng)前景。在語(yǔ)音輸入控制系統(tǒng)中，它使得人們可以甩掉鍵盤(pán)，通過(guò)識(shí)別語(yǔ)音中的要求、請(qǐng)求、命令或詢問(wèn)來(lái)作出正確的響應(yīng)，這樣既可以克服人工鍵盤(pán)輸入速度慢，極易出差錯(cuò)的缺點(diǎn)，又有利于縮短系統(tǒng)的反應(yīng)時(shí)間，使人機(jī)交流變得簡(jiǎn)便易行，比如用于聲控語(yǔ)音撥號(hào)系統(tǒng)、聲控智能玩具、智能家電等領(lǐng)域。在智能對(duì)話查詢系統(tǒng)中，人們通過(guò)語(yǔ)音命令，可以方便地從遠(yuǎn)端的數(shù)據(jù)庫(kù)系統(tǒng)中查詢與提取有關(guān)信息，享受自然、友好的數(shù)據(jù)庫(kù)檢索服務(wù)，例如信息網(wǎng)絡(luò)查詢、醫(yī)療服務(wù)、銀行服務(wù)等。語(yǔ)音識(shí)別技術(shù)還可以應(yīng)用于自動(dòng)口語(yǔ)翻譯，即通過(guò)將口語(yǔ)識(shí)別技術(shù)、機(jī)器翻譯技術(shù)、語(yǔ)音合成技術(shù)等相結(jié)合，可將一種語(yǔ)言的語(yǔ)音輸入翻譯為另一種語(yǔ)言的語(yǔ)音輸出，實(shí)現(xiàn)跨語(yǔ)言交流。

語(yǔ)音識(shí)別技術(shù)在軍事斗爭(zhēng)領(lǐng)域里也有著極為重要的應(yīng)用價(jià)值和極其廣闊的應(yīng)用空間。一些語(yǔ)音識(shí)別技術(shù)就是著眼于軍事活動(dòng)而研發(fā)，并在軍事領(lǐng)域首先應(yīng)用、首獲成效的，軍事應(yīng)用對(duì)語(yǔ)音識(shí)別系統(tǒng)的識(shí)別精度、響應(yīng)時(shí)間、惡劣環(huán)境下的頑健性都提出了更高的要求。目前，語(yǔ)音識(shí)別技術(shù)已在軍事指揮和控制自動(dòng)化方面得以應(yīng)用。比如，將語(yǔ)音識(shí)別技術(shù)應(yīng)用于航空飛行控制，可快速提高作戰(zhàn)效率和減輕飛行員的工作負(fù)擔(dān)，飛行員利用語(yǔ)音輸人來(lái)代替?zhèn)鹘y(tǒng)的手動(dòng)操作和控制各種開(kāi)關(guān)和設(shè)備，以及重新改編或排列顯示器上的顯示信息等，可使飛行員把時(shí)間和精力集中于對(duì)攻擊目標(biāo)的判斷和完成其他操作上來(lái)，以便更快獲得信息來(lái)發(fā)揮戰(zhàn)術(shù)優(yōu)勢(shì)。

4 結(jié)語(yǔ)

語(yǔ)音識(shí)別的研究工作對(duì)于信息化社會(huì)的發(fā)展，人們生活水平的提高等方面有著深遠(yuǎn)的意義。隨著計(jì)算機(jī)信息技術(shù)的不斷發(fā)展，語(yǔ)音識(shí)別技術(shù)將取得更多重大突破，語(yǔ)音識(shí)別系統(tǒng)的研究將會(huì)更加深入，有著更加廣闊的發(fā)展空間。

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

語(yǔ)音識(shí)別

語(yǔ)音識(shí)別

+關(guān)注

關(guān)注
39

文章
1825

瀏覽量
116240

chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛兴趣闲谈,欧美亚洲精品 8区,国产精品久久久久精品免费

搜索歷史

簡(jiǎn)要介紹語(yǔ)音識(shí)別技術(shù)在各領(lǐng)域的應(yīng)用

評(píng)論