国产亚洲日韩a在线,想要做视频,私人玩物爆乳VIP

集微網(wǎng)消息，近年來(lái)，語(yǔ)音識(shí)別技術(shù)得到了迅猛的發(fā)展，這得益于人工智能的快速發(fā)展，其中最為主要的學(xué)業(yè)界的各大神經(jīng)網(wǎng)絡(luò)的出現(xiàn)，包括基礎(chǔ)的序列神經(jīng)網(wǎng)絡(luò)模型RNN、LSTM和GRU。語(yǔ)音識(shí)別技術(shù)也已經(jīng)進(jìn)入到各行各業(yè)中，如工業(yè)、家電、通信和汽車(chē)電子等。于是，對(duì)于語(yǔ)音識(shí)別技術(shù)的要求也將更加嚴(yán)格了，更傾向于走向準(zhǔn)確化和便捷化。

以往，構(gòu)建語(yǔ)音識(shí)別模型主要是使用HMM的序列模型，再使用手工工程化部件來(lái)實(shí)現(xiàn)整個(gè)流水線(xiàn)操作，并且對(duì)于不同的語(yǔ)言的語(yǔ)音需要重新構(gòu)建模型的結(jié)果特征。對(duì)此，國(guó)內(nèi)語(yǔ)音識(shí)別技術(shù)第一梯隊(duì)公司百度便提出了使用端對(duì)端的神經(jīng)網(wǎng)絡(luò)模型來(lái)進(jìn)行語(yǔ)音識(shí)別工作，該專(zhuān)利為“端對(duì)端語(yǔ)音識(shí)別”（專(zhuān)利號(hào)：CN107408111A）。

首先，小編在這先介紹一下神經(jīng)網(wǎng)絡(luò)端對(duì)端的學(xué)習(xí)方式。對(duì)于語(yǔ)音識(shí)別來(lái)說(shuō)，端到端深度學(xué)習(xí)做的是，訓(xùn)練一個(gè)深度神經(jīng)網(wǎng)絡(luò)，輸入就是一段音頻，輸出直接是聽(tīng)寫(xiě)文本。其中這里的端表示輸入源數(shù)據(jù)端，另外一端是神經(jīng)網(wǎng)絡(luò)處理的結(jié)果也就是我們最終需要的目標(biāo)。這種訓(xùn)練學(xué)習(xí)的方式能應(yīng)對(duì)多種語(yǔ)言的語(yǔ)音識(shí)別的場(chǎng)景構(gòu)建，因?yàn)閮H僅是需要改變輸入端和輸出端，深度神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)并不需要根據(jù)語(yǔ)言的語(yǔ)音不同而改變。

專(zhuān)利中提出的端對(duì)端的深度學(xué)習(xí)模型的架構(gòu)圖如圖1所示。該架構(gòu)包括訓(xùn)練以攝取語(yǔ)譜并生成文本的遞歸神經(jīng)網(wǎng)絡(luò)模型。首先，使用一個(gè)或更多個(gè)卷積層對(duì)語(yǔ)譜進(jìn)行特征提取，緊接著，使用一個(gè)或多個(gè)遞歸層（雙向GRU神經(jīng)網(wǎng)絡(luò)）對(duì)語(yǔ)譜的特征進(jìn)行時(shí)序建模。最后再使用全連接層將遞歸層獲取的語(yǔ)譜信息進(jìn)行全連接作為CTC（鏈結(jié)式時(shí)間分類(lèi)算法：重點(diǎn)解決輸入數(shù)據(jù)與給定標(biāo)簽的對(duì)齊問(wèn)題）的輸入，經(jīng)過(guò)Softmax計(jì)算輸出各個(gè)文本標(biāo)簽的概率。

圖1端對(duì)端深度學(xué)習(xí)模型架構(gòu)圖

經(jīng)過(guò)上述端對(duì)端深度學(xué)習(xí)模型構(gòu)建后，專(zhuān)利中還給出了端對(duì)端深度學(xué)習(xí)模型的訓(xùn)練方法，如圖2所示。

百度端對(duì)端語(yǔ)音識(shí)別專(zhuān)利揭秘

圖2 端對(duì)端深度學(xué)習(xí)模型訓(xùn)練方法圖

首先需要為模型設(shè)置好，輸入端和輸出端，對(duì)于語(yǔ)音識(shí)別技術(shù)來(lái)說(shuō)，輸入端為一時(shí)間序列頻譜幀的話(huà)語(yǔ)X，輸出端是與話(huà)語(yǔ)X具有相關(guān)聯(lián)的真實(shí)標(biāo)簽Y。

構(gòu)建深度神經(jīng)網(wǎng)絡(luò)模型（包括一個(gè)或多個(gè)卷積層和一個(gè)或多個(gè)遞歸層的模型）用來(lái)預(yù)測(cè)一個(gè)或多個(gè)字符也就是我們輸出端的標(biāo)簽。

根據(jù)網(wǎng)絡(luò)模型的輸出端的標(biāo)簽的概率分布與真實(shí)標(biāo)簽的誤差計(jì)算損失函數(shù)，提供損失函數(shù)推出標(biāo)簽預(yù)測(cè)的誤差，再使用梯度反向傳播算法更新模型參數(shù)。從而達(dá)到網(wǎng)絡(luò)模型學(xué)習(xí)的目的。

百度公司提出的端對(duì)端神經(jīng)網(wǎng)絡(luò)模型來(lái)進(jìn)行語(yǔ)音識(shí)別，成功的代替了手工工程化部件的流水線(xiàn)操作，這讓整個(gè)語(yǔ)音識(shí)別技術(shù)更加便捷，而使用神經(jīng)網(wǎng)絡(luò)來(lái)抽取輸入端的特征信息相當(dāng)于人功抽取特征則更加全面，這讓整個(gè)語(yǔ)音識(shí)別技術(shù)更加準(zhǔn)確。從這兩方面來(lái)看，端對(duì)端的神經(jīng)網(wǎng)絡(luò)模型確實(shí)是讓語(yǔ)音識(shí)別技術(shù)走向了便捷化，準(zhǔn)確化。

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

百度

百度

+關(guān)注

關(guān)注
9

文章
2389

瀏覽量
95218
語(yǔ)音識(shí)別

語(yǔ)音識(shí)別

+關(guān)注

關(guān)注
39

文章
1825

瀏覽量
116240

chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛兴趣闲谈,欧美亚洲精品 8区,国产精品久久久久精品免费

搜索歷史

百度端對(duì)端語(yǔ)音識(shí)別專(zhuān)利揭秘

評(píng)論