谷歌利用序列轉(zhuǎn)導(dǎo)來實(shí)現(xiàn)多人語音識(shí)別和說話人分類

傳統(tǒng)的說話人分類系統(tǒng)依賴于人聲的聲學(xué)差異識(shí)別出對(duì)話中不同的說話人。根據(jù)男人和女人的音高，僅僅使用簡(jiǎn)單的聲學(xué)模型（例如，混合高斯模型），就可以在一步中相對(duì)容易地將他們區(qū)分開來。然而，想要區(qū)分處音高可能相近的說話者，說話者分類系統(tǒng)就需要使用多步方法了。首先，基于檢測(cè)到的人聲特征，使用一個(gè)變化檢測(cè)算法將對(duì)話切分成均勻的片段，我們希望每段僅僅包含一個(gè)說話人。接著，使用一個(gè)深度學(xué)習(xí)模型將上述說話人的聲音片段映射到一個(gè)嵌入向量上。最后，在聚類階段，會(huì)對(duì)上述嵌入聚類在不同的簇中，追蹤對(duì)話中的同一個(gè)說話人。

在真實(shí)場(chǎng)景下，說話人分類系統(tǒng)與聲學(xué)語音識(shí)別（ASR）系統(tǒng)會(huì)并行化運(yùn)行，這兩個(gè)系統(tǒng)的輸出將會(huì)被結(jié)合，從而為識(shí)別出的單詞分配標(biāo)簽。傳統(tǒng)的說話人分類系統(tǒng)在聲學(xué)域中進(jìn)行推斷，然后將說話人標(biāo)簽覆蓋在由獨(dú)立的 ASR 系統(tǒng)生成的單詞上。

這種方法存在很多不足，阻礙了該領(lǐng)域的發(fā)展：

（1）我們需要將對(duì)話切分成僅僅包含以為說話人的語音的片段。否則，根據(jù)這些片段生成的嵌入就不能準(zhǔn)確地表征說話人的聲學(xué)特征。然而，實(shí)際上，這里用到的變化檢測(cè)算法并不是十全十美的，會(huì)導(dǎo)致分割出的片段可能包含多位說話人的語音。

（2）聚類階段要求說話人的數(shù)量已知，并且這一階段對(duì)于輸入的準(zhǔn)確性十分敏感。

（3）系統(tǒng)需要在用于估計(jì)人聲特征的片段大小和期望的模型準(zhǔn)確率之間做出艱難的權(quán)衡。片段越長(zhǎng)，人聲特征的質(zhì)量就越高，因?yàn)榇藭r(shí)模型擁有更多關(guān)于說話人的信息。這然而，這就帶來了將較短的插入語分配給錯(cuò)誤的說話人的風(fēng)險(xiǎn)。這將產(chǎn)生非常嚴(yán)重的后果，例如，在處理臨床醫(yī)學(xué)或金融領(lǐng)域的對(duì)話的環(huán)境下，我們需要準(zhǔn)確地追蹤肯定和否定的陳述。

（4）傳統(tǒng)的說話人分類系統(tǒng)并沒有一套方便的機(jī)制，從而利用在許多自然對(duì)話中非藏明顯的語言學(xué)線索。例如，「你多久服一次藥？」在臨床對(duì)話中最有可能是醫(yī)護(hù)人員說的，而不會(huì)是病人說的。類似地，「我們應(yīng)該什么時(shí)候上交作業(yè)？」則最有可能是學(xué)生說的，而不是老師說的。語言學(xué)的線索也標(biāo)志著說話人有很高的概率發(fā)生了改變（例如，在一個(gè)問句之后）。

然而，傳統(tǒng)的說話人分類系統(tǒng)也有一些性能較好的例子，在谷歌此前發(fā)布的一篇博文中就介紹了其中之一（博文地址：https://ai.googleblog.com/2018/11/accurate-online-speaker-diarization.html）。在此工作中，循環(huán)神經(jīng)網(wǎng)絡(luò)（RNN）的隱藏狀態(tài)會(huì)追蹤說話人，克服了聚類階段的缺點(diǎn)。而本文提出的模型則采用了不容的方法，引入了語言學(xué)線索。

我們研發(fā)出了一種簡(jiǎn)單的新型模型，該模型不僅完美地融合了聲學(xué)和語音線索，而且將說話人分類和語音識(shí)別任務(wù)融合在了同一個(gè)系統(tǒng)中。相較于相同環(huán)境下僅僅進(jìn)行語音識(shí)別的系統(tǒng)相比，這個(gè)集成模型并沒有顯著降低語音識(shí)別性能。

我們意識(shí)到，很關(guān)鍵的一點(diǎn)是：RNN-T 架構(gòu)非常適用于集成聲學(xué)和語言學(xué)線索。RNN-T 模型由三個(gè)不同的網(wǎng)絡(luò)組成：（1）轉(zhuǎn)錄網(wǎng)絡(luò)（或稱編碼器），將聲幀映射到一個(gè)潛在表征上。（2）預(yù)測(cè)網(wǎng)絡(luò)，在給定先前的目標(biāo)標(biāo)簽的情況下，預(yù)測(cè)下一個(gè)目標(biāo)標(biāo)簽。（3）級(jí)聯(lián)網(wǎng)絡(luò)，融合上述兩個(gè)網(wǎng)絡(luò)的輸出，并在該時(shí)間步生成這組輸出標(biāo)簽的概率分布。

傳統(tǒng)系統(tǒng)和 RNN-T 系統(tǒng)錯(cuò)誤率的對(duì)比，由人類標(biāo)注者進(jìn)行分類。此外，該集成模型還可以預(yù)測(cè)其它一些標(biāo)簽，這些標(biāo)簽對(duì)于生成對(duì)讀者更加友好的 ASR 譯文是必需的。例如，我們已經(jīng)可以使用匹配好的訓(xùn)練數(shù)據(jù)，通過標(biāo)點(diǎn)符號(hào)和大小寫標(biāo)志，提升譯文質(zhì)量。相較于我們之前的模型（單獨(dú)訓(xùn)練，并作為一個(gè) ASR 的后處理步驟），我們的輸出在標(biāo)點(diǎn)符號(hào)和大小寫上的誤差更小。

閱讀全文

谷歌(103100) 谷歌(103100)
語音技術(shù)(21193) 語音技術(shù)(21193)

評(píng)論

相關(guān)推薦

基于ARM的非特定人語音識(shí)別系統(tǒng)電路設(shè)計(jì)

非特定人語音識(shí)別技術(shù)研究的最終目的是讓計(jì)算機(jī)等設(shè)備能夠“聽懂”人類語音，提取出語音中所包含的特定信息，成為人機(jī)通信和交互最便捷的手段。

2014-10-21 10:08:22

1559

1小時(shí)玩轉(zhuǎn)AI語音識(shí)別

`報(bào)名鏈接：http://t.elecfans.com/live/563.html直播主題及亮點(diǎn)本次直播講解AI語音識(shí)別核心技術(shù)知識(shí)以及語音識(shí)別系統(tǒng)架構(gòu)，現(xiàn)場(chǎng)實(shí)操寫代碼實(shí)現(xiàn)語音采集、語音傳輸與解析

2018-09-19 13:40:42

51單片機(jī)控制機(jī)器人一邊說話一邊眼鏡閃是怎么實(shí)現(xiàn)的

新手想通過實(shí)現(xiàn)控制變形金剛模型一邊說話（機(jī)器人模型的語音信號(hào)是通過藍(lán)牙連接手機(jī)，是手機(jī)信號(hào)輸入），同時(shí)眼鏡的LED也在閃，來在實(shí)踐中學(xué)習(xí)單片機(jī)。非?？释玫角拜叺慕ㄗh。不勝感激。

2017-07-05 08:21:28

語音識(shí)別芯片聲控芯片 LD3320 非特定人/單芯片/動(dòng)態(tài)編輯識(shí)別列表 ICRoute

，芯片在出廠后無法修改識(shí)別的條目只能識(shí)別出廠前預(yù)制的識(shí)別內(nèi)容，并且識(shí)別率低?；蛘呤腔?DSP+RAM+Flash+加密芯片的方式，由DSP運(yùn)行存儲(chǔ)在Flash中的軟件來實(shí)現(xiàn)語音識(shí)別功能。這樣的模塊由于

2009-12-16 12:00:28

AI語音智能機(jī)器人開發(fā)實(shí)戰(zhàn)

) "AI語音識(shí)別機(jī)器人"前后臺(tái)通信協(xié)議實(shí)現(xiàn)(4) "AI語音識(shí)別機(jī)器人"眼睛燈編碼與實(shí)現(xiàn)(5) "AI語音識(shí)別機(jī)器人"語音播報(bào)編碼與實(shí)現(xiàn)(6

2019-01-04 11:48:07

BC009本地智能語音識(shí)別模塊

2 非特定人語音識(shí)別2 語音支持 35 種語言, 如中文、英語、日語等2 BC009 支持二種連接方式：一、25MM 間距端子線連接二、直接將模塊焊接到主板上 2.應(yīng)用范圍智能家電：智能語音燈具語音播報(bào)

2018-10-26 14:49:00

DSP嵌入式說話人識(shí)別系統(tǒng)設(shè)計(jì)方案

0 引言說話人身份識(shí)別屬于生物認(rèn)證技術(shù)的一種，是一項(xiàng)根據(jù)語音中反映說話人生理和行為特征的語音參數(shù)來自動(dòng)識(shí)別說話人身份的技術(shù)。近年來，說話人身份識(shí)別以其獨(dú)特的方便性、經(jīng)濟(jì)性和準(zhǔn)確性等優(yōu)勢(shì)受到矚目，在

2019-07-29 06:34:02

FPGA和Nios_軟核的語音識(shí)別系統(tǒng)的研究

FPGA和Nios_軟核的語音識(shí)別系統(tǒng)的研究引言語音識(shí)別的過程是一個(gè)模式匹配的過程在這個(gè)過程中，首先根據(jù)說話人的語音特點(diǎn)建立語音模型，對(duì)輸入的語音信號(hào)進(jìn)行分析，并提取所需的語音特征，在此基礎(chǔ)上建立

2012-08-11 11:47:15

LD3320語音識(shí)別模塊+MP3-TF-16P模塊實(shí)現(xiàn)語音交互功能的過程

LD3320語音識(shí)別模塊+MP3-TF-16P模塊實(shí)現(xiàn)語音交互功能利用LD3320語音識(shí)別模塊可以實(shí)現(xiàn)非特定人聲語音控制單片機(jī)io口動(dòng)作，而加入MP3-TF-16P語音播放模塊，可以讓語音識(shí)別富有

2022-02-15 06:35:24

SPCE061A語音識(shí)別機(jī)器人應(yīng)用方案

為了提高廣大單片機(jī)愛好者學(xué)習(xí)單片機(jī)的興趣，凌陽科技大學(xué)計(jì)劃教育推廣中心推出了應(yīng)用SPCE061A作為主控制器，外加電機(jī)驅(qū)動(dòng)電路制作的語音識(shí)別機(jī)器人。該機(jī)器人采用特定人語音識(shí)別對(duì)機(jī)器人進(jìn)行控制，可以

2011-03-08 17:09:02

labview實(shí)現(xiàn)語音識(shí)別

發(fā)出語音命令后通過語音識(shí)別軟件識(shí)別，然后調(diào)用labview程序，在labview程序中調(diào)用API函數(shù)，實(shí)現(xiàn)對(duì)鼠標(biāo)的控制，現(xiàn)在的問題是如何使軟件與labview銜接（必須用到labview平臺(tái)）如果有大神可以直接用labview做出語音識(shí)別，希望是效果好的成品，也可以求大神幫助，不勝感激

2012-02-21 17:31:47

labview實(shí)現(xiàn)語音識(shí)別。文字轉(zhuǎn)語音

labview實(shí)現(xiàn)語音識(shí)別

2023-03-12 13:57:56

labview說話人語音識(shí)別相關(guān)的VI

這是說話人語音識(shí)別的相關(guān)資料，大神們來看看啊，順便幫小弟做一個(gè)用電腦麥克風(fēng)識(shí)別說話人的程序，謝啦

2012-05-31 15:17:36

【平頭哥CB5654語音開發(fā)板試用連載】人工智能機(jī)器人

項(xiàng)目名稱：人工智能機(jī)器人試用計(jì)劃：申請(qǐng)理由：人工智能機(jī)器人語音識(shí)別單元，計(jì)劃5月份開發(fā)完成，7月份量產(chǎn)，pcb板在華強(qiáng)pcb加工。

2020-03-13 16:16:56

【平頭哥CB5654語音開發(fā)板試用連載】智能語音識(shí)別機(jī)器人

項(xiàng)目名稱：智能語音識(shí)別機(jī)器人試用計(jì)劃：使用開發(fā)板完成智能機(jī)器人設(shè)計(jì)，預(yù)期達(dá)到的目標(biāo)可以語音控制機(jī)器人完成簡(jiǎn)單操作，可以智能識(shí)別人語音內(nèi)容，按照程序指令要求完成各項(xiàng)指標(biāo)。

2020-03-13 16:19:00

【平頭哥CB5654語音開發(fā)板試用連載】智能取貨機(jī)器人語音交互模組

項(xiàng)目名稱：智能取貨機(jī)器人語音交互模組試用計(jì)劃：申請(qǐng)理由本人在機(jī)器人控制有七年多的學(xué)習(xí)和開發(fā)經(jīng)驗(yàn)，曾參與設(shè)計(jì)過類似巡檢機(jī)器人，參與語音交互硬件開發(fā)，對(duì)語音識(shí)別技術(shù)有過深入的學(xué)習(xí)和探索。想借助發(fā)燒友論壇

2020-02-25 16:05:31

【Nuvoton ISD9160語音識(shí)別申請(qǐng)】語音識(shí)別

申請(qǐng)理由：項(xiàng)目描述：通過該模塊的語音識(shí)別控制，例如WIFI聯(lián)網(wǎng)、獲取服務(wù)器文件，以及MCU控制本地的一些設(shè)備，例如傳感器采集數(shù)據(jù)，完成后再利用語音控制將數(shù)據(jù)上傳到服務(wù)器。我一直在無線領(lǐng)域，例如GPSWIFIBT/BLE等，目前又開始在IOT領(lǐng)域開發(fā)，加入該語音控制項(xiàng)目，可以實(shí)現(xiàn)一些控制要求。

2016-11-09 15:05:16

【Nuvoton ISD9160語音識(shí)別試用體驗(yàn)】結(jié)項(xiàng)總結(jié) 語音識(shí)別智能抽屜控制~~~~~~~~~

家居自動(dòng)化進(jìn)行分析理解,以及語音識(shí)別在控制方面的具體應(yīng)用結(jié)合當(dāng)前實(shí)際情況,設(shè)計(jì)出一套通過非特定人的特定語音控制家具抽屜的打開和關(guān)閉。該語音識(shí)別系統(tǒng)控制抽屜的打開和關(guān)閉通過驅(qū)動(dòng)步進(jìn)電機(jī)來實(shí)現(xiàn)。在一些特殊

2016-12-23 09:19:55

【大聯(lián)大品佳 Nuvoton ISD9160語音識(shí)別試用申請(qǐng)】語音控制的智能垃圾分類垃圾桶

互聯(lián)網(wǎng)。垃圾分類的推廣肯定優(yōu)先從各事業(yè)單位先采購(gòu)，很多事業(yè)單位的網(wǎng)絡(luò)都是局域網(wǎng)，不允許外網(wǎng)連通，所以要嘗試無網(wǎng)絡(luò)的模塊來實(shí)現(xiàn)。計(jì)劃：帶wifi控制的模具和方案已初步實(shí)現(xiàn)，我這邊也有樣機(jī)。只要模塊來了可以直接替換！預(yù)計(jì)成果：實(shí)現(xiàn)一款帶存儲(chǔ)的語音識(shí)別的智能垃圾分類垃圾桶，可以往網(wǎng)絡(luò)受限的地方推廣。

2020-08-10 17:49:36

亞馬遜Alexa語音助手要有喜怒哀樂了

泡影。　　為了幫助Alexa擺脫機(jī)器人語言的魔咒，亞馬遜近日升級(jí)了Alexa的語音合成標(biāo)記語言，讓開發(fā)者們?cè)陂_發(fā)Alexa技能或者App時(shí)，能夠使用更加自然的語音模式。這次更新，讓Alexa利用

2017-05-21 09:31:58

會(huì)物體識(shí)別和語音識(shí)別的nao機(jī)器人

Nuance公司作為技術(shù)合作伙伴，開發(fā)性能穩(wěn)定且功能強(qiáng)大的語音識(shí)別系統(tǒng)。nao機(jī)器人可在2米范圍內(nèi)聽到您說話，并能聽懂一整句話或關(guān)鍵詞匯。由此，人們與nao機(jī)器人之間的交談就變得更加流暢自然。`

2015-02-13 14:09:50

作為說話人識(shí)別特征參量的MFCC的提取過程

作為說話人識(shí)別特征參量的MFCC的提取過程

2012-08-20 12:37:24

使用緊急呼叫和DSP的語音識(shí)別系統(tǒng)

開發(fā)并測(cè)試了安裝在汽車內(nèi)、使用簡(jiǎn)單離散字的特定發(fā)音人語音識(shí)別系統(tǒng)。

2019-11-04 07:23:41

關(guān)于語音采集以及發(fā)送的問題想請(qǐng)問下大家，急！！

一個(gè)例子就是在一個(gè)有很多人的室內(nèi)體育館，想請(qǐng)問下大家有沒有什么辦法可以實(shí)現(xiàn)在比較嘈雜的環(huán)境下實(shí)現(xiàn)語音的識(shí)別？第二個(gè)是語音的采集以及傳輸?shù)膯栴}，我們想通過機(jī)器人實(shí)現(xiàn)語音采集，然后將其發(fā)送出去，想問下目前有沒有比較成熟的語音采集傳輸模塊可以推薦的？

2017-03-11 21:09:28

可以撥打語音電話的智能音箱谷歌Google Home能做到

Home給自己的媽媽打電話，它們會(huì)利用你的聯(lián)系人精確找到目標(biāo)。　　談到聯(lián)系人，你需要一個(gè)谷歌賬戶，還要有維護(hù)良好的聯(lián)系人列表，這樣Google Home的語音通話功能才會(huì)有用。如果你是Android

2017-08-18 09:17:18

基于51單片機(jī)的一個(gè)語音識(shí)別分類智能垃圾桶設(shè)計(jì)

編寫語音模塊（部分代碼）語音模塊串口調(diào)試結(jié)果51單片機(jī)代碼（部分代碼）項(xiàng)目展示基本介紹這個(gè)一個(gè)基于51單片機(jī)做的一個(gè)語音識(shí)別分類智能垃圾桶，通過我們說話來對(duì)垃圾詞語進(jìn)行分類。比如：垃圾桶（一級(jí)指令

2021-11-18 07:19:55

基于語音識(shí)別做一款能識(shí)別語音的App

最近做了一款語音識(shí)別的App，想著利用手機(jī)控制arduino實(shí)現(xiàn)RGB的調(diào)節(jié)，開發(fā)思路：基于訊飛語音識(shí)別做一款能識(shí)別我們語音的App，識(shí)別出文本之后，對(duì)應(yīng)的文字轉(zhuǎn)UTF-8編碼，通過藍(lán)牙串口通訊發(fā)送到arduino，實(shí)現(xiàn)對(duì)RGB的控制。...

2022-03-01 07:05:08

基于DSP嵌入式說話人識(shí)別系統(tǒng)該怎么設(shè)計(jì)？

說話人身份識(shí)別屬于生物認(rèn)證技術(shù)的一種，是一項(xiàng)根據(jù)語音中反映說話人生理和行為特征的語音參數(shù)來自動(dòng)識(shí)別說話人身份的技術(shù)。

2019-11-04 07:34:38

基于DSP的漢字語音識(shí)別系統(tǒng)如何實(shí)現(xiàn)

基于DSP的漢字語音識(shí)別系統(tǒng)如何實(shí)現(xiàn)

2021-03-12 06:33:15

基于LabVIEW的語音識(shí)別系統(tǒng)

請(qǐng)大家?guī)蛶兔?，基于LabVIEW的語音識(shí)別系統(tǒng)，要求先錄幾個(gè)人的聲音做樣板，然后再讓其中一個(gè)人說話，能辨別出是誰說的

2013-05-16 11:16:15

基于labview的語音識(shí)別

處理過程基本上是一致的。目前主流的語音識(shí)別技術(shù)是基于統(tǒng)計(jì)模式識(shí)別的基本理論。一個(gè)完整的語音識(shí)別系統(tǒng)可大致分為三部分：（1）語音特征提?。浩淠康氖菑?b class="flag-6" style="color: red">語音波形中提取出隨時(shí)間變化的語音特征序列。（2）聲學(xué)模型

2019-03-10 22:00:15

基于pyaudio利用python進(jìn)行語音生成和語音識(shí)別詳解

ASR：基于pyaudio利用python進(jìn)行語音生成、語音識(shí)別總結(jié)及其案例詳細(xì)攻略

2018-12-27 16:51:04

如何利用ARM實(shí)現(xiàn)嵌入式語音識(shí)別模塊的設(shè)計(jì)

以LD3320芯片為核心的硬件單元實(shí)現(xiàn)語音識(shí)別功能，采用嵌入式操作系統(tǒng)μC/OS-II來實(shí)現(xiàn)統(tǒng)一的任務(wù)調(diào)度和外圍設(shè)備管理。經(jīng)過大量的實(shí)驗(yàn)數(shù)據(jù)驗(yàn)證，本文設(shè)計(jì)的語音識(shí)別模塊具有高實(shí)時(shí)性、高識(shí)別率、高穩(wěn)定性的...

2021-11-09 06:18:35

如何利用MCU實(shí)現(xiàn)語音識(shí)別？

人們對(duì)于微控制器（MCU）因過小而無法識(shí)別語音常常有誤解，如何利用MCU實(shí)現(xiàn)語音識(shí)別呢？

2021-04-02 07:20:41

如何利用MCU實(shí)現(xiàn)語音識(shí)別？

在萬物互聯(lián)的世界中，越來越多能夠理解語音內(nèi)容的電子設(shè)備逐漸進(jìn)入我們的視線。在智能手機(jī)、平板電腦和筆記本等擁有Siri或Cortana應(yīng)用程序的設(shè)備中，語音識(shí)別能夠幫助用戶搜索答案或控制周圍的電子器件等。

2019-10-11 06:58:43

如何利用MEMS麥克風(fēng)陣列定位并識(shí)別音頻或語音信源？

在過去10年里，以人類語言和音頻信號(hào)為媒介的人機(jī)交互應(yīng)用在日常生活的作用越來越重要。設(shè)備本身必須充分利用不同的功能，才能取得最佳的性能，例如，音頻定位、自動(dòng)語音識(shí)別、自動(dòng)說話人識(shí)別等。本文著重探討取得這些結(jié)果所需的算法和完整的嵌入式方案即MEMS麥克風(fēng)陣列所需的硬件架構(gòu)。

2021-06-02 06:48:48

如何利用STM32F103C8T6單片機(jī)芯片實(shí)現(xiàn)柔光臺(tái)燈設(shè)計(jì)

設(shè)計(jì)的臺(tái)燈采用的主控芯片是性能較高的STM32F103C8T6單片機(jī)芯片，采用中斷方式對(duì)臺(tái)燈進(jìn)行按鍵控制，并通過基于LD332O語音識(shí)別模塊，利用非特定人語音識(shí)別技術(shù)對(duì)臺(tái)燈的工作狀態(tài)進(jìn)行語音控制，同時(shí)實(shí)現(xiàn)了...

2022-01-19 06:04:27

如何去實(shí)現(xiàn)一種特定人語音識(shí)別系統(tǒng)？

特定人語音識(shí)別的方法有哪些？特定人語音識(shí)別系統(tǒng)是由哪些部分組成的？如何去實(shí)現(xiàn)一種特定人語音識(shí)別系統(tǒng)？

2021-05-19 06:44:14

怎么用matlab實(shí)現(xiàn)對(duì)硬幣的識(shí)別與分類

怎么用matlab實(shí)現(xiàn)對(duì)硬幣的識(shí)別與分類？需要用到哪些函數(shù)？求賜教。。。

2013-05-08 17:18:59

怎么設(shè)計(jì)基于嵌入式系統(tǒng)的語音口令識(shí)別系統(tǒng)？

回答等。在數(shù)字信號(hào)處理芯片上已經(jīng)實(shí)現(xiàn)了語音口令識(shí)別系統(tǒng)或語音口令識(shí)別系統(tǒng)的部分功能，然而隨著嵌入式微處理器處理能力的大幅度提高，計(jì)算量大的語音口令識(shí)別算法已經(jīng)能夠通過嵌入式微處理器來完成，將語音口令識(shí)別系統(tǒng)與嵌入式系統(tǒng)相結(jié)合，發(fā)揮語音識(shí)別系統(tǒng)的潛力，使語音識(shí)別系統(tǒng)能夠廣泛應(yīng)用于便攜式設(shè)備中?！　?/div>

2019-09-03 08:27:23

機(jī)器人語音需求

本帖最后由 NAO語音外包于 2017-6-28 09:19 編輯現(xiàn)在亞馬遜Echo音箱很火爆，根據(jù)調(diào)研結(jié)果，可以在機(jī)器人上，嵌入式板上集成語音功能，包含了語音喚醒，語音識(shí)別，語義

2017-06-28 09:13:45

求Labview做說話人語音識(shí)別系統(tǒng)的方法或程序，大神來看看啊

本帖最后由 ouqiyuan 于 2012-5-30 10:04 編輯是用插進(jìn)電腦的麥克風(fēng)收集說話人的聲音，然后辨別說話人（該人聲音已經(jīng)儲(chǔ)存好）的身份。{:soso_e101:}，主要是識(shí)別的部分我不會(huì)做，求各位大神指導(dǎo)或給些相關(guān)的資料和程序。我QQ是356535107，可以加我教教我啊！

2012-05-30 10:01:21

求matlab特定人語音識(shí)別的程序，或者思路也行

求matlab特定人語音識(shí)別的程序，或者思路也行

2012-03-31 15:03:58

特定人語音識(shí)別的方法有哪些？

特定人語音識(shí)別的方法有哪些？特定人語音識(shí)別技術(shù)在汽車控制上的應(yīng)用是什么？

2021-05-14 06:34:04

用語音識(shí)別芯片/聲控芯片 LD3320 實(shí)現(xiàn)語音控制機(jī)頂盒遙控器

，并且識(shí)別率低。或者是基于 DSP+RAM+Flash+加密芯片的方式，由DSP運(yùn)行存儲(chǔ)在Flash中的軟件來實(shí)現(xiàn)語音識(shí)別功能。這樣的模塊由于是由多個(gè)芯片和PCB組成，成本高，外圍電路復(fù)雜，二次開發(fā)

2009-12-16 11:59:08

離線語音識(shí)別和控制的工作原理及應(yīng)用

引言　　離線語音識(shí)別是指在沒有網(wǎng)絡(luò)連接的情況下，通過在本地設(shè)備上進(jìn)行語音信號(hào)處理和識(shí)別，實(shí)現(xiàn)語音命令的轉(zhuǎn)化和執(zhí)行。隨著智能設(shè)備的普及，離線語音識(shí)別技術(shù)在智能客服、電話會(huì)議、智能交通等領(lǐng)域

2023-11-07 18:01:32

自制基于ESP32的語音識(shí)別模塊

串口調(diào)試助手測(cè)試語音識(shí)別效果這款語音識(shí)別模塊通過ESP32連接百度云語音識(shí)別平臺(tái)來實(shí)現(xiàn)非特定指令的語音識(shí)別功能，他可以把您說的話轉(zhuǎn)換成文字通過UART接口返回。可以使用USB-TTL連接電腦調(diào)試助手

2021-08-24 15:03:47

自動(dòng)語音識(shí)別的原理是什么？

自動(dòng)語音識(shí)別的原理是什么？如何利用WaveNet實(shí)現(xiàn)自動(dòng)語音識(shí)別？

2021-06-15 09:14:07

設(shè)計(jì)一個(gè)能自由行走并且可以與人語音對(duì)話機(jī)器人的設(shè)計(jì)資料分享

在我的想象中機(jī)器人首先應(yīng)該能自由的走來走去，然后應(yīng)該能流利的與主人對(duì)話。朝著這個(gè)理想，我準(zhǔn)備設(shè)計(jì)一個(gè)能自由行走，并且可以與人語音對(duì)話的機(jī)器人。實(shí)現(xiàn)的關(guān)鍵是讓機(jī)器人能通過傳感器感知周圍環(huán)境，并通過

2021-12-17 06:58:27

設(shè)計(jì)一個(gè)能自由行走，并且可以與人語音對(duì)話的機(jī)器人

，并且可以與人語音對(duì)話的機(jī)器人。實(shí)現(xiàn)的關(guān)鍵是讓機(jī)器人能通過傳感器感知周圍環(huán)境，并通過機(jī)器人大腦處理并輸...

2021-12-16 07:27:15

請(qǐng)問電銷機(jī)器人智能語音識(shí)別的原理是什么？

一個(gè)人們最為關(guān)心的問題大概就是，電銷機(jī)器人如何做到語音識(shí)別，通俗來講，就是電銷機(jī)器人如何“聽懂”人們說話？其實(shí)語音識(shí)別技術(shù)是人工智能的一項(xiàng)基礎(chǔ)研究，但同時(shí)也是多年來一直橫亙?cè)谘芯空呙媲暗囊淮箅y關(guān)，而不光

2018-06-12 14:03:56

音頻信息識(shí)別與檢索技術(shù)

檢索是目前急需解決的一個(gè)難題。音頻信息中主要包含語音、音樂、說話人、語種等內(nèi)容信息。相應(yīng)的音頻識(shí)別技術(shù)主要包含以下幾類：語音識(shí)別技術(shù)、說話人識(shí)別技術(shù)、語種識(shí)別技術(shù)、音樂識(shí)別檢索技術(shù)。語音識(shí)別技術(shù)可以將

2011-03-05 22:53:09

一種基于GMM模型的語音情感識(shí)別方法

在人機(jī)語音交互系統(tǒng)中，機(jī)器不僅要具有理解人類語音的能力，還應(yīng)當(dāng)具有識(shí)別說話人情感的能力。本文提出了基于高斯混合模型(GMM)的序列分類和識(shí)別的改進(jìn)方法，并將該方法引入

2009-06-03 08:14:37

基于TMS320C6701EVM板的快速說話人識(shí)別系統(tǒng)

本文在TMS320C6701EVM 板的基礎(chǔ)上實(shí)現(xiàn)一種快速的說話人識(shí)別系統(tǒng)。本文提出一種基于段級(jí)語音特征的說話人識(shí)別的快速算法，該算法在傳統(tǒng)的GMM 算法的基礎(chǔ)上使用段級(jí)語音特征對(duì)測(cè)試

2009-07-30 15:53:36

說話人識(shí)別算法研究及其在SOC上的實(shí)現(xiàn)

說話人識(shí)別算法研究及

2009-08-15 10:22:18

DNA序列的分類模型

DNA序列的分類模型本文提出了DNA序列分類的三種模型,基一,基于A,G,T,C四種堿基出現(xiàn)的頻率,其二利用了同一堿基在序列中的間隔,這一信息是單純考慮頻率所不能包含的.

2009-09-16 11:52:45

井下探險(xiǎn)救援機(jī)器人語音通信系統(tǒng)實(shí)現(xiàn)

本文介紹了一種基于VC++開發(fā)的井下探險(xiǎn)救援機(jī)器人語音通信系統(tǒng)。該系統(tǒng)采用模塊化設(shè)計(jì)，能夠實(shí)現(xiàn)上位監(jiān)控機(jī)和井下機(jī)器人控制機(jī)之間的語音通信。實(shí)踐證明，該語音通信系統(tǒng)提

2010-01-25 14:03:01

語音識(shí)別系統(tǒng)中增加圖像識(shí)別技術(shù)的設(shè)計(jì)

采用機(jī)器視覺對(duì)語音對(duì)象進(jìn)行跟蹤，利用說話人正常發(fā)音時(shí)，嘴部的開合狀況提取語速信息，實(shí)時(shí)調(diào)整語音識(shí)別的工作速度，匹配語音韻律，將有效提高語音識(shí)別準(zhǔn)確性。討論了系

2010-07-16 14:53:59

基于TMS320C6701EVM板的快速說話人識(shí)別系統(tǒng)

本文在TMS320C6701EVM板的基礎(chǔ)上實(shí)現(xiàn)一種快速的說話人識(shí)別系統(tǒng)。本文提出一種基于段級(jí)語音特征的說話人識(shí)別的快速算法，該算法在傳統(tǒng)的GMM算法的基礎(chǔ)上使用段級(jí)語音特征對(duì)測(cè)試語

2010-08-05 16:25:14

基于DTW的編碼域說話人識(shí)別研究

摘要! 相對(duì)解碼重建后的語音進(jìn)行說話人識(shí)別從VOIP的語音流中直接提取語音特征參數(shù)進(jìn)行說話人識(shí)別方法具有便于實(shí)現(xiàn)的優(yōu)點(diǎn)針對(duì)G.729編碼域數(shù)據(jù)# 研究基于DTW算法的快速說話人

2010-11-22 14:59:37

低碼率語音編碼MELP的SOPC實(shí)現(xiàn)

討論了低碼率語音編碼MELP的編解碼過程，有效降低了語音編碼碼率并能使說話者個(gè)人語音特征減弱，特別適合需要弱化說話者語音特點(diǎn)的場(chǎng)合。給出了其FPGA的硬件實(shí)現(xiàn)框圖，據(jù)此

2010-12-01 16:57:14

DSP嵌入式說話人識(shí)別系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)

DSP嵌入式說話人識(shí)別系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn) 0 引言說話人身份識(shí)別屬于生物認(rèn)證技術(shù)的一種，是一項(xiàng)根據(jù)語音中反映說話人生理和行為特征的語音參數(shù)來

2009-12-28 17:55:54

581

DSP嵌入式說話人識(shí)別系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)

DSP嵌入式說話人識(shí)別系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn) 　0 引言　　說話人身份識(shí)別屬于生物認(rèn)證技術(shù)的一種，是一項(xiàng)根據(jù)語音中反映說話人生理和行為特征的語音參數(shù)來自動(dòng)

2010-01-06 14:07:54

539

流序列化的網(wǎng)絡(luò)流量分類算法

針對(duì)傳統(tǒng)基于端口和有效負(fù)載的網(wǎng)絡(luò)流量分類算法識(shí)別率低分類算法復(fù)雜等問題，在分析了網(wǎng)絡(luò)流量性質(zhì)的基礎(chǔ)上提出流序列化方法。它將網(wǎng)絡(luò)流分解成多個(gè)流原子#通過提取序列化網(wǎng)絡(luò)

2011-05-16 17:29:22

智能機(jī)器人語音識(shí)別技術(shù)

語音控制的基礎(chǔ)就是語音識(shí)別技術(shù)，可以是特定人或者非特定人的。非特定人的應(yīng)用更為廣泛，對(duì)于用戶而言不用訓(xùn)練，因此也更加方便。語音識(shí)別可以分為孤立詞識(shí)別，連接詞識(shí)別，

2011-07-22 10:08:48

12043

基于嵌入式的實(shí)時(shí)聲紋識(shí)別系統(tǒng)解析

人語音當(dāng)中的生物學(xué)個(gè)性特征，在特征空間建立不同個(gè)體的特征模型，從而實(shí)現(xiàn)說話人的識(shí)別。識(shí)別的關(guān)鍵算法包括特征提取和建立模型兩個(gè)方面，參考文獻(xiàn)從基本概念到特征提取，再到模型建立，對(duì)說話人識(shí)別中涉及的主要算法進(jìn)行了詳

2017-10-30 14:59:34

一種特定人語音家居控制系統(tǒng)

獲取語音特征，通過DTW算法實(shí)現(xiàn)語音特征匹配。上位機(jī)基于安卓平臺(tái)，利用Android Studio工具并結(jié)合NDK組件實(shí)現(xiàn)相應(yīng)軟件與算法開發(fā)。下位機(jī)基于Zigbee平臺(tái)，利用IAR完成家居系統(tǒng)下位機(jī)的開發(fā)。系統(tǒng)可完成特定人的語音控制，具有較高的識(shí)別率

2017-11-27 14:10:58

基于C均值聚類和圖轉(zhuǎn)導(dǎo)的半監(jiān)督分類算法

針對(duì)傳統(tǒng)圖轉(zhuǎn)導(dǎo)（ GT）算法計(jì)算量大并且準(zhǔn)確率不高的問題，提出一個(gè)基于C均值聚類和圖轉(zhuǎn)導(dǎo)的半監(jiān)督分類算法。首先，采用模糊C均值（FCM）聚類算法先對(duì)未標(biāo)記樣本預(yù)選取，縮小圖轉(zhuǎn)導(dǎo)算法構(gòu)圖數(shù)據(jù)集的范圍

2017-11-28 16:36:12

符號(hào)序列多階Markov分類

針對(duì)基于固定階Markov鏈模型的方法不能充分利用不同階次子序列結(jié)構(gòu)特征的問題，提出一種基于多階Markov模型的符號(hào)序列貝葉斯分類新方法。首先，建立了基于多階次Markov模型的條件概率分布模型

2017-11-30 09:56:12

基于MAP+CMLLR的說話人識(shí)別中發(fā)聲力度問題

為了改善發(fā)聲力度對(duì)說話人識(shí)別系統(tǒng)性能的影響，在訓(xùn)練語音存在少量耳語、高喊語音數(shù)據(jù)的前提下，提出了使用最大后驗(yàn)概率（MAP）和約束最大似然線性回歸（CMLLR）相結(jié)合的方法來更新說話人模型、投影轉(zhuǎn)換

2017-12-05 15:21:06

語音識(shí)別技術(shù)是什么_語音識(shí)別技術(shù)應(yīng)用領(lǐng)域介紹

語音識(shí)別技術(shù)，也被稱為自動(dòng)語音識(shí)別（ASR），其目標(biāo)是將人類的語音中的詞匯內(nèi)容轉(zhuǎn)換為計(jì)算機(jī)可讀的輸入，例如按鍵、二進(jìn)制編碼或者字符序列。與說話人識(shí)別及說話人確認(rèn)不同，后者嘗試識(shí)別或確認(rèn)發(fā)出語音的說話人而非其中所包含的詞匯內(nèi)容。

2018-01-02 18:36:14

16324

基于CS的說話人識(shí)別算法

，即建立說話人語音特征數(shù)據(jù)庫(kù)和基追蹤匹配得到最大均值系數(shù)，其中，語音特征向量由GMM 均值超向量核算法得到，大量實(shí)驗(yàn)數(shù)據(jù)表明，該方法定程度上提高了識(shí)別率，并且在說話人集合較大的情況下識(shí)別效果較好。

2018-01-18 17:33:34

全球語音識(shí)別技術(shù)發(fā)展有四大問題待解決

語音識(shí)別的意思是將人說話的內(nèi)容和意思轉(zhuǎn)換為計(jì)算機(jī)可讀的輸入，例如按鍵、二進(jìn)制編碼或者字符序列等。與說話人的識(shí)別不同，后者主要是識(shí)別和確認(rèn)發(fā)出語音的人而非其中所包含的內(nèi)容。

2018-01-31 19:31:20

3827

如何使用多分形譜及特征來優(yōu)選說話人識(shí)別系統(tǒng)的資料說明

語音是復(fù)雜的非線性信號(hào)，這使得基于線性理論的傳統(tǒng)說話人識(shí)別系統(tǒng)性能難以進(jìn)一步提高。結(jié)合語音特點(diǎn)，基于小波極大模方法（Wavelet Transform Modulus-Maxima Method

2018-12-06 15:29:56

如何使用多特征i-vector進(jìn)行短語音說話人識(shí)別算法說明

當(dāng)測(cè)試語音時(shí)長(zhǎng)充足時(shí)，單一特征的信息量和區(qū)分性足夠完成說話人識(shí)別任務(wù)，但是在測(cè)試語音很短的情況下，語音信號(hào)里缺乏充分的說話人信息，使得說話人識(shí)別性能急劇下降。針對(duì)短語音條件下的說話人信息不足的問題，提出一種基于多特征i-vector的短語音說話人識(shí)別算法。

2018-12-14 13:42:34

谷歌在語音識(shí)別技術(shù)領(lǐng)域獲得新進(jìn)展

研發(fā)出了一種簡(jiǎn)單的新型模型，該模型不僅完美地融合了聲學(xué)和語音線索，而且將說話人分類和語音識(shí)別任務(wù)融合在了同一個(gè)系統(tǒng)中。

2019-08-26 16:12:03

585

谷歌通過Euphonia項(xiàng)目來增強(qiáng)語音識(shí)別的能力

谷歌已經(jīng)展示了Euphonia項(xiàng)目，這是其AI for Social Good計(jì)劃的一項(xiàng)成果，該計(jì)劃利用人工智能來改進(jìn)語音識(shí)別技術(shù)。

2019-11-18 10:04:57

822

嵌入式設(shè)計(jì)方案之ARM非特定人語音識(shí)別系統(tǒng)

本文介紹了一種采用ARM處理器作為控制核心的非特定人語音識(shí)別系統(tǒng)的設(shè)計(jì)方案。

2020-04-11 11:17:37

1180

研究顯示目前的語音識(shí)別系統(tǒng)存在著種族差異

斯坦福大學(xué)的一項(xiàng)研究顯示，亞馬遜、蘋果、谷歌、IBM和微軟的語音識(shí)別系統(tǒng)存在種族差異，對(duì)白人和黑人語音的識(shí)別率有高有低。

2020-05-18 09:37:31

579

谷歌語音識(shí)別利用序列轉(zhuǎn)導(dǎo)來實(shí)現(xiàn)多人語音識(shí)別

從 WaveNet 到 Tacotron，再到 RNN-T，谷歌一直站在語音人工智能技術(shù)的最前沿。

2020-05-25 09:34:28

669

基于TDSDM642EVM數(shù)字處理芯片實(shí)現(xiàn)實(shí)時(shí)說話人識(shí)別系統(tǒng)的設(shè)計(jì)

說話人識(shí)別又稱聲紋識(shí)別，是通過說話人的聲音特征進(jìn)行身份認(rèn)證的一種生物特征識(shí)別技術(shù)。說話人識(shí)別經(jīng)過60多年的研究，已經(jīng)逐步應(yīng)用到法律、銀行等各個(gè)領(lǐng)域。說話人識(shí)別通過對(duì)語音信號(hào)進(jìn)行處理，提取說話人語音

2020-08-06 13:17:00

673

基于幀級(jí)特征的端到端說話人識(shí)別方法

現(xiàn)有的說話人識(shí)別方法仍存在許多不足?；谠捳Z級(jí)特征輸入的端到端方法由于語音長(zhǎng)短不一致需要將輸入處理為同等大小，而特征訓(xùn)練加后驗(yàn)分類的兩階段方法使得識(shí)別系統(tǒng)過于復(fù)雜，這些因素都會(huì)影響模型的性能。文中

2021-05-08 16:57:07

人工智能語音機(jī)器人是如何模仿真人語調(diào)的

AI人工智能語音機(jī)器人不僅有真人語音播報(bào)，還能深刻理解用戶的疑問并給出相應(yīng)的答案，甚至對(duì)方都不知道說話這么久的對(duì)象是機(jī)器人。智能語音呼出系統(tǒng)是一款人工智能語音機(jī)器人，語音機(jī)器人媲美真人語音的做法

2021-07-29 17:57:57

2239

語音識(shí)別芯片的分類及應(yīng)用

語音識(shí)別芯片也叫語音識(shí)別IC，與傳統(tǒng)的語音芯片相比，語音識(shí)別芯片最大的特點(diǎn)就是能夠語音識(shí)別，它能讓機(jī)器聽懂人類的語音，并且可以根據(jù)命令執(zhí)行各種動(dòng)作。除此之外，語音識(shí)別芯片還具有高品質(zhì)、高壓縮率錄音放音功能，可實(shí)現(xiàn)人機(jī)對(duì)話。

2021-10-21 15:38:19

2346

基于51單片機(jī)+LD3320語音模塊+SYN6288語音合成——語音識(shí)別智能分類垃圾桶

語音識(shí)別智能分類垃圾桶基本介紹器件51單片機(jī)LD3320語音模塊SYN6288語音合成SG90舵機(jī)（4個(gè)）usb-ttl模塊垃圾桶四個(gè)（4個(gè)）面包板（建議用）實(shí)現(xiàn)思路與接線實(shí)現(xiàn)流程圖接線呈現(xiàn)圖代碼

2021-11-12 11:21:02

在線研討會(huì)預(yù)告 | 多說話人語音融合——NVIDIA NeMo 代碼解析

中原始說話人的語音。說話人語音融合技術(shù)可用于在語音合成系統(tǒng)中對(duì)語音進(jìn)行個(gè)性化處理和生成具有特定語音特征的語音。同時(shí)允許開發(fā)者創(chuàng)建無限數(shù)量的說話人語音，合成出多樣性的語音，可以豐富用于訓(xùn)練自動(dòng)語音識(shí)別（ASR）和語音

2022-11-23 20:30:03

399

介紹語音識(shí)別芯片分類

語音識(shí)別芯片也被稱為語音識(shí)別IC.與傳統(tǒng)的語音芯片相比，語音識(shí)別芯片最大的特點(diǎn)是可以進(jìn)行語音識(shí)別，使設(shè)備能夠理解人們的語音，并可以根據(jù)命令執(zhí)行各種動(dòng)作.此外，語音識(shí)別芯片還具有高質(zhì)量，高壓縮率的音頻放音功能，可實(shí)現(xiàn)人機(jī)對(duì)話.

2023-02-27 16:04:03

1010

語音識(shí)別技術(shù)的分類及識(shí)別方法

按鍵、二進(jìn)制編碼或者字符序列。與說話人識(shí)別及說話人確認(rèn)不同，后者嘗試識(shí)別或確認(rèn)發(fā)出語音的說話人而非其中所包含的詞匯內(nèi)容。

2023-04-13 16:03:19

3690

已全部加載完成

搜索歷史

谷歌利用序列轉(zhuǎn)導(dǎo)來實(shí)現(xiàn)多人語音識(shí)別和說話人分類

評(píng)論