性用语cd是什么意思,日本人妻系列,欧美熟妇偷窥综合网

在過(guò)去十年中，人工智能支持的語(yǔ)音識(shí)別系統(tǒng)逐漸成為我們?nèi)粘Ｉ畹囊徊糠?，從語(yǔ)音搜索到聯(lián)絡(luò)中心、汽車(chē)、醫(yī)院和餐館的虛擬助手。這些語(yǔ)音識(shí)別的發(fā)展得益于深度學(xué)習(xí)的進(jìn)步。

許多行業(yè)的開(kāi)發(fā)人員現(xiàn)在使用自動(dòng)語(yǔ)音識(shí)別（ ASR ）來(lái)提高業(yè)務(wù)生產(chǎn)率、應(yīng)用程序效率，甚至數(shù)字訪問(wèn)能力。

什么是自動(dòng)語(yǔ)音識(shí)別

語(yǔ)音識(shí)別技術(shù)能夠?qū)⒖谡Z(yǔ)（音頻信號(hào)）轉(zhuǎn)換為通常用作命令的書(shū)面文本。

當(dāng)今最先進(jìn)的軟件可以準(zhǔn)確地處理各種語(yǔ)言方言和口音。例如， ASR 通常出現(xiàn)在面向用戶(hù)的應(yīng)用程序中，如虛擬代理、實(shí)時(shí)字幕和臨床筆記。準(zhǔn)確的語(yǔ)音轉(zhuǎn)錄對(duì)于這些用例至關(guān)重要。

語(yǔ)音 AI 領(lǐng)域的開(kāi)發(fā)者也使用替代術(shù)語(yǔ) 描述語(yǔ)音識(shí)別，如 ASR 、語(yǔ)音到文本（ STT ）和語(yǔ)音識(shí)別。

ASR 是系統(tǒng)的關(guān)鍵組成部分語(yǔ)音 AI ，這是一套旨在幫助人類(lèi)通過(guò)語(yǔ)音與計(jì)算機(jī)對(duì)話的技術(shù)。

為什么在語(yǔ)音識(shí)別中使用自然語(yǔ)言處理

開(kāi)發(fā)人員通常不清楚自然語(yǔ)言處理（ NLP ）模型在 ASR 管道中的作用。除了應(yīng)用于語(yǔ)言模型之外， NLP 還用于在 ASR 管道的末尾添加標(biāo)點(diǎn)和大寫(xiě)字母來(lái)增強(qiáng)生成的轉(zhuǎn)錄本。

在用 NLP 對(duì)轉(zhuǎn)錄本進(jìn)行后處理后，文本用于下游語(yǔ)言建模任務(wù)，包括：

情緒分析

文本分析

文本摘要

問(wèn)答

語(yǔ)音識(shí)別算法

語(yǔ)音識(shí)別算法可以通過(guò)使用統(tǒng)計(jì)算法的傳統(tǒng)方式實(shí)現(xiàn)，或者通過(guò)使用深度學(xué)習(xí)技術(shù)（如神經(jīng)網(wǎng)絡(luò)）將語(yǔ)音轉(zhuǎn)換為文本。

傳統(tǒng)的 ASR 算法

隱馬爾可夫模型（ HMM ）和動(dòng)態(tài)時(shí)間扭曲（ DTW ）是用于執(zhí)行語(yǔ)音識(shí)別的傳統(tǒng)統(tǒng)計(jì)技術(shù)的兩個(gè)示例。

使用一組轉(zhuǎn)錄的音頻樣本，通過(guò)改變模型參數(shù)來(lái)訓(xùn)練 HMM 以預(yù)測(cè)單詞序列，從而最大化觀察到的音頻序列的可能性。

DTW 是一種動(dòng)態(tài)規(guī)劃算法，通過(guò)計(jì)算時(shí)間序列之間的距離來(lái)尋找最佳可能的單詞序列：一個(gè)代表未知語(yǔ)音，另一個(gè)代表已知單詞。

深度學(xué)習(xí) ASR 算法

在過(guò)去幾年中，開(kāi)發(fā)人員一直對(duì)語(yǔ)音識(shí)別的深度學(xué)習(xí)感興趣，因?yàn)榻y(tǒng)計(jì)算法不太準(zhǔn)確。事實(shí)上，深度學(xué)習(xí)算法能更好地理解方言、口音、上下文和多種語(yǔ)言，即使在嘈雜的環(huán)境中也能準(zhǔn)確地轉(zhuǎn)錄。

一些最流行的最先進(jìn)的語(yǔ)音識(shí)別聲學(xué)模型有： Quartznet， Citrinet 和 Conformer 在典型的語(yǔ)音識(shí)別管道中，您可以根據(jù)您的用例和性能選擇和切換任何聲學(xué)模型。

深度學(xué)習(xí)模型的實(shí)現(xiàn)工具

有幾種工具可用于開(kāi)發(fā)深度學(xué)習(xí)語(yǔ)音識(shí)別模型和管道，包括： Kaldi Mozilla DeepSpeech ， NVIDIA NeMo， Riva， TAO Toolkit ，以及來(lái)自谷歌、亞馬遜和微軟的服務(wù)。

Kaldi 、 DeepSpeech 和 NeMo 是幫助您構(gòu)建語(yǔ)音識(shí)別模型的開(kāi)源工具包。 TAO 工具包和 Riva 是封閉源代碼 SDK ，可幫助您開(kāi)發(fā)可在生產(chǎn)中部署的可定制管道。

谷歌、 AWS 和微軟等云服務(wù)提供商提供通用服務(wù)，您可以輕松地即插即用。

深度學(xué)習(xí)語(yǔ)音識(shí)別流水線

如圖 1 所示， ASR 管道由以下組件組成：將原始音頻轉(zhuǎn)換為頻譜圖的頻譜圖生成器、將頻譜圖作為輸入并輸出隨時(shí)間變化的字符概率矩陣的聲學(xué)模型、從概率矩陣生成可能句子的解碼器（可選地與語(yǔ)言模型耦合），最后，一種標(biāo)點(diǎn)符號(hào)和大寫(xiě)模式，用于格式化生成的文本，以便于人類(lèi)使用。

用于語(yǔ)音識(shí)別的典型深度學(xué)習(xí)管道包括：

數(shù)據(jù)預(yù)處理

神經(jīng)聲學(xué)模型

解碼器（可選地與 n-gram 語(yǔ)言模型耦合）

標(biāo)點(diǎn)和大寫(xiě)模式。

圖 1 顯示了深度學(xué)習(xí)語(yǔ)音識(shí)別管道的示例：

圖 1.深度學(xué)習(xí)語(yǔ)音識(shí)別管道的示例

數(shù)據(jù)集在任何深度學(xué)習(xí)應(yīng)用中都是必不可少的。神經(jīng)網(wǎng)絡(luò)的功能類(lèi)似于人腦。你用來(lái)教授模型的數(shù)據(jù)越多，它學(xué)習(xí)的越多。語(yǔ)音識(shí)別管道也是如此。

一些流行的語(yǔ)音識(shí)別數(shù)據(jù)集是 LibriSpeech ， Fisher 英語(yǔ)培訓(xùn)演講， Mozilla 通用語(yǔ)音（ MCV ）、 VoxPopuli 、 2000 HUB 5 英語(yǔ)評(píng)估演講、 AN4 （包括人們拼寫(xiě)地址和姓名的錄音）和 Aisell-1 / Aisell-2 漢語(yǔ)語(yǔ)音語(yǔ)料庫(kù)。除了您自己的專(zhuān)有數(shù)據(jù)集之外，還可以使用一些開(kāi)源數(shù)據(jù)集。

數(shù)據(jù)處理是第一步。它包括數(shù)據(jù)預(yù)處理/增強(qiáng)技術(shù)，如速度/時(shí)間/噪聲/脈沖擾動(dòng)和時(shí)間拉伸增強(qiáng)、使用窗口的快速傅立葉變換（ FFT ）和歸一化技術(shù)。

例如，在下圖 2 中，使用加窗技術(shù)應(yīng)用 FFT 后，從原始音頻波形生成 mel 譜圖。

圖 2.音頻記錄原始音頻波形（左）和 mel 頻譜圖（右）

我們還可以使用擾動(dòng)技術(shù)來(lái)擴(kuò)充訓(xùn)練數(shù)據(jù)集。圖 3 和圖 4 顯示了噪聲擾動(dòng)和掩蔽等技術(shù)，用于增加訓(xùn)練數(shù)據(jù)集的大小，以避免過(guò)擬合等問(wèn)題。

圖 3.噪聲增強(qiáng)音頻波形到噪聲增強(qiáng) mel 頻譜圖圖像

圖 4.噪聲增強(qiáng)的 mel 頻譜圖到噪聲增強(qiáng)的掩蔽 mel 頻譜圖像

數(shù)據(jù)預(yù)處理階段的輸出是頻譜圖/ mel 頻譜圖，它是音頻信號(hào)強(qiáng)度隨時(shí)間變化的視覺(jué)表示。

然后將 Mel 光譜圖送入下一階段：神經(jīng)聲學(xué)模型 QuartzNet 、 CitriNet 、 ContextNet 、 Conformer CTC 和 Conformer-Transducer 是尖端神經(jīng)聲學(xué)模型的示例。存在多個(gè) ASR 模型有幾個(gè)原因，例如需要實(shí)時(shí)性能、更高的精度、內(nèi)存大小和用例的計(jì)算成本。

然而，基于構(gòu)象的模型由于其提高的準(zhǔn)確性和理解能力而變得越來(lái)越流行。聲學(xué)模型返回每個(gè)時(shí)間戳的字符/單詞概率。

圖 5 顯示了聲學(xué)模型的輸出，帶有時(shí)間戳。

圖 5. 聲學(xué)模型的輸出包括每個(gè)時(shí)間步詞匯字符的概率分布

聲學(xué)模型的輸出與語(yǔ)言模型一起輸入解碼器。解碼器包括波束搜索和貪婪解碼器，語(yǔ)言模型包括 n-gram 語(yǔ)言、 KenLM 和神經(jīng)評(píng)分。當(dāng)涉及到解碼器時(shí)，它有助于生成頂部單詞，然后將其傳遞給語(yǔ)言模型以預(yù)測(cè)正確的句子。

在下圖中，解碼器根據(jù)概率得分選擇下一個(gè)最佳單詞。根據(jù)最終的最高分?jǐn)?shù)，選擇正確的單詞或句子，并將其發(fā)送到標(biāo)點(diǎn)符號(hào)和大小寫(xiě)模型。

圖 6.解碼器工作流程示例

ASR 管道生成沒(méi)有標(biāo)點(diǎn)或大寫(xiě)的文本。

最后，使用標(biāo)點(diǎn)符號(hào)和大寫(xiě)字母模型來(lái)提高文本質(zhì)量，以提高可讀性。來(lái)自變換器（ BERT ）模型的雙向編碼器表示通常用于生成標(biāo)點(diǎn)文本。

圖 7 展示了標(biāo)點(diǎn)符號(hào)前后和大小寫(xiě)模型的一個(gè)簡(jiǎn)單示例：

圖 7.標(biāo)點(diǎn)符號(hào)和大小寫(xiě)模型的示例輸出

語(yǔ)音識(shí)別行業(yè)影響

語(yǔ)音識(shí)別可以幫助金融、電信和統(tǒng)一通信即服務(wù)（ UCaaS ）等行業(yè)改善客戶(hù)體驗(yàn)、運(yùn)營(yíng)效率和投資回報(bào)率（ ROI ）。

金融

語(yǔ)音識(shí)別應(yīng)用于金融行業(yè)，例如：呼叫中心代理協(xié)助和交易記錄。 ASR 用于轉(zhuǎn)錄客戶(hù)與呼叫中心代理/交易大廳代理之間的對(duì)話。然后可以分析生成的轉(zhuǎn)錄，并將其用于向代理提供實(shí)時(shí)建議。這將使通話后時(shí)間減少 80% 。

此外，生成的轉(zhuǎn)錄本用于下游任務(wù)，包括：

情緒分析

文本摘要

問(wèn)答

意圖和實(shí)體識(shí)別

電信

聯(lián)絡(luò)中心是電信行業(yè)的重要組成部分。通過(guò)呼叫中心技術(shù)，您可以重新想象電信客戶(hù)中心，語(yǔ)音識(shí)別可以幫助您實(shí)現(xiàn)這一點(diǎn)。正如前面在財(cái)務(wù)呼叫中心用例中所討論的， ASR 用于電信聯(lián)絡(luò)中心轉(zhuǎn)錄客戶(hù)和聯(lián)絡(luò)中心代理之間的對(duì)話，以便實(shí)時(shí)分析客戶(hù)和推薦呼叫中心代理。 T-Mobile 使用 ASR 快速解決客戶(hù)問(wèn)題例如

統(tǒng)一通信及時(shí)服務(wù)（ UCaaS ）

新冠肺炎增加了對(duì)統(tǒng)一通信即服務(wù)（ UCaaS ）解決方案的需求，該領(lǐng)域的供應(yīng)商開(kāi)始專(zhuān)注于使用語(yǔ)音人工智能技術(shù)，如 ASR ，以創(chuàng)造更具吸引力的會(huì)議體驗(yàn)。

例如， ASR 可用于生成視頻會(huì)議中的實(shí)時(shí)字幕。然后，生成的標(biāo)題可用于后續(xù)任務(wù)，如會(huì)議摘要和識(shí)別筆記中的行動(dòng)項(xiàng)目。

ASR 技術(shù)的未來(lái)

語(yǔ)音識(shí)別并不像聽(tīng)起來(lái)那么容易。開(kāi)發(fā)語(yǔ)音識(shí)別充滿(mǎn)了挑戰(zhàn)，從準(zhǔn)確性到用例定制，再到實(shí)時(shí)性能。另一方面，企業(yè)和學(xué)術(shù)機(jī)構(gòu)正在競(jìng)相克服其中一些挑戰(zhàn)，并推進(jìn)語(yǔ)音識(shí)別能力的使用。

ASR 挑戰(zhàn)

在生產(chǎn)中開(kāi)發(fā)和部署語(yǔ)音識(shí)別管道的一些挑戰(zhàn)包括：

由于缺乏提供最先進(jìn)（ SOTA ） ASR 模型的工具和 SDK ，開(kāi)發(fā)人員很難利用最好的語(yǔ)音識(shí)別技術(shù)。

有限的自定義功能，使開(kāi)發(fā)人員能夠微調(diào)特定于域和上下文的行話、多種語(yǔ)言、方言和口音，以便讓您的應(yīng)用程序像您一樣理解和說(shuō)話

限制部署支持；例如，根據(jù)用例的不同，軟件應(yīng)該能夠部署在任何云中、 prem 、 edge 和嵌入式上。

實(shí)時(shí)語(yǔ)音識(shí)別流水線；例如，在呼叫中心代理輔助用例中，在使用會(huì)話授權(quán)代理之前，我們不能等待幾秒鐘才能轉(zhuǎn)錄會(huì)話。

ASR 進(jìn)展

語(yǔ)音識(shí)別在研究和軟件開(kāi)發(fā)方面都取得了許多進(jìn)展。首先，研究結(jié)果開(kāi)發(fā)了幾種新的尖端 ASR 體系結(jié)構(gòu)、 E2E 語(yǔ)音識(shí)別模型和自監(jiān)督或無(wú)監(jiān)督訓(xùn)練技術(shù)。

在軟件方面，有一些工具可以快速訪問(wèn) SOTA 模型，還有一些不同的工具可以將模型部署為生產(chǎn)中的服務(wù)。

關(guān)鍵要點(diǎn)

由于語(yǔ)音識(shí)別在基于深度學(xué)習(xí)的算法方面的進(jìn)步，語(yǔ)音識(shí)別的采用率持續(xù)增長(zhǎng)，這使得語(yǔ)音識(shí)別與人類(lèi)識(shí)別一樣準(zhǔn)確。此外，多語(yǔ)言 ASR 等突破有助于公司在全球范圍內(nèi)提供應(yīng)用程序，將算法從云端移動(dòng)到設(shè)備上可以節(jié)省資金、保護(hù)隱私并加快推理速度。

NVIDIA 提供 Riva ，一個(gè)語(yǔ)音 AI SDK ，以解決上面討論的幾個(gè)挑戰(zhàn)。通過(guò) Riva ，您可以快速訪問(wèn)為生產(chǎn)目的量身定制的最新 SOTA 研究模型。您可以根據(jù)您的領(lǐng)域和用例自定義這些模型，在任何云上、 prem 上、 edge 上或嵌入式上部署，并實(shí)時(shí)運(yùn)行它們以進(jìn)行自然交互。

關(guān)于作者

Sirisha Rella 是 NVIDIA 的技術(shù)產(chǎn)品營(yíng)銷(xiāo)經(jīng)理，專(zhuān)注于計(jì)算機(jī)視覺(jué)、語(yǔ)音和基于語(yǔ)言的深度學(xué)習(xí)應(yīng)用。 Sirisha 獲得了密蘇里大學(xué)堪薩斯城分校的計(jì)算機(jī)科學(xué)碩士學(xué)位，是國(guó)家科學(xué)基金會(huì)大學(xué)習(xí)中心的研究生助理。

審核編輯：郭婷

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

AI

AI

+關(guān)注

關(guān)注
91

文章
39816

瀏覽量
301481
語(yǔ)音識(shí)別

語(yǔ)音識(shí)別

+關(guān)注

關(guān)注
39

文章
1812

瀏覽量
116064
人工智能

人工智能

+關(guān)注

關(guān)注
1817

文章
50101

瀏覽量
265502
nlp

nlp

+關(guān)注

關(guān)注
1

文章
491

瀏覽量
23282

chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛兴趣闲谈,欧美亚洲精品 8区,国产精品久久久久精品免费

搜索歷史

自動(dòng)語(yǔ)音識(shí)別技術(shù)基本指南

評(píng)論