九色国产高清在线视频,大黄号女黄人福利网站,囯产精品无码一区二区三区

成功部署自動語音識別（ ASR ）應用程序可能是令人沮喪的體驗。例如，考慮到存在許多不同的方言和發(fā)音， ASR 系統(tǒng)很難在保持低延遲的同時正確識別單詞。

無論您使用的是商業(yè)解決方案還是開源解決方案，在構(gòu)建 ASR 應用程序時都有許多挑戰(zhàn)需要考慮。

在這篇文章中，我強調(diào)了開發(fā)人員在向應用程序添加 ASR 功能時面臨的主要痛點。我以 NVIDIA Riva 語音 AI SDK 為例，分享如何應對和克服這些挑戰(zhàn)。

構(gòu)建 ASR 應用程序的挑戰(zhàn)

以下是創(chuàng)建任何 ASR 系統(tǒng)時存在的一些挑戰(zhàn)：

高精度

低延遲

計算資源分配

靈活的部署和可擴展性

定制

監(jiān)測和跟蹤

高精度

衡量語音識別準確性的一個關(guān)鍵指標是單詞錯誤率（ WER ）。 WER 定義為轉(zhuǎn)錄過程中識別的不正確和缺失單詞總數(shù)與標記轉(zhuǎn)錄本中出現(xiàn)的單詞總數(shù)之比。

有幾個原因?qū)е?ASR 模型中的轉(zhuǎn)錄錯誤，導致信息的誤解：

訓練數(shù)據(jù)集的質(zhì)量

不同的方言和發(fā)音

口音和語音變化

自定義或特定領(lǐng)域的詞和首字母縮略詞

詞的語境關(guān)系

區(qū)分語音相似的句子

由于這些因素，很難建立具有低 WER 分數(shù)的穩(wěn)健 ASR 模型。

低延遲

一個對話人工智能應用程序是由語音人工智能和自然語言處理（ NLP ）組成的端到端管道。

對于任何對話式人工智能應用程序，響應時間都是進行任何自然對話的關(guān)鍵因素。如果客戶在等待 1 分鐘后才收到響應，則與機器人對話是不實際的。

據(jù)觀察，任何對話 AI 應用程序都應：提供小于 300 毫秒的延遲因此，確保語音 AI 模型等待時間遠低于 300 毫秒限制，以集成到實時會話 AI 應用的端到端流水線中變得至關(guān)重要。

許多因素影響 ASR 模型的總體延遲：

Model size：大型和復雜的模型具有更好的精度，但與較小的模型相比，需要大量的計算能力并增加延遲；即推斷成本高。

Hardware：這種復雜模型的邊緣部署進一步增加了延遲要求的復雜性。

Network bandwidth：流式傳輸音頻內(nèi)容和轉(zhuǎn)錄本需要足夠的帶寬，尤其是在基于云的部署情況下。

計算資源分配

優(yōu)化 ASR 模型及其資源利用適用于所有人工智能模型，而不僅僅是 ASR 模型。然而，這是影響運行任何人工智能應用程序的總體延遲和計算成本的關(guān)鍵因素。

優(yōu)化模型的全部目的是在計算級別和延遲級別降低推理成本。但是，對于特定架構(gòu)，在線可用的所有模型都不是平等創(chuàng)建的，并且不具有相同的代碼質(zhì)量。他們在表現(xiàn)上也有巨大的差異。

此外，并非所有這些方法都以相同的方式響應知識提取、修剪、量化和其他優(yōu)化技術(shù)，從而在不影響精度結(jié)果的情況下提高推理性能。

靈活的部署和可擴展性

創(chuàng)建準確高效的模型只是任何實時人工智能應用程序的一小部分。所需的周邊基礎(chǔ)設施龐大而復雜。例如，部署基礎(chǔ)設施應包括：

流式支持

資源管理處

服務基礎(chǔ)設施

分析工具支持

監(jiān)測服務

創(chuàng)建一個定制的端到端優(yōu)化部署管道，以支持任何 ASR 應用程序所需的延遲要求，這是一個挑戰(zhàn)，因為它需要在每個管道階段進行優(yōu)化和加速。

根據(jù)給定實例必須支持的音頻流的數(shù)量，語音識別應用程序應該能夠自動擴展應用程序部署，以提供可接受的性能。

定制

讓模型開箱即用始終是我們的目標。然而，當前可用模型的性能取決于其訓練階段使用的數(shù)據(jù)集。模型通常適用于它們已經(jīng)暴露的用例，但一旦在不同的域應用程序中部署，同一模型的性能可能會下降。

具體來說，在 ASR 的情況下，模型的性能取決于口音或語言以及語音變化。您應該能夠根據(jù)應用程序用例定制模型。

例如，在醫(yī)療保健或金融相關(guān)應用中部署的語音識別模型需要支持特定領(lǐng)域的詞匯表。該詞匯與 ASR 模型培訓期間通常使用的詞匯不同。

為了支持 ASR 的區(qū)域語言，您需要一套完整的培訓管道，以便輕松定制模型并有效地處理不同的方言。

監(jiān)測和跟蹤

實時監(jiān)控和跟蹤有助于獲得即時洞察、警報和通知，以便您及時采取糾正措施。這有助于根據(jù)傳入流量跟蹤資源消耗，從而可以自動縮放相應的應用程序。還可以設置配額限制，以在不影響總體吞吐量的情況下最小化基礎(chǔ)設施成本。

捕獲所有這些統(tǒng)計數(shù)據(jù)需要集成多個庫，以捕獲 ASR 管道各個階段的性能。

Riva SDK 如何應對 ASR 挑戰(zhàn)的示例

高級 SDK 可用于方便地為應用程序添加語音接口。在這篇文章中，我演示了如何在構(gòu)建語音識別應用程序時使用 GPU 加速 SDK （如 Riva ）來解決這些挑戰(zhàn)。

高精度和計算優(yōu)化

您可以在 NGC 中使用預訓練的 Riva 語音模型，該模型可以使用 TAO 工具包在自定義數(shù)據(jù)集上進行微調(diào)，從而將特定領(lǐng)域的模型開發(fā)進一步加速 10 倍。

為 GPU 部署優(yōu)化并加速了所有 NGC 模型，以實現(xiàn)更好的識別精度。 NVIDIA TensorRT 優(yōu)化也完全支持這些模型。 Riva 的高性能推理由 TensorRT 優(yōu)化提供支持，并使用 NVIDIA Triton 推理服務器來優(yōu)化整體計算需求，進而提高服務器吞吐量

例如，以下是一些 NGC 上的 ASR 模型，它們作為 Riva 管道的一部分進一步優(yōu)化，以獲得更好的性能：

Conformer-CTC xLarge

Citrinet 512

從模型、軟件到硬件， Riva 的整個堆棧不斷優(yōu)化，實現(xiàn)了以下目標： 12 與上一代相比的增益。

圖 1.使用 NVIDIA Riva 的 ASR 性能加速

低延遲

流式和離線配置的延遲和吞吐量測量報告在 ASR 性能 Riva 文件部分。

在“流式低延遲” Riva ASR 模型部署模式中，大多數(shù)情況下的平均延遲（ ms ）遠小于 50 ms 。使用這樣的 ASR 模型，創(chuàng)建實時會話 AI 管道變得更容易，并且仍然達到《 300 毫秒的延遲要求。

靈活的部署和擴展

在任何平臺上輕松部署語音識別應用程序都需要全面支持。 Riva SDK 在每一步都提供了靈活性，從對特定領(lǐng)域數(shù)據(jù)集的模型進行微調(diào)到定制管道。它還可以部署在云、本地、邊緣和嵌入式設備中。

為了支持擴展， Riva 是完全容器化的，可以擴展到成百上千個并行流。 Riva 也包含在 NGC Helm 倉庫，這是一個設計用于自動按下按鈕的圖表部署到 Kubernetes 集群。

定制

Figure 2. 定制技術(shù)包括從單詞提升到微調(diào)標點和大寫模型

定制技術(shù) 當開箱即用 Riva 模型無法處理訓練數(shù)據(jù)中未出現(xiàn)的挑戰(zhàn)性場景時，這是有用的。這可能包括識別窄域術(shù)語、新口音或嘈雜環(huán)境。

類似 Riva 的 SDK 支持定制，從單詞增強級別開始，并為最終用戶提供定制訓練其聲學模型。

Riva 語音技能還提供了跨多種語言的高質(zhì)量、預訓練模型。有關(guān)支持的語言的所有模型的更多信息，請參閱語言支持部分。

監(jiān)測和跟蹤

在 Riva，基礎(chǔ) Triton 推理服務器度量基于自定義和儀表板創(chuàng)建，可供最終用戶使用。這些指標僅通過訪問端點可用。

NVIDIA Triton 提供普羅米修斯指標，以及指示 GPU 和請求統(tǒng)計。這有助于監(jiān)控和跟蹤生產(chǎn)部署設置。

關(guān)鍵要點

這篇文章為您提供了開發(fā)具有 ASR 功能的 AI 應用程序時出現(xiàn)的常見痛點的高級概述。了解影響 ASR 應用程序整體性能的因素有助于簡化和改進端到端開發(fā)過程。

Sunil Kumar Jang Bahadur 是 NVIDIA Inception 團隊的高級解決方案架構(gòu)師，專注于印度的人工智能初創(chuàng)企業(yè)。他在各種工業(yè)部門的軟件開發(fā)和技術(shù)解決方案方面擁有 12 年以上的經(jīng)驗。他喜歡教機器，讓它們更人性化。

審核編輯：郭婷

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

NVIDIA

NVIDIA

+關(guān)注

關(guān)注
14

文章
5594

瀏覽量
109781
語音識別

語音識別

+關(guān)注

關(guān)注
39

文章
1812

瀏覽量
116064

chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛兴趣闲谈,欧美亚洲精品 8区,国产精品久久久久精品免费

搜索歷史

解決自動語音識別部署難題

評論