chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

利用NVIDIA Triton推理服務(wù)器加速語音識別的速度

NVIDIA英偉達(dá) ? 來源:NVIDIA英偉達(dá) ? 作者:NVIDIA英偉達(dá) ? 2022-05-13 10:40 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

網(wǎng)易互娛 AI Lab 的研發(fā)人員,基于 Wenet 語音識別工具進(jìn)行優(yōu)化和創(chuàng)新,利用 NVIDIA Triton 推理服務(wù)器的 GPU Batch Inference 機(jī)制加速了語音識別的速度,并且降低了成本。

2001 年正式成立的網(wǎng)易游戲·互動娛樂事業(yè)群在經(jīng)歷了近 20 年的發(fā)展歷程后,以“創(chuàng)新無邊界,匠心造精品”為文化基石,創(chuàng)造了一系列大家耳熟能詳?shù)拇碜髌?,如夢幻西游系列、大話西游系列、《陰陽師》、《第五人格》、《荒野行動》、《率土之濱》、《哈利波特:魔法覺醒》等。在 data.ai 公布的 2021 全球發(fā)行商 52 強(qiáng)榜單中,網(wǎng)易排名第二。

語音識別 AI 算法服務(wù)目前已經(jīng)成為各個領(lǐng)域不可或缺的基礎(chǔ)算法服務(wù)。網(wǎng)易互娛 AI Lab 為所有互娛游戲的玩家,CC 直播平臺用戶等提供完善的語音識別服務(wù)。語音識別服務(wù)每天都有大量的調(diào)用量,AI 推理的計算量繁重。

在網(wǎng)易游戲中,語音識別是一個調(diào)用量龐大的基礎(chǔ)算法服務(wù),如果在語音識別算法服務(wù)這里出現(xiàn)時耗或吞吐瓶頸的話,會因為語音內(nèi)容識別過慢,使得用戶使用體驗大幅下降。

服務(wù)是基于開源框架 Wenet 優(yōu)化開發(fā),但是 Wenet 框架中非流式部署方案是基于 libtorch 和 C++ 的,并且熱詞和語言模型部分均采用了 Openfst,速度較慢,也不太方便使用。經(jīng)過測試 CPU Float32 模式下解碼,onnxruntime 要比 libtorch 快了近 20%。在 GPU 部署時還需要有拼接 Batch 的機(jī)制,batch inference 雖然在使用 CPU 做推理時沒有太大的提升,但是能大大提升 GPU 的利用率。

基于以上的挑戰(zhàn),網(wǎng)易互娛 AI Lab 選擇了采用 NVIDIA 在 Wenet 中開源的 Triton 部署方案來改進(jìn)優(yōu)化后進(jìn)行 GPU 部署,使得語音識別速度提高,大幅降低時延和運營成本。

由于 Wenet 開源框架下的 Triton 推理服務(wù)器并沒有考慮音頻解碼,顯存溢出等問題,所以需要有個前端邏輯做音頻解碼處理和音頻分段處理。并且因為 Triton 推理服務(wù)器組 batch 的機(jī)制是相同音頻長度才會自動組成 batch 做推理,所以前端處理邏輯這塊還加上了按秒 padding 的操作。整體流程如圖所示。

68afeb16-d1df-11ec-bce3-dac502259ad0.jpg

其中前端處理流程如圖所示:

68d173e4-d1df-11ec-bce3-dac502259ad0.jpg

NVIDIA Triton 推理服務(wù)器處理流程:

6911f87e-d1df-11ec-bce3-dac502259ad0.jpg

(圖片來源于網(wǎng)易互娛授權(quán))

其中 Triton 推理服務(wù)器中解碼器部分是基于 Wenet 的熱詞方案而自研實現(xiàn)的熱詞解碼器方案。

QPS,RTF 在 5 秒音頻下,CPU 設(shè)備和 GPU 設(shè)備對比,CPU 為 36 核機(jī)器, GPU 為單卡 T4:

692de6e2-d1df-11ec-bce3-dac502259ad0.jpg

(圖片來源于網(wǎng)易互娛授權(quán))

由表格可知,對比 CPU-FP32 與 GPU-FP16,單卡 T4 的推理能力基本相當(dāng)于 36 核 CPU(Intel(R) Xeon(R) CPU E5-2630 v4 @ 2.20GHz)機(jī)器的 4 倍。并且實驗測試可以得知 FP16 與 FP32 的 WER 基本無損。

自研熱詞解碼器的方法結(jié)果展示:

694de352-d1df-11ec-bce3-dac502259ad0.png

6967e824-d1df-11ec-bce3-dac502259ad0.png

(圖片來源于網(wǎng)易互娛授權(quán))

這里 GPU 的效果采用自研的熱詞增強(qiáng)的方法,識別率在熱詞這塊能有絕對 0.8% 的性能提升,而 Wenet 開源的方法大概是 0.5%。并且自研熱詞實例的構(gòu)建耗時基本可以忽略不計。

整體來看 GPU 的方案在識別率基本無損的情況下,單卡 T4 比 36 核 CPU 機(jī)器提高近 4 倍的 QPS,單個音頻 RTF 測試下,包含音頻解碼等損耗情況下也能提高近 3 倍,并且也能夠支持熱詞增強(qiáng)功能,讓機(jī)器成本和識別速度都得到了很好的優(yōu)化。

網(wǎng)易互娛廣州 AI Lab 資深 AI 算法工程師丁涵宇表示:“目前該方案已在網(wǎng)易互娛 AI Lab 語音識別服務(wù)落地,大大的降低了識別時延和機(jī)器成本。后續(xù),我們還將與英偉達(dá)一起研究將熱詞增強(qiáng)的方法在 GPU 中實現(xiàn),探索的極致的語音識別推理性能?!?/p>

原文標(biāo)題:NVIDIA Triton 助力網(wǎng)易互娛 AI Lab,改善語音識別效率及成本

文章出處:【微信公眾號:NVIDIA英偉達(dá)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

審核編輯:湯梓紅

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • NVIDIA
    +關(guān)注

    關(guān)注

    14

    文章

    5494

    瀏覽量

    109016
  • AI
    AI
    +關(guān)注

    關(guān)注

    89

    文章

    38004

    瀏覽量

    295970
  • 語音識別
    +關(guān)注

    關(guān)注

    39

    文章

    1802

    瀏覽量

    115523

原文標(biāo)題:NVIDIA Triton 助力網(wǎng)易互娛 AI Lab,改善語音識別效率及成本

文章出處:【微信號:NVIDIA_China,微信公眾號:NVIDIA英偉達(dá)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    加速是如何隱藏源服務(wù)器ip的

    服務(wù)器IP是保護(hù)服務(wù)器的一項重要安全措施。 華納云 為大家分享受一下內(nèi)容: 隱藏源服務(wù)器IP的主要目的是防止惡意攻擊者通過直接訪問服務(wù)器IP地址來發(fā)動攻擊,同時提高
    的頭像 發(fā)表于 09-12 16:31 ?424次閱讀

    NVIDIA三臺計算機(jī)解決方案如何協(xié)同助力機(jī)器人技術(shù)

    NVIDIA DGX、基于 NVIDIA RTX PRO 服務(wù)器的 Omniverse 和 Cosmos,以及 Jetson AGX Thor,正全面加速從人形機(jī)器人到機(jī)器人工廠等基于
    的頭像 發(fā)表于 08-27 11:48 ?1977次閱讀

    如何在魔搭社區(qū)使用TensorRT-LLM加速優(yōu)化Qwen3系列模型推理部署

    TensorRT-LLM 作為 NVIDIA 專為 LLM 推理部署加速優(yōu)化的開源庫,可幫助開發(fā)者快速利用最新 LLM 完成應(yīng)用原型驗證與產(chǎn)品部署。
    的頭像 發(fā)表于 07-04 14:38 ?1718次閱讀

    使用NVIDIA Triton和TensorRT-LLM部署TTS應(yīng)用的最佳實踐

    針對基于 Diffusion 和 LLM 類別的 TTS 模型,NVIDIA Triton 和 TensorRT-LLM 方案能顯著提升推理速度
    的頭像 發(fā)表于 06-12 15:37 ?1280次閱讀
    使用<b class='flag-5'>NVIDIA</b> <b class='flag-5'>Triton</b>和TensorRT-LLM部署TTS應(yīng)用的最佳實踐

    基于RAKsmart云服務(wù)器的AI大模型實時推理方案設(shè)計

    面對高并發(fā)請求、嚴(yán)格的響應(yīng)延遲要求及波動的業(yè)務(wù)負(fù)載,傳統(tǒng)本地化部署的算力瓶頸愈發(fā)顯著。RAKsmart云服務(wù)器憑借其彈性計算資源池、分布式網(wǎng)絡(luò)架構(gòu)與全棧AI加速能力,為AI大模型實時推理提供了從硬件到軟件層的系統(tǒng)性解決方案。
    的頭像 發(fā)表于 05-13 10:33 ?454次閱讀

    AI 推理服務(wù)器都有什么?2025年服務(wù)器品牌排行TOP10與選購技巧

    根據(jù)行業(yè)數(shù)據(jù),AI推理服務(wù)器的性能差異可以達(dá)到10倍以上。比如,用普通服務(wù)器跑一個700億參數(shù)的大模型,可能需要30秒才能出結(jié)果,而用頂級服務(wù)器可能只需要3秒。這就是為什么選對
    的頭像 發(fā)表于 04-09 11:06 ?7299次閱讀
    AI <b class='flag-5'>推理</b><b class='flag-5'>服務(wù)器</b>都有什么?2025年<b class='flag-5'>服務(wù)器</b>品牌排行TOP10與選購技巧

    推理服務(wù)器的7大可靠性指標(biāo),寬溫/抗震/EMC防護(hù)實測數(shù)據(jù)分享

    在 AIoT 設(shè)備突破百億級的今天,邊緣計算推理服務(wù)器已成為智能時代的 "神經(jīng)末梢"。根據(jù) Gartner 預(yù)測,到 2025 年將有 75% 的企業(yè)關(guān)鍵任務(wù)部署在邊緣端。然而,工業(yè)級應(yīng)用場景(如智能工廠、無人礦山、車路協(xié)同)對推理
    的頭像 發(fā)表于 04-02 10:43 ?809次閱讀
    <b class='flag-5'>推理</b><b class='flag-5'>服務(wù)器</b>的7大可靠性指標(biāo),寬溫/抗震/EMC防護(hù)實測數(shù)據(jù)分享

    國產(chǎn)推理服務(wù)器如何選擇?深度解析選型指南與華頡科技實戰(zhàn)案例

    人工智能技術(shù)的爆發(fā)催生了對推理算力的迫切需求,而進(jìn)口服務(wù)器的高成本與技術(shù)依賴性,推動了國產(chǎn)推理服務(wù)器的快速發(fā)展。據(jù)IDC預(yù)測,到2025年,中國AI
    的頭像 發(fā)表于 03-24 17:11 ?920次閱讀
    國產(chǎn)<b class='flag-5'>推理</b><b class='flag-5'>服務(wù)器</b>如何選擇?深度解析選型指南與華頡科技實戰(zhàn)案例

    英偉達(dá)GTC2025亮點:Oracle與NVIDIA合作助力企業(yè)加速代理式AI推理

    Oracle 數(shù)據(jù)庫與 NVIDIA AI 相集成,使企業(yè)能夠更輕松、快捷地采用代理式 AI Oracle 和 NVIDIA 宣布,NVIDIA 加速計算和
    的頭像 發(fā)表于 03-21 12:01 ?1158次閱讀
    英偉達(dá)GTC2025亮點:Oracle與<b class='flag-5'>NVIDIA</b>合作助力企業(yè)<b class='flag-5'>加速</b>代理式AI<b class='flag-5'>推理</b>

    英偉達(dá)GTC25亮點:NVIDIA Dynamo開源庫加速并擴(kuò)展AI推理模型

    Triton 推理服務(wù)器的后續(xù)產(chǎn)品,NVIDIA Dynamo 是一款全新的 AI 推理服務(wù)
    的頭像 發(fā)表于 03-20 15:03 ?1064次閱讀

    Oracle 與 NVIDIA 合作助力企業(yè)加速代理式 AI 推理

    ——Oracle 和 NVIDIA 今日宣布,NVIDIA 加速計算和推理軟件與 Oracle 的 AI 基礎(chǔ)設(shè)施以及生成式 AI 服務(wù)
    發(fā)表于 03-19 15:24 ?466次閱讀
    Oracle 與 <b class='flag-5'>NVIDIA</b> 合作助力企業(yè)<b class='flag-5'>加速</b>代理式 AI <b class='flag-5'>推理</b>

    浪潮信息發(fā)布元腦R1推理服務(wù)器

    。 DeepSeek R1 671B模型作為業(yè)界領(lǐng)先的深度學(xué)習(xí)模型,其部署一直面臨著較高的難度和成本。而浪潮信息的元腦R1推理服務(wù)器通過一系列的技術(shù)創(chuàng)新,成功打破了這一瓶頸。該服務(wù)器能夠充分
    的頭像 發(fā)表于 02-17 10:32 ?1021次閱讀

    中國加速服務(wù)器市場前景廣闊

    近日,據(jù)IDC最新報告顯示,中國加速服務(wù)器市場在未來幾年內(nèi)將呈現(xiàn)出強(qiáng)勁的增長態(tài)勢。預(yù)計到2024年,該市場規(guī)模將達(dá)到190億美元,與2023年相比,將實現(xiàn)87%的顯著增長。這一數(shù)據(jù)不僅彰顯了中國加速
    的頭像 發(fā)表于 01-07 10:22 ?702次閱讀

    GPU加速服務(wù)器怎么用的

    GPU加速服務(wù)器是將GPU硬件與云計算服務(wù)相結(jié)合,通過云服務(wù)提供商的平臺,用戶可以根據(jù)需求靈活租用帶有GPU資源的虛擬機(jī)實例。那么,GPU加速
    的頭像 發(fā)表于 12-26 11:58 ?837次閱讀

    Triton編譯在機(jī)器學(xué)習(xí)中的應(yīng)用

    1. Triton編譯概述 Triton編譯NVIDIA Triton
    的頭像 發(fā)表于 12-24 18:13 ?1602次閱讀