chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

NVIDIA T4 GPU和TensorRT提高微信搜索速度

NVIDIA英偉達(dá)企業(yè)解決方案 ? 來(lái)源:NVIDIA英偉達(dá)企業(yè)解決方案 ? 作者:NVIDIA英偉達(dá)企業(yè)解 ? 2022-06-27 14:34 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

騰訊公司深耕模型量化開(kāi)發(fā),且長(zhǎng)期與 NVIDIA 團(tuán)隊(duì)合作,成功將深度學(xué)習(xí)模型精度從 FP32 壓縮到 FP16 以及 INT8?,F(xiàn)在,該技術(shù)再次獲得了新的重要突破。騰訊團(tuán)隊(duì)利用全新設(shè)計(jì)的 QAT 訓(xùn)練算法 Auto48,以及 INT4 推理能力,實(shí)現(xiàn)業(yè)界首次無(wú)損 INT4 在 NLP 領(lǐng)域落地使用的技術(shù)突破。服務(wù)上線后,不僅極大提升了微信中的搜索能力,在之前的基礎(chǔ)上更進(jìn)一步為公司節(jié)省了約 30% 的計(jì)算資源,其中 NVIDIAT4、A10 GPUTensorRT 即為本案例的應(yīng)用核心。

騰訊微信是目前國(guó)內(nèi)最大的社交平臺(tái)及通訊工具之一。隨著微信生態(tài)環(huán)境的優(yōu)化,其功能也越來(lái)越豐富,搜索也成為其越來(lái)越重要的入口,這個(gè)入口可以用來(lái)搜索微信內(nèi)部的功能、信息,以及搜索互聯(lián)網(wǎng)上的內(nèi)容,目前微信搜一搜月活躍用戶已超過(guò) 7 億。而在搜索業(yè)務(wù)當(dāng)中微信團(tuán)隊(duì)使用了大量的神經(jīng)網(wǎng)絡(luò)模型,包括自然語(yǔ)言理解、匹配排序等等,這些模型的訓(xùn)練和推理也都大量依賴于 NVIDIA GPU,尤其在推理方面, NVIDIA GPU 及相應(yīng)的解決方案皆滿足了業(yè)務(wù)所需的延遲和吞吐要求。

搜索業(yè)務(wù)由多個(gè)子模塊構(gòu)成,包括查詢理解、匹配、搜索排序等等。由于搜索的業(yè)務(wù)特點(diǎn),這些任務(wù)對(duì)線上服務(wù)的延遲和吞吐都十分敏感。而在最近幾年,隨著算力的提升以及算法的創(chuàng)新,眾多大型復(fù)雜的神經(jīng)網(wǎng)絡(luò)模型也開(kāi)始應(yīng)用在這些任務(wù)上。一方面,現(xiàn)有的模型(例如 BERT/GPT)帶來(lái)的成本壓力顯著;另一方面,超大規(guī)模(十/百億參數(shù))模型帶來(lái)的精度提升使得大模型應(yīng)用需求持續(xù)升溫。因此,這些大模型需要的計(jì)算資源和業(yè)務(wù)上的高要求對(duì)推理端的軟硬件都是很大的挑戰(zhàn),必須針對(duì)具體的硬件做極致的優(yōu)化?,F(xiàn)有的對(duì)于大模型的推理加速技術(shù),比如模型壓縮、剪枝、低精度計(jì)算等等,都被證明能夠一定程度上實(shí)現(xiàn)性能加速、節(jié)約資源。然而,這些技術(shù)可能會(huì)帶來(lái)精度下降等負(fù)面影響,限制了這些技術(shù)的廣泛應(yīng)用。因此,如何在保證精度效果以及服務(wù)吞吐延遲需求的情況下,高效地對(duì)這些模型進(jìn)行推理成為了業(yè)務(wù)上的巨大挑戰(zhàn)。NVIDIA GPU 以及 TensorRT 給這一場(chǎng)景提供了解決方案。

為了滿足線上服務(wù)的需求,并且盡可能地節(jié)約成本,微信搜一搜選擇使用 NVIDIA T4 GPU 以及 TensorRT+CUTLASS 實(shí)現(xiàn)來(lái)進(jìn)行線上大模型的推理。

線上服務(wù)對(duì)于吞吐和延遲有很高的要求,微信搜一搜選擇使用 NVIDIA T4 GPU 以及 TensorRT 推理引擎來(lái)做線上推理服務(wù),利用 NVIDIA 基于 TensorRT 實(shí)現(xiàn)的 INT8 BERT,可以很方便地在 INT8 精度下實(shí)現(xiàn)滿足需求的線上推理功能。利用 TensorRT 提供的“校準(zhǔn)”(Calibration)功能結(jié)合量化感知訓(xùn)練(Quantization Aware Training, QAT),可以方便地將 Float 精度模型轉(zhuǎn)換為 INT8 低精度模型,實(shí)現(xiàn)低精度推理。通過(guò)低精度推理,模型的單次推理時(shí)間大大縮短 30%。這個(gè)方案在線上取得了很好的效果。

在此基礎(chǔ)上,微信搜一搜希望進(jìn)一步加快推理速度,節(jié)約計(jì)算資源,以便更好地服務(wù)用戶,節(jié)約成本。更低的低精度推理成為了很好的選擇。NVIDIA GPU 從圖靈(Turing)架構(gòu)開(kāi)始就有了 INT4 Tensor Core,其計(jì)算吞吐量最高可達(dá) FP16 精度的 4 倍。并且低精度推理可以同時(shí)使用其他技術(shù)比如剪枝、蒸餾等相結(jié)合做進(jìn)一步提升。微信搜一搜線上大量使用 NVIDIA T4 GPU,非常適合應(yīng)用 INT4 推理,且 CUTLASS 對(duì) INT4 GEMM 也有良好的支持。

然而當(dāng)進(jìn)一步將數(shù)據(jù)類型從 INT8 降低到 INT4 的時(shí)候,如果使用相同的 QAT 算法時(shí),模型的精度會(huì)發(fā)生顯著的下降(超過(guò) 2%)。因此,微信搜一搜設(shè)計(jì)了全新的訓(xùn)練算法—— Auto48。Auto48 是一套全新的自動(dòng)化模型量化工具,能夠幫助用戶自動(dòng)生成自定義壓縮率下,性能最優(yōu)的量化模型。在 QAT 算法的啟發(fā)下, Auto48 設(shè)計(jì)了全新的動(dòng)態(tài)壓縮算法來(lái)極大地減小高壓縮率(INT4)帶來(lái)的壓縮誤差,并且結(jié)合了更有效的知識(shí)蒸餾相關(guān)技術(shù),使得量化后的模型準(zhǔn)確度得到了顯著的提高。進(jìn)一步的, Auto48 還支持 INT8+INT4 混合精度的壓縮,這使得用戶可以自由的在壓縮率和精度之間做權(quán)衡,甚至實(shí)現(xiàn)無(wú)損壓縮。TensorRT 對(duì)于導(dǎo)入 QAT 訓(xùn)練好的模型進(jìn)行 INT8 低精度推理已經(jīng)有了很好的支持。T4 GPU 在硬件上支持 INT4 Tensor Core,使用 CUTLASS 可以方便地構(gòu)建出滿足多種需求的 INT4 GEMM 算子。這些算子不僅降低了推理時(shí)間,還保證了算子的功能的靈活性和擴(kuò)展性?;?Auto48 訓(xùn)練的模型,不僅得到了最佳性能,而且精度沒(méi)有損失,線上服務(wù)只需做少許改動(dòng)即可,極大地簡(jiǎn)化了部署的流程。

通過(guò)這樣的方案,微信搜一搜中的一些關(guān)鍵任務(wù),比如查詢理解等自然語(yǔ)言理解任務(wù),可以在精度沒(méi)有損失的情況下,達(dá)到 1.4 倍的加速效果,平均單句推理時(shí)間達(dá)到了 0.022ms。任務(wù)相應(yīng)的計(jì)算資源節(jié)省了約 30%。近期微信搜一搜在部分任務(wù)上線了 INT4 模型服務(wù),該服務(wù)相較于之前的 INT8 模型服務(wù)有顯著的性能提升,在流量高峰時(shí)平均響應(yīng)時(shí)間降低了 21%,超時(shí)率降低了 70%。這個(gè)方案大大優(yōu)化了微信搜一搜業(yè)務(wù)的性能,降低了部署成本。

使用 NVIDIA T4 GPU 以及 TensorRT 推理引擎進(jìn)行 INT4 低精度推理,極大提升了微信搜一搜相關(guān)任務(wù)的速度,進(jìn)一步提升了用戶體驗(yàn),節(jié)約了公司成本。

INT4 與 INT8 服務(wù)請(qǐng)求耗時(shí)和失敗率對(duì)比

工程師朱健琛和李輝表示:“我們成功地實(shí)現(xiàn)了 INT4 的量化加速模型,并且在微信搜索核心任務(wù)(例如 query 理解和打分)上,顯著的提高了這些模型的推理速度。通過(guò)使用我們提出的 Auto48 算法,我們成功打破了 NLP 模型的復(fù)雜性帶來(lái)的限制。這種先進(jìn)的優(yōu)化手段可以極大地減少計(jì)算資源的需求?!?/span>

原文標(biāo)題:NVIDIA TensorRT 助力騰訊加速微信搜一搜

文章出處:【微信公眾號(hào):NVIDIA英偉達(dá)企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

審核編輯:湯梓紅

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • NVIDIA
    +關(guān)注

    關(guān)注

    14

    文章

    5494

    瀏覽量

    109016
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    28

    文章

    5090

    瀏覽量

    134389
  • 騰訊
    +關(guān)注

    關(guān)注

    7

    文章

    1682

    瀏覽量

    50763
  • 微信
    +關(guān)注

    關(guān)注

    6

    文章

    512

    瀏覽量

    27848

原文標(biāo)題:NVIDIA TensorRT 助力騰訊加速微信搜一搜

文章出處:【微信號(hào):NVIDIA-Enterprise,微信公眾號(hào):NVIDIA英偉達(dá)企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    NVIDIA TensorRT LLM 1.0推理框架正式上線

    TensorRT LLM 作為 NVIDIA 為大規(guī)模 LLM 推理打造的推理框架,核心目標(biāo)是突破 NVIDIA 平臺(tái)上的推理性能瓶頸。為實(shí)現(xiàn)這一目標(biāo),其構(gòu)建了多維度的核心實(shí)現(xiàn)路徑:一方面,針對(duì)需
    的頭像 發(fā)表于 10-21 11:04 ?712次閱讀

    DeepSeek R1 MTP在TensorRT-LLM中的實(shí)現(xiàn)與優(yōu)化

    TensorRT-LLM 在 NVIDIA Blackwell GPU 上創(chuàng)下了 DeepSeek-R1 推理性能的世界紀(jì)錄,Multi-Token Prediction (MTP) 實(shí)現(xiàn)了大幅提速
    的頭像 發(fā)表于 08-30 15:47 ?3941次閱讀
    DeepSeek R1 MTP在<b class='flag-5'>TensorRT</b>-LLM中的實(shí)現(xiàn)與優(yōu)化

    NVIDIA RTX PRO 4500 Blackwell GPU測(cè)試分析

    今天我們帶來(lái)全新 NVIDIA Blackwell 架構(gòu) GPU —— NVIDIA RTX PRO 4500 Blackwell 的測(cè)試,對(duì)比上一代產(chǎn)品 NVIDIA RTX 450
    的頭像 發(fā)表于 08-28 11:02 ?2793次閱讀
    <b class='flag-5'>NVIDIA</b> RTX PRO 4500 Blackwell <b class='flag-5'>GPU</b>測(cè)試分析

    NVIDIA桌面GPU系列擴(kuò)展新產(chǎn)品

    NVIDIA 桌面 GPU 系列擴(kuò)展,推出 NVIDIA RTX PRO 4000 SFF Edition GPU 和 RTX PRO 2000 Blackwell
    的頭像 發(fā)表于 08-18 11:50 ?970次閱讀

    aicube的n卡gpu索引該如何添加?

    請(qǐng)問(wèn)有人知道aicube怎樣才能讀取n卡的gpu索引呢,我已經(jīng)安裝了cuda和cudnn,在全局的py里添加了torch,能夠調(diào)用gpu,當(dāng)還是只能看到默認(rèn)的gpu0,顯示不了gpu1
    發(fā)表于 07-25 08:18

    如何在魔搭社區(qū)使用TensorRT-LLM加速優(yōu)化Qwen3系列模型推理部署

    TensorRT-LLM 作為 NVIDIA 專為 LLM 推理部署加速優(yōu)化的開(kāi)源庫(kù),可幫助開(kāi)發(fā)者快速利用最新 LLM 完成應(yīng)用原型驗(yàn)證與產(chǎn)品部署。
    的頭像 發(fā)表于 07-04 14:38 ?1715次閱讀

    NVIDIA Blackwell GPU優(yōu)化DeepSeek-R1性能 打破DeepSeek-R1在最小延遲場(chǎng)景中的性能紀(jì)錄

    本文將探討 NVIDIA TensorRT-LLM 如何基于 8 個(gè) NVIDIA Blackwell GPU 的配置,打破 DeepSeek-R1 在最小延遲場(chǎng)景中的性能紀(jì)錄:在 G
    的頭像 發(fā)表于 07-02 19:31 ?2910次閱讀
    <b class='flag-5'>NVIDIA</b> Blackwell <b class='flag-5'>GPU</b>優(yōu)化DeepSeek-R1性能 打破DeepSeek-R1在最小延遲場(chǎng)景中的性能紀(jì)錄

    使用NVIDIA Triton和TensorRT-LLM部署TTS應(yīng)用的最佳實(shí)踐

    針對(duì)基于 Diffusion 和 LLM 類別的 TTS 模型,NVIDIA Triton 和 TensorRT-LLM 方案能顯著提升推理速度。在單張 NVIDIA Ada Love
    的頭像 發(fā)表于 06-12 15:37 ?1279次閱讀
    使用<b class='flag-5'>NVIDIA</b> Triton和<b class='flag-5'>TensorRT</b>-LLM部署TTS應(yīng)用的最佳實(shí)踐

    使用NVIDIA RTX PRO Blackwell系列GPU加速AI開(kāi)發(fā)

    NVIDIA GTC 推出新一代專業(yè)級(jí) GPU 和 AI 賦能的開(kāi)發(fā)者工具—同時(shí),ChatRTX 更新現(xiàn)已支持 NVIDIA NIM,RTX Remix 正式結(jié)束測(cè)試階段,本月的 NVIDIA
    的頭像 發(fā)表于 03-28 09:59 ?1058次閱讀

    搜一搜灰度測(cè)試接入DeepSeek

    自家的混元大模型來(lái)豐富AI搜索功能,還近日正式啟動(dòng)了灰度測(cè)試,接入了DeepSeek技術(shù)。這一舉措旨在為用戶提供更加多元化、智能化的搜索體驗(yàn)。 被灰度測(cè)試選中的用戶,在對(duì)話框頂部的
    的頭像 發(fā)表于 02-17 14:20 ?944次閱讀

    NVIDIA技術(shù)助力Pantheon Lab數(shù)字人實(shí)時(shí)交互解決方案

    本案例中,Pantheon Lab(萬(wàn)想科技)專注于數(shù)字人技術(shù)解決方案,通過(guò) NVIDIA 技術(shù)實(shí)現(xiàn)數(shù)字人實(shí)時(shí)對(duì)話與客戶互動(dòng)交流。借助 NVIDIA GPU、NVIDIA
    的頭像 發(fā)表于 01-14 11:19 ?914次閱讀

    NVIDIA和GeForce RTX GPU專為AI時(shí)代打造

    NVIDIA 和 GeForce RTX GPU 專為 AI 時(shí)代打造。
    的頭像 發(fā)表于 01-06 10:45 ?1232次閱讀

    NVIDIA TensorRT-LLM中啟用ReDrafter的一些變化

    Recurrent Drafting (簡(jiǎn)稱 ReDrafter) 是蘋果公司為大語(yǔ)言模型 (LLM) 推理開(kāi)發(fā)并開(kāi)源的一種新型推測(cè)解碼技術(shù),該技術(shù)現(xiàn)在可與 NVIDIA TensorRT-LLM 一起使用。
    的頭像 發(fā)表于 12-25 17:31 ?1219次閱讀
    在<b class='flag-5'>NVIDIA</b> <b class='flag-5'>TensorRT</b>-LLM中啟用ReDrafter的一些變化

    解鎖NVIDIA TensorRT-LLM的卓越性能

    Batching、Paged KV Caching、量化技術(shù) (FP8、INT4 AWQ、INT8 SmoothQuant 等) 以及更多功能,確保您的 NVIDIA GPU 能發(fā)揮出卓越的推理性能。
    的頭像 發(fā)表于 12-17 17:47 ?1593次閱讀

    《CST Studio Suite 2024 GPU加速計(jì)算指南》

    的各個(gè)方面,包括硬件支持、操作系統(tǒng)支持、許可證、GPU計(jì)算的啟用、NVIDIA和AMD GPU的詳細(xì)信息以及相關(guān)的使用指南和故障排除等內(nèi)容。 1. 硬件支持 - NVIDIA
    發(fā)表于 12-16 14:25