chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

NVIDIA加速虛擬人項(xiàng)目渲染與推理效率

NVIDIA英偉達(dá)企業(yè)解決方案 ? 來源:NVIDIA英偉達(dá)企業(yè)解決方案 ? 作者:NVIDIA英偉達(dá)企業(yè)解 ? 2021-10-22 09:12 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

騰訊AI LAB致力于打造產(chǎn)學(xué)研用一體的 AI 生態(tài),主要的研究方向包括計(jì)算機(jī)視覺、語音識(shí)別、自然語言處理和機(jī)器學(xué)習(xí),結(jié)合騰訊場景與業(yè)務(wù)優(yōu)勢,在社交AI、游戲AI、內(nèi)容AI及平臺(tái)AI等領(lǐng)域取得了顯著的成果,技術(shù)被應(yīng)用于微信、QQ、天天快報(bào)和QQ音樂等上百個(gè)騰訊產(chǎn)品。其中圍棋AI “絕藝” 多次獲得世界人工智能圍棋大賽的冠軍。

騰訊AI LAB打造的虛擬人,具有自然、生動(dòng)且飽含情緒的表情,其背后由一套騰訊 AI LAB 自研的復(fù)雜系統(tǒng)支撐,系統(tǒng)首先要從文本中提取不同信息,包括表情、情感、重音位置、和激動(dòng)程度等;提取之后,這些信息被輸入到模型中生成,再同步生成語音、口型和表情參數(shù),最終才有了虛擬人自然生動(dòng)的表現(xiàn)。

虛擬人物打造需要更高效平臺(tái)

根據(jù)虛擬人物需要表達(dá)的語言和情感,生成自然生動(dòng)的人臉,是打造虛擬人重要的一個(gè)階段。需要先渲染人臉的紋理圖和渲染圖,并將它們輸入到深度學(xué)習(xí)模型中,最終生成自然生動(dòng)的人臉。在這個(gè)過程中,需要用到OpenGL、OpenCV、CUDA、TensorFlow等軟件技術(shù),騰訊原有的方案有很多CPUGPU的數(shù)據(jù)交互,且有很多計(jì)算型的操作通過CPU來實(shí)現(xiàn),效率非常低下, 無論是吞吐還是延時(shí)都不滿足要求,具體體現(xiàn)在:

OpenGL在GPU上渲染好圖像繪制到framebuffer后,需要先用glReadPixels拷貝數(shù)據(jù)到CPU,再用cudaMemcpy將數(shù)據(jù)從CPU拷回到GPU以進(jìn)行深度學(xué)習(xí)模型的推理,這里有兩次不必要的CPU與GPU之間的數(shù)據(jù)傳輸。

顏色空間轉(zhuǎn)換方面,深度學(xué)習(xí)推理的前后處理等操作在CPU上完成,效率非常低下。

NVIDIA 加速虛擬人項(xiàng)目渲染與推理效率

NVIDIA 技術(shù)在虛擬人項(xiàng)目的渲染和推理階段均提供了強(qiáng)大的支持。在渲染階段,NVIDIA 助力提升了顏色空間轉(zhuǎn)換效率,降低整體延時(shí),主要體現(xiàn)在:

1. 用NVIDIA CUDA/OpenGL interoperability 代替騰訊之前使用glReadPixels在CUDA和OpenGL之間拷貝數(shù)據(jù)的方案,大幅減少了CPU和GPU之間的數(shù)據(jù)拷貝,從而降低了整體的延時(shí)。

2. 把原來在CPU上做的顏色空間轉(zhuǎn)換的操作,遷移到NVIDIA T4 GPU上用CUDA kernel實(shí)現(xiàn),利用GPU的并行優(yōu)勢,大大提高了顏色空間轉(zhuǎn)換的效率,進(jìn)一步降低了整體的延時(shí)。

3. 將多幀的mesh組成一個(gè)batch分別繪制到framebuffer的不同區(qū)域,在提高OpenGL并行度的同時(shí),給下一階段的深度學(xué)習(xí)模型的推理提供了更大的輸入數(shù)據(jù)的batch size,充分發(fā)揮NVIDIA T4 GPU高并發(fā)計(jì)算的優(yōu)勢,進(jìn)一步提高GPU的利用率,從而提高整體的吞吐。

在推理階段,NVIDIA助力提高推理整體吞吐,降低推理延時(shí),主要體現(xiàn)在以下幾點(diǎn):

1. 用NVIDIA TensorRT替換TensorFlow對模型推理進(jìn)行加速,并利用NVIDIA T4 GPU上的FP16 Tensor Core可以極大提高矩陣乘等操作速度的特性,在最終視覺效果幾乎不變的情況下,進(jìn)一步提升推理的吞吐,降低推理延時(shí)。

2. 在NVIDIA T4 GPU上利用CUDA kernel 替代原始流程中在CPU上使用OpenCV實(shí)現(xiàn) Mat-to-Tensor 和 Tensor-to-Mat 等格式轉(zhuǎn)換操作,并使用OpenCV-CUDA版替換OpenCV-CPU版的部分操作(如Resize等),充分發(fā)揮GPU相對于CPU更高的并發(fā)優(yōu)勢,在加速這些操作的同時(shí)減少GPU到CPU的數(shù)據(jù)傳輸通信量,提高格式轉(zhuǎn)換效率,降低端到端的推理延時(shí)。

3. 通過Pipeline的方式,使GPU和CPU上的操作進(jìn)行overlap,并結(jié)合NVIDIA的MPS技術(shù)提高單卡上多個(gè)進(jìn)程同時(shí)處理多個(gè)數(shù)據(jù)流的同時(shí)提高整體的吞吐。

在虛擬人項(xiàng)目中,NVIDIA CUDA技術(shù)大幅提升了渲染速度,NVIDIA TensorRT 方便快速地加速深度學(xué)習(xí)模型的推理,結(jié)合MPS技術(shù),實(shí)現(xiàn)了單卡多路推流,使整體推理效率達(dá)到了原來的三倍!性能的大幅提升,既提升了GPU的利用率,又降低了AI技術(shù)的使用成本。責(zé)任編輯:haq

騰訊AI LAB致力于打造產(chǎn)學(xué)研用一體的 AI 生態(tài),主要的研究方向包括計(jì)算機(jī)視覺、語音識(shí)別、自然語言處理和機(jī)器學(xué)習(xí),結(jié)合騰訊場景與業(yè)務(wù)優(yōu)勢,在社交AI、游戲AI、內(nèi)容AI及平臺(tái)AI等領(lǐng)域取得了顯著的成果,技術(shù)被應(yīng)用于微信、QQ、天天快報(bào)和QQ音樂等上百個(gè)騰訊產(chǎn)品。其中圍棋AI “絕藝” 多次獲得世界人工智能圍棋大賽的冠軍。 騰訊AI LAB打造的虛擬人,具有自然、生動(dòng)且飽含情緒的表情,其背后由一套騰訊 AI LAB 自研的復(fù)雜系統(tǒng)支撐,系統(tǒng)首先要從文本中提取不同信息,包括表情、情感、重音位置、和激動(dòng)程度等;提取之后,這些信息被輸入到模型中生成,再同步生成語音、口型和表情參數(shù),最終才有了虛擬人自然生動(dòng)的表現(xiàn)。

虛擬人物打造需要更高效平臺(tái)

根據(jù)虛擬人物需要表達(dá)的語言和情感,生成自然生動(dòng)的人臉,是打造虛擬人重要的一個(gè)階段。需要先渲染人臉的紋理圖和渲染圖,并將它們輸入到深度學(xué)習(xí)模型中,最終生成自然生動(dòng)的人臉。在這個(gè)過程中,需要用到OpenGL、OpenCV、CUDA、TensorFlow等軟件技術(shù),騰訊原有的方案有很多CPU與GPU的數(shù)據(jù)交互,且有很多計(jì)算型的操作通過CPU來實(shí)現(xiàn),效率非常低下, 無論是吞吐還是延時(shí)都不滿足要求,具體體現(xiàn)在:

OpenGL在GPU上渲染好圖像繪制到framebuffer后,需要先用glReadPixels拷貝數(shù)據(jù)到CPU,再用cudaMemcpy將數(shù)據(jù)從CPU拷回到GPU以進(jìn)行深度學(xué)習(xí)模型的推理,這里有兩次不必要的CPU與GPU之間的數(shù)據(jù)傳輸。

顏色空間轉(zhuǎn)換方面,深度學(xué)習(xí)推理的前后處理等操作在CPU上完成,效率非常低下。

NVIDIA加速虛擬人項(xiàng)目渲染與推理效率

NVIDIA 技術(shù)在虛擬人項(xiàng)目的渲染和推理階段均提供了強(qiáng)大的支持。在渲染階段,NVIDIA 助力提升了顏色空間轉(zhuǎn)換效率,降低整體延時(shí),主要體現(xiàn)在: 1. 用NVIDIA CUDA/OpenGL interoperability 代替騰訊之前使用glReadPixels在CUDA和OpenGL之間拷貝數(shù)據(jù)的方案,大幅減少了CPU和GPU之間的數(shù)據(jù)拷貝,從而降低了整體的延時(shí)。 2. 把原來在CPU上做的顏色空間轉(zhuǎn)換的操作,遷移到NVIDIA T4 GPU上用CUDA kernel實(shí)現(xiàn),利用GPU的并行優(yōu)勢,大大提高了顏色空間轉(zhuǎn)換的效率,進(jìn)一步降低了整體的延時(shí)。 3. 將多幀的mesh組成一個(gè)batch分別繪制到framebuffer的不同區(qū)域,在提高OpenGL并行度的同時(shí),給下一階段的深度學(xué)習(xí)模型的推理提供了更大的輸入數(shù)據(jù)的batch size,充分發(fā)揮NVIDIA T4 GPU高并發(fā)計(jì)算的優(yōu)勢,進(jìn)一步提高GPU的利用率,從而提高整體的吞吐。

在推理階段,NVIDIA助力提高推理整體吞吐,降低推理延時(shí),主要體現(xiàn)在以下幾點(diǎn):
1. 用NVIDIA TensorRT替換TensorFlow對模型推理進(jìn)行加速,并利用NVIDIA T4 GPU上的FP16 Tensor Core可以極大提高矩陣乘等操作速度的特性,在最終視覺效果幾乎不變的情況下,進(jìn)一步提升推理的吞吐,降低推理延時(shí)。
2. 在NVIDIA T4 GPU上利用CUDA kernel 替代原始流程中在CPU上使用OpenCV實(shí)現(xiàn) Mat-to-Tensor 和 Tensor-to-Mat 等格式轉(zhuǎn)換操作,并使用OpenCV-CUDA版替換OpenCV-CPU版的部分操作(如Resize等),充分發(fā)揮GPU相對于CPU更高的并發(fā)優(yōu)勢,在加速這些操作的同時(shí)減少GPU到CPU的數(shù)據(jù)傳輸通信量,提高格式轉(zhuǎn)換效率,降低端到端的推理延時(shí)。
3. 通過Pipeline的方式,使GPU和CPU上的操作進(jìn)行overlap,并結(jié)合NVIDIA的MPS技術(shù)提高單卡上多個(gè)進(jìn)程同時(shí)處理多個(gè)數(shù)據(jù)流的同時(shí)提高整體的吞吐。 在虛擬人項(xiàng)目中,NVIDIA CUDA技術(shù)大幅提升了渲染速度,NVIDIA TensorRT 方便快速地加速深度學(xué)習(xí)模型的推理,結(jié)合MPS技術(shù),實(shí)現(xiàn)了單卡多路推流,使整體推理效率達(dá)到了原來的三倍!性能的大幅提升,既提升了GPU的利用率,又降低了AI技術(shù)的使用成本。 責(zé)任編輯:haq

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • cpu
    cpu
    +關(guān)注

    關(guān)注

    68

    文章

    11253

    瀏覽量

    223883
  • NVIDIA
    +關(guān)注

    關(guān)注

    14

    文章

    5570

    瀏覽量

    109386
  • AI
    AI
    +關(guān)注

    關(guān)注

    91

    文章

    39125

    瀏覽量

    299763
  • 深度學(xué)習(xí)
    +關(guān)注

    關(guān)注

    73

    文章

    5594

    瀏覽量

    124156

原文標(biāo)題:NVIDIA TensorRT和GPU軟件棧助力騰訊AI LAB打造生動(dòng)的虛擬人

文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達(dá)企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    NVIDIA DGX SuperPOD為Rubin平臺(tái)橫向擴(kuò)展提供藍(lán)圖

    NVIDIA DGX Rubin 系統(tǒng)整合了 NVIDIA 在計(jì)算、網(wǎng)絡(luò)和軟件領(lǐng)域的最新突破,將推理 token 成本降至 NVIDIA Blackwell 平臺(tái)的十分之一,可
    的頭像 發(fā)表于 01-14 09:14 ?380次閱讀

    NVIDIA RTX PRO 5000 Blackwell GPU的深度評測

    需求進(jìn)行了優(yōu)化設(shè)計(jì)。無論是 CUDA 核心計(jì)算性能、實(shí)時(shí)渲染能力,還是 AI 推理效率,亦或顯存帶寬與容量的顯著提升,均使得新一代 RTX PRO 5000 Blackwell GPU 能夠輕松應(yīng)對更復(fù)雜、更嚴(yán)苛的工作負(fù)載。
    的頭像 發(fā)表于 01-06 09:51 ?953次閱讀
    <b class='flag-5'>NVIDIA</b> RTX PRO 5000 Blackwell GPU的深度評測

    NVIDIA TensorRT LLM 1.0推理框架正式上線

    TensorRT LLM 作為 NVIDIA 為大規(guī)模 LLM 推理打造的推理框架,核心目標(biāo)是突破 NVIDIA 平臺(tái)上的推理性能瓶頸。為實(shí)
    的頭像 發(fā)表于 10-21 11:04 ?1017次閱讀

    NVIDIA Nemotron Nano 2推理模型發(fā)布

    NVIDIA 正式推出準(zhǔn)確、高效的混合 Mamba-Transformer 推理模型系列 NVIDIA Nemotron Nano 2。
    的頭像 發(fā)表于 08-27 12:45 ?1657次閱讀
    <b class='flag-5'>NVIDIA</b> Nemotron Nano 2<b class='flag-5'>推理</b>模型發(fā)布

    NVIDIA從云到邊緣加速OpenAI gpt-oss模型部署,實(shí)現(xiàn)150萬TPS推理

    的發(fā)布持續(xù)深化了雙方的 AI 創(chuàng)新合作。NVIDIANVIDIA Blackwell 架構(gòu)上優(yōu)化了這兩款全新的開放權(quán)重模型并實(shí)現(xiàn)了推理性能加速,在
    的頭像 發(fā)表于 08-15 20:34 ?2146次閱讀
    <b class='flag-5'>NVIDIA</b>從云到邊緣<b class='flag-5'>加速</b>OpenAI gpt-oss模型部署,實(shí)現(xiàn)150萬TPS<b class='flag-5'>推理</b>

    如何在魔搭社區(qū)使用TensorRT-LLM加速優(yōu)化Qwen3系列模型推理部署

    TensorRT-LLM 作為 NVIDIA 專為 LLM 推理部署加速優(yōu)化的開源庫,可幫助開發(fā)者快速利用最新 LLM 完成應(yīng)用原型驗(yàn)證與產(chǎn)品部署。
    的頭像 發(fā)表于 07-04 14:38 ?1989次閱讀

    全球各大品牌利用NVIDIA AI技術(shù)提升運(yùn)營效率

    歐萊雅、LVMH 集團(tuán)和雀巢利用 NVIDIA 加速的智能體 AI 和物理 AI,大幅提升產(chǎn)品設(shè)計(jì)、營銷及物流等方面的運(yùn)營效率。
    的頭像 發(fā)表于 06-19 14:36 ?1109次閱讀

    NVIDIA實(shí)現(xiàn)神經(jīng)網(wǎng)絡(luò)渲染技術(shù)的突破性增強(qiáng)功能

    發(fā)者能使用 NVIDIA GeForce RTX GPU 中的 AI Tensor Cores,在游戲的圖形渲染管線內(nèi)加速神經(jīng)網(wǎng)絡(luò)渲染。
    的頭像 發(fā)表于 04-07 11:33 ?1010次閱讀

    NVIDIA虛擬GPU 18.0版本的亮點(diǎn)

    NVIDIA 虛擬 GPU(vGPU)技術(shù)可在虛擬桌面基礎(chǔ)設(shè)施(VDI)中解鎖 AI 功能,使其比以往更加強(qiáng)大、用途更加廣泛。vGPU 通過為各種虛擬化環(huán)境中的 AI 驅(qū)動(dòng)工作負(fù)載提供
    的頭像 發(fā)表于 04-07 11:28 ?1288次閱讀

    NVIDIA加速的Apache Spark助力企業(yè)節(jié)省大量成本

    隨著 NVIDIA 推出 Aether 項(xiàng)目,通過采用 NVIDIA 加速的 Apache Spark 企業(yè)得以自動(dòng)加速其數(shù)據(jù)中心規(guī)模的分析
    的頭像 發(fā)表于 03-25 15:09 ?1047次閱讀
    <b class='flag-5'>NVIDIA</b><b class='flag-5'>加速</b>的Apache Spark助力企業(yè)節(jié)省大量成本

    英偉達(dá)GTC2025亮點(diǎn):Oracle與NVIDIA合作助力企業(yè)加速代理式AI推理

    Oracle 數(shù)據(jù)庫與 NVIDIA AI 相集成,使企業(yè)能夠更輕松、快捷地采用代理式 AI Oracle 和 NVIDIA 宣布,NVIDIA 加速計(jì)算和
    的頭像 發(fā)表于 03-21 12:01 ?1315次閱讀
    英偉達(dá)GTC2025亮點(diǎn):Oracle與<b class='flag-5'>NVIDIA</b>合作助力企業(yè)<b class='flag-5'>加速</b>代理式AI<b class='flag-5'>推理</b>

    英偉達(dá)GTC25亮點(diǎn):NVIDIA Blackwell Ultra 開啟 AI 推理新時(shí)代

    英偉達(dá)GTC25亮點(diǎn):NVIDIA Blackwell Ultra 開啟 AI 推理新時(shí)代
    的頭像 發(fā)表于 03-20 15:35 ?1336次閱讀

    英偉達(dá)GTC25亮點(diǎn):NVIDIA Dynamo開源庫加速并擴(kuò)展AI推理模型

    DeepSeek-R1 上的吞吐量提高了 30 倍 NVIDIA 發(fā)布了開源推理軟件 NVIDIA Dynamo,旨在以高效率、低成本加速
    的頭像 發(fā)表于 03-20 15:03 ?1150次閱讀

    Oracle 與 NVIDIA 合作助力企業(yè)加速代理式 AI 推理

    ——Oracle 和 NVIDIA 今日宣布,NVIDIA 加速計(jì)算和推理軟件與 Oracle 的 AI 基礎(chǔ)設(shè)施以及生成式 AI 服務(wù)首次實(shí)現(xiàn)集成,以幫助全球企業(yè)組織
    發(fā)表于 03-19 15:24 ?518次閱讀
    Oracle 與 <b class='flag-5'>NVIDIA</b> 合作助力企業(yè)<b class='flag-5'>加速</b>代理式 AI <b class='flag-5'>推理</b>

    使用NVIDIA推理平臺(tái)提高AI推理性能

    NVIDIA推理平臺(tái)提高了 AI 推理性能,為零售、電信等行業(yè)節(jié)省了數(shù)百萬美元。
    的頭像 發(fā)表于 02-08 09:59 ?1581次閱讀
    使用<b class='flag-5'>NVIDIA</b><b class='flag-5'>推理</b>平臺(tái)提高AI<b class='flag-5'>推理</b>性能