chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

利用NVIDIA DOCA GPUNetIO技術(shù)提升MoE模型推理性能

NVIDIA英偉達(dá)企業(yè)解決方案 ? 來源:NVIDIA英偉達(dá)企業(yè)解決方案 ? 2025-09-23 15:25 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

在第三屆 NVIDIA DPU 中國黑客松競賽中,我們見證了開發(fā)者與 NVIDIA 網(wǎng)絡(luò)技術(shù)的深度碰撞。在 23 支參賽隊伍中,有 5 支隊伍脫穎而出,展現(xiàn)了在 AI 網(wǎng)絡(luò)、存儲和安全等領(lǐng)域的創(chuàng)新突破。

由劉瀚騁、劉崇鵬、劉陽組成的 SeekExpert 團隊在本屆黑客松中展現(xiàn)了卓越的技術(shù)實力,憑借其創(chuàng)新項目“利用 NVIDIA DOCA GPUNetIO 技術(shù),加速 Expert-Kit 推理框架中的專家權(quán)重分發(fā)和通信傳輸部分,從而提升 MoE 模型推理的速度和效率”取得了第二名。該項目利用 NVIDIA DOCA GPUNetIO 技術(shù),針對 Expert-Centric 架構(gòu)的 Expert-Kit MoE 推理框架中的專家權(quán)重分發(fā)和通信傳輸關(guān)鍵環(huán)節(jié)進行了優(yōu)化。

從網(wǎng)絡(luò)瓶頸到 DPU 異構(gòu)加速的實踐突破

隨著數(shù)據(jù)中心計算向異構(gòu)模式深度演進,網(wǎng)絡(luò)通信的控制和數(shù)據(jù)調(diào)度變得日益復(fù)雜,DPU 作為中間銜接的橋梁必將大有可為。在過去開發(fā)和使用 Expert-Kit 推理框架的過程中,SeekExpert 團隊發(fā)現(xiàn)將傳統(tǒng)開發(fā)模式運用到該框架存在較大的性能瓶頸。具體來說,框架采用 Expert-Centric 架構(gòu),該架構(gòu)專注于快速專家調(diào)度和專家異構(gòu)計算,但實際運行時網(wǎng)絡(luò)性能成為了關(guān)鍵的制約因素——具體表現(xiàn)為專家權(quán)重分發(fā)及中間結(jié)果傳輸過程中的數(shù)據(jù)拷貝開銷會導(dǎo)致推理延遲增加,同時網(wǎng)絡(luò)數(shù)據(jù)路徑處理占用大量 CPU 資源,與專家計算形成資源競爭,直接影響系統(tǒng)整體吞吐量。

基于這個痛點,SeekExpert 團隊意識到NVIDIA BlueField DPU恰好能破解這一難題,通過 DPU 專門處理網(wǎng)絡(luò)傳輸任務(wù)的技術(shù)特性,既能實現(xiàn)權(quán)重分發(fā)的加速,又能釋放 CPU 資源,從而使 CPU 專注專家計算的核心功能,這就是參賽項目的由來。

雙管齊下:攻克技術(shù)選型與協(xié)同開發(fā)難題

在開發(fā)過程中,團隊面臨的兩大底層技術(shù)挑戰(zhàn),一個是來自于技術(shù)選型的難題,另一個是與 CUDA 協(xié)同開發(fā)的復(fù)雜性。首先,團隊需要全面理解 GPUNetIO、DMA、RDMA 等不同網(wǎng)絡(luò)加速方案的適用場景,并判斷哪個最符合團隊專家權(quán)重分發(fā)的需求,其次需要實現(xiàn) DOCA 與 CUDA 的深度集成,這涉及到 GPU 內(nèi)存管理、數(shù)據(jù)流同步等底層細(xì)節(jié),調(diào)試復(fù)雜度極高。

為攻克這些難題,團隊采取了雙管齊下的策略:一方面充分利用 NVIDIA 的技術(shù)資源,通過DOCA 官方文檔中完善的 API 說明和示例代碼來獲取關(guān)鍵技術(shù)指引;另一方面,當(dāng)遇到技術(shù)瓶頸時,團隊成員會從各自的技術(shù)視角開展討論,分析問題根源并提出針對性解決方案。

為 DPU 在大模型推理加速領(lǐng)域鋪路

該項目創(chuàng)新性地將 NVIDIA DOCA GPUNetIO 技術(shù)與 MoE 模型推理加速相結(jié)合,通過 Expert-Kit 推理框架實現(xiàn)異構(gòu)硬件資源的協(xié)同優(yōu)化,讓 DPU 專門處理網(wǎng)絡(luò)密集型的專家權(quán)重分發(fā)和通信任務(wù),使 CPU 得以專注于專家計算,從而在云計算、數(shù)據(jù)中心的 AI 推理平臺中有效緩解集群時間維度(動態(tài)負(fù)載)與空間維度(不同設(shè)備協(xié)同)的資源利用率難題,為 DPU 在大模型推理加速領(lǐng)域提供了優(yōu)化方向。

DOCA 開發(fā)者快問快答

Q

您是從哪里了解到 NVIDIA DPU 黑客松競賽的?參賽的目標(biāo)是什么?

A

我們是通過老師的介紹了解到這次 NVIDIA DPU 中國黑客松競賽的。由于我們之前在研究異構(gòu)設(shè)備共享內(nèi)存時就接觸過 DOCA 軟件框架,當(dāng)我們的 Expert-Kit 推理框架遇到網(wǎng)絡(luò)傳輸優(yōu)化瓶頸時,自然聯(lián)想到了 DPU 可能存在的機會。

Q

賽前舉辦的 DPU 線上技術(shù)訓(xùn)練營對您的備賽起到哪些幫助?

A

訓(xùn)練營對 DPU 在各個領(lǐng)域的解決方案進行了引領(lǐng)性講解,涵蓋了安全、網(wǎng)絡(luò)卸載等多個方向,讓我們對 DOCA 開發(fā)有了更為全面的認(rèn)識。

Q

參與 NVIDIA DPU 黑客松競賽有哪些收獲?

A

除了技術(shù)能力的提升,我們還結(jié)識了很多其他參賽隊伍的隊員,了解了他們在相關(guān)研究方向上的探索,這拓寬了我們的技術(shù)視野。同時,通過比賽我們也深入了解了 NVIDIA 在各行各業(yè)的技術(shù)探索和應(yīng)用,對整個 AI 和硬件加速生態(tài)有了更全面的認(rèn)識。

Q

本次競賽有沒有難忘或有趣的經(jīng)歷?

A

最印象深刻的是最后前往 NVIDIA 北京辦公室參觀,整個參觀讓我們深刻感受到了 NVIDIA 的快速發(fā)展軌跡,以及 NVIDIA 在各行各業(yè)所做出的技術(shù)貢獻(xiàn)。

Q

您是從什么渠道了解到 NVIDIA DOCA 的?什么契機使你成為 DOCA 開發(fā)者?

A

我們最初是在研究異構(gòu)設(shè)備的共享內(nèi)存接觸到的 NVIDIA DOCA。DPU 作為 CPU、GPU 和網(wǎng)絡(luò)之間的數(shù)據(jù)通信所需的核心部件,能夠讓整個數(shù)據(jù)和控制拓?fù)渥兊煤啙嵟c清晰,也能夠很好地承擔(dān)起異構(gòu)計算中的協(xié)調(diào)和加速角色。

Q

最初從事 DOCA 開發(fā)時,有具體明確的目標(biāo)嗎?

A

目標(biāo)是通過讓 DPU 承擔(dān)網(wǎng)絡(luò)處理、數(shù)據(jù)移動等任務(wù),使得 CPU 能夠?qū)W⒂谟嬎忝芗凸ぷ?,同時 DPU 通過高速互聯(lián) GPU 協(xié)同工作。

Q

過往有其他成功的 DOCA 開發(fā)經(jīng)歷嗎?

A

在異構(gòu)設(shè)備分布式共享內(nèi)存項目開發(fā)中,我們利用 DPU 實現(xiàn)了跨地址空間的高效數(shù)據(jù)傳遞,這些相關(guān)經(jīng)驗幫助我們后續(xù)在 Expert-Kit 推理框架中應(yīng)用 DOCA 技術(shù)奠定了基礎(chǔ)。

Q

您對 DOCA 的評價如何呢?DOCA 中國開發(fā)者社區(qū)對你有哪些幫助?

A

DOCA 提供了一個編程框架,相關(guān)文檔也很齊全,對 AI 生態(tài),包括 CUDA 等也有很好的包容性。

開發(fā)者寄語

“大語言模型的推理需求推動數(shù)據(jù)中心向異構(gòu)計算演進,CPU、GPU、XPU 等不同類型設(shè)備需要協(xié)同工作才能發(fā)揮最大效能。DPU 和 DOCA 技術(shù)正是連接這些異構(gòu)設(shè)備的關(guān)鍵,通過智能卸載和資源調(diào)度,能提升數(shù)據(jù)中心的整體利用率。期待更多開發(fā)者加入 DOCA 社區(qū),共同探索 DPU 在異構(gòu)計算方面的可能性。”

——SeekExpert 團隊

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • NVIDIA
    +關(guān)注

    關(guān)注

    14

    文章

    5431

    瀏覽量

    108264
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    28

    文章

    5035

    瀏覽量

    133734
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3610

    瀏覽量

    51427

原文標(biāo)題:開發(fā)者故事 | 基于 DOCA GPUNetIO 的 MoE 模型推理加速實踐

文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達(dá)企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    什么是AI模型推理能力

    NVIDIA 的數(shù)據(jù)工廠團隊為 NVIDIA Cosmos Reason 等 AI 模型奠定了基礎(chǔ),該模型近日在 Hugging Face 的物理
    的頭像 發(fā)表于 09-23 15:19 ?555次閱讀

    使用NVIDIA NVLink Fusion技術(shù)提升AI推理性能

    本文詳細(xì)闡述了 NVIDIA NVLink Fusion 如何借助高效可擴展的 NVIDIA NVLink scale-up 架構(gòu)技術(shù),滿足日益復(fù)雜的 AI 模型不斷增長的需求。
    的頭像 發(fā)表于 09-23 14:45 ?344次閱讀
    使用<b class='flag-5'>NVIDIA</b> NVLink Fusion<b class='flag-5'>技術(shù)</b><b class='flag-5'>提升</b>AI<b class='flag-5'>推理性能</b>

    使用OpenVINO將PP-OCRv5模型部署在Intel顯卡上

    是一個用于優(yōu)化和部署人工智能(AI)模型,提升AI推理性能的開源工具集合,不僅支持以卷積神經(jīng)網(wǎng)絡(luò)(CNN)為核心組件的預(yù)測式AI模型(Predictive AI),還支持以Transf
    的頭像 發(fā)表于 09-20 11:17 ?635次閱讀
    使用OpenVINO將PP-OCRv5<b class='flag-5'>模型</b>部署在Intel顯卡上

    NVIDIA Nemotron Nano 2推理模型發(fā)布

    NVIDIA 正式推出準(zhǔn)確、高效的混合 Mamba-Transformer 推理模型系列 NVIDIA Nemotron Nano 2。
    的頭像 發(fā)表于 08-27 12:45 ?1173次閱讀
    <b class='flag-5'>NVIDIA</b> Nemotron Nano 2<b class='flag-5'>推理模型</b>發(fā)布

    NVIDIA從云到邊緣加速OpenAI gpt-oss模型部署,實現(xiàn)150萬TPS推理

    的發(fā)布持續(xù)深化了雙方的 AI 創(chuàng)新合作。NVIDIANVIDIA Blackwell 架構(gòu)上優(yōu)化了這兩款全新的開放權(quán)重模型并實現(xiàn)了推理性能加速,在
    的頭像 發(fā)表于 08-15 20:34 ?1688次閱讀
    <b class='flag-5'>NVIDIA</b>從云到邊緣加速OpenAI gpt-oss<b class='flag-5'>模型</b>部署,實現(xiàn)150萬TPS<b class='flag-5'>推理</b>

    【「DeepSeek 核心技術(shù)揭秘」閱讀體驗】書籍介紹+第一章讀后心得

    剖析 DeepSeek-V3 的模型架構(gòu)、訓(xùn)練框架、推理階段優(yōu)化、后訓(xùn)練優(yōu)化等關(guān)鍵技術(shù)。從混合專家模型MoE)的起源與發(fā)展,到 DeepS
    發(fā)表于 07-17 11:59

    NVIDIA DOCA 3.0版本的亮點解析

    NVIDIA DOCA 框架已發(fā)展成為新一代 AI 基礎(chǔ)設(shè)施的重要組成部分。從初始版本到備受期待的 NVIDIA DOCA 3.0 發(fā)布,每個版本都擴展了
    的頭像 發(fā)表于 07-04 14:27 ?712次閱讀
    <b class='flag-5'>NVIDIA</b> <b class='flag-5'>DOCA</b> 3.0版本的亮點解析

    模型推理顯存和計算量估計方法研究

    隨著人工智能技術(shù)的飛速發(fā)展,深度學(xué)習(xí)大模型在各個領(lǐng)域得到了廣泛應(yīng)用。然而,大模型推理過程對顯存和計算資源的需求較高,給實際應(yīng)用帶來了挑戰(zhàn)。為了解決這一問題,本文將探討大
    發(fā)表于 07-03 19:43

    英偉達(dá)GTC25亮點:NVIDIA Dynamo開源庫加速并擴展AI推理模型

    NVIDIA Dynamo 提高了推理性能,同時降低了擴展測試時計算 (Scaling Test-Time Compute) 的成本;在 NVIDIA Blackwell 上的推理優(yōu)化
    的頭像 發(fā)表于 03-20 15:03 ?914次閱讀

    使用NVIDIA推理平臺提高AI推理性能

    NVIDIA推理平臺提高了 AI 推理性能,為零售、電信等行業(yè)節(jié)省了數(shù)百萬美元。
    的頭像 發(fā)表于 02-08 09:59 ?1062次閱讀
    使用<b class='flag-5'>NVIDIA</b><b class='flag-5'>推理</b>平臺提高AI<b class='flag-5'>推理性能</b>

    利用Arm Kleidi技術(shù)實現(xiàn)PyTorch優(yōu)化

    PyTorch 是一個廣泛應(yīng)用的開源機器學(xué)習(xí) (ML) 庫。近年來,Arm 與合作伙伴通力協(xié)作,持續(xù)改進 PyTorch 的推理性能。本文將詳細(xì)介紹如何利用 Arm Kleidi 技術(shù)提升
    的頭像 發(fā)表于 12-23 09:19 ?1460次閱讀
    <b class='flag-5'>利用</b>Arm Kleidi<b class='flag-5'>技術(shù)</b>實現(xiàn)PyTorch優(yōu)化

    解鎖NVIDIA TensorRT-LLM的卓越性能

    Batching、Paged KV Caching、量化技術(shù) (FP8、INT4 AWQ、INT8 SmoothQuant 等) 以及更多功能,確保您的 NVIDIA GPU 能發(fā)揮出卓越的推理性能
    的頭像 發(fā)表于 12-17 17:47 ?1396次閱讀

    Arm KleidiAI助力提升PyTorch上LLM推理性能

    熱門的深度學(xué)習(xí)框架尤為突出,許多企業(yè)均會選擇其作為開發(fā) AI 應(yīng)用的庫。通過部署 Arm Kleidi 技術(shù),Arm 正在努力優(yōu)化 PyTorch,以加速在基于 Arm 架構(gòu)的處理器上運行 LLM 的性能。Arm 通過將 Kleidi
    的頭像 發(fā)表于 12-03 17:05 ?1768次閱讀
    Arm KleidiAI助力<b class='flag-5'>提升</b>PyTorch上LLM<b class='flag-5'>推理性能</b>

    NVIDIA DOCA 2.9版本的亮點解析

    NVIDIA DOCA通過為開發(fā)者提供全面的軟件框架以利用硬件加速來增強 NVIDIA 網(wǎng)絡(luò)平臺的功能,從而提高性能、安全性和效率。其 AP
    的頭像 發(fā)表于 11-27 11:15 ?1198次閱讀
    <b class='flag-5'>NVIDIA</b> <b class='flag-5'>DOCA</b> 2.9版本的亮點解析

    NVIDIA DOCA-OFED的主要特性

    NVIDIA DOCA 軟件平臺釋放了 NVIDIA BlueField 網(wǎng)絡(luò)平臺的潛力,并為NVIDIA BlueField和ConnectX設(shè)備提供了所需的所有主機驅(qū)動程序。
    的頭像 發(fā)表于 11-09 13:50 ?1405次閱讀