chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

利用NVIDIA DOCA GPUNetIO技術(shù)提升MoE模型推理性能

NVIDIA英偉達(dá)企業(yè)解決方案 ? 來(lái)源:NVIDIA英偉達(dá)企業(yè)解決方案 ? 2025-09-23 15:25 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

在第三屆 NVIDIA DPU 中國(guó)黑客松競(jìng)賽中,我們見(jiàn)證了開(kāi)發(fā)者與 NVIDIA 網(wǎng)絡(luò)技術(shù)的深度碰撞。在 23 支參賽隊(duì)伍中,有 5 支隊(duì)伍脫穎而出,展現(xiàn)了在 AI 網(wǎng)絡(luò)、存儲(chǔ)和安全等領(lǐng)域的創(chuàng)新突破。

由劉瀚騁、劉崇鵬、劉陽(yáng)組成的 SeekExpert 團(tuán)隊(duì)在本屆黑客松中展現(xiàn)了卓越的技術(shù)實(shí)力,憑借其創(chuàng)新項(xiàng)目“利用 NVIDIA DOCA GPUNetIO 技術(shù),加速 Expert-Kit 推理框架中的專(zhuān)家權(quán)重分發(fā)和通信傳輸部分,從而提升 MoE 模型推理的速度和效率”取得了第二名。該項(xiàng)目利用 NVIDIA DOCA GPUNetIO 技術(shù),針對(duì) Expert-Centric 架構(gòu)的 Expert-Kit MoE 推理框架中的專(zhuān)家權(quán)重分發(fā)和通信傳輸關(guān)鍵環(huán)節(jié)進(jìn)行了優(yōu)化。

從網(wǎng)絡(luò)瓶頸到 DPU 異構(gòu)加速的實(shí)踐突破

隨著數(shù)據(jù)中心計(jì)算向異構(gòu)模式深度演進(jìn),網(wǎng)絡(luò)通信的控制和數(shù)據(jù)調(diào)度變得日益復(fù)雜,DPU 作為中間銜接的橋梁必將大有可為。在過(guò)去開(kāi)發(fā)和使用 Expert-Kit 推理框架的過(guò)程中,SeekExpert 團(tuán)隊(duì)發(fā)現(xiàn)將傳統(tǒng)開(kāi)發(fā)模式運(yùn)用到該框架存在較大的性能瓶頸。具體來(lái)說(shuō),框架采用 Expert-Centric 架構(gòu),該架構(gòu)專(zhuān)注于快速專(zhuān)家調(diào)度和專(zhuān)家異構(gòu)計(jì)算,但實(shí)際運(yùn)行時(shí)網(wǎng)絡(luò)性能成為了關(guān)鍵的制約因素——具體表現(xiàn)為專(zhuān)家權(quán)重分發(fā)及中間結(jié)果傳輸過(guò)程中的數(shù)據(jù)拷貝開(kāi)銷(xiāo)會(huì)導(dǎo)致推理延遲增加,同時(shí)網(wǎng)絡(luò)數(shù)據(jù)路徑處理占用大量 CPU 資源,與專(zhuān)家計(jì)算形成資源競(jìng)爭(zhēng),直接影響系統(tǒng)整體吞吐量。

基于這個(gè)痛點(diǎn),SeekExpert 團(tuán)隊(duì)意識(shí)到NVIDIA BlueField DPU恰好能破解這一難題,通過(guò) DPU 專(zhuān)門(mén)處理網(wǎng)絡(luò)傳輸任務(wù)的技術(shù)特性,既能實(shí)現(xiàn)權(quán)重分發(fā)的加速,又能釋放 CPU 資源,從而使 CPU 專(zhuān)注專(zhuān)家計(jì)算的核心功能,這就是參賽項(xiàng)目的由來(lái)。

雙管齊下:攻克技術(shù)選型與協(xié)同開(kāi)發(fā)難題

在開(kāi)發(fā)過(guò)程中,團(tuán)隊(duì)面臨的兩大底層技術(shù)挑戰(zhàn),一個(gè)是來(lái)自于技術(shù)選型的難題,另一個(gè)是與 CUDA 協(xié)同開(kāi)發(fā)的復(fù)雜性。首先,團(tuán)隊(duì)需要全面理解 GPUNetIO、DMA、RDMA 等不同網(wǎng)絡(luò)加速方案的適用場(chǎng)景,并判斷哪個(gè)最符合團(tuán)隊(duì)專(zhuān)家權(quán)重分發(fā)的需求,其次需要實(shí)現(xiàn) DOCA 與 CUDA 的深度集成,這涉及到 GPU 內(nèi)存管理、數(shù)據(jù)流同步等底層細(xì)節(jié),調(diào)試復(fù)雜度極高。

為攻克這些難題,團(tuán)隊(duì)采取了雙管齊下的策略:一方面充分利用 NVIDIA 的技術(shù)資源,通過(guò)DOCA 官方文檔中完善的 API 說(shuō)明和示例代碼來(lái)獲取關(guān)鍵技術(shù)指引;另一方面,當(dāng)遇到技術(shù)瓶頸時(shí),團(tuán)隊(duì)成員會(huì)從各自的技術(shù)視角開(kāi)展討論,分析問(wèn)題根源并提出針對(duì)性解決方案。

為 DPU 在大模型推理加速領(lǐng)域鋪路

該項(xiàng)目創(chuàng)新性地將 NVIDIA DOCA GPUNetIO 技術(shù)與 MoE 模型推理加速相結(jié)合,通過(guò) Expert-Kit 推理框架實(shí)現(xiàn)異構(gòu)硬件資源的協(xié)同優(yōu)化,讓 DPU 專(zhuān)門(mén)處理網(wǎng)絡(luò)密集型的專(zhuān)家權(quán)重分發(fā)和通信任務(wù),使 CPU 得以專(zhuān)注于專(zhuān)家計(jì)算,從而在云計(jì)算、數(shù)據(jù)中心的 AI 推理平臺(tái)中有效緩解集群時(shí)間維度(動(dòng)態(tài)負(fù)載)與空間維度(不同設(shè)備協(xié)同)的資源利用率難題,為 DPU 在大模型推理加速領(lǐng)域提供了優(yōu)化方向。

DOCA 開(kāi)發(fā)者快問(wèn)快答

Q

您是從哪里了解到 NVIDIA DPU 黑客松競(jìng)賽的?參賽的目標(biāo)是什么?

A

我們是通過(guò)老師的介紹了解到這次 NVIDIA DPU 中國(guó)黑客松競(jìng)賽的。由于我們之前在研究異構(gòu)設(shè)備共享內(nèi)存時(shí)就接觸過(guò) DOCA 軟件框架,當(dāng)我們的 Expert-Kit 推理框架遇到網(wǎng)絡(luò)傳輸優(yōu)化瓶頸時(shí),自然聯(lián)想到了 DPU 可能存在的機(jī)會(huì)。

Q

賽前舉辦的 DPU 線上技術(shù)訓(xùn)練營(yíng)對(duì)您的備賽起到哪些幫助?

A

訓(xùn)練營(yíng)對(duì) DPU 在各個(gè)領(lǐng)域的解決方案進(jìn)行了引領(lǐng)性講解,涵蓋了安全、網(wǎng)絡(luò)卸載等多個(gè)方向,讓我們對(duì) DOCA 開(kāi)發(fā)有了更為全面的認(rèn)識(shí)。

Q

參與 NVIDIA DPU 黑客松競(jìng)賽有哪些收獲?

A

除了技術(shù)能力的提升,我們還結(jié)識(shí)了很多其他參賽隊(duì)伍的隊(duì)員,了解了他們?cè)谙嚓P(guān)研究方向上的探索,這拓寬了我們的技術(shù)視野。同時(shí),通過(guò)比賽我們也深入了解了 NVIDIA 在各行各業(yè)的技術(shù)探索和應(yīng)用,對(duì)整個(gè) AI 和硬件加速生態(tài)有了更全面的認(rèn)識(shí)。

Q

本次競(jìng)賽有沒(méi)有難忘或有趣的經(jīng)歷?

A

最印象深刻的是最后前往 NVIDIA 北京辦公室參觀,整個(gè)參觀讓我們深刻感受到了 NVIDIA 的快速發(fā)展軌跡,以及 NVIDIA 在各行各業(yè)所做出的技術(shù)貢獻(xiàn)。

Q

您是從什么渠道了解到 NVIDIA DOCA 的?什么契機(jī)使你成為 DOCA 開(kāi)發(fā)者?

A

我們最初是在研究異構(gòu)設(shè)備的共享內(nèi)存接觸到的 NVIDIA DOCA。DPU 作為 CPU、GPU 和網(wǎng)絡(luò)之間的數(shù)據(jù)通信所需的核心部件,能夠讓整個(gè)數(shù)據(jù)和控制拓?fù)渥兊煤?jiǎn)潔與清晰,也能夠很好地承擔(dān)起異構(gòu)計(jì)算中的協(xié)調(diào)和加速角色。

Q

最初從事 DOCA 開(kāi)發(fā)時(shí),有具體明確的目標(biāo)嗎?

A

目標(biāo)是通過(guò)讓 DPU 承擔(dān)網(wǎng)絡(luò)處理、數(shù)據(jù)移動(dòng)等任務(wù),使得 CPU 能夠?qū)W⒂谟?jì)算密集型工作,同時(shí) DPU 通過(guò)高速互聯(lián) GPU 協(xié)同工作。

Q

過(guò)往有其他成功的 DOCA 開(kāi)發(fā)經(jīng)歷嗎?

A

在異構(gòu)設(shè)備分布式共享內(nèi)存項(xiàng)目開(kāi)發(fā)中,我們利用 DPU 實(shí)現(xiàn)了跨地址空間的高效數(shù)據(jù)傳遞,這些相關(guān)經(jīng)驗(yàn)幫助我們后續(xù)在 Expert-Kit 推理框架中應(yīng)用 DOCA 技術(shù)奠定了基礎(chǔ)。

Q

您對(duì) DOCA 的評(píng)價(jià)如何呢?DOCA 中國(guó)開(kāi)發(fā)者社區(qū)對(duì)你有哪些幫助?

A

DOCA 提供了一個(gè)編程框架,相關(guān)文檔也很齊全,對(duì) AI 生態(tài),包括 CUDA 等也有很好的包容性。

開(kāi)發(fā)者寄語(yǔ)

“大語(yǔ)言模型的推理需求推動(dòng)數(shù)據(jù)中心向異構(gòu)計(jì)算演進(jìn),CPU、GPU、XPU 等不同類(lèi)型設(shè)備需要協(xié)同工作才能發(fā)揮最大效能。DPU 和 DOCA 技術(shù)正是連接這些異構(gòu)設(shè)備的關(guān)鍵,通過(guò)智能卸載和資源調(diào)度,能提升數(shù)據(jù)中心的整體利用率。期待更多開(kāi)發(fā)者加入 DOCA 社區(qū),共同探索 DPU 在異構(gòu)計(jì)算方面的可能性。”

——SeekExpert 團(tuán)隊(duì)

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • NVIDIA
    +關(guān)注

    關(guān)注

    14

    文章

    5494

    瀏覽量

    109016
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    28

    文章

    5090

    瀏覽量

    134387
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3644

    瀏覽量

    51683

原文標(biāo)題:開(kāi)發(fā)者故事 | 基于 DOCA GPUNetIO 的 MoE 模型推理加速實(shí)踐

文章出處:【微信號(hào):NVIDIA-Enterprise,微信公眾號(hào):NVIDIA英偉達(dá)企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    通過(guò)NVIDIA Jetson AGX Thor實(shí)現(xiàn)7倍生成式AI性能

    Jetson Thor 平臺(tái)還支持多種主流量化格式,包括 NVIDIA Blackwell GPU 架構(gòu)的新 NVFP4 格式,有助于進(jìn)一步優(yōu)化推理性能。該平臺(tái)同時(shí)支持推測(cè)解碼等新技術(shù),為在邊緣端加速生成式 AI 工作負(fù)載提供了
    的頭像 發(fā)表于 10-29 16:53 ?998次閱讀

    NVIDIA TensorRT LLM 1.0推理框架正式上線

    TensorRT LLM 作為 NVIDIA 為大規(guī)模 LLM 推理打造的推理框架,核心目標(biāo)是突破 NVIDIA 平臺(tái)上的推理性能瓶頸。為實(shí)
    的頭像 發(fā)表于 10-21 11:04 ?712次閱讀

    什么是AI模型推理能力

    NVIDIA 的數(shù)據(jù)工廠團(tuán)隊(duì)為 NVIDIA Cosmos Reason 等 AI 模型奠定了基礎(chǔ),該模型近日在 Hugging Face 的物理
    的頭像 發(fā)表于 09-23 15:19 ?792次閱讀

    使用NVIDIA NVLink Fusion技術(shù)提升AI推理性能

    本文詳細(xì)闡述了 NVIDIA NVLink Fusion 如何借助高效可擴(kuò)展的 NVIDIA NVLink scale-up 架構(gòu)技術(shù),滿足日益復(fù)雜的 AI 模型不斷增長(zhǎng)的需求。
    的頭像 發(fā)表于 09-23 14:45 ?566次閱讀
    使用<b class='flag-5'>NVIDIA</b> NVLink Fusion<b class='flag-5'>技術(shù)</b><b class='flag-5'>提升</b>AI<b class='flag-5'>推理性能</b>

    使用OpenVINO將PP-OCRv5模型部署在Intel顯卡上

    是一個(gè)用于優(yōu)化和部署人工智能(AI)模型提升AI推理性能的開(kāi)源工具集合,不僅支持以卷積神經(jīng)網(wǎng)絡(luò)(CNN)為核心組件的預(yù)測(cè)式AI模型(Predictive AI),還支持以Transf
    的頭像 發(fā)表于 09-20 11:17 ?824次閱讀
    使用OpenVINO將PP-OCRv5<b class='flag-5'>模型</b>部署在Intel顯卡上

    NVIDIA Nemotron Nano 2推理模型發(fā)布

    NVIDIA 正式推出準(zhǔn)確、高效的混合 Mamba-Transformer 推理模型系列 NVIDIA Nemotron Nano 2。
    的頭像 發(fā)表于 08-27 12:45 ?1345次閱讀
    <b class='flag-5'>NVIDIA</b> Nemotron Nano 2<b class='flag-5'>推理模型</b>發(fā)布

    NVIDIA從云到邊緣加速OpenAI gpt-oss模型部署,實(shí)現(xiàn)150萬(wàn)TPS推理

    的發(fā)布持續(xù)深化了雙方的 AI 創(chuàng)新合作。NVIDIANVIDIA Blackwell 架構(gòu)上優(yōu)化了這兩款全新的開(kāi)放權(quán)重模型并實(shí)現(xiàn)了推理性能加速,在
    的頭像 發(fā)表于 08-15 20:34 ?1938次閱讀
    <b class='flag-5'>NVIDIA</b>從云到邊緣加速OpenAI gpt-oss<b class='flag-5'>模型</b>部署,實(shí)現(xiàn)150萬(wàn)TPS<b class='flag-5'>推理</b>

    【「DeepSeek 核心技術(shù)揭秘」閱讀體驗(yàn)】書(shū)籍介紹+第一章讀后心得

    剖析 DeepSeek-V3 的模型架構(gòu)、訓(xùn)練框架、推理階段優(yōu)化、后訓(xùn)練優(yōu)化等關(guān)鍵技術(shù)。從混合專(zhuān)家模型MoE)的起源與發(fā)展,到 DeepS
    發(fā)表于 07-17 11:59

    NVIDIA DOCA 3.0版本的亮點(diǎn)解析

    NVIDIA DOCA 框架已發(fā)展成為新一代 AI 基礎(chǔ)設(shè)施的重要組成部分。從初始版本到備受期待的 NVIDIA DOCA 3.0 發(fā)布,每個(gè)版本都擴(kuò)展了
    的頭像 發(fā)表于 07-04 14:27 ?880次閱讀
    <b class='flag-5'>NVIDIA</b> <b class='flag-5'>DOCA</b> 3.0版本的亮點(diǎn)解析

    模型推理顯存和計(jì)算量估計(jì)方法研究

    隨著人工智能技術(shù)的飛速發(fā)展,深度學(xué)習(xí)大模型在各個(gè)領(lǐng)域得到了廣泛應(yīng)用。然而,大模型推理過(guò)程對(duì)顯存和計(jì)算資源的需求較高,給實(shí)際應(yīng)用帶來(lái)了挑戰(zhàn)。為了解決這一問(wèn)題,本文將探討大
    發(fā)表于 07-03 19:43

    英偉達(dá)GTC25亮點(diǎn):NVIDIA Dynamo開(kāi)源庫(kù)加速并擴(kuò)展AI推理模型

    NVIDIA Dynamo 提高了推理性能,同時(shí)降低了擴(kuò)展測(cè)試時(shí)計(jì)算 (Scaling Test-Time Compute) 的成本;在 NVIDIA Blackwell 上的推理優(yōu)化
    的頭像 發(fā)表于 03-20 15:03 ?1062次閱讀

    使用NVIDIA推理平臺(tái)提高AI推理性能

    NVIDIA推理平臺(tái)提高了 AI 推理性能,為零售、電信等行業(yè)節(jié)省了數(shù)百萬(wàn)美元。
    的頭像 發(fā)表于 02-08 09:59 ?1288次閱讀
    使用<b class='flag-5'>NVIDIA</b><b class='flag-5'>推理</b>平臺(tái)提高AI<b class='flag-5'>推理性能</b>

    利用Arm Kleidi技術(shù)實(shí)現(xiàn)PyTorch優(yōu)化

    PyTorch 是一個(gè)廣泛應(yīng)用的開(kāi)源機(jī)器學(xué)習(xí) (ML) 庫(kù)。近年來(lái),Arm 與合作伙伴通力協(xié)作,持續(xù)改進(jìn) PyTorch 的推理性能。本文將詳細(xì)介紹如何利用 Arm Kleidi 技術(shù)提升
    的頭像 發(fā)表于 12-23 09:19 ?1593次閱讀
    <b class='flag-5'>利用</b>Arm Kleidi<b class='flag-5'>技術(shù)</b>實(shí)現(xiàn)PyTorch優(yōu)化

    解鎖NVIDIA TensorRT-LLM的卓越性能

    Batching、Paged KV Caching、量化技術(shù) (FP8、INT4 AWQ、INT8 SmoothQuant 等) 以及更多功能,確保您的 NVIDIA GPU 能發(fā)揮出卓越的推理性能。
    的頭像 發(fā)表于 12-17 17:47 ?1593次閱讀

    Arm KleidiAI助力提升PyTorch上LLM推理性能

    熱門(mén)的深度學(xué)習(xí)框架尤為突出,許多企業(yè)均會(huì)選擇其作為開(kāi)發(fā) AI 應(yīng)用的庫(kù)。通過(guò)部署 Arm Kleidi 技術(shù),Arm 正在努力優(yōu)化 PyTorch,以加速在基于 Arm 架構(gòu)的處理器上運(yùn)行 LLM 的性能。Arm 通過(guò)將 Kleidi
    的頭像 發(fā)表于 12-03 17:05 ?1921次閱讀
    Arm KleidiAI助力<b class='flag-5'>提升</b>PyTorch上LLM<b class='flag-5'>推理性能</b>