国产超薄丝袜足j在线观看,无遮挡一级毛片免费的

在第三屆 NVIDIA DPU 中國(guó)黑客松競(jìng)賽中，我們見(jiàn)證了開(kāi)發(fā)者與 NVIDIA 網(wǎng)絡(luò)技術(shù)的深度碰撞。在 23 支參賽隊(duì)伍中，有 5 支隊(duì)伍脫穎而出，展現(xiàn)了在 AI 網(wǎng)絡(luò)、存儲(chǔ)和安全等領(lǐng)域的創(chuàng)新突破。

由劉瀚騁、劉崇鵬、劉陽(yáng)組成的 SeekExpert 團(tuán)隊(duì)在本屆黑客松中展現(xiàn)了卓越的技術(shù)實(shí)力，憑借其創(chuàng)新項(xiàng)目“利用 NVIDIA DOCA GPUNetIO 技術(shù)，加速 Expert-Kit 推理框架中的專(zhuān)家權(quán)重分發(fā)和通信傳輸部分，從而提升 MoE 模型推理的速度和效率”取得了第二名。該項(xiàng)目利用 NVIDIA DOCA GPUNetIO 技術(shù)，針對(duì) Expert-Centric 架構(gòu)的 Expert-Kit MoE 推理框架中的專(zhuān)家權(quán)重分發(fā)和通信傳輸關(guān)鍵環(huán)節(jié)進(jìn)行了優(yōu)化。

從網(wǎng)絡(luò)瓶頸到 DPU 異構(gòu)加速的實(shí)踐突破

隨著數(shù)據(jù)中心計(jì)算向異構(gòu)模式深度演進(jìn)，網(wǎng)絡(luò)通信的控制和數(shù)據(jù)調(diào)度變得日益復(fù)雜，DPU 作為中間銜接的橋梁必將大有可為。在過(guò)去開(kāi)發(fā)和使用 Expert-Kit 推理框架的過(guò)程中，SeekExpert 團(tuán)隊(duì)發(fā)現(xiàn)將傳統(tǒng)開(kāi)發(fā)模式運(yùn)用到該框架存在較大的性能瓶頸。具體來(lái)說(shuō)，框架采用 Expert-Centric 架構(gòu)，該架構(gòu)專(zhuān)注于快速專(zhuān)家調(diào)度和專(zhuān)家異構(gòu)計(jì)算，但實(shí)際運(yùn)行時(shí)網(wǎng)絡(luò)性能成為了關(guān)鍵的制約因素——具體表現(xiàn)為專(zhuān)家權(quán)重分發(fā)及中間結(jié)果傳輸過(guò)程中的數(shù)據(jù)拷貝開(kāi)銷(xiāo)會(huì)導(dǎo)致推理延遲增加，同時(shí)網(wǎng)絡(luò)數(shù)據(jù)路徑處理占用大量 CPU 資源，與專(zhuān)家計(jì)算形成資源競(jìng)爭(zhēng)，直接影響系統(tǒng)整體吞吐量。

基于這個(gè)痛點(diǎn)，SeekExpert 團(tuán)隊(duì)意識(shí)到NVIDIA BlueField DPU恰好能破解這一難題，通過(guò) DPU 專(zhuān)門(mén)處理網(wǎng)絡(luò)傳輸任務(wù)的技術(shù)特性，既能實(shí)現(xiàn)權(quán)重分發(fā)的加速，又能釋放 CPU 資源，從而使 CPU 專(zhuān)注專(zhuān)家計(jì)算的核心功能，這就是參賽項(xiàng)目的由來(lái)。

雙管齊下：攻克技術(shù)選型與協(xié)同開(kāi)發(fā)難題

在開(kāi)發(fā)過(guò)程中，團(tuán)隊(duì)面臨的兩大底層技術(shù)挑戰(zhàn)，一個(gè)是來(lái)自于技術(shù)選型的難題，另一個(gè)是與 CUDA 協(xié)同開(kāi)發(fā)的復(fù)雜性。首先，團(tuán)隊(duì)需要全面理解 GPUNetIO、DMA、RDMA 等不同網(wǎng)絡(luò)加速方案的適用場(chǎng)景，并判斷哪個(gè)最符合團(tuán)隊(duì)專(zhuān)家權(quán)重分發(fā)的需求，其次需要實(shí)現(xiàn) DOCA 與 CUDA 的深度集成，這涉及到 GPU 內(nèi)存管理、數(shù)據(jù)流同步等底層細(xì)節(jié)，調(diào)試復(fù)雜度極高。

為攻克這些難題，團(tuán)隊(duì)采取了雙管齊下的策略：一方面充分利用 NVIDIA 的技術(shù)資源，通過(guò)DOCA 官方文檔中完善的 API 說(shuō)明和示例代碼來(lái)獲取關(guān)鍵技術(shù)指引；另一方面，當(dāng)遇到技術(shù)瓶頸時(shí)，團(tuán)隊(duì)成員會(huì)從各自的技術(shù)視角開(kāi)展討論，分析問(wèn)題根源并提出針對(duì)性解決方案。

為 DPU 在大模型推理加速領(lǐng)域鋪路

該項(xiàng)目創(chuàng)新性地將 NVIDIA DOCA GPUNetIO 技術(shù)與 MoE 模型推理加速相結(jié)合，通過(guò) Expert-Kit 推理框架實(shí)現(xiàn)異構(gòu)硬件資源的協(xié)同優(yōu)化，讓 DPU 專(zhuān)門(mén)處理網(wǎng)絡(luò)密集型的專(zhuān)家權(quán)重分發(fā)和通信任務(wù)，使 CPU 得以專(zhuān)注于專(zhuān)家計(jì)算，從而在云計(jì)算、數(shù)據(jù)中心的 AI 推理平臺(tái)中有效緩解集群時(shí)間維度（動(dòng)態(tài)負(fù)載）與空間維度（不同設(shè)備協(xié)同）的資源利用率難題，為 DPU 在大模型推理加速領(lǐng)域提供了優(yōu)化方向。

DOCA 開(kāi)發(fā)者快問(wèn)快答

您是從哪里了解到 NVIDIA DPU 黑客松競(jìng)賽的？參賽的目標(biāo)是什么？

我們是通過(guò)老師的介紹了解到這次 NVIDIA DPU 中國(guó)黑客松競(jìng)賽的。由于我們之前在研究異構(gòu)設(shè)備共享內(nèi)存時(shí)就接觸過(guò) DOCA 軟件框架，當(dāng)我們的 Expert-Kit 推理框架遇到網(wǎng)絡(luò)傳輸優(yōu)化瓶頸時(shí)，自然聯(lián)想到了 DPU 可能存在的機(jī)會(huì)。

賽前舉辦的 DPU 線上技術(shù)訓(xùn)練營(yíng)對(duì)您的備賽起到哪些幫助？

訓(xùn)練營(yíng)對(duì) DPU 在各個(gè)領(lǐng)域的解決方案進(jìn)行了引領(lǐng)性講解，涵蓋了安全、網(wǎng)絡(luò)卸載等多個(gè)方向，讓我們對(duì) DOCA 開(kāi)發(fā)有了更為全面的認(rèn)識(shí)。

參與 NVIDIA DPU 黑客松競(jìng)賽有哪些收獲？

除了技術(shù)能力的提升，我們還結(jié)識(shí)了很多其他參賽隊(duì)伍的隊(duì)員，了解了他們?cè)谙嚓P(guān)研究方向上的探索，這拓寬了我們的技術(shù)視野。同時(shí)，通過(guò)比賽我們也深入了解了 NVIDIA 在各行各業(yè)的技術(shù)探索和應(yīng)用，對(duì)整個(gè) AI 和硬件加速生態(tài)有了更全面的認(rèn)識(shí)。

本次競(jìng)賽有沒(méi)有難忘或有趣的經(jīng)歷？

最印象深刻的是最后前往 NVIDIA 北京辦公室參觀，整個(gè)參觀讓我們深刻感受到了 NVIDIA 的快速發(fā)展軌跡，以及 NVIDIA 在各行各業(yè)所做出的技術(shù)貢獻(xiàn)。

您是從什么渠道了解到 NVIDIA DOCA 的？什么契機(jī)使你成為 DOCA 開(kāi)發(fā)者？

我們最初是在研究異構(gòu)設(shè)備的共享內(nèi)存接觸到的 NVIDIA DOCA。DPU 作為 CPU、GPU 和網(wǎng)絡(luò)之間的數(shù)據(jù)通信所需的核心部件，能夠讓整個(gè)數(shù)據(jù)和控制拓?fù)渥兊煤?jiǎn)潔與清晰，也能夠很好地承擔(dān)起異構(gòu)計(jì)算中的協(xié)調(diào)和加速角色。

最初從事 DOCA 開(kāi)發(fā)時(shí)，有具體明確的目標(biāo)嗎？

目標(biāo)是通過(guò)讓 DPU 承擔(dān)網(wǎng)絡(luò)處理、數(shù)據(jù)移動(dòng)等任務(wù)，使得 CPU 能夠?qū)Ｗ⒂谟?jì)算密集型工作，同時(shí) DPU 通過(guò)高速互聯(lián) GPU 協(xié)同工作。

過(guò)往有其他成功的 DOCA 開(kāi)發(fā)經(jīng)歷嗎？

在異構(gòu)設(shè)備分布式共享內(nèi)存項(xiàng)目開(kāi)發(fā)中，我們利用 DPU 實(shí)現(xiàn)了跨地址空間的高效數(shù)據(jù)傳遞，這些相關(guān)經(jīng)驗(yàn)幫助我們后續(xù)在 Expert-Kit 推理框架中應(yīng)用 DOCA 技術(shù)奠定了基礎(chǔ)。

您對(duì) DOCA 的評(píng)價(jià)如何呢？DOCA 中國(guó)開(kāi)發(fā)者社區(qū)對(duì)你有哪些幫助？

DOCA 提供了一個(gè)編程框架，相關(guān)文檔也很齊全，對(duì) AI 生態(tài)，包括 CUDA 等也有很好的包容性。

開(kāi)發(fā)者寄語(yǔ)

“大語(yǔ)言模型的推理需求推動(dòng)數(shù)據(jù)中心向異構(gòu)計(jì)算演進(jìn)，CPU、GPU、XPU 等不同類(lèi)型設(shè)備需要協(xié)同工作才能發(fā)揮最大效能。DPU 和 DOCA 技術(shù)正是連接這些異構(gòu)設(shè)備的關(guān)鍵，通過(guò)智能卸載和資源調(diào)度，能提升數(shù)據(jù)中心的整體利用率。期待更多開(kāi)發(fā)者加入 DOCA 社區(qū)，共同探索 DPU 在異構(gòu)計(jì)算方面的可能性。”

——SeekExpert 團(tuán)隊(duì)

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴