chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

新的 MLPerf 推理網(wǎng)絡部分展現(xiàn) NVIDIA InfiniBand 網(wǎng)絡和 GPUDirect RDMA 的強大能力

NVIDIA英偉達 ? 來源:未知 ? 2023-07-19 19:10 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

34e8bcc8-2624-11ee-962d-dac502259ad0.png

在 MLPerf Inference v3.0中,NVIDIA 首次將網(wǎng)絡納入了 MLPerf 的評測項目,成為了 MLPerf 推理數(shù)據(jù)中心套件的一部分。網(wǎng)絡評測部分旨在模擬在真實的數(shù)據(jù)中心中,網(wǎng)絡軟、硬件對于端到端推理性能的影響。

在網(wǎng)絡評測中,有兩類節(jié)點:前端節(jié)點生成查詢,這些查詢通過業(yè)界標準的網(wǎng)絡(如以太網(wǎng)或 InfiniBand 網(wǎng)絡)發(fā)送到加速節(jié)點,由加速器節(jié)點進行處理和執(zhí)行推理。

352c6e1e-2624-11ee-962d-dac502259ad0.png

圖 1:單節(jié)點封閉測試環(huán)境與多節(jié)點網(wǎng)絡測試環(huán)境

圖 1 顯示了在單個節(jié)點上運行的封閉測試環(huán)境,以及在網(wǎng)絡測試環(huán)境中通過前端節(jié)點生成查詢,然后傳輸?shù)郊铀倨鞴?jié)點上進行推理的工作流程。

在網(wǎng)絡測試場景中,加速器節(jié)點包含了推理加速器以及所有網(wǎng)絡組件,包括網(wǎng)卡(NIC)、網(wǎng)絡交換機和完整的網(wǎng)絡體系。因此,網(wǎng)絡評測旨在測試加速器節(jié)點和網(wǎng)絡的性能,因為前端節(jié)點在基準測試中的作用有限,可以排除它們對測試的影響。

MLPerf 推理 v3.0 網(wǎng)絡評測中的

NVIDIA 網(wǎng)絡性能表現(xiàn)

在 MLPerf 推理 v3.0 中,NVIDIA 提交了在 ResNet-50 和 BERT 兩種場景下的網(wǎng)絡性能結果,從 NVIDIA 提交的性能結果來看,憑借 NVIDIA ConnectX-6 InfiniBand 智能網(wǎng)卡和 GPUDirect RDMA 技術提供的超高網(wǎng)絡帶寬和極低延遲,ResNet-50 在網(wǎng)絡環(huán)境中達到了 100% 的單節(jié)點性能。

3552dad6-2624-11ee-962d-dac502259ad0.png

表 1:ResNet-50 和 BERT 上網(wǎng)絡評測性能和單機封閉測試性能的比較,有限帶寬實現(xiàn)了理想性能

NVIDIA 平臺在 BERT 工作負載方面也表現(xiàn)出了出色的性能,和單機封閉測試結果性能僅有輕微的差異,這主要是由于主機端的一些開銷而導致。

在 NVIDIA 網(wǎng)絡評測中用到的關鍵技術

大量的全棧技術使 NVIDIA 網(wǎng)絡評測中的強大性能得以實現(xiàn):

  • NVIDIA TensorRT 優(yōu)化推理引擎。

  • InfiniBand RDMA 網(wǎng)絡,為張量通信提供低延遲和高帶寬,基于 Mellanox OFED 軟件堆棧中的 IBV verbs 實現(xiàn)。

  • 通過以太網(wǎng) TCP Socket 進行配置交換、運行狀態(tài)同步和心跳監(jiān)控。

  • 利用 CPU、GPU 和 NIC 資源獲得最佳性能時 NUMA-Aware。

網(wǎng)絡評測部分實施細節(jié)

以下是 MLPerf 推理中網(wǎng)絡評測部分的實現(xiàn)細節(jié):
  • 采用高吞吐量、低延遲的 InfiniBand 網(wǎng)絡進行通信
  • 網(wǎng)絡評測部分推理流程
  • 性能優(yōu)化

通過高吞吐量、低延遲的

InfiniBand 網(wǎng)絡進行通信

網(wǎng)絡評測過程要求提交者通過查詢調度庫(QDL)從負載生成器獲取查詢,然后根據(jù)提交者設置的方式將查詢發(fā)送到加速器節(jié)點。

  • 在生成輸入張量序列的前端節(jié)點,QDL 通過測試端(SUT)的 API 對 LoadGen 系統(tǒng)進行抽象,這樣用于本地測試的加速器的 MLPerf 推理 LoadGen 就變得可見。

  • 在加速器節(jié)點,通過 QDL 與負責推理請求和響應的 LoadGen 直接交互。在 NVIDIA 的 QDL 實現(xiàn)中,我們使用 InfiniBand IBV verbs 和以太網(wǎng) TCP Socket 實現(xiàn)了無縫數(shù)據(jù)通信和同步。

3572b810-2624-11ee-962d-dac502259ad0.png

圖 2:QDL 內部的 InfiniBand 數(shù)據(jù)交換組件

圖 2 顯示了基于 InfiniBand 網(wǎng)絡技術的 QDL 中的數(shù)據(jù)交換組件。

359232e4-2624-11ee-962d-dac502259ad0.png

圖 3:前端節(jié)點和加速器節(jié)點之間建立連接的示例

圖 3 顯示了如何使用該數(shù)據(jù)交換組件在兩個節(jié)點之間建立連接。

InfiniBand 網(wǎng)絡的隊列對(QPs)是節(jié)點之間的連接的基礎。NVIDIA 采用了無損可靠連接(RC)方式(和 TCP 類似)和傳輸模式,并利用 InfiniBand HDR 光纖網(wǎng)絡來維持高達 200 Gbits/sec 的吞吐量。

基準測試開始時,QDL 在初始化過程中會發(fā)現(xiàn)系統(tǒng)中的所有 InfiniBand 網(wǎng)卡,并根據(jù)存儲在 IBCfgs 中的配置信息,指定網(wǎng)卡作為測試的 IBDevice 實例。在這個測試過程中,用于 RDMA 傳輸?shù)膬却鎱^(qū)域被分配、固定和注冊為 RDMA 緩沖區(qū),并與相應的的 Handle 一起保存在 IBResources 中。

利用 GPUDirect RDMA 技術,可以將加速器節(jié)點的 GPU 顯存作為 RDMA 緩沖區(qū),并將 RDMA 緩沖區(qū)信息以及相應的保護密鑰通過以太網(wǎng)的 TCP Socket 發(fā)送給相對應的節(jié)點,這樣就為 QDL 創(chuàng)建 IBConnection 實例。

由于 QDL 支持 NUMA-Aware,可將最近的 NUMA 主機內存、CPU 和 GPU 映射到每張網(wǎng)卡,每個 NIC 都通過 IBConnection 與對端網(wǎng)卡 NIC 進行通信。

網(wǎng)絡評測部分推理流程

35b5c6b4-2624-11ee-962d-dac502259ad0.png

圖 4:使用 Direct GPU RDMA 從前端節(jié)點到加速器節(jié)點的推理請求流

圖 4 顯示了推理請求是如何從前端節(jié)點發(fā)送到加速器節(jié)點并在加速器節(jié)點上被處理的:

  1. LoadGen 生成一個查詢(推理請求),其中包含輸入張量。

  2. QDL 通過仲裁的方式將該查詢重定向到適當?shù)?IBConnection。

  3. 查詢樣本庫(QSL)可能已經被注冊在 RDMA 緩沖區(qū)內。如果沒有,則 QDL 將查詢復制到 RDMA 緩沖區(qū)。

  4. QDL 啟動相應的 QP 的 RDMA 傳輸。

  5. 通過網(wǎng)絡交換機實現(xiàn) InfiniBand 網(wǎng)絡傳輸。

  6. 查詢到達對等方的 QP。

  7. 然后通過直接內存訪問技術將查詢傳輸?shù)侥康牡?RDMA 緩沖區(qū)。

  8. 加速器節(jié)點的 QDL 確認 RDMA 傳輸完成。

  9. QDL 允許加速器節(jié)點能夠批處理查詢,QDL 標記一批查詢,發(fā)布到加速器節(jié)點的某個加速器上去執(zhí)行。

  10. 加速器節(jié)點的加速器使用 CUDA 和 TensorRT 執(zhí)行推理,在 RDMA 緩沖區(qū)中生成響應。

當在步驟 10 最終執(zhí)行推理后,會生成輸出張量,并將其置于 RDMA 緩沖區(qū)中。然后加速器節(jié)點開始以類似的方式但以相反的方向將響應張量傳輸?shù)角岸斯?jié)點。

性能優(yōu)化

NVIDIA 使用 InfiniBand RDMA_Write 的方式實現(xiàn)了最短的延遲。要成功地應用 RDMA_Write,發(fā)送方必須對于對端的內存緩沖區(qū)可見。

前端節(jié)點和加速器節(jié)點都需要管理緩沖區(qū)跟蹤器,以確保每個查詢和響應都保存在內存中,直到用完為止。例如,ResNet-50 要想達到理想的性能需要每個連接(QP)管理多達 8K 個交易。

NVIDIA 用到了以下一些關鍵優(yōu)化。

以下關鍵優(yōu)化支持更好的可擴展性:

  • 每個 IBConnection(QP)的交易跟蹤器:每個 IBConnection 都有一個獨立的交易跟蹤器,從而實現(xiàn)無死鎖的、關聯(lián)內交易記賬。

  • 每個網(wǎng)卡支持多個 QP:任意數(shù)量的 IBConnections 可以在任何網(wǎng)卡上實例化,從而可以輕松地自發(fā)支持大量交易。

以下關鍵優(yōu)化提高了 InfiniBand 網(wǎng)絡的資源效率:

  • 使用 INLINE 的方式傳輸小消息:通過 INLINE 傳輸小消息(通常指小于 64 字節(jié))可避免 PCIe 傳輸,從而顯著提高性能和效率。

  • 使用 UNSIGNALLED RDMA Write:由于 UNSIGNALLED 的操作需要在 CQ 隊列中等待直到 SIGNALLED 操作發(fā)生,再觸發(fā)到目前為止在同一節(jié)點中排隊的所有事務的完成處理(批量完成),因此 CQ 維護變得更加高效。

  • 使用 Solicited IB 傳輸:Unsolicited 的 RDMA 操作可以在遠端節(jié)點中排隊等待,直到 solicited RDMA 操作發(fā)生,再觸發(fā)遠端節(jié)點中的批量完成。

  • 基于事件的 CQ 管理:避免 CPU 一直忙于等待 CQ,釋放 CPU 個周期。

以下關鍵優(yōu)化提高了內存系統(tǒng)的效率:

  • 通過 RDMA 傳輸避免了前端節(jié)點內的內存拷貝:發(fā)送輸入張量時,通過直接將張量存在在 RDMA 注冊的內存中來避免主機內存拷貝。

  • 在加速器節(jié)點中聚合 CUDA 的 memcpys:通過盡可能多地集中連續(xù)內存中的張量,提高 GPU 顯存拷貝和 PCIe 傳輸?shù)男省?/span>

每家的 QP 實現(xiàn)涵蓋了能支持的最大完成隊列條目數(shù)(CQE),以及支持的最大 QP 條目數(shù)。擴展每個網(wǎng)卡能支持的 QP 數(shù)量,對于降低延遲,同時保持足夠的實時交易量以實現(xiàn)最大吞吐量很重要。

如果 CQ 通過輪詢的方式在短時間內處理大量事務,會對主機 CPU 造成顯著的壓力,在這種情況下,采用基于事件的 CQ 管理,以及減少通知的數(shù)量會對此非常有幫助。通過盡可能多地聚集連續(xù)內存空間中的數(shù)據(jù),如果可能,聚集在 RDMA 注冊的內存空間,可以最大限度地提高內存訪問效率。這對于實現(xiàn)最大性能至關重要。

總結

NVIDIA 平臺在其首次提交的網(wǎng)絡測試結果中表現(xiàn)出色,充分體現(xiàn)了 NVIDIA 在 MLPerf 推理:數(shù)據(jù)中心封閉部門評測項目中一貫的領先地位,這些結果歸功于許多 NVIDIA 平臺的強大功能實現(xiàn):

  • NVIDIA A100 Tensor Core GPU

  • NVIDIA DGX A100

  • NVIDIA ConnectX-6 InfiniBand 網(wǎng)絡

  • NVIDIA TensorRT

  • GPUDirect RDMA

這個結果進一步證明了 NVIDIA AI 平臺在行業(yè)標準的、業(yè)界公認的真實數(shù)據(jù)中心部署中的高性能和多樣性。

掃描下方二維碼,查看更多有關NVIDIA InfiniBand 的信息。

35dcf9f0-2624-11ee-962d-dac502259ad0.png


35f2adc2-2624-11ee-962d-dac502259ad0.gif ?

更多精彩內容 跨越距離:NVIDIA 平臺解決邊緣的 HPC 問題
GreatSQL & NVIDIA InfiniBand NVMe SSD 存算分離池化方案:實現(xiàn)高性能分布式部署
NVIDIA Quantum InfiniBand 打造 AI 時代 GPU 計算的高性能存儲技術


原文標題:新的 MLPerf 推理網(wǎng)絡部分展現(xiàn) NVIDIA InfiniBand 網(wǎng)絡和 GPUDirect RDMA 的強大能力

文章出處:【微信公眾號:NVIDIA英偉達】歡迎添加關注!文章轉載請注明出處。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 英偉達
    +關注

    關注

    23

    文章

    4044

    瀏覽量

    97709

原文標題:新的 MLPerf 推理網(wǎng)絡部分展現(xiàn) NVIDIA InfiniBand 網(wǎng)絡和 GPUDirect RDMA 的強大能力

文章出處:【微信號:NVIDIA_China,微信公眾號:NVIDIA英偉達】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    RDMA設計1:開發(fā)必要性1之設計考慮

    解決 FPGA 系統(tǒng)存儲容量不足已成為亟待解決的問題。 遠程直接內存訪問技術(RDMA) 是一種專為遠距離網(wǎng)絡通信設計的技術, 其通常通過光纖進行設備間連接, 提供高通量、 低延遲、 遠距離的零拷?網(wǎng)絡
    發(fā)表于 11-19 14:30

    NVIDIA TensorRT LLM 1.0推理框架正式上線

    TensorRT LLM 作為 NVIDIA 為大規(guī)模 LLM 推理打造的推理框架,核心目標是突破 NVIDIA 平臺上的推理性能瓶頸。為實
    的頭像 發(fā)表于 10-21 11:04 ?780次閱讀

    什么是AI模型的推理能力

    NVIDIA 的數(shù)據(jù)工廠團隊為 NVIDIA Cosmos Reason 等 AI 模型奠定了基礎,該模型近日在 Hugging Face 的物理推理模型排行榜中位列榜首。
    的頭像 發(fā)表于 09-23 15:19 ?856次閱讀

    解析DCQCN:RDMA在數(shù)據(jù)中心網(wǎng)絡的關鍵擁塞控制協(xié)議

    DCQCN ( Data Center Quantized Congestion Notification),數(shù)據(jù)中心量化擁塞通知。它是一種專門為數(shù)據(jù)中心網(wǎng)絡設計的端到端擁塞控制協(xié)議。其核心目的是在使用RDMA(RoCEv2) 的網(wǎng)絡
    的頭像 發(fā)表于 09-15 11:45 ?1533次閱讀
    解析DCQCN:<b class='flag-5'>RDMA</b>在數(shù)據(jù)中心<b class='flag-5'>網(wǎng)絡</b>的關鍵擁塞控制協(xié)議

    NVIDIA Nemotron Nano 2推理模型發(fā)布

    NVIDIA 正式推出準確、高效的混合 Mamba-Transformer 推理模型系列 NVIDIA Nemotron Nano 2。
    的頭像 發(fā)表于 08-27 12:45 ?1418次閱讀
    <b class='flag-5'>NVIDIA</b> Nemotron Nano 2<b class='flag-5'>推理</b>模型發(fā)布

    利用NVIDIA DPU重塑網(wǎng)絡安全格局

    在第三屆 NVIDIA DPU 黑客松競賽中,我們見證了開發(fā)者與 NVIDIA 網(wǎng)絡技術的深度碰撞。在 23 支參賽隊伍中,有 5 支隊伍脫穎而出,展現(xiàn)了在 AI
    的頭像 發(fā)表于 08-20 14:31 ?1040次閱讀

    信而泰×DeepSeek:AI推理引擎驅動網(wǎng)絡智能診斷邁向 “自愈”時代

    DeepSeek-R1:強大的AI推理引擎底座DeepSeek是由杭州深度求索人工智能基礎技術研究有限公司開發(fā)的新一代AI大模型。其核心優(yōu)勢在于強大推理引擎
    發(fā)表于 07-16 15:29

    使用外部文件導入NVIDIA Air構建網(wǎng)絡拓撲的優(yōu)勢

    NVIDIA Air 具有仿真從小型網(wǎng)絡到整個數(shù)據(jù)中心的任何網(wǎng)絡的獨特能力。在開始配置、路由或管理之前,請先考慮拓撲。
    的頭像 發(fā)表于 07-09 16:32 ?792次閱讀

    RDMA簡介3之四種子協(xié)議對比

    RDMA協(xié)議共有四種子協(xié)議,分別為InfiniBand、iWARP、RoCE v1和RoCE v2協(xié)議。這四種協(xié)議使用統(tǒng)一的RDMA API,但在具體的網(wǎng)絡層級實現(xiàn)上有所不同,如圖1所
    發(fā)表于 06-04 16:05

    RDMA簡介2之A技術優(yōu)勢分析

    隨著數(shù)據(jù)中心對于網(wǎng)絡帶寬和延遲的要求日益增長,傳統(tǒng)的TCP/IP網(wǎng)絡已無法滿足性能要求,RDMA網(wǎng)絡則憑借其高帶寬、低延時的特性脫穎而出。相較于傳統(tǒng)TCP/IP協(xié)議,
    發(fā)表于 06-04 11:35

    RDMA簡介1之RDMA開發(fā)必要性

    ,提供高通量、低延遲、遠距離的零拷貝網(wǎng)絡數(shù)據(jù)傳輸?;谌诤弦蕴W(wǎng)的遠程直接內存訪問(RoCE)提供了一種基于以太網(wǎng)的RDMA技術實現(xiàn)方法,相較于IB(InfiniBand)、互聯(lián)網(wǎng)廣域遠程直接內存訪問
    發(fā)表于 06-03 14:38

    適用于數(shù)據(jù)中心和AI時代的800G網(wǎng)絡

    數(shù)據(jù)中心依賴數(shù)千甚至上萬個GPU集群進行高性能計算,對帶寬、延遲和數(shù)據(jù)交換效率提出極高要求。 AI云:以生成式AI為核心的云平臺,為多租戶環(huán)境提供推理服務。這類數(shù)據(jù)中心要求網(wǎng)絡具備高帶寬、穩(wěn)定性
    發(fā)表于 03-25 17:35

    如何實現(xiàn)開源開放生態(tài)下的RDMA網(wǎng)絡監(jiān)控?

    在當今AI、大模型飛速發(fā)展的時代,RDMA(Remote Direct Memory Access,遠程直接內存訪問)網(wǎng)絡技術憑借其低延遲、高吞吐量的特性,在數(shù)據(jù)中心、高性能計算等領域得到了廣泛應用
    的頭像 發(fā)表于 03-03 13:42 ?977次閱讀
    如何實現(xiàn)開源開放生態(tài)下的<b class='flag-5'>RDMA</b><b class='flag-5'>網(wǎng)絡</b>監(jiān)控?

    使用NVIDIA推理平臺提高AI推理性能

    NVIDIA推理平臺提高了 AI 推理性能,為零售、電信等行業(yè)節(jié)省了數(shù)百萬美元。
    的頭像 發(fā)表于 02-08 09:59 ?1338次閱讀
    使用<b class='flag-5'>NVIDIA</b><b class='flag-5'>推理</b>平臺提高AI<b class='flag-5'>推理</b>性能

    加速網(wǎng)絡性能:融合以太網(wǎng) RDMA (RoCE) 的影響

    直接內存訪問 (RDMA) (RoCE)。這項突破性技術促進了系統(tǒng)之間的直接數(shù)據(jù)傳輸,無需 CPU 干預,從而顯著減少延遲并提高整體系統(tǒng)性能。[愛波]一家著名的 FPGA 設計公司處于這一進步的最前沿,通過將 AMD 的 ERNIC IP(以太網(wǎng) RDMA
    的頭像 發(fā)表于 01-25 11:50 ?1821次閱讀
    加速<b class='flag-5'>網(wǎng)絡</b>性能:融合以太網(wǎng) <b class='flag-5'>RDMA</b> (RoCE) 的影響