一级特黄录像播放,奇米影视777老司机

在 MLPerf Inference v3.0中，NVIDIA 首次將網(wǎng)絡納入了 MLPerf 的評測項目，成為了 MLPerf 推理數(shù)據(jù)中心套件的一部分。網(wǎng)絡評測部分旨在模擬在真實的數(shù)據(jù)中心中，網(wǎng)絡軟、硬件對于端到端推理性能的影響。

在網(wǎng)絡評測中，有兩類節(jié)點：前端節(jié)點生成查詢，這些查詢通過業(yè)界標準的網(wǎng)絡（如以太網(wǎng)或 InfiniBand 網(wǎng)絡）發(fā)送到加速節(jié)點，由加速器節(jié)點進行處理和執(zhí)行推理。

圖 1：單節(jié)點封閉測試環(huán)境與多節(jié)點網(wǎng)絡測試環(huán)境

圖 1 顯示了在單個節(jié)點上運行的封閉測試環(huán)境，以及在網(wǎng)絡測試環(huán)境中通過前端節(jié)點生成查詢，然后傳輸?shù)郊铀倨鞴?jié)點上進行推理的工作流程。

在網(wǎng)絡測試場景中，加速器節(jié)點包含了推理加速器以及所有網(wǎng)絡組件，包括網(wǎng)卡（NIC）、網(wǎng)絡交換機和完整的網(wǎng)絡體系。因此，網(wǎng)絡評測旨在測試加速器節(jié)點和網(wǎng)絡的性能，因為前端節(jié)點在基準測試中的作用有限，可以排除它們對測試的影響。

MLPerf 推理 v3.0 網(wǎng)絡評測中的

NVIDIA 網(wǎng)絡性能表現(xiàn)

在 MLPerf 推理 v3.0 中，NVIDIA 提交了在 ResNet-50 和 BERT 兩種場景下的網(wǎng)絡性能結果，從 NVIDIA 提交的性能結果來看，憑借 NVIDIA ConnectX-6 InfiniBand 智能網(wǎng)卡和 GPUDirect RDMA 技術提供的超高網(wǎng)絡帶寬和極低延遲，ResNet-50 在網(wǎng)絡環(huán)境中達到了 100% 的單節(jié)點性能。

表 1：ResNet-50 和 BERT 上網(wǎng)絡評測性能和單機封閉測試性能的比較，有限帶寬實現(xiàn)了理想性能

NVIDIA 平臺在 BERT 工作負載方面也表現(xiàn)出了出色的性能，和單機封閉測試結果性能僅有輕微的差異，這主要是由于主機端的一些開銷而導致。

在 NVIDIA 網(wǎng)絡評測中用到的關鍵技術

大量的全棧技術使 NVIDIA 網(wǎng)絡評測中的強大性能得以實現(xiàn)：

NVIDIA TensorRT 優(yōu)化推理引擎。
InfiniBand RDMA 網(wǎng)絡，為張量通信提供低延遲和高帶寬，基于 Mellanox OFED 軟件堆棧中的 IBV verbs 實現(xiàn)。
通過以太網(wǎng) TCP Socket 進行配置交換、運行狀態(tài)同步和心跳監(jiān)控。
利用 CPU、GPU 和 NIC 資源獲得最佳性能時 NUMA-Aware。

網(wǎng)絡評測部分實施細節(jié)

以下是 MLPerf 推理中網(wǎng)絡評測部分的實現(xiàn)細節(jié)：

采用高吞吐量、低延遲的 InfiniBand 網(wǎng)絡進行通信
網(wǎng)絡評測部分推理流程
性能優(yōu)化

通過高吞吐量、低延遲的

InfiniBand 網(wǎng)絡進行通信

網(wǎng)絡評測過程要求提交者通過查詢調度庫（QDL）從負載生成器獲取查詢，然后根據(jù)提交者設置的方式將查詢發(fā)送到加速器節(jié)點。

在生成輸入張量序列的前端節(jié)點，QDL 通過測試端（SUT）的 API 對 LoadGen 系統(tǒng)進行抽象，這樣用于本地測試的加速器的 MLPerf 推理 LoadGen 就變得可見。
在加速器節(jié)點，通過 QDL 與負責推理請求和響應的 LoadGen 直接交互。在 NVIDIA 的 QDL 實現(xiàn)中，我們使用 InfiniBand IBV verbs 和以太網(wǎng) TCP Socket 實現(xiàn)了無縫數(shù)據(jù)通信和同步。

圖 2：QDL 內部的 InfiniBand 數(shù)據(jù)交換組件

圖 2 顯示了基于 InfiniBand 網(wǎng)絡技術的 QDL 中的數(shù)據(jù)交換組件。

圖 3：前端節(jié)點和加速器節(jié)點之間建立連接的示例

圖 3 顯示了如何使用該數(shù)據(jù)交換組件在兩個節(jié)點之間建立連接。

InfiniBand 網(wǎng)絡的隊列對（QPs）是節(jié)點之間的連接的基礎。NVIDIA 采用了無損可靠連接（RC）方式（和 TCP 類似）和傳輸模式，并利用 InfiniBand HDR 光纖網(wǎng)絡來維持高達 200 Gbits/sec 的吞吐量。

基準測試開始時，QDL 在初始化過程中會發(fā)現(xiàn)系統(tǒng)中的所有 InfiniBand 網(wǎng)卡，并根據(jù)存儲在 IBCfgs 中的配置信息，指定網(wǎng)卡作為測試的 IBDevice 實例。在這個測試過程中，用于 RDMA 傳輸?shù)膬却鎱^(qū)域被分配、固定和注冊為 RDMA 緩沖區(qū)，并與相應的的 Handle 一起保存在 IBResources 中。

利用 GPUDirect RDMA 技術，可以將加速器節(jié)點的 GPU 顯存作為 RDMA 緩沖區(qū)，并將 RDMA 緩沖區(qū)信息以及相應的保護密鑰通過以太網(wǎng)的 TCP Socket 發(fā)送給相對應的節(jié)點，這樣就為 QDL 創(chuàng)建 IBConnection 實例。

由于 QDL 支持 NUMA-Aware，可將最近的 NUMA 主機內存、CPU 和 GPU 映射到每張網(wǎng)卡，每個 NIC 都通過 IBConnection 與對端網(wǎng)卡 NIC 進行通信。

網(wǎng)絡評測部分推理流程

圖 4：使用 Direct GPU RDMA 從前端節(jié)點到加速器節(jié)點的推理請求流

圖 4 顯示了推理請求是如何從前端節(jié)點發(fā)送到加速器節(jié)點并在加速器節(jié)點上被處理的：

LoadGen 生成一個查詢（推理請求），其中包含輸入張量。
QDL 通過仲裁的方式將該查詢重定向到適當?shù)?IBConnection。
查詢樣本庫（QSL）可能已經被注冊在 RDMA 緩沖區(qū)內。如果沒有，則 QDL 將查詢復制到 RDMA 緩沖區(qū)。
QDL 啟動相應的 QP 的 RDMA 傳輸。
通過網(wǎng)絡交換機實現(xiàn) InfiniBand 網(wǎng)絡傳輸。
查詢到達對等方的 QP。
然后通過直接內存訪問技術將查詢傳輸?shù)侥康牡?RDMA 緩沖區(qū)。
加速器節(jié)點的 QDL 確認 RDMA 傳輸完成。
QDL 允許加速器節(jié)點能夠批處理查詢，QDL 標記一批查詢，發(fā)布到加速器節(jié)點的某個加速器上去執(zhí)行。
加速器節(jié)點的加速器使用 CUDA 和 TensorRT 執(zhí)行推理，在 RDMA 緩沖區(qū)中生成響應。

當在步驟 10 最終執(zhí)行推理后，會生成輸出張量，并將其置于 RDMA 緩沖區(qū)中。然后加速器節(jié)點開始以類似的方式但以相反的方向將響應張量傳輸?shù)角岸斯?jié)點。

性能優(yōu)化

NVIDIA 使用 InfiniBand RDMA_Write 的方式實現(xiàn)了最短的延遲。要成功地應用 RDMA_Write，發(fā)送方必須對于對端的內存緩沖區(qū)可見。

前端節(jié)點和加速器節(jié)點都需要管理緩沖區(qū)跟蹤器，以確保每個查詢和響應都保存在內存中，直到用完為止。例如，ResNet-50 要想達到理想的性能需要每個連接（QP）管理多達 8K 個交易。

NVIDIA 用到了以下一些關鍵優(yōu)化。

以下關鍵優(yōu)化支持更好的可擴展性：

每個 IBConnection（QP）的交易跟蹤器：每個 IBConnection 都有一個獨立的交易跟蹤器，從而實現(xiàn)無死鎖的、關聯(lián)內交易記賬。
每個網(wǎng)卡支持多個 QP：任意數(shù)量的 IBConnections 可以在任何網(wǎng)卡上實例化，從而可以輕松地自發(fā)支持大量交易。

以下關鍵優(yōu)化提高了 InfiniBand 網(wǎng)絡的資源效率：

使用 INLINE 的方式傳輸小消息：通過 INLINE 傳輸小消息（通常指小于 64 字節(jié)）可避免 PCIe 傳輸，從而顯著提高性能和效率。
使用 UNSIGNALLED RDMA Write：由于 UNSIGNALLED 的操作需要在 CQ 隊列中等待直到 SIGNALLED 操作發(fā)生，再觸發(fā)到目前為止在同一節(jié)點中排隊的所有事務的完成處理（批量完成），因此 CQ 維護變得更加高效。
使用 Solicited IB 傳輸：Unsolicited 的 RDMA 操作可以在遠端節(jié)點中排隊等待，直到 solicited RDMA 操作發(fā)生，再觸發(fā)遠端節(jié)點中的批量完成。
基于事件的 CQ 管理：避免 CPU 一直忙于等待 CQ，釋放 CPU 個周期。

以下關鍵優(yōu)化提高了內存系統(tǒng)的效率：

通過 RDMA 傳輸避免了前端節(jié)點內的內存拷貝：發(fā)送輸入張量時，通過直接將張量存在在 RDMA 注冊的內存中來避免主機內存拷貝。
在加速器節(jié)點中聚合 CUDA 的 memcpys：通過盡可能多地集中連續(xù)內存中的張量，提高 GPU 顯存拷貝和 PCIe 傳輸?shù)男省?/span>

每家的 QP 實現(xiàn)涵蓋了能支持的最大完成隊列條目數(shù)（CQE），以及支持的最大 QP 條目數(shù)。擴展每個網(wǎng)卡能支持的 QP 數(shù)量，對于降低延遲，同時保持足夠的實時交易量以實現(xiàn)最大吞吐量很重要。

如果 CQ 通過輪詢的方式在短時間內處理大量事務，會對主機 CPU 造成顯著的壓力，在這種情況下，采用基于事件的 CQ 管理，以及減少通知的數(shù)量會對此非常有幫助。通過盡可能多地聚集連續(xù)內存空間中的數(shù)據(jù)，如果可能，聚集在 RDMA 注冊的內存空間，可以最大限度地提高內存訪問效率。這對于實現(xiàn)最大性能至關重要。

總結

NVIDIA 平臺在其首次提交的網(wǎng)絡測試結果中表現(xiàn)出色，充分體現(xiàn)了 NVIDIA 在 MLPerf 推理：數(shù)據(jù)中心封閉部門評測項目中一貫的領先地位，這些結果歸功于許多 NVIDIA 平臺的強大功能實現(xiàn)：

NVIDIA A100 Tensor Core GPU
NVIDIA DGX A100
NVIDIA ConnectX-6 InfiniBand 網(wǎng)絡
NVIDIA TensorRT
GPUDirect RDMA

這個結果進一步證明了 NVIDIA AI 平臺在行業(yè)標準的、業(yè)界公認的真實數(shù)據(jù)中心部署中的高性能和多樣性。

掃描下方二維碼，查看更多有關NVIDIA InfiniBand 的信息。

更多精彩內容 跨越距離：NVIDIA 平臺解決邊緣的 HPC 問題
GreatSQL & NVIDIA InfiniBand NVMe SSD 存算分離池化方案：實現(xiàn)高性能分布式部署
NVIDIA Quantum InfiniBand 打造 AI 時代 GPU 計算的高性能存儲技術

原文標題：新的 MLPerf 推理網(wǎng)絡部分展現(xiàn) NVIDIA InfiniBand 網(wǎng)絡和 GPUDirect RDMA 的強大能力

文章出處：【微信公眾號：NVIDIA英偉達】歡迎添加關注！文章轉載請注明出處。

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

英偉達

英偉達

+關注

關注
23

文章
4044

瀏覽量
97709

原文標題：新的 MLPerf 推理網(wǎng)絡部分展現(xiàn) NVIDIA InfiniBand 網(wǎng)絡和 GPUDirect RDMA 的強大能力

文章出處：【微信號：NVIDIA_China，微信公眾號：NVIDIA英偉達】歡迎添加關注！文章轉載請注明出處。

chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛兴趣闲谈,欧美亚洲精品 8区,国产精品久久久久精品免费

搜索歷史

新的 MLPerf 推理網(wǎng)絡部分展現(xiàn) NVIDIA InfiniBand 網(wǎng)絡和 GPUDirect RDMA 的強大能力

評論