chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線(xiàn)課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

新的 MLPerf 推理網(wǎng)絡(luò)部分展現(xiàn) NVIDIA InfiniBand 網(wǎng)絡(luò)和 GPUDirect RDMA 的強(qiáng)大能力

NVIDIA英偉達(dá) ? 來(lái)源:未知 ? 2023-07-19 19:10 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

34e8bcc8-2624-11ee-962d-dac502259ad0.png

在 MLPerf Inference v3.0中,NVIDIA 首次將網(wǎng)絡(luò)納入了 MLPerf 的評(píng)測(cè)項(xiàng)目,成為了 MLPerf 推理數(shù)據(jù)中心套件的一部分。網(wǎng)絡(luò)評(píng)測(cè)部分旨在模擬在真實(shí)的數(shù)據(jù)中心中,網(wǎng)絡(luò)軟、硬件對(duì)于端到端推理性能的影響。

在網(wǎng)絡(luò)評(píng)測(cè)中,有兩類(lèi)節(jié)點(diǎn):前端節(jié)點(diǎn)生成查詢(xún),這些查詢(xún)通過(guò)業(yè)界標(biāo)準(zhǔn)的網(wǎng)絡(luò)(如以太網(wǎng)或 InfiniBand 網(wǎng)絡(luò))發(fā)送到加速節(jié)點(diǎn),由加速器節(jié)點(diǎn)進(jìn)行處理和執(zhí)行推理。

352c6e1e-2624-11ee-962d-dac502259ad0.png

圖 1:?jiǎn)喂?jié)點(diǎn)封閉測(cè)試環(huán)境與多節(jié)點(diǎn)網(wǎng)絡(luò)測(cè)試環(huán)境

圖 1 顯示了在單個(gè)節(jié)點(diǎn)上運(yùn)行的封閉測(cè)試環(huán)境,以及在網(wǎng)絡(luò)測(cè)試環(huán)境中通過(guò)前端節(jié)點(diǎn)生成查詢(xún),然后傳輸?shù)郊铀倨鞴?jié)點(diǎn)上進(jìn)行推理的工作流程。

在網(wǎng)絡(luò)測(cè)試場(chǎng)景中,加速器節(jié)點(diǎn)包含了推理加速器以及所有網(wǎng)絡(luò)組件,包括網(wǎng)卡(NIC)、網(wǎng)絡(luò)交換機(jī)和完整的網(wǎng)絡(luò)體系。因此,網(wǎng)絡(luò)評(píng)測(cè)旨在測(cè)試加速器節(jié)點(diǎn)和網(wǎng)絡(luò)的性能,因?yàn)榍岸斯?jié)點(diǎn)在基準(zhǔn)測(cè)試中的作用有限,可以排除它們對(duì)測(cè)試的影響。

MLPerf 推理 v3.0 網(wǎng)絡(luò)評(píng)測(cè)中的

NVIDIA 網(wǎng)絡(luò)性能表現(xiàn)

在 MLPerf 推理 v3.0 中,NVIDIA 提交了在 ResNet-50 和 BERT 兩種場(chǎng)景下的網(wǎng)絡(luò)性能結(jié)果,從 NVIDIA 提交的性能結(jié)果來(lái)看,憑借 NVIDIA ConnectX-6 InfiniBand 智能網(wǎng)卡和 GPUDirect RDMA 技術(shù)提供的超高網(wǎng)絡(luò)帶寬和極低延遲,ResNet-50 在網(wǎng)絡(luò)環(huán)境中達(dá)到了 100% 的單節(jié)點(diǎn)性能。

3552dad6-2624-11ee-962d-dac502259ad0.png

表 1:ResNet-50 和 BERT 上網(wǎng)絡(luò)評(píng)測(cè)性能和單機(jī)封閉測(cè)試性能的比較,有限帶寬實(shí)現(xiàn)了理想性能

NVIDIA 平臺(tái)在 BERT 工作負(fù)載方面也表現(xiàn)出了出色的性能,和單機(jī)封閉測(cè)試結(jié)果性能僅有輕微的差異,這主要是由于主機(jī)端的一些開(kāi)銷(xiāo)而導(dǎo)致。

在 NVIDIA 網(wǎng)絡(luò)評(píng)測(cè)中用到的關(guān)鍵技術(shù)

大量的全棧技術(shù)使 NVIDIA 網(wǎng)絡(luò)評(píng)測(cè)中的強(qiáng)大性能得以實(shí)現(xiàn):

  • NVIDIA TensorRT 優(yōu)化推理引擎。

  • InfiniBand RDMA 網(wǎng)絡(luò),為張量通信提供低延遲和高帶寬,基于 Mellanox OFED 軟件堆棧中的 IBV verbs 實(shí)現(xiàn)。

  • 通過(guò)以太網(wǎng) TCP Socket 進(jìn)行配置交換、運(yùn)行狀態(tài)同步和心跳監(jiān)控。

  • 利用 CPU、GPU 和 NIC 資源獲得最佳性能時(shí) NUMA-Aware。

網(wǎng)絡(luò)評(píng)測(cè)部分實(shí)施細(xì)節(jié)

以下是 MLPerf 推理中網(wǎng)絡(luò)評(píng)測(cè)部分的實(shí)現(xiàn)細(xì)節(jié):
  • 采用高吞吐量、低延遲的 InfiniBand 網(wǎng)絡(luò)進(jìn)行通信
  • 網(wǎng)絡(luò)評(píng)測(cè)部分推理流程
  • 性能優(yōu)化

通過(guò)高吞吐量、低延遲的

InfiniBand 網(wǎng)絡(luò)進(jìn)行通信

網(wǎng)絡(luò)評(píng)測(cè)過(guò)程要求提交者通過(guò)查詢(xún)調(diào)度庫(kù)(QDL)從負(fù)載生成器獲取查詢(xún),然后根據(jù)提交者設(shè)置的方式將查詢(xún)發(fā)送到加速器節(jié)點(diǎn)。

  • 在生成輸入張量序列的前端節(jié)點(diǎn),QDL 通過(guò)測(cè)試端(SUT)的 API 對(duì) LoadGen 系統(tǒng)進(jìn)行抽象,這樣用于本地測(cè)試的加速器的 MLPerf 推理 LoadGen 就變得可見(jiàn)。

  • 在加速器節(jié)點(diǎn),通過(guò) QDL 與負(fù)責(zé)推理請(qǐng)求和響應(yīng)的 LoadGen 直接交互。在 NVIDIA 的 QDL 實(shí)現(xiàn)中,我們使用 InfiniBand IBV verbs 和以太網(wǎng) TCP Socket 實(shí)現(xiàn)了無(wú)縫數(shù)據(jù)通信和同步。

3572b810-2624-11ee-962d-dac502259ad0.png

圖 2:QDL 內(nèi)部的 InfiniBand 數(shù)據(jù)交換組件

圖 2 顯示了基于 InfiniBand 網(wǎng)絡(luò)技術(shù)的 QDL 中的數(shù)據(jù)交換組件。

359232e4-2624-11ee-962d-dac502259ad0.png

圖 3:前端節(jié)點(diǎn)和加速器節(jié)點(diǎn)之間建立連接的示例

圖 3 顯示了如何使用該數(shù)據(jù)交換組件在兩個(gè)節(jié)點(diǎn)之間建立連接。

InfiniBand 網(wǎng)絡(luò)的隊(duì)列對(duì)(QPs)是節(jié)點(diǎn)之間的連接的基礎(chǔ)。NVIDIA 采用了無(wú)損可靠連接(RC)方式(和 TCP 類(lèi)似)和傳輸模式,并利用 InfiniBand HDR 光纖網(wǎng)絡(luò)來(lái)維持高達(dá) 200 Gbits/sec 的吞吐量。

基準(zhǔn)測(cè)試開(kāi)始時(shí),QDL 在初始化過(guò)程中會(huì)發(fā)現(xiàn)系統(tǒng)中的所有 InfiniBand 網(wǎng)卡,并根據(jù)存儲(chǔ)在 IBCfgs 中的配置信息,指定網(wǎng)卡作為測(cè)試的 IBDevice 實(shí)例。在這個(gè)測(cè)試過(guò)程中,用于 RDMA 傳輸?shù)膬?nèi)存區(qū)域被分配、固定和注冊(cè)為 RDMA 緩沖區(qū),并與相應(yīng)的的 Handle 一起保存在 IBResources 中。

利用 GPUDirect RDMA 技術(shù),可以將加速器節(jié)點(diǎn)的 GPU 顯存作為 RDMA 緩沖區(qū),并將 RDMA 緩沖區(qū)信息以及相應(yīng)的保護(hù)密鑰通過(guò)以太網(wǎng)的 TCP Socket 發(fā)送給相對(duì)應(yīng)的節(jié)點(diǎn),這樣就為 QDL 創(chuàng)建 IBConnection 實(shí)例。

由于 QDL 支持 NUMA-Aware,可將最近的 NUMA 主機(jī)內(nèi)存、CPU 和 GPU 映射到每張網(wǎng)卡,每個(gè) NIC 都通過(guò) IBConnection 與對(duì)端網(wǎng)卡 NIC 進(jìn)行通信。

網(wǎng)絡(luò)評(píng)測(cè)部分推理流程

35b5c6b4-2624-11ee-962d-dac502259ad0.png

圖 4:使用 Direct GPU RDMA 從前端節(jié)點(diǎn)到加速器節(jié)點(diǎn)的推理請(qǐng)求流

圖 4 顯示了推理請(qǐng)求是如何從前端節(jié)點(diǎn)發(fā)送到加速器節(jié)點(diǎn)并在加速器節(jié)點(diǎn)上被處理的:

  1. LoadGen 生成一個(gè)查詢(xún)(推理請(qǐng)求),其中包含輸入張量。

  2. QDL 通過(guò)仲裁的方式將該查詢(xún)重定向到適當(dāng)?shù)?IBConnection。

  3. 查詢(xún)樣本庫(kù)(QSL)可能已經(jīng)被注冊(cè)在 RDMA 緩沖區(qū)內(nèi)。如果沒(méi)有,則 QDL 將查詢(xún)復(fù)制到 RDMA 緩沖區(qū)。

  4. QDL 啟動(dòng)相應(yīng)的 QP 的 RDMA 傳輸。

  5. 通過(guò)網(wǎng)絡(luò)交換機(jī)實(shí)現(xiàn) InfiniBand 網(wǎng)絡(luò)傳輸。

  6. 查詢(xún)到達(dá)對(duì)等方的 QP。

  7. 然后通過(guò)直接內(nèi)存訪(fǎng)問(wèn)技術(shù)將查詢(xún)傳輸?shù)侥康牡?RDMA 緩沖區(qū)。

  8. 加速器節(jié)點(diǎn)的 QDL 確認(rèn) RDMA 傳輸完成。

  9. QDL 允許加速器節(jié)點(diǎn)能夠批處理查詢(xún),QDL 標(biāo)記一批查詢(xún),發(fā)布到加速器節(jié)點(diǎn)的某個(gè)加速器上去執(zhí)行。

  10. 加速器節(jié)點(diǎn)的加速器使用 CUDA 和 TensorRT 執(zhí)行推理,在 RDMA 緩沖區(qū)中生成響應(yīng)。

當(dāng)在步驟 10 最終執(zhí)行推理后,會(huì)生成輸出張量,并將其置于 RDMA 緩沖區(qū)中。然后加速器節(jié)點(diǎn)開(kāi)始以類(lèi)似的方式但以相反的方向?qū)㈨憫?yīng)張量傳輸?shù)角岸斯?jié)點(diǎn)。

性能優(yōu)化

NVIDIA 使用 InfiniBand RDMA_Write 的方式實(shí)現(xiàn)了最短的延遲。要成功地應(yīng)用 RDMA_Write,發(fā)送方必須對(duì)于對(duì)端的內(nèi)存緩沖區(qū)可見(jiàn)。

前端節(jié)點(diǎn)和加速器節(jié)點(diǎn)都需要管理緩沖區(qū)跟蹤器,以確保每個(gè)查詢(xún)和響應(yīng)都保存在內(nèi)存中,直到用完為止。例如,ResNet-50 要想達(dá)到理想的性能需要每個(gè)連接(QP)管理多達(dá) 8K 個(gè)交易。

NVIDIA 用到了以下一些關(guān)鍵優(yōu)化。

以下關(guān)鍵優(yōu)化支持更好的可擴(kuò)展性:

  • 每個(gè) IBConnection(QP)的交易跟蹤器:每個(gè) IBConnection 都有一個(gè)獨(dú)立的交易跟蹤器,從而實(shí)現(xiàn)無(wú)死鎖的、關(guān)聯(lián)內(nèi)交易記賬。

  • 每個(gè)網(wǎng)卡支持多個(gè) QP:任意數(shù)量的 IBConnections 可以在任何網(wǎng)卡上實(shí)例化,從而可以輕松地自發(fā)支持大量交易。

以下關(guān)鍵優(yōu)化提高了 InfiniBand 網(wǎng)絡(luò)的資源效率:

  • 使用 INLINE 的方式傳輸小消息:通過(guò) INLINE 傳輸小消息(通常指小于 64 字節(jié))可避免 PCIe 傳輸,從而顯著提高性能和效率。

  • 使用 UNSIGNALLED RDMA Write:由于 UNSIGNALLED 的操作需要在 CQ 隊(duì)列中等待直到 SIGNALLED 操作發(fā)生,再觸發(fā)到目前為止在同一節(jié)點(diǎn)中排隊(duì)的所有事務(wù)的完成處理(批量完成),因此 CQ 維護(hù)變得更加高效。

  • 使用 Solicited IB 傳輸:Unsolicited 的 RDMA 操作可以在遠(yuǎn)端節(jié)點(diǎn)中排隊(duì)等待,直到 solicited RDMA 操作發(fā)生,再觸發(fā)遠(yuǎn)端節(jié)點(diǎn)中的批量完成。

  • 基于事件的 CQ 管理:避免 CPU 一直忙于等待 CQ,釋放 CPU 個(gè)周期。

以下關(guān)鍵優(yōu)化提高了內(nèi)存系統(tǒng)的效率:

  • 通過(guò) RDMA 傳輸避免了前端節(jié)點(diǎn)內(nèi)的內(nèi)存拷貝:發(fā)送輸入張量時(shí),通過(guò)直接將張量存在在 RDMA 注冊(cè)的內(nèi)存中來(lái)避免主機(jī)內(nèi)存拷貝。

  • 在加速器節(jié)點(diǎn)中聚合 CUDA 的 memcpys:通過(guò)盡可能多地集中連續(xù)內(nèi)存中的張量,提高 GPU 顯存拷貝和 PCIe 傳輸?shù)男省?/span>

每家的 QP 實(shí)現(xiàn)涵蓋了能支持的最大完成隊(duì)列條目數(shù)(CQE),以及支持的最大 QP 條目數(shù)。擴(kuò)展每個(gè)網(wǎng)卡能支持的 QP 數(shù)量,對(duì)于降低延遲,同時(shí)保持足夠的實(shí)時(shí)交易量以實(shí)現(xiàn)最大吞吐量很重要。

如果 CQ 通過(guò)輪詢(xún)的方式在短時(shí)間內(nèi)處理大量事務(wù),會(huì)對(duì)主機(jī) CPU 造成顯著的壓力,在這種情況下,采用基于事件的 CQ 管理,以及減少通知的數(shù)量會(huì)對(duì)此非常有幫助。通過(guò)盡可能多地聚集連續(xù)內(nèi)存空間中的數(shù)據(jù),如果可能,聚集在 RDMA 注冊(cè)的內(nèi)存空間,可以最大限度地提高內(nèi)存訪(fǎng)問(wèn)效率。這對(duì)于實(shí)現(xiàn)最大性能至關(guān)重要。

總結(jié)

NVIDIA 平臺(tái)在其首次提交的網(wǎng)絡(luò)測(cè)試結(jié)果中表現(xiàn)出色,充分體現(xiàn)了 NVIDIA 在 MLPerf 推理:數(shù)據(jù)中心封閉部門(mén)評(píng)測(cè)項(xiàng)目中一貫的領(lǐng)先地位,這些結(jié)果歸功于許多 NVIDIA 平臺(tái)的強(qiáng)大功能實(shí)現(xiàn):

  • NVIDIA A100 Tensor Core GPU

  • NVIDIA DGX A100

  • NVIDIA ConnectX-6 InfiniBand 網(wǎng)絡(luò)

  • NVIDIA TensorRT

  • GPUDirect RDMA

這個(gè)結(jié)果進(jìn)一步證明了 NVIDIA AI 平臺(tái)在行業(yè)標(biāo)準(zhǔn)的、業(yè)界公認(rèn)的真實(shí)數(shù)據(jù)中心部署中的高性能和多樣性。

掃描下方二維碼,查看更多有關(guān)NVIDIA InfiniBand 的信息。

35dcf9f0-2624-11ee-962d-dac502259ad0.png


35f2adc2-2624-11ee-962d-dac502259ad0.gif ?

更多精彩內(nèi)容 跨越距離:NVIDIA 平臺(tái)解決邊緣的 HPC 問(wèn)題
GreatSQL & NVIDIA InfiniBand NVMe SSD 存算分離池化方案:實(shí)現(xiàn)高性能分布式部署
NVIDIA Quantum InfiniBand 打造 AI 時(shí)代 GPU 計(jì)算的高性能存儲(chǔ)技術(shù)


原文標(biāo)題:新的 MLPerf 推理網(wǎng)絡(luò)部分展現(xiàn) NVIDIA InfiniBand 網(wǎng)絡(luò)和 GPUDirect RDMA 的強(qiáng)大能力

文章出處:【微信公眾號(hào):NVIDIA英偉達(dá)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 英偉達(dá)
    +關(guān)注

    關(guān)注

    22

    文章

    3952

    瀏覽量

    93762

原文標(biāo)題:新的 MLPerf 推理網(wǎng)絡(luò)部分展現(xiàn) NVIDIA InfiniBand 網(wǎng)絡(luò)和 GPUDirect RDMA 的強(qiáng)大能力

文章出處:【微信號(hào):NVIDIA_China,微信公眾號(hào):NVIDIA英偉達(dá)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    信而泰×DeepSeek:AI推理引擎驅(qū)動(dòng)網(wǎng)絡(luò)智能診斷邁向 “自愈”時(shí)代

    DeepSeek-R1:強(qiáng)大的AI推理引擎底座DeepSeek是由杭州深度求索人工智能基礎(chǔ)技術(shù)研究有限公司開(kāi)發(fā)的新一代AI大模型。其核心優(yōu)勢(shì)在于強(qiáng)大推理引擎
    發(fā)表于 07-16 15:29

    使用外部文件導(dǎo)入NVIDIA Air構(gòu)建網(wǎng)絡(luò)拓?fù)涞膬?yōu)勢(shì)

    NVIDIA Air 具有仿真從小型網(wǎng)絡(luò)到整個(gè)數(shù)據(jù)中心的任何網(wǎng)絡(luò)的獨(dú)特能力。在開(kāi)始配置、路由或管理之前,請(qǐng)先考慮拓?fù)洹?/div>
    的頭像 發(fā)表于 07-09 16:32 ?321次閱讀

    RDMA簡(jiǎn)介3之四種子協(xié)議對(duì)比

    RDMA協(xié)議共有四種子協(xié)議,分別為InfiniBand、iWARP、RoCE v1和RoCE v2協(xié)議。這四種協(xié)議使用統(tǒng)一的RDMA API,但在具體的網(wǎng)絡(luò)層級(jí)實(shí)現(xiàn)上有所不同,如圖1所
    發(fā)表于 06-04 16:05

    RDMA簡(jiǎn)介2之A技術(shù)優(yōu)勢(shì)分析

    隨著數(shù)據(jù)中心對(duì)于網(wǎng)絡(luò)帶寬和延遲的要求日益增長(zhǎng),傳統(tǒng)的TCP/IP網(wǎng)絡(luò)已無(wú)法滿(mǎn)足性能要求,RDMA網(wǎng)絡(luò)則憑借其高帶寬、低延時(shí)的特性脫穎而出。相較于傳統(tǒng)TCP/IP協(xié)議,
    發(fā)表于 06-04 11:35

    RDMA簡(jiǎn)介1之RDMA開(kāi)發(fā)必要性

    ,提供高通量、低延遲、遠(yuǎn)距離的零拷貝網(wǎng)絡(luò)數(shù)據(jù)傳輸?;谌诤弦蕴W(wǎng)的遠(yuǎn)程直接內(nèi)存訪(fǎng)問(wèn)(RoCE)提供了一種基于以太網(wǎng)的RDMA技術(shù)實(shí)現(xiàn)方法,相較于IB(InfiniBand)、互聯(lián)網(wǎng)廣域遠(yuǎn)程直接內(nèi)存訪(fǎng)問(wèn)
    發(fā)表于 06-03 14:38

    適用于數(shù)據(jù)中心和AI時(shí)代的800G網(wǎng)絡(luò)

    數(shù)據(jù)中心依賴(lài)數(shù)千甚至上萬(wàn)個(gè)GPU集群進(jìn)行高性能計(jì)算,對(duì)帶寬、延遲和數(shù)據(jù)交換效率提出極高要求。 AI云:以生成式AI為核心的云平臺(tái),為多租戶(hù)環(huán)境提供推理服務(wù)。這類(lèi)數(shù)據(jù)中心要求網(wǎng)絡(luò)具備高帶寬、穩(wěn)定性
    發(fā)表于 03-25 17:35

    如何實(shí)現(xiàn)開(kāi)源開(kāi)放生態(tài)下的RDMA網(wǎng)絡(luò)監(jiān)控?

    在當(dāng)今AI、大模型飛速發(fā)展的時(shí)代,RDMA(Remote Direct Memory Access,遠(yuǎn)程直接內(nèi)存訪(fǎng)問(wèn))網(wǎng)絡(luò)技術(shù)憑借其低延遲、高吞吐量的特性,在數(shù)據(jù)中心、高性能計(jì)算等領(lǐng)域得到了廣泛應(yīng)用
    的頭像 發(fā)表于 03-03 13:42 ?485次閱讀
    如何實(shí)現(xiàn)開(kāi)源開(kāi)放生態(tài)下的<b class='flag-5'>RDMA</b><b class='flag-5'>網(wǎng)絡(luò)</b>監(jiān)控?

    使用NVIDIA推理平臺(tái)提高AI推理性能

    NVIDIA推理平臺(tái)提高了 AI 推理性能,為零售、電信等行業(yè)節(jié)省了數(shù)百萬(wàn)美元。
    的頭像 發(fā)表于 02-08 09:59 ?718次閱讀
    使用<b class='flag-5'>NVIDIA</b><b class='flag-5'>推理</b>平臺(tái)提高AI<b class='flag-5'>推理</b>性能

    加速網(wǎng)絡(luò)性能:融合以太網(wǎng) RDMA (RoCE) 的影響

    直接內(nèi)存訪(fǎng)問(wèn) (RDMA) (RoCE)。這項(xiàng)突破性技術(shù)促進(jìn)了系統(tǒng)之間的直接數(shù)據(jù)傳輸,無(wú)需 CPU 干預(yù),從而顯著減少延遲并提高整體系統(tǒng)性能。[愛(ài)波]一家著名的 FPGA 設(shè)計(jì)公司處于這一進(jìn)步的最前沿,通過(guò)將 AMD 的 ERNIC IP(以太網(wǎng) RDMA
    的頭像 發(fā)表于 01-25 11:50 ?863次閱讀
    加速<b class='flag-5'>網(wǎng)絡(luò)</b>性能:融合以太網(wǎng) <b class='flag-5'>RDMA</b> (RoCE) 的影響

    RoCE與IB對(duì)比分析(一):協(xié)議棧層級(jí)篇

    在 AI 算力建設(shè)中, RDMA 技術(shù)是支持高吞吐、低延遲網(wǎng)絡(luò)通信的關(guān)鍵。目前,RDMA技術(shù)主要通過(guò)兩種方案實(shí)現(xiàn):Infiniband和RoCE(基于
    的頭像 發(fā)表于 11-15 13:58 ?2186次閱讀
    RoCE與IB對(duì)比分析(一):協(xié)議棧層級(jí)篇

    NVIDIA Colossus超級(jí)計(jì)算機(jī)集群突破10萬(wàn)顆Hopper GPU

    強(qiáng)大實(shí)力。 Colossus集群不僅規(guī)模龐大,更采用了NVIDIA Spectrum-X以太網(wǎng)網(wǎng)絡(luò)平臺(tái)。該平臺(tái)專(zhuān)為多租戶(hù)、超大規(guī)模的AI工廠(chǎng)打造,提供了卓越的RDMA(遠(yuǎn)程直接內(nèi)存訪(fǎng)
    的頭像 發(fā)表于 10-30 10:29 ?639次閱讀

    InfiniBand網(wǎng)絡(luò)內(nèi)計(jì)算的關(guān)鍵技術(shù)和應(yīng)用

    InfiniBand在高性能計(jì)算(HPC)和人工智能(AI)應(yīng)用中發(fā)揮著關(guān)鍵作用,體現(xiàn)在它提供了高速、低延遲的網(wǎng)絡(luò)通信能力,以支持大規(guī)模數(shù)據(jù)傳輸和復(fù)雜計(jì)算任務(wù)。而InfiniBand
    的頭像 發(fā)表于 10-23 11:33 ?943次閱讀

    端到端InfiniBand網(wǎng)絡(luò)解決LLM訓(xùn)練瓶頸

    的,這需要大量的計(jì)算資源和高速數(shù)據(jù)傳輸網(wǎng)絡(luò)。端到端InfiniBand(IB)網(wǎng)絡(luò)作為高性能計(jì)算和AI模型訓(xùn)練的理想選擇,發(fā)揮著重要作用。在本文中,我們將深入探討大型語(yǔ)言模型(LLM)訓(xùn)練的概念,并探索端到端
    的頭像 發(fā)表于 10-23 11:26 ?2164次閱讀
    端到端<b class='flag-5'>InfiniBand</b><b class='flag-5'>網(wǎng)絡(luò)</b>解決LLM訓(xùn)練瓶頸

    以太網(wǎng)RDMA RoCE的技術(shù)局限

    上期我們講到了RDMA的WHY,WHAT & HOW(AI網(wǎng)絡(luò)背景下RDMA的Why,What & How),這一期我們來(lái)談一談RDMA的不足。
    的頭像 發(fā)表于 10-22 10:02 ?1341次閱讀
    以太網(wǎng)<b class='flag-5'>RDMA</b> RoCE的技術(shù)局限

    IB Verbs和NVIDIA DOCA GPUNetIO性能測(cè)試

    NVIDIA DOCA GPUNetIO 是 NVIDIA DOCA SDK 中的一個(gè)庫(kù),專(zhuān)門(mén)為實(shí)時(shí)在線(xiàn) GPU 數(shù)據(jù)包處理而設(shè)計(jì)。它結(jié)合了 GPUDirect RDMA
    的頭像 發(fā)表于 08-23 17:03 ?1359次閱讀
    IB Verbs和<b class='flag-5'>NVIDIA</b> DOCA GPUNetIO性能測(cè)試