chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

剖析NVIDIA DPU如何在HPC 集群上加速科學(xué)計算應(yīng)用

GLeX_murata_eet ? 來源:NVIDIA英偉達(dá)中國 ? 作者:NVIDIA英偉達(dá)中國 ? 2021-08-02 15:23 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

高性能計算(HPC)和人工智能已經(jīng)將超級計算機(jī)推向了廣泛的商業(yè)應(yīng)用領(lǐng)域,成為其主要的數(shù)據(jù)處理引擎,助力于研究探索、科學(xué)發(fā)現(xiàn)和產(chǎn)品開發(fā)等。

這些系統(tǒng)可以進(jìn)行復(fù)雜的模擬,開啟通過軟件編寫軟件的人工智能新時代。

超級計算能力的領(lǐng)先意味著科學(xué)和創(chuàng)新能力的領(lǐng)先,這也是為什么許多政府、研究機(jī)構(gòu)和企業(yè)愿意投資構(gòu)建更快、更強(qiáng)大的超級計算平臺的原因。

追求超級計算系統(tǒng)最高的性能來達(dá)到最佳的效率,傳統(tǒng)意義上與現(xiàn)代云計算系統(tǒng)追求的安全、多租戶架構(gòu)完全不一樣。

云原生超級計算平臺首次提供了一個兩全其美的方案,將峰值性能、集群效率與當(dāng)代流行的基于零信任的安全隔離和多租戶等特征集于一體。

邁向這種新架構(gòu)的關(guān)鍵就是 NVIDIA 的 BlueField DPU(數(shù)據(jù)處理器)。DPU 是一個集數(shù)據(jù)中心于單芯片的平臺,為每個超級計算節(jié)點注入了兩種新功能:

基礎(chǔ)設(shè)施的控制平面處理器 – 保護(hù)用戶訪問的安全、加速存儲訪問、加速網(wǎng)絡(luò)通信和對于計算節(jié)點的全生命周期編排,卸載主計算處理器的基礎(chǔ)設(shè)施操作,實現(xiàn)裸機(jī)多租戶。

通過硬件加速的方式將數(shù)據(jù)通路隔離出來,保障線速 – 實現(xiàn)裸機(jī)性能。

HPC 和 AI 通信框架和庫對延遲和帶寬都很敏感,它們在應(yīng)用性能方面起著關(guān)鍵作用。將通信庫從主機(jī) CPUGPU 卸載到 BlueField DPU ,為通信和計算的并行處理實現(xiàn)了最大程度的重疊,它還減少了操作系統(tǒng)的抖動帶來的負(fù)面影響,顯著提高了應(yīng)用性能。

云原生超級計算機(jī)架構(gòu)的開發(fā)是基于開放社區(qū)而進(jìn)行的,包括了商業(yè)公司、學(xué)術(shù)組織和政府機(jī)構(gòu)等。這個不斷增長的社區(qū)對于開發(fā)下一代超級計算至關(guān)重要。

在本文中分享的一個例子是 MVAPICH2-DPU 通信庫,由 X-ScaleSolutions 公司設(shè)計和開發(fā)。MVAPICH2-DPU 庫實現(xiàn)了了對于標(biāo)準(zhǔn) MPI(消息傳遞接口)的無阻塞集合通信的卸載。

本文將介紹這種無阻塞集合通信卸載的基本原理,以及最終用戶如何使用 MVAPICH2-DPU MPI 庫來加速科學(xué)計算應(yīng)用的執(zhí)行,特別是針對于大規(guī)模的的無阻塞 all-to-all 通信。

BlueField DPU

關(guān)于 BlueField DPU 的架構(gòu)及其如何與主機(jī)計算平臺互連的介紹, DPU 上的 ConnectX-6 網(wǎng)卡可以提供 InfiniBand 網(wǎng)絡(luò)接口。此外,它還有一組 Arm 核, BlueField-2 DPU 包含一組 8 個 2.0 GHz 的 Arm 核, Arm 處理器集成了 16GB 的共享內(nèi)存。

MVAPICH2-DPU MPI 通信庫是 MVAPICH2 MPI 通信庫的分支,該通信庫專門為在 InfiniBand 網(wǎng)絡(luò)中充分發(fā)揮 BlueField DPU 的潛力而進(jìn)行了優(yōu)化。

最新的 MVAPICH2-DPU 2021 。 06 版本具有以下功能:

基于 MVAPICH2 2.3.6 版本,符合 MPI 3.1 標(biāo)準(zhǔn)

支持 MVAPICH2 2.3.6 版本 提供的所有功能

通過這個新框架可以將無阻塞集合通信(Nonblocking Collectives)卸載到 DPU

卸載無阻塞 Alltoall (MPI 的 Ialltoall)到 DPU

100%的計算與 MPI_Ialltoall 無阻塞集合通信的重疊使用 MPI Ialltoall 無阻塞集合通信加速科學(xué)計算應(yīng)用

OSU(俄亥俄州立大學(xué))做的

Micro-Benchmark 測試用例

OSU的MVAPICH2-DPU MPI 軟件包內(nèi)置了OSU MPI Micro-Benchmarks。OMB 基準(zhǔn)測試套件包含了無阻塞集合通信操作的基準(zhǔn)測試,這些基準(zhǔn)測試旨在評估無阻塞 MPI 集合通信和計算之間的重疊能力。

OMB 測試包中的無阻塞集合通信測試基準(zhǔn)可以用來評估以下指標(biāo):

重疊功能

采用無阻塞集合通信與計算步驟重疊運行時的總執(zhí)行時間

為此,我們在國際高性能計算和人工智能咨詢委員會(HPC-AI Advisory Council)的一臺 32 節(jié)點的集群上運行了完整 OMB 測試這臺集群采用了32 個HDR 200Gb/s InfiniBand BlueField DPU 互連在一起,每個主機(jī)節(jié)點有兩個 16 核、2.60 GHz 的 Intel Xeon E5-2697A V4 CPU ,每個 BluefFeld-2 DPU 有 8 個2.0 GHz 的 Arm 核和 16GB 內(nèi)存。

分別運行 512 個MPI 進(jìn)程( 32 個節(jié)點,每個節(jié)點運行 16 個進(jìn)程(PPN:Process Per Node )和 1024 個MPI 進(jìn)程(32 個節(jié)點,每個節(jié)點運行 32 個 PPN)的 MPI的 Ialltoall 無阻塞集合通信的測試結(jié)果。

隨著消息(Message)大小的增加, MVAPICH2- DPU 庫表現(xiàn)出了計算和 MPI Ialltoall 無阻塞集合通信之間的完全(100%)重疊。相比之下,沒有 DPU 來卸載的 MVAPICH2 默認(rèn)通信庫,僅僅可以在計算和 MPI Ialltoall 無阻塞集合通信之間發(fā)生很少的重疊。

當(dāng) MPI 應(yīng)用程序中的計算步驟與 MPI Ialltoall 無阻塞集合通信進(jìn)行重疊操作時, MVAPICH2-DPU MPI 庫在程序的總體執(zhí)行時間上體現(xiàn)出了顯著的性能優(yōu)勢。

其原因就是因為 在主機(jī)上的 Xeon CPU 核在計算時,DPU 中的 Arm 核可以同時在執(zhí)行無阻塞 MPI all-to-all 通信,實現(xiàn)了計算和通信的高度重疊。

與標(biāo)準(zhǔn)的 MVAPICH2 MPI 庫相比, MVAPICH2-DPU MPI 庫可以提供高達(dá) 23% 的性能優(yōu)勢。這個 OMB-MPI_Ialltoall 測試涵蓋了在 32 節(jié)點上不同消息大小和 不同 PPN 的場景。

加速 P3DFFT 應(yīng)用程序內(nèi)核

P3DFFT 是一種常見的 MPI 內(nèi)核,被用于許多使用快速傅立葉變換( FFT )的終端應(yīng)用。P3DFFT 的開發(fā)人員專門設(shè)計了一個 MPI 內(nèi)核版本來支持無阻塞 all-to-all 集合通信和計算步驟的最大化重疊操作。

我們在HPC-AI Advisory Council的 32 節(jié)點集群上對 P3DFFT MPI 內(nèi)核的增強(qiáng)版本通過MVAPICH2-DPU MPI 庫進(jìn)行了評估。從圖 4 可以看到 MVAPICH2-DPU MPI 庫將 P3DFFT 應(yīng)用內(nèi)核的總體執(zhí)行時間減少了 21% ,涵蓋了各種大小的網(wǎng)格和PPN 。

概括

NVIDIA DPU 架構(gòu)提供了新的功能,可以將各種中間件的功能卸載到 DPU 上的可編程 Arm 核上。為了能利用這些功能來加速科學(xué)應(yīng)用,必須重新設(shè)計 MPI 通信庫。

MVAPICH2-DPU MPI 庫是利用到 DPU 的這種功能的先行者之一。最初版本的可以卸載MPI_Ialltoall 無阻塞集合通信的MVAPICH2-DPU 通信庫,展示了計算和無阻塞 alltoall 集合通信的之間的 100% 重疊。在運行 1024 個MPI進(jìn)程時,它可以將 P3DFFT 應(yīng)用內(nèi)核的執(zhí)行時間縮短 21% 。

這項研究證明了使用 MVAPICH2-DPU MPI 通信庫的 DPU 架構(gòu)具有很強(qiáng)的 ROI 。

隨著 DPU 架構(gòu)的不斷進(jìn)步,越來越多的面向其它 MPI 操作的卸載功能將隨著新的版本逐漸發(fā)布,并為加速云原生超級計算系統(tǒng)上的科學(xué)應(yīng)用發(fā)揮重要作用。

編輯:jq

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • NVIDIA
    +關(guān)注

    關(guān)注

    14

    文章

    5309

    瀏覽量

    106351

原文標(biāo)題:NVIDIA DPU在HPC 集群上加速科學(xué)計算應(yīng)用

文章出處:【微信號:murata-eetrend,微信公眾號:murata-eetrend】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    NVIDIA驅(qū)動的現(xiàn)代超級計算機(jī)如何突破速度極限并推動科學(xué)發(fā)展

    ,研究人員用個人電腦構(gòu)建了強(qiáng)大的集群,甚至改造游戲顯卡,把它們用于科學(xué)研究。 當(dāng)今的高性能計算系統(tǒng)專為高速計算而設(shè)計,其中許多都采用了 NVIDIA
    的頭像 發(fā)表于 06-26 19:39 ?497次閱讀
    <b class='flag-5'>NVIDIA</b>驅(qū)動的現(xiàn)代超級<b class='flag-5'>計算</b>機(jī)如何突破速度極限并推動<b class='flag-5'>科學(xué)</b>發(fā)展

    高性能計算集群在AI領(lǐng)域的應(yīng)用前景

    隨著人工智能技術(shù)的飛速發(fā)展,高性能計算集群HPC)在AI領(lǐng)域的應(yīng)用前景日益受到關(guān)注。HPC提供的計算能力與AI的智能分析能力相結(jié)合,為解決
    的頭像 發(fā)表于 06-23 13:07 ?430次閱讀
    高性能<b class='flag-5'>計算</b><b class='flag-5'>集群</b>在AI領(lǐng)域的應(yīng)用前景

    第三屆NVIDIA DPU黑客松開啟報名

    第三屆 NVIDIA DPU 中國虛擬黑客松(Hackathon)將于 6 月 28 日 - 6 月 30 日正式開啟!作為備受廣大開發(fā)者期待的年度賽事,它將提供與 NVIDIA 加速
    的頭像 發(fā)表于 05-27 10:16 ?411次閱讀

    何在基于Arm Neoverse平臺的CPU構(gòu)建分布式Kubernetes集群

    在本文中,我們將以 X(原 Twitter)為例,演示如何在基于 Arm Neoverse 平臺的 CPU 構(gòu)建分布式 Kubernetes 集群,以根據(jù)推文實時監(jiān)控情緒變化。如此一來,你可以充分利用 Arm Neoverse
    的頭像 發(fā)表于 03-25 15:58 ?351次閱讀
    如<b class='flag-5'>何在</b>基于Arm Neoverse平臺的CPU<b class='flag-5'>上</b>構(gòu)建分布式Kubernetes<b class='flag-5'>集群</b>

    HPC計算的技術(shù)架構(gòu)

    HPC計算結(jié)合了HPC的強(qiáng)大計算能力和云計算的彈性、可擴(kuò)展性,為用戶提供了按需獲取高性能計算
    的頭像 發(fā)表于 02-05 14:51 ?387次閱讀

    利用NVIDIA DPF引領(lǐng)DPU加速計算的未來

    越來越多的企業(yè)開始采用加速計算,從而滿足生成式 AI、5G 電信和主權(quán)云的需求。NVIDIA 推出了 DOCA 平臺框架(DPF),該框架提供了基礎(chǔ)構(gòu)建模塊來釋放 NVIDIA Blu
    的頭像 發(fā)表于 01-24 09:29 ?702次閱讀
    利用<b class='flag-5'>NVIDIA</b> DPF引領(lǐng)<b class='flag-5'>DPU</b><b class='flag-5'>加速</b>云<b class='flag-5'>計算</b>的未來

    NVIDIA BlueField-3 DPU運行WEKA客戶端的實際優(yōu)勢

    WEKA是可擴(kuò)展軟件定義數(shù)據(jù)平臺的先驅(qū),NVIDIA 正在與其合作,將 WEKA 先進(jìn)的數(shù)據(jù)平臺解決方案與功能強(qiáng)大的NVIDIA BlueField DPU相結(jié)合。
    的頭像 發(fā)表于 01-07 09:43 ?663次閱讀
    在<b class='flag-5'>NVIDIA</b> BlueField-3 <b class='flag-5'>DPU</b><b class='flag-5'>上</b>運行WEKA客戶端的實際優(yōu)勢

    計算HPC軟件關(guān)鍵技術(shù)

    計算HPC軟件關(guān)鍵技術(shù)涉及系統(tǒng)架構(gòu)、處理器技術(shù)、操作系統(tǒng)、計算加速、網(wǎng)絡(luò)技術(shù)以及軟件優(yōu)化等多個方面。下面,AI部落小編帶您探討云計算
    的頭像 發(fā)表于 12-18 11:23 ?456次閱讀

    《CST Studio Suite 2024 GPU加速計算指南》

    的各個方面,包括硬件支持、操作系統(tǒng)支持、許可證、GPU計算的啟用、NVIDIA和AMD GPU的詳細(xì)信息以及相關(guān)的使用指南和故障排除等內(nèi)容。 1. 硬件支持 - NVIDIA GPU:詳細(xì)列出了支持
    發(fā)表于 12-16 14:25

    計算HPC的關(guān)系

    盡管云計算HPC在架構(gòu)、應(yīng)用場景和成本效益等方面存在顯著差異,但云計算HPC之間并非孤立存在,而是相互補(bǔ)充、協(xié)同發(fā)展的關(guān)系。下面,AI部落小編帶您探討云
    的頭像 發(fā)表于 12-14 10:35 ?450次閱讀

    NVIDIA發(fā)布cuPyNumeric加速計算

    加速計算庫幫助科研人員無縫地擴(kuò)展到強(qiáng)大的計算集群,并且無需修改 Python 代碼,推進(jìn)科學(xué)發(fā)現(xiàn)。
    的頭像 發(fā)表于 11-21 10:05 ?653次閱讀

    NVIDIA加速計算如何推動醫(yī)療健康

    近日,NVIDIA 企業(yè)平臺副總裁 Bob Pette 在 AI Summit 一場演講中重點談?wù)摿?NVIDIA 加速計算如何推動醫(yī)療健康、網(wǎng)絡(luò)安全和制造等行業(yè)實現(xiàn)轉(zhuǎn)型。他表示,
    的頭像 發(fā)表于 11-20 09:10 ?671次閱讀

    NVIDIA 以太網(wǎng)加速 xAI 構(gòu)建的全球最大 AI 超級計算機(jī)

    市的 Colossus 超級計算機(jī)集群達(dá)到了 10 萬顆 NVIDIA? Hopper? GPU 的巨大規(guī)模。該集群使用了 NVIDIA S
    發(fā)表于 10-30 09:33 ?357次閱讀
    <b class='flag-5'>NVIDIA</b> 以太網(wǎng)<b class='flag-5'>加速</b> xAI 構(gòu)建的全球最大 AI 超級<b class='flag-5'>計算</b>機(jī)

    科研計算HPC平臺是什么

    高性能計算平臺(HPC平臺)是一個利用由成千上萬個處理器核心組成的超級計算機(jī)或計算機(jī)集群來執(zhí)行復(fù)雜計算
    的頭像 發(fā)表于 10-21 10:43 ?504次閱讀

    借助NVIDIA超級計算機(jī)加速量子計算發(fā)展

    科學(xué)期刊《自然》(Nature)本月早些時候發(fā)表了一項研究,通過使用 NVIDIA 驅(qū)動的超級計算機(jī),驗證了量子計算的商業(yè)化途徑。
    的頭像 發(fā)表于 07-25 09:55 ?912次閱讀