本文作者:
Ashraf EassaNVIDIA 加速計(jì)算部門高級(jí)產(chǎn)品營銷經(jīng)理
Chris PorterNVIDIA HPC & AI 高級(jí)技術(shù)營銷經(jīng)理
高性能計(jì)算(HPC)已經(jīng)成為必不可少的科學(xué)研究工具。
無論是研發(fā)出拯救生命的新藥,還是抵御氣候變化,或是精確模擬我們的世界,這些解決方案都需要強(qiáng)大的處理能力,而且這一需求正在快速增長,日益超出傳統(tǒng)計(jì)算方法能夠應(yīng)對(duì)的范疇。
因此,業(yè)界紛紛采用 NVIDIA 的 GPU 進(jìn)行加速計(jì)算。結(jié)合 AI,它能帶來數(shù)百萬倍的性能加速,推動(dòng)科學(xué)的進(jìn)步。如今,已有 2700 個(gè)應(yīng)用受益于 NVIDIA GPU 加速,而在日益增長的 300 萬開發(fā)者共同組成的社區(qū)支持下,這一數(shù)字仍在不斷攀升。
HPC 應(yīng)用性能提升
為將所有 HPC 應(yīng)用的速度提升數(shù)倍,我們需要在堆棧的每個(gè)層面進(jìn)行不斷的創(chuàng)新,包括芯片、系統(tǒng)以及應(yīng)用框架本身。
隨著架構(gòu)和 NVIDIA 軟件棧整體上的不斷進(jìn)步, NVIDIA 平臺(tái)的性能每年都會(huì)顯著提高。與六年前發(fā)布的 P100 相比, H100 Tensor Core GPU 的性能提高 26 倍,比摩爾定律快 3 倍以上。
NVIDIA 平臺(tái)的核心是一個(gè)功能豐富的高性能軟件堆棧。為了方便各種 HPC 應(yīng)用實(shí)現(xiàn) GPU 加速,該平臺(tái)加入了 NVIDIA HPC SDK。SDK 使開發(fā)者能夠使用標(biāo)準(zhǔn)語言、導(dǎo)語指令以及 CUDA 來編寫和移植 GPU 加速應(yīng)用,為開發(fā)者帶來了無與倫比的靈活性。
NVIDIA HPC SDK 的強(qiáng)大之處在于其龐大且高度優(yōu)化的 GPU 加速數(shù)學(xué)庫,使用戶能夠充分發(fā)揮 NVIDIA GPU 的性能潛力。為了實(shí)現(xiàn)最佳的多 GPU 和多節(jié)點(diǎn)擴(kuò)展性能, NVIDIA HPC SDK 還提供強(qiáng)大的通信庫:
NVSHMEM 為跨多個(gè) GPU 內(nèi)存的數(shù)據(jù)創(chuàng)建了一個(gè)全局地址空間。
NVIDIA 集合通信庫(NCCL)優(yōu)化了 GPU 之間的通信。
總之,該平臺(tái)提供最高的性能和靈活性,為龐大的、不斷增長的 GPU 加速 HPC 應(yīng)用提供支持。
HPC 的性能和能效
為了展示 NVIDIA 全棧創(chuàng)新如何助力加速 HPC 實(shí)現(xiàn)最高性能, 我們將一臺(tái)配備 4 顆 NVIDIA GPU 的慧與(HPE)服務(wù)器與一臺(tái)配備另一家廠商同等數(shù)量加速器模塊且配置相似的服務(wù)器進(jìn)行了性能比較。
我們使用多種算例測試了廣泛使用的五個(gè) HPC 應(yīng)用。盡管在各個(gè)行業(yè)中有約 2700 個(gè)應(yīng)用基于 NVIDIA 平臺(tái)實(shí)現(xiàn)了加速,但由于另一家廠商的加速器只支持部分軟件和應(yīng)用版本,我們?cè)诖舜伪容^中所能使用的應(yīng)用有限。
對(duì)于除 NAMD (用于分子動(dòng)力學(xué)模擬的軟件)以外的所有應(yīng)用,我們首先獲得多個(gè)算例的結(jié)果,然后使用它們的幾何平均值作為計(jì)算結(jié)果,這樣可以將異常值的影響最小化并反映客戶的體驗(yàn)。
我們還在多 GPU 和單 GPU 場景下測試了這些應(yīng)用。
在多 GPU 場景中,測試系統(tǒng)中的所有加速器都被用來運(yùn)行一個(gè)模擬,基于 A100 Tensor Core GPU 的服務(wù)器所提供的性能比起另一臺(tái)服務(wù)器高出 2.1 倍。
得益于計(jì)算性能的持續(xù)進(jìn)步,分子動(dòng)力學(xué)領(lǐng)域正朝著模擬更大的原子體系和更長的時(shí)間的方向發(fā)展。這使研究者能夠模擬越來越多的生物化學(xué)機(jī)制,例如光合電子傳遞和視覺信號(hào)轉(zhuǎn)導(dǎo)。對(duì)于此類過程,由于模擬這一主要驗(yàn)證方式耗時(shí)過長,之前無法通過模擬來對(duì)其進(jìn)行驗(yàn)證,導(dǎo)致這類過程也一直引發(fā)科學(xué)界的爭論。
但我們認(rèn)識(shí)到,并非所有用戶都會(huì)在每次模擬時(shí)使用多個(gè) GPU 運(yùn)行。為了獲得最佳吞吐量,最好的方法往往是為每次模擬分配一個(gè) GPU。
當(dāng)在單一加速器模塊( NVIDIA A100 上一個(gè)的完整 GPU 和另一款產(chǎn)品上的兩個(gè)計(jì)算芯片)上運(yùn)行這些應(yīng)用時(shí),基于 NVIDIA A100 的系統(tǒng)提供了高達(dá) 1.9 倍的性能。
電力成本占據(jù)了數(shù)據(jù)中心和超級(jí)計(jì)算中心總擁有成本(TCO)中的很大一部分,這突出了高能效計(jì)算平臺(tái)的重要性。根據(jù)我們的測試, NVIDIA 平臺(tái)的每瓦吞吐量比其他產(chǎn)品高 2.8 倍。
多年來, 我們?yōu)榱俗畲笙薅鹊靥岣邞?yīng)用性能和效率而堅(jiān)持不懈地進(jìn)行軟硬件協(xié)同優(yōu)化,最終打造出具有卓越性能和能效的 NVIDIA A100 GPU。欲進(jìn)一步了解 NVIDIA Ampere 架構(gòu),請(qǐng)參見 NVIDIA A100 Tensor Core GPU 白皮書。
A100 在操作系統(tǒng)中也表現(xiàn)為一個(gè)單一的處理器,只需要啟動(dòng)一個(gè) MPI 線程就可以充分發(fā)揮它的性能。而且由于一個(gè)節(jié)點(diǎn)中所有 GPU 之間都采用 600-GB/s NVLink 互聯(lián),因此 A100 可以提供出色的擴(kuò)展性能。
AI 與 HPC 的融合
正如加速計(jì)算將模擬和仿真應(yīng)用的速度提高了數(shù)倍, AI 和 HPC 的結(jié)合也將進(jìn)一步提升性能,推動(dòng)下一波科學(xué)研究的發(fā)展。
從我們首次提交 MLPerf 訓(xùn)練結(jié)果到最近一次提交,已有三年的時(shí)間。在這三年里, NVIDIA 平臺(tái)在這套由同行評(píng)審的行業(yè)標(biāo)準(zhǔn)基準(zhǔn)測試中將深度學(xué)習(xí)性能提高了 20 倍。這些成果來自于芯片、軟件和規(guī)模上的全面提高。
科學(xué)家和研究者已在使用 AI 大幅提升性能,加快科學(xué)研究的速度。
使識(shí)別引力波所需的時(shí)間減少為原來 10 萬分之一。
對(duì)呼吸道飛沫中的 Delta SARS-CoV-2 病毒(原子數(shù)超過 10 億)進(jìn)行模擬的速度提高 1000 倍。
加速清潔聚變能源的發(fā)展。
為余熱鍋爐(HRSG)工廠創(chuàng)建預(yù)測性數(shù)字孿生。
世界各地的超級(jí)計(jì)算中心都在持續(xù)使用加速 AI 超級(jí)計(jì)算機(jī)。
阿貢領(lǐng)導(dǎo)力計(jì)算設(shè)施(ALCF)的 Polaris 超級(jí)計(jì)算機(jī)、美國國家能源研究科學(xué)計(jì)算中心(NERSC)的 Perlmutter、意大利多所大學(xué)組建的 CINECA 聯(lián)盟建設(shè)的 Leonardo,均采用 A100 Tensor Core GPU 加速。
即將在 2023 年上線的 Alps 超級(jí)計(jì)算機(jī)基于 NVIDIA 的 Grace Hopper 超級(jí)芯片打造而成。
計(jì)劃于 2023 年交付的洛斯阿拉莫斯國家實(shí)驗(yàn)室的 Venado 系統(tǒng),將包含 Grace Hopper 超級(jí)芯片以及 Grace CPU 超級(jí)芯片節(jié)點(diǎn)。
原文標(biāo)題:NVIDIA 通過全棧創(chuàng)新推動(dòng)高性能計(jì)算的發(fā)展
文章出處:【微信公眾號(hào):NVIDIA英偉達(dá)企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
-
NVIDIA
+關(guān)注
關(guān)注
14文章
5309瀏覽量
106402 -
HPC
+關(guān)注
關(guān)注
0文章
333瀏覽量
24331 -
高性能計(jì)算
+關(guān)注
關(guān)注
0文章
91瀏覽量
13657
原文標(biāo)題:NVIDIA 通過全棧創(chuàng)新推動(dòng)高性能計(jì)算的發(fā)展
文章出處:【微信號(hào):NVIDIA-Enterprise,微信公眾號(hào):NVIDIA英偉達(dá)企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
NVIDIA Blackwell GPU優(yōu)化DeepSeek-R1性能 打破DeepSeek-R1在最小延遲場景中的性能紀(jì)錄

NVIDIA虛擬GPU 18.0版本的亮點(diǎn)
使用NVIDIA RTX PRO Blackwell系列GPU加速AI開發(fā)
使用NVIDIA CUDA-X庫加速科學(xué)和工程發(fā)展
英偉達(dá)GTC2025亮點(diǎn):NVIDIA Blackwell加速計(jì)算機(jī)輔助工程軟件,實(shí)現(xiàn)實(shí)時(shí)數(shù)字孿生性能數(shù)量級(jí)提升
超級(jí)計(jì)算與 HPC 之間的界限日趨模糊

GPU加速計(jì)算平臺(tái)的優(yōu)勢(shì)
利用NVIDIA DPF引領(lǐng)DPU加速云計(jì)算的未來

借助NVIDIA GPU提升魯班系統(tǒng)CAE軟件計(jì)算效率
《CST Studio Suite 2024 GPU加速計(jì)算指南》
《算力芯片 高性能 CPUGPUNPU 微架構(gòu)分析》第3篇閱讀心得:GPU革命:從圖形引擎到AI加速器的蛻變
使用Arthas火焰圖工具的Java應(yīng)用性能分析和優(yōu)化經(jīng)驗(yàn)

AMD與NVIDIA GPU優(yōu)缺點(diǎn)
NVIDIA CorrDiff生成式AI模型能夠精準(zhǔn)預(yù)測臺(tái)風(fēng)
利用NVIDIA RAPIDS加速DolphinDB Shark平臺(tái)提升計(jì)算性能

評(píng)論