cuBLAS 庫可提供基本線性代數(shù)子程序(BLAS)的 GPU 加速實(shí)現(xiàn)。cuBLAS 利用針對(duì) NVIDIA GPU 高度優(yōu)化的插入式行業(yè)標(biāo)準(zhǔn) BLAS API,加速 AI 和 HPC 應(yīng)用。cuBLAS 庫包含用于批量運(yùn)算、跨多個(gè) GPU 的執(zhí)行以及混合精度和低精度執(zhí)行的擴(kuò)展程序。通過使用 cuBLAS,應(yīng)用將能自動(dòng)從定期性能提升及新的 GPU 體系架構(gòu)中受益。cuBLAS 庫包含在 NVIDIA HPC SDK 和 CUDA 工具包中。
cuBLAS 多 GPU 擴(kuò)展
cuBLASMg 提供了先進(jìn)的多 GPU 矩陣間乘法,您可在多臺(tái)設(shè)備間以 2D 塊循環(huán)方式分發(fā)每個(gè)矩陣。cuBLASMg 目前已加入 CUDA 數(shù)學(xué)庫搶先體驗(yàn)計(jì)劃。
cuBLAS 性能
cuBLAS 庫針對(duì) NVIDIAGPU 上的性能進(jìn)行了高度優(yōu)化,并利用 Tensor Core 對(duì)低精度和混合精度矩陣乘法進(jìn)行加速。



cuBLAS 的主要特性
全面支持 152 個(gè)標(biāo)準(zhǔn) BLAS 例程
支持半精度和整數(shù)矩陣乘法
GEMM 和 GEMM 擴(kuò)展程序針對(duì) Volta 及 Turing Tensor Core 進(jìn)行了優(yōu)化
針對(duì)各種深度學(xué)習(xí)模型中使用的規(guī)模調(diào)整 GEMM 性能
支持用于并發(fā)操作的 CUDA 流
您將能夠使用最基本的 CUDA 工具和技術(shù),加速和優(yōu)化僅適用于 CPU 的 C/C++ 應(yīng)用程序。您將了解 CUDA 開發(fā)的迭代風(fēng)格,這將幫助您快速發(fā)布加速應(yīng)用程序。
加速計(jì)算基礎(chǔ)——CUDA Python
您將了解使用 CUDA 和 Numba 編譯器在大規(guī)模并行 GPU 上加速運(yùn)行 Python 應(yīng)用程序的基本工具和技能。
通過 CUDA C++ 在多個(gè) GPU 之間擴(kuò)展工作負(fù)載
您將學(xué)習(xí)如何在單個(gè)節(jié)點(diǎn)上使用多個(gè) GPU,構(gòu)建強(qiáng)大高效的 CUDA C++ 應(yīng)用程序。
通過并發(fā)流加速 CUDA C++ 應(yīng)用程序
您將在 CUDA C++ 應(yīng)用程序中,學(xué)習(xí)利用 CUDA Streams 進(jìn)行復(fù)制/計(jì)算重疊。
審核編輯:劉清
-
gpu
+關(guān)注
關(guān)注
28文章
5102瀏覽量
134480 -
矩陣
+關(guān)注
關(guān)注
1文章
441瀏覽量
35821 -
HPC
+關(guān)注
關(guān)注
0文章
342瀏覽量
24829
原文標(biāo)題:DevZone | NVIDIA cuBLAS庫
文章出處:【微信號(hào):NVIDIA-Enterprise,微信公眾號(hào):NVIDIA英偉達(dá)企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
利用NVIDIA Cosmos開放世界基礎(chǔ)模型加速物理AI開發(fā)
NVIDIA RTX PRO 2000 Blackwell GPU性能測(cè)試
Cadence 借助 NVIDIA DGX SuperPOD 模型擴(kuò)展數(shù)字孿生平臺(tái)庫,加速 AI 數(shù)據(jù)中心部署與運(yùn)營
NVIDIA RTX PRO 4500 Blackwell GPU測(cè)試分析
NVIDIA桌面GPU系列擴(kuò)展新產(chǎn)品
借助NVIDIA技術(shù)加速半導(dǎo)體芯片制造
使用NVIDIA RTX PRO Blackwell系列GPU加速AI開發(fā)
使用NVIDIA CUDA-X庫加速科學(xué)和工程發(fā)展
英偉達(dá)GTC2025亮點(diǎn):Oracle與NVIDIA合作助力企業(yè)加速代理式AI推理
Oracle 與 NVIDIA 合作助力企業(yè)加速代理式 AI 推理
利用NVIDIA DPF引領(lǐng)DPU加速云計(jì)算的未來
簡(jiǎn)述NVIDIA Isaac的重要更新

NVIDIA cuBLAS庫加速BLAS的GPU設(shè)計(jì)實(shí)現(xiàn)
評(píng)論