chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

如何用Python語法加速C+的數(shù)值計算

星星科技指導員 ? 來源:NVIDIA ? 作者:NVIDIA ? 2022-04-10 10:41 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

Rob Smallshire 曾經(jīng)說過,“你可以在 C ++中編寫更快的代碼,但是在 Python 中編寫代碼更快?!弊詮乃l(fā)布超過十年前, CUDA 已經(jīng)給 C 和 C ++程序員提供了在 Nvidia GPU 上最大化其代碼性能的能力。

最近, CuPy 和 PyTorch 等庫允許解釋語言的開發(fā)人員利用其他語言優(yōu)化的 CUDA 庫的速度。這些解釋語言有許多優(yōu)秀的特性,包括易于閱讀的語法、自動內(nèi)存管理和所有函數(shù)的通用類型。

然而,有時擁有這些功能意味著由于內(nèi)存管理和其他超出您控制范圍的因素而付出性能代價。為了節(jié)省開發(fā)時間,性能的降低通常是值得的。不過,當性能成為一個問題時,它最終可能需要重寫應用程序的某些部分。

如果你仍然可以使用 C ++來獲得最大的性能,同時仍然能從解釋語言中獲得所有好處呢?

MatX 概述

Matx 是一個實驗性的 GPU 加速的數(shù)值計算 C ++庫,旨在跨越用戶之間可能需要的最高性能之間的差距,在所有 CUDA 庫中使用相同的簡單語法和類型。使用 CUDA 11.0 中添加的 C ++ 17 支持, MatX 允許您編寫與 Python 這樣的高級語言相同的自然代數(shù)表達式,而不會帶來性能損失。

張量類型

MatX 包括許多流行數(shù)學庫的接口,如 cuBLAS 、 CUTLASS 、 cuFFT 和 CUB ,但在所有這些庫中使用一種通用數(shù)據(jù)類型(tensor_t)。這大大簡化了這些庫的 API ,方法是推斷出它知道的關(guān)于張量類型的信息,并在此基礎(chǔ)上調(diào)用正確的 API 。

下面的代碼示例顯示了一個基于 FFT 的重采樣器。

python

N = min(ns, ns_resamp)
nyq = N // 2 + 1 # Create an empty vector
sv = np.empty(ns) # Real to complex FFT
svc = np.fft.rfft(sv) # Slice
sv = svc[0:nyq] # Complex to real IFFT
rsv = np.fft.irfft(sv, ns_resamp)

馬特克斯

uint32_t N = std::min(ns, ns_resamp); uint32_t nyq = N / 2 + 1; auto sv = make_tensor({ns}); auto svc = make_tensor({ns / 2 + 1}); auto rv = make_tensor({ns_resamp}); // Real to complex FFT
fft(svc, sv, stream); // Slice the vector
auto sv = svc.Slice({0}, {nyq}); // Complex to real IFFT

ifft(rsv, sv, stream);雖然代碼長度和可讀性相似,但 A100 上的 MatX 版本比 CPU 上運行的 NumPy 版本快約 2100 倍。與直接使用 CUDA 庫相比, MatX 版本還有許多隱藏的好處,例如類型檢查、輸入和輸出大小檢查,以及在沒有指針操作的情況下切片張量。

不過,張量類型并不限于 FFT ,同樣的變量也可以在其他庫和表達式中使用。例如,如果您想在重采樣器輸出上使用 Cutslass 執(zhí)行 GEMM ,可以編寫以下代碼:

matmul(resampOut, resampView, B, stream);

在這段代碼中, resampOut 和 B 是 GEMM 操作的適當大小的張量。與前面的 FFT 示例一樣,類型、大小、批次和步幅都由張量元數(shù)據(jù)推斷。使用強類型的 C ++ API 也意味著許多運行時和編譯時錯誤可以在不進行附加調(diào)試的情況下捕獲。

除了支持優(yōu)化的 CUDA 庫作為后端,這些相同的張量類型還可以用于代數(shù)表達式中,以執(zhí)行元素操作:

(C = A * B + (D / 5.0) + cos(E)).run(stream);

惰性評估

MatX 使用惰性計算在編譯時創(chuàng)建一個 GPU 內(nèi)核,表示括號中的表達式。只有在表達式上調(diào)用 run 函數(shù)時,操作才會在 GPU 上執(zhí)行。支持 40 多種不同類型的運算符,可以在不同大小和類型的張量之間混合匹配,并具有兼容的參數(shù)。如果你看一下之前作為 CUDA 內(nèi)核編寫的表達式,它看起來像這樣:

__global__ void Expression( float *C, const float *A, const float *B, const float *D, const float *E, int length)
{ for (int idx = blockIdx.x * blockDim.x + threadIdx.x; idx < length; idx += blockDim.x * gridDim.x) { C[idx] = A[idx] * B[idx] + (D[idx] / 5.0) + cosf(E[idx]); }?

雖然前面的代碼并不復雜,但它隱藏了幾個問題:

數(shù)據(jù)類型硬編碼為浮動。要更改為其他類型,必須編輯內(nèi)核簽名。精明的讀者會說,使用模板,讓編譯器為您推斷類型。雖然這可能適用于某些類型,但并不適用于您可能想要使用的所有類型。例如, cosf 不是為半精度類型定義的,因此必須使用編譯時條件來處理不同的類型。

對函數(shù)簽名的任何微小更改都需要一個完全不同的函數(shù)。例如,如果您想在某些情況下添加張量 F ,但仍保留原始簽名,該怎么辦?這將是兩個幾乎相同的功能。

雖然 grid-stride loop 是一種很好的實踐,用于處理不同大小的塊和網(wǎng)格,但您仍然必須有代碼來確保在內(nèi)核啟動期間有足夠的線程使 GPU 保持忙碌。

假設所有輸入為 1D 向量;更高的維度可能會隨著不統(tǒng)一的步伐而斷裂。

還有許多其他缺陷沒有列出,包括無法廣播不同大小的張量、不檢查大小、需要連續(xù)內(nèi)存布局等等。

顯然,這段代碼只在特定條件下工作,而 MatX 版本解決了所有這些問題,而且通常保持與直接編寫內(nèi)核相同的性能。

附加 MatX 功能

MatX 的其他主要功能包括:

通過切片、克隆和置換現(xiàn)有張量創(chuàng)建零拷貝張量視圖。

支持任意維張量。

用于動態(tài)生成數(shù)據(jù)的生成器,無需存儲在內(nèi)存中。常見的例子是創(chuàng)建線性間隔向量、漢明窗或?qū)蔷仃嚒?/p>

支持 CUDA 中使用的幾乎所有類型,包括半精度( FP16 和 BF16 )和復數(shù)(全精度和半精度)。

線性解算器通過 cuSolver 、使用 CUB 進行排序和掃描、使用 cuRAND 生成隨機數(shù)、減少等功能實現(xiàn)

總結(jié)

MatX 是根據(jù) BSDv3 許可證開源的。

關(guān)于作者

Cliff Burdick 是 NVIDIA 的高級開發(fā)技術(shù)工程師,他專注于優(yōu)化信號處理、數(shù)值計算以及 GPU 和網(wǎng)絡 IO 的 GPU 代碼。

Justin Luitjens 是 NVIDIA 的高級開發(fā)技術(shù)經(jīng)理,致力于加速 GPU 上的應用程序。他擁有猶他大學的科學計算博士學位。

Adam Thompson 是 NVIDIA 的高級解決方案架構(gòu)師。他有信號處理方面的背景,他的職業(yè)生涯一直在參與和領(lǐng)導一些項目,這些項目專注于射頻分類、數(shù)據(jù)壓縮、高性能計算、統(tǒng)計信號處理以及管理和設計針對大數(shù)據(jù)框架的應用程序。他擁有喬治亞理工大學電子與計算機工程碩士學位和克萊姆森大學學士學位。

審核編輯:郭婷

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • NVIDIA
    +關(guān)注

    關(guān)注

    14

    文章

    5441

    瀏覽量

    108476
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    28

    文章

    5044

    瀏覽量

    133937
  • python
    +關(guān)注

    關(guān)注

    56

    文章

    4849

    瀏覽量

    89091
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    nuclei studio生成的c語言文件是不支持c語法嗎?

    nuclei studio 生成的c語言文件感覺不支持c語法,因為剛使用這個軟件,還請各位大佬幫忙看看
    發(fā)表于 10-20 11:02

    踏歌智行完成超2億元C+輪融資

    近日,踏歌智行完成C+輪融資,總交易金額超2億元。本輪融資的參與方包括信泰人壽保險旗下杭州盛世玉衡基金、云松投資旗下池州踏歌智行云創(chuàng)基金等。部分老股東也通過追加投資的方式參與了本輪融資。以盛世玉衡為
    的頭像 發(fā)表于 10-09 15:21 ?295次閱讀

    怎么導出python邊緣計算中的APP,想進行修改又找不到源碼?

    怎么導出python邊緣計算中的APP,想進行修改又找不到源碼
    發(fā)表于 08-06 07:33

    C++ 與 Python:樹莓派上哪種語言更優(yōu)?

    Python是樹莓派上的首選編程語言,我們的大部分教程都使用它。然而,C++在物聯(lián)網(wǎng)項目中同樣廣受歡迎且功能強大。那么,在樹莓派項目中選擇哪種語言更合適呢?Python因其簡潔性、豐富的庫和資源而被
    的頭像 發(fā)表于 07-24 15:32 ?500次閱讀
    <b class='flag-5'>C</b>++ 與 <b class='flag-5'>Python</b>:樹莓派上哪種語言更優(yōu)?

    零基礎(chǔ)入門:如何在樹莓派上編寫和運行Python程序?

    是一種非常有用的編程語言,其語法易于閱讀,允許程序員使用比匯編、C或Java等語言更少的代碼行。Python編程語言最初實際上是作為Linux的腳本語言而開發(fā)的。Py
    的頭像 發(fā)表于 03-25 09:27 ?1293次閱讀
    零基礎(chǔ)入門:如何在樹莓派上編寫和運行<b class='flag-5'>Python</b>程序?

    Python在嵌入式系統(tǒng)中的應用場景

    你想把你的職業(yè)生涯提升到一個新的水平?Python在嵌入式系統(tǒng)中正在成為一股不可缺少的新力量。盡管傳統(tǒng)上嵌入式開發(fā)更多地依賴于CC++語言,Python的優(yōu)勢在于其簡潔的
    的頭像 發(fā)表于 03-19 14:10 ?1020次閱讀

    創(chuàng)建了用于OpenVINO?推理的自定義C++和Python代碼,從C++代碼中獲得的結(jié)果與Python代碼不同是為什么?

    創(chuàng)建了用于OpenVINO?推理的自定義 C++ 和 Python* 代碼。 在兩個推理過程中使用相同的圖像和模型。 從 C++ 代碼中獲得的結(jié)果與 Python* 代碼不同。
    發(fā)表于 03-06 06:22

    GPU加速計算平臺的優(yōu)勢

    傳統(tǒng)的CPU雖然在日常計算任務中表現(xiàn)出色,但在面對大規(guī)模并行計算需求時,其性能往往捉襟見肘。而GPU加速計算平臺憑借其獨特的優(yōu)勢,吸引了行業(yè)內(nèi)人士的廣泛關(guān)注和應用。下面,AI部落小編為
    的頭像 發(fā)表于 02-23 16:16 ?628次閱讀

    《CST Studio Suite 2024 GPU加速計算指南》

    許可證模型的加速令牌或SIMULIA統(tǒng)一許可證模型的SimUnit令牌或積分授權(quán)。 4. GPU計算的啟用 - 交互式模擬:通過加速對話框啟用,打開求解器對話框,點擊“加速”按鈕,打
    發(fā)表于 12-16 14:25

    使用LIS2DW12TR加速度傳感器可以計算物體重力方向運動的距離嗎

    我先計算靜止狀態(tài)下的物體加速度,判斷加速度大于靜止的1.01倍時,開始計時間。通過實時加速度和初始加速度的差值更新速度,通過積分,
    發(fā)表于 12-12 16:21

    NVIDIA發(fā)布cuPyNumeric加速計算

    加速計算庫幫助科研人員無縫地擴展到強大的計算集群,并且無需修改 Python 代碼,推進科學發(fā)現(xiàn)。
    的頭像 發(fā)表于 11-21 10:05 ?796次閱讀

    NVIDIA加速計算如何推動醫(yī)療健康

    近日,NVIDIA 企業(yè)平臺副總裁 Bob Pette 在 AI Summit 一場演講中重點談論了 NVIDIA 加速計算如何推動醫(yī)療健康、網(wǎng)絡安全和制造等行業(yè)實現(xiàn)轉(zhuǎn)型。他表示,加速計算
    的頭像 發(fā)表于 11-20 09:10 ?846次閱讀

    對比Python與Java編程語言

    Python與Java都是目前非常流行的編程語言,它們各有其獨特的優(yōu)勢和適用場景。以下是對這兩種編程語言的對比: 一、語法和易用性 Python 語法簡潔,代碼更易讀,非常適合初學者。
    的頭像 發(fā)表于 11-15 09:31 ?1847次閱讀

    何用python控制usb2any?

    我想用python控制usb2any,在網(wǎng)上搜索后得到的關(guān)于usb2any的資料很少,是否有官方的usb2any函數(shù)庫?
    發(fā)表于 11-08 14:36

    GPU加速計算平臺是什么

    GPU加速計算平臺,簡而言之,是利用圖形處理器(GPU)的強大并行計算能力來加速科學計算、數(shù)據(jù)分析、機器學習等復雜
    的頭像 發(fā)表于 10-25 09:23 ?794次閱讀