chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

NVIDIA CUDA Tile的創(chuàng)新之處、工作原理以及使用方法

NVIDIA英偉達(dá)企業(yè)解決方案 ? 來源:NVIDIA英偉達(dá)企業(yè)解決方案 ? 2025-12-24 10:17 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

NVIDIA CUDA 13.1 推出 NVIDIA CUDA Tile,這是自 2006 年 NVIDIA CUDA 平臺(tái)發(fā)明以來,最大的一次技術(shù)進(jìn)步。這一令人振奮的創(chuàng)新引入了一套面向 Tile-based 并行編程的虛擬指令集,使開發(fā)者能夠在更高層級(jí)編寫算法,而無需關(guān)心底層專用硬件(如 Tensor Cores)的復(fù)雜細(xì)節(jié)。

本文將介紹 CUDA Tile 的創(chuàng)新之處、工作原理以及使用方法。

為什么在 GPU 上需要 Tile 編程?

CUDA 為開發(fā)者提供了一種單指令多線程(SIMT)的硬件與編程模型。這既要求也允許開發(fā)者對(duì)代碼執(zhí)行方式進(jìn)行非常細(xì)致的控制,從而實(shí)現(xiàn)最大化的靈活性。然而,要讓代碼在各種不同的 GPU 架構(gòu)上都表現(xiàn)良好,往往需要投入大量的調(diào)優(yōu)工作。

NVIDIA CUDA-X、NVIDIA CUTLASS 等庫(kù)為開發(fā)者提供了性能優(yōu)化工具,而 CUDA Tile 則進(jìn)一步提供了一種比傳統(tǒng) SIMT 更高層次的 GPU 編程方式。

隨著計(jì)算任務(wù)的發(fā)展,尤其是 AI 領(lǐng)域中,Tensors 已經(jīng)成為基礎(chǔ)的數(shù)據(jù)類型。NVIDIA 也開發(fā)了面向 Tensors 運(yùn)算的專用硬件,例如 NVIDIA Tensor Cores(TC)和 NVIDIA Tensor Memory Accelerators(TMA),并已成為所有新 GPU 架構(gòu)的核心組件。

但硬件越復(fù)雜,軟件就越需要承擔(dān)抽象與封裝的職責(zé)。CUDA Tile 對(duì) Tensor Cores 及其編程模式進(jìn)行了抽象,讓使用 CUDA Tile 的代碼天然兼容當(dāng)前與未來的 Tensor Core 架構(gòu)。

Tile-based 編程的方式是:你只需指定一塊塊數(shù)據(jù),即Tiles,以及這些 Tiles 上要執(zhí)行的運(yùn)算即可。你不再需要在元素級(jí)別指定算法的執(zhí)行方式,編譯器和運(yùn)行時(shí)(runtime )會(huì)自動(dòng)處理。

圖 1 展示了 CUDA Tile 引入的 Tile 模型,與傳統(tǒng) CUDA SIMT 模型之間的概念性差異。

wKgZPGlLTbSABJvfAAJ2j08fvN4638.png

圖 1. Tile 模型(左)將數(shù)據(jù)劃分為 Blocks,而編譯器將其映射到 Threads。SIMT 模型(右)則將數(shù)據(jù)映射到 Blocks 和 Threads

這種編程模式在 Python 這樣的語言中很常見,用戶可以通過 NumPy 這樣的庫(kù)指定矩陣等數(shù)據(jù)類型,然后用簡(jiǎn)單的代碼指定并執(zhí)行批量操作。在底層,一切都會(huì)按正確的方式運(yùn)行,而你的計(jì)算對(duì)你來說始終完全透明。

CUDA Tile IR:Tile 編程的基礎(chǔ)

CUDA Tile 的基礎(chǔ)是 CUDA Tile IR(中間表示)。CUDA Tile IR 引入了一套虛擬指令集,使得以 Tile Operations 的方式對(duì)硬件進(jìn)行原生編程成為可能。開發(fā)者可以編寫更高層級(jí)的代碼,并且在多代 GPU 上僅需做極少的改動(dòng)即可高效執(zhí)行。

雖然 NVIDIA Parallel Thread Execution(PTX)為 SIMT 程序提供了可移植性,但 CUDA Tile IR 為 CUDA 平臺(tái)擴(kuò)展了對(duì) Tile-based 程序的原生支持。開發(fā)者專注于將他們的數(shù)據(jù)并行程序劃分為 Tiles 和 Tile Blocks,并讓 CUDA Tile IR 來處理將其映射到諸如 Threads、內(nèi)存層次結(jié)構(gòu)以及 Tensor Cores 等硬件資源上。

通過提升抽象層級(jí),CUDA Tile IR 使用戶能夠?yàn)?NVIDIA 硬件構(gòu)建更高層次的、面向硬件的編譯器、框架以及領(lǐng)域?qū)S谜Z言(DSLs)。用于 Tile 編程的 CUDA Tile IR 類似于用于 SIMT 編程的 PTX。

需要指出的一點(diǎn)是,這并不是一個(gè)非此即彼的選擇。GPU 上的 Tile 編程是編寫 GPU 代碼的另一種方法,但你不必在 SIMT 和 Tile 編程之間做選擇,它們是共存的。當(dāng)你需要 SIMT 時(shí),你依舊像以往一樣編寫你的 Kernels。當(dāng)你希望使用 Tensor Cores 來執(zhí)行運(yùn)算時(shí),你就編寫 Tile Kernels。

圖 2 展示了一個(gè)關(guān)于 CUDA Tile 如何嵌入典型軟件棧的高層示意圖,以及 Tile 路徑如何作為一條獨(dú)立但互補(bǔ)于現(xiàn)有 SIMT 路徑的編譯路徑。

wKgZPGlLTciABj3XAAH-85-AhJE894.png

圖 2. Tile 的編譯路徑嵌入完整的軟件棧之中,并與 SIMT 路徑并列存在

開發(fā)者應(yīng)如何使用 CUDA Tile 編寫 GPU 應(yīng)用?

CUDA Tile IR 位于與絕大多數(shù)程序員交互的 Tile 編程的下一層級(jí)。除非你正在編寫一個(gè)編譯器或庫(kù),否則你大概不需要關(guān)心 CUDA Tile IR 軟件的細(xì)節(jié)。

NVIDIA cuTile Python:大多數(shù)開發(fā)者將通過諸如 NVIDIA cuTile Python 這樣的軟件與 CUDA Tile 編程進(jìn)行交互——這是一種由 NVIDIA 提供的 Python 實(shí)現(xiàn),使用 CUDA Tile IR 作為后端。我們有一篇博客解釋了如何使用 cuTile-python,并附上了示例代碼和文檔的鏈接。

CUDA Tile IR:對(duì)于希望構(gòu)建自己 DSL 編譯器或庫(kù)的開發(fā)者而言,CUDA Tile IR 就是你與 CUDA Tile 交互的地方。CUDA Tile IR 文檔和規(guī)范包含關(guān)于 CUDA Tile IR 編程抽象、語法和語義的信息。如果你正在編寫一個(gè)當(dāng)前以 PTX 為目標(biāo)的工具/編譯器/庫(kù),那么你可以調(diào)整你的軟件以同時(shí)以 CUDA Tile IR 為目標(biāo)。

如何獲取 CUDA Tile 軟件

CUDA Tile 隨 CUDA 13.1 一同發(fā)布。開發(fā)者可以通過 CUDA Tile 頁(yè)面,獲取包括文檔鏈接、GitHub 庫(kù)以及示例代碼等信息。

關(guān)于作者

Jonathan Bentz 領(lǐng)導(dǎo) NVIDIA 的 CUDA 技術(shù)營(yíng)銷工程團(tuán)隊(duì),其團(tuán)隊(duì)專注于創(chuàng)建和提供引人入勝的內(nèi)容,并與 CUDA 開發(fā)者建立聯(lián)系。Jonathan 擁有愛荷華州立大學(xué)化學(xué)博士學(xué)位和計(jì)算機(jī)科學(xué)碩士學(xué)位。

Tony Scudiero 是 CUDA 平臺(tái)的技術(shù)營(yíng)銷工程師。他致力于將 CUDA 帶給各種類型和能力的開發(fā)者。在 NVIDIA 任職期間,他曾使用過大型 HPC 系統(tǒng)和應(yīng)用、實(shí)時(shí)聲學(xué)模擬 (VRWorks Audio) 和 Omniverse RTX 渲染器。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • NVIDIA
    +關(guān)注

    關(guān)注

    14

    文章

    5565

    瀏覽量

    109376
  • 硬件
    +關(guān)注

    關(guān)注

    11

    文章

    3573

    瀏覽量

    68902
  • 編程
    +關(guān)注

    關(guān)注

    90

    文章

    3710

    瀏覽量

    96983

原文標(biāo)題:專注于你的算法 – 讓 NVIDIA CUDA Tile 來處理硬件細(xì)節(jié)

文章出處:【微信號(hào):NVIDIA-Enterprise,微信公眾號(hào):NVIDIA英偉達(dá)企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    TTL電路分析、工作原理、使用方法

    今天給大家分享的是: TTL電路的分析 、TTL電路 工作原理 、TTL電路 使用方法
    發(fā)表于 05-18 09:06 ?7446次閱讀
    TTL電路分析、<b class='flag-5'>工作原理</b>、<b class='flag-5'>使用方法</b>

    IGBT模塊工作原理以及檢測(cè)方法

    IGBT模塊工作原理以及檢測(cè)方法,希望會(huì)對(duì)大家有所幫助
    發(fā)表于 08-09 18:30

    頻譜分析儀的工作原理使用方法

    頻譜分析儀的工作原理使用方法
    發(fā)表于 07-16 22:04

    NVIDIA Grid SERIES K2卡兼容CUDA

    你好我有一個(gè)裸機(jī)Windows 2002 RC 2 x64bit服務(wù)器,帶有物理NVIDIA Grid SERIES K2卡(不是vGPU vGRID)。這張卡與CUDA兼容嗎?我使用的軟件沒有將其
    發(fā)表于 09-10 17:18

    Grid K2 cuda下載位置是?

    我們有一個(gè)使用Grid K2機(jī)器的系統(tǒng)。我試圖在一個(gè)vm的側(cè)面設(shè)置cuda。當(dāng)我使用驅(qū)動(dòng)程序下載頁(yè)面時(shí),它指向NVIDIA-Linux-x86_64-367.57版本的驅(qū)動(dòng)程序似乎工作(它們安裝
    發(fā)表于 10-10 17:02

    CUDA編程教程

    Nvidia CUDA 2.0編程教程
    發(fā)表于 03-05 07:30

    NVIDIA CUDA 計(jì)算統(tǒng)一設(shè)備架構(gòu)

    NVIDIA CUDA參考文件
    發(fā)表于 03-05 08:00

    數(shù)碼管的工作原理使用方法

    的易用性與易學(xué)性,特別是當(dāng)自己第一次動(dòng)手編程點(diǎn)亮一個(gè)發(fā)光管時(shí),相信對(duì)于初學(xué)者來說,一定很興奮,很有成就感吧!現(xiàn)在我們就趁熱打鐵,再向上跨一步,一起來學(xué)習(xí)一下數(shù)碼管的工作原理使用方法,這一期實(shí)驗(yàn)將會(huì)...
    發(fā)表于 11-24 06:32

    SRAM的工作原理及其使用方法了解

    一、實(shí)驗(yàn)?zāi)康模?.了解半導(dǎo)體靜態(tài)隨機(jī)讀寫存儲(chǔ)器SRAM的工作原理及其使用方法2.掌握半導(dǎo)體存儲(chǔ)器的字、位擴(kuò)展技術(shù)3.用proteus設(shè)計(jì)、仿真基于AT89C51單片機(jī)的RAM擴(kuò)展實(shí)驗(yàn)二、實(shí)驗(yàn)內(nèi)容
    發(fā)表于 12-08 06:14

    lcr數(shù)字電橋工作原理使用方法_lcr數(shù)字電橋作用介紹

    本文開始介紹了數(shù)字電橋的概念和LCR數(shù)字電橋的結(jié)構(gòu),其次介紹了lcr數(shù)字電橋工作原理和LCR數(shù)字電橋的使用方法,最后介紹了LCR數(shù)字電橋作用以及應(yīng)用對(duì)象。
    的頭像 發(fā)表于 03-30 09:32 ?5.7w次閱讀
    lcr數(shù)字電橋<b class='flag-5'>工作原理</b>及<b class='flag-5'>使用方法</b>_lcr數(shù)字電橋作用介紹

    漏電保護(hù)插頭工作原理使用方法

    本文主要介紹了漏電保護(hù)插頭工作原理及漏電保護(hù)插頭使用方法
    的頭像 發(fā)表于 12-18 10:51 ?2.8w次閱讀

    膠體蓄電池工作原理_膠體蓄電池使用方法

    本文主要闡述了膠體蓄電池工作原理使用方法。
    發(fā)表于 01-10 14:00 ?3956次閱讀

    CUDA核心是什么?CUDA核心的工作原理

    CUDA核心(Compute Unified Device Architecture Core)是NVIDIA圖形處理器(GPU)上的計(jì)算單元,用于執(zhí)行并行計(jì)算任務(wù)。每個(gè)CUDA核心可以執(zhí)行單個(gè)線程的指令,包括算術(shù)運(yùn)算、邏輯操作
    發(fā)表于 09-27 09:38 ?1.2w次閱讀
    <b class='flag-5'>CUDA</b>核心是什么?<b class='flag-5'>CUDA</b>核心的<b class='flag-5'>工作原理</b>

    點(diǎn)焊機(jī)的工作原理使用方法

    點(diǎn)焊機(jī)是一種常用于金屬加工中的設(shè)備,它能夠?qū)⒔饘倭慵ㄟ^瞬間高溫融合在一起。這種焊接方式在汽車制造、電子設(shè)備制造、金屬加工等領(lǐng)域廣泛應(yīng)用。本文創(chuàng)想焊縫跟蹤小編將介紹點(diǎn)焊機(jī)的工作原理以及使用方法
    的頭像 發(fā)表于 03-26 17:50 ?5982次閱讀
    點(diǎn)焊機(jī)的<b class='flag-5'>工作原理</b>及<b class='flag-5'>使用方法</b>

    在Python中借助NVIDIA CUDA Tile簡(jiǎn)化GPU編程

    NVIDIA CUDA 13.1 版本新增了基于 Tile 的GPU 編程模式。它是自 CUDA 發(fā)明以來 GPU 編程最核心的更新之一。借助 GPU
    的頭像 發(fā)表于 12-13 10:12 ?971次閱讀
    在Python中借助<b class='flag-5'>NVIDIA</b> <b class='flag-5'>CUDA</b> <b class='flag-5'>Tile</b>簡(jiǎn)化GPU編程