chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

NVIDIA CUDA 13.1版本的新增功能與改進(jìn)

NVIDIA英偉達(dá)企業(yè)解決方案 ? 來(lái)源:NVIDIA英偉達(dá)企業(yè)解決方案 ? 2025-12-13 10:08 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

NVIDIA CUDA 13.1 是自 CUDA 二十年前發(fā)明以來(lái),規(guī)模最大、內(nèi)容最全面的一次更新。

最新的版本包含一系列新功能與改進(jìn),旨在提升性能并推動(dòng)加速計(jì)算,主要包括:

推出NVIDIA CUDA Tile:它是基于 tile 的全新編程模型,對(duì)包括 Tensor Cores 在內(nèi)的專(zhuān)用硬件做了抽象

暴露了綠色上下文運(yùn)行時(shí)的 API

在 NVIDIA cuBLAS 中實(shí)現(xiàn)雙精度與單精度仿真功能

全新編寫(xiě)的CUDA 編程指南,面向 CUDA 初學(xué)者到資深開(kāi)發(fā)者

CUDA Tile 編程

為了幫助開(kāi)發(fā)者開(kāi)發(fā)適配當(dāng)前及未來(lái)的 GPU 開(kāi)發(fā)軟件,NVIDIA CUDA 13.1 推出了CUDA Tile。該編程模型允許開(kāi)發(fā)者在 SIMT 編程模型之上更高層級(jí)編寫(xiě) GPU 內(nèi)核。在 SIMT 編程中,開(kāi)發(fā)者實(shí)現(xiàn)一個(gè)內(nèi)核需要手動(dòng)劃分?jǐn)?shù)據(jù),并為每個(gè)線程指定執(zhí)行路徑。而在 CUDA Tile 編程中,你可以用更高的抽象層級(jí)實(shí)現(xiàn)內(nèi)核,直接對(duì)稱(chēng)為“Tile”的數(shù)據(jù)塊指定執(zhí)行路徑:只需指定要在這些 Tile 上執(zhí)行的數(shù)學(xué)運(yùn)算,編譯器和運(yùn)行時(shí)會(huì)自動(dòng)決定如何將任務(wù)最優(yōu)地分配給各個(gè)線程。這種 Tile 編程模型隱藏了 Tensor Cores 等專(zhuān)用硬件的具體細(xì)節(jié),使 Tile 代碼能夠兼容未來(lái)的 GPU 架構(gòu)。

CUDA 13.1 發(fā)布了 Tile 編程的兩大組件

CUDA Tile IR:用于 NVIDIA GPU 編程的全新虛擬指令集架構(gòu)(ISA)。

cuTile Python:全新領(lǐng)域特定的編程語(yǔ)言(DSL),用于在 Python 中編寫(xiě)基于數(shù)組和 Tile 的內(nèi)核。

如需了解更多關(guān)于 CUDA Tile IR 與cuTile Python的信息,請(qǐng)查看相關(guān)詳細(xì)介紹。

CUDA軟件更新

本次 CUDA 版本還包括以下重要軟件更新。

運(yùn)行時(shí)暴露綠色上下文

CUDA 中的綠色上下文是傳統(tǒng) CUDA 上下文的一種輕量級(jí)替代方案,旨在為開(kāi)發(fā)者提供一種對(duì) GPU 進(jìn)行更細(xì)顆粒度的空間劃分和資源分配的機(jī)制。自 CUDA 12.4 起,該功能可在驅(qū)動(dòng) API 中使用;而從本版本開(kāi)始,綠色上下文也正式支持運(yùn)行時(shí) API。

綠色上下文使用戶(hù)可以定義并管理 GPU 資源(主要是 Streaming Multiprocessors,SMs)的不同分區(qū),并將特定的 SM 集合分配給某個(gè)上下文。隨后,在該綠色上下文該所擁有的資源范圍內(nèi)啟動(dòng)中 CUDA 內(nèi)核并管理 CUDA 流。一個(gè)典型應(yīng)用場(chǎng)景是:當(dāng)應(yīng)用程序包含對(duì)延遲敏感的代碼,且其優(yōu)先級(jí)高于所有其他 GPU 任務(wù)時(shí),可以將一部分 SM 資源分配給一個(gè)專(zhuān)用于此代碼的綠色上下文,其余 SM 分配給處理其他任務(wù)的另一個(gè)綠色上下文,即可確保關(guān)鍵計(jì)算始終擁有可用的 SM 資源。

CUDA 13.1 還引入了可定制程度更高的 split() API。開(kāi)發(fā)者可以構(gòu)建此前需要多次 API 調(diào)用才能完成的 SM 分區(qū),并能夠配置工作隊(duì)列,以減少在不同綠色上下文中提交任務(wù)時(shí)可能產(chǎn)生的偽依賴(lài)。

有關(guān)這些功能及綠色上下文運(yùn)行時(shí)的更多信息,請(qǐng)參閱CUDA Programming Guide。

CUDA 多進(jìn)程服務(wù)(MPS)更新

CUDA 13.1 為多進(jìn)程服務(wù)新增了多項(xiàng)功能特性。有關(guān)這些新功能的完整信息,請(qǐng)參閱MPS 文檔。其中的重點(diǎn)內(nèi)容包括:內(nèi)存局部性?xún)?yōu)化分區(qū)、靜態(tài)流多處理器分區(qū)、cuBLAS 中的雙精度與單精度仿真。

開(kāi)發(fā)者工具

開(kāi)發(fā)者工具是 CUDA 平臺(tái)至關(guān)重要的一環(huán),本次發(fā)布帶來(lái)了多項(xiàng)創(chuàng)新與功能優(yōu)化。

CUDA Tile 內(nèi)核性能分析工具

NVIDIA Nsight Compute 2025.4 現(xiàn)可對(duì) CUDA Tile 內(nèi)核進(jìn)行性能分析。相關(guān)更新包括:在摘要頁(yè)面新增“結(jié)果類(lèi)型”列,用于區(qū)分內(nèi)核屬于 Tile 還是 SIMT 類(lèi)型;詳情頁(yè)面新增“Tile 統(tǒng)計(jì)信息”區(qū)域,匯總 Tile 維度及關(guān)鍵流程的利用率情況;源頁(yè)面也支持將性能指標(biāo)映射到高級(jí)別的 cuTile 內(nèi)核源代碼。此外,本次 Nsight Compute 版本還新增了兩項(xiàng)功能:支持對(duì)設(shè)備端啟動(dòng)的 CUDA 圖節(jié)點(diǎn)進(jìn)行性能分析;同時(shí)改進(jìn)了源頁(yè)面導(dǎo)航,現(xiàn)在無(wú)論是編譯器生成的標(biāo)簽還是用戶(hù)自定義的標(biāo)簽,都支持以可點(diǎn)擊鏈接的形式快速跳轉(zhuǎn)。

編譯時(shí)修補(bǔ)

NVIDIA Compute Sanitizer 2025.4 現(xiàn)可通過(guò)編譯器標(biāo)志 -fdevice-sanitize=memcheck 對(duì) NVIDIA CUDA 編譯器進(jìn)行編譯時(shí)修補(bǔ)。此功能增強(qiáng)了內(nèi)存錯(cuò)誤檢測(cè)能力并提升了 Compute Sanitizer 的運(yùn)行性能。編譯時(shí)插樁可將錯(cuò)誤檢測(cè)直接集成到 NVCC 中,這樣不僅運(yùn)行速度更快,還能通過(guò)先進(jìn)的基址-邊界分析捕捉到更隱蔽的如相鄰分配非法訪問(wèn)的內(nèi)存問(wèn)題。這意味著開(kāi)發(fā)者可以在不犧牲調(diào)試速度的前提下,排查內(nèi)存問(wèn)題,運(yùn)行更多測(cè)試,從而保持開(kāi)發(fā)效率。目前,該功能僅支持 memcheck。有關(guān)編譯時(shí)插樁的完整信息,請(qǐng)參閱 compute-sanitizer文檔。

NVIDIA Nsight Systems

NVIDIA Nsight Systems 2025.6.1 與 CUDA Toolkit 13.1 同步發(fā)布,新增多項(xiàng)剖析功能,主要包括:

系統(tǒng)級(jí) CUDA 剖析:新增 -cuda-trace-scope 參數(shù),支持跨進(jìn)程樹(shù)或整個(gè)系統(tǒng)進(jìn)行剖析。

CUDA 主機(jī)函數(shù)剖析:支持剖析 CUDA Graph 主機(jī)函數(shù)節(jié)點(diǎn)及 cudaLaunchHostFunc();該函數(shù)在主機(jī)端執(zhí)行,并會(huì)阻塞所在流。

綠色上下文時(shí)間軸:現(xiàn)在其提示信息會(huì)顯示 SM 分配情況,幫助用戶(hù)了解 GPU 資源利用率。

數(shù)學(xué)函數(shù)庫(kù)

本次核心 CUDA 工具包的數(shù)學(xué)函數(shù)庫(kù)引入了多項(xiàng)新功能,主要包括:NVIDIA cuBLAS、NVIDIA cuSPARSE、NVIDIA cuFFT。

NVIDIA CUDA 核心計(jì)算庫(kù)

NVIDIA CUDA 核心計(jì)算庫(kù)(CCCL)為CUB庫(kù)帶來(lái)了多項(xiàng)創(chuàng)新與增強(qiáng):

確定性浮點(diǎn)數(shù)縮減:作為 CUDA 13.1 一部分, NVIDIA CCCL 3.1 提供了兩種額外的浮點(diǎn)確定性選項(xiàng),以便在確定性和性能之間進(jìn)行權(quán)衡:

Not-guaranteed:使用原子操作進(jìn)行單輪歸約。此選項(xiàng)不保證為多次運(yùn)行提供位級(jí)相同的結(jié)果。

GPU-to-GPU:基于 Kate Clark 在 NVIDIAGTC 2024演講中提出的可復(fù)現(xiàn)歸約算法。其結(jié)果始終是位級(jí)相同的。

更便捷的單階段CUB API:CCCL 3.1 為部分 CUB 算法新增了重載函數(shù),它們可以直接接受內(nèi)存資源參數(shù),從而省去查詢(xún)、分配、釋放臨時(shí)存儲(chǔ)的步驟。

了解更多

CUDA 13.1 帶來(lái)了眾多新功能,并開(kāi)啟了以 CUDA Tile 為核心的GPU 編程新時(shí)代,了解更多關(guān)于 CUDA 13.1 的更新。

歡迎探索CUDA Tile相關(guān)資源,下載CUDA Toolkit 13.1,立即開(kāi)始體驗(yàn)。

關(guān)于作者 —

Jonathan Bentz

領(lǐng)導(dǎo) NVIDIA 的 CUDA 技術(shù)營(yíng)銷(xiāo)工程團(tuán)隊(duì),其團(tuán)隊(duì)專(zhuān)注于創(chuàng)建和提供引人入勝的內(nèi)容,并與 CUDA 開(kāi)發(fā)者建立聯(lián)系。Jonathan 擁有愛(ài)荷華州立大學(xué)化學(xué)博士學(xué)位和計(jì)算機(jī)科學(xué)碩士學(xué)位。

Tony Scudiero

是 CUDA 平臺(tái)的技術(shù)營(yíng)銷(xiāo)工程師。他致力于將 CUDA 帶給各種類(lèi)型和能力的開(kāi)發(fā)者。在 NVIDIA 任職期間,他曾使用過(guò)大型 HPC 系統(tǒng)和應(yīng)用、實(shí)時(shí)聲學(xué)模擬 (VRWorks Audio) 和 Omniverse RTX 渲染器。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • NVIDIA
    +關(guān)注

    關(guān)注

    14

    文章

    5574

    瀏覽量

    109454
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    28

    文章

    5165

    瀏覽量

    134891
  • 編程語(yǔ)言
    +關(guān)注

    關(guān)注

    10

    文章

    1963

    瀏覽量

    39389
  • CUDA
    +關(guān)注

    關(guān)注

    0

    文章

    126

    瀏覽量

    14440

原文標(biāo)題:NVIDIA CUDA 13.1 引入 NVIDIA CUDA Tile 等新功能,為下一代 GPU 編程提供更強(qiáng)動(dòng)力

文章出處:【微信號(hào):NVIDIA-Enterprise,微信公眾號(hào):NVIDIA英偉達(dá)企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    如何在NVIDIA CUDA Tile中編寫(xiě)高性能矩陣乘法

    博文是系列課程的一部分,旨在幫助開(kāi)發(fā)者學(xué)習(xí) NVIDIA CUDA Tile 編程,掌握構(gòu)建高性能 GPU 內(nèi)核的方法,并以矩陣乘法作為核心示例。
    的頭像 發(fā)表于 01-22 16:43 ?4554次閱讀
    如何在<b class='flag-5'>NVIDIA</b> <b class='flag-5'>CUDA</b> Tile中編寫(xiě)高性能矩陣乘法

    西門(mén)子PCB DFM分析工具Valor NPI 2510版本新增功能

    Valor NPI 2510 版本新增多項(xiàng)檢查功能、提升制造風(fēng)險(xiǎn)識(shí)別,并推出令人矚目的 3D 可視化增強(qiáng)特性,這標(biāo)志著產(chǎn)品的重大升級(jí)。Valor NPI 的 3D 視圖經(jīng)過(guò)重新設(shè)計(jì),讓可制造性設(shè)計(jì) (DFM) 結(jié)果的查看更直觀、
    的頭像 發(fā)表于 01-04 16:10 ?283次閱讀
    西門(mén)子PCB DFM分析工具Valor NPI 2510<b class='flag-5'>版本</b>的<b class='flag-5'>新增</b><b class='flag-5'>功能</b>

    NVIDIA CUDA Tile的創(chuàng)新之處、工作原理以及使用方法

    NVIDIA CUDA 13.1 推出 NVIDIA CUDA Tile,這是自 2006 年 NVID
    的頭像 發(fā)表于 12-24 10:17 ?396次閱讀
    <b class='flag-5'>NVIDIA</b> <b class='flag-5'>CUDA</b> Tile的創(chuàng)新之處、工作原理以及使用方法

    在Python中借助NVIDIA CUDA Tile簡(jiǎn)化GPU編程

    NVIDIA CUDA 13.1 版本新增了基于 Tile 的GPU 編程模式。它是自 CUDA
    的頭像 發(fā)表于 12-13 10:12 ?1067次閱讀
    在Python中借助<b class='flag-5'>NVIDIA</b> <b class='flag-5'>CUDA</b> Tile簡(jiǎn)化GPU編程

    AMD Vivado Design Suite 2025.2版本現(xiàn)已發(fā)布

    AMD Vivado Design Suite 2025.2 版本現(xiàn)已發(fā)布,新增對(duì) AMD Versal 自適應(yīng) SoC 的設(shè)計(jì)支持,包含新器件支持、QoR 功能及易用性增強(qiáng)。
    的頭像 發(fā)表于 12-09 15:11 ?855次閱讀

    開(kāi)鴻Bot系列大版本更新:體驗(yàn)穩(wěn)定升級(jí),樂(lè)享高效協(xié)同!

    V5.0.1.22版本開(kāi)鴻Bot系列今日,開(kāi)鴻Bot系列迎來(lái)第二次大版本更新——V5.0.1.22。此次版本更新致力于進(jìn)一步提升系統(tǒng)穩(wěn)定性與用戶(hù)體驗(yàn),新增多項(xiàng)實(shí)用
    的頭像 發(fā)表于 09-26 17:06 ?1284次閱讀
    開(kāi)鴻Bot系列大<b class='flag-5'>版本</b>更新:體驗(yàn)穩(wěn)定升級(jí),樂(lè)享高效協(xié)同!

    NVIDIA RAPIDS 25.06版本新增多項(xiàng)功能

    RAPIDS 是一套面向 Python 數(shù)據(jù)科學(xué)的 NVIDIA CUDA-X 庫(kù),最新發(fā)布的 25.06 版本引入了多項(xiàng)亮眼新功能,其中包括 Polars GPU 流執(zhí)行引擎——這是
    的頭像 發(fā)表于 09-09 09:54 ?954次閱讀

    匠芯創(chuàng)發(fā)布新版GUI開(kāi)發(fā)工具 新增多國(guó)語(yǔ)言設(shè)置等功能

    。此次版本更新,為用戶(hù)帶來(lái)了諸多實(shí)用的新功能,進(jìn)一步提升了設(shè)計(jì)體驗(yàn)和開(kāi)發(fā)效率。在V1.3.0版本中,AiUIBuilder新增了多國(guó)語(yǔ)言切換功能
    的頭像 發(fā)表于 08-07 15:36 ?1120次閱讀
    匠芯創(chuàng)發(fā)布新版GUI開(kāi)發(fā)工具 <b class='flag-5'>新增</b>多國(guó)語(yǔ)言設(shè)置等<b class='flag-5'>功能</b>

    NVIDIA DOCA 3.0版本的亮點(diǎn)解析

    NVIDIA DOCA 框架已發(fā)展成為新一代 AI 基礎(chǔ)設(shè)施的重要組成部分。從初始版本到備受期待的 NVIDIA DOCA 3.0 發(fā)布,每個(gè)版本都擴(kuò)展了
    的頭像 發(fā)表于 07-04 14:27 ?1144次閱讀
    <b class='flag-5'>NVIDIA</b> DOCA 3.0<b class='flag-5'>版本</b>的亮點(diǎn)解析

    【文章轉(zhuǎn)載】CANoe產(chǎn)品體系19版本功能(下) - 基礎(chǔ)功能與XIL測(cè)試

    版本持續(xù)為智能電動(dòng)網(wǎng)聯(lián)汽車(chē)軟件開(kāi)發(fā)測(cè)試帶來(lái)全新功能,IDE開(kāi)發(fā)環(huán)境支持.NET8.0、Python、MATLAB2024b,VisualStudioCode集成測(cè)試開(kāi)發(fā)和調(diào)試功能,支持
    的頭像 發(fā)表于 06-25 10:03 ?1646次閱讀
    【文章轉(zhuǎn)載】CANoe產(chǎn)品體系19<b class='flag-5'>版本</b>新<b class='flag-5'>功能</b>(下) - 基礎(chǔ)<b class='flag-5'>功能與</b>XIL測(cè)試

    CANoe產(chǎn)品體系19版本新特性及新增Option(上)

    版本持續(xù)助力當(dāng)前車(chē)輛E/E架構(gòu)中ECU開(kāi)發(fā)驗(yàn)證,同時(shí)賦能后續(xù)智能網(wǎng)聯(lián)電動(dòng)車(chē)型預(yù)研驗(yàn)證。新版本CANoe產(chǎn)品體系新增數(shù)據(jù)驅(qū)動(dòng)的DDS、車(chē)輛互聯(lián)服務(wù)和高效電機(jī)模型庫(kù),進(jìn)一步支持CANXL
    的頭像 發(fā)表于 06-11 10:03 ?2828次閱讀
    CANoe產(chǎn)品體系19<b class='flag-5'>版本</b>新特性及<b class='flag-5'>新增</b>Option(上)

    借助NVIDIA技術(shù)加速半導(dǎo)體芯片制造

    NVIDIA Blackwell GPU、NVIDIA Grace CPU、高速 NVIDIA NVLink 網(wǎng)絡(luò)架構(gòu)和交換機(jī),以及諸如 NVIDIA cuDSS 和
    的頭像 發(fā)表于 05-27 13:59 ?1032次閱讀

    NVIDIA虛擬GPU 18.0版本的亮點(diǎn)

    NVIDIA 虛擬 GPU(vGPU)技術(shù)可在虛擬桌面基礎(chǔ)設(shè)施(VDI)中解鎖 AI 功能,使其比以往更加強(qiáng)大、用途更加廣泛。vGPU 通過(guò)為各種虛擬化環(huán)境中的 AI 驅(qū)動(dòng)工作負(fù)載提供動(dòng)力,提高了
    的頭像 發(fā)表于 04-07 11:28 ?1339次閱讀

    使用NVIDIA CUDA-X庫(kù)加速科學(xué)和工程發(fā)展

    NVIDIA GTC 全球 AI 大會(huì)上宣布,開(kāi)發(fā)者現(xiàn)在可以通過(guò) CUDA-X 與新一代超級(jí)芯片架構(gòu)的協(xié)同,實(shí)現(xiàn) CPU 和 GPU 資源間深度自動(dòng)化整合與調(diào)度,相較于傳統(tǒng)加速計(jì)算架構(gòu),該技術(shù)可使計(jì)算工程工具運(yùn)行速度提升至原來(lái)的 11 倍,計(jì)算規(guī)模增加至 5 倍。
    的頭像 發(fā)表于 03-25 15:11 ?1428次閱讀

    ABViewer 15.2版本現(xiàn)已發(fā)布

    我們的團(tuán)隊(duì)很高興宣布ABViewer 15.2版本現(xiàn)已發(fā)布。新版本對(duì)軟件的所有主要功能進(jìn)行了改進(jìn)。下面您將找到我們所做更改的詳細(xì)列表。 PDF轉(zhuǎn)DWG
    的頭像 發(fā)表于 02-11 11:49 ?952次閱讀