chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

NVIDIA Ampere架構(gòu)解析:相比上一代做了哪些提升

工程師鄧生 ? 來源:中關(guān)村在線 ? 作者:曲楠 ? 2020-12-11 17:22 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

持續(xù)了一個月的“顯卡發(fā)布季”已經(jīng)告一段落,截止目前NVIDIA發(fā)布了GeForce RTX 3060 Ti/3070/3080/3090共4個型號的顯卡,相比上一代顯卡,RTX 30系顯卡再次做到了性能翻倍的神話。

除了性能上的提升,新的NVIDIA Ampere架構(gòu)還帶來了第二代RT Core和第三代Tensor,雖然RTX 30系顯卡擁有諸多提升,但價格卻與上一代顯卡相同。

在9月2日發(fā)布會當(dāng)天,雖然過程僅有短短的40分鐘,卻震驚了全世界的用戶。

算力提升

下面我們就來看看,“有史以來最偉大性能提升”相比上一代的NVIDIA Turing架構(gòu),做了哪些提升。

第一代RTX架構(gòu)Turing

第二代RTX架構(gòu) Ampere

首先來簡單回顧一下在9月2日發(fā)布會的PPT上我們都看到了什么,相較于初代的Turing RTX架構(gòu),NVIDIA Ampere架構(gòu)在算力上有著成倍的增長,每個時鐘執(zhí)行2次著色器運算。

而Turing為1次,著色器性能達(dá)到30 TFLOPS單精度性能,而Turing為11 TFLOPS。

NVIDIA Ampere架構(gòu)翻倍了光線與三角形的相交吞吐量,RT Core達(dá)到58 RT TFLOPS,而Turing為34 RT TFLOPS。

另外在全新的Tensor Core中,可自動識別并消除不太重要的DNN權(quán)重,處理稀疏網(wǎng)絡(luò)的速率是Turing的兩倍,算力高達(dá)238 Tensor TFLOPS,而Turing為89 Tensor TFLOPS。

全新的NVIDIA Ampere GPU核心擁有280億個晶體管,628平方毫米的面積,基于三星的8nm NVIDIA定制工藝,來自美光的GDDR6X顯存,以及我們上面說的,三大處理核心均為初代Turing的兩倍速率,構(gòu)成了有史以來性能最強大的Ampere。

SM單元的改變

而NVIDIA Ampere架構(gòu)的強大性能并不是NVIDIA一蹴而就,可以說在20系顯卡中所采用的Turing架構(gòu)功不可沒,下面我們先來看看完整的GA102核心。

完整的GA102 GPU包含7個GPC(圖形處理集群)42個TPC(紋理處理集群)以及84個SM(流處理器)組成。

GPC是占據(jù)主導(dǎo)地位的高級模塊,擁有所有的關(guān)鍵圖形處理單元,每個GPC包含一個專用光柵引擎。

在新的NVIDIA Ampere架構(gòu)中,每個GPC還包含了兩個ROP分區(qū),每個分區(qū)包含8個ROP單元。下面我們來看看每個SM單元的變化。

在每個SM中,包含四個大的處理分區(qū)共128個CUDA核心,4個第三代Tensor Core,1個第二代RT Core,1個256 KB的緩存文件,1個128 KB的L1緩存,這個L1緩存可以根據(jù)不同的工作需求來調(diào)配緩存,工作效率發(fā)揮至最大。

另外大家都知道本次RTX 3080的CUDA數(shù)量暴增至8704個,而RTX 3090的CUDA數(shù)量更是達(dá)到了驚人的10496個。

但是大家要知道專業(yè)計算卡Tesla A100的GA100核心,擁有更大的核心面積,更多的晶體管數(shù)量,理論上只有8192個CUDA,那RTX 3080又是如何達(dá)到這種效果的呢?

其實是因為本次NVIDIA Ampere的SM在Turing基礎(chǔ)上增加了一倍的FP32運算單元,這就使得每個SM的FP32運算單元數(shù)量提高了一倍。

我們在發(fā)布會中經(jīng)常聽到性能翻倍的說法,其實是因為本次NVIDIA Ampere的SM在Turing基礎(chǔ)上增加了一倍的FP32運算單元,這就使得每個SM的FP32運算單元數(shù)量提高了一倍,同時吞吐量也就變?yōu)榱艘槐丁?/p>

而通常我們計算顯卡的CUDA數(shù)量,并不是把SM中的所有單元加起來計數(shù),而是只統(tǒng)計FP32單元的數(shù)量,所以這樣一來,SM中的【FP32 : INT32】 從 1:1 變?yōu)?2:1。

如RTX 3080的8704個CUDA,其實它只有4352個INT32單元,但由于內(nèi)部的FP32數(shù)量翻了一倍,所以最終實現(xiàn)了8704這個驚人的數(shù)字。

而這樣粗暴的提升CUDA數(shù)量對于游戲有幫助嗎?

答案是有,不僅有提升還很大。其實通常在游戲中浮點運算相比整數(shù)計算要常用的多,圖形、算法以及各種計算操作中著色器工作負(fù)載通常需要混合使用FP32算數(shù)指令,而FP32的加速也有助于光線追蹤降噪著色器。

第二代RT Core

在此次的NVIDIA Ampere架構(gòu)中,NVIDIA官方宣布為第二代RT Core,它和第一代有什么不同呢。

首先要知道RT Core的工作原理是,著色器發(fā)出光線追蹤的請求,交給RT Core來處理,它將進(jìn)行兩種測試,分別為邊界交叉測試(Box Intersection testing)和三角形交叉測試(Triangle Intersection testing)。

基于BVH算法來判斷,如果是方形,那么就返回縮小范圍繼續(xù)測試,如果是三角形,則反饋結(jié)果進(jìn)行渲染。

而光線追蹤最耗時的正是求交計算,因此,要提升光線追蹤性能,主要是對兩種求交(BVH/三角形求交)進(jìn)行加速。

在Turing的RT Core中,可以每個周期完成5次BVH遍歷、4次BVH求交以及一次三角形求交,在第二代RT Core 里,NVIDIA增加了一個新的三角形位置插值模塊以及一個的額外的三角形求交模塊,這樣做的目的是為了提升諸如運動模糊特效時候的光線追蹤性能。

第二代RT Core可以讓光線追蹤與著色同時進(jìn)行,進(jìn)行的光線追蹤越多,加速就越快,它將光線相交的處理性能提升了一倍,在渲染有動態(tài)模糊的影像時,按照NVIDIA自己的實測,比Turing快8倍。

第三代Tensor Core

除了光線追蹤的強化,Ampere架構(gòu)的Tensor Core也得到了極大地加強,在第三代Tensor Core中,NVIDIA引入了稀疏化加速,可自動識別并消除不太重要的DNN(深度神經(jīng)網(wǎng)絡(luò))權(quán)重,同時依然能保持不錯的精度。

首先原始的密集矩陣會經(jīng)過訓(xùn)練,刪除掉稀疏矩陣,再經(jīng)過訓(xùn)練稀疏矩陣,從而實現(xiàn)稀疏優(yōu)化,進(jìn)而提高Tensor Core的性能。

所以最終的結(jié)果就是Tensor Core在處理稀疏網(wǎng)絡(luò)的速率是Turing的兩倍,算力高達(dá)238 Tensor TFLOPS,而Turing為89 Tensor TFLOPS。

RTX IO

與此次RTX 30系顯卡一同發(fā)布的還有一項新技術(shù)——RTX IO。目前很多游戲動輒幾十G甚至百G的安裝空間,對于存儲空間的負(fù)擔(dān)暫且不提,但存放在硬盤中的數(shù)據(jù),如果顯卡想要讀取到,需要先由CPU從硬盤中讀取壓縮過的數(shù)據(jù),經(jīng)過解壓縮再發(fā)送到顯存中。

雖然隨著NVMe SSD的推出,讀取速度相較機械硬盤能夠快20倍,但受制于傳統(tǒng)I/O限制,NVMe高達(dá)7GB/秒的高速讀寫對于CPU是極大的負(fù)擔(dān)。

在這個過程中,會占用多個CPU核心,壓力急劇增大,占用較多的內(nèi)存,而此時其實GPU是處于閑置狀態(tài)的。

RTX IO的作用就是越過CPU解壓再傳輸數(shù)據(jù)這一步,直接從PCIE總線讀取硬盤上經(jīng)過壓縮的數(shù)據(jù),并且完成解壓,降低CPU占用,變向提升了性能。

當(dāng)然這項技術(shù)作為系統(tǒng)底層的運行方式改變,還需要借助微軟發(fā)布的DirectStorage來實現(xiàn),對于目前容量的游戲來說,RTX IO的改善效果有限,但假以時日等游戲容量上百G成為常態(tài)的時候,這項技術(shù)將會發(fā)揮巨大的功效。

最快的顯存

在RTX 3080中,采用了GDDR6X顯存,GDDR6X擁有320bit的位寬以及19Gbps的帶寬速度,與采用GDDR6的Turing相比可提升40%的速度,在相同時間內(nèi)GDDR6X可以比GDDR6傳輸多2倍的數(shù)據(jù)。

這對于需要大量數(shù)據(jù)負(fù)載的工作尤為重要,如光線追蹤的游戲、AI學(xué)習(xí)和8K視頻渲染。

同時搭配新增的HDMI2.1接口,可以支持單線8K的視頻輸出,而上一代HDMI2.0僅支持4K 98Hz的視頻輸出,如果想要連接8K電視,則需要更多的線纜支持。

相信了解RTX 30系顯卡的性能后,會有玩家會問,RTX 20系顯卡如此“短壽”算不算失敗的一代,我認(rèn)為不算。

Turing為我們開創(chuàng)了光線追蹤和AI學(xué)習(xí)的新世界,奠定了GPU未來的發(fā)展方向,真正意義上實現(xiàn)從性能的堆砌到質(zhì)的改變。

而Ampere則是站在巨人的肩膀,將上一代的路走的更寬更扎實。

責(zé)任編輯:PSY

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • NVIDIA
    +關(guān)注

    關(guān)注

    14

    文章

    5431

    瀏覽量

    108251
  • 顯卡
    +關(guān)注

    關(guān)注

    16

    文章

    2514

    瀏覽量

    70708
  • 架構(gòu)
    +關(guān)注

    關(guān)注

    1

    文章

    531

    瀏覽量

    26373
  • Ampere
    +關(guān)注

    關(guān)注

    1

    文章

    81

    瀏覽量

    4817
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    使用NVIDIA NVLink Fusion技術(shù)提升AI推理性能

    本文詳細(xì)闡述了 NVIDIA NVLink Fusion 如何借助高效可擴展的 NVIDIA NVLink scale-up 架構(gòu)技術(shù),滿足日益復(fù)雜的 AI 模型不斷增長的需求。
    的頭像 發(fā)表于 09-23 14:45 ?325次閱讀
    使用<b class='flag-5'>NVIDIA</b> NVLink Fusion技術(shù)<b class='flag-5'>提升</b>AI推理性能

    NVIDIA RTX PRO 4500 Blackwell GPU測試分析

    今天我們帶來全新 NVIDIA Blackwell 架構(gòu) GPU —— NVIDIA RTX PRO 4500 Blackwell 的測試,對比上一代產(chǎn)品
    的頭像 發(fā)表于 08-28 11:02 ?2128次閱讀
    <b class='flag-5'>NVIDIA</b> RTX PRO 4500 Blackwell GPU測試分析

    基于 NVIDIA Blackwell 的 Jetson Thor 現(xiàn)已發(fā)售,加速通用機器人時代的到來

    醫(yī)療、萬集科技、優(yōu)必選、銀河通用、宇樹科技、眾擎機器人和智元機器人等公司已經(jīng)率先使用 Jetson Thor。 ·基于 NVIDIA Blackwell 的 Jetson Thor,較上一代產(chǎn)品
    發(fā)表于 08-26 09:28 ?1121次閱讀
    基于 <b class='flag-5'>NVIDIA</b> Blackwell 的 Jetson Thor 現(xiàn)已發(fā)售,加速通用機器人時代的到來

    泰克示波器MSO6B與上一代MSO5對比

    作為電子測試與測量領(lǐng)域的領(lǐng)先品牌,泰克科技始終致力于為工程師提供更高效、精準(zhǔn)的測試工具。其最新推出的MSO6B系列混合信號示波器在繼承上一代MSO5系列優(yōu)點的基礎(chǔ)上,實現(xiàn)了多項關(guān)鍵技術(shù)的突破與升級
    的頭像 發(fā)表于 06-09 15:30 ?401次閱讀

    NVIDIA 采用納微半導(dǎo)體開發(fā)新一代數(shù)據(jù)中心電源架構(gòu) 800V HVDC 方案,賦能下一代AI兆瓦級算力需求

    800V HVDC電源架構(gòu)開發(fā),旗下GaNFast?氮化鎵和GeneSiC?碳化硅技術(shù)將為Kyber機架級系統(tǒng)內(nèi)的Rubin Ultra等GPU提供電力支持。 ? NVIDIA推出的下一代800V
    發(fā)表于 05-23 14:59 ?2268次閱讀
    <b class='flag-5'>NVIDIA</b> 采用納微半導(dǎo)體開發(fā)新<b class='flag-5'>一代</b>數(shù)據(jù)中心電源<b class='flag-5'>架構(gòu)</b> 800V HVDC 方案,賦能下<b class='flag-5'>一代</b>AI兆瓦級算力需求

    Nordic新一代旗艦芯片nRF54H20深度解析

    、芯片概覽:第四多協(xié)議SoC的革新 Nordic Semiconductor最新發(fā)布的??nRF54H20??作為nRF54H系列首款SoC,標(biāo)志著低功耗無線技術(shù)的又次飛躍。這款采用??多核
    發(fā)表于 04-26 23:25

    使用NVIDIA CUDA-X庫加速科學(xué)和工程發(fā)展

    NVIDIA GTC 全球 AI 大會上宣布,開發(fā)者現(xiàn)在可以通過 CUDA-X 與新一代超級芯片架構(gòu)的協(xié)同,實現(xiàn) CPU 和 GPU 資源間深度自動化整合與調(diào)度,相較于傳統(tǒng)加速計算架構(gòu)
    的頭像 發(fā)表于 03-25 15:11 ?1065次閱讀

    軟銀集團(tuán)將收購Ampere Computing

    的全資子公司運營并保留其公司名稱。作為此次交易的部分,Ampere 的主要投資者 —— 凱雷投資集團(tuán)(NASDAQ:CG)和甲骨文公司(NYSE:ORCL)—— 將出售各自在 Ampere 的股份。
    的頭像 發(fā)表于 03-20 17:55 ?836次閱讀

    NVIDIA Blackwell數(shù)據(jù)手冊與NVIDIA Blackwell架構(gòu)技術(shù)解析

    NVIDIA Blackwell數(shù)據(jù)手冊與NVIDIA Blackwell 架構(gòu)技術(shù)解析
    的頭像 發(fā)表于 03-20 17:19 ?1206次閱讀

    寶馬發(fā)布全新一代智能電子電氣架構(gòu)

    "超級大腦"賦能寶馬新世代車型智能駕駛樂趣 全新一代電子電氣架構(gòu)搭載新世代車型,覆蓋全動力系統(tǒng)和全細(xì)分車型 全新一代電子電氣架構(gòu)集成算力提升
    的頭像 發(fā)表于 03-13 15:42 ?454次閱讀

    納芯微發(fā)布新一代CSP封裝MOSFET NPM12017A系列

    提升了電氣與極限能力。以首發(fā)產(chǎn)品NPM12017A為例,典型阻值相比上一代降低了26%,溫升降低近30%,極限耐受能力如短路及雪崩能力等提升近50%,達(dá)到國際領(lǐng)先水準(zhǔn)。同時,憑借12寸COT工藝,NPM12017A在極具性價比的
    的頭像 發(fā)表于 03-12 10:33 ?2592次閱讀

    軟銀接近達(dá)成收購Ampere協(xié)議

    近日,據(jù)報道,軟銀集團(tuán)目前正就收購芯片設(shè)計公司Ampere Computing LLC進(jìn)行深入磋商。這消息引起了業(yè)界的廣泛關(guān)注。 據(jù)悉,軟銀集團(tuán)正在與Ampere進(jìn)行積極談判,旨在達(dá)成
    的頭像 發(fā)表于 02-06 14:19 ?568次閱讀

    天璣8400全大核、端側(cè)AI,續(xù)寫“神U”傳奇!

    的緩存大幅提升,相比上一代,二級緩存增加倍,三級緩存增加50%。 ? 借助精準(zhǔn)的能效調(diào)控技術(shù),天璣8400 CPU的多核功耗相較上一代降低
    的頭像 發(fā)表于 12-24 15:15 ?2040次閱讀
    天璣8400全大核、端側(cè)AI,續(xù)寫“神U”傳奇!

    NVIDIA 推出高性價比的生成式 AI 超級計算機

    人群提供更強大的生成式 AI 功能與性能,目前建議零售價 2070 人民幣。 ? 該開發(fā)者套件現(xiàn)已上市,與上一代產(chǎn)品相比,其生成式
    發(fā)表于 12-18 17:01 ?851次閱讀
    <b class='flag-5'>NVIDIA</b> 推出高性價比的生成式 AI 超級計算機

    相比上一代低功耗藍(lán)牙芯片,CC2745P到底升級了什么?

    TI最近發(fā)布了新一代藍(lán)牙芯片CC2745P,那么相對于上一代CC2642芯片,做了哪些升級,在實際應(yīng)用中有哪些優(yōu)勢?。CC2745P/CC2642基本參數(shù)對比如下:型號CC2745PCC2642
    發(fā)表于 11-15 14:11