chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

什么是CUDA?誰能打破CUDA的護城河?

Linelayout ? 來源:半導體產(chǎn)業(yè)洞察 ? 2023-12-28 10:26 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

在最近的一場“AI Everywhere”發(fā)布會上,Intel的CEO Pat Gelsinger炮轟Nvidia的CUDA生態(tài)護城河并不深,而且已經(jīng)成為行業(yè)的眾矢之的。Gelsinger稱,“整個行業(yè)都希望能干掉CUDA,包括Google、OpenAI等公司都在想方設(shè)法讓人工智能訓練更加開放。我們認為CUDA的護城河既淺又窄?!?/p>

Gelsinger的這番話確實道出了整個人工智能行業(yè)對于Nvidia的CUDA又愛又恨的情緒;一方面,由于有了CUDA生態(tài),人工智能算法的訓練和部署從硬件層角度變得容易,人工智能工程師無需成為芯片專家,也能夠讓人工智能訓練高效地運行在Nvidia的GPU上。而從另一個角度,整個業(yè)界也過于依賴CUDA,以至于不少主打人工智能公司都對于CUDA的過度依賴產(chǎn)生了警惕性,這也就是Gelsinger所說的Google、OpenAI等公司都在設(shè)法研制自己的相應解決方案(例如OpenAI的Triton)。本文將深入分析CUDA的強勢到底來源于哪里,以及究竟誰能打破CUDA壟斷。

什么是CUDA?

首先,我們先分析一下CUDA的來龍去脈。當我們在談論“CUDA”的時候,我們究竟在談論什么?事實上,我們認為,CUDA包含三個層次。

首先,CUDA是一套編程語言。最初,3D圖像加速卡的主要任務是加速3D圖像的渲染,其用途相當專一。在本世紀初,Nvidia推出了GPU的概念以允許用戶使用圖像加速卡去做通用計算,并且在大約十五年前推出了相應的CUDA編程語言,其主要任務是提供GPU的編程模型,從而實現(xiàn)通用GPU編程。在CUDA編程語言中,Nvidia提供了GPU的各種硬件抽象,例如基于線程的并行計算、內(nèi)存存取等概念,從而為GPU編程提供了方便。

除了編程語言之外,CUDA的第二層含義是一套高性能編譯系統(tǒng)。在使用CUDA編程之后,還需要把用CUDA語言編寫的程序使用CUDA編譯器針對相應硬件優(yōu)化并且映射到更底層的硬件指令(對于Nvidia顯卡來說就是PTX)。CUDA的編譯器和GPU硬件的整合效率相當高,因此能編譯出非常高效的底層指令,這也是CUDA的另一個核心組成部分。

最后,CUDA的第三層是含義是Nvidia基于CUDA語言的一系列高性能函數(shù)庫,以及人工智能/高性能計算社區(qū)基于CUDA語言開發(fā)的一系列代碼庫。例如,CUDA的常用高性能函數(shù)庫包括用于線性計算的cuBLAS和CUTLASS,用于稀疏矩陣計算的cuSPARSE,用于傅立葉變幻的cuFFT,用于數(shù)值求解的cuSOLVER等。這些函數(shù)庫的發(fā)展至今已經(jīng)歷經(jīng)了十余年的努力,其優(yōu)化幾乎已經(jīng)做到了極致。另外,人工智能社區(qū)也有大量基于CUDA開發(fā)的代碼庫,例如Pytorch的默認后端就是CUDA。

CUDA每個層面的護城河

如上分析可知,CUDA其實包含了三個層面:編程語言,編譯器和生態(tài)。那么,CUDA這三個層面的護城河究竟在有多高?

首先,從編程語言的角度,事實上一直有OpenCL等社區(qū)開源語言試圖去實現(xiàn)類似(甚至更加廣泛的功能;OpenCL針對的不只是GPU編程,還包括了FPGA等異構(gòu)計算體系)的功能,AMD的ROCm平臺也是試圖做到與CUDA語言等價。從編程語言角度,CUDA并非不可取代。

其次,從編譯器的角度來看,CUDA提供的高性能編譯器確實是一個很高的護城河。編譯器的性能從很大程度上決定了用戶編寫的程序在GPU上執(zhí)行的效率;或者換句話說,對于人工智能應用來說,一個很直觀的衡量標準就是用戶編寫的人工智能算法,能多大程度上利用GPU的峰值算力?大多數(shù)情況下,峰值算力平均利用率不到50%。另外,編譯器的性能還牽扯到了用戶調(diào)優(yōu)的過程。如果用戶是GPU專家,通過在編寫GPU程序時進行調(diào)優(yōu)(例如使用某種特定的方式去編寫語句),也可以很大程度上彌補編譯器的不足(因為編譯器的一個重要功能就是對編寫的程序做優(yōu)化,那么如果編寫的程序已經(jīng)比較優(yōu)化了那么對編譯器優(yōu)化能力的要求就可以低一些)。

但是,這就牽扯到了用戶的門檻,如果編譯器性能不夠好,需要用戶是專家才能實現(xiàn)高效率的GPU程序,就會大大提高用戶門檻,即只有擁有一支精英GPU編程專家團隊的公司才能充分發(fā)揮出GPU的性能;相反如果編譯器性能夠好,那么就可以降低用戶門檻,讓更多公司和個人也可以使用GPU高性能運行算法。

從這個角度來說,經(jīng)過十多年的積累,CUDA的編譯器(NVCC)已經(jīng)達到了相當高的水平。最近的另一個新聞也從側(cè)面印證了編譯器性能的重要性:AMD在12月初的發(fā)布會上宣布新的MI300X平臺在運行Llama2-70B模型的推理任務時,比起Nvidia H100 HGX的性能要強1.4倍;一周后,Nvidia回應稱AMD在編譯測試時并沒有使用合理的設(shè)置,在使用正確設(shè)置后H100 HGX的性能事實上比MI300X要強1.5倍。由此可見,一個好的編譯器優(yōu)化對于充分利用GPU的性能可以說是至關(guān)重要。

b41a82ae-a4a2-11ee-8b88-92fbcf53809c.png

然而,編譯器的護城河也并不是高不可破。例如,OpenAI的開源Triton編譯器可以同時兼容Nvidia和AMD以及更多平臺,支持把用戶使用Python編寫的程序直接優(yōu)化編譯到底層硬件指令語言,并且在Nvidia的成熟GPU上實現(xiàn)和CUDA接近的執(zhí)行效率。如果Triton這樣的開源編譯器獲得成功的話,至少從某種角度上可以省去其他人工智能芯片公司花數(shù)年精力去開發(fā)自己的編譯器的需求。

第三個層面是生態(tài)。目前,CUDA在生態(tài)領(lǐng)域可以說是遙遙領(lǐng)先,因為CUDA有著十多年的高性能程序庫的積累,以及基于這些程序庫上面社區(qū)開發(fā)的各種高性能框架代碼。生態(tài)的積累首先需要能提供一個領(lǐng)先的解決方案——如果其他公司也能提供一個高性能的編程語言和編譯器方案的話,自然會有社區(qū)去基于它開發(fā)代碼,而經(jīng)過長期不懈的積累之后,生態(tài)自然也會趕上。例如,人工智能領(lǐng)域最流行的框架PyTorch從這兩年開始也對于AMD的ROCm提供了支持,這就是生態(tài)領(lǐng)域的一個例子。換句話說,只要給足夠的時間和與CUDA語言/編譯器性能接近的方案,生態(tài)自然會慢慢趕上。

誰能打破CUDA的護城河

之前我們分析了CUDA從三個層面的護城河,我們可以發(fā)現(xiàn),Nvidia的CUDA從三個層面分別來看,編譯器和生態(tài)的護城河比較高,但也不是不可超越。我們看到,軟件科技公司之間正在試圖超越這條護城河,例如OpenAI的Triton編譯器能提供幾乎比肩CUDA的性能,而人工智能編程框架PyTorch的最新版本已經(jīng)在后端集成了Triton,可望在Nvidia已經(jīng)推出的成熟GPU上能實現(xiàn)很高的性能。

然而,Nvidia CUDA最強的護城河事實上在于軟件-芯片協(xié)同設(shè)計。如前所述,在Nvidia的GPU推出一段時間之后(例如半年或一年),第三方的軟件公司的方案(例如OpenAI的Triton)在研究透徹這款GPU之后,可以讓自己的方案做到比肩CUDA的水平。這意味著兩點:

首先,第三方軟件公司開發(fā)編譯器去嘗試匹配CUDA的性能永遠是一個追趕的過程,Nvidia發(fā)布新的GPU和相應CUDA版本之后,需要半年到一年的時間才能實現(xiàn)性能基本匹配,但是基本難以到達Nvidia新GPU發(fā)布就立刻實現(xiàn)性能匹配甚至領(lǐng)先。

其次,芯片公司如果被動等待第三方軟件公司的編譯器去適配自己的人工智能加速硬件以追趕Nvidia的話,永遠無法打破Nvidia CUDA的領(lǐng)先地位。原因是,第三方軟件公司適配新的人工智能加速硬件需要時間;而在一年后等到第三方軟件公司的方案達到接近CUDA的水平的時候,Nvidia已經(jīng)發(fā)布下一代GPU了。這就陷入了永遠在追趕過程中的陷阱,難以打破CUDA護城河并實現(xiàn)領(lǐng)先。

因此,能真正打破CUDA護城河的,必須是有芯片-軟件協(xié)同設(shè)計能力的團隊,而不僅僅是一個軟件公司。這個團隊可以是一家擁有強大軟件能力的芯片公司(例如,Nvidia就是這樣的一個擁有強大芯片-軟件協(xié)同設(shè)計能得芯片公司的例子),或者是芯片和科技公司的結(jié)合。只有在芯片設(shè)計過程中就開始編譯器和軟件生態(tài)的適配,才能夠在芯片發(fā)布的初期就能推出芯片性能和軟件性能同時都比肩Nvidia GPU +CUDA的產(chǎn)品,從而真正打破CUDA的護城河。

如何在芯片設(shè)計過程中就實現(xiàn)軟硬件協(xié)同設(shè)計?事實上,編譯器的設(shè)計是基于一種編程模型,把硬件抽象為一些不同的層次(例如內(nèi)部并行計算,內(nèi)存存取等等),并且進一步根據(jù)這些硬件抽象去構(gòu)建性能模型,來實現(xiàn)性能的預測和優(yōu)化。從芯片設(shè)計的角度,需要能充分理解編譯器層面的這些硬件抽象和性能模型并不會百分百準確,因此如何設(shè)計一個好的芯片架構(gòu)讓編譯器能夠較為容易地去優(yōu)化程序就很重要。而從編譯器的角度,如前所述每一款芯片的編程模型和硬件抽象層都會略有不同,因此需要在芯片設(shè)計周期中就介入開始編譯器的優(yōu)化和硬件建模。兩者相結(jié)合,就能實現(xiàn)在芯片推出時就同時有很強的芯片理論性能和高度優(yōu)化的編程語言/編譯器,最終實現(xiàn)整體解決方案能和Nvidia的GPU+CUDA做有力的競爭。

從這個角度來看,Google的TPU+XLA就是一個滿足之前所屬芯片-軟件協(xié)同設(shè)計的案例。Google的自研TPU過程中和XLA編譯器通過軟硬件結(jié)合設(shè)計實現(xiàn)整體高性能方案(這也是TPU在MLPerf benchmark上和Nvidia的方案性能接近甚至領(lǐng)先的重要原因)。雖然TPU并不對第三方銷售因此這個方案并不會完全打破Nvidia CUDA的護城河,但是它至少提供了一個打破Nvidia CUDA護城河的技術(shù)方向。從另一個方面,AMD和Intel等芯片公司在編譯器領(lǐng)域的方案目前還有待加強,但是通過和OpenAI等科技公司合作,通過在下一代AI產(chǎn)品的設(shè)計過程中就和Triton這樣的領(lǐng)先編譯器方案協(xié)同設(shè)計,可望能在未來追趕Nvidia GPU + CUDA的性能;而在性能接近之后,生態(tài)的培養(yǎng)就只是一個時間問題了。

綜上,我們認為,CUDA雖然是一個軟件生態(tài),但是如果想要打破CUDA的護城河,需要的是軟硬件協(xié)同設(shè)計。








審核編輯:劉清

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • CUDA
    +關(guān)注

    關(guān)注

    0

    文章

    125

    瀏覽量

    14387
  • GPU芯片
    +關(guān)注

    關(guān)注

    1

    文章

    306

    瀏覽量

    6387
  • 人工智能算法
    +關(guān)注

    關(guān)注

    0

    文章

    62

    瀏覽量

    5747
  • pytorch
    +關(guān)注

    關(guān)注

    2

    文章

    812

    瀏覽量

    14660
  • OpenAI
    +關(guān)注

    關(guān)注

    9

    文章

    1238

    瀏覽量

    9794

原文標題:誰能挑戰(zhàn)CUDA?

文章出處:【微信號:IC大家談,微信公眾號:IC大家談】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    RV生態(tài)又一里程碑:英偉達官宣CUDA將兼容RISC-V架構(gòu)!

    電子發(fā)燒友網(wǎng)報道(文/梁浩斌)英偉達生態(tài)護城河CUDA,從最初支持x86、Power?CPU架構(gòu),到2019年宣布支持Arm?CPU,不斷拓展在數(shù)據(jù)中心的應用生態(tài)。 在2019年至今的六年
    的頭像 發(fā)表于 07-19 00:04 ?6111次閱讀
    RV生態(tài)又一里程碑:英偉達官宣<b class='flag-5'>CUDA</b>將兼容RISC-V架構(gòu)!

    國產(chǎn)GPU再下一城,群起突圍英偉達+AMD

    上市。 ? 根據(jù)Jon Peddie Research的數(shù)據(jù),獨立GPU市場英偉達一家獨大,近年來持續(xù)維持超80%的市場份額,而AMD公司則占據(jù)剩余近20%的市場份額。自人工智能市場爆發(fā)式增長以來,英偉達憑借優(yōu)越的產(chǎn)品性能和完善的CUDA 生態(tài)筑造了護城河,領(lǐng)先優(yōu)勢不斷擴
    的頭像 發(fā)表于 07-07 08:59 ?6745次閱讀
    國產(chǎn)GPU再下一城,群起突圍英偉達+AMD

    首款全國產(chǎn)訓推一體AI芯片發(fā)布,兼容CUDA生態(tài)

    CUDA生態(tài)體系。該芯片支持從單機多卡到千卡級集群的靈活擴展,能效比達3.41 TFLOPS/W——在同等功
    的頭像 發(fā)表于 11-30 07:20 ?6691次閱讀
    首款全國產(chǎn)訓推一體AI芯片發(fā)布,兼容<b class='flag-5'>CUDA</b>生態(tài)

    開源不是削弱競爭力,而是新護城河的開始

    。 越來越多的企業(yè)在開源的浪潮中找到了機會,也有人提出疑問: 既然代碼都開源了,護城河還從哪里來?開源軟件還有壁壘可言嗎? 事實上,開源并不是沒有護城河,它只是 把護城河從“技術(shù)代碼”轉(zhuǎn)移到了“綜合能力” 。 一、開源不是免費的
    的頭像 發(fā)表于 11-06 14:26 ?112次閱讀

    從實驗室到工業(yè)場景:華芯邦AMS1117實測驗證國產(chǎn)LDO芯片技術(shù)“護城河

    關(guān)鍵參數(shù)與應用適配性上完全具備替代進口方案的技術(shù)底氣。 一、核心性能實測:穩(wěn)定參數(shù)構(gòu)筑技術(shù)護城河 以3.3V版本為測試對象,在25℃環(huán)境滿載條件下,華芯邦AMS1117展現(xiàn)出優(yōu)異的線性調(diào)節(jié)特性: 800mA負載下壓差僅0.9V,通過可編程電子負載進行0-1A分步
    的頭像 發(fā)表于 10-24 11:02 ?1405次閱讀
    從實驗室到工業(yè)場景:華芯邦AMS1117實測驗證國產(chǎn)LDO芯片技術(shù)“<b class='flag-5'>護城河</b>”

    突破電力桎梏:優(yōu)比施UPS電源如何重構(gòu)企業(yè)“韌性護城河

    電源憑借“全場景智能防護+全生命周期服務”的創(chuàng)新模式,正在為制造業(yè)、數(shù)據(jù)中心、醫(yī)療等關(guān)鍵行業(yè)構(gòu)建一道堅不可摧的“電力韌性護城河”。一、技術(shù)革新:從“被動防御”到“主
    的頭像 發(fā)表于 09-28 08:48 ?229次閱讀
    突破電力桎梏:優(yōu)比施UPS電源如何重構(gòu)企業(yè)“韌性<b class='flag-5'>護城河</b>”

    海伯森應用案例之--屏幕高精度3D缺陷檢測

    更是企業(yè)構(gòu)建質(zhì)量護城河、維護商業(yè)信譽、實現(xiàn)降本增效和風險規(guī)避的核心手段
    的頭像 發(fā)表于 09-26 11:38 ?250次閱讀
    海伯森應用案例之--屏幕高精度3D缺陷檢測

    aicube的n卡gpu索引該如何添加?

    請問有人知道aicube怎樣才能讀取n卡的gpu索引呢,我已經(jīng)安裝了cuda和cudnn,在全局的py里添加了torch,能夠調(diào)用gpu,當還是只能看到默認的gpu0,顯示不了gpu1,gpu0是集顯,訓練速度太感人了 你只有一塊英偉達的卡,aicube不支持AMD的顯卡,所以搜索到的只有一張卡
    發(fā)表于 07-25 08:18

    英偉達:CUDA 已經(jīng)開始移植到 RISC-V 架構(gòu)上

    ,著重介紹了將 CUDA 移植到 RISC-V 架構(gòu)的相關(guān)工作和計劃,展現(xiàn)了對 RISC-V 架構(gòu)的高度重視與積極布局。 ? Frans Sijstermanns 首先回顧了英偉達與 RISC-V 之間
    發(fā)表于 07-17 16:30 ?3828次閱讀

    技術(shù)奠定根基,瑞之辰數(shù)十項專利推動產(chǎn)業(yè)創(chuàng)新

    新“小巨人”企業(yè),構(gòu)建起了堅實的技術(shù)壁壘,為國內(nèi)傳感器產(chǎn)業(yè)高質(zhì)量發(fā)展注入強勁動力。專利構(gòu)建技術(shù)護城河,創(chuàng)新成果彰顯硬實力作為技術(shù)驅(qū)動型企業(yè),瑞之辰在研發(fā)投入上持續(xù)
    的頭像 發(fā)表于 07-16 15:16 ?1054次閱讀
    技術(shù)奠定根基,瑞之辰數(shù)十項專利推動產(chǎn)業(yè)創(chuàng)新

    進迭時空同構(gòu)融合RISC-V AI CPU的Triton算子編譯器實踐

    Pytorch已能做到100%替換CUDA,國內(nèi)也有智源研究院主導的FlagGems通用算子庫試圖構(gòu)建起不依賴CUDA的AI計算生態(tài),截至今日,F(xiàn)lagGems已進入Pyto
    的頭像 發(fā)表于 07-15 09:04 ?1254次閱讀
    進迭時空同構(gòu)融合RISC-V AI CPU的Triton算子編譯器實踐

    NVIDIA攜手Ansys和DCAI推進流體動力學量子算法發(fā)展

    為抓住這一機遇,Ansys 宣布,將利用在 Gefion 超級計算機上運行的 NVIDIA CUDA-Q 量子計算平臺,推進流體動力學應用的量子算法發(fā)展。
    的頭像 發(fā)表于 06-12 15:28 ?765次閱讀

    亞太政策協(xié)同下,CES Asia 2025助力老客戶構(gòu)建區(qū)域市場護城河#

    行業(yè)資訊
    jf_49600788
    發(fā)布于 :2025年06月03日 14:00:52

    使用NVIDIA CUDA-X庫加速科學和工程發(fā)展

    NVIDIA GTC 全球 AI 大會上宣布,開發(fā)者現(xiàn)在可以通過 CUDA-X 與新一代超級芯片架構(gòu)的協(xié)同,實現(xiàn) CPU 和 GPU 資源間深度自動化整合與調(diào)度,相較于傳統(tǒng)加速計算架構(gòu),該技術(shù)可使計算工程工具運行速度提升至原來的 11 倍,計算規(guī)模增加至 5 倍。
    的頭像 發(fā)表于 03-25 15:11 ?1185次閱讀

    借助PerfXCloud和dify開發(fā)代碼轉(zhuǎn)換器

    隨著深度學習與高性能計算的迅速發(fā)展,GPU計算的廣泛應用已成為推動技術(shù)革新的一股重要力量。對于GPU編程語言的選擇,CUDA和HIP是目前最為流行的兩種選擇。CUDA是由NVIDIA推出的編程平臺
    的頭像 發(fā)表于 02-25 09:36 ?1346次閱讀
    借助PerfXCloud和dify開發(fā)代碼轉(zhuǎn)換器