chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

國產(chǎn)高性能GPGPU的破局點(diǎn)在哪

lPCU_elecfans ? 來源:電子發(fā)燒友網(wǎng) ? 作者:吳子鵬 ? 2021-09-14 09:58 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

電子發(fā)燒友網(wǎng)報(bào)道(文/吳子鵬)GPU誕生的原因是人們需要更好地處理3D游戲中的圖形渲染,因此GPU擁有很多很小的內(nèi)核增加并行處理能力,然后通過圖形流水線的模式做圖形處理。由于天生核心數(shù)量多,因此GPU計(jì)算能力增加迅速,業(yè)界普遍認(rèn)為2004年前后GPU計(jì)算能力已經(jīng)超過CPU,此后兩者之間的算力差距越拉越大。

擁有強(qiáng)大算力之后,更多的應(yīng)用開始找上GPU,比如氣候檢測,還有時(shí)下大熱的深度學(xué)習(xí)等??焖僭鲩L的計(jì)算需求也開始改變GPU,早期用于通用計(jì)算的GPU實(shí)際上還是遵循圖形處理的原則來設(shè)計(jì),內(nèi)部依然有Vertex級處理器以及Fragment級處理器,面向其他運(yùn)算需求顯得“不倫不類”,直到英偉達(dá)設(shè)計(jì)出了統(tǒng)一處理器。

此后,GPGPU在任務(wù)清晰且計(jì)算量要求大的領(lǐng)域,比如矩陣的計(jì)算上優(yōu)勢愈發(fā)凸顯。受益于人工智能、大數(shù)據(jù)和萬物互聯(lián)等多層buff加持,越來越多的行業(yè)開始提出這樣的計(jì)算需求,GPGPU前景光明且市場巨大。在這樣的背景下,目前國內(nèi)已經(jīng)涌現(xiàn)出一批GPGPU企業(yè),沐曦集成電路(上海)有限公司(以下簡稱:沐曦)便是其中之一,該公司致力于提供高性能GPU。

軟件棧決定了用戶群大小和用戶體驗(yàn)

回顧GPGPU的發(fā)展,我們發(fā)現(xiàn)市場需求不僅是改變了GPGPU的核心布局,同時(shí)為了兼顧通用性,軟件端也發(fā)展了巨大的改變,從OpenGL演化出統(tǒng)一計(jì)算架構(gòu)CUDA。沐曦光啟智能研究院科學(xué)家李兆石在接受電子發(fā)燒友采訪時(shí)表示,“GPGPU作為一款通用芯片,在面對不同客戶層出不窮的新需求時(shí),需要保證它的可編程性。可編程性是由完善的軟件棧來保證的。

對于所有GPGPU來說,軟件棧的規(guī)劃直接決定了GPGPU用戶受眾群體大小和用戶使用體驗(yàn)。因此所有的GPGPU,不論是否國產(chǎn),都會擁有自己的運(yùn)算平臺,即軟件棧。比如AMD面向它的MI系列GPGPU,對標(biāo)CUDA,開發(fā)了RoCM,并在RoCM之上移植了PyTorch等AI軟件框架?!?/p>

他強(qiáng)調(diào)GPGPU上軟件棧是至關(guān)重要的,對此他通過分析英偉達(dá)的CUDA來解釋原因?!癎PGPU芯片非常龐大,最新的Nvidia A100上有542億個(gè)晶體管,它們構(gòu)成了6912個(gè)并發(fā)執(zhí)行的CUDA內(nèi)核,以及為了保證CUDA內(nèi)核的數(shù)據(jù)供給而設(shè)計(jì)的一套復(fù)雜的存儲子系統(tǒng)。

考慮到人的思維方式是串行的,用戶很難處理這么多的并發(fā)執(zhí)行單元,因此這么多并發(fā)的硬件資源不可能直接暴露給用戶。所以我們需要有一套軟件棧將底層硬件架構(gòu)的特征抽象成易于理解的編程模型提供給用戶,從而讓用戶充分開發(fā)GPGPU的潛力。”

李兆石講到,“然而抽象是有代價(jià)的:抽象掩藏掉的硬件細(xì)節(jié)越多,編程模型對用戶越友好,那么它會越難充分發(fā)揮硬件的全部潛力。因此GPGPU的抽象是分層次的:越靠近用戶的層次越易用,同時(shí)該層次的性能或者靈活性會越差。這樣特定應(yīng)用領(lǐng)域的用戶,如果重心在開發(fā)效率,可以選擇高層次的編程模型;而需要榨取GPGPU性能潛力的用戶可以選擇低層次的編程模型。這也正是我們把GPGPU的編程模型稱為‘軟件?!脑?。”

目前,國產(chǎn)GPGPU顯然還是跟隨者的狀態(tài),雖然廠商在積極地推進(jìn)架構(gòu)創(chuàng)新和軟件創(chuàng)新,但和英偉達(dá)之間的差距還是巨大的,因此從英偉達(dá)身上國產(chǎn)GPU還有很多經(jīng)驗(yàn)可以汲取。李兆石對英偉達(dá)在GPGPU上面的軟件實(shí)力有著清晰的認(rèn)識。

他指出:“英偉達(dá)的AI軟件棧自底向上至少可以分成5層:SASS是硬件實(shí)際執(zhí)行的指令集,類似CPU的匯編;PTX是虛擬指令集,為不同代的Nvidia GPGPU提供了一個(gè)統(tǒng)一的編程接口;CUDA是用戶在編寫高性能GPGPU程序時(shí)最主要的編程模型;

cuBLAS, cuDNN, cuFFT, CUTLASS等運(yùn)算庫則讓用戶可以通過調(diào)用Nvidia針對自家GPGPU高度定制的算子庫,不需要花費(fèi)太多精力進(jìn)行性能調(diào)優(yōu)就可以享受到Nvidia GPGPU最好的性能,但它們靈活性受限;TensorRT, Triton, Megastron則是Nvidia針對特定AI應(yīng)用場景深度定制,讓AI類用戶開箱即用的軟件平臺?!?/p>

可以看出,CUDA處于中間層。CUDA提供了硬件的直接訪問接口,而不必像傳統(tǒng)方式一樣必須依賴圖形API接口來實(shí)現(xiàn)GPU的訪問。CUDA采用C語言作為編程語言提供大量的高性能計(jì)算指令開發(fā)能力,使開發(fā)者能夠在GPU的強(qiáng)大計(jì)算能力的基礎(chǔ)上建立起一種效率更高的密集數(shù)據(jù)計(jì)算解決方案。

李兆石認(rèn)為:“對于新興的國產(chǎn)GPGPU而言,構(gòu)建自己的軟件棧時(shí),首要任務(wù)是先打好基礎(chǔ),對標(biāo)CUDA及以下的抽象層次,充分發(fā)揮自己芯片的特色,開發(fā)出一套用戶可用、易用的編程模型,正所謂‘不積硅步無以至千里’。然后再結(jié)合目標(biāo)客戶的需求,對標(biāo)TensorRT等框架,定制開箱即用的高層次編程模型。”

在此,他談到了沐曦的規(guī)劃。當(dāng)前,沐曦GPGPU的芯片架構(gòu)和軟件棧是同時(shí)開發(fā)的。芯片架構(gòu)上與現(xiàn)有GPGPU擁有不同的新特性,在設(shè)計(jì)之初都充分考慮了如何在各個(gè)層次的編程模型中進(jìn)行抽象。這樣,沐曦可以保證用戶即可以平滑地從現(xiàn)有GPGPU遷移到沐曦的GPGPU上,又能在使用沐曦的軟件棧時(shí)充分享受到新特性帶來的更好體驗(yàn)。

著眼于未來的發(fā)展,英偉達(dá)CUDA既是國產(chǎn)GPGPU在并行計(jì)算架構(gòu)方面的老師,也是最大的勁敵。目前,CUDA已經(jīng)能夠支持DX12這樣的API,也支持C語言、Fortran、OpenCL等計(jì)算語言,其生態(tài)屬性非常強(qiáng)大。

并且根據(jù)英偉達(dá)官方的說法,CUDA未來的發(fā)展是開放性的技術(shù)平臺,支持更多的并行計(jì)算需求。這樣的CUDA會給國產(chǎn)GPGPU在軟件棧方面的發(fā)展造成巨大的困擾,因此李兆石呼吁:“國內(nèi)各家GPGPU創(chuàng)業(yè)公司都有自研IP和軟件棧的規(guī)劃。從公開的信息來看,各家公司的軟件棧規(guī)劃都存在一定的共性。希望未來大家可以多多相互交流,共同進(jìn)步?!?/p>

傳統(tǒng)GPU的軟件棧很難遷移到GPGPU上

GPGPU在GPU的基礎(chǔ)上進(jìn)行了優(yōu)化設(shè)計(jì),使之更適合高性能并行計(jì)算,并能使用更高級別的編程語言,在性能、易用性和通用性上更加強(qiáng)大。相較而言,國產(chǎn)GPU的啟動比國產(chǎn)GPGPU要提前一些,是否有經(jīng)驗(yàn)可循呢?

李兆石認(rèn)為:“傳統(tǒng)GPU主要面向圖形渲染類應(yīng)用。對于Nvidia來說,圖形渲染類應(yīng)用的軟件棧與GPGPU的軟件棧,只有底層的SASS, PTX和少量CUDA是共享的。再往上走的圖形渲染API層,如OpenGL, Vulkan等,目前GPGPU還不需要支持。

國產(chǎn)傳統(tǒng)的圖形渲染GPU,大多基于自研的匯編層,對提供圖形渲染API層提供支持。我們的底層設(shè)計(jì)(與Nvidia SASS和PTX同層次的匯編)與Nvidia及其它國產(chǎn)GPU是不同的,因此傳統(tǒng)的圖形渲染GPU軟件棧難以直接遷移到GPGPU上?!?/p>

應(yīng)用領(lǐng)域方面,GPGPU將應(yīng)用擴(kuò)展到了圖形之外,在科學(xué)計(jì)算、區(qū)塊鏈、大數(shù)據(jù)處理、工程計(jì)算、金融、基因等方面都有重要的應(yīng)用,但更多是以服務(wù)器的形態(tài)提供高算力。

在應(yīng)用層面,目前傳統(tǒng)GPU和CPU的融合趨勢已經(jīng)顯現(xiàn),比如AMD APU系列,蘋果的M1芯片、以及大多數(shù)手機(jī)SoC芯片等,它們的CPU和GPU都是直接在物理上共享內(nèi)存。這些芯片通過CPU和GPU的緊密耦合,避免了CPU和GPU之間數(shù)據(jù)跨芯片搬運(yùn)的能量消耗。

李兆石表示:“對于GPGPU而言,目前市面上還沒有成熟的產(chǎn)品,讓CPU和GPGPU在同一個(gè)die上緊密耦合。造成這一現(xiàn)象的原因有兩個(gè)。首先,CPU和GPGPU之間的通信延遲或帶寬,在目前流行的GPGPU應(yīng)用中不是系統(tǒng)的瓶頸。

GPGPU的編程模型中,CPU與GPGPU間的通信用于處理應(yīng)用中的控制邏輯。而GPGPU通常用來處理計(jì)算密集型應(yīng)用或者訪存密集型應(yīng)用,其瓶頸在于GPGPU上的計(jì)算資源、或者GPGPU與顯存(GDDR或者HBM)之間的通信帶寬。

控制密集型應(yīng)用很少大規(guī)模部署在GPGPU上。其次,GPGPU通常以加速卡的形式部署在服務(wù)器上,服務(wù)器廠商出于成本、可靠性和可擴(kuò)展性的考慮,會分別采購CPU和GPGPU?!?/p>

“不過,對于CPU和GPGPU的融合,我們還是要以發(fā)展的眼光看問題。從應(yīng)用需求的角度,隨著張量加速單元和HBM技術(shù)在GPGPU的普及,GPGPU的計(jì)算和訪存能力快速提升。正所謂‘按下葫蘆浮起瓢’,此時(shí)CPU和GPGPU的通信代價(jià)正在變得越來越顯著。

尤其當(dāng)我們考慮到新興的Pytorch等AI框架的動態(tài)圖特性會引入非常頻繁的CPU-GPGPU之間的交互時(shí),低延遲的CPU-GPGPU緊耦合架構(gòu)就變得更有價(jià)值了。從系統(tǒng)設(shè)計(jì)的角度,新興的Chiplet技術(shù)可以有效降低封裝內(nèi)CPU和GPGPU緊耦合的設(shè)計(jì)成本。所以我們也很期待新的應(yīng)用需求和封裝技術(shù)可以使能未來的融合CPU-GPGPU芯片?!?李兆石在采訪中講到。

聲明:本文由電子發(fā)燒友原創(chuàng),轉(zhuǎn)載請注明以上來源。如需入群交流,請?zhí)砑游⑿舉lecfans999,投稿爆料采訪需求,請發(fā)郵箱huangjingjing@elecfans.com。

編輯:jq

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 芯片
    +關(guān)注

    關(guān)注

    462

    文章

    53576

    瀏覽量

    459451
  • 3D
    3D
    +關(guān)注

    關(guān)注

    9

    文章

    2993

    瀏覽量

    113873
  • cpu
    cpu
    +關(guān)注

    關(guān)注

    68

    文章

    11223

    瀏覽量

    223015
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    28

    文章

    5102

    瀏覽量

    134485

原文標(biāo)題:國產(chǎn)高性能GPGPU的破局點(diǎn)是什么?

文章出處:【微信號:elecfans,微信公眾號:電子發(fā)燒友網(wǎng)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    國產(chǎn)高性能工控機(jī):RK3588核心與AMP擴(kuò)展,重塑AGV控制中樞

    NIS-5130-AGV深度融合高性能國產(chǎn)處理器、超凡的接口擴(kuò)展能力與堅(jiān)固的工業(yè)設(shè)計(jì),為復(fù)雜的工業(yè)現(xiàn)場控制與通信任務(wù)提供了理想的計(jì)算平臺。
    的頭像 發(fā)表于 12-08 15:46 ?594次閱讀
    <b class='flag-5'>國產(chǎn)</b><b class='flag-5'>高性能</b>工控機(jī):RK3588核心與AMP擴(kuò)展,重塑AGV控制中樞

    國產(chǎn)傳感器產(chǎn)業(yè)發(fā)展局點(diǎn)或在這里

    ,是“十四五”規(guī)劃的收官之年,亦是“十五五”計(jì)劃的部署之年。 ? ? 在“十四五”期間,我國傳感器產(chǎn)業(yè)取得什么成績?“十五五”傳感器產(chǎn)業(yè)局方向在哪里? ? ? 這里最直觀的數(shù)據(jù),就是中國傳感器市場規(guī)模的快速增長。 ? ? 據(jù)權(quán)威機(jī)構(gòu)工信部賽迪研究院
    的頭像 發(fā)表于 10-29 18:13 ?714次閱讀
    <b class='flag-5'>國產(chǎn)</b>傳感器產(chǎn)業(yè)發(fā)展<b class='flag-5'>破</b><b class='flag-5'>局點(diǎn)</b>或在這里

    局·領(lǐng)航 | 匠芯創(chuàng)M7000系列六款總線型工業(yè)級高性能實(shí)時(shí)處理器DSP重磅發(fā)布

    匠芯創(chuàng)科技于慕尼黑展會國際電機(jī)驅(qū)動技術(shù)論壇重磅發(fā)布M7000系列工業(yè)級高性能DSP實(shí)時(shí)處理器及全場景解決方案。全球產(chǎn)業(yè)專家、企業(yè)代表及媒體齊聚,共同見證國產(chǎn)高性能芯片的技術(shù)突破——這場備受矚目
    的頭像 發(fā)表于 08-07 15:38 ?1268次閱讀
    <b class='flag-5'>破</b>局·領(lǐng)航 | 匠芯創(chuàng)M7000系列六款總線型工業(yè)級<b class='flag-5'>高性能</b>實(shí)時(shí)處理器DSP重磅發(fā)布

    中科曙光構(gòu)建全國產(chǎn)化基因組學(xué)高性能計(jì)算平臺

    近日,中科曙光承建的國內(nèi)某研究所基因組學(xué)高性能計(jì)算平臺正式交付。這是國內(nèi)生物信息學(xué)領(lǐng)域首個(gè)從底層硬件到上層軟件實(shí)現(xiàn)完全自主可控,并深度融合高性能計(jì)算與人工智能算力的平臺,成功填補(bǔ)了該領(lǐng)域國產(chǎn)高端算力的空白。
    的頭像 發(fā)表于 06-26 17:36 ?841次閱讀

    東軟:以數(shù)據(jù)價(jià)值化為局點(diǎn) 用AI構(gòu)建城市新基礎(chǔ)設(shè)施

    數(shù)字經(jīng)濟(jì)創(chuàng)新生態(tài)的戰(zhàn)略布局與實(shí)踐成果。 數(shù)據(jù)作為新型生產(chǎn)要素,是數(shù)字經(jīng)濟(jì)的基礎(chǔ),是民生改善的基石,是產(chǎn)業(yè)創(chuàng)新的動力,也是城市發(fā)展的關(guān)鍵。東軟以數(shù)據(jù)價(jià)值化為局點(diǎn),將數(shù)字技術(shù)創(chuàng)新與產(chǎn)業(yè)創(chuàng)新深度融合, 用數(shù)據(jù)和AI構(gòu)建城市新基礎(chǔ)設(shè)施,推動城市
    的頭像 發(fā)表于 06-18 14:31 ?496次閱讀

    芯原可擴(kuò)展的高性能GPGPU-AI計(jì)算IP賦能汽車與邊緣服務(wù)器AI解決方案

    芯原股份 (芯原,股票代碼:688521.SH) 日前宣布其 高性能、可擴(kuò)展的GPGPU-AI計(jì)算IP的最新進(jìn)展,這些IP現(xiàn)已為新一代汽車電子和邊緣服務(wù)器應(yīng)用提供強(qiáng)勁賦能 。通過將可編程并行計(jì)算能力
    的頭像 發(fā)表于 06-16 10:44 ?1119次閱讀

    海光GM0-5601-03主板:高性能國產(chǎn)工業(yè)計(jì)算平臺的核心引擎

    海光GM0-5601-03主板是一款基于國產(chǎn)海光處理器設(shè)計(jì)的高性能ATX工業(yè)主板,專為復(fù)雜工業(yè)場景和多任務(wù)處理需求打造。其強(qiáng)大的擴(kuò)展能力、豐富的接口配置以及穩(wěn)定的運(yùn)行性能,使其成為工業(yè)自動化、智能監(jiān)控、數(shù)據(jù)通信等領(lǐng)域的理想選擇。
    的頭像 發(fā)表于 04-12 09:50 ?660次閱讀

    飛騰ITX主板D2000 ITX:國產(chǎn)高性能計(jì)算的未來之選

    引言 在信息技術(shù)飛速發(fā)展的今天,國產(chǎn)芯片的崛起為全球科技產(chǎn)業(yè)注入了新的活力。飛騰D2000 ITX主板,作為國產(chǎn)高性能計(jì)算領(lǐng)域的杰出代表,憑借其卓越的性能、緊湊的設(shè)計(jì)和廣泛的應(yīng)用場景,
    的頭像 發(fā)表于 03-12 15:44 ?1104次閱讀
    飛騰ITX主板D2000 ITX:<b class='flag-5'>國產(chǎn)</b><b class='flag-5'>高性能</b>計(jì)算的未來之選

    SC2121、SC2161和SC2167解鎖高性能RDC國產(chǎn)替代方案

    SC2121、SC2161和SC2167解鎖高性能RDC國產(chǎn)替代方案
    的頭像 發(fā)表于 03-11 09:55 ?1184次閱讀
    SC2121、SC2161和SC2167解鎖<b class='flag-5'>高性能</b>RDC<b class='flag-5'>國產(chǎn)</b>替代方案

    PAD國產(chǎn)飛騰主板,開啟高性能運(yùn)算時(shí)代

    隨著AI應(yīng)用的爆發(fā),算力基礎(chǔ)設(shè)施的需求不斷增加。高性能服務(wù)器和集群技術(shù)在數(shù)據(jù)中心、科研機(jī)構(gòu)和高校等領(lǐng)域有著廣泛的應(yīng)用前景?。未來,高性能計(jì)算將繼續(xù)推動技術(shù)創(chuàng)新和應(yīng)用拓展。
    的頭像 發(fā)表于 02-27 08:49 ?680次閱讀

    國產(chǎn)高性能晶振兼容SiTime助力智能網(wǎng)聯(lián)汽車關(guān)鍵技術(shù)

    國產(chǎn)高性能晶振兼容SiTime助力智能網(wǎng)聯(lián)汽車關(guān)鍵技術(shù)
    的頭像 發(fā)表于 02-20 10:26 ?903次閱讀
    <b class='flag-5'>國產(chǎn)</b><b class='flag-5'>高性能</b>晶振兼容SiTime助力智能網(wǎng)聯(lián)汽車關(guān)鍵技術(shù)

    國產(chǎn)高性能AFE打造一站式儲能電池包高壓監(jiān)測解決方案

    國產(chǎn)高性能AFE打造一站式儲能電池包高壓監(jiān)測解決方案
    的頭像 發(fā)表于 02-10 09:34 ?872次閱讀
    <b class='flag-5'>國產(chǎn)</b><b class='flag-5'>高性能</b>AFE打造一站式儲能電池包高壓監(jiān)測解決方案

    國產(chǎn)工控主板,高性能需求產(chǎn)業(yè)的發(fā)展的核心動力

    隨著科技時(shí)代的發(fā)展,我們的國產(chǎn)主板也是經(jīng)歷了一代又一代的更新,國產(chǎn)主板的更新?lián)Q代意味著它性能的提升、功能配置的豐富。而高性能國產(chǎn)主板也更貼
    的頭像 發(fā)表于 02-05 09:02 ?531次閱讀

    國產(chǎn)高性能CPU--米爾瑞芯微RK3576賦能AIoT、工業(yè)、智能顯示終端

    。 給大家看下RK3576的框圖: 通過這些參數(shù),你會發(fā)現(xiàn),這款國產(chǎn)高性能CPU適用于工業(yè)、AIoT、邊緣計(jì)算、智能移動終端以及其他多種數(shù)字多媒體等場景。 米爾基于RK3576核心板/開發(fā)板 上面介紹
    發(fā)表于 01-03 17:05