chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

解決算力需求的主流方法?數(shù)據(jù)流架構(gòu)讓AI芯片利用率提升10倍以上

Carol Li ? 來(lái)源:電子發(fā)燒友網(wǎng) ? 作者:李彎彎 ? 2021-11-26 07:27 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

電子發(fā)燒友網(wǎng)報(bào)道(文/李彎彎)現(xiàn)在各種應(yīng)用場(chǎng)景對(duì)算力的需求越來(lái)越大,為了滿足需求,各廠商不斷提升AI芯片的峰值算力,而傳統(tǒng)指令集架構(gòu)的芯片利用率卻難以提升,大多數(shù)在10-40%,這讓芯片的實(shí)測(cè)性能大打折扣,那么如何突破呢?

與指令集架構(gòu)不同,數(shù)據(jù)流架構(gòu)的顯著特點(diǎn)就是依托數(shù)據(jù)流的流動(dòng)次序控制計(jì)算執(zhí)行次序,而非指令執(zhí)行次序,因此把它用在AI上可以讓芯片利用率大幅提升,芯片利用率直至逼近100%。

數(shù)據(jù)流架構(gòu)如何提升芯片利用率

目前市場(chǎng)上的芯片主要有兩種架構(gòu)形式:一種是大家熟知的指令集架構(gòu),主要包括X86架構(gòu)、ARM架構(gòu)、精簡(jiǎn)指令集運(yùn)算RISC-V開(kāi)源架構(gòu),以及SIMD架構(gòu);另外一種就是數(shù)據(jù)流架構(gòu)。

指令集架構(gòu)采用馮諾依曼計(jì)算方式,通過(guò)指令執(zhí)行次序控制計(jì)算順序,并通過(guò)分離數(shù)據(jù)搬運(yùn)與數(shù)據(jù)計(jì)算提供計(jì)算通用性。數(shù)據(jù)流架構(gòu)采用數(shù)據(jù)流引擎計(jì)算,它允許編譯器同時(shí)調(diào)度多個(gè)順序循環(huán)和功能,具有更高的吞吐量和更低的延遲,顯著特點(diǎn)是能夠大幅提升芯片利用率。

如下圖左側(cè),指令集架構(gòu)首先執(zhí)行函數(shù)A,完成之后再執(zhí)行函數(shù)B,依次類(lèi)推直至執(zhí)行完所有程序。下圖右側(cè),在數(shù)據(jù)流架構(gòu)的情形下,編譯器可以安排每個(gè)函數(shù)在數(shù)據(jù)可用時(shí)立即執(zhí)行,這樣可以大大縮短等待和間隔的時(shí)間。

雖然數(shù)據(jù)流架構(gòu)沒(méi)有指令集架構(gòu)那么廣為人知,然而不可忽視的是,目前數(shù)據(jù)流架構(gòu)已經(jīng)在專(zhuān)用硬件中成功應(yīng)用,比如數(shù)字信號(hào)處理、網(wǎng)絡(luò)路由、圖形處理、遙感檢測(cè)、以及數(shù)據(jù)庫(kù)處理等,在許多軟件體系結(jié)構(gòu)中,包括數(shù)據(jù)庫(kù)引擎設(shè)計(jì)和并行計(jì)算框架,它也占據(jù)重要地位。

1994年,帝國(guó)理工學(xué)院教授、英國(guó)皇家工程院院士、鯤云科技聯(lián)合創(chuàng)始人和首席科學(xué)家Wayne Luk陸永青院士率先將數(shù)據(jù)流架構(gòu)定制化并運(yùn)用到AI領(lǐng)域。如今國(guó)內(nèi)外對(duì)數(shù)據(jù)流技術(shù)的關(guān)注日益增多,包括國(guó)外的SambaNova、Groq、Wave computing,以及國(guó)內(nèi)的鯤云科技。鯤云科技已經(jīng)于去年量產(chǎn)了全球首款數(shù)據(jù)流AI芯片CAISA,脫胎于斯坦福大學(xué)的SambaNova,產(chǎn)品處于小規(guī)模試用階段,而前谷歌TPU核心團(tuán)隊(duì)創(chuàng)辦的Groq,現(xiàn)在還未推出產(chǎn)品。

數(shù)據(jù)流架構(gòu)如何提升芯片利用率?我們通過(guò)全球唯一量產(chǎn)數(shù)據(jù)流AI芯片的公司鯤云科技來(lái)看一下,鯤云的核心技術(shù)就是他們的定制數(shù)據(jù)流CAISA架構(gòu),這是一款為深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)定制的高性能AI計(jì)算架構(gòu)。CAISA架構(gòu)通過(guò)數(shù)據(jù)流流動(dòng)次序來(lái)控制計(jì)算順序,消除指令操作導(dǎo)致的額外時(shí)間開(kāi)銷(xiāo),讓CNN網(wǎng)絡(luò)的算子級(jí)數(shù)據(jù)流圖可以實(shí)現(xiàn)高效流水線運(yùn)算。同時(shí)CAISA可并行執(zhí)行數(shù)據(jù)訪問(wèn)和數(shù)據(jù)計(jì)算,進(jìn)一步減少計(jì)算單元的空閑時(shí)間,最大化地利用芯片的計(jì)算資源,從而提供更高的實(shí)測(cè)算力。

圖片來(lái)自鯤云科技官網(wǎng)


鯤云科技合伙人、首席運(yùn)營(yíng)官王少軍博士在接受電子發(fā)燒友網(wǎng)采訪時(shí)表示,之所以投身于定制數(shù)據(jù)流架構(gòu)芯片的研發(fā),首先是鯤云科技有數(shù)據(jù)流架構(gòu)技術(shù)研發(fā)基礎(chǔ),公司創(chuàng)始團(tuán)隊(duì)來(lái)自數(shù)據(jù)流技術(shù)的源頭實(shí)驗(yàn)室,該實(shí)驗(yàn)室是全球三大定制計(jì)算實(shí)驗(yàn)室之一,從90年代開(kāi)始就深耕數(shù)據(jù)流架構(gòu)與不同領(lǐng)域的領(lǐng)域?qū)S眉軜?gòu)研發(fā),具備深厚的研發(fā)和迭代積累。

其次更為重要的是底層芯片技術(shù)存在算力瓶頸,隨著摩爾定律發(fā)展,依靠摩爾定律提升芯片性能的成本越來(lái)越高,比如一款5nm芯片的研發(fā)成本就高達(dá)數(shù)億美元,針對(duì)特定領(lǐng)域?qū)崿F(xiàn)領(lǐng)域?qū)S眉軜?gòu)的性能獲益會(huì)越來(lái)越高,直到大幅領(lǐng)先通用計(jì)算芯片,鯤云科技認(rèn)為在算力猛增的時(shí)代,行業(yè)需要一顆高算力性?xún)r(jià)比的人工智能專(zhuān)用芯片,數(shù)據(jù)流架構(gòu)的重大意義在于它突破了傳統(tǒng)芯片架構(gòu)對(duì)芯片利用率的約束,最大化發(fā)揮芯片本身的峰值性能。

因此鯤云科技在早期數(shù)據(jù)流架構(gòu)技術(shù)的積累下,針對(duì)人工智能領(lǐng)域開(kāi)發(fā)出CAISA架構(gòu),并最終實(shí)現(xiàn)從0到1完成首顆數(shù)據(jù)流AI芯片量產(chǎn)。

鯤云CAISA芯片利用率高達(dá)95.4%

鯤云科技于去年6月正式量產(chǎn)了全球首款數(shù)據(jù)流AI芯片CAISA,芯片利用率達(dá)到95.4%,面向數(shù)據(jù)中心和邊緣端AI推斷應(yīng)用,該芯片采用28nm工藝,這個(gè)制程并不高,不過(guò)因?yàn)樾酒寐矢?,即使在比較低的制程情況下,CAISA芯片也可以帶來(lái)很高的實(shí)測(cè)性能。

同時(shí)鯤云科技還基于CAISA芯片推出三款高性能計(jì)算平臺(tái),包括面向邊緣端的星空X3加速卡、面向數(shù)據(jù)中心的星空X9加速卡、面向邊緣AI應(yīng)用的星空X6A邊緣小站。星空X3加速卡面向8-16路視頻實(shí)時(shí)結(jié)構(gòu)化分析,星空X6A邊緣小站面向8路視頻處理應(yīng)用。

目前CAISA芯片及加速卡產(chǎn)品已在多領(lǐng)域?qū)崿F(xiàn)應(yīng)用,包括智慧安監(jiān)、智能制造、智慧電力、智慧城市等。王少軍博士認(rèn)為,對(duì)于這些場(chǎng)景,特別是國(guó)民生產(chǎn)支柱行業(yè)而言,“降本增效”是剛需,比如在油田的應(yīng)用場(chǎng)景,傳統(tǒng)的安防監(jiān)控系統(tǒng)已經(jīng)比較成熟,端側(cè)的攝像頭監(jiān)控系統(tǒng)基本部署完成,但視頻結(jié)構(gòu)化利用率低,單純依靠人工巡檢,作業(yè)區(qū)域廣,環(huán)境復(fù)雜,耗時(shí)長(zhǎng),數(shù)據(jù)采集維度單一,人工識(shí)別難度大,而且預(yù)警不及時(shí),漏報(bào)概率高,事后取證難。

針對(duì)這些行業(yè)痛點(diǎn),鯤云科技提供算法算力平臺(tái)一體化方案,基于數(shù)據(jù)流AI芯片的底層算力優(yōu)勢(shì),以及算力和算法聯(lián)合優(yōu)化的技術(shù)優(yōu)勢(shì),對(duì)現(xiàn)場(chǎng)接入的500路視頻進(jìn)行數(shù)據(jù)處理,對(duì)漏油、安全帽、工服、抽煙、打電話、人員闖入和采油設(shè)備運(yùn)行狀態(tài)進(jìn)行識(shí)別,可以做到從視頻流獲取到輸出報(bào)警時(shí)間為1s,為油區(qū)的生產(chǎn)情況提供更可靠的安全保障。在油田智能化升級(jí)過(guò)程中,數(shù)據(jù)流AI芯片就凸顯出了其市場(chǎng)價(jià)值,可以充分利舊、快速部署、控制成本。

未來(lái)解決算力需求的主流方法

數(shù)據(jù)流AI芯片的商用落地,證實(shí)了數(shù)據(jù)流和深度學(xué)習(xí)融合的價(jià)值,王少軍博士認(rèn)為數(shù)據(jù)流架構(gòu)具備成為下一代計(jì)算平臺(tái)的潛力。他談到,在計(jì)算平臺(tái)的演進(jìn)過(guò)程中,十倍核心性能指標(biāo)的提升,是計(jì)算架構(gòu)代際更替的主要指標(biāo),比如,從X86到RISC計(jì)算平臺(tái),能效比提升了10倍以上;從X86到CUDA計(jì)算平臺(tái),峰值算力也提升了超過(guò)10倍。

從歷史脈絡(luò)來(lái)看,相對(duì)上一代主流算力平臺(tái),新的算力平臺(tái)在某個(gè)指標(biāo)上需要高出10倍,才能實(shí)現(xiàn)實(shí)測(cè)性能的大幅提升,隨著摩爾定律的放緩,業(yè)界越來(lái)越關(guān)注下一代芯片應(yīng)該如何發(fā)展,而底層架構(gòu)創(chuàng)新是這幾年業(yè)界的共識(shí),行業(yè)需要新的技術(shù)路線來(lái)實(shí)現(xiàn)底層算力的突破。

王少軍博士認(rèn)為,下一代有望帶來(lái)10倍以上突破的指標(biāo)就是芯片利用率,這可能是未來(lái)解決算力需求的主流方法,而數(shù)據(jù)流架構(gòu)可以實(shí)現(xiàn)這一點(diǎn),鯤云科技認(rèn)為未來(lái)會(huì)有更多新興AI芯片廠商加入到數(shù)據(jù)流AI技術(shù)路線中。對(duì)于現(xiàn)有芯片廠商來(lái)說(shuō),技術(shù)路線的選擇是公司的一大核心戰(zhàn)略,而其已有的開(kāi)發(fā)生態(tài)和技術(shù)積累使其很難轉(zhuǎn)換賽道,但有些玩家也看到了數(shù)據(jù)流技術(shù)的價(jià)值,比如英偉達(dá)就推出了TensorCore,在指令集架構(gòu)的基礎(chǔ)上,該模塊采用了數(shù)據(jù)流技術(shù)的原理,來(lái)提升其在特定領(lǐng)域的芯片利用效率。

總結(jié)

整體來(lái)說(shuō),數(shù)據(jù)流架構(gòu)可以大幅提升芯片利用率,鯤云定制數(shù)據(jù)流CAISA新芯片的量產(chǎn)商用,也證實(shí)了數(shù)據(jù)流與深度學(xué)習(xí)融合的價(jià)值,給AI帶來(lái)了一個(gè)新的技術(shù)研究方向,相信未來(lái)會(huì)有更多AI芯片廠商加入到數(shù)據(jù)流架構(gòu)技術(shù)的研究中。

現(xiàn)在AI芯片在很多場(chǎng)景都有落地剛需,尤其在邊緣端,很多場(chǎng)景還存在“碎片化”需求,因此廠商除了考慮提升芯片利用率,做到更高算力性?xún)r(jià)比之外,還需要思考如何提升更通用、軟件易用性等,全面提升芯片性能,促進(jìn)專(zhuān)用AI芯片規(guī)模化量產(chǎn),賦能各產(chǎn)業(yè)智能化升級(jí)。


聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 鯤云科技
    +關(guān)注

    關(guān)注

    0

    文章

    60

    瀏覽量

    4477
  • 算力
    +關(guān)注

    關(guān)注

    2

    文章

    1477

    瀏覽量

    16651
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    華為發(fā)布AI容器技術(shù)Flex:ai,算平均利用率提升30%

    決方案。 ? 當(dāng)前,AI產(chǎn)業(yè)正處于高速發(fā)展的黃金時(shí)期,海量算需求如潮水般涌來(lái)。然而,算資源利用率偏低的問(wèn)題卻成為了產(chǎn)業(yè)發(fā)展的關(guān)鍵桎梏。具
    的頭像 發(fā)表于 11-26 08:31 ?7479次閱讀

    國(guó)產(chǎn)AI芯片真能扛住“算內(nèi)卷”?海思昇騰的這波操作藏了多少細(xì)節(jié)?

    最近行業(yè)都在說(shuō)“算AI的命門(mén)”,但國(guó)產(chǎn)芯片真的能接住這波需求嗎? 前陣子接觸到海思昇騰910B,實(shí)測(cè)下來(lái)有點(diǎn)超出預(yù)期——7nm工藝下算
    發(fā)表于 10-27 13:12

    【「AI芯片:科技探索與AGI愿景」閱讀體驗(yàn)】+AI芯片到AGI芯片

    建立的基礎(chǔ): ①算支柱②數(shù)據(jù)支柱③計(jì)算支柱 1)算AI有關(guān)的因素: ①晶體管數(shù)量②晶體管速度③
    發(fā)表于 09-18 15:31

    【「AI芯片:科技探索與AGI愿景」閱讀體驗(yàn)】+第二章 實(shí)現(xiàn)深度學(xué)習(xí)AI芯片的創(chuàng)新方法架構(gòu)

    的同時(shí),能夠利用更小、更快的數(shù)字格式,提升模型的整體性能。 1.3Transformer 模型中的矩陣乘法計(jì)算 2、存內(nèi)計(jì)算AI芯片 存內(nèi)計(jì)算已經(jīng)成為應(yīng)對(duì)大模型不斷增加的計(jì)算量和能耗
    發(fā)表于 09-12 17:30

    【「AI芯片:科技探索與AGI愿景」閱讀體驗(yàn)】+內(nèi)容總覽

    是展望未來(lái)的AGI芯片,并探討相關(guān)的發(fā)展和倫理話題。 各章的目錄名稱(chēng)如下: 第1章 大模型浪潮下,AI芯片需求與挑戰(zhàn)免費(fèi) 第2章 實(shí)現(xiàn)深度學(xué)習(xí)AI
    發(fā)表于 09-05 15:10

    從 “被動(dòng)維修” 到 “主動(dòng)管理”:這套系統(tǒng)設(shè)備利用率提升 30%

    從 “被動(dòng)維修” 到 “主動(dòng)管理”,是設(shè)備管理模式的轉(zhuǎn)變,更是數(shù)字化轉(zhuǎn)型的關(guān)鍵一步。在激烈的市場(chǎng)競(jìng)爭(zhēng)中,能讓設(shè)備穩(wěn)定高效運(yùn)行的企業(yè),才能在效率與成本上占據(jù)優(yōu)勢(shì)。這套提升設(shè)備利用率 30% 的系統(tǒng),為企業(yè)高質(zhì)量發(fā)展提供了有效路徑。
    的頭像 發(fā)表于 09-04 10:04 ?712次閱讀
    從 “被動(dòng)維修” 到 “主動(dòng)管理”:這套系統(tǒng)<b class='flag-5'>讓</b>設(shè)備<b class='flag-5'>利用率</b><b class='flag-5'>提升</b> 30%

    AI 芯片浪潮下,職場(chǎng)晉升新契機(jī)?

    、新架構(gòu)不斷涌現(xiàn)。能夠在工作中提出創(chuàng)新性的解決方案,推動(dòng) AI 芯片性能、功耗、成本等關(guān)鍵指標(biāo)的優(yōu)化,將極大提升在職稱(chēng)評(píng)審中的競(jìng)爭(zhēng)。例如,
    發(fā)表于 08-19 08:58

    睿海光電800G光模塊助力全球AI基建升級(jí)

    單通道100Gbps速率下的信號(hào)同步性。 搭配24芯/16芯MPO連接器,兼容主流數(shù)據(jù)中心布線標(biāo)準(zhǔn),插入損耗低于0.5dB,滿足10km以下短距高效互連需求。 硅光(SiPh)集成方案
    發(fā)表于 08-13 19:05

    【書(shū)籍評(píng)測(cè)活動(dòng)NO.64】AI芯片,從過(guò)去走向未來(lái):《AI芯片:科技探索與AGI愿景》

    創(chuàng)新、應(yīng)用創(chuàng)新、系統(tǒng)創(chuàng)新五個(gè)部分,接下來(lái)一一解讀。 算法創(chuàng)新 在深度學(xué)習(xí)AI芯片的創(chuàng)新上,書(shū)中圍繞大模型與Transformer算法的算需求,提出了一系列
    發(fā)表于 07-28 13:54

    拼版怎么拼好,板廠經(jīng)常說(shuō)利用率太低,多收費(fèi)用?

    做板的時(shí)候,板廠經(jīng)常說(shuō)我拼版利用率太低,要多收取費(fèi)用,哪位大神知道怎么算利用率
    發(fā)表于 05-14 13:42

    mes工廠管理系統(tǒng):如何設(shè)備利用率提升50%?

    在制造業(yè)競(jìng)爭(zhēng)日益激烈的今天,設(shè)備利用率直接決定了企業(yè)的盈利能力。許多工廠管理者都在思考同一個(gè)問(wèn)題:如何在不增加設(shè)備投資的情況下,現(xiàn)有產(chǎn)能發(fā)揮出最大價(jià)值?MES工廠管理系統(tǒng)正是解決這一難題的金鑰匙
    的頭像 發(fā)表于 05-09 15:55 ?687次閱讀
    mes工廠管理系統(tǒng):如何<b class='flag-5'>讓</b>設(shè)備<b class='flag-5'>利用率</b><b class='flag-5'>提升</b>50%?

    DeepSeek MoE架構(gòu)下的網(wǎng)絡(luò)負(fù)載如何優(yōu)化?解鎖90%網(wǎng)絡(luò)利用率的關(guān)鍵策略

    、All-to-All等),網(wǎng)絡(luò)面臨高并發(fā)、低延遲、無(wú)損傳輸?shù)膰?yán)苛需求。然而,傳統(tǒng)以太網(wǎng)的網(wǎng)絡(luò)利用率長(zhǎng)期徘徊在35%~40%,成為制約AI釋放的關(guān)鍵瓶頸。
    的頭像 發(fā)表于 04-28 12:04 ?782次閱讀
    DeepSeek MoE<b class='flag-5'>架構(gòu)</b>下的網(wǎng)絡(luò)負(fù)載如何優(yōu)化?解鎖90%網(wǎng)絡(luò)<b class='flag-5'>利用率</b>的關(guān)鍵策略

    首創(chuàng)開(kāi)源架構(gòu),天璣AI開(kāi)發(fā)套件端側(cè)AI模型接入得心應(yīng)手

    猛增50,將訓(xùn)練時(shí)間從一整天縮短至半小時(shí)。更快的端側(cè)LoRA訓(xùn)練,端側(cè)AI基于用戶端側(cè)數(shù)據(jù)提升個(gè)性化體驗(yàn),
    發(fā)表于 04-13 19:52

    DeepSeek推動(dòng)AI需求:800G光模塊的關(guān)鍵作用

    數(shù)據(jù)傳輸速率,減少帶寬瓶頸,成為數(shù)據(jù)中心和AI集群架構(gòu)優(yōu)化的重點(diǎn)。光模塊速率的躍升不僅提升了傳輸效率,也為大規(guī)模并行計(jì)算任務(wù)提供了必要的帶寬
    發(fā)表于 03-25 12:00

    DeepSeek驅(qū)動(dòng)AI市場(chǎng)升溫,智算中心利用率提升

    據(jù)多位業(yè)內(nèi)人士透露,DeepSeek在業(yè)界的迅速部署與應(yīng)用,為AI市場(chǎng)帶來(lái)了新的熱潮。自年后開(kāi)工兩周以來(lái),算設(shè)備租賃及采購(gòu)的咨詢(xún)量顯著增長(zhǎng),市場(chǎng)需求主要聚焦于英偉達(dá)產(chǎn)品,尤其是其
    的頭像 發(fā)表于 02-19 14:00 ?785次閱讀