chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

如何對推理加速器進(jìn)行基準(zhǔn)測試

星星科技指導(dǎo)員 ? 來源:嵌入式計(jì)算設(shè)計(jì) ? 作者:Geoff Tate ? 2022-06-06 16:02 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

在過去的十年中,神經(jīng)網(wǎng)絡(luò)已經(jīng)從有趣的研究發(fā)展到廣泛應(yīng)用于語言翻譯、關(guān)鍵詞識(shí)別和對象識(shí)別。

長期以來,神經(jīng)網(wǎng)絡(luò)僅限于具有運(yùn)行神經(jīng)網(wǎng)絡(luò)所需的計(jì)算資源的數(shù)據(jù)中心,最初是在微處理器上,然后越來越多地在 GPU 上,因?yàn)?GPU 具有運(yùn)行神經(jīng)網(wǎng)絡(luò)所需的更多 MAC。

英偉達(dá)最近宣布,其推理產(chǎn)品的銷售額首次超過了培訓(xùn)產(chǎn)品的銷售額。

隨著推理移動(dòng)到電力和成本預(yù)算受限的邊緣(數(shù)據(jù)中心之外的任何地方),客戶正在尋找能夠以他們能夠承受的價(jià)格和電力提供所需吞吐量的推理加速器。

本博客討論如何對推理加速器進(jìn)行基準(zhǔn)測試,以找到最適合您的神經(jīng)網(wǎng)絡(luò)的加速器;以及客戶在學(xué)習(xí)曲線上通常如何發(fā)展他們對基準(zhǔn)測試的思考。神經(jīng)網(wǎng)絡(luò)推理令人興奮但也很復(fù)雜,因此最初非常令人困惑。當(dāng)客戶解決問題時(shí),燈會(huì)逐步亮起。

首先讓我們回顧一下推理加速器的常見元素以及它們運(yùn)行的??神經(jīng)網(wǎng)絡(luò)。

所有推理加速器的共同元素

所有推理加速器都有以下共同點(diǎn):

MAC(很多)

片上 SRAM

片外DRAM

控制邏輯

所有單元之間的片上互連

推理加速器之間的元素和組織的數(shù)量差異很大;組織 MAC 的方法;MAC 與 SRAM/DRAM 的比率;以及它們之間的數(shù)據(jù)如何流動(dòng)對于確定加速器的實(shí)際加速情況至關(guān)重要。

所有神經(jīng)網(wǎng)絡(luò)模型的共同元素

所有神經(jīng)網(wǎng)絡(luò)都包含以下元素:

數(shù)值選擇:32 位浮點(diǎn)(模型訓(xùn)練時(shí)使用的),

16 位浮點(diǎn)、16 位整數(shù)或 8 位整數(shù)

輸入數(shù)據(jù):圖像、音頻、文本等

幾十到幾百層,每層處理前一層的激活,并將輸出激活傳遞到下一層

模型每一層的權(quán)重

TOPS - 推理基準(zhǔn)測試的第一階段

剛接觸神經(jīng)網(wǎng)絡(luò)性能估計(jì)的客戶幾乎總是先問“你的芯片/模塊/板有多少 TOPS?” 因?yàn)樗麄兗僭O(shè) TOPS 和吞吐量相關(guān) - 但事實(shí)并非如此。

TOPS 是每秒萬億次操作的首字母縮寫詞,可用 MAC 的數(shù)量(以千計(jì))乘以 MAC 運(yùn)行的頻率(以千兆赫茲為單位)乘以 2(一個(gè) MAC = 兩個(gè)操作)。因此,簡單來說,1GHz 的 1K MAC = 2 TOPS。

更多 MAC 意味著更多 TOPS。

重要的是內(nèi)存組織和互連是否可以保持 MAC 的“饋送”,從而使它們得到高度利用,從而在模型上產(chǎn)生高吞吐量。

ResNet-50 - 推理基準(zhǔn)測試的第二階段

一旦客戶意識(shí)到重要的指標(biāo)是吞吐量,他們通常會(huì)繼續(xù)詢問,“ResNet-50 的芯片/模塊/板的推理/秒吞吐量是多少?”

MLPerf 最近發(fā)布了眾多制造商提交的 ResNet-50 基準(zhǔn)。

ResNet-50 是一種流行的 CNN(卷積神經(jīng)網(wǎng)絡(luò)),用于對圖像進(jìn)行分類,多年來一直廣泛用于基準(zhǔn)測試。

問題是,沒有客戶真正使用 ResNet-50。

客戶詢問 ResNet-50 是因?yàn)樗麄兗僭O(shè)他們模型上的芯片/模塊/板的吞吐量將與 ResNet-50 吞吐量相關(guān)。

這個(gè)假設(shè)的兩個(gè)主要缺陷是:

ResNet-50 使用 224x224 圖像,但大多數(shù)客戶希望處理 16 倍以上的百萬像素圖像。ResNet-50 對于 224x224 圖像可能在芯片/模塊/板上運(yùn)行良好,但可能不適用于百萬像素圖像,因?yàn)檩^大的圖像比較小的圖像對內(nèi)存子系統(tǒng)的壓力更大。對于 2 兆像素的圖像,中間激活可以是 64 兆字節(jié),而對于 224x224 圖像,中間激活最多為幾兆字節(jié)。

批量大?。褐圃焐滔M盟麄兛梢詾榛鶞?zhǔn)測試的最大數(shù)字,因此他們的 ResNet-50 基準(zhǔn)數(shù)字通常是他們可以運(yùn)行的最大批量大小。但對于邊緣應(yīng)用程序,幾乎所有應(yīng)用程序都需要批量大小 = 1 以實(shí)現(xiàn)最小延遲。考慮一輛車:如果你正在尋找像行人這樣的物體,你需要盡快意識(shí)到它們。因此,大批量可能會(huì)最大化吞吐量,但在邊緣需要的是最小延遲,即批量大小為 1。

如果 ResNet-50 在批量大小 = 1 的百萬像素圖像上運(yùn)行,則它對于真實(shí)世界模型來說并不是一個(gè)糟糕的基準(zhǔn)。但它不是通常使用的一個(gè)好的基準(zhǔn)。

真實(shí)世界模型和圖像 - 推理基準(zhǔn)測試的第三階段

客戶在學(xué)習(xí)曲線中達(dá)到的下一個(gè)階段是他們應(yīng)該找到一個(gè)具有與他們相似特征的開源神經(jīng)網(wǎng)絡(luò)模型:相似類型的模型(CNN 或 RNN 或 LSTM),相似大小的圖像(或其他輸入類型),相似的層數(shù)和相似的操作。

例如,對 CNN 感興趣的客戶他們最常問的問題是:“對于 2 兆像素(或 1 或 4),YOLOv2(或 YOLOv3)的每秒幀數(shù)是多少?”

真正有趣的是,盡管大多數(shù)客戶都想了解 YOLOv2/v3,但幾乎沒有制造商為其提供基準(zhǔn)(一個(gè)例外是 Nvidia Xavier,它將 YOLOv3 的基準(zhǔn)為 608x608 或 1/3 兆像素)。

YOLOv3 是一個(gè)壓力很大的基準(zhǔn)測試,它很好地測試了推理加速器的魯棒性:6200 萬個(gè)權(quán)重;100+層;和超過 3000 億個(gè) MAC 來處理單個(gè) 2 兆像素圖像。對該模型進(jìn)行基準(zhǔn)測試顯示了加速器是否可以同時(shí)獲得高 MAC 利用率、管理存儲(chǔ)讀取/寫入而不會(huì)使 MAC 停滯,以及互連是否可以在內(nèi)存和 MAC 之間有效移動(dòng)數(shù)據(jù)而不會(huì)停滯計(jì)算。

當(dāng)然,不僅僅是吞吐量很重要,實(shí)現(xiàn)吞吐量的成本和功率也很重要。

2000 美元和 75 瓦的 Nvidia Tesla T4 可能具有您想要的吞吐量,但可能遠(yuǎn)遠(yuǎn)超出您的預(yù)算。

客戶考慮的另一件事是他們計(jì)劃運(yùn)行的模型的吞吐量效率、吞吐量/美元和吞吐量/瓦特

第 4 階段:對吞吐量、功率和成本的實(shí)際模型進(jìn)行基準(zhǔn)測試

客戶對基準(zhǔn)推理學(xué)習(xí)曲線的最后階段是開發(fā)自己的模型,使用通常來自 Nvidia 或數(shù)據(jù)中心的訓(xùn)練硬件/軟件,然后在可能的目標(biāo)推理加速器上對該模型進(jìn)行基準(zhǔn)測試。

通過這種方式,客戶可以真正判斷哪個(gè)加速器將為他們提供最佳的吞吐量效率。

終點(diǎn)似乎很明顯,但事后諸葛亮。神經(jīng)網(wǎng)絡(luò)推理非常復(fù)雜,所有客戶都要經(jīng)過學(xué)習(xí)曲線才能得出正確的結(jié)論。

審核編輯:郭婷

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 神經(jīng)網(wǎng)絡(luò)

    關(guān)注

    42

    文章

    4825

    瀏覽量

    106730
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    28

    文章

    5090

    瀏覽量

    134388
  • 數(shù)據(jù)中心
    +關(guān)注

    關(guān)注

    16

    文章

    5505

    瀏覽量

    74620
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    工業(yè)級-專業(yè)液晶圖形顯示加速器RA8889ML3N簡介+顯示方案選型參考表

    本帖最后由 MTCN2013 于 2025-11-17 15:23 編輯 專業(yè)液晶圖形顯示加速器能夠有效減少對MCU運(yùn)算資源的占用,對于只需普通單片機(jī)運(yùn)算資源的儀器儀表來說,專業(yè)圖形顯示加速器
    發(fā)表于 11-14 16:03

    邊緣計(jì)算中的AI加速器類型與應(yīng)用

    人工智能正在推動(dòng)對更快速、更智能、更高效計(jì)算的需求。然而,隨著每秒產(chǎn)生海量數(shù)據(jù),將所有數(shù)據(jù)發(fā)送至云端處理已變得不切實(shí)際。這正是邊緣計(jì)算中AI加速器變得不可或缺的原因。這種專用硬件能夠直接在邊緣設(shè)備上
    的頭像 發(fā)表于 11-06 13:42 ?378次閱讀
    邊緣計(jì)算中的AI<b class='flag-5'>加速器</b>類型與應(yīng)用

    航裕電源以大電流技術(shù)為國內(nèi)外超導(dǎo)加速器項(xiàng)目提供優(yōu)質(zhì)方案

    航裕電源:以大電流技術(shù),護(hù)航尖端科技 大科學(xué)裝置建設(shè)熱潮中,超導(dǎo)加速器作為探索微觀世界、推動(dòng)前沿科研的 “國之重”,對供電系統(tǒng)的穩(wěn)定性、精度及功率提出極致要求。航裕電源以31.5kA、80kA萬安
    的頭像 發(fā)表于 10-12 15:02 ?1250次閱讀

    英特爾Gaudi 2E AI加速器為DeepSeek-V3.1提供加速支持

    英特爾? Gaudi 2EAI加速器現(xiàn)已為DeepSeek-V3.1提供深度優(yōu)化支持。憑借出色的性能和成本效益,英特爾Gaudi 2E以更低的投入、更高的效率,實(shí)現(xiàn)從模型訓(xùn)練的深度突破到推理部署的實(shí)時(shí)響應(yīng),為大模型的加速落地提供
    的頭像 發(fā)表于 08-26 19:18 ?2547次閱讀
    英特爾Gaudi 2E AI<b class='flag-5'>加速器</b>為DeepSeek-V3.1提供<b class='flag-5'>加速</b>支持

    創(chuàng)客總部加入MathWorks加速器計(jì)劃

    全球領(lǐng)先的數(shù)學(xué)計(jì)算軟件開發(fā)商 MathWorks 日前宣布,創(chuàng)客總部已加入 MathWorks 加速器計(jì)劃。作為中關(guān)村科創(chuàng)孵化,創(chuàng)客總部致力于為人工智能創(chuàng)業(yè)企業(yè)、高校院所技術(shù)精英搭建推動(dòng)與實(shí)體經(jīng)濟(jì)
    的頭像 發(fā)表于 08-22 10:00 ?812次閱讀

    PCIe協(xié)議分析儀能測試哪些設(shè)備?

    /ASIC加速器 測試場景:分析專用AI推理加速器與主系統(tǒng)的PCIe通信,優(yōu)化數(shù)據(jù)傳輸和指令下發(fā)效率。 應(yīng)用價(jià)值:提高推理吞吐量,確保
    發(fā)表于 07-25 14:09

    大模型推理顯存和計(jì)算量估計(jì)方法研究

    GPU、FPGA等硬件加速。通過分析硬件加速器的性能參數(shù),可以估算模型在硬件加速下的計(jì)算量。 四、實(shí)驗(yàn)與分析 為了驗(yàn)證上述估計(jì)方法的有效性,我們選取了幾個(gè)具有代表性的深度學(xué)習(xí)模型,在多個(gè)硬件平臺(tái)上
    發(fā)表于 07-03 19:43

    高壓放大器在粒子加速器研究中的應(yīng)用

    粒子加速器是現(xiàn)代科學(xué)研究中不可或缺的大型實(shí)驗(yàn)裝置,廣泛應(yīng)用于物理學(xué)、化學(xué)、材料科學(xué)、生物學(xué)等多個(gè)領(lǐng)域。其核心原理是利用電場和磁場對帶電粒子進(jìn)行加速和約束,使粒子達(dá)到極高的能量,從而為研究微觀世界
    的頭像 發(fā)表于 06-19 17:09 ?384次閱讀
    高壓放大器在粒子<b class='flag-5'>加速器</b>研究中的應(yīng)用

    粒子加速器?——?科技前沿的核心裝置

    粒子加速器全稱“荷電粒子加速器”,是一種利用電磁場在高真空環(huán)境中對帶電粒子(如電子、質(zhì)子、離子)進(jìn)行加速和控制,使其獲得高能量的特種裝置。粒子加速器
    的頭像 發(fā)表于 06-19 12:05 ?2488次閱讀
    粒子<b class='flag-5'>加速器</b>?——?科技前沿的核心裝置

    樹莓派5 + Hailo AI加速器:工業(yè)級數(shù)值數(shù)據(jù)處理實(shí)戰(zhàn),打通SQLite與機(jī)器學(xué)習(xí)全鏈路

    本文討論了在工業(yè)自動(dòng)化背景下,開發(fā)者利用樹莓派5和HailoAI加速器進(jìn)行工業(yè)級數(shù)值數(shù)據(jù)處理實(shí)戰(zhàn),打通SQLite與機(jī)器學(xué)習(xí)全鏈路時(shí)遇到的問題及解決方案。關(guān)鍵要點(diǎn)包括:1.開發(fā)者需求:構(gòu)建能從
    的頭像 發(fā)表于 03-25 09:22 ?980次閱讀
    樹莓派5 + Hailo AI<b class='flag-5'>加速器</b>:工業(yè)級數(shù)值數(shù)據(jù)處理實(shí)戰(zhàn),打通SQLite與機(jī)器學(xué)習(xí)全鏈路

    小型加速器中子源監(jiān)測系統(tǒng)解決方案

    小型加速器中子源是一種基于先進(jìn)加速器技術(shù)的中子產(chǎn)生裝置,憑借體積小、成本低、安全性高的優(yōu)勢,在醫(yī)學(xué)、工業(yè)、科研、安全、能源等多個(gè)領(lǐng)域展現(xiàn)出巨大的應(yīng)用潛力和價(jià)值。無論是用于醫(yī)學(xué)領(lǐng)域的精準(zhǔn)放療,還是工業(yè)
    的頭像 發(fā)表于 03-13 11:19 ?1126次閱讀
    小型<b class='flag-5'>加速器</b>中子源監(jiān)測系統(tǒng)解決方案

    使用OpenVINO?進(jìn)行推理時(shí)的內(nèi)存泄漏怎么解決?

    使用 OpenVINO? 進(jìn)行推理時(shí),內(nèi)存會(huì)隨著時(shí)間的推移而增加,并導(dǎo)致程序崩潰。
    發(fā)表于 03-06 08:29

    使用修改后的基準(zhǔn)C++工具推斷灰度圖像時(shí)的推理速度慢怎么解決?

    修改了 基準(zhǔn)測試 C++ 工具 ,以加載灰度圖像。 獲得的推理速度非常低。
    發(fā)表于 03-06 07:11

    英特爾Gaudi 2D AI加速器助力DeepSeek Janus Pro模型性能提升

    Pro模型進(jìn)行了深度優(yōu)化。 這一優(yōu)化舉措使得AI開發(fā)者能夠以更低的成本和更高的效率實(shí)現(xiàn)復(fù)雜任務(wù)的部署與優(yōu)化。英特爾Gaudi 2D AI加速器通過其卓越的計(jì)算能力和高度優(yōu)化的軟件棧,為Janus Pro模型提供了強(qiáng)大的推理算力
    的頭像 發(fā)表于 02-10 11:10 ?918次閱讀

    DeepSeek發(fā)布Janus Pro模型,英特爾Gaudi 2D AI加速器優(yōu)化支持

    Gaudi 2D AI加速器現(xiàn)已針對該模型進(jìn)行了全面優(yōu)化。這一優(yōu)化舉措使得AI開發(fā)者能夠更輕松地實(shí)現(xiàn)復(fù)雜任務(wù)的部署與優(yōu)化,從而有效滿足行業(yè)應(yīng)用對于推理算力的迫切需求。 英特爾Gaudi 2D AI
    的頭像 發(fā)表于 02-08 14:35 ?906次閱讀