chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

推理基準(zhǔn)測試的四個階段

星星科技指導(dǎo)員 ? 來源:Geoff Tate ? 作者:Geoff Tate ? 2022-11-29 12:03 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

在過去的十年中,神經(jīng)網(wǎng)絡(luò)已經(jīng)從有趣的研究發(fā)展到廣泛用于語言翻譯、關(guān)鍵詞識別和對象識別。

長期以來,神經(jīng)網(wǎng)絡(luò)僅限于具有運行神經(jīng)網(wǎng)絡(luò)所需的計算資源的數(shù)據(jù)中心,最初是在微處理器上,然后越來越多地在GPU上,這些GPU具有運行神經(jīng)網(wǎng)絡(luò)所需的更多MAC。

英偉達(dá)最近宣布,其推理產(chǎn)品的銷量首次超過了其培訓(xùn)產(chǎn)品的銷量。

隨著推理轉(zhuǎn)移到功耗和成本預(yù)算受限的邊緣(數(shù)據(jù)中心以外的任何地方),客戶正在尋找能夠以他們所能承受的價格和功耗提供所需吞吐量的推理加速器。

本博客討論了如何對推理加速器進(jìn)行基準(zhǔn)測試,以找到最適合您的神經(jīng)網(wǎng)絡(luò)的推理加速器;以及客戶在學(xué)習(xí)曲線上通常如何發(fā)展他們對基準(zhǔn)測試的思考。神經(jīng)網(wǎng)絡(luò)推理令人興奮但很復(fù)雜,因此最初非常令人困惑。當(dāng)客戶解決問題時,指示燈會逐步亮起。

首先,讓我們回顧一下推理加速器的常見元素及其運行的神經(jīng)網(wǎng)絡(luò)。

所有推理加速器的通用元素

所有推理加速器都具有以下共同點:

MAC(很多)

片上靜態(tài)存儲器

片外內(nèi)存內(nèi)存

控制邏輯

所有單元之間的片上互連

元素的數(shù)量和組織在推理加速器之間差異很大;組織 MAC 的方法;MAC 與 SRAM/DRAM 的比率;數(shù)據(jù)如何在它們之間流動對于確定加速器的實際加速程度至關(guān)重要。

所有神經(jīng)網(wǎng)絡(luò)模型的通用元素

所有神經(jīng)網(wǎng)絡(luò)都包含以下元素:

數(shù)值選擇:32 位浮點數(shù)(模型訓(xùn)練時使用的),

16 位浮點、16 位整數(shù)或 8 位整數(shù)

輸入數(shù)據(jù):圖像、音頻、文本等

從幾十層到幾百層,每個層處理前一層的激活,并將輸出激活傳遞到下一層

模型每一層的權(quán)重

TOPS - 推理基準(zhǔn)測試的第一階段

剛接觸神經(jīng)網(wǎng)絡(luò)性能評估的客戶幾乎總是從問“您的芯片/模塊/板有多少 TOPS 開始?因為他們假設(shè) TOPS 和吞吐量相關(guān) - 但他們沒有。

TOPS 是每秒萬億次操作的首字母縮寫,可用 MAC 的數(shù)量(以千為單位)乘以 MAC 運行的頻率,以千兆赫茲為單位,乘以 2(一個 MAC = 兩個操作)。因此,簡單來說,1GHz 的 1K MAC = 2 TOPS。

更多的 MAC 意味著更多的 TOPS。

重要的是內(nèi)存組織和互連是否可以保持MAC“饋送”,以便它們得到高度利用,從而在模型上產(chǎn)生高吞吐量。

ResNet-50 - 推理基準(zhǔn)測試的第二階段

一旦客戶意識到重要的指標(biāo)是吞吐量,他們通常會繼續(xù)問:“對于 ResNet-50,您的芯片/模塊/電路板的吞吐量(以推理/秒為單位)是多少?

MLPerf最近發(fā)布了眾多制造商提交的ResNet-50基準(zhǔn)測試。

ResNet-50 是一種流行的 CNN(卷積神經(jīng)網(wǎng)絡(luò)),用于對圖像進(jìn)行分類,多年來一直廣泛用于基準(zhǔn)測試。

問題是,沒有客戶真正使用ResNet-50。

客戶詢問 ResNet-50 是因為他們認(rèn)為其型號上的芯片/模塊/電路板的吞吐量與 ResNet-50 吞吐量相關(guān)。

這個假設(shè)的兩個主要缺陷是:

ResNet-50 使用 224x224 圖像,但大多數(shù)客戶希望處理大 16+ 倍的百萬像素圖像。對于 224x224 圖像,ResNet-50 可能在芯片/模塊/板上運行良好,但對于百萬像素圖像可能不行,因為較大的圖像會比較小的圖像對內(nèi)存子系統(tǒng)施加更大的壓力。對于 200 萬像素圖像,中間激活可以是 64Mb,而對于 224x224 圖像,中間激活最多為幾兆字節(jié)。

批量大?。褐圃焐滔M麨榛鶞?zhǔn)測試引用他們所能引用的最大數(shù)字,因此他們的 ResNet-50 基準(zhǔn)測試編號通常針對他們可以運行的最大批量大小。但對于邊緣應(yīng)用程序,幾乎所有應(yīng)用程序都需要批量大小 = 1 才能將延遲降至最低??紤]一輛車:如果您正在尋找行人等物體,則需要盡快意識到它們。因此,大批量大小可能會最大化吞吐量,但在邊緣需要的是最小延遲,即批量大小為 1。

ResNet-50 對于現(xiàn)實世界的模型來說不是一個糟糕的基準(zhǔn),如果它在批量大小 = 1 的百萬像素圖像上運行。但它不是通常使用的良好基準(zhǔn)。

真實世界模型和圖像 - 推理基準(zhǔn)測試的第三階段

客戶在學(xué)習(xí)曲線中達(dá)到的下一個階段是,他們應(yīng)該找到一個與他們相似的開源神經(jīng)網(wǎng)絡(luò)模型:相似類型的模型(CNN或RNN或LSTM),相似的圖像大小(或其他輸入類型),相似的層數(shù)和類似的操作。

例如,對 CNN 感興趣的客戶最常問:“對于 200 萬像素(或 1 或 4)的 YOLOv2(或 YOLOv3),您的每秒幀數(shù)是多少?

真正有趣的是,盡管大多數(shù)客戶都想知道YOLOv2 / v3,但幾乎沒有制造商為其提供基準(zhǔn)測試(一個例外是Nvidia Xavier,它將YOLOv3基準(zhǔn)為608x608或1/3百萬像素)。

YOLOv3 是一個非常緊張的基準(zhǔn)測試,是對推理加速器魯棒性的一個很好的測試:6200 萬個權(quán)重;100+層;以及 》3000 億 MAC 來處理單個 200 萬像素的圖像。對該模型進(jìn)行基準(zhǔn)測試可顯示加速器是否可以同時獲得高 MAC 利用率、管理存儲讀/寫而不會使 MAC 停止,以及互連是否可以在不停止計算的情況下有效地在內(nèi)存和 MAC 之間移動數(shù)據(jù)。

當(dāng)然,重要的不僅僅是吞吐量,還有實現(xiàn)吞吐量的成本和功率。

售價 2000 美元和 75 瓦的 Nvidia Tesla T4 可能具有您想要的吞吐量,但可能遠(yuǎn)遠(yuǎn)超出您的預(yù)算。

客戶考慮的另一件事是他們計劃運行的模型類型的吞吐量效率、吞吐量/$和吞吐量/瓦特

第 4 階段:對吞吐量、功耗和成本的實際模型進(jìn)行基準(zhǔn)測試

客戶對基準(zhǔn)推理的學(xué)習(xí)曲線的最后階段是使用訓(xùn)練硬件/軟件(通常來自 Nvidia 或數(shù)據(jù)中心)開發(fā)自己的模型,然后在可能的目標(biāo)推理加速器上對該模型進(jìn)行基準(zhǔn)測試。

通過這種方式,客戶可以真正分辨出哪個加速器將為他們提供最佳的吞吐效率。

終點似乎很明顯,但一切都是事后諸葛亮。神經(jīng)網(wǎng)絡(luò)推理非常復(fù)雜,所有客戶都要經(jīng)歷學(xué)習(xí)曲線才能得出正確的結(jié)論。

審核編輯:郭婷

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    28

    文章

    4949

    瀏覽量

    131281
  • 微處理器
    +關(guān)注

    關(guān)注

    11

    文章

    2383

    瀏覽量

    84200
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    用于 GSM/ GPRS (824-915 MHz) (1710-1910 MHz) 的 Tx-Rx 頻前端模塊,帶四個線性 TRx 開關(guān)端口 skyworksinc

    電子發(fā)燒友網(wǎng)為你提供()用于 GSM/ GPRS (824-915 MHz) (1710-1910 MHz) 的 Tx-Rx 頻前端模塊,帶四個線性 TRx 開關(guān)端口相關(guān)產(chǎn)品參數(shù)、數(shù)據(jù)手冊,更有
    發(fā)表于 05-28 18:33
    用于 GSM/ GPRS (824-915 MHz) (1710-1910 MHz) 的 Tx-Rx <b class='flag-5'>四</b>頻前端模塊,帶<b class='flag-5'>四個</b>線性 TRx 開關(guān)端口 skyworksinc

    用于 GSM/GPRS (824-915 MHz) (1710-1910 MHz) 的 Tx-Rx 頻前端模塊,帶四個線性 TRx 開關(guān)端口 skyworksinc

    電子發(fā)燒友網(wǎng)為你提供()用于 GSM/GPRS (824-915 MHz) (1710-1910 MHz) 的 Tx-Rx 頻前端模塊,帶四個線性 TRx 開關(guān)端口相關(guān)產(chǎn)品參數(shù)、數(shù)據(jù)手冊,更有
    發(fā)表于 05-28 18:33
    用于 GSM/GPRS (824-915 MHz) (1710-1910 MHz) 的 Tx-Rx <b class='flag-5'>四</b>頻前端模塊,帶<b class='flag-5'>四個</b>線性 TRx 開關(guān)端口 skyworksinc

    用于頻 GSM / GPRS / EDGE 的 Tx-Rx FEM,具有四個線性 TRx 開關(guān)端口和雙頻 TD-SCDMA skyworksinc

    電子發(fā)燒友網(wǎng)為你提供()用于頻 GSM / GPRS / EDGE 的 Tx-Rx FEM,具有四個線性 TRx 開關(guān)端口和雙頻 TD-SCDMA相關(guān)產(chǎn)品參數(shù)、數(shù)據(jù)手冊,更有用于頻 GSM
    發(fā)表于 05-28 18:31
    用于<b class='flag-5'>四</b>頻 GSM / GPRS / EDGE 的 Tx-Rx FEM,具有<b class='flag-5'>四個</b>線性 TRx 開關(guān)端口和雙頻 TD-SCDMA skyworksinc

    PLC產(chǎn)品故障問題測試四個部分

    ,必須對故障問題進(jìn)行系統(tǒng)化測試。本文將詳細(xì)介紹PLC產(chǎn)品故障問題測試四個關(guān)鍵部分,幫助技術(shù)人員快速定位和解決問題。 一、硬件測試 硬件測試
    的頭像 發(fā)表于 05-11 17:00 ?344次閱讀
    PLC產(chǎn)品故障問題<b class='flag-5'>測試</b>的<b class='flag-5'>四個</b>部分

    使用修改后的基準(zhǔn)C++工具推斷灰度圖像時的推理速度慢怎么解決?

    修改了 基準(zhǔn)測試 C++ 工具 ,以加載灰度圖像。 獲得的推理速度非常低。
    發(fā)表于 03-06 07:11

    ADS1211獲取四個通道全部數(shù)據(jù)的最短時間是多少?

    看pdf沒看出什么門道,想問下這款A(yù)DC四個差分通道同步采樣,獲取四個通道全部數(shù)據(jù)的最短時間是多少!
    發(fā)表于 02-10 07:24

    模數(shù)轉(zhuǎn)換電路的四個過程

    模數(shù)轉(zhuǎn)換(Analog-to-Digital Conversion,簡稱ADC)是將模擬信號轉(zhuǎn)換為數(shù)字信號的關(guān)鍵過程,廣泛應(yīng)用于通信、數(shù)據(jù)采集、信號處理等領(lǐng)域。模數(shù)轉(zhuǎn)換電路的設(shè)計與實現(xiàn)涉及多個關(guān)鍵步驟,通??梢苑譃?b class='flag-5'>四個主要過程:采樣、保持、量化和編碼。本文將詳細(xì)分析這四個
    的頭像 發(fā)表于 02-03 16:12 ?1501次閱讀

    請問DAC3484四個通道能否獨立使用?

    請問,DAC3484 四個通道能否獨立使用?即當(dāng)把DAC的NCO頻率設(shè)置為fs/2時,IQ兩通道是否就可以獨立了?
    發(fā)表于 01-23 07:35

    請問AD9852四個輸出口有什么差別?

    AD9852四個輸出口有什么差別?是不是IOUT1是余弦輸出,IOUT2是DAC控制輸出,需要設(shè)置DAC控制寄存器?
    發(fā)表于 01-16 06:59

    ADS1158 MUXOUT、MUXOUTP、ADCINP和ADCINN這四個管腳什么作用呢?

    ADS1158 MUXOUT、MUXOUTP、ADCINP和ADCINN這四個管腳什么作用呢,如果我用單端5V供電,2.5V基準(zhǔn)源,是否要按照datasheet里那種用運放的接法嗎?
    發(fā)表于 01-01 06:39

    vLLM項目加入PyTorch生態(tài)系統(tǒng),引領(lǐng)LLM推理新紀(jì)元

    近日,vLLM項目宣布正式成為PyTorch生態(tài)系統(tǒng)的一部分,標(biāo)志著該項目與PyTorch的合作進(jìn)入了一全新的階段。本文將從以下幾個方面進(jìn)行介紹,特別提醒:安裝方案在第四個部分,可選擇性閱讀
    的頭像 發(fā)表于 12-18 17:06 ?839次閱讀
    vLLM項目加入PyTorch生態(tài)系統(tǒng),引領(lǐng)LLM<b class='flag-5'>推理</b>新紀(jì)元

    MLCommons推出AI基準(zhǔn)測試0.5版

    開放式機(jī)器學(xué)習(xí)工程聯(lián)盟 MLCommons 在美國加州當(dāng)?shù)貢r間公布推出適用于消費類 PC 的 AI 性能的 MLPerf Client 基準(zhǔn)測試的 0.5 版,這是該測試的第一公開版
    的頭像 發(fā)表于 12-12 16:47 ?840次閱讀

    Kimi發(fā)布新一代數(shù)學(xué)推理模型k0-math

    、考研以及包含入門競賽題的MATH等四個數(shù)學(xué)基準(zhǔn)測試中,k0-math初代模型的表現(xiàn)超越了o1-mini和o1-preview模型。而在兩難度更高的競賽級別數(shù)學(xué)題庫OMNI-MATH
    的頭像 發(fā)表于 11-18 11:38 ?973次閱讀

    總線傳輸周期包括哪四個階段

    總線傳輸周期是計算機(jī)系統(tǒng)中數(shù)據(jù)傳輸?shù)幕締挝?,它涉及到多個階段,以確保數(shù)據(jù)能夠正確、高效地在處理器、內(nèi)存和其他外設(shè)之間傳輸。一典型的總線傳輸周期通常包括以下四個階段: 請求
    的頭像 發(fā)表于 10-12 09:05 ?2652次閱讀

    IGBT的四個主要參數(shù)

    IGBT的四個主要參數(shù)對于選擇合適的IGBT器件至關(guān)重要。本文將介紹IGBT的四個主要參數(shù):電壓等級、電流等級、開關(guān)頻率和熱性能。 1. 電壓等級 電壓等級是IGBT的一重要參數(shù),它決定了IGBT能夠承受的最大電壓。電壓等級的
    的頭像 發(fā)表于 07-25 11:05 ?7680次閱讀