一级毛片免费全部播放完整,扒开她的内裤戳进她的蜜匀处,最近免费韩国电影HD

在過去的十年中，神經(jīng)網(wǎng)絡(luò)已經(jīng)從有趣的研究發(fā)展到廣泛用于語言翻譯、關(guān)鍵詞識別和對象識別。

長期以來，神經(jīng)網(wǎng)絡(luò)僅限于具有運行神經(jīng)網(wǎng)絡(luò)所需的計算資源的數(shù)據(jù)中心，最初是在微處理器上，然后越來越多地在GPU上，這些GPU具有運行神經(jīng)網(wǎng)絡(luò)所需的更多MAC。

英偉達(dá)最近宣布，其推理產(chǎn)品的銷量首次超過了其培訓(xùn)產(chǎn)品的銷量。

隨著推理轉(zhuǎn)移到功耗和成本預(yù)算受限的邊緣（數(shù)據(jù)中心以外的任何地方），客戶正在尋找能夠以他們所能承受的價格和功耗提供所需吞吐量的推理加速器。

本博客討論了如何對推理加速器進(jìn)行基準(zhǔn)測試，以找到最適合您的神經(jīng)網(wǎng)絡(luò)的推理加速器;以及客戶在學(xué)習(xí)曲線上通常如何發(fā)展他們對基準(zhǔn)測試的思考。神經(jīng)網(wǎng)絡(luò)推理令人興奮但很復(fù)雜，因此最初非常令人困惑。當(dāng)客戶解決問題時，指示燈會逐步亮起。

首先，讓我們回顧一下推理加速器的常見元素及其運行的神經(jīng)網(wǎng)絡(luò)。

所有推理加速器的通用元素

所有推理加速器都具有以下共同點：

MAC（很多）

片上靜態(tài)存儲器

片外內(nèi)存內(nèi)存

控制邏輯

所有單元之間的片上互連

元素的數(shù)量和組織在推理加速器之間差異很大;組織 MAC 的方法;MAC 與 SRAM/DRAM 的比率;數(shù)據(jù)如何在它們之間流動對于確定加速器的實際加速程度至關(guān)重要。

所有神經(jīng)網(wǎng)絡(luò)模型的通用元素

所有神經(jīng)網(wǎng)絡(luò)都包含以下元素：

數(shù)值選擇：32 位浮點數(shù)（模型訓(xùn)練時使用的），

16 位浮點、16 位整數(shù)或 8 位整數(shù)

輸入數(shù)據(jù)：圖像、音頻、文本等

從幾十層到幾百層，每個層處理前一層的激活，并將輸出激活傳遞到下一層

模型每一層的權(quán)重

TOPS - 推理基準(zhǔn)測試的第一階段

剛接觸神經(jīng)網(wǎng)絡(luò)性能評估的客戶幾乎總是從問“您的芯片/模塊/板有多少 TOPS 開始？因為他們假設(shè) TOPS 和吞吐量相關(guān) - 但他們沒有。

TOPS 是每秒萬億次操作的首字母縮寫，可用 MAC 的數(shù)量（以千為單位）乘以 MAC 運行的頻率，以千兆赫茲為單位，乘以 2（一個 MAC = 兩個操作）。因此，簡單來說，1GHz 的 1K MAC = 2 TOPS。

更多的 MAC 意味著更多的 TOPS。

重要的是內(nèi)存組織和互連是否可以保持MAC“饋送”，以便它們得到高度利用，從而在模型上產(chǎn)生高吞吐量。

ResNet-50 - 推理基準(zhǔn)測試的第二階段

一旦客戶意識到重要的指標(biāo)是吞吐量，他們通常會繼續(xù)問：“對于 ResNet-50，您的芯片/模塊/電路板的吞吐量（以推理/秒為單位）是多少？

MLPerf最近發(fā)布了眾多制造商提交的ResNet-50基準(zhǔn)測試。

ResNet-50 是一種流行的 CNN（卷積神經(jīng)網(wǎng)絡(luò)），用于對圖像進(jìn)行分類，多年來一直廣泛用于基準(zhǔn)測試。

問題是，沒有客戶真正使用ResNet-50。

客戶詢問 ResNet-50 是因為他們認(rèn)為其型號上的芯片/模塊/電路板的吞吐量與 ResNet-50 吞吐量相關(guān)。

這個假設(shè)的兩個主要缺陷是：

ResNet-50 使用 224x224 圖像，但大多數(shù)客戶希望處理大 16+ 倍的百萬像素圖像。對于 224x224 圖像，ResNet-50 可能在芯片/模塊/板上運行良好，但對于百萬像素圖像可能不行，因為較大的圖像會比較小的圖像對內(nèi)存子系統(tǒng)施加更大的壓力。對于 200 萬像素圖像，中間激活可以是 64Mb，而對于 224x224 圖像，中間激活最多為幾兆字節(jié)。

批量大?。褐圃焐滔Ｍ麨榛鶞?zhǔn)測試引用他們所能引用的最大數(shù)字，因此他們的 ResNet-50 基準(zhǔn)測試編號通常針對他們可以運行的最大批量大小。但對于邊緣應(yīng)用程序，幾乎所有應(yīng)用程序都需要批量大小 = 1 才能將延遲降至最低?？紤]一輛車：如果您正在尋找行人等物體，則需要盡快意識到它們。因此，大批量大小可能會最大化吞吐量，但在邊緣需要的是最小延遲，即批量大小為 1。

ResNet-50 對于現(xiàn)實世界的模型來說不是一個糟糕的基準(zhǔn)，如果它在批量大小 = 1 的百萬像素圖像上運行。但它不是通常使用的良好基準(zhǔn)。

真實世界模型和圖像 - 推理基準(zhǔn)測試的第三階段

客戶在學(xué)習(xí)曲線中達(dá)到的下一個階段是，他們應(yīng)該找到一個與他們相似的開源神經(jīng)網(wǎng)絡(luò)模型：相似類型的模型（CNN或RNN或LSTM），相似的圖像大小（或其他輸入類型），相似的層數(shù)和類似的操作。

例如，對 CNN 感興趣的客戶最常問：“對于 200 萬像素（或 1 或 4）的 YOLOv2（或 YOLOv3），您的每秒幀數(shù)是多少？

真正有趣的是，盡管大多數(shù)客戶都想知道YOLOv2 / v3，但幾乎沒有制造商為其提供基準(zhǔn)測試（一個例外是Nvidia Xavier，它將YOLOv3基準(zhǔn)為608x608或1/3百萬像素）。

YOLOv3 是一個非常緊張的基準(zhǔn)測試，是對推理加速器魯棒性的一個很好的測試：6200 萬個權(quán)重;100+層;以及》3000 億 MAC 來處理單個 200 萬像素的圖像。對該模型進(jìn)行基準(zhǔn)測試可顯示加速器是否可以同時獲得高 MAC 利用率、管理存儲讀/寫而不會使 MAC 停止，以及互連是否可以在不停止計算的情況下有效地在內(nèi)存和 MAC 之間移動數(shù)據(jù)。

當(dāng)然，重要的不僅僅是吞吐量，還有實現(xiàn)吞吐量的成本和功率。

售價 2000 美元和 75 瓦的 Nvidia Tesla T4 可能具有您想要的吞吐量，但可能遠(yuǎn)遠(yuǎn)超出您的預(yù)算。

客戶考慮的另一件事是他們計劃運行的模型類型的吞吐量效率、吞吐量/$和吞吐量/瓦特

第 4 階段：對吞吐量、功耗和成本的實際模型進(jìn)行基準(zhǔn)測試

客戶對基準(zhǔn)推理的學(xué)習(xí)曲線的最后階段是使用訓(xùn)練硬件/軟件（通常來自 Nvidia 或數(shù)據(jù)中心）開發(fā)自己的模型，然后在可能的目標(biāo)推理加速器上對該模型進(jìn)行基準(zhǔn)測試。

通過這種方式，客戶可以真正分辨出哪個加速器將為他們提供最佳的吞吐效率。

終點似乎很明顯，但一切都是事后諸葛亮。神經(jīng)網(wǎng)絡(luò)推理非常復(fù)雜，所有客戶都要經(jīng)歷學(xué)習(xí)曲線才能得出正確的結(jié)論。

審核編輯：郭婷

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

gpu

gpu

+關(guān)注

關(guān)注
28

文章
4949

瀏覽量
131281
微處理器

微處理器

+關(guān)注

關(guān)注
11

文章
2383

瀏覽量
84200

chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛兴趣闲谈,欧美亚洲精品 8区,国产精品久久久久精品免费

搜索歷史

推理基準(zhǔn)測試的四個階段

評論