chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

機器學(xué)習(xí)性能誰來評判?

璟琰乀 ? 來源:FPGA開發(fā)圈 ? 作者:FPGA開發(fā)圈 ? 2020-11-05 09:46 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

本期導(dǎo)讀

MLPerf 組織最近發(fā)布了最新一輪機器學(xué)習(xí)性能測試結(jié)果,首次直接參加此次測試的“新力量” 賽靈思(Xilinx), 在最新 MLPerf 推斷基準(zhǔn)測試中取得了“圖像分類”最高的性能/峰值(Perf divided by peak TOPS)成績。TOPS(每秒萬億次運算) 是一個衡量性能效率的指標(biāo),意味著在給定 X 個硬件峰值計算量的情況下,賽靈思提供了最高的吞吐量性能。機器學(xué)習(xí)(ML)是支撐當(dāng)今人工智能AI)技術(shù)發(fā)展的核心算法,性能效率關(guān)乎各種 AI 應(yīng)用的實現(xiàn)和落地。然而,玩家們你方唱罷我登場的機器學(xué)習(xí)性能之爭,紙上公開的數(shù)據(jù)是否可信,效率高低誰來評判、如何評判?

帶著這些問題,Aspencore 首席分析師邵樂峰先生連線賽靈思人工智能高級總監(jiān)姚頌及人工智能高級經(jīng)理羅霖先生,希望通過更深度地了解賽靈思此次參加測試的過程及結(jié)果,探索衡量機器學(xué)習(xí)芯片性能的基準(zhǔn)及自適應(yīng)計算平臺的前景。

1

機器學(xué)習(xí)性能誰來評判?

當(dāng)今 AI 芯片的評測標(biāo)準(zhǔn),主流的有國際上的 MLPerf,國內(nèi)有人工智能產(chǎn)業(yè)發(fā)展聯(lián)盟的 AIIA DNN benchmark(人工智能端側(cè)芯片基準(zhǔn)測試評估方案)。

MLPerf 是用于測試機器學(xué)習(xí)(ML)硬件、軟件以及服務(wù)的訓(xùn)練和推斷性能的一套公開、標(biāo)準(zhǔn)化基準(zhǔn),該行業(yè)基準(zhǔn)測試組織自 2018 年 5 月成立以來,得到了亞馬遜、百度、Facebook、谷歌、哈佛大學(xué)、英特爾、微軟和斯坦福大學(xué)等支持,旨在提供一個共同認(rèn)可的過程,來衡量不同類型的加速器和系統(tǒng)如何快速有效地執(zhí)行訓(xùn)練過的神經(jīng)網(wǎng)絡(luò)。

作為 AI 芯片領(lǐng)域一個重要的基準(zhǔn)測試,MLPerf 主要包括訓(xùn)練和推斷兩方面的性能測試,并正在迅速成為業(yè)界衡量 ML 性能的事實標(biāo)準(zhǔn)。盡管目前看仍偏重于訓(xùn)練端,但賽靈思軟件和人工智能高級經(jīng)理羅霖認(rèn)為未來推斷側(cè)性能測試的比例將會不斷增加,尤其是 MLPerf 今年在測試中增加了新模式和手機/筆記本電腦這兩種新類別。今年的 MLPerf Inference 基準(zhǔn)測試(v0.7)的第二個版本,吸引了全球 1,200 多位同行進行評審。

2

從參測過程看 MLPerf 測試有何基準(zhǔn)

此次賽靈思與 Mipsology 合作,參加了嚴(yán)格的“封閉”基準(zhǔn)測試。該測試向廠商提供預(yù)訓(xùn)練網(wǎng)絡(luò)和預(yù)訓(xùn)練權(quán)重,是一個真正的“Close Deviation”同類測評。羅霖解釋說,同類測評就像是跳水比賽中和自選動作對應(yīng)的標(biāo)準(zhǔn)動作,是實打?qū)嵉幕谕瑯宇A(yù)訓(xùn)練權(quán)重模型的對比。

測試系統(tǒng)使用賽靈思 Alveo U250 加速器卡,該卡以 Mipsology 優(yōu)化的領(lǐng)域?qū)S眉軜?gòu)(DSA)為基礎(chǔ)?;鶞?zhǔn)測試測量了基于 Alveo 的定制 DSA 在離線模式下以 5,011 圖像/秒的速度執(zhí)行基于 ResNet-50 基準(zhǔn)的圖像分類任務(wù)的效率。ResNet-50 以圖像/秒為單位測量圖像分類性能。結(jié)果,賽靈思實現(xiàn)了最高的性能/峰值(TOPS,每秒萬億次運算)。這是一個衡量性能效率的指標(biāo),因此也就意味著,在給定 X 個硬件峰值計算量的情況下,賽靈思提供了最高的吞吐量性能。

此外,值得一提的是,MLPerf 的結(jié)果還顯示,賽靈思與其在數(shù)據(jù)手冊中公布的性能相比,實現(xiàn)了 100% 的可用 TOPS。而市場上的大多數(shù)廠商只能提供其峰值 TOPS 的一小部分,效率最高通常不超過 40%。這一令人印象深刻的結(jié)果表明,并非所有數(shù)據(jù)手冊,或者說紙面上的原始峰值 TOPS,都能準(zhǔn)確代表實際性能。

從測試看, 還有一個重要的因素值得關(guān)注, ML 應(yīng)用涉及的不僅僅是 AI 處理。它們通常需要 ML 預(yù)處理功能和后處理功能,這兩者會競爭系統(tǒng)帶寬,導(dǎo)致系統(tǒng)級瓶頸。而賽靈思自適應(yīng)平臺的強大之處就在于,它可以通過加速關(guān)鍵型非 AI 功能同時構(gòu)建應(yīng)用級數(shù)據(jù)流流水線,來避免系統(tǒng)瓶頸,從而加速整體應(yīng)用。同時,賽靈思在 TensorFlow 和 Pytorch 框架的支持上也做了很多工作,使 Tensorflow 和 Pytorch 模型的硬件加速變得更容易。

3

Xilinx 首次直接參測意味著什么?

賽靈思首次直接參與 MLPerf 測試,意味著以 FPGA 為基礎(chǔ)的 AI 解決方案已經(jīng)日趨成熟,在推斷應(yīng)用中達到了業(yè)界領(lǐng)先的水平,日漸成為 AI 應(yīng)用的主流玩家。在本次數(shù)據(jù)中心類別的封閉分區(qū)(Closed Division)參賽廠商中,除了 Nvidia 和 Intel 之外,賽靈思是唯一提交結(jié)果的芯片公司。

羅霖表示:AI 推斷是一個快速增長的市場,例如自動駕駛和基于人工智能的視頻監(jiān)控,需要計算機視覺任務(wù),如圖像分類和目標(biāo)檢測。這些復(fù)雜的計算工作負(fù)載需要不同級別的吞吐量、延遲和功率才能高效運行,這就是賽靈思和自適應(yīng)計算產(chǎn)品的亮點所在。

由于時間的原因,賽靈思在本次 MLPerf 測試中只提交了 3 項測試結(jié)果,除了上文提到的使用 U250 加速卡進行“圖像分類”外,還使用 Alveo U280 加速卡進行“目標(biāo)檢測”,以及使用 Versal ACAP 平臺進行“圖像分類”。 羅霖說,U250 參加的測試是在封閉分區(qū)所有參賽者采用一樣的神經(jīng)網(wǎng)絡(luò)模型,一樣的預(yù)訓(xùn)練權(quán)重,一樣的預(yù)處理和后處理,就像體操比賽里面“標(biāo)準(zhǔn)動作”。相比之下,在開放分區(qū)(Open Division)類別中廠商允許使用自定義的方法對模型進行優(yōu)化,包括重新訓(xùn)練,屬于“百花齊放”類型。

但實際上,MLPerf Inference 0.7 版的 8 項測試內(nèi)容賽靈思平臺其實都能支持,在公司內(nèi)部運行的一些非圖像類模型,例如語音識別、自然語言處理等測試中,都有不錯的表現(xiàn)。相信今后公司會參加更多類別的測試。

法國初創(chuàng)公司 Mipsology 是賽靈思此次測試的合作伙伴,在利用 FPGA 實現(xiàn)神經(jīng)網(wǎng)絡(luò)加速方面頗有建樹。羅霖表示,F(xiàn)PGA 是一個開放的、靈活的計算加速平臺,各種各樣和 Mipsology 一樣有能力的合作伙伴,都可以基于賽靈思相關(guān)硬件和工具鏈產(chǎn)品,開發(fā)出極具市場競爭力的產(chǎn)品。

4

TOPS 是衡量機器學(xué)習(xí)性能的唯一指標(biāo)?

姚頌表示:機器學(xué)習(xí)(ML)應(yīng)用程序不僅僅是 AI 處理,還需要 ML 前后的處理函數(shù),因為這些函數(shù)會競爭系統(tǒng)帶寬并導(dǎo)致系統(tǒng)級瓶頸。因此,最優(yōu)秀的 AI 應(yīng)用實現(xiàn)方案未必是速度最快的,它需要的是在效率最高的同時保持靈活性,必須是量身定制的,能夠按需交付性能,不多不少。

眾所周知,神經(jīng)網(wǎng)絡(luò)中的前一個計算結(jié)果通常都作為后一個計算的輸入,AI 推斷效率發(fā)揮不出來的主要原因是要花很多時間去內(nèi)存中讀取數(shù)據(jù)。

姚頌列舉了兩種常見的提升效率模式的做法:

一是通過將計算結(jié)果快速存儲下來,避免對內(nèi)存的反復(fù)讀取和寫入;

另一種是對神經(jīng)網(wǎng)絡(luò)進行分割處理,只調(diào)用與特定區(qū)塊處理相關(guān)的數(shù)據(jù),以流水線的方式掩蓋掉內(nèi)存讀取的延時。

而具體到賽靈思的做法,羅霖更強調(diào)“端到端的優(yōu)化”對高計算效率的影響。也就是說,首先要關(guān)注底層神經(jīng)網(wǎng)絡(luò)處理單元微架構(gòu)的設(shè)計,包括計算乘加、數(shù)據(jù)存儲/搬運、流水線調(diào)度等等;其次是中間層的工具鏈,例如在編譯的時候是否對模型進行了優(yōu)化,是否將與模型相關(guān)的計算和對存儲的操作有效映射到微架構(gòu)上;最后,再對上層應(yīng)用進行優(yōu)化。這一系列操作并非簡單的硬件堆砌就能達到,而是要在性能、成本、功耗等多因素之間找到微妙的平衡,不能像孩子們玩的蹺蹺板,一邊的升起,往往意味著另一邊的下墜。

羅霖進一步解釋說,一些解決方案非常適合 AI 推斷,但并不適合整體應(yīng)用處理。GPUASIC 往往能提供在紙面上看上去很高的 TOPS,但是 AI 推斷性能通常需要與系統(tǒng) I/O、預(yù)處理性能和后處理性能相匹配。如果非 AI 組件不能高效地在單芯片上實現(xiàn),就需要多芯片解決方案。多芯片方案需要在器件之間傳遞數(shù)據(jù),會降低系統(tǒng)性能并提高功耗。因此,一個能夠高效實現(xiàn)整體應(yīng)用的單器件在實際 AI 推斷部署中擁有顯著優(yōu)勢。

5

自適應(yīng)計算平臺有哪些典型應(yīng)用?

賽靈思 Versal ACAP 自適應(yīng)計算平臺構(gòu)建于能在制造后依然可以動態(tài)重配置的硬件上,包括 FPGA 等經(jīng)過長期檢驗的技術(shù),以及賽靈思 AI 引擎等最近的創(chuàng)新。其強大之處在于,不僅可以加速關(guān)鍵的人工智能和非人工智能功能,而且還可以構(gòu)建應(yīng)用程序級流媒體管道,以避免系統(tǒng)瓶頸,從而實現(xiàn)整個應(yīng)用程序的加速。

為了能夠更好地理解上述理論,羅霖和姚頌為我們列舉了一些典型的應(yīng)用場景:

自動駕駛

自動駕駛對超低延時是相當(dāng)看重的,通常要求每一幀的延時不能超過 33 毫秒,這意味著真正能留給感知和識別的時間只有不到 10 毫秒,F(xiàn)PGA 可以做到幾毫秒之內(nèi)的延時,相比之下,GPU 就很難做到。

智能視頻分析

“數(shù)據(jù)路徑越復(fù)雜對 FPGA 越有利”,羅霖說,在智能視頻分析中,不光有 CNN 推斷,還包括檢測、解碼、圖像預(yù)處理和后處理等許多工作,F(xiàn)PGA 器件能夠做很多優(yōu)化的、定制化的硬件加速。如果換成 GPU,盡管在處理 YOLOV3 模型時效果不錯,但添加上其他任務(wù)后,就會明顯感到“力不從心”,類似現(xiàn)象在語音類、推薦類應(yīng)用中也很常見。

ResNet-50 Vs YOLOv3

YOLOv3 是用于各類目標(biāo)檢測與識別的神經(jīng)網(wǎng)絡(luò)模型,準(zhǔn)確率高。支持者認(rèn)為,ResNet-50 使用的 224×224 基準(zhǔn)圖像像素現(xiàn)在“幾乎無人使用”,而 YOLOv3 使用 608×608,甚至 1440×1440 像素,屬于高清處理,這對自動駕駛、機器人、銀行安全及零售分析領(lǐng)域的客戶來說十分重要。

姚頌不否認(rèn) YOLOv3 是在準(zhǔn)確率和計算性能上取得不錯平衡的模型,但他不認(rèn)為這樣就可以取代 ResNet-50 標(biāo)準(zhǔn),例如在醫(yī)療影像、工業(yè)圖像檢測等領(lǐng)域就使用了包括 SSB 在內(nèi)的其它模型。更重要的是,ResNet-50 的整體架構(gòu)非常高效,很多互聯(lián)網(wǎng)企業(yè)的神經(jīng)網(wǎng)絡(luò)都基于 ResNet-50 模塊搭建。所以,“我們不應(yīng)該只把眼光聚焦在 YOLOv3 模型上,一顆 AI 芯片,至少應(yīng)該把 CNN 推斷或者類似的神經(jīng)網(wǎng)絡(luò)架構(gòu)都支持起來,否則人家會認(rèn)為你只支持 YOLOv3 模型?!彼f。

作者:邵樂峰

ASPENCORE 中國區(qū)首席分析師

責(zé)任編輯:haq

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 芯片
    +關(guān)注

    關(guān)注

    462

    文章

    53581

    瀏覽量

    459591
  • AI
    AI
    +關(guān)注

    關(guān)注

    90

    文章

    38241

    瀏覽量

    297146
  • 人工智能
    +關(guān)注

    關(guān)注

    1813

    文章

    49773

    瀏覽量

    261749
  • 機器學(xué)習(xí)
    +關(guān)注

    關(guān)注

    66

    文章

    8541

    瀏覽量

    136255
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    FPGA在機器學(xué)習(xí)中的具體應(yīng)用

    隨著機器學(xué)習(xí)和人工智能技術(shù)的迅猛發(fā)展,傳統(tǒng)的中央處理單元(CPU)和圖形處理單元(GPU)已經(jīng)無法滿足高效處理大規(guī)模數(shù)據(jù)和復(fù)雜模型的需求。FPGA(現(xiàn)場可編程門陣列)作為一種靈活且高效的硬件加速平臺
    的頭像 發(fā)表于 07-16 15:34 ?2648次閱讀

    每晚“免費”開的中國路燈:如此龐大的“電費消耗”,誰來支付?物聯(lián)網(wǎng)單燈控制器智能路燈合同能源管理

    每晚“免費”開的中國路燈:如此龐大的“電費消耗”,誰來支付?物聯(lián)網(wǎng)單燈控制器智能路燈合同能源管理
    的頭像 發(fā)表于 04-02 09:53 ?1394次閱讀
    每晚“免費”開的中國路燈:如此龐大的“電費消耗”,<b class='flag-5'>誰來</b>支付?物聯(lián)網(wǎng)單燈控制器智能路燈合同能源管理

    **【技術(shù)干貨】Nordic nRF54系列芯片:傳感器數(shù)據(jù)采集與AI機器學(xué)習(xí)的完美結(jié)合**

    【技術(shù)干貨】nRF54系列芯片:傳感器數(shù)據(jù)采集與AI機器學(xué)習(xí)的完美結(jié)合 近期收到不少伙伴咨詢nRF54系列芯片的應(yīng)用與技術(shù)細節(jié),今天我們整理幾個核心問題與解答,帶你快速掌握如何在nRF54上部署AI
    發(fā)表于 04-01 00:00

    LLC動態(tài)性能分析

    這里的LLC動態(tài)是指LLC電路在突加負(fù)載時的動態(tài)響應(yīng)。一般用輸出電壓的下跌和過沖評判LLC動態(tài)性能。
    的頭像 發(fā)表于 03-19 09:45 ?1873次閱讀
    LLC動態(tài)<b class='flag-5'>性能</b>分析

    請問STM32部署機器學(xué)習(xí)算法硬件至少要使用哪個系列的芯片?

    STM32部署機器學(xué)習(xí)算法硬件至少要使用哪個系列的芯片?
    發(fā)表于 03-13 07:34

    機器學(xué)習(xí)模型市場前景如何

    當(dāng)今,隨著算法的不斷優(yōu)化、數(shù)據(jù)量的爆炸式增長以及計算能力的飛速提升,機器學(xué)習(xí)模型的市場前景愈發(fā)廣闊。下面,AI部落小編將探討機器學(xué)習(xí)模型市場的未來發(fā)展。
    的頭像 發(fā)表于 02-13 09:39 ?631次閱讀

    嵌入式機器學(xué)習(xí)的應(yīng)用特性與軟件開發(fā)環(huán)境

    作者:DigiKey Editor 在許多嵌入式系統(tǒng)中,必須采用嵌入式機器學(xué)習(xí)(Embedded Machine Learning)技術(shù),這是指將機器學(xué)習(xí)模型部署在資源受限的設(shè)備(如微
    的頭像 發(fā)表于 01-25 17:05 ?1235次閱讀
    嵌入式<b class='flag-5'>機器</b><b class='flag-5'>學(xué)習(xí)</b>的應(yīng)用特性與軟件開發(fā)環(huán)境

    華為云 Flexus X 實例部署安裝 Jupyter Notebook,學(xué)習(xí) AI,機器學(xué)習(xí)算法

    前言 由于本人最近在學(xué)習(xí)一些機器算法,AI 算法的知識,需要搭建一個學(xué)習(xí)環(huán)境,所以就在最近購買的華為云 Flexus X 實例上安裝了學(xué)習(xí)環(huán)境,Jupyter Notebook。沒想到
    的頭像 發(fā)表于 01-02 13:43 ?873次閱讀
    華為云 Flexus X 實例部署安裝 Jupyter Notebook,<b class='flag-5'>學(xué)習(xí)</b> AI,<b class='flag-5'>機器</b><b class='flag-5'>學(xué)習(xí)</b>算法

    傳統(tǒng)機器學(xué)習(xí)方法和應(yīng)用指導(dǎo)

    在上一篇文章中,我們介紹了機器學(xué)習(xí)的關(guān)鍵概念術(shù)語。在本文中,我們會介紹傳統(tǒng)機器學(xué)習(xí)的基礎(chǔ)知識和多種算法特征,供各位老師選擇。 01 傳統(tǒng)機器
    的頭像 發(fā)表于 12-30 09:16 ?1986次閱讀
    傳統(tǒng)<b class='flag-5'>機器</b><b class='flag-5'>學(xué)習(xí)</b>方法和應(yīng)用指導(dǎo)

    【「具身智能機器人系統(tǒng)」閱讀體驗】1.全書概覽與第一章學(xué)習(xí)

    非常感謝電子發(fā)燒友提供的這次書籍測評活動!最近,我一直在學(xué)習(xí)大模型和人工智能的相關(guān)知識,深刻體會到機器人技術(shù)是一個極具潛力的未來方向,甚至可以說是推動時代變革的重要力量。能參與這次活動并有機會深入
    發(fā)表于 12-27 14:50

    如何選擇云原生機器學(xué)習(xí)平臺

    當(dāng)今,云原生機器學(xué)習(xí)平臺因其彈性擴展、高效部署、低成本運營等優(yōu)勢,逐漸成為企業(yè)構(gòu)建和部署機器學(xué)習(xí)應(yīng)用的首選。然而,市場上的云原生機器
    的頭像 發(fā)表于 12-25 11:54 ?708次閱讀

    《具身智能機器人系統(tǒng)》第7-9章閱讀心得之具身智能機器人與大模型

    醫(yī)療領(lǐng)域,手術(shù)輔助機器人需要毫米級的精確控制,書中有介紹基于視覺伺服的實時控制算法,以及如何利用大模型優(yōu)化手術(shù)路徑規(guī)劃。工業(yè)場景中,協(xié)作機器人面臨的主要挑戰(zhàn)是快速適應(yīng)新工藝流程。具身智能通過在線學(xué)習(xí)
    發(fā)表于 12-24 15:03

    zeta在機器學(xué)習(xí)中的應(yīng)用 zeta的優(yōu)缺點分析

    在探討ZETA在機器學(xué)習(xí)中的應(yīng)用以及ZETA的優(yōu)缺點時,需要明確的是,ZETA一詞在不同領(lǐng)域可能有不同的含義和應(yīng)用。以下是根據(jù)不同領(lǐng)域的ZETA進行的分析: 一、ZETA在機器學(xué)習(xí)
    的頭像 發(fā)表于 12-20 09:11 ?1634次閱讀

    cmp在機器學(xué)習(xí)中的作用 如何使用cmp進行數(shù)據(jù)對比

    機器學(xué)習(xí)領(lǐng)域,"cmp"這個術(shù)語可能并不是一個常見的術(shù)語,它可能是指"比較"(comparison)的縮寫。 比較在機器學(xué)習(xí)中的作用 模型評估 :比較不同模型的
    的頭像 發(fā)表于 12-17 09:35 ?1334次閱讀

    構(gòu)建云原生機器學(xué)習(xí)平臺流程

    構(gòu)建云原生機器學(xué)習(xí)平臺是一個復(fù)雜而系統(tǒng)的過程,涉及數(shù)據(jù)收集、處理、特征提取、模型訓(xùn)練、評估、部署和監(jiān)控等多個環(huán)節(jié)。
    的頭像 發(fā)表于 12-14 10:34 ?678次閱讀