chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

人工智能引發(fā)的圖像分類算法

454398 ? 來源:賽靈思 ? 作者:Quenton Hall ? 2020-11-16 16:40 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

作者:Quenton Hall,賽靈思公司工業(yè)、視覺、醫(yī)療及科學(xué)市場的 AI 系統(tǒng)架構(gòu)師

在上一篇文章中,我們簡要介紹了更高層次的問題,這些問題為優(yōu)化加速器的需求奠定了基礎(chǔ)。作為一個(gè)尖銳的問題提醒,現(xiàn)在讓我們通過一個(gè)非常簡單的圖像分類算法,來看一看與之相關(guān)聯(lián)的計(jì)算成本與功耗。

利用 Mark Horowitz 提供的數(shù)據(jù)點(diǎn),我們可以考慮圖像分類器在不同空間限制下的相對功耗。雖然您會注意到 Mark 的能耗估計(jì)是針對 45nm 節(jié)點(diǎn)的,但業(yè)界專家建議,這些數(shù)據(jù)點(diǎn)將繼續(xù)按當(dāng)前的半導(dǎo)體工藝尺寸進(jìn)行調(diào)整。也就是說,無論工藝尺寸是 45nm 還是 16nm,與 FP32 運(yùn)算相比,INT8 運(yùn)算的能量成本仍然低一個(gè)數(shù)量級。

人工智能引發(fā)能源問題,我們該怎么辦?
數(shù)據(jù)來源:Bill Dally(斯坦福),Cadence 嵌入式神經(jīng)網(wǎng)絡(luò)峰會,2017 年 2 月 1 日

功耗可按以下方式進(jìn)行計(jì)算:

功耗 = 能量(J)/運(yùn)算*運(yùn)算/s

從這個(gè)等式中我們可以看出,只有兩種方法能夠降低功耗:要么減少執(zhí)行特定運(yùn)算所需的功耗,要么減少運(yùn)算的次數(shù),或者一起減少。

對于我們的圖像分類器,我們將選擇ResNet50作為一個(gè)目標(biāo)。ResNet 提供了近乎最先進(jìn)的圖像分類性能,同時(shí)與眾多具有類似性能的可比網(wǎng)絡(luò)相比,它所需的參數(shù)(權(quán)重)更少,這便是它的另一大優(yōu)勢。

為了部署 ResNet50,我們每次推斷必須大約 77 億運(yùn)算的算力。這意味著,對于每一幅我們想要分類的圖像,我們將產(chǎn)生 7.7 * 10E9 的“計(jì)算成本”。

現(xiàn)在,讓我們考慮一個(gè)相對高容量的推斷應(yīng)用,在該應(yīng)用中,我們可能希望每秒對 1000 幅圖像進(jìn)行分類。堅(jiān)持沿用 Mark 的 45nm 能量估算,我們得出以下結(jié)論:

功耗 = 4pJ + 0.4pJ/運(yùn)算*7.7B運(yùn)算/圖像 * 1000圖像/s

= 33.88W

作為創(chuàng)新的第一維度,我們可以將網(wǎng)絡(luò)從 FP32 量化到 8 位整數(shù)運(yùn)算。這將功耗降低了一個(gè)數(shù)量級以上。雖然在訓(xùn)練期間 FP32 的精度有利于反向傳輸,但它在像素?cái)?shù)據(jù)的推斷時(shí)間幾乎沒有創(chuàng)造價(jià)值。大量研究和論文已經(jīng)表明,在眾多應(yīng)用中,可以分析每一層的權(quán)重分布并對該分布進(jìn)行量化,同時(shí)將預(yù)量化的預(yù)測精度保持在非常合理的范圍內(nèi)。

此外,量化研究還表明,8 位整數(shù)值對于像素?cái)?shù)據(jù)來說是很好的“通用”解決方案,并且對于典型網(wǎng)絡(luò)的許多內(nèi)層,可以將其量化到 3-4 位,而在預(yù)測精度上損失最小。由 Michaela Blott 領(lǐng)導(dǎo)的賽靈思研究實(shí)驗(yàn)室團(tuán)隊(duì)多年來一直致力于二進(jìn)制神經(jīng)網(wǎng)絡(luò) (BNN) 的研究與部署,并取得了一些令人矚目的成果。(如需了解更多信息,請查看 FINN 和 PYNQ)

如今,我們與DNNDK的重點(diǎn)是將網(wǎng)絡(luò)推斷量化至 INT8?,F(xiàn)代賽靈思 FPGA 中的單個(gè) DSP 片可以在單個(gè)時(shí)鐘周期內(nèi)計(jì)算兩個(gè) 8 位乘法運(yùn)算,這并非巧合。在 16nm UltraScale+ MPSoC 器件系列中,我們擁有超過 15 種不同的器件變型,從數(shù)百個(gè) DSP 片擴(kuò)展到數(shù)千個(gè) DSP 片,同時(shí)保持應(yīng)用和/OS 兼容性。16nm DSP 片的最大 fCLK 峰值為 891MHz。因此,中型 MPSoC 器件是功能強(qiáng)大的計(jì)算加速器。

現(xiàn)在,讓我們考慮一下從 FP32 遷移到 INT8 的數(shù)學(xué)含義:

功耗 = 0.2pJ+0.03pJ/運(yùn)算*7.7B運(yùn)算/圖像*1000圖像/s

= 1.771W

Mark 在演講中,提出了一個(gè)解決計(jì)算效率問題的方法,那就是使用專門構(gòu)建的專用加速器。他的觀點(diǎn)適用于機(jī)器學(xué)習(xí)推斷。

上述分析沒有考慮到的是,我們還將看到 FP32 的外部 DDR 流量至少減少四倍。正如您可能預(yù)料到的那樣,與外部存儲器訪問相關(guān)的功耗成本比內(nèi)部存儲器高得多,這也是事實(shí)。如果我們簡單地利用 Mark 的數(shù)據(jù)點(diǎn),我們會發(fā)現(xiàn)訪問 DRAM 的能量成本大約是 1.3-2.6nJ,而訪問 L1 存儲器的能量成本可能是 10-100pJ。看起來,與訪問內(nèi)部存儲器(如賽靈思 SoC 中發(fā)現(xiàn)的 BlockRAM 和 UltraRAM)的能量成本相比,外部 DRAM 訪問的能量成本至少高出一個(gè)數(shù)量級。

除了量化所提供的優(yōu)勢以外,我們還可以使用網(wǎng)絡(luò)剪枝技術(shù)來減少推斷所需的計(jì)算工作負(fù)載。使用賽靈思Vitis AI 優(yōu)化器工具,可以將在 ILSCVR2012(ImageNet 1000 類)上訓(xùn)練的圖像分類模型的計(jì)算工作負(fù)載減少 30-40%,精度損失不到 1%。再者,如果我們減少預(yù)測類的數(shù)量,我們可以進(jìn)一步增加這些性能提升。現(xiàn)實(shí)情況是,大多數(shù)現(xiàn)實(shí)中的圖像分類網(wǎng)絡(luò)都是在有限數(shù)量的類別上進(jìn)行訓(xùn)練的,這使得超出這種水印的剪枝成為可能。作為參考,我們其中一個(gè)經(jīng)過剪枝的 VGG-SSD 實(shí)現(xiàn)方案在四個(gè)類別上進(jìn)行訓(xùn)練,需要 17 個(gè) GOP(與原始網(wǎng)絡(luò)需要 117 個(gè) GOP 相比),在精度上沒有損失!誰說 VGG 沒有內(nèi)存效率?

然而,如果我們簡單地假設(shè)我們在 ILSCVR2012 上訓(xùn)練我們的分類器,我們發(fā)現(xiàn)我們通??梢酝ㄟ^剪枝減少大約 30% 的計(jì)算工作負(fù)載??紤]到這一點(diǎn),我們得出以下結(jié)論:

功耗 = 0.2pJ+0.03pJ/運(yùn)算*7.7B運(yùn)算/圖像0.7*1000圖像/s

= 1.2397W

將此值與 FP32 推斷的原始估計(jì)值 33.88W 進(jìn)行比較。

雖然這種分析沒有考慮到多種變量(混合因素),但顯然存在一個(gè)重要的優(yōu)化機(jī)會。因此,當(dāng)我們繼續(xù)尋找遙遙無期的“解決計(jì)算飽和的靈丹妙藥”時(shí),考慮一下吳恩達(dá)斷言“AI 是新電能”的背景。我認(rèn)為他并不是在建議 AI 需要更多的電能,只是想表明 AI 具有極高的價(jià)值和巨大的影響力。所以,讓我們對 ML 推斷保持冷靜的頭腦。對待機(jī)器學(xué)習(xí)推斷應(yīng)保持冷靜思考,既不必貿(mào)然跟風(fēng),也無需針對高性能推斷設(shè)計(jì)采用液態(tài)冷卻散熱。

在本文的第三篇中我們還將就專門構(gòu)建的“高效”神經(jīng)網(wǎng)絡(luò)模型的使用以及如何在賽靈思應(yīng)用中利用它們來實(shí)現(xiàn)更大的效率增益進(jìn)行討論。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • dsp
    dsp
    +關(guān)注

    關(guān)注

    558

    文章

    8183

    瀏覽量

    362001
  • 神經(jīng)網(wǎng)絡(luò)

    關(guān)注

    42

    文章

    4819

    瀏覽量

    106029
  • AI
    AI
    +關(guān)注

    關(guān)注

    88

    文章

    36980

    瀏覽量

    289822
  • 半導(dǎo)體工藝
    +關(guān)注

    關(guān)注

    19

    文章

    107

    瀏覽量

    26854
  • MPSoC
    +關(guān)注

    關(guān)注

    0

    文章

    202

    瀏覽量

    24968
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    利用超微型 Neuton ML 模型解鎖 SoC 邊緣人工智能

    的框架小 10 倍,速度也快 10 倍,甚至可以在最先進(jìn)的邊緣設(shè)備上進(jìn)行人工智能處理。在這篇博文中,我們將介紹這對開發(fā)人員意味著什么,以及使用 Neuton 模型如何改進(jìn)您的開發(fā)和終端
    發(fā)表于 08-31 20:54

    迅為iTOP-RK3568人工智能開發(fā)板mobilenet圖像分類模型推理測試

    想快速驗(yàn)證MobileNet圖像分類模型的實(shí)際運(yùn)行效果?迅為iTOP-RK3568人工智能開發(fā)板,讓模型推理測試高效又省心。
    的頭像 發(fā)表于 08-28 15:53 ?1144次閱讀
    迅為iTOP-RK3568<b class='flag-5'>人工智能</b>開發(fā)板mobilenet<b class='flag-5'>圖像</b><b class='flag-5'>分類</b>模型推理測試

    挖到寶了!人工智能綜合實(shí)驗(yàn)箱,高校新工科的寶藏神器

    的深度學(xué)習(xí),構(gòu)建起從基礎(chǔ)到前沿的完整知識體系,一門實(shí)驗(yàn)箱就能滿足多門課程的學(xué)習(xí)實(shí)踐需求,既節(jié)省經(jīng)費(fèi)又不占地 。 五、代碼全開源,學(xué)習(xí)底層算法 所有實(shí)驗(yàn)全部開源,這對于想要深入學(xué)習(xí)人工智能技術(shù)的人來說
    發(fā)表于 08-07 14:30

    挖到寶了!比鄰星人工智能綜合實(shí)驗(yàn)箱,高校新工科的寶藏神器!

    的深度學(xué)習(xí),構(gòu)建起從基礎(chǔ)到前沿的完整知識體系,一門實(shí)驗(yàn)箱就能滿足多門課程的學(xué)習(xí)實(shí)踐需求,既節(jié)省經(jīng)費(fèi)又不占地 。 五、代碼全開源,學(xué)習(xí)底層算法 所有實(shí)驗(yàn)全部開源,這對于想要深入學(xué)習(xí)人工智能技術(shù)的人來說
    發(fā)表于 08-07 14:23

    迅為RK3588開發(fā)板Linux安卓麒麟瑞芯微國產(chǎn)工業(yè)AI人工智能

    迅為RK3588開發(fā)板Linux安卓麒麟瑞芯微國產(chǎn)工業(yè)AI人工智能
    發(fā)表于 07-14 11:23

    最新人工智能硬件培訓(xùn)AI 基礎(chǔ)入門學(xué)習(xí)課程參考2025版(大模型篇)

    人工智能大模型重塑教育與社會發(fā)展的當(dāng)下,無論是探索未來職業(yè)方向,還是更新技術(shù)儲備,掌握大模型知識都已成為新時(shí)代的必修課。從職場上輔助工作的智能助手,到課堂用于學(xué)術(shù)研究的智能工具,大模型正在工作生活
    發(fā)表于 07-04 11:10

    開售RK3576 高性能人工智能主板

    ,HDMI-4K 輸出,支 持千兆以太網(wǎng),WiFi,USB 擴(kuò)展/重力感應(yīng)/RS232/RS485/IO 擴(kuò)展/I2C 擴(kuò)展/MIPI 攝像頭/紅外遙控 器等功能,豐富的接口,一個(gè)全新八核擁有超強(qiáng)性能的人工智能
    發(fā)表于 04-23 10:55

    我國生成式人工智能的發(fā)展現(xiàn)狀與趨勢

    (Generative Artificial Intelligence, GenAI)推動(dòng)人工智能算法智能(Algorithmic Intelligence,AI)進(jìn)入語言智能(Li
    的頭像 發(fā)表于 02-08 11:31 ?1844次閱讀

    Embarcadero:人工智能驅(qū)動(dòng)發(fā)展我們的期望是什么

    發(fā)展的方向。 這是一張?jiān)趕implified.com上,通過提示“屏幕上有人工智能的筆記本電腦”而生成的人工智能圖像。這一實(shí)現(xiàn)令人印象深刻,但同樣任重道遠(yuǎn)。圖像和電影比文本更難處理。難
    的頭像 發(fā)表于 01-15 10:46 ?578次閱讀

    人工智能推理及神經(jīng)處理的未來

    、個(gè)性化和效率的社會需求,又進(jìn)一步推動(dòng)了人工智能技術(shù)的集成。此外,不斷發(fā)展的監(jiān)管體系,則強(qiáng)調(diào)了合乎倫理道德的人工智能、數(shù)據(jù)隱私和算法透明度的重要性,進(jìn)而指導(dǎo)人工
    的頭像 發(fā)表于 12-23 11:18 ?773次閱讀
    <b class='flag-5'>人工智能</b>推理及神經(jīng)處理的未來

    人工智能應(yīng)用領(lǐng)域及未來展望

    計(jì)算能力的大幅提升、數(shù)據(jù)的爆炸式增長以及算法的不斷創(chuàng)新,人工智能迎來了爆發(fā)式的增長。從智能手機(jī)中的語音助手到自動(dòng)駕駛汽車,從醫(yī)療診斷到金融風(fēng)險(xiǎn)評估,人工智能的應(yīng)用場景越來越廣泛。 ?
    的頭像 發(fā)表于 12-07 11:29 ?2008次閱讀

    【每天學(xué)點(diǎn)AI】實(shí)戰(zhàn)圖像增強(qiáng)技術(shù)在人工智能圖像處理中的應(yīng)用

    圖像增強(qiáng)(ImageEnhancement)是人工智能和計(jì)算機(jī)視覺中一項(xiàng)重要的技術(shù),也是人工智能數(shù)據(jù)集預(yù)處理的一個(gè)重要步驟。它旨在提高圖像的質(zhì)量,使其在視覺上更加清晰、細(xì)節(jié)更豐富。這項(xiàng)
    的頭像 發(fā)表于 11-22 17:14 ?2036次閱讀
    【每天學(xué)點(diǎn)AI】實(shí)戰(zhàn)<b class='flag-5'>圖像</b>增強(qiáng)技術(shù)在<b class='flag-5'>人工智能</b><b class='flag-5'>圖像</b>處理中的應(yīng)用

    嵌入式和人工智能究竟是什么關(guān)系?

    應(yīng)用場景。例如,在智能家居領(lǐng)域,嵌入式系統(tǒng)可以控制各種智能設(shè)備,如智能燈泡、智能空調(diào)等,而人工智能則可以實(shí)現(xiàn)對這些設(shè)備的
    發(fā)表于 11-14 16:39

    FPGA應(yīng)用于人工智能的趨勢

    高速和低功耗 : FPGA通過優(yōu)化硬件結(jié)構(gòu)和算法實(shí)現(xiàn),能夠在處理復(fù)雜的人工智能任務(wù)時(shí)保持高速和低功耗,這對于資源有限的嵌入式系統(tǒng)和移動(dòng)設(shè)備尤為重要。 靈活性 : FPGA的可編程性使得它能夠根據(jù)特定的需求進(jìn)行定制化設(shè)計(jì),適應(yīng)不同的算法
    的頭像 發(fā)表于 10-25 09:20 ?2594次閱讀

    RK3588 技術(shù)分享 | 在Android系統(tǒng)中使用NPU實(shí)現(xiàn)Yolov5分類檢測

    的出現(xiàn)不僅減輕了CPU和GPU的負(fù)擔(dān),還讓復(fù)雜的計(jì)算任務(wù)得以高效處理。在典型的工作流中,CPU會首先接收任務(wù),并根據(jù)任務(wù)的性質(zhì)將其分配給合適的處理單元,圖像處理任務(wù)由GPU處理,而人工智能相關(guān)任務(wù)則交給
    發(fā)表于 10-24 10:13