chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

新思科技如何破解邊緣AI部署難題

新思科技 ? 來(lái)源:新思科技 ? 2025-08-21 16:40 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

神經(jīng)處理單元(NPU)是一種專為人工智能AI神經(jīng)網(wǎng)絡(luò)深度學(xué)習(xí)任務(wù)設(shè)計(jì)的專用處理器,隨著技術(shù)從卷積神經(jīng)網(wǎng)絡(luò)(CNN)演進(jìn)至Transformer模型,再到如今的生成式人工智能(GenAI)模型,NPU也需要隨之演進(jìn)。GenAI(尤其是大語(yǔ)言模型LLM)的參數(shù)量與日俱增,對(duì)帶寬的需求更是永無(wú)止境,正促使嵌入式AI硬件中所用的數(shù)據(jù)格式發(fā)生轉(zhuǎn)變,包括向低精度和浮點(diǎn)格式發(fā)展的趨勢(shì),例如新興的OCP微縮放(MX)數(shù)據(jù)類型。

卷積神經(jīng)網(wǎng)絡(luò)及后續(xù)演進(jìn)

早在2012年,卷積神經(jīng)網(wǎng)絡(luò)(CNN)便已超越數(shù)字信號(hào)處理解決方案,成為圖像特征分析、目標(biāo)檢測(cè)等視覺處理任務(wù)的默認(rèn)標(biāo)準(zhǔn)。CNN算法的訓(xùn)練與推理最初采用32位浮點(diǎn)(FP32)數(shù)據(jù)類型,但沒過(guò)多久,推理引擎就找到了優(yōu)化CNN引擎功耗與面積的方法,對(duì)于面向邊緣設(shè)備的應(yīng)用而言尤為重要。在精度損失極小的前提下,8位整數(shù)(INT8)成為高吞吐量應(yīng)用場(chǎng)景下CNN算法的標(biāo)準(zhǔn)格式。當(dāng)時(shí)占據(jù)主導(dǎo)地位的AI框架TensorFlow為INT8提供了堅(jiān)實(shí)可靠的支持,不過(guò)使用INT8數(shù)據(jù)類型需要進(jìn)行訓(xùn)練后量化與校準(zhǔn)。

2017年,Transformer神經(jīng)網(wǎng)絡(luò)問(wèn)世(Google發(fā)表了《Attention Is All You Need》論文)。由于引入了注意力機(jī)制,相較于進(jìn)行圖像分類的CNN,Transformer對(duì)INT8量化更為敏感。16位浮點(diǎn)(FP16)和腦浮點(diǎn)(BF16)由此成為Transformer常用的替代數(shù)據(jù)類型。

Transformer開啟了當(dāng)前的GenAI模型時(shí)代,但GenAI模型的參數(shù)規(guī)模比CNN和許多視覺Transformer高出幾個(gè)數(shù)量級(jí)。比如,典型的CNN算法可能需要2500萬(wàn)個(gè)參數(shù),而ChatGPT則需要1750億個(gè)參數(shù)。參數(shù)量的大幅增加導(dǎo)致NPU的計(jì)算需求與內(nèi)存帶寬需求之間出現(xiàn)失衡。正如圖1所示,面向AI神經(jīng)網(wǎng)絡(luò)工作負(fù)載的GPU性能增長(zhǎng)速度,遠(yuǎn)快于互連帶寬能力的提升速度。

cb27aee0-7dae-11f0-a18e-92fbcf53809c.png

▲圖1:AI性能(TOPS)的增長(zhǎng)速度,超過(guò)了互連帶寬(GB/s)的增長(zhǎng)速度。

GPU通常用于AI訓(xùn)練和服務(wù)器工作負(fù)載,而NPU則是AI推理的首選AI處理器;在推理場(chǎng)景中,低功耗和小面積是核心訴求。隨著NPU開始處理GenAI工作負(fù)載,其計(jì)算能力與接口帶寬之間的不匹配問(wèn)題愈發(fā)棘手。用于邊緣設(shè)備的NPU通常配備LPDDR5內(nèi)存接口,與服務(wù)器應(yīng)用中常用的HBM接口相比,這種接口的帶寬存在明顯局限。

NPU可通過(guò)多種方式降低帶寬需求:

NPU內(nèi)置硬件與軟件壓縮機(jī)制,以此有效削減帶寬消耗。

GenAI模型正逐步演進(jìn)。例如,DeepSeek和Llama 4均采用了一種名為“專家混合”(MOE)的技術(shù)。這類模型的參數(shù)規(guī)模依然龐大,但MOE技術(shù)能讓任意時(shí)刻加載的參數(shù)集更為精簡(jiǎn),從而提升帶寬效率。

降低GenAI模型參數(shù)的精度是減少帶寬的常用策略。大多數(shù)NPU原本針對(duì)INT8數(shù)據(jù)和系數(shù)設(shè)計(jì),但若參數(shù)能采用更低精度的格式(如INT4或FP4),數(shù)據(jù)便可實(shí)現(xiàn)壓縮存儲(chǔ),帶寬由此翻倍提升。更小的數(shù)據(jù)類型還能同時(shí)減少內(nèi)存占用和數(shù)據(jù)加載延遲。

針對(duì)窄精度數(shù)據(jù)類型的新標(biāo)準(zhǔn)應(yīng)運(yùn)而生

2023年,OCP微縮放格式(MX)規(guī)范發(fā)布,其中引入了三種浮點(diǎn)格式和一種整數(shù)格式(MXFP8、NXFP6、MXFP4、MXINT8),MXFP8格式源自O(shè)CP 8位浮點(diǎn)規(guī)范(OFP8),詳見圖2。

在圖2中,四種符合MX規(guī)范的數(shù)據(jù)類型均采用8位指數(shù)并在由32個(gè)數(shù)字組成的塊中共享,既能減少內(nèi)存占用,又能提升硬件性能與效率,進(jìn)而降低開銷和運(yùn)營(yíng)成本。MX數(shù)據(jù)類型的另一優(yōu)勢(shì)在于,在離線編譯過(guò)程中,F(xiàn)P32或FP16的權(quán)重與激活值可“直接轉(zhuǎn)換”(壓縮/量化)為MX浮點(diǎn)格式。

cb4a2678-7dae-11f0-a18e-92fbcf53809c.png

▲圖2:OCP MX規(guī)范v1.0中的微縮放(MX)數(shù)據(jù)類型。

GenAI模型之所以需要更小的數(shù)據(jù)類型,源于NPU架構(gòu)的需求變化。由于窄位寬數(shù)據(jù)格式有助于降低GenAI模型的計(jì)算與存儲(chǔ)成本,NPU必須支持這些新的格式。

圖3展示了新思科技面向具備AI能力的SoC所提供的處理器IP產(chǎn)品。NPX6 NPU IP提供高效、可擴(kuò)展的AI推理引擎;VPX DSP IP是一款超長(zhǎng)指令字(VLIW)/單指令多數(shù)據(jù)(SIMD)處理器系列,適用于廣泛多樣的信號(hào)處理應(yīng)用,除了能對(duì)神經(jīng)網(wǎng)絡(luò)模型進(jìn)行預(yù)處理和后處理外,還可處理自定義神經(jīng)網(wǎng)絡(luò)層。

cb5ad5cc-7dae-11f0-a18e-92fbcf53809c.png

▲圖3:NPX6 NPU IP和VPX DSP IP為神經(jīng)網(wǎng)絡(luò)處理、前瞻性適配及預(yù)處理/后處理提供集成解決方案。

新思科技的NPX IP和VPX IP系列現(xiàn)已新增AI數(shù)據(jù)壓縮選項(xiàng),與浮點(diǎn)單元(FPU)選項(xiàng)結(jié)合后,可為任何ARC NPX神經(jīng)處理單元IP處理器或VPX數(shù)字信號(hào)處理器IP處理器增加對(duì)INT4、BF16、OCP-FP8及OCP-MX數(shù)據(jù)壓縮的支持。新增的AI數(shù)據(jù)壓縮選項(xiàng)完全符合OCP規(guī)范,包括《OCP 8位浮點(diǎn)規(guī)范(OFP8)》(1.0版,2023年6月20日批準(zhǔn))與《OCP微縮放格式(MX)規(guī)范》(1.0版,2023年9月)。

AI數(shù)據(jù)壓縮選項(xiàng)可在DMA中快速執(zhí)行數(shù)據(jù)格式轉(zhuǎn)換:從系統(tǒng)內(nèi)存移入內(nèi)部存儲(chǔ)器時(shí)對(duì)數(shù)據(jù)解壓縮,從內(nèi)部存儲(chǔ)器移至系統(tǒng)內(nèi)存時(shí)對(duì)數(shù)據(jù)壓縮。以NPX6為例,MXFP6格式會(huì)轉(zhuǎn)換為FP16格式以用于內(nèi)部處理。內(nèi)部計(jì)算采用FP16并不會(huì)限制整體性能,因?yàn)樵贜PX6 NPU IP上運(yùn)行的LLM不受計(jì)算能力制約,瓶頸在于帶寬。下方圖4展示了增強(qiáng)型NPX6 NPU IP和VPX DSP IP所支持的數(shù)據(jù)類型,其中多項(xiàng)數(shù)據(jù)類型在DMA中得到支持。表格中還列出了每種數(shù)據(jù)類型所對(duì)應(yīng)的內(nèi)部數(shù)據(jù)路徑。

cb709e70-7dae-11f0-a18e-92fbcf53809c.png

▲圖4:增強(qiáng)型新思科技ARC NPX6 NPU IP和新思科技ARC VPX DSP IP系列所支持的數(shù)據(jù)類型。

由于VPX與NPX支持相同的數(shù)據(jù)類型,采用這些新格式在處理器之間傳輸參數(shù)或激活值時(shí),操作簡(jiǎn)便易行。將這些數(shù)據(jù)類型集成到DMA中,有助于減少帶寬占用和內(nèi)存開銷。在DMA中支持多種數(shù)據(jù)類型的另一優(yōu)勢(shì)在于,處理器IP能夠直接與轉(zhuǎn)換器連接。例如,10位模數(shù)轉(zhuǎn)換器可連接至NPX或VPX,硬件會(huì)自動(dòng)將其映射為內(nèi)部數(shù)據(jù)類型,省去了軟件轉(zhuǎn)換的步驟。

結(jié)語(yǔ)

GenAI模型在不斷演進(jìn)的過(guò)程中,所遵循的發(fā)展軌跡很可能與CNN模型類似。在達(dá)到令人滿意的精度與效率水平之前,模型的參數(shù)規(guī)模會(huì)持續(xù)激增;而后,研究重心將轉(zhuǎn)向優(yōu)化環(huán)節(jié),使模型更適配邊緣設(shè)備應(yīng)用。目前,增強(qiáng)型新思科技ARC NPX6 NPU IP和新思科技ARC VPX DSP IP已正式推出,可供關(guān)注AI(包括GenAI)能力的SoC開發(fā)者選用。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 神經(jīng)網(wǎng)絡(luò)

    關(guān)注

    42

    文章

    4831

    瀏覽量

    107224
  • AI
    AI
    +關(guān)注

    關(guān)注

    91

    文章

    39083

    瀏覽量

    299638
  • 新思科技
    +關(guān)注

    關(guān)注

    5

    文章

    944

    瀏覽量

    52811

原文標(biāo)題:4bit破解邊緣AI部署難題!新思科技賦能“大模型”跑進(jìn)“小設(shè)備”

文章出處:【微信號(hào):Synopsys_CN,微信公眾號(hào):新思科技】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    邊緣AI應(yīng)用越來(lái)越普遍,AI模型在邊緣端如何部署

    電子發(fā)燒友網(wǎng)報(bào)道(文/李彎彎)在人工智能時(shí)代,越來(lái)越多的AI應(yīng)用需要從云端擴(kuò)展到邊緣端,比如智能耳機(jī)、智能攝像機(jī)、智能手環(huán)、物流機(jī)器人等,在邊緣部署
    的頭像 發(fā)表于 07-04 00:11 ?4330次閱讀
    <b class='flag-5'>邊緣</b><b class='flag-5'>AI</b>應(yīng)用越來(lái)越普遍,<b class='flag-5'>AI</b>模型在<b class='flag-5'>邊緣</b>端如何<b class='flag-5'>部署</b>?

    英特爾發(fā)布全新邊緣計(jì)算平臺(tái),解決AI邊緣落地難題

    電子發(fā)燒友網(wǎng)報(bào)道(文/李彎彎)AI越來(lái)越多地在邊緣側(cè)部署。Gartner最新預(yù)測(cè)數(shù)據(jù)顯示,到2025年,50%以上的企業(yè)管理數(shù)據(jù)將在數(shù)據(jù)中心或云之外創(chuàng)建和處理。隨著AI為自動(dòng)化帶來(lái)更多
    的頭像 發(fā)表于 03-12 09:06 ?5410次閱讀
    英特爾發(fā)布全新<b class='flag-5'>邊緣</b>計(jì)算平臺(tái),解決<b class='flag-5'>AI</b><b class='flag-5'>邊緣</b>落地<b class='flag-5'>難題</b>

    邊緣AI實(shí)現(xiàn)的核心環(huán)節(jié):硬件選擇和模型部署

    電子發(fā)燒友網(wǎng)綜合報(bào)道 邊緣AI的實(shí)現(xiàn)原理是將人工智能算法和模型部署到靠近數(shù)據(jù)源的邊緣設(shè)備上,使這些設(shè)備能夠在本地進(jìn)行數(shù)據(jù)處理、分析和決策,而無(wú)需將數(shù)據(jù)傳輸?shù)竭h(yuǎn)程的云端服務(wù)器。
    發(fā)表于 05-26 07:09 ?1401次閱讀

    Deepseek海思SD3403邊緣計(jì)算AI產(chǎn)品系統(tǒng)

    海思SD3403邊緣計(jì)算AI框架,提供了一套開放式AI訓(xùn)練產(chǎn)品工具包,解決客戶低成本AI系統(tǒng),針對(duì)差異化AI 應(yīng)用場(chǎng)景,自己采集樣本數(shù)據(jù),進(jìn)
    發(fā)表于 04-28 11:05

    STM32F769是否可以部署邊緣AI?

    STM32F769是否可以部署邊緣AI
    發(fā)表于 06-17 06:44

    EdgeBoard FZ5 邊緣AI計(jì)算盒及計(jì)算卡

    ` 隨著應(yīng)用場(chǎng)景的多樣化,利用人工智能技術(shù)在邊緣側(cè)部署一系列創(chuàng)新應(yīng)用解決方案,對(duì)企業(yè)傳統(tǒng)的業(yè)務(wù)形態(tài)進(jìn)行升級(jí),加速業(yè)務(wù)增長(zhǎng),增強(qiáng)競(jìng)爭(zhēng)優(yōu)勢(shì),起著至關(guān)重要的作用。 在市場(chǎng)需求和產(chǎn)業(yè)趨勢(shì)的推動(dòng)下,米爾
    發(fā)表于 08-31 14:12

    網(wǎng)絡(luò)邊緣實(shí)施AI的原因

    AI推向邊緣的影響通過(guò)在邊緣運(yùn)行ML模型可以使哪些具體的AI項(xiàng)目更容易運(yùn)行?
    發(fā)表于 02-23 06:21

    嵌入式邊緣AI應(yīng)用開發(fā)指南

    部署到TI硬件上。然而,將深度學(xué)習(xí)模型部署到硬件加速器上只是難題的冰山一角。為幫助您快速構(gòu)建高效的邊緣AI應(yīng)用,TI采用了GStreamer
    發(fā)表于 11-03 06:53

    思科技發(fā)布業(yè)界首款全棧式AI驅(qū)動(dòng)型EDA解決方案Synopsys.ai

    )、IBM、聯(lián)發(fā)科(MediaTek)和瑞薩電子(Renesas)均對(duì)新思科技的AI驅(qū)動(dòng)型EDA設(shè)計(jì)策略表示支持,并已利用Synopsys.ai解決方案取得顯著成果:瑞薩電子在減少功能覆蓋盲區(qū)方面實(shí)現(xiàn)
    發(fā)表于 04-03 16:03

    如何通過(guò)Astraea一鍵化部署邊緣AI服務(wù)?

    前言 為什么說(shuō)邊緣計(jì)算帶來(lái)了數(shù)據(jù)、計(jì)算的根本變化? 邊緣AI邊緣計(jì)算最重要的應(yīng)用之一,它的挑戰(zhàn)是什么? 一個(gè)用于邊緣計(jì)算場(chǎng)景的新型
    的頭像 發(fā)表于 11-03 11:26 ?3407次閱讀

    思科技宣布與SiMa.ai開展合作

    思科技(Synopsys)近日宣布與SiMa.ai開展合作,將其機(jī)器學(xué)習(xí)推理技術(shù)大規(guī)模引入嵌入式邊緣設(shè)備。此次合作,SiMa.ai將采用新思科
    的頭像 發(fā)表于 11-27 14:41 ?2382次閱讀

    邊緣計(jì)算前景很美,安全難題如何破解?

    在大規(guī)模商用以及快速發(fā)展的AI芯片技術(shù)雙重加持下,邊緣計(jì)算在未來(lái)十年將迎來(lái)爆炸性增長(zhǎng)。根據(jù)Grand View Research的數(shù)據(jù),2019年邊緣計(jì)算所帶來(lái)的市場(chǎng)價(jià)值約為25億美元。到2027年
    發(fā)表于 01-27 09:40 ?7次下載
    <b class='flag-5'>邊緣</b>計(jì)算前景很美,安全<b class='flag-5'>難題</b>如何<b class='flag-5'>破解</b>?

    AI邊緣計(jì)算是什么意思?邊緣ai是什么?AI邊緣計(jì)算應(yīng)用

    AI邊緣計(jì)算是什么意思?邊緣ai是什么?AI邊緣計(jì)算應(yīng)用? 隨著人工智能技術(shù)的不斷發(fā)展,
    的頭像 發(fā)表于 08-24 15:18 ?3496次閱讀

    中興通訊AiCube:破解AI模型部署難題

    ,成為制約技術(shù)價(jià)值釋放的新痛點(diǎn)。 異構(gòu)算力適配困難、算力資源利用率低以及數(shù)據(jù)安全風(fēng)險(xiǎn)高等問(wèn)題,讓許多企業(yè)在AI技術(shù)的實(shí)際應(yīng)用中遇到了瓶頸。這些問(wèn)題不僅增加了部署的難度,還可能導(dǎo)致資源的浪費(fèi)和潛在的安全威脅。 為了破解這一
    的頭像 發(fā)表于 02-13 09:11 ?969次閱讀

    邊緣AI實(shí)現(xiàn)的核心環(huán)節(jié):硬件選擇和模型部署

    邊緣AI的實(shí)現(xiàn)原理是將人工智能算法和模型部署到靠近數(shù)據(jù)源的邊緣設(shè)備上,使這些設(shè)備能夠在本地進(jìn)行數(shù)據(jù)處理、分析和決策,而無(wú)需將數(shù)據(jù)傳輸?shù)竭h(yuǎn)程的云端服務(wù)器。
    的頭像 發(fā)表于 06-19 12:19 ?1269次閱讀
    <b class='flag-5'>邊緣</b><b class='flag-5'>AI</b>實(shí)現(xiàn)的核心環(huán)節(jié):硬件選擇和模型<b class='flag-5'>部署</b>