chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

利用ExecuTorch和Arm SME2加速端側(cè)機(jī)器學(xué)習(xí)推理

Arm社區(qū) ? 來(lái)源:Arm社區(qū) ? 2026-03-03 10:27 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

作者:Arm 高級(jí)首席工程師 Jason Zhu 等人

交互式圖像分割已成為全球主流應(yīng)用中極具代表性的移動(dòng)端體驗(yàn)。簡(jiǎn)單來(lái)說(shuō),用戶只需在圖片上輕點(diǎn)一下(或粗略勾畫(huà)),應(yīng)用就能立刻生成像素蒙版,把目標(biāo)對(duì)象“摳”出來(lái)。這項(xiàng)技術(shù)支撐了許多常見(jiàn)功能,比如制作個(gè)性化貼紙、分離主體以替換背景,或是對(duì)圖像局部進(jìn)行選擇性增強(qiáng)。這些效果背后,是輕量級(jí)分割模型在運(yùn)行,這些模型通過(guò) ExecuTorch(PyTorch 的開(kāi)源端側(cè)推理運(yùn)行時(shí))以及第二代 Arm 可伸縮矩陣擴(kuò)展技術(shù) (Arm SME2) 運(yùn)行。

本文將探討這些軟硬件技術(shù)升級(jí)如何讓摳圖功能背后的端側(cè)交互式分割模型 SqueezeSAM 在圖像分割任務(wù)中實(shí)現(xiàn)最高可達(dá) 3.9 倍的加速,并闡述這一突破對(duì)移動(dòng)端應(yīng)用開(kāi)發(fā)者的廣泛影響。SqueezeSAM 已部署在 Meta 旗下應(yīng)用中。

移動(dòng)設(shè)備上端側(cè) AI 的興起

隨著端側(cè)人工智能 (AI) 不斷發(fā)展,一個(gè)核心問(wèn)題擺在眼前:當(dāng)更強(qiáng)大的模型在嚴(yán)格的移動(dòng)端功耗與時(shí)延限制下能夠運(yùn)行得更快時(shí),會(huì)出現(xiàn)哪些新的可能性?實(shí)際上,許多交互式移動(dòng)端 AI 功能和工作負(fù)載已在 CPU 上運(yùn)行,因?yàn)?CPU 始終可用、與應(yīng)用無(wú)縫集成,且在各類場(chǎng)景中具備高靈活性、低時(shí)延與出色性能。對(duì)于這類部署方案,性能優(yōu)劣往往取決于 CPU 執(zhí)行矩陣密集型內(nèi)核的效率,以及當(dāng)算力不再是瓶頸后還存在哪些限制因素。

SME2 是 Armv9 架構(gòu)中的一組高級(jí) CPU 指令,專為在端側(cè)直接加速面向矩陣的計(jì)算工作負(fù)載而設(shè)計(jì)。我們量化了在 ExecuTorch 與 XNNPACK 部署方案中,SME2 對(duì)端到端推理的加速效果,并通過(guò)算子級(jí)性能分析展示具體哪些方面得到了改進(jìn)。啟用 SME2 的全新 Arm CPU已集成在Arm Lumex 計(jì)算子系統(tǒng) (CSS)中,用于旗艦智能手機(jī)與下一代 PC 設(shè)備。

案例研究:利用 SME2 加速交互式圖像分割

我們?cè)u(píng)測(cè)了在以 ExecuTorch 和 XNNPACK 為后端運(yùn)行時(shí),SME2 對(duì) SqueezeSAM 推理時(shí)延的影響。該方案利用 Arm KleidiAI 優(yōu)化的內(nèi)核,以發(fā)揮 SME2 的加速能力。

啟用 SME2 后,8 位整型 (INT8) 和 16 位浮點(diǎn)型 (FP16) 推理均獲得顯著性能提升(圖 1)。在采用默認(rèn)功耗配置的單個(gè) CPU 核心上,INT8 時(shí)延優(yōu)化 1.83 倍(從 556 毫秒降至 304 毫秒),F(xiàn)P16 時(shí)延優(yōu)化 3.9 倍(從 1163 毫秒降至 298 毫秒)。若無(wú) SME2,時(shí)延會(huì)過(guò)高,無(wú)法滿足交互式場(chǎng)景的流暢使用需求;啟用 SME2 后,單核端到端推理時(shí)延可達(dá)到 300 毫秒左右,使端側(cè)部署切實(shí)可行,同時(shí)也為應(yīng)用的其他部分留出了性能余量。

上述結(jié)果表明,SME2 可在 CPU 上顯著加速量化后的 INT8 模型。同時(shí),在本案例中,SME2 讓 FP16 時(shí)延接近 INT8 水平,這一成果意義重大,因?yàn)樗⒎翘娲?INT8,而是擴(kuò)展了實(shí)際可部署的方案范圍。這讓開(kāi)發(fā)者擁有更高的靈活性,可選擇最符合精度與工作流需求的數(shù)據(jù)格式,尤其適用于對(duì)精度敏感的工作負(fù)載,如圖像超分辨率、圖像摳圖、暗光去噪與高動(dòng)態(tài)范圍 (HDR) 增強(qiáng)。倘若沒(méi)有如此級(jí)別的 FP16 加速,移動(dòng)端部署通常只能選用 INT8 以滿足時(shí)延目標(biāo),而這意味著需要引入量化工作流并承擔(dān)精度下降的風(fēng)險(xiǎn)。

除基準(zhǔn)測(cè)試數(shù)據(jù)外,這些性能提升可直接轉(zhuǎn)化為可用的 CPU 算力余量。這些余量可用于打造更豐富的體驗(yàn),例如在保持相機(jī)預(yù)覽與 UI 流暢的同時(shí),并行運(yùn)行分割與增強(qiáng)任務(wù)(如去噪或 HDR 處理);或者把原本只能處理單張圖片的摳圖,擴(kuò)展成帶跨幀目標(biāo)跟蹤的實(shí)時(shí)視頻摳圖,亦可用于降低功耗。

27fdde76-13c5-11f1-90a1-92fbcf53809c.png

圖 1:普通模式下(默認(rèn)移動(dòng)端功耗設(shè)置),一個(gè) CPU 核心在啟用與禁用 SME2 時(shí) SqueezeSAM 的端到端時(shí)延。INT8 從 556 毫秒優(yōu)化至 304 毫秒(提升 1.83 倍)。FP16 從 1163 毫秒優(yōu)化至 298 毫秒(提升 3.90 倍),在本案例中 FP16 時(shí)延已接近 INT8 水平。

本文所有結(jié)果均為在搭載啟用 SME2 的 Arm CPU 的旗艦安卓智能手機(jī)上進(jìn)行受控測(cè)試所得。性能會(huì)因模型、硬件及具體設(shè)備設(shè)置而異。

技術(shù)棧:PyTorch、ExecuTorch、XNNPACK、KleidiAI 和 SME2

框架間的連接關(guān)系

28601f78-13c5-11f1-90a1-92fbcf53809c.png

上圖總結(jié)了本案例研究中使用的 CPU 執(zhí)行技術(shù)棧。模型在 PyTorch 中定義,由 ExecuTorch 導(dǎo)出并運(yùn)行,CPU 計(jì)算則委派給作為后端的 XNNPACK 執(zhí)行。XNNPACK 使用 Arm KleidiAI,這是面向 Arm CPU、為加速機(jī)器學(xué)習(xí)工作負(fù)載而優(yōu)化的輕量級(jí) CPU 內(nèi)核庫(kù)。這些內(nèi)核可在受支持的設(shè)備上自動(dòng)利用 SME2 加速,同時(shí)也能為不支持 SME2 的系統(tǒng)提供針對(duì)其他的 CPU 特性的優(yōu)化實(shí)現(xiàn)。

當(dāng) ExecuTorch 在啟用 XNNPACK 委派的情況下運(yùn)行模型時(shí),XNNPACK 會(huì)在運(yùn)行時(shí)根據(jù)底層硬件能力選擇合適的內(nèi)核實(shí)現(xiàn)。在啟用 SME2 的設(shè)備上,這些運(yùn)算中的矩陣乘法計(jì)算可直接受益于 SME2 加速,無(wú)需對(duì)模型結(jié)構(gòu)或應(yīng)用代碼進(jìn)行任何修改。在這類運(yùn)算得到加速后,推理管線中的其他環(huán)節(jié)(如數(shù)據(jù)移動(dòng)、布局轉(zhuǎn)換、未委派的算子等)往往會(huì)成為新的性能瓶頸。這也是算子級(jí)性能分析對(duì)于理解端到端性能至關(guān)重要的原因。

案例研究模型

在本次評(píng)估中,我們使用了 SqueezeSAM 模型,該模型采用輕量級(jí)、以 conv2d 為主的 UNet 架構(gòu),是典型的移動(dòng)端視覺(jué)模型。

模型結(jié)構(gòu)可被映射為兩大類工作,這兩類工作對(duì)端到端推理時(shí)間有著顯著影響:

計(jì)算密集型運(yùn)算:卷積層(iGEMM,隱式通用矩陣乘法)和注意力/MLP 層(GEMM,通用矩陣乘法)。

數(shù)據(jù)移動(dòng)類運(yùn)算:轉(zhuǎn)置、維度重塑和布局轉(zhuǎn)換。

平臺(tái)說(shuō)明:在許多基于 Armv9 架構(gòu)的設(shè)備上,SME2 作為 CPU 核心間的共享執(zhí)行資源實(shí)現(xiàn),其伸縮特性會(huì)隨系統(tǒng)級(jí)芯片 (SoC) 與 CPU 微架構(gòu)不同而存在差異。我們?cè)谠u(píng)估中已明確考慮這一點(diǎn),并在解讀單核與多核結(jié)果時(shí)討論其產(chǎn)生的影響。

結(jié)果:INT8 和 FP16

(1 個(gè) CPU 核心對(duì)比 4 個(gè) CPU 核心)

我們?cè)趩⒂门c禁用 SME2 的條件下,對(duì)同一模型的兩種精度(INT8 和 FP16)進(jìn)行基準(zhǔn)測(cè)試。我們重點(diǎn)關(guān)注單核執(zhí)行場(chǎng)景(SME2 在此場(chǎng)景下相對(duì)收益最大),同時(shí)也給出四核結(jié)果,以說(shuō)明當(dāng) SME2 作為共享硬件資源時(shí)的絕對(duì)時(shí)延與伸縮表現(xiàn)。所有測(cè)試均僅統(tǒng)計(jì)模型本身的推理時(shí)延。

模型通過(guò) ExecuTorch 在安卓智能手機(jī)上運(yùn)行,在相同軟件與系統(tǒng)環(huán)境下分別測(cè)試啟用與禁用 SME2 的情況。除非另有說(shuō)明,所有結(jié)果均為在無(wú)溫控降頻情況下的穩(wěn)態(tài)性能。

所有結(jié)果均以“普通模式 | 無(wú)限制模式(毫秒)”的形式給出。普通模式對(duì)應(yīng)默認(rèn)的移動(dòng)設(shè)備電源設(shè)置,即系統(tǒng)電源策略啟用狀態(tài),反映典型用戶使用場(chǎng)景。無(wú)限制模式對(duì)應(yīng)持續(xù)供電、保持喚醒狀態(tài)的配置,CPU 頻率限制有效解除;單核測(cè)試中,無(wú)限制模式結(jié)果固定在最高性能(Ultra/Prime,本例中為 4.2 GHz)CPU 核心上運(yùn)行。

在兩種模式下,SME2 均呈現(xiàn)一致的相對(duì)加速趨勢(shì),表明盡管絕對(duì)時(shí)延存在差異,但其加速效果受系統(tǒng)功耗策略影響較小。除非另有明確說(shuō)明,本文后續(xù)均以普通模式結(jié)果為主,因其更能反映典型手機(jī)使用環(huán)境下的用戶感知時(shí)延。無(wú)限制模式結(jié)果用于展示性能余量與硬件上限,應(yīng)視為最佳表現(xiàn),而非日常用戶體驗(yàn)。

28babd34-13c5-11f1-90a1-92fbcf53809c.png

表 1:在安卓手機(jī)上啟用與禁用 SME2 時(shí),SqueezeSAM 的端到端時(shí)延結(jié)果,分別在一個(gè) CPU 核心與四個(gè) CPU 核心上測(cè)試(僅模型時(shí)延)。數(shù)值以“普通模式 | 無(wú)限制模式(毫秒)”的形式給出。

關(guān)于四核擴(kuò)展說(shuō)明:四核的加速比例較小(例如,普通模式下 INT8 為 1.08 倍,而單核為 1.83 倍),這與 SME2 作為共享資源的特性一致,同時(shí)也受內(nèi)存帶寬、緩存行為等其他系統(tǒng)共享因素影響。伸縮特性會(huì)因 SoC 與 CPU 實(shí)現(xiàn)方式不同而存在差異。在生產(chǎn)部署中,若能滿足時(shí)延目標(biāo),優(yōu)先使用一到兩個(gè)核心可獲得更好的能效;當(dāng)需要更低的絕對(duì)時(shí)延且功耗預(yù)算允許時(shí),可使用更多核心。

算子級(jí)性能分析的重要性

端到端時(shí)延只能告訴我們性能提升了多少,無(wú)法說(shuō)明原因及后續(xù)的優(yōu)化對(duì)象。為了理解 SME2 的性能收益來(lái)源及下一階段的性能瓶頸,我們使用算子級(jí)性能分析。

我們通過(guò) ExecuTorch 開(kāi)發(fā)工具中的性能分析工具 ETDump 采集每個(gè)算子的耗時(shí)信息,該工具會(huì)記錄推理過(guò)程中各個(gè)算子的執(zhí)行時(shí)間。這使我們能夠?qū)⒍说蕉思铀傩Ч麣w因到模型的具體部分,如圖 2 和表 2 所示。

為了讓分析更具實(shí)踐指導(dǎo)意義,我們將算子歸納為少數(shù)幾個(gè)與常見(jiàn)模型結(jié)構(gòu)精準(zhǔn)對(duì)應(yīng)的類別:

卷積:Conv2d 層(通?;?iGEMM 實(shí)現(xiàn));

GEMM:矩陣乘法和線性層(注意力和 MLP 投影);

逐元素:ReLU、GELU、Add、Mul 及其他逐點(diǎn)運(yùn)算;

數(shù)據(jù)移動(dòng):轉(zhuǎn)置、拷貝、格式轉(zhuǎn)換、維度重塑和填充;

其他:未委派的算子和框架開(kāi)銷(xiāo)。

通過(guò)上述分類拆解,我們可以明確 SME2 在哪些方面作用最為顯著,以及在矩陣計(jì)算被加速后依然存在的性能瓶頸。

291e3698-13c5-11f1-90a1-92fbcf53809c.png

圖 2:在安卓智能手機(jī)上(一個(gè) Arm CPU 核心,默認(rèn)移動(dòng)設(shè)備功耗設(shè)置),啟用與禁用 SME2 時(shí),F(xiàn)P16 與 INT8 的算子類別耗時(shí)明細(xì)(絕對(duì)時(shí)間)。SME2 大幅降低卷積與 GEMM 耗時(shí),數(shù)據(jù)移動(dòng)在運(yùn)行時(shí)間中的占比顯著提升。

29877266-13c5-11f1-90a1-92fbcf53809c.png

表 2:在安卓智能手機(jī)上(一個(gè) Arm CPU 核心,默認(rèn)移動(dòng)設(shè)備功耗設(shè)置),禁用與啟用 SME2 情況下 INT8 與 FP16 的算子級(jí)耗時(shí)明細(xì)對(duì)比。非矩陣乘法算子主要受運(yùn)行時(shí)波動(dòng)的影響。

從端到端與算子級(jí)結(jié)果得出的三大洞察

洞察 1:SME2 能夠加速矩陣計(jì)算,將瓶頸轉(zhuǎn)移至數(shù)據(jù)移動(dòng)

SME2 顯著降低 INT8 與 FP16 精度下的端到端時(shí)延。在單個(gè) Arm CPU 核心上,INT8 性能優(yōu)化 1.83 倍(從 556 毫秒降至 304 毫秒),F(xiàn)P16 優(yōu)化 3.90 倍(從 1163 毫秒降至 298 毫秒)。即使在四核場(chǎng)景下,SME2 仍可大幅降低 FP16 時(shí)延(從 374 毫秒降至 193 毫秒)。這些優(yōu)化效果使單核執(zhí)行時(shí)延進(jìn)入約 300 毫秒?yún)^(qū)間,在為應(yīng)用其他部分保留 CPU 余量的同時(shí),讓端側(cè)實(shí)時(shí)交互成為可能。

算子級(jí)性能分析表明,SME2 能夠大幅加速矩陣密集型算子。禁用 SME2 時(shí),卷積與 GEMM 占據(jù)推理的主要耗時(shí),分別占 INT8 運(yùn)行時(shí)間的 55.7%、FP16 的 75.8%。啟用 SME2 后,GEMM 算子加速約 3 至 4 倍,卷積/iGEMM 加速約 4 至 9 倍,這是端到端性能提升的主要驅(qū)動(dòng)因素。

矩陣計(jì)算加速后,數(shù)據(jù)移動(dòng)與框架開(kāi)銷(xiāo)的相對(duì)占比上升,后續(xù)優(yōu)化重心也隨之轉(zhuǎn)移。

洞察 2:由轉(zhuǎn)置驅(qū)動(dòng)的數(shù)據(jù)移動(dòng)約占總運(yùn)行時(shí)的 40%

在 SME2 加速后,數(shù)據(jù)移動(dòng)成為主要運(yùn)行耗時(shí)因素之一。在啟用 SME2 的 INT8 運(yùn)行中,數(shù)據(jù)移動(dòng)占總運(yùn)行時(shí)的 41.4%(FP16 為 39.9%)。ETDump 追蹤結(jié)果顯示,約 85% 的數(shù)據(jù)移動(dòng)時(shí)間來(lái)自轉(zhuǎn)置算子,僅兩類轉(zhuǎn)置節(jié)點(diǎn)就占用了該類別超過(guò) 80% 的耗時(shí)。

這類開(kāi)銷(xiāo)源于模型不同部分與運(yùn)行時(shí)之間的數(shù)據(jù)布局不匹配,而非計(jì)算強(qiáng)度問(wèn)題。實(shí)際場(chǎng)景中,當(dāng)具有不同布局偏好的算子按序組合時(shí),會(huì)觸發(fā)頻繁的 NCHW NHWC 格式轉(zhuǎn)換。在本模型中可以看到:歸一化算子作為可移植的 NCHW 算子執(zhí)行,且無(wú)法與相鄰卷積融合(例如當(dāng)非線性激活函數(shù)位于 Conv2d 與 BatchNorm 之間時(shí)),而 XNNPACK 卷積內(nèi)核更偏好 NHWC 布局。這會(huì)在 UNet 編碼器–解碼器模塊中引發(fā)重復(fù)的布局轉(zhuǎn)換:

BatchNorm/GroupNorm (NCHW) →

轉(zhuǎn)置 (NCHW→NHWC) → 卷積 (NHWC) →

轉(zhuǎn)置 (NHWC→NCHW) →

BatchNorm/GroupNorm (NCHW)

由于這類開(kāi)銷(xiāo)由模型與運(yùn)行時(shí)的布局選擇決定,而非計(jì)算強(qiáng)度,因此必須通過(guò)性能分析才能將其暴露出來(lái),從而將其轉(zhuǎn)化為可執(zhí)行的優(yōu)化目標(biāo)。

重要的是,這一性能分析洞察已被證實(shí)具備實(shí)際優(yōu)化價(jià)值。作為初步舉措,Meta ExecuTorch 團(tuán)隊(duì)在框架中實(shí)現(xiàn)了針對(duì)性的圖級(jí)優(yōu)化,以減少歸一化層周?chē)槐匾臄?shù)據(jù)布局轉(zhuǎn)換。在我們的實(shí)驗(yàn)中,除 SME2 帶來(lái)的加速收益外,還可使 INT8 時(shí)延額外減少約 70 毫秒 (23%),F(xiàn)P16 時(shí)延額外減少約 30 毫秒 (10%)。

由上述結(jié)果可以確認(rèn),高轉(zhuǎn)置的數(shù)據(jù)移動(dòng)是極具價(jià)值的優(yōu)化方向。隨著我們持續(xù)分析整張計(jì)算圖的布局行為,仍有進(jìn)一步優(yōu)化的潛力。

洞察 3:在本案例研究中,啟用 SME2 后 FP16 時(shí)延接近 INT8 水平

盡管 INT8 每個(gè)張量元素僅占用一半的內(nèi)存帶寬,但這并不直接帶來(lái)成比例的端到端加速。啟用 SME2 后,本案例中 FP16 時(shí)延已接近 INT8(單個(gè)核心上分別為 298 毫秒與 304 毫秒)。

算子耗時(shí)明細(xì)揭示了背后原因。FP16 的卷積加速效果尤為顯著(加速 9.0 倍,INT8 為 4.4 倍),彌補(bǔ)了 INT8 在內(nèi)存上的效率優(yōu)勢(shì)。同時(shí),INT8 矩陣計(jì)算路徑會(huì)帶來(lái)額外開(kāi)銷(xiāo),包括量化、伸縮及更復(fù)雜的內(nèi)核調(diào)度邏輯,削弱了 INT8 的有效帶寬優(yōu)勢(shì)。

最終效果是,SME2 拓寬了可選用的精度范圍。INT8 依然是高效方案,而對(duì)于不希望承擔(dān)量化復(fù)雜度或精度損耗的精度敏感型工作負(fù)載,F(xiàn)P16 也變得更加實(shí)用。盡管本案例中 FP16 性能已接近 INT8,但該效果與任務(wù)負(fù)載強(qiáng)相關(guān),會(huì)隨算子組合、張量形狀與內(nèi)存壓力發(fā)生變化。

實(shí)操示例:重現(xiàn)工作流

如想自行嘗試上述工作流,我們提供了基于開(kāi)源 SAM 模型的實(shí)操教程,內(nèi)容涵蓋模型導(dǎo)出、使用 SME2 執(zhí)行推理、通過(guò) ETDump 進(jìn)行算子級(jí)性能分析等。完整的設(shè)置說(shuō)明與代碼示例可在代碼倉(cāng)庫(kù)及 Learning Paths 中獲取。

代碼倉(cāng)庫(kù): https://github.com/ArmDeveloperEcosystem/sme-executorch-profiling

Learning Paths: https://learn.arm.com/learning-paths/cross-platform/sme-executorch-profiling/

你將能學(xué)到什么:

如何將分割模型導(dǎo)出至 ExecuTorch,并啟用 XNNPACK 委派

如何在已啟用 SME2 的安卓、iOS 和 macOS 設(shè)備上構(gòu)建與部署模型

如何運(yùn)行 ETDump 性能分析,采集各算子的耗時(shí)信息

如何在自有模型中識(shí)別并量化數(shù)據(jù)移動(dòng)及其他非計(jì)算類性能瓶頸

結(jié)論:SME2 帶來(lái)的實(shí)際改變

在本 SqueezeSAM 案例研究中,SME2 為 INT8 與 FP16 提供了顯著的端側(cè) CPU 加速效果,從本質(zhì)上提升了交互式移動(dòng)端工作負(fù)載的可行性。

這對(duì)開(kāi)發(fā)者和產(chǎn)品團(tuán)隊(duì)意味著什么:

端側(cè)機(jī)器學(xué)習(xí)在 CPU 上更具可行性:SME2 可實(shí)現(xiàn)最高 3.9 倍的端到端推理加速。在安卓默認(rèn)功耗設(shè)置下,真實(shí)交互式移動(dòng)端模型的單核時(shí)延可從 1 秒以上降至約 300 毫秒。對(duì)于交互式工作負(fù)載,這使得基于 CPU 的端側(cè)機(jī)器學(xué)習(xí)從勉強(qiáng)可用變?yōu)榉€(wěn)定實(shí)用,同時(shí)為應(yīng)用其他功能保留性能空間。

FP16 在部分場(chǎng)景中成為更可行的部署選擇:SME2 大幅加速 FP16 計(jì)算,并縮小其與 INT8 之間的時(shí)延差距,讓開(kāi)發(fā)者能更靈活地選擇最符合精度、工作流與時(shí)延要求的數(shù)值精度,尤其適用于對(duì)精度敏感的工作負(fù)載。

節(jié)省的算力余量可帶來(lái)更豐富的使用體驗(yàn):釋放的 CPU 預(yù)算可用于增強(qiáng)端側(cè)功能,例如在圖像分割的同時(shí)運(yùn)行畫(huà)質(zhì)增強(qiáng)(如去噪、HDR),或?qū)D像摳圖從單張圖片擴(kuò)展至支持跨幀目標(biāo)跟蹤的實(shí)時(shí)視頻。

性能分析給出下一階段優(yōu)化目標(biāo):當(dāng) SME2 加速了矩陣密集型算子(卷積/iGEMM、GEMM)后,性能瓶頸通常會(huì)轉(zhuǎn)向數(shù)據(jù)移動(dòng)與未委派算子?;?ETDump 的算子級(jí)性能分析可清晰展示這類開(kāi)銷(xiāo),并提供可落地的優(yōu)化方向。

根據(jù)起點(diǎn)不同,有兩點(diǎn)明確的啟示:

若你目前尚未部署端側(cè)機(jī)器學(xué)習(xí),那么基于 SME2 的 CPU 加速可以讓移動(dòng)端 CPU 成為部署這類“重算子”模型的可行起點(diǎn),而性能分析能夠?yàn)轵?yàn)證表現(xiàn)和持續(xù)迭代提供清晰路徑。

若你已部署端側(cè)模型,SME2 可釋放算力余量,用于拓展功能、提升用戶體驗(yàn);同時(shí)性能分析可指出收益最高的后續(xù)優(yōu)化方向(在 SqueezeSAM 中,由轉(zhuǎn)置驅(qū)動(dòng)的布局轉(zhuǎn)換約占總運(yùn)行時(shí)間的 40%)。

綜上,SME2 加速與算子級(jí)性能分析相結(jié)合,可形成一套實(shí)用工作流:既能快速獲得立竿見(jiàn)影的性能提升,亦可精準(zhǔn)定位端側(cè) AI 后續(xù)的重點(diǎn)優(yōu)化方向。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • ARM
    ARM
    +關(guān)注

    關(guān)注

    135

    文章

    9552

    瀏覽量

    391804
  • cpu
    cpu
    +關(guān)注

    關(guān)注

    68

    文章

    11275

    瀏覽量

    224918
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3751

    瀏覽量

    52093
  • 機(jī)器學(xué)習(xí)

    關(guān)注

    66

    文章

    8553

    瀏覽量

    136919

原文標(biāo)題:利用 ExecuTorch 和 Arm SME2 加速端側(cè)機(jī)器學(xué)習(xí)推理

文章出處:【微信號(hào):Arm社區(qū),微信公眾號(hào):Arm社區(qū)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    基于NVIDIA GPU加速機(jī)器學(xué)習(xí)模型推理

    Google Cloud 的 Dataflow 是一個(gè)托管服務(wù),用于執(zhí)行各種各樣的數(shù)據(jù)處理模式,包括流式處理和批處理分析。它最近添加了 GPU 支持 現(xiàn)在可以加速機(jī)器學(xué)習(xí)推理工作流,這
    的頭像 發(fā)表于 04-22 09:53 ?8349次閱讀
    基于NVIDIA GPU<b class='flag-5'>加速</b><b class='flag-5'>機(jī)器</b><b class='flag-5'>學(xué)習(xí)</b>模型<b class='flag-5'>推理</b>

    一文了解Arm神經(jīng)超級(jí)采樣 (Arm Neural Super Sampling, Arm NSS) 深入探索架構(gòu)、訓(xùn)練和推理

    本文將從訓(xùn)練、網(wǎng)絡(luò)架構(gòu)到后處理和推理等方面,深入探討 Arm 神經(jīng)超級(jí)采樣 (Arm Neural Super Sampling, Arm NSS) 的工作原理,希望為
    的頭像 發(fā)表于 08-14 16:11 ?3028次閱讀

    好奇~!谷歌的 Edge TPU 專用 ASIC 旨在將機(jī)器學(xué)習(xí)推理能力引入邊緣設(shè)備

    推理能力引入自己的嵌入式 AI 設(shè)備?!?b class='flag-5'>機(jī)器學(xué)習(xí)的開(kāi)發(fā)主要分兩個(gè)階段完成。第一步,我們需要在快速且強(qiáng)大的機(jī)器或設(shè)備集群上利用大量樣本數(shù)據(jù)進(jìn)
    發(fā)表于 03-05 21:20

    充分利用Arm NN進(jìn)行GPU推理

    Arm擁有跨所有處理器的計(jì)算IP。而且,無(wú)論您要在GPU,CPU還是NPU上進(jìn)行ML推理,都可以在一個(gè)通用框架下使用它們:Arm NN。Arm NN是適用于CPU,GPU和NPU的開(kāi)源
    發(fā)表于 04-11 17:33

    Arm Neoverse V1的AWS Graviton3在深度學(xué)習(xí)推理工作負(fù)載方面的作用

    機(jī)器學(xué)習(xí) (ML) 是云和邊緣基礎(chǔ)設(shè)施中增長(zhǎng)最快的部分之一。在 ML 中,深度學(xué)習(xí)推理預(yù)計(jì)會(huì)增長(zhǎng)得更快。在本博客中,我們比較了三種 Amazon Web Services (AWS)
    發(fā)表于 08-31 15:03

    在Linux上使用Arm NN分析和優(yōu)化運(yùn)行推理機(jī)器學(xué)習(xí)應(yīng)用程序的步驟

    和 NPU 的 Arm NN 機(jī)器學(xué)習(xí)推理引擎的支持。Arm NN 彌合了現(xiàn)有框架和底層硬件之間的差距。Streamline 可以自動(dòng)分析
    發(fā)表于 09-27 14:24

    如何用PyArmNN加速樹(shù)莓派上的ML推理

    。氖是設(shè)計(jì): ?更快的視頻處理 ?圖像處理 ?語(yǔ)音識(shí)別 ?機(jī)器學(xué)習(xí) Neon提供單指令多數(shù)據(jù)(SIMD)指令,其中多處理 管道中的元素同時(shí)對(duì)多個(gè)數(shù)據(jù)點(diǎn)執(zhí)行操作。Arm NN提供 利用N
    發(fā)表于 08-02 15:40

    側(cè)softmax推理的數(shù)學(xué)等價(jià)優(yōu)化

    當(dāng)前我們?cè)谧?b class='flag-5'>端側(cè)的AI處理的時(shí)候,很難百分百的將整個(gè)網(wǎng)絡(luò)的推理過(guò)程做到一個(gè)graph里面。于是我們將AI在側(cè)
    發(fā)表于 01-25 19:36 ?2次下載
    <b class='flag-5'>端</b><b class='flag-5'>側(cè)</b>softmax<b class='flag-5'>推理</b>的數(shù)學(xué)等價(jià)優(yōu)化

    基于AdderNet的深度學(xué)習(xí)推理加速

    電子發(fā)燒友網(wǎng)站提供《基于AdderNet的深度學(xué)習(xí)推理加速器.zip》資料免費(fèi)下載
    發(fā)表于 10-31 11:12 ?0次下載
    基于AdderNet的深度<b class='flag-5'>學(xué)習(xí)</b><b class='flag-5'>推理</b><b class='flag-5'>加速</b>器

    ArmExecuTorch合作加速側(cè)生成式AI實(shí)現(xiàn)

    Arm 正在與 Meta 公司的 PyTorch 團(tuán)隊(duì)攜手合作,共同推進(jìn)新的 ExecuTorch 測(cè)試版 (Beta) 上線,旨在為全球數(shù)十億邊緣側(cè)設(shè)備和數(shù)百萬(wàn)開(kāi)發(fā)者提供人工智能 (AI) 和
    的頭像 發(fā)表于 11-15 11:30 ?1215次閱讀

    Arm成功將Arm KleidiAI軟件庫(kù)集成到騰訊自研的Angel 機(jī)器學(xué)習(xí)框架

    KleidiAI 技術(shù)融入騰訊混元自研的 Angel 機(jī)器學(xué)習(xí)框架。這一合作旨在提高移動(dòng)人工智能 (AI) 服務(wù)的推理性能和效率,為用戶提供卓越
    的頭像 發(fā)表于 11-24 15:33 ?1811次閱讀

    利用Arm Kleidi技術(shù)實(shí)現(xiàn)PyTorch優(yōu)化

    PyTorch 是一個(gè)廣泛應(yīng)用的開(kāi)源機(jī)器學(xué)習(xí) (ML) 庫(kù)。近年來(lái),Arm 與合作伙伴通力協(xié)作,持續(xù)改進(jìn) PyTorch 的推理性能。本文將詳細(xì)介紹如何
    的頭像 發(fā)表于 12-23 09:19 ?1868次閱讀
    <b class='flag-5'>利用</b><b class='flag-5'>Arm</b> Kleidi技術(shù)實(shí)現(xiàn)PyTorch優(yōu)化

    如何在Arm Ethos-U85上使用ExecuTorch

    在快速發(fā)展的機(jī)器學(xué)習(xí)領(lǐng)域,PyTorch 憑借其靈活性和全面的生態(tài)系統(tǒng),已成為模型開(kāi)發(fā)的熱門(mén)框架。Arm 與 Meta 合作在 ExecuTorch 中引入了對(duì)
    的頭像 發(fā)表于 02-14 14:23 ?1224次閱讀
    如何在<b class='flag-5'>Arm</b> Ethos-U85上使用<b class='flag-5'>ExecuTorch</b>

    Arm助力MediaTek天璣9500重塑旗艦體驗(yàn)

    Arm 合作伙伴產(chǎn)品上“芯”!近日,MediaTek 發(fā)布了天璣 9500 旗艦 5G 智能體 AI 芯片,該芯片基于啟用 SME2 的全新 Arm C1 CPU 集群打造,并搭載 Arm
    的頭像 發(fā)表于 10-10 11:28 ?1191次閱讀

    Arm SME2技術(shù)賦能側(cè)AI加速實(shí)現(xiàn)卓越移動(dòng)體驗(yàn)

    試想這樣的場(chǎng)景:當(dāng)你正在發(fā)消息時(shí),手機(jī)能在你輸入過(guò)程中實(shí)時(shí)翻譯文字,還能即時(shí)總結(jié)整段對(duì)話內(nèi)容;或是在拍照時(shí),手機(jī)能在你按下快門(mén)之前,迅速解析復(fù)雜場(chǎng)景畫(huà)面,并自動(dòng)對(duì)關(guān)鍵主體進(jìn)行聚焦。換言之,以往需要停頓處理的手機(jī)應(yīng)用,如今已能實(shí)時(shí)預(yù)判并滿足你的需求。
    的頭像 發(fā)表于 01-22 14:18 ?539次閱讀