作者:Arm 高級(jí)首席工程師 Jason Zhu 等人
交互式圖像分割已成為全球主流應(yīng)用中極具代表性的移動(dòng)端體驗(yàn)。簡(jiǎn)單來(lái)說(shuō),用戶只需在圖片上輕點(diǎn)一下(或粗略勾畫(huà)),應(yīng)用就能立刻生成像素蒙版,把目標(biāo)對(duì)象“摳”出來(lái)。這項(xiàng)技術(shù)支撐了許多常見(jiàn)功能,比如制作個(gè)性化貼紙、分離主體以替換背景,或是對(duì)圖像局部進(jìn)行選擇性增強(qiáng)。這些效果背后,是輕量級(jí)分割模型在運(yùn)行,這些模型通過(guò) ExecuTorch(PyTorch 的開(kāi)源端側(cè)推理運(yùn)行時(shí))以及第二代 Arm 可伸縮矩陣擴(kuò)展技術(shù) (Arm SME2) 運(yùn)行。
本文將探討這些軟硬件技術(shù)升級(jí)如何讓摳圖功能背后的端側(cè)交互式分割模型 SqueezeSAM 在圖像分割任務(wù)中實(shí)現(xiàn)最高可達(dá) 3.9 倍的加速,并闡述這一突破對(duì)移動(dòng)端應(yīng)用開(kāi)發(fā)者的廣泛影響。SqueezeSAM 已部署在 Meta 旗下應(yīng)用中。
移動(dòng)設(shè)備上端側(cè) AI 的興起
隨著端側(cè)人工智能 (AI) 不斷發(fā)展,一個(gè)核心問(wèn)題擺在眼前:當(dāng)更強(qiáng)大的模型在嚴(yán)格的移動(dòng)端功耗與時(shí)延限制下能夠運(yùn)行得更快時(shí),會(huì)出現(xiàn)哪些新的可能性?實(shí)際上,許多交互式移動(dòng)端 AI 功能和工作負(fù)載已在 CPU 上運(yùn)行,因?yàn)?CPU 始終可用、與應(yīng)用無(wú)縫集成,且在各類場(chǎng)景中具備高靈活性、低時(shí)延與出色性能。對(duì)于這類部署方案,性能優(yōu)劣往往取決于 CPU 執(zhí)行矩陣密集型內(nèi)核的效率,以及當(dāng)算力不再是瓶頸后還存在哪些限制因素。
SME2 是 Armv9 架構(gòu)中的一組高級(jí) CPU 指令,專為在端側(cè)直接加速面向矩陣的計(jì)算工作負(fù)載而設(shè)計(jì)。我們量化了在 ExecuTorch 與 XNNPACK 部署方案中,SME2 對(duì)端到端推理的加速效果,并通過(guò)算子級(jí)性能分析展示具體哪些方面得到了改進(jìn)。啟用 SME2 的全新 Arm CPU已集成在Arm Lumex 計(jì)算子系統(tǒng) (CSS)中,用于旗艦智能手機(jī)與下一代 PC 設(shè)備。
案例研究:利用 SME2 加速交互式圖像分割
我們?cè)u(píng)測(cè)了在以 ExecuTorch 和 XNNPACK 為后端運(yùn)行時(shí),SME2 對(duì) SqueezeSAM 推理時(shí)延的影響。該方案利用 Arm KleidiAI 優(yōu)化的內(nèi)核,以發(fā)揮 SME2 的加速能力。
啟用 SME2 后,8 位整型 (INT8) 和 16 位浮點(diǎn)型 (FP16) 推理均獲得顯著性能提升(圖 1)。在采用默認(rèn)功耗配置的單個(gè) CPU 核心上,INT8 時(shí)延優(yōu)化 1.83 倍(從 556 毫秒降至 304 毫秒),F(xiàn)P16 時(shí)延優(yōu)化 3.9 倍(從 1163 毫秒降至 298 毫秒)。若無(wú) SME2,時(shí)延會(huì)過(guò)高,無(wú)法滿足交互式場(chǎng)景的流暢使用需求;啟用 SME2 后,單核端到端推理時(shí)延可達(dá)到 300 毫秒左右,使端側(cè)部署切實(shí)可行,同時(shí)也為應(yīng)用的其他部分留出了性能余量。
上述結(jié)果表明,SME2 可在 CPU 上顯著加速量化后的 INT8 模型。同時(shí),在本案例中,SME2 讓 FP16 時(shí)延接近 INT8 水平,這一成果意義重大,因?yàn)樗⒎翘娲?INT8,而是擴(kuò)展了實(shí)際可部署的方案范圍。這讓開(kāi)發(fā)者擁有更高的靈活性,可選擇最符合精度與工作流需求的數(shù)據(jù)格式,尤其適用于對(duì)精度敏感的工作負(fù)載,如圖像超分辨率、圖像摳圖、暗光去噪與高動(dòng)態(tài)范圍 (HDR) 增強(qiáng)。倘若沒(méi)有如此級(jí)別的 FP16 加速,移動(dòng)端部署通常只能選用 INT8 以滿足時(shí)延目標(biāo),而這意味著需要引入量化工作流并承擔(dān)精度下降的風(fēng)險(xiǎn)。
除基準(zhǔn)測(cè)試數(shù)據(jù)外,這些性能提升可直接轉(zhuǎn)化為可用的 CPU 算力余量。這些余量可用于打造更豐富的體驗(yàn),例如在保持相機(jī)預(yù)覽與 UI 流暢的同時(shí),并行運(yùn)行分割與增強(qiáng)任務(wù)(如去噪或 HDR 處理);或者把原本只能處理單張圖片的摳圖,擴(kuò)展成帶跨幀目標(biāo)跟蹤的實(shí)時(shí)視頻摳圖,亦可用于降低功耗。

圖 1:普通模式下(默認(rèn)移動(dòng)端功耗設(shè)置),一個(gè) CPU 核心在啟用與禁用 SME2 時(shí) SqueezeSAM 的端到端時(shí)延。INT8 從 556 毫秒優(yōu)化至 304 毫秒(提升 1.83 倍)。FP16 從 1163 毫秒優(yōu)化至 298 毫秒(提升 3.90 倍),在本案例中 FP16 時(shí)延已接近 INT8 水平。
本文所有結(jié)果均為在搭載啟用 SME2 的 Arm CPU 的旗艦安卓智能手機(jī)上進(jìn)行受控測(cè)試所得。性能會(huì)因模型、硬件及具體設(shè)備設(shè)置而異。
技術(shù)棧:PyTorch、ExecuTorch、XNNPACK、KleidiAI 和 SME2
框架間的連接關(guān)系

上圖總結(jié)了本案例研究中使用的 CPU 執(zhí)行技術(shù)棧。模型在 PyTorch 中定義,由 ExecuTorch 導(dǎo)出并運(yùn)行,CPU 計(jì)算則委派給作為后端的 XNNPACK 執(zhí)行。XNNPACK 使用 Arm KleidiAI,這是面向 Arm CPU、為加速機(jī)器學(xué)習(xí)工作負(fù)載而優(yōu)化的輕量級(jí) CPU 內(nèi)核庫(kù)。這些內(nèi)核可在受支持的設(shè)備上自動(dòng)利用 SME2 加速,同時(shí)也能為不支持 SME2 的系統(tǒng)提供針對(duì)其他的 CPU 特性的優(yōu)化實(shí)現(xiàn)。
當(dāng) ExecuTorch 在啟用 XNNPACK 委派的情況下運(yùn)行模型時(shí),XNNPACK 會(huì)在運(yùn)行時(shí)根據(jù)底層硬件能力選擇合適的內(nèi)核實(shí)現(xiàn)。在啟用 SME2 的設(shè)備上,這些運(yùn)算中的矩陣乘法計(jì)算可直接受益于 SME2 加速,無(wú)需對(duì)模型結(jié)構(gòu)或應(yīng)用代碼進(jìn)行任何修改。在這類運(yùn)算得到加速后,推理管線中的其他環(huán)節(jié)(如數(shù)據(jù)移動(dòng)、布局轉(zhuǎn)換、未委派的算子等)往往會(huì)成為新的性能瓶頸。這也是算子級(jí)性能分析對(duì)于理解端到端性能至關(guān)重要的原因。
案例研究模型
在本次評(píng)估中,我們使用了 SqueezeSAM 模型,該模型采用輕量級(jí)、以 conv2d 為主的 UNet 架構(gòu),是典型的移動(dòng)端視覺(jué)模型。
模型結(jié)構(gòu)可被映射為兩大類工作,這兩類工作對(duì)端到端推理時(shí)間有著顯著影響:
計(jì)算密集型運(yùn)算:卷積層(iGEMM,隱式通用矩陣乘法)和注意力/MLP 層(GEMM,通用矩陣乘法)。
數(shù)據(jù)移動(dòng)類運(yùn)算:轉(zhuǎn)置、維度重塑和布局轉(zhuǎn)換。
平臺(tái)說(shuō)明:在許多基于 Armv9 架構(gòu)的設(shè)備上,SME2 作為 CPU 核心間的共享執(zhí)行資源實(shí)現(xiàn),其伸縮特性會(huì)隨系統(tǒng)級(jí)芯片 (SoC) 與 CPU 微架構(gòu)不同而存在差異。我們?cè)谠u(píng)估中已明確考慮這一點(diǎn),并在解讀單核與多核結(jié)果時(shí)討論其產(chǎn)生的影響。
結(jié)果:INT8 和 FP16
(1 個(gè) CPU 核心對(duì)比 4 個(gè) CPU 核心)
我們?cè)趩⒂门c禁用 SME2 的條件下,對(duì)同一模型的兩種精度(INT8 和 FP16)進(jìn)行基準(zhǔn)測(cè)試。我們重點(diǎn)關(guān)注單核執(zhí)行場(chǎng)景(SME2 在此場(chǎng)景下相對(duì)收益最大),同時(shí)也給出四核結(jié)果,以說(shuō)明當(dāng) SME2 作為共享硬件資源時(shí)的絕對(duì)時(shí)延與伸縮表現(xiàn)。所有測(cè)試均僅統(tǒng)計(jì)模型本身的推理時(shí)延。
模型通過(guò) ExecuTorch 在安卓智能手機(jī)上運(yùn)行,在相同軟件與系統(tǒng)環(huán)境下分別測(cè)試啟用與禁用 SME2 的情況。除非另有說(shuō)明,所有結(jié)果均為在無(wú)溫控降頻情況下的穩(wěn)態(tài)性能。
所有結(jié)果均以“普通模式 | 無(wú)限制模式(毫秒)”的形式給出。普通模式對(duì)應(yīng)默認(rèn)的移動(dòng)設(shè)備電源設(shè)置,即系統(tǒng)電源策略啟用狀態(tài),反映典型用戶使用場(chǎng)景。無(wú)限制模式對(duì)應(yīng)持續(xù)供電、保持喚醒狀態(tài)的配置,CPU 頻率限制有效解除;單核測(cè)試中,無(wú)限制模式結(jié)果固定在最高性能(Ultra/Prime,本例中為 4.2 GHz)CPU 核心上運(yùn)行。
在兩種模式下,SME2 均呈現(xiàn)一致的相對(duì)加速趨勢(shì),表明盡管絕對(duì)時(shí)延存在差異,但其加速效果受系統(tǒng)功耗策略影響較小。除非另有明確說(shuō)明,本文后續(xù)均以普通模式結(jié)果為主,因其更能反映典型手機(jī)使用環(huán)境下的用戶感知時(shí)延。無(wú)限制模式結(jié)果用于展示性能余量與硬件上限,應(yīng)視為最佳表現(xiàn),而非日常用戶體驗(yàn)。

表 1:在安卓手機(jī)上啟用與禁用 SME2 時(shí),SqueezeSAM 的端到端時(shí)延結(jié)果,分別在一個(gè) CPU 核心與四個(gè) CPU 核心上測(cè)試(僅模型時(shí)延)。數(shù)值以“普通模式 | 無(wú)限制模式(毫秒)”的形式給出。
關(guān)于四核擴(kuò)展說(shuō)明:四核的加速比例較小(例如,普通模式下 INT8 為 1.08 倍,而單核為 1.83 倍),這與 SME2 作為共享資源的特性一致,同時(shí)也受內(nèi)存帶寬、緩存行為等其他系統(tǒng)共享因素影響。伸縮特性會(huì)因 SoC 與 CPU 實(shí)現(xiàn)方式不同而存在差異。在生產(chǎn)部署中,若能滿足時(shí)延目標(biāo),優(yōu)先使用一到兩個(gè)核心可獲得更好的能效;當(dāng)需要更低的絕對(duì)時(shí)延且功耗預(yù)算允許時(shí),可使用更多核心。
算子級(jí)性能分析的重要性
端到端時(shí)延只能告訴我們性能提升了多少,無(wú)法說(shuō)明原因及后續(xù)的優(yōu)化對(duì)象。為了理解 SME2 的性能收益來(lái)源及下一階段的性能瓶頸,我們使用算子級(jí)性能分析。
我們通過(guò) ExecuTorch 開(kāi)發(fā)工具中的性能分析工具 ETDump 采集每個(gè)算子的耗時(shí)信息,該工具會(huì)記錄推理過(guò)程中各個(gè)算子的執(zhí)行時(shí)間。這使我們能夠?qū)⒍说蕉思铀傩Ч麣w因到模型的具體部分,如圖 2 和表 2 所示。
為了讓分析更具實(shí)踐指導(dǎo)意義,我們將算子歸納為少數(shù)幾個(gè)與常見(jiàn)模型結(jié)構(gòu)精準(zhǔn)對(duì)應(yīng)的類別:
卷積:Conv2d 層(通?;?iGEMM 實(shí)現(xiàn));
GEMM:矩陣乘法和線性層(注意力和 MLP 投影);
逐元素:ReLU、GELU、Add、Mul 及其他逐點(diǎn)運(yùn)算;
數(shù)據(jù)移動(dòng):轉(zhuǎn)置、拷貝、格式轉(zhuǎn)換、維度重塑和填充;
其他:未委派的算子和框架開(kāi)銷(xiāo)。
通過(guò)上述分類拆解,我們可以明確 SME2 在哪些方面作用最為顯著,以及在矩陣計(jì)算被加速后依然存在的性能瓶頸。

圖 2:在安卓智能手機(jī)上(一個(gè) Arm CPU 核心,默認(rèn)移動(dòng)設(shè)備功耗設(shè)置),啟用與禁用 SME2 時(shí),F(xiàn)P16 與 INT8 的算子類別耗時(shí)明細(xì)(絕對(duì)時(shí)間)。SME2 大幅降低卷積與 GEMM 耗時(shí),數(shù)據(jù)移動(dòng)在運(yùn)行時(shí)間中的占比顯著提升。

表 2:在安卓智能手機(jī)上(一個(gè) Arm CPU 核心,默認(rèn)移動(dòng)設(shè)備功耗設(shè)置),禁用與啟用 SME2 情況下 INT8 與 FP16 的算子級(jí)耗時(shí)明細(xì)對(duì)比。非矩陣乘法算子主要受運(yùn)行時(shí)波動(dòng)的影響。
從端到端與算子級(jí)結(jié)果得出的三大洞察
洞察 1:SME2 能夠加速矩陣計(jì)算,將瓶頸轉(zhuǎn)移至數(shù)據(jù)移動(dòng)
SME2 顯著降低 INT8 與 FP16 精度下的端到端時(shí)延。在單個(gè) Arm CPU 核心上,INT8 性能優(yōu)化 1.83 倍(從 556 毫秒降至 304 毫秒),F(xiàn)P16 優(yōu)化 3.90 倍(從 1163 毫秒降至 298 毫秒)。即使在四核場(chǎng)景下,SME2 仍可大幅降低 FP16 時(shí)延(從 374 毫秒降至 193 毫秒)。這些優(yōu)化效果使單核執(zhí)行時(shí)延進(jìn)入約 300 毫秒?yún)^(qū)間,在為應(yīng)用其他部分保留 CPU 余量的同時(shí),讓端側(cè)實(shí)時(shí)交互成為可能。
算子級(jí)性能分析表明,SME2 能夠大幅加速矩陣密集型算子。禁用 SME2 時(shí),卷積與 GEMM 占據(jù)推理的主要耗時(shí),分別占 INT8 運(yùn)行時(shí)間的 55.7%、FP16 的 75.8%。啟用 SME2 后,GEMM 算子加速約 3 至 4 倍,卷積/iGEMM 加速約 4 至 9 倍,這是端到端性能提升的主要驅(qū)動(dòng)因素。
矩陣計(jì)算加速后,數(shù)據(jù)移動(dòng)與框架開(kāi)銷(xiāo)的相對(duì)占比上升,后續(xù)優(yōu)化重心也隨之轉(zhuǎn)移。
洞察 2:由轉(zhuǎn)置驅(qū)動(dòng)的數(shù)據(jù)移動(dòng)約占總運(yùn)行時(shí)的 40%
在 SME2 加速后,數(shù)據(jù)移動(dòng)成為主要運(yùn)行耗時(shí)因素之一。在啟用 SME2 的 INT8 運(yùn)行中,數(shù)據(jù)移動(dòng)占總運(yùn)行時(shí)的 41.4%(FP16 為 39.9%)。ETDump 追蹤結(jié)果顯示,約 85% 的數(shù)據(jù)移動(dòng)時(shí)間來(lái)自轉(zhuǎn)置算子,僅兩類轉(zhuǎn)置節(jié)點(diǎn)就占用了該類別超過(guò) 80% 的耗時(shí)。
這類開(kāi)銷(xiāo)源于模型不同部分與運(yùn)行時(shí)之間的數(shù)據(jù)布局不匹配,而非計(jì)算強(qiáng)度問(wèn)題。實(shí)際場(chǎng)景中,當(dāng)具有不同布局偏好的算子按序組合時(shí),會(huì)觸發(fā)頻繁的 NCHW NHWC 格式轉(zhuǎn)換。在本模型中可以看到:歸一化算子作為可移植的 NCHW 算子執(zhí)行,且無(wú)法與相鄰卷積融合(例如當(dāng)非線性激活函數(shù)位于 Conv2d 與 BatchNorm 之間時(shí)),而 XNNPACK 卷積內(nèi)核更偏好 NHWC 布局。這會(huì)在 UNet 編碼器–解碼器模塊中引發(fā)重復(fù)的布局轉(zhuǎn)換:
BatchNorm/GroupNorm (NCHW) →
轉(zhuǎn)置 (NCHW→NHWC) → 卷積 (NHWC) →
轉(zhuǎn)置 (NHWC→NCHW) →
BatchNorm/GroupNorm (NCHW)
由于這類開(kāi)銷(xiāo)由模型與運(yùn)行時(shí)的布局選擇決定,而非計(jì)算強(qiáng)度,因此必須通過(guò)性能分析才能將其暴露出來(lái),從而將其轉(zhuǎn)化為可執(zhí)行的優(yōu)化目標(biāo)。
重要的是,這一性能分析洞察已被證實(shí)具備實(shí)際優(yōu)化價(jià)值。作為初步舉措,Meta ExecuTorch 團(tuán)隊(duì)在框架中實(shí)現(xiàn)了針對(duì)性的圖級(jí)優(yōu)化,以減少歸一化層周?chē)槐匾臄?shù)據(jù)布局轉(zhuǎn)換。在我們的實(shí)驗(yàn)中,除 SME2 帶來(lái)的加速收益外,還可使 INT8 時(shí)延額外減少約 70 毫秒 (23%),F(xiàn)P16 時(shí)延額外減少約 30 毫秒 (10%)。
由上述結(jié)果可以確認(rèn),高轉(zhuǎn)置的數(shù)據(jù)移動(dòng)是極具價(jià)值的優(yōu)化方向。隨著我們持續(xù)分析整張計(jì)算圖的布局行為,仍有進(jìn)一步優(yōu)化的潛力。
洞察 3:在本案例研究中,啟用 SME2 后 FP16 時(shí)延接近 INT8 水平
盡管 INT8 每個(gè)張量元素僅占用一半的內(nèi)存帶寬,但這并不直接帶來(lái)成比例的端到端加速。啟用 SME2 后,本案例中 FP16 時(shí)延已接近 INT8(單個(gè)核心上分別為 298 毫秒與 304 毫秒)。
算子耗時(shí)明細(xì)揭示了背后原因。FP16 的卷積加速效果尤為顯著(加速 9.0 倍,INT8 為 4.4 倍),彌補(bǔ)了 INT8 在內(nèi)存上的效率優(yōu)勢(shì)。同時(shí),INT8 矩陣計(jì)算路徑會(huì)帶來(lái)額外開(kāi)銷(xiāo),包括量化、伸縮及更復(fù)雜的內(nèi)核調(diào)度邏輯,削弱了 INT8 的有效帶寬優(yōu)勢(shì)。
最終效果是,SME2 拓寬了可選用的精度范圍。INT8 依然是高效方案,而對(duì)于不希望承擔(dān)量化復(fù)雜度或精度損耗的精度敏感型工作負(fù)載,F(xiàn)P16 也變得更加實(shí)用。盡管本案例中 FP16 性能已接近 INT8,但該效果與任務(wù)負(fù)載強(qiáng)相關(guān),會(huì)隨算子組合、張量形狀與內(nèi)存壓力發(fā)生變化。
實(shí)操示例:重現(xiàn)工作流
如想自行嘗試上述工作流,我們提供了基于開(kāi)源 SAM 模型的實(shí)操教程,內(nèi)容涵蓋模型導(dǎo)出、使用 SME2 執(zhí)行推理、通過(guò) ETDump 進(jìn)行算子級(jí)性能分析等。完整的設(shè)置說(shuō)明與代碼示例可在代碼倉(cāng)庫(kù)及 Learning Paths 中獲取。
代碼倉(cāng)庫(kù): https://github.com/ArmDeveloperEcosystem/sme-executorch-profiling
Learning Paths: https://learn.arm.com/learning-paths/cross-platform/sme-executorch-profiling/
你將能學(xué)到什么:
如何將分割模型導(dǎo)出至 ExecuTorch,并啟用 XNNPACK 委派
如何在已啟用 SME2 的安卓、iOS 和 macOS 設(shè)備上構(gòu)建與部署模型
如何運(yùn)行 ETDump 性能分析,采集各算子的耗時(shí)信息
如何在自有模型中識(shí)別并量化數(shù)據(jù)移動(dòng)及其他非計(jì)算類性能瓶頸
結(jié)論:SME2 帶來(lái)的實(shí)際改變
在本 SqueezeSAM 案例研究中,SME2 為 INT8 與 FP16 提供了顯著的端側(cè) CPU 加速效果,從本質(zhì)上提升了交互式移動(dòng)端工作負(fù)載的可行性。
這對(duì)開(kāi)發(fā)者和產(chǎn)品團(tuán)隊(duì)意味著什么:
端側(cè)機(jī)器學(xué)習(xí)在 CPU 上更具可行性:SME2 可實(shí)現(xiàn)最高 3.9 倍的端到端推理加速。在安卓默認(rèn)功耗設(shè)置下,真實(shí)交互式移動(dòng)端模型的單核時(shí)延可從 1 秒以上降至約 300 毫秒。對(duì)于交互式工作負(fù)載,這使得基于 CPU 的端側(cè)機(jī)器學(xué)習(xí)從勉強(qiáng)可用變?yōu)榉€(wěn)定實(shí)用,同時(shí)為應(yīng)用其他功能保留性能空間。
FP16 在部分場(chǎng)景中成為更可行的部署選擇:SME2 大幅加速 FP16 計(jì)算,并縮小其與 INT8 之間的時(shí)延差距,讓開(kāi)發(fā)者能更靈活地選擇最符合精度、工作流與時(shí)延要求的數(shù)值精度,尤其適用于對(duì)精度敏感的工作負(fù)載。
節(jié)省的算力余量可帶來(lái)更豐富的使用體驗(yàn):釋放的 CPU 預(yù)算可用于增強(qiáng)端側(cè)功能,例如在圖像分割的同時(shí)運(yùn)行畫(huà)質(zhì)增強(qiáng)(如去噪、HDR),或?qū)D像摳圖從單張圖片擴(kuò)展至支持跨幀目標(biāo)跟蹤的實(shí)時(shí)視頻。
性能分析給出下一階段優(yōu)化目標(biāo):當(dāng) SME2 加速了矩陣密集型算子(卷積/iGEMM、GEMM)后,性能瓶頸通常會(huì)轉(zhuǎn)向數(shù)據(jù)移動(dòng)與未委派算子?;?ETDump 的算子級(jí)性能分析可清晰展示這類開(kāi)銷(xiāo),并提供可落地的優(yōu)化方向。
根據(jù)起點(diǎn)不同,有兩點(diǎn)明確的啟示:
若你目前尚未部署端側(cè)機(jī)器學(xué)習(xí),那么基于 SME2 的 CPU 加速可以讓移動(dòng)端 CPU 成為部署這類“重算子”模型的可行起點(diǎn),而性能分析能夠?yàn)轵?yàn)證表現(xiàn)和持續(xù)迭代提供清晰路徑。
若你已部署端側(cè)模型,SME2 可釋放算力余量,用于拓展功能、提升用戶體驗(yàn);同時(shí)性能分析可指出收益最高的后續(xù)優(yōu)化方向(在 SqueezeSAM 中,由轉(zhuǎn)置驅(qū)動(dòng)的布局轉(zhuǎn)換約占總運(yùn)行時(shí)間的 40%)。
綜上,SME2 加速與算子級(jí)性能分析相結(jié)合,可形成一套實(shí)用工作流:既能快速獲得立竿見(jiàn)影的性能提升,亦可精準(zhǔn)定位端側(cè) AI 后續(xù)的重點(diǎn)優(yōu)化方向。
-
ARM
+關(guān)注
關(guān)注
135文章
9552瀏覽量
391804 -
cpu
+關(guān)注
關(guān)注
68文章
11275瀏覽量
224918 -
模型
+關(guān)注
關(guān)注
1文章
3751瀏覽量
52093 -
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8553瀏覽量
136919
原文標(biāo)題:利用 ExecuTorch 和 Arm SME2 加速端側(cè)機(jī)器學(xué)習(xí)推理
文章出處:【微信號(hào):Arm社區(qū),微信公眾號(hào):Arm社區(qū)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
基于NVIDIA GPU加速機(jī)器學(xué)習(xí)模型推理
一文了解Arm神經(jīng)超級(jí)采樣 (Arm Neural Super Sampling, Arm NSS) 深入探索架構(gòu)、訓(xùn)練和推理
好奇~!谷歌的 Edge TPU 專用 ASIC 旨在將機(jī)器學(xué)習(xí)推理能力引入邊緣設(shè)備
充分利用Arm NN進(jìn)行GPU推理
Arm Neoverse V1的AWS Graviton3在深度學(xué)習(xí)推理工作負(fù)載方面的作用
在Linux上使用Arm NN分析和優(yōu)化運(yùn)行推理的機(jī)器學(xué)習(xí)應(yīng)用程序的步驟
如何用PyArmNN加速樹(shù)莓派上的ML推理
端側(cè)softmax推理的數(shù)學(xué)等價(jià)優(yōu)化
基于AdderNet的深度學(xué)習(xí)推理加速器
Arm與ExecuTorch合作加速端側(cè)生成式AI實(shí)現(xiàn)
Arm成功將Arm KleidiAI軟件庫(kù)集成到騰訊自研的Angel 機(jī)器學(xué)習(xí)框架
利用Arm Kleidi技術(shù)實(shí)現(xiàn)PyTorch優(yōu)化
如何在Arm Ethos-U85上使用ExecuTorch
利用ExecuTorch和Arm SME2加速端側(cè)機(jī)器學(xué)習(xí)推理
評(píng)論