政策與市場需求雙輪驅(qū)動(dòng)下,中國 AI 大模型市場高速增長。根據(jù) IDC數(shù)據(jù),2024年,中國大模型應(yīng)用市場規(guī)模達(dá)到了47.9億元人民幣,預(yù)計(jì)2028 年整體市場規(guī)模將達(dá) 211 億元人民幣。高速發(fā)展的 AI 大模型不僅拉動(dòng)云端算力需求增長,還將在端側(cè)廣泛落地 —— 在具身智能、人形機(jī)器人等領(lǐng)域,將形成 “大模型 + 傳感器 + 場景” 的生態(tài)協(xié)同效應(yīng)。
然而,在巨大的市場機(jī)遇背后,挑戰(zhàn)亦不容忽視。典型挑戰(zhàn)之一是:隨著 AI 大模型部署在向更廣泛、更深度、更高效方向演進(jìn),推理任務(wù)也正從集中化的云端向端側(cè)延伸,這使得產(chǎn)業(yè)對(duì)高性能、低延遲、強(qiáng)本地處理能力的需求愈發(fā)迫切。
從云到端:AI 大模型驅(qū)動(dòng)計(jì)算需求升級(jí)
生成式 AI 的爆發(fā)式發(fā)展,推動(dòng)大模型從云端集中式推理向 “云 - 邊 - 端” 全棧部署演進(jìn)。這一趨勢(shì)對(duì)計(jì)算資源提出多維度嚴(yán)苛要求:云端需突破算力密度天花板,端側(cè)則需追求極致能效比。
云端層面,大模型訓(xùn)練與推理的算力需求呈指數(shù)級(jí)增長,參數(shù)量從千億級(jí)向萬億級(jí)躍進(jìn),訓(xùn)練階段依賴萬卡甚至十萬卡 GPU 集群的分布式計(jì)算能力。云端推理成本隨用戶訪問量也同步上升,實(shí)時(shí)響應(yīng)需求加劇服務(wù)器負(fù)載。傳統(tǒng) x86 架構(gòu)的數(shù)據(jù)中心面臨嚴(yán)峻挑戰(zhàn),單服務(wù)器功耗、機(jī)架密度和推理成本均接近極限。
端側(cè)層面,端側(cè) AI 通過模型剪枝、知識(shí)蒸餾等技術(shù)壓縮大模型體積,以減少對(duì)云端算力的依賴,但這也使邊緣端部署面臨更嚴(yán)苛的約束,算力與能效的平衡成為核心挑戰(zhàn)。端側(cè)設(shè)備需適配高性能 CPU、大顯存顯卡及高速存儲(chǔ)模組以支持低延遲推理。當(dāng)前,智能手機(jī)、車載終端等消費(fèi)電子領(lǐng)域?qū)τ?jì)算資源的爭奪已趨白熱化,工業(yè)、醫(yī)療、教育等領(lǐng)域亦迸發(fā)出大量需求。
未來,AI 大模型在端側(cè)的增長潛力更強(qiáng),其核心驅(qū)動(dòng)力來自技術(shù)突破、場景需求及政策支持的三重疊加效應(yīng)。與此同時(shí),端云協(xié)同正逐漸成為行業(yè)發(fā)展的主流趨勢(shì) —— 云端負(fù)責(zé)復(fù)雜訓(xùn)練與全局推理,端側(cè)聚焦實(shí)時(shí)響應(yīng)與隱私保護(hù)。企業(yè)需相應(yīng)構(gòu)建 “云 - 邊 - 端” 一體化架構(gòu),通過模型壓縮、硬件加速等技術(shù)突破,在智能制造、智能駕駛、智慧醫(yī)療等關(guān)鍵領(lǐng)域?qū)崿F(xiàn)規(guī)?;瘧?yīng)用。在這個(gè)過程中,Arm 領(lǐng)先的計(jì)算平臺(tái)憑借其高能效、高性能及靈活性優(yōu)勢(shì)正脫穎而出,為釋放 AI 大模型的潛能提供強(qiáng)大支撐,助力大模型從云到端的高效部署與運(yùn)行。
Arm技術(shù)全棧賦能 AI 大模型發(fā)展
面對(duì) AI 大模型在云端、端側(cè)及端云協(xié)同場景下的計(jì)算需求,Arm 提供了從架構(gòu)到平臺(tái)、從硬件到軟件的全棧解決方案。
在云端領(lǐng)域,早在 AI 時(shí)代全面到來之前,Arm Neoverse 平臺(tái)就憑借其卓越的高能效特性,在基礎(chǔ)設(shè)施領(lǐng)域獲得了廣泛認(rèn)可,特別是在 AI 推理這一對(duì)算力與能效有著嚴(yán)苛要求的場景中,展現(xiàn)出了不可比擬的獨(dú)特優(yōu)勢(shì)。憑借出色的云端通用計(jì)算性能與能效表現(xiàn),Arm Neoverse 已成為云數(shù)據(jù)中心領(lǐng)域的事實(shí)標(biāo)準(zhǔn)。如今,Neoverse 技術(shù)的部署更是達(dá)到了新的高度:2025 年出貨到頭部超大規(guī)模云服務(wù)提供商的算力中,將有近 50% 是基于 Arm 架構(gòu)。亞馬遜云科技(AWS)、Google Cloud 和 Microsoft Azure 等超大規(guī)模云服務(wù)提供商,均采用 Arm Neoverse 計(jì)算平臺(tái)打造通用定制芯片,以優(yōu)化數(shù)據(jù)中心和云計(jì)算的能源利用效率。
以 AWS Graviton4 CPU 為例,該處理器基于 64 位 Arm 指令集架構(gòu)的 Arm Neoverse V2 核心設(shè)計(jì),為各類云應(yīng)用提供高效且高性能的解決方案。通過在 Graviton3(C7g.16xlarge)和 Graviton4(C8g.16xlarge)實(shí)例上部署 Llama 3 8B 模型進(jìn)行性能評(píng)估,結(jié)果顯示:在提示詞編碼環(huán)節(jié),Graviton4 性能相較 Graviton3 提升 14%-26%;詞元生成性能方面,在不同用戶批次大小測(cè)試中,Graviton4 在較小批次下效率提升更為顯著,達(dá) 5%-50%。


在端側(cè)領(lǐng)域,Arm 終端 CSS 集成最新的 Armv9.2 Cortex CPU 集群、Arm Immortalis 與 Arm Mali GPU、CoreLink 互連系統(tǒng) IP,以及知名代工廠基于三納米工藝生產(chǎn)就緒的 CPU 和 GPU 物理實(shí)現(xiàn)。作為 AI 體驗(yàn)的計(jì)算基礎(chǔ),Arm 終端 CSS在消費(fèi)電子設(shè)備中實(shí)現(xiàn)了性能、效率與可擴(kuò)展性的跨越式提升。例如,Arm Cortex-X925 的 AI 性能提升了 41%,可顯著增強(qiáng)設(shè)備端生成式 AI(如 LLM)的響應(yīng)能力。
這里展開介紹一下 Armv9 架構(gòu),該架構(gòu)集成了加速和保護(hù) LLM 等先進(jìn)生成式 AI 工作負(fù)載的關(guān)鍵特性,如可伸縮矩陣擴(kuò)展(SME)和可伸縮矢量擴(kuò)展(SVE2)。SME 作為 Armv9-A 架構(gòu)的指令集擴(kuò)展,可加速 AI/ML 工作負(fù)載,為 Arm CPU 上運(yùn)行的相關(guān)應(yīng)用提供更高性能、能效與靈活性;SVE2 則提升 DSP 任務(wù)性能,使復(fù)雜算法處理更快速高效,尤其適用于高算力需求的 AI/ML 場景。
在邊緣 AI 領(lǐng)域,Arm 今年還發(fā)布了全新邊緣 AI 計(jì)算平臺(tái),以全新基于 Armv9 架構(gòu)的超高能效 CPU——Arm Cortex-A320 及原生支持 Transformer 網(wǎng)絡(luò)的 Ethos-U85 AI 加速器為核心,進(jìn)一步助力 AI 大模型在端側(cè)的落地。
在軟件生態(tài)層面,Arm 在 2024 年推出 KleidiAI 軟件庫,助力 AI 框架開發(fā)者在各類設(shè)備上充分發(fā)揮 Arm CPU 性能,支持 Neon、SVE2 和 SME2 等關(guān)鍵 Arm 架構(gòu)功能。作為一套面向 AI 框架開發(fā)者的計(jì)算內(nèi)核,KleidiAI 可與 PyTorch、TensorFlow、MediaPipe、Angel 等熱門 AI 框架集成,旨在加速 Meta Llama 3、Phi-3、混元大模型等關(guān)鍵模型的性能表現(xiàn),為生成式 AI 工作負(fù)載帶來顯著優(yōu)化。此外,KleidiAI 還具備前后兼容性,確保 Arm 在引入新技術(shù)的同時(shí)持續(xù)滿足市場需求。目前,其支持范圍已覆蓋從基礎(chǔ)設(shè)施、智能終端到物聯(lián)網(wǎng)及汽車的全部 Arm 業(yè)務(wù)領(lǐng)域。
結(jié)語
從云端算力密度突破到端側(cè)能效平衡,AI 大模型的全面部署正重塑計(jì)算產(chǎn)業(yè)格局。Arm 架構(gòu)憑借 “云 - 邊 - 端” 全鏈條技術(shù)協(xié)同優(yōu)勢(shì),成為激活新質(zhì)生產(chǎn)力的關(guān)鍵引擎 —— 無論是 Neoverse 計(jì)算平臺(tái)在數(shù)據(jù)中心打破 x86 架構(gòu)的能效瓶頸,還是終端 CSS 以及邊緣 AI 計(jì)算平臺(tái)在端側(cè)加速 AI 部署及應(yīng)用,亦或是 KleidiAI 在軟件生態(tài)中搭建框架與硬件的高效橋梁,Arm 正以全棧式創(chuàng)新構(gòu)建助推 AI 大模型發(fā)展的完整技術(shù)版圖。
電子發(fā)燒友App























評(píng)論