chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

AI推理CPU當(dāng)?shù)?,Arm驅(qū)動(dòng)高效引擎

花茶晶晶 ? 來源:電子發(fā)燒友 ? 作者:黃晶晶 ? 2024-11-13 14:34 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

AI的訓(xùn)練和推理共同鑄就了其無與倫比的處理能力。在AI訓(xùn)練方面,GPU因其出色的并行計(jì)算能力贏得了業(yè)界的青睞,成為了當(dāng)前AI大模型最熱門的芯片;而在 AI 推理方面,具備卓越通用性和靈活性的CPU本應(yīng)發(fā)揮關(guān)鍵作用,但其重要性卻常常被忽視。

“對(duì)于那些希望將大語言模型(LLM)集成到產(chǎn)品和服務(wù)中的企業(yè)和開發(fā)者來說,CPU 通常是首選”。Arm 中國(guó)區(qū)業(yè)務(wù)全球副總裁鄒挺在接受采訪時(shí)表示。為了適應(yīng)AI推理的應(yīng)用落地,CPU有針對(duì)性的優(yōu)化必不可少,Arm Neoverse平臺(tái)通過增加如SVE2指令集使得AI 推理具有更好的性能和效率。

wKgZoWc0SKeAXZrNAAChYI9hOdg816.jpg
Arm中國(guó)區(qū)業(yè)務(wù)全球副總裁 鄒挺



CPU對(duì)于AI推理的重要性

CPU長(zhǎng)期以來廣泛應(yīng)用于傳統(tǒng)的AI和機(jī)器學(xué)習(xí)任務(wù),其通用性和靈活性使其在部署AI推理時(shí)更具優(yōu)勢(shì)。鄒挺表示,在AI場(chǎng)景落地初期,專用AI處理器的開發(fā)周期較長(zhǎng),因此,高能效CPU 自然成為了推理的核心;隨著 AI 技術(shù)的深入發(fā)展和應(yīng)用場(chǎng)景的多樣化,定制化專用 AI 加速器應(yīng)運(yùn)而生。在這一過程中,高能效的CPU不僅作為核心控制單元,還與 GPU、NPU、FPGA、ASIC 等異構(gòu)單元協(xié)同工作,管理和調(diào)度系統(tǒng)資源,成為AI推理的“靈魂捕手”。

相比于單純依賴 GPU 的高成本和高功耗,CPU在推理過程中具有更高的能效比。CPU 的設(shè)計(jì)更適合處理多任務(wù)負(fù)載,并且無需復(fù)雜的冷卻和電力解決方案。這使得CPU在大規(guī)模部署中能夠以更低的成本運(yùn)行,特別是在資源受限的環(huán)境中,其低功耗的特性尤為顯著。這對(duì)于那些需要長(zhǎng)期、穩(wěn)定運(yùn)行的 AI 應(yīng)用來說,是一個(gè)可持續(xù)且經(jīng)濟(jì)高效的選擇。

Arm Neoverse平臺(tái)集成SVE2技術(shù),對(duì)AI計(jì)算至關(guān)重要

Arm Neoverse CPU在 AI 推理中展現(xiàn)了其獨(dú)特優(yōu)勢(shì),這一點(diǎn)要從其技術(shù)底層開始剖析。

鄒挺分析,Armv9架構(gòu)已經(jīng)引入 Arm Neoverse 平臺(tái),在Armv9架構(gòu)中Arm 集成SVE2(可擴(kuò)展向量擴(kuò)展)指令集。SVE2 作為一種可擴(kuò)展的向量處理技術(shù),允許處理器同時(shí)執(zhí)行多個(gè)數(shù)據(jù)元素操作,從而提供了更高效的向量計(jì)算和AI 硬件加速。

SVE2 在AI推理中的一個(gè)關(guān)鍵應(yīng)用是矩陣運(yùn)算。矩陣乘法是許多AI任務(wù)中的常見計(jì)算,而 SVE2 向量指令可以同時(shí)處理多個(gè)數(shù)據(jù)元素,使矩陣乘法能夠以向量化的方式進(jìn)行,從而提高了計(jì)算效率。

例如,SVE2 中的 FMMLA 指令可以實(shí)現(xiàn) FP32 格式下的矩陣乘法,BFMMLA 指令能夠在 BF16 格式下進(jìn)行高效運(yùn)算,而 UMMLA、SMMLA 等指令則優(yōu)化了 INT8 格式下的矩陣運(yùn)算。通過這些指令和硬件加速功能,AI 推理在Arm架構(gòu)上能夠?qū)崿F(xiàn)更高效的矩陣運(yùn)算和更優(yōu)的能效比。

這種技術(shù)不僅提升了 AI 推理中矢量運(yùn)算的效率,尤其是在深度學(xué)習(xí)和自然語言處理(NLP)等核心任務(wù)上,加快了推理速度,并在能效表現(xiàn)上進(jìn)行了優(yōu)化。通過 SVE2 的支持,Arm Neoverse CPU 可以在邊緣計(jì)算和資源受限的環(huán)境中高效運(yùn)行,從而減少對(duì) GPU 和其他硬件資源的依賴。

基于Arm NeoverseCPU顯著提升推理性能

亞馬遜云服務(wù)(AWS)、微軟、Google和甲骨文 (Oracle) 等全球最大的 AI 頭部云服務(wù)提供商們都通過 Arm Neoverse 進(jìn)行通用計(jì)算和基于 CPU 的 AI 推理與訓(xùn)練。Arm Neoverse 不僅為這些頭部云服務(wù)商提供了定制芯片的靈活性,還優(yōu)化了嚴(yán)苛的工作負(fù)載,確保在每瓦功率的使用上實(shí)現(xiàn)更高的計(jì)算效率。

例如,基于Arm架構(gòu)的AWS Graviton,與其他同行業(yè)產(chǎn)品相比,Amazon Sagemaker 的 AI 推理性能提高了 25%,Web 應(yīng)用程序提高了 30%,數(shù)據(jù)庫提高了 40%,效率則提升了 60%?;?Arm 架構(gòu)的 Google Cloud Axion,與傳統(tǒng)架構(gòu)相比,其性能和能效分別提高了 50% 和 60%,可為基于 CPU 的 AI 推理和訓(xùn)練、YouTube、Google 地球等服務(wù)提供支持。

基于 Arm Neoverse N2 架構(gòu)的阿里云倚天 710,在運(yùn)行 Llama 3 和 Qwen1.5 等業(yè)內(nèi)標(biāo)準(zhǔn)大語言模型時(shí)展現(xiàn)了極高的靈活性和擴(kuò)展性。通過與 Arm 軟件團(tuán)隊(duì)的緊密合作,阿里云對(duì) llama.cpp 中的 int4 和 int8 GEMM 內(nèi)核進(jìn)行了優(yōu)化,特別是利用了 SMMLA 指令來提高計(jì)算效率。在 ecs.g8y.16xlarge 實(shí)例上(配置64個(gè) vCPU 和 256GB 內(nèi)存),多次實(shí)驗(yàn)結(jié)果顯示,每秒處理的詞元數(shù)量增加了 2.7 倍。此外,詞元生成的吞吐量在處理更大批次數(shù)據(jù)時(shí)最多提高了 1.9 倍。詞元生成的延遲對(duì)于交互式 LLM 部署非常關(guān)鍵。實(shí)驗(yàn)表明,阿里云倚天 710 在單次操作和批量處理場(chǎng)景下均能保持 100 毫秒以內(nèi)的延遲目標(biāo),這符合人們每秒 5-10 個(gè)單詞的典型閱讀速度。因此,這一架構(gòu)非常適合常規(guī)體量的 LLM 部署。

與其他服務(wù)器 CPU 的對(duì)比中,阿里云倚天 710 的優(yōu)勢(shì)顯著。在與 Intel Icelake 和 Sapphire Rapids 的對(duì)比中,倚天 710 在提示詞處理性能上提升了 3.2 倍,詞元生成性能則提升了 2.2 倍。這表明,倚天 710 不僅在處理性能上有明顯優(yōu)勢(shì),其成本效益也極具吸引力,成為了 LLM 推理應(yīng)用中的理想選擇。

小模型的推理優(yōu)化

越來越多的企業(yè)將開發(fā)重心轉(zhuǎn)向小語言模型(Small Language Models, SLM)或小型 LLM,小模型尤其是在處理對(duì)話、翻譯、摘要、分類等任務(wù)時(shí),效率更高且耗能更少。與需要高昂的基礎(chǔ)設(shè)施成本和復(fù)雜漫長(zhǎng)的開發(fā)部署周期的大語言模型相比,這些模型在訓(xùn)練過程中消耗的電力也相對(duì)較低,適合更靈活、可定制的應(yīng)用場(chǎng)景。

鄒挺分析,在提升模型效率方面,量化技術(shù)是一個(gè)重要的優(yōu)化手段。通過將神經(jīng)網(wǎng)絡(luò)的權(quán)重降低到更低的精度,量化技術(shù)顯著減少了模型的內(nèi)存和計(jì)算需求。比如,將16位浮點(diǎn)數(shù)壓縮為4位整數(shù),可以大幅降低內(nèi)存占用和計(jì)算成本,同時(shí)對(duì)精度的影響微乎其微。

以 Llama 2 模型為例,原本擁有 70 億參數(shù)的模型在量化后,從 13.5 GB 縮減至 3.9 GB;130 億參數(shù)的版本從 26.1 GB 縮減至7.3 GB;而700 億參數(shù)模型則從 138 GB 減少至 40.7 GB。這些優(yōu)化顯著提升了模型的運(yùn)行速度,同時(shí)降低了在 CPU 上運(yùn)行的成本。

結(jié)合高效的 Arm CPU 技術(shù),這些優(yōu)化讓輕量級(jí)模型可以直接在移動(dòng)設(shè)備上運(yùn)行,不僅提升了性能,還實(shí)現(xiàn)了數(shù)據(jù)隱私保護(hù)和用戶體驗(yàn)的優(yōu)化。

他進(jìn)一步表示,在針對(duì) FunASR 語音識(shí)別模型的優(yōu)化方面,Arm 充分利用了Armv9 架構(gòu)中的 SVE2 指令、BF16 數(shù)據(jù)類型等特性,并引入了動(dòng)態(tài)量化技術(shù),使得 FunASR 模型在 Arm Neoverse 服務(wù)器上實(shí)現(xiàn)了高效運(yùn)行。FunASR 是阿里巴巴達(dá)摩院開發(fā)的開源大模型,基于 Paraformer 架構(gòu),具備語音識(shí)別、語音端點(diǎn)檢測(cè)、標(biāo)點(diǎn)恢復(fù)、語言模型、說話人驗(yàn)證和分離等多種功能。

SVE2 指令集在Arm架構(gòu)處理器中,對(duì) INT8 數(shù)據(jù)的并行處理非常高效,一次指令周期可以完成 16 個(gè) INT8 的乘累加操作。因此,在對(duì)模型執(zhí)行效率有更高要求的場(chǎng)景下,可以采用 INT8 動(dòng)態(tài)量化來提升效率。此外,INT8 和 BF16 的數(shù)據(jù)格式組合也進(jìn)一步優(yōu)化了模型計(jì)算效率,在保持精度的前提下,實(shí)現(xiàn)了 1. 5 倍的效率提升。這樣的優(yōu)化確保了 FunASR 等大模型在 Arm 架構(gòu)上的高效運(yùn)行,使其能夠在特定領(lǐng)域 AI 應(yīng)用中發(fā)揮重要作用。

不斷優(yōu)化AI推理的性能與能耗

當(dāng)前全球數(shù)據(jù)中心每年消耗約460太瓦時(shí)的電力,隨著AI技術(shù)和應(yīng)用的快速發(fā)展,這一數(shù)字預(yù)計(jì)在2030年將增長(zhǎng)至當(dāng)前的三倍。目前,數(shù)據(jù)中心中約有85%的AI負(fù)載用于推理任務(wù),這些任務(wù)涵蓋了眾多應(yīng)用和設(shè)備。

Arm Neoverse的架構(gòu)不僅提升了云端計(jì)算的性能和能效,還為大規(guī)模云服務(wù)提供商和數(shù)據(jù)中心優(yōu)化了TCO。例如,基于Arm Neoverse 平臺(tái)的 AWS Graviton3 在AI推理過程中節(jié)約了50%的成本。

據(jù)悉,Arm在Neoverse的產(chǎn)品線目前有V、N、E三個(gè)平臺(tái)系列,其中Neoverse V與Neoverse N又進(jìn)一步推出計(jì)算子系統(tǒng)CSS產(chǎn)品,為想快速推出產(chǎn)品,掌握人工智能機(jī)遇的合作伙伴,縮減產(chǎn)品開發(fā)時(shí)間,加速產(chǎn)品上市進(jìn)程。

迄今為止,合作伙伴基于Arm架構(gòu)的芯片出貨量已達(dá)到 3,000 億顆,這一龐大的市場(chǎng)基礎(chǔ)使Arm能夠支持各種AI 技術(shù)領(lǐng)域的發(fā)展,并成為推動(dòng)AI創(chuàng)新的重要平臺(tái)。AI 推理正從集中在云端擴(kuò)展到更多的邊緣應(yīng)用,以實(shí)現(xiàn)更廣泛的覆蓋和更高效的響應(yīng)。

鄒挺說道: “從移動(dòng)設(shè)備到 AI 領(lǐng)域,高性能和出色能效始終是Arm的DNA。Arm 將繼續(xù)推動(dòng) AI 的技術(shù)變革,帶來更高效、更可持續(xù)的計(jì)算解決方案,確保我們的技術(shù)能夠支持合作伙伴在 AI 時(shí)代的多樣化需求,同時(shí)推動(dòng) AI 技術(shù)在更多領(lǐng)域的廣泛落地和普及?!?br />

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • ARM
    ARM
    +關(guān)注

    關(guān)注

    135

    文章

    9498

    瀏覽量

    388427
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    AI推理的存儲(chǔ),看好SRAM?

    電子發(fā)燒友網(wǎng)報(bào)道(文/黃晶晶)近幾年,生成式AI引領(lǐng)行業(yè)變革,AI訓(xùn)練率先崛起,帶動(dòng)高帶寬內(nèi)存HBM一飛沖天。但我們知道AI推理的廣泛應(yīng)用才能推動(dòng)A
    的頭像 發(fā)表于 03-03 08:51 ?2374次閱讀
    <b class='flag-5'>AI</b><b class='flag-5'>推理</b>的存儲(chǔ),看好SRAM?

    華為亮相2025金融AI推理應(yīng)用落地與發(fā)展論壇

    近日,2025金融AI推理應(yīng)用落地與發(fā)展論壇在上海舉行。中國(guó)銀聯(lián)執(zhí)行副總裁涂曉軍、華為數(shù)字金融軍團(tuán)CEO曹沖出席本次論壇并發(fā)表致辭。論壇上,華為公司副總裁、數(shù)據(jù)存儲(chǔ)產(chǎn)品線總裁周躍峰博士發(fā)布AI
    的頭像 發(fā)表于 08-15 09:45 ?918次閱讀

    超強(qiáng)性能工控機(jī)工業(yè)領(lǐng)域的動(dòng)力引擎驅(qū)動(dòng)高效生產(chǎn)

    超高分辨率/高速機(jī)器視覺、復(fù)雜AI模型實(shí)時(shí)推理、大規(guī)模實(shí)時(shí)數(shù)據(jù)分析與決策、超精密多軸同步運(yùn)動(dòng)控制,通過硬件優(yōu)化、實(shí)時(shí)操作系統(tǒng)/擴(kuò)展,實(shí)現(xiàn)納秒級(jí)精度控制,滿足半導(dǎo)體制造、高端測(cè)試等極端要求,不間斷運(yùn)行
    的頭像 發(fā)表于 08-14 16:36 ?302次閱讀
    超強(qiáng)性能工控機(jī)工業(yè)領(lǐng)域的動(dòng)力<b class='flag-5'>引擎</b><b class='flag-5'>驅(qū)動(dòng)</b><b class='flag-5'>高效</b>生產(chǎn)

    睿海光電以高效交付與廣泛兼容助力AI數(shù)據(jù)中心800G光模塊升級(jí)

    引領(lǐng)AI時(shí)代網(wǎng)絡(luò)變革:睿海光電的核心競(jìng)爭(zhēng)力 在AI時(shí)代,數(shù)據(jù)中心正經(jīng)歷從傳統(tǒng)架構(gòu)向AI工廠與AI云的轉(zhuǎn)型。AI工廠依賴超大規(guī)模GPU集群
    發(fā)表于 08-13 19:01

    Arm KleidiAI與XNNPack集成實(shí)現(xiàn)AI性能提升

    Arm KleidiAI 首次集成到 XNNPack 已過去整整一年。KleidiAI 是一款高度優(yōu)化的軟件庫,旨在加速 Arm CPU 上的人工智能 (AI)
    的頭像 發(fā)表于 08-08 15:19 ?2529次閱讀
    <b class='flag-5'>Arm</b> KleidiAI與XNNPack集成實(shí)現(xiàn)<b class='flag-5'>AI</b>性能提升

    積算科技上線赤兔推理引擎服務(wù),創(chuàng)新解鎖FP8大模型算力

    北京2025年7月30日 /美通社/ -- 近日,北京積算科技有限公司(以下簡(jiǎn)稱"積算科技")宣布其算力服務(wù)平臺(tái)上線赤兔推理引擎。積算科技PowerFul-AI應(yīng)用開發(fā)平臺(tái)與赤兔合作,打造高性價(jià)比
    的頭像 發(fā)表于 07-30 21:44 ?711次閱讀

    信而泰×DeepSeek:AI推理引擎驅(qū)動(dòng)網(wǎng)絡(luò)智能診斷邁向 “自愈”時(shí)代

    ,還是工業(yè)協(xié)議時(shí)序混亂,均可完整還原端到端業(yè)務(wù)會(huì)話鏈條,為智能分析提供堅(jiān)實(shí)基礎(chǔ)。2.AI根因定位:推理引擎驅(qū)動(dòng)秒級(jí)精準(zhǔn)診斷l(xiāng) 知識(shí)圖譜驅(qū)動(dòng)
    發(fā)表于 07-16 15:29

    Arm與微軟合作加速邊緣設(shè)備上的AI體驗(yàn)

    隨著人工智能 (AI) 成為當(dāng)今個(gè)人電腦 (PC) 和移動(dòng)設(shè)備使用體驗(yàn)(從聊天機(jī)器人到生產(chǎn)力提升)中不可或缺的一部分,這些設(shè)備對(duì) CPU 高效、可擴(kuò)展的推理需求也在持續(xù)增長(zhǎng)。
    的頭像 發(fā)表于 05-28 13:54 ?658次閱讀

    Arm CPU適配通義千問Qwen3系列模型

    與阿里巴巴開源的輕量級(jí)深度學(xué)習(xí)框架 MNN 已深度集成。得益于此,Qwen3-0.6B、Qwen3-1.7B 及 Qwen3-4B 三款模型能夠在搭載 Arm 架構(gòu) CPU 的移動(dòng)設(shè)備上無縫運(yùn)行,為用戶提供卓越的端側(cè) AI
    的頭像 發(fā)表于 05-12 16:37 ?1086次閱讀

    谷歌新一代 TPU 芯片 Ironwood:助力大規(guī)模思考與推理AI 模型新引擎?

    Cloud 客戶開放,將提供 256 芯片集群以及 9,216 芯片集群兩種配置選項(xiàng)。 ? 在核心亮點(diǎn)層面,Ironwood 堪稱谷歌首款專門為 AI 推理精心設(shè)計(jì)的 TPU 芯片,能夠有力支持大規(guī)模思考
    的頭像 發(fā)表于 04-12 00:57 ?3154次閱讀

    Arm Cortex-A320 CPU助力嵌入式設(shè)備實(shí)現(xiàn)高能效AI計(jì)算

    Arm Cortex-A320 是目前最小型的 Armv9-A 架構(gòu) CPU。得益于該處理器的推出,開發(fā)者現(xiàn)在能有更多選擇決定如何處理物聯(lián)網(wǎng)邊緣人工智能 (AI) 工作負(fù)載。然而,面對(duì)多樣化的選擇
    的頭像 發(fā)表于 02-27 17:17 ?1123次閱讀
    <b class='flag-5'>Arm</b> Cortex-A320 <b class='flag-5'>CPU</b>助力嵌入式設(shè)備實(shí)現(xiàn)高能效<b class='flag-5'>AI</b>計(jì)算

    AI大模型在汽車應(yīng)用中的推理、降本與可解釋性研究

    佐思汽研發(fā)布《2024-2025年AI大模型及其在汽車領(lǐng)域的應(yīng)用研究報(bào)告》。 推理能力成為大模型性能提升的驅(qū)動(dòng)引擎 2024下半年以來,國(guó)內(nèi)外大模型公司紛紛推出
    的頭像 發(fā)表于 02-18 15:02 ?1803次閱讀
    <b class='flag-5'>AI</b>大模型在汽車應(yīng)用中的<b class='flag-5'>推理</b>、降本與可解釋性研究

    Arm技術(shù)助力Google Axion處理器加速AI工作負(fù)載推理

    Arm Neoverse V2 平臺(tái)賦能的 Google Axion 處理器已在 Google Cloud 上正式上線,其中,C4A 是首款基于 Axion 的云虛擬機(jī),為基于 CPU 的人工智能 (AI)
    的頭像 發(fā)表于 02-14 14:11 ?922次閱讀
    <b class='flag-5'>Arm</b>技術(shù)助力Google Axion處理器加速<b class='flag-5'>AI</b>工作負(fù)載<b class='flag-5'>推理</b>

    使用NVIDIA推理平臺(tái)提高AI推理性能

    NVIDIA推理平臺(tái)提高了 AI 推理性能,為零售、電信等行業(yè)節(jié)省了數(shù)百萬美元。
    的頭像 發(fā)表于 02-08 09:59 ?1290次閱讀
    使用NVIDIA<b class='flag-5'>推理</b>平臺(tái)提高<b class='flag-5'>AI</b><b class='flag-5'>推理</b>性能

    什么是AI查詢引擎

    AI 查詢引擎高效處理、存儲(chǔ)和檢索大量數(shù)據(jù),以增強(qiáng)生成式 AI 模型的輸入。
    的頭像 發(fā)表于 01-10 10:00 ?2247次閱讀