chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

基于Arm Neoverse平臺的處理器革新生成式AI體驗(yàn)

Arm社區(qū) ? 來源:Arm社區(qū) ? 2025-01-03 15:31 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

作者:Arm 基礎(chǔ)設(shè)施事業(yè)部 AI 解決方案架構(gòu)師 Na Li

(Arm 工程部技術(shù)總監(jiān) Milos Puzovic 和 Arm 基礎(chǔ)設(shè)施事業(yè)部軟件工程師 Nobel Chowdary Mandepudi 參與了本文撰寫)

Llama 是一個(gè)專為開發(fā)者、研究人員和企業(yè)打造的開源大語言模型 (LLM) 庫,旨在推動(dòng)生成式 AI 的創(chuàng)新、實(shí)驗(yàn)及可靠地?cái)U(kuò)展。Llama 3.1 405B 是 Llama 系列中性能領(lǐng)先的模型之一,然而部署和使用如此大型的模型對缺乏足夠計(jì)算資源的個(gè)人或企業(yè)機(jī)構(gòu)來說具有相當(dāng)大的挑戰(zhàn)。為了解決上述挑戰(zhàn),Meta 推出了 Llama 3.3 70B 模型。該模型在保持 Llama 3.1 70B 模型架構(gòu)的同時(shí),應(yīng)用了最新的后訓(xùn)練技術(shù)以提升模型評估性能。同時(shí),在推理、數(shù)學(xué)計(jì)算、常識理解、指令遵循和工具使用方面都有顯著改進(jìn)。盡管 Llama 3.3 70B 模型的體量顯著減小,其性能卻與 Llama 3.1 405B 模型相當(dāng)。

Arm 工程團(tuán)隊(duì)與 Meta 緊密協(xié)作,在 Google Axion 上對 Llama 3.3 70B 模型進(jìn)行了推理性能評估。Google Axion 是基于 Arm Neoverse V2 平臺構(gòu)建的定制 AArch64 處理器系列,通過 Google Cloud 提供。與傳統(tǒng)的現(xiàn)成處理器相比,Google Axion 具備更高的性能、更低的能耗以及更強(qiáng)的可擴(kuò)展性,充分滿足了數(shù)據(jù)中心在 AI 時(shí)代的需求。

基準(zhǔn)測試結(jié)果顯示,在運(yùn)行 Llama 3.3 70B 模型時(shí),基于 Axion 處理器的 C4A 虛擬機(jī) (VM) 可提供順暢的 AI 體驗(yàn),并在不同的用戶批次大小下均達(dá)到了人類可讀性水平,即人們閱讀文本的平均速度,從而使開發(fā)者在基于文本的應(yīng)用中,在獲得與使用 Llama 3.1 405B 模型結(jié)果相當(dāng)?shù)母哔|(zhì)量輸出的同時(shí),顯著降低了對大量算力資源的需求。

Google Axion 處理器上運(yùn)行

Llama 3.3 70B 的 CPU 推理性能

Google Cloud 提供的基于 Axion 的 C4A 虛擬機(jī),最多可配備 72 個(gè)虛擬 CPU (vCPU) 和 576 GB RAM。在這些測試中,我們使用了中檔高性價(jià)比的 c4a-standard-32 機(jī)器類型來部署 4 位量化的 Llama 3.3 70B 模型。為了運(yùn)行我們的性能測試,我們使用了流行的 Llama.cpp 框架,該框架從 b4265 版本開始,已通過 Arm Kleidi 進(jìn)行了優(yōu)化。Kleidi 集成提供了優(yōu)化的內(nèi)核,以確保 AI 框架可以充分發(fā)揮 Arm CPU 的 AI 功能和性能。下面,我們來看看具體結(jié)果。

提示詞編碼速度是指語言模型處理和解釋用戶輸入的速度。如圖 1 所示,由于提示詞編碼利用了多核并行處理技術(shù),因此在不同批次大小的測試中,其性能始終穩(wěn)定在每秒約 50 個(gè)詞元左右。此外,不同提示詞規(guī)模測得的速度也相當(dāng)。

b977af7c-c988-11ef-9310-92fbcf53809c.png

圖 1:運(yùn)行 Llama 3.3 70B 模型時(shí)的提示詞編碼速度

詞元生成速度衡量的是運(yùn)行 Llama 3.3 70B 模型時(shí)模型生成響應(yīng)的速度。Arm Neoverse CPU 利用先進(jìn)的 SIMD 指令(如 Neon 和 SVE)優(yōu)化機(jī)器學(xué)習(xí) (ML) 工作流,可加速通用矩陣乘法 (GEMM)。為了進(jìn)一步提高吞吐量,尤其是在處理更大批次時(shí),Arm 引入了專門的優(yōu)化指令,如有符號點(diǎn)積 (SDOT) 和矩陣乘法累加 (MMLA)。

如圖 2 所示,隨著用戶批次大小的增加,詞元生成的速度相應(yīng)提升,而在不同詞元生成規(guī)模下測得的速度保持相對一致。這種在更大批次下實(shí)現(xiàn)更高吞吐量的能力,對于構(gòu)建高效服務(wù)多用戶的可擴(kuò)展系統(tǒng)至關(guān)重要。

b99a8f24-c988-11ef-9310-92fbcf53809c.png

圖 2:運(yùn)行 Llama 3.3 70B 模型時(shí)的詞元生成速度

為了評估多用戶同時(shí)與模型交互時(shí)每個(gè)用戶所感受到的性能,我們測量了每批次詞元的生成速度。每批次詞元的生成速度至關(guān)重要,因?yàn)檫@直接影響用戶與模型交互時(shí)的實(shí)時(shí)體驗(yàn)。

如圖 3 所示,當(dāng)批次大小最多 4 時(shí),詞元生成速度可實(shí)現(xiàn)人類可讀性的平均水平。這表明,隨著系統(tǒng)擴(kuò)展以滿足多用戶需求,其性能仍然保持穩(wěn)定。為應(yīng)對更多并發(fā)用戶的需求,可以采用 vLLM 等服務(wù)框架。這些框架通過優(yōu)化 KV 緩存管理顯著提高了系統(tǒng)的可擴(kuò)展性。

b9b1b3c0-c988-11ef-9310-92fbcf53809c.png

圖 3:不同批次大小下,以批次模式運(yùn)行 Llama 3.3 70B 模型時(shí)每個(gè)用戶的提示詞生成速度與人類可讀性的平均水平的對比

革新生成式 AI 體驗(yàn)

Llama 3.3 70B 模型能夠高效地發(fā)揮大規(guī)模 AI 的優(yōu)勢,預(yù)示著潛在的變革。由于 Llama 3.3 70B 模型使用較小的參數(shù)規(guī)模,不僅使生成式 AI 處理技術(shù)更容易被生態(tài)系統(tǒng)采用,同時(shí)也減少了所需的計(jì)算資源。此外,Llama 3.3 70B 模型有助于提高 AI 的處理效率,這對于數(shù)據(jù)中心和云計(jì)算工作負(fù)載至關(guān)重要。在模型評估基準(zhǔn)方面,Llama 3.3 70B 的性能也與 Llama 3.1 405B 模型相當(dāng)。

通過基準(zhǔn)測試工作,我們展示了基于 Arm Neoverse 平臺的 Google Axion 處理器在運(yùn)行 Llama 3.3 70B 模型時(shí)可提供流暢高效的體驗(yàn),并在多個(gè)用戶批次大小測試中實(shí)現(xiàn)了與人類可讀性水平相當(dāng)?shù)奈谋旧尚阅堋?/p>

我們很榮幸能繼續(xù)與 Meta 保持密切的合作關(guān)系,在 Arm 計(jì)算平臺上實(shí)現(xiàn)開源 AI 創(chuàng)新,從而確保 Llama LLM 跨硬件平臺順暢、高效地運(yùn)行。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 處理器
    +關(guān)注

    關(guān)注

    68

    文章

    20069

    瀏覽量

    242757
  • ARM
    ARM
    +關(guān)注

    關(guān)注

    135

    文章

    9450

    瀏覽量

    385687
  • Neoverse
    +關(guān)注

    關(guān)注

    0

    文章

    13

    瀏覽量

    4894
  • 生成式AI
    +關(guān)注

    關(guān)注

    0

    文章

    536

    瀏覽量

    961

原文標(biāo)題:在基于 Arm Neoverse 平臺的處理器上實(shí)現(xiàn)更高效的生成式 AI

文章出處:【微信號:Arm社區(qū),微信公眾號:Arm社區(qū)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    向Intel發(fā)起重型計(jì)算挑戰(zhàn) ARM發(fā)布Neoverse 處理器

    ARM 基礎(chǔ)設(shè)施事業(yè)部總經(jīng)理 Drew Henry 表示:該公司將處理器技術(shù)授權(quán)給許多企業(yè),通常會(huì)用于智能手機(jī)等對功耗較敏感的設(shè)備。不過 Neoverse 主要面向計(jì)算類基礎(chǔ)設(shè)施,包括服務(wù)
    發(fā)表于 10-17 10:10 ?969次閱讀

    基于NXP iMX6Q ARM處理器的Apalis iMX6Q ARM嵌入平臺

    Parallel Camera Interface,MIPI/CSI-2 串行攝像頭接口,USB接口,網(wǎng)絡(luò)接口等。本文所演示的ARM平臺來自于Toradex 基于NXP iMX6Q ARM處理
    發(fā)表于 12-29 07:02

    Arm Neoverse N1軟件優(yōu)化指南

    本文檔提供了有關(guān)Neoverse N1管道、指令性能特征和特殊性能注意事項(xiàng)的高級信息。此信息旨在幫助優(yōu)化Neoverse N1軟件和編譯的人員。有關(guān)Neoverse N1
    發(fā)表于 08-11 06:56

    ARM嵌入處理器結(jié)構(gòu)與應(yīng)用基礎(chǔ)

    ARM嵌入處理器結(jié)構(gòu)與應(yīng)用基礎(chǔ),針對ARM7處理器系列。
    發(fā)表于 05-06 16:09 ?9次下載

    ARM推出了一個(gè)名叫Neoverse處理器家族,叫板Intel

    ARM 基礎(chǔ)設(shè)施事業(yè)部總經(jīng)理 Drew Henry 表示:該公司將處理器技術(shù)授權(quán)給許多企業(yè),通常會(huì)用于智能手機(jī)等對功耗較敏感的設(shè)備。不過 Neoverse 主要面向計(jì)算類基礎(chǔ)設(shè)施,包括服務(wù)
    的頭像 發(fā)表于 10-19 10:07 ?5048次閱讀

    淺談arm處理器的優(yōu)勢

    目前,世界正在向物聯(lián)網(wǎng)、人工智能的潮流邁進(jìn),也隨著物理網(wǎng)、人工智能技術(shù)上的發(fā)展與推進(jìn),微處理器技術(shù)也在不斷革新,各種新型微處理器的應(yīng)用也在不斷深入。對于現(xiàn)階段大量32位嵌入應(yīng)用的出現(xiàn)
    發(fā)表于 10-26 10:27 ?1.3w次閱讀

    Arm推出Neoverse處理器家族 大有對標(biāo)Intel之勢

    從PC時(shí)代到移動(dòng)時(shí)代,Arm憑借對ASIC架構(gòu)的深耕占據(jù)了全球90%以上的市場,成為人工智能芯片市場中最被忌憚的巨頭之一。最近,Arm推出了一個(gè)名叫Neoverse處理器家族,將為每
    發(fā)表于 11-02 17:35 ?1438次閱讀

    ARM推出新一代Neoverse處理器平臺,面向5nm及3nm工藝性能提升30%以上

    作為移動(dòng)處理器中的霸主,ARM想要搶數(shù)據(jù)中心處理器市場的野心也不是一天兩天了,為此他們專門推出了Neoverse處理器
    的頭像 發(fā)表于 09-23 16:08 ?2379次閱讀
    <b class='flag-5'>ARM</b>推出新一代<b class='flag-5'>Neoverse</b><b class='flag-5'>處理器</b><b class='flag-5'>平臺</b>,面向5nm及3nm工藝性能提升30%以上

    Arm推出新一代平臺 Neoverse V2 平臺

    目前,Arm Neoverse家族包括:V系列、N系列以及E系列。就在今年9月,Arm Neoverse迎來新的進(jìn)展,推出新一代平臺
    的頭像 發(fā)表于 09-26 09:22 ?1898次閱讀

    Arm發(fā)布新一代Neoverse數(shù)據(jù)中心計(jì)算平臺,AI負(fù)載性能顯著提升

    據(jù)公開信息顯示,Arm去年推出的Neoverse CSS運(yùn)算子系統(tǒng)提供了包含處理器設(shè)計(jì)的預(yù)驗(yàn)證平臺,加快了定制SoC上市進(jìn)程,首發(fā)型號為Neover
    的頭像 發(fā)表于 02-22 14:48 ?1327次閱讀

    Google Cloud推出基于Arm Neoverse V2定制Google Axion處理器

    Arm Neoverse 平臺已成為云服務(wù)提供商優(yōu)化其從芯片到軟件全棧的心儀之選。近日,Google Cloud 推出了基于 Arm Neovers
    的頭像 發(fā)表于 04-16 14:30 ?1175次閱讀

    ArmArm Neoverse計(jì)算子系統(tǒng)(CSS):Arm Neoverse CSS V3和Arm Neoverse CSS N3

    Arm宣布了兩款新的Arm Neoverse計(jì)算子系統(tǒng)(CSS),它們基于“迄今為止最好的一代Neoverse技術(shù)”。是什么讓這些新產(chǎn)品在擁擠的計(jì)算技術(shù)領(lǐng)域脫穎而出?
    的頭像 發(fā)表于 04-24 17:53 ?2091次閱讀
    <b class='flag-5'>Arm</b>新<b class='flag-5'>Arm</b> <b class='flag-5'>Neoverse</b>計(jì)算子系統(tǒng)(CSS):<b class='flag-5'>Arm</b> <b class='flag-5'>Neoverse</b> CSS V3和<b class='flag-5'>Arm</b> <b class='flag-5'>Neoverse</b> CSS N3

    Arm技術(shù)助力Google Axion處理器加速AI工作負(fù)載推理

    Arm Neoverse V2 平臺賦能的 Google Axion 處理器已在 Google Cloud 上正式上線,其中,C4A 是首款基于 Axion 的云虛擬機(jī),為基于 C
    的頭像 發(fā)表于 02-14 14:11 ?793次閱讀
    <b class='flag-5'>Arm</b>技術(shù)助力Google Axion<b class='flag-5'>處理器</b>加速<b class='flag-5'>AI</b>工作負(fù)載推理

    如何在基于Arm Neoverse平臺的CPU上構(gòu)建分布Kubernetes集群

    在本文中,我們將以 X(原 Twitter)為例,演示如何在基于 Arm Neoverse 平臺的 CPU 上構(gòu)建分布 Kubernetes 集群,以根據(jù)推文實(shí)時(shí)監(jiān)控情緒變化。如此一
    的頭像 發(fā)表于 03-25 15:58 ?514次閱讀
    如何在基于<b class='flag-5'>Arm</b> <b class='flag-5'>Neoverse</b><b class='flag-5'>平臺</b>的CPU上構(gòu)建分布<b class='flag-5'>式</b>Kubernetes集群

    解讀基于Arm Neoverse V2平臺的Google Axion處理器

    云計(jì)算需求在人工智能 (AI) 時(shí)代的爆發(fā)式增長,推動(dòng)了開發(fā)者尋求性能優(yōu)化且高能效的解決方案,以降低總體擁有成本 (TCO)。Arm 致力于通過 Arm Neoverse
    的頭像 發(fā)表于 04-21 13:47 ?744次閱讀