chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

一文詳解Arm架構Armv9.6-A中的最新功能

Arm社區(qū) ? 來源:Arm社區(qū) ? 2024-12-17 10:22 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

作者:Arm 架構與技術部產品管理總監(jiān) Martin Weidmann

Arm CPU 是當今人工智能 (AI) 賦能軟件的關鍵,它可解釋、處理和執(zhí)行指令。Arm 指令集架構 (ISA) 作為硬件和軟件的接口,指示處理器做什么和怎么做。Arm ISA 持續(xù)演進以滿足現代計算的需求,包括 AI 的興起、機器學習 (ML) 和芯粒 (chiplet) 技術的使用,以及應對高級安全威脅。持續(xù)創(chuàng)新確保了 Arm 架構的普及性、普適性能、出色能效、安全性和開發(fā)者靈活性。

為了確保開發(fā)工作能緊跟快速發(fā)展的市場步伐,Arm 投入了大量時間來審視未來的計算需求,并與其龐大且獨特的生態(tài)系統(tǒng)明確其理解。在打造和發(fā)布更新的 ISA 時,結合專業(yè)知識與反饋意見,以確保能有針對性地滿足需求。

此系列文章每年發(fā)布一次,概述了當年度 Arm A 系列架構的主要新增功能,并隨附完整的指令集和系統(tǒng)寄存器文檔,2024 年為 Armv9.6-A。

想要了解去年的架構擴展,可閱讀《Arm A 系列架構 2023 擴展》。接下來,就讓我們一同來了解今年的一些新增功能。

利用結構化稀疏性和

四分塊操作提高 SME 效率

矩陣運算用于加權特征和計算預測值,是當今許多重要工作負載(包括 AI 和 ML)的基礎。Armv9-A 中的可伸縮矩陣擴展 (SME) 大大提高了 Arm CPU 上矩陣乘法的處理速度和效率。借助 SME,可以同時對多個值進行計算,數據整理和重用的效率更高,而且還支持更多的數據類型和更有效的數據壓縮。

SME 通過使用量化技術,降低了 ML 模型的計算復雜度。這不僅減少了內存需求,降低了能耗,還使模型可適用于移動設備。SME2 在量化方面又更進一步,它為在 CPU 上運行需要以吞吐量為導向操作的各類應用引入了 Streaming 模式。2024 擴展基于 SME2 構建,新增了對 2:4 結構化稀疏性 (structured sparsity) 和四分塊 (quarter tile) 操作的支持。

從四分塊操作開始,這些操作旨在提高 SME 處理小矩陣時的效率。現有的 SME 運算支持外積運算,使用一對輸入向量來計算結果矩陣:

fa402396-b9bf-11ef-8732-92fbcf53809c.png

為了更好地支持較小的矩陣,四分運算允許將輸入視為來自四個不同的矩陣:

fa5bb26e-b9bf-11ef-8732-92fbcf53809c.png

2024 擴展帶來的另一項改進與稀疏性有關。在下面的示例中,一個包含激活數據的輸入矩陣與另一個包含權重的矩陣相乘。權重矩陣中的一些元素是未使用的(零),不會影響輸出。

fa62a33a-b9bf-11ef-8732-92fbcf53809c.png

這帶來了兩個效率低下的問題:

獲取不需要的數據

執(zhí)行不改變結果的乘法累加

新的結構化稀疏性指令可以解決這以上兩個問題。在前面的例子中,權重可以用元數據標簽進行壓縮,它描述如何解壓縮數據。

fac44676-b9bf-11ef-8732-92fbcf53809c.png

這種方法的優(yōu)點是既能優(yōu)化權重的內存占用,又能優(yōu)化獲取權重進行處理所需的帶寬。權重可以在處理器中解壓縮,然后用于計算。不過,為了避免不必要的多重累積,新指令允許將壓縮數據直接用作輸入。

fad6f9c4-b9bf-11ef-8732-92fbcf53809c.png

利用 MPAM Domain 支持芯粒

和多芯片 SoC 上的共享內存系統(tǒng)

芯粒具有更高的系統(tǒng)可組合性和性能擴展性,因此可適用于 AI 和加速計算。要想大規(guī)模采用芯粒技術,互操作性必不可少,這需要通過芯粒接口和協(xié)議的標準化來實現。

Arm 正在通過旨在提供通用語言和降低碎片化風險的標準,加速生態(tài)系統(tǒng)向基于芯粒的系統(tǒng)級芯片 (SoC) 演進。Arm 的芯粒系統(tǒng)架構 (Chiplet System Architecture, CSA)將基于 Arm 架構的系統(tǒng)劃分為多個芯粒,包括其高級屬性,以定義可標準化和復用的芯粒類型。AMBA CHI C2C 利用了現有的片上 AMBA CHI 協(xié)議,并定義了其打包方式,使其能夠在芯粒間傳輸。

這些舉措將加速向提供專用和可互操作芯粒的多供應商市場發(fā)展。開放的芯粒市場將使 OEM 能夠實現更高水平的定制和集成,而無需承擔開發(fā)和制造單芯片設計所帶來的成本。目前,芯粒的優(yōu)勢是通過垂直集成設計實現的。Armv9-A 的 2024 擴展考慮了這種新的芯片方法以及如何在它們之間管理資源。

當今的許多計算需求都是通過共享內存計算機系統(tǒng)來獲得滿足的,在這些系統(tǒng)中,多個應用或多個虛擬機 (VM) 同時運行。為支持此類系統(tǒng),Armv8.4-A 引入了內存系統(tǒng)資源分區(qū)和監(jiān)控 (Memory System Resource Partitioning and Monitoring, MPAM) 擴展。MPAM 可以控制對共享資源使用情況進行監(jiān)控和分區(qū)。

MPAM 使用分區(qū)編號 (PARTID) 來識別每次內存訪問與哪個軟件實體相關聯(lián)。該 PARTID 與內存訪問一起傳輸,以便下游內存系統(tǒng)組件 (MSC) 實施分區(qū)策略。

2024 年增加了 MPAM Domain,以更好地支持多芯粒和多芯片系統(tǒng)上的共享內存計算機系統(tǒng)。MPAM Domain 允許系統(tǒng)的不同部分使用不同的 PARTID 命名空間,并在訪問跨越域邊界時進行 PARTID 轉換。

fae8cb86-b9bf-11ef-8732-92fbcf53809c.png

整個系統(tǒng)無需具有統(tǒng)一的 PARTID 寬度,系統(tǒng)因而更容易組成。由于系統(tǒng)的每個部分都可以只支持所需數量的 PARTID,MPAM Domain 還有助于降低成本。

虛擬機上用于 Trace 和統(tǒng)計分析的

虛擬機管理程序內存控制

Armv9-A 的 Trace(ETE 和 TRBE)和統(tǒng)計分析擴展 (Statistical Profiling Extensions, SPE) 為開發(fā)者提供了了解軟件性能所需的信息,使其能最大限度地利用硬件平臺。

Trace 和 SPE 數據可以在系統(tǒng)運行時以非侵入方式收集,數據寫入虛擬內存中軟件分配的緩沖區(qū)。運行虛擬機時,重要的是這些緩沖區(qū)的內存頁不能被虛擬機管理程序換出去,否則會丟失分析數據。同時,通常也不希望虛擬機管理程序將虛擬機的所有內存都 Pin 進來。

2024 擴展為 TRBE 和 SPE 引入了虛擬機接口。這些接口允許虛擬機和虛擬機管理程序就分析緩沖區(qū)的大小和位置達成一致。這確保了虛擬機的分析數據不會丟失,同時允許虛擬機管理程序控制虛擬機內存中需要 Pin 的內存大小。

改進緩存和數據放置

2024 的 A 系列擴展引入了兩項增強功能,以提高緩存效率。第一個功能是生產者-消費者數據放置提示。新的寫提示指令允許生產線程向處理器提示寫或原子操作的數據將被不同的線程使用。而對于消費線程,則有一條新的預取指令,提示數據是由另一個線程生成的,可能還不存在。這些提示共同顯著提高了并行軟件的可擴展性,增強了消息傳遞、鎖傳遞和線程 barrier 的性能。例如:

fb03cc10-b9bf-11ef-8732-92fbcf53809c.png

系統(tǒng)可能包括連接到不同高速緩存層次結構級別的設備或加速器。例如,在下面的系統(tǒng)中,設備 A 可以訪問系統(tǒng)級高速緩存 (System Level Cache, SLC),而設備 B 則繞過 SLC。

fb1d32e0-b9bf-11ef-8732-92fbcf53809c.png

為了讓設備 A 或設備 B 能夠看到數據,CPU 上運行的軟件需要將數據推送到內存系統(tǒng)中。當前,軟件會使用緩存操作將數據推送到一致性點 (Point of Coherency, PoC),在示例系統(tǒng)中,一致性點位于 SLC 之外。這對設備 B 來說是正確的,但對設備 A 來說,將數據推送到 SLC 就足夠了。

2024 擴展增加了針對 outer cache 的高速緩存維護操作。這為知道高速緩存拓撲結構的軟件提供了更大的靈活性,使開發(fā)者能夠根據使用該數據的設備的需求,將數據推送到系統(tǒng)的合適位置。

利用粒度數據隔離基于機密計算進行構建

Armv9-A 為開發(fā)者提供了編程工具和環(huán)境,使他們能夠在快速發(fā)展的 AI 市場中加快創(chuàng)新步伐。此類應用所使用的模型和數據尤為寶貴,因此安全性至關重要。Arm 機密計算架構 (Confidential Compute Architecture, CCA) 利用硬件和軟件來保護使用中的數據和應用。

Armv9.1-A 引入了機密領域管理擴展 (Realm Management Extension, RME),在設備上創(chuàng)建了一個獨立的計算世界,用于運行和保護應用和數據。使用機密領域可以防止來自以更高權限級別運行的軟件的攻擊。機密領域的內容或進程無法訪問。數據在使用、傳輸和復位時均保持加密。Armv9.4-A 引入了一項更新,使機密領域可以與加速器交互并保持其完整性。

粒度數據隔離 (Granular Data Isolation, GDI) 建立在 Armv9-A 的 RME 基礎之上,并增加了兩個新的物理地址空間 (Physical Address Space, PAS),可將內存位置分配到這些空間:

非安全保護 (Non-Secure Protected, NSP)

系統(tǒng)代理 (System Agent, SA)

這兩個新的 PAS 與現有選項的不同之處在于,處理器無法訪問它們。如此一來,軟件就可以將內存緩沖區(qū)分配給其他設備,而硬件則維護這些緩沖區(qū)內數據的機密性。例如,可信加速器可以使用 NSP PAS 來處理數據,同時保證軟件無法訪問這些數據。

其他功能

2024 擴展中引入的其他增強功能包括:

對 EL1 系統(tǒng)寄存器進行位鎖定 (Bitwise Locking)。

針對大型內存系統(tǒng)改進了粒度保護表 (Granular Protect Tables, GPT) 的可伸縮性。

用于擴展/壓縮和查找第一個/最后一個 active 元素的新 SVE 指令。

新增非特權讀取和存儲指令,使操作系統(tǒng)能與應用內存交互。

新的比較和分支指令。

從 EL3 注入 Undefined 指令異常。

新一代中斷控制器即將推出

通用中斷控制器 (Generic Interrupt Controller, GIC) 是 Arm A 系列系統(tǒng)的標準解決方案,在整個 Arm 生態(tài)系統(tǒng)中被廣泛使用。當前版本 GICv3 和 GICv4 于 2013 年與 Armv8-A 一起推出。從那時起,系統(tǒng)的結構和運行工作負載都發(fā)生了變化。Arm 正在開發(fā)新版本的 GIC 架構,我們期待在 2025 年初分享預覽版。

總結

本文簡要介紹了 Arm 架構 Armv9.6-A 中的最新功能。在接下來的幾個月中,Arm 將與合作伙伴共同致力于確保軟件生態(tài)系統(tǒng)能夠在未來處理器上市后盡快利用這些功能。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 處理器
    +關注

    關注

    68

    文章

    20140

    瀏覽量

    246551
  • ARM
    ARM
    +關注

    關注

    135

    文章

    9497

    瀏覽量

    388354
  • 寄存器
    +關注

    關注

    31

    文章

    5584

    瀏覽量

    128972
  • AI
    AI
    +關注

    關注

    89

    文章

    37974

    瀏覽量

    295811
  • 人工智能
    +關注

    關注

    1813

    文章

    49700

    瀏覽量

    261110

原文標題:Armv9 技術講堂 | Arm A 系列架構 2024 進展

文章出處:【微信號:Arm社區(qū),微信公眾號:Arm社區(qū)】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    Arm代指令架構Armv9”已經問世

    Arm的下代CPU指令集架構(ISA:指令集架構Armv9開始推出。該公司正在逐步擴展當前的ISA
    的頭像 發(fā)表于 11-13 11:55 ?4.5w次閱讀

    ARM發(fā)布全新Cortex-A35處理器,ARMv8-A架構全面進軍移動和嵌入式市場

    應用而設計。ARMv8-A架構具有64位和32位運算能力以及完整的加密功能,Cortex-A35因而得以開創(chuàng)更豐富的用戶體驗。ARM預期Co
    發(fā)表于 11-11 16:56 ?2359次閱讀

    Arm架構學習—開啟Armv9時代

    在上篇文章“從A76到A78——在變化中學習Arm架構,我們了解了
    的頭像 發(fā)表于 11-27 16:46 ?2912次閱讀
    <b class='flag-5'>Arm</b>微<b class='flag-5'>架構</b>學習—開啟<b class='flag-5'>Armv</b>9時代

    我對ARM架構的理解

    狀態(tài)下,使用A32和T32指令集,而AArch64使用A64。ARM架構Arm架構很容易識別,因
    發(fā)表于 09-03 17:56

    幫你梳理Cortex與ARMv8等基礎概念

    到底什么是Cortex、ARMv8、arm架構、ARM指令集、soc?幫你梳理基礎概念【科普
    發(fā)表于 12-14 08:20

    Armv8-A構架Armv8.6-A引進的最新功能介紹

    Units (AMU)的虛擬化支持總結這篇博簡要介紹了Armv8-A構架Armv8.6-A 引進的最新功能。這些
    發(fā)表于 07-29 15:29

    ARM Compiler編譯器6.11的新功能都有哪些呢

    arm Compiler 6.11版本在匯編器增加了armv8.5-A架構支持,支持了些可選功能
    發(fā)表于 08-03 14:38

    介紹Armv8.6-A引進的新功能的概況

    Arm 構架持續(xù)進化以滿足我們生態(tài)伙伴的需求。這篇博介紹了Armv8.6-A引進的新功能
    發(fā)表于 08-08 14:16

    詳解SIMD架構與SVE2的演進

    Arm推出了具有日益強大的安全性和人工智能 (AI) 能力的下Armv9 架構。緊隨其后的是 推出的全新 Arm Total Comp
    發(fā)表于 08-12 15:50

    Arm架構的擴展詳解

    Arm架構的補充以版本增量的形式提供,稱為擴展。擴展允許我們根據合作伙伴的需求定期發(fā)布新功能,而無需制作主要架構的主要變化。 Arm每年都
    發(fā)表于 08-02 06:08

    ARM體系結構參考手冊ARMv7-AARMv7-R版本

    本手冊介紹ARM?架構v7、ARMv7的A和R配置文件。 其中包括以下內容的描述: ·處理器指令集: -原始ARM?指令集-高代碼密度Thu
    發(fā)表于 08-12 07:46

    ARM Cortex-A系列ARMv8-A程序員指南

    。 有關ARMv7-A架構般介紹,請參閱ARM?Cortex?-A系列程序員指南。 本指南還可以幫助您熟悉本卷
    發(fā)表于 08-22 07:22

    重磅!Arm正式推出Armv9架構

    當地時間3月30日,Arm宣布正式推出Armv9架構,以應對全球對無處不在的專業(yè)化處理的需求,這種處理具有越來越強大的安全性和人工智能(AI)能力。Armv9是
    發(fā)表于 03-31 09:43 ?2964次閱讀
    重磅!<b class='flag-5'>Arm</b>正式推出<b class='flag-5'>Armv</b>9<b class='flag-5'>架構</b>

    詳解ARM架構和處理器系列命名規(guī)則

    處理器的命名應該包含兩類:指令集架構命名規(guī)則和處理器系列規(guī)則。 ARM 架構是構建每個 ARM 處理器的基礎。ARM
    發(fā)表于 02-11 10:44 ?8次下載
    <b class='flag-5'>詳解</b><b class='flag-5'>ARM</b><b class='flag-5'>架構</b>和處理器系列命名規(guī)則

    Arm架構Armv9時代

    在介紹Armv9系列前,我們先看ARM的Cortex-X定制CPU計劃。Cortex-X方案先于Armv9發(fā)布,在Arm發(fā)布
    的頭像 發(fā)表于 02-06 14:43 ?1w次閱讀