chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

Arm KleidiAI軟件庫的功能解析

Arm社區(qū) ? 來源:Arm社區(qū) ? 2024-09-05 15:41 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

作者:Arm 工程部首席軟件工程師 Gian Marco Iodice

在持續(xù)快速發(fā)展的人工智能 (AI) 時代,Arm 堅定地支持全球數(shù)百萬開發(fā)者,確保他們能夠獲得 AI 創(chuàng)新開發(fā)所需的性能、工具和軟件庫,從而順利打造下一波令人驚嘆的 AI 體驗。為此,Arm 于近日推出了 Arm Kleidi,這是一項廣泛的軟件和軟件社區(qū)參與計劃,旨在加速 AI 發(fā)展。其中的第一個舉措是推出面向熱門 AI 框架的 Arm Kleidi 軟件庫。這使開發(fā)者可以直接取得 Arm CPU 的出色 AI 功能,而如今全球從云端到邊緣側的大多數(shù) AI 推理工作負載都在這些 Arm CPU 上運行。

Arm KleidiAI

我們所推出的開創(chuàng)性軟件庫 Arm KleidiAI,旨在提升 AI 在 Arm CPU 上的性能。KleidiAI 的命名來自于希臘語“kleidi”,意為“鑰匙”,象征其在提升 Arm CPU 上 AI 性能方面發(fā)揮著關鍵作用。在開發(fā)該項目的過程中,我們認真考慮了框架開發(fā)者的需求,致力于提供一個緊湊、有影響力且可輕松適用于各類 AI 框架的開源庫。

盡管 KleidiAI 仍處于早期階段,但已幫助 Google MediaPipe 和 XNNPACK 團隊將開源大語言模型 (LLM) Gemma 的性能提高了 25%。

我們的目標不僅僅是將 KleidiAI 打造成 AI 優(yōu)化例程的集合,更是希望該項目能成為學習 Arm CPU 上軟件優(yōu)化最佳實踐的知識庫。因此,我們誠摯邀請開發(fā)者立即加入這激動人心的學習之旅,并提供反饋意見,共同改進我們的產品。

接下來,我將詳細探討 KleidiAI 的初始功能。點擊閱讀原文,可獲取一個關鍵函數(shù)的分步運行指南,該函數(shù)用于加速 Gemma LLM 的 4 位整數(shù)矩陣乘法例程。

微內核

首先介紹 KleidiAI 庫中提供的微內核。KleidiAI 是面向 AI 框架開發(fā)者的開源庫,可以為 Arm CPU 提供經過優(yōu)化的性能關鍵型例程。這些例程是以高性能加速給定算子所需的近乎最小規(guī)模的軟件,通常稱為微內核(或 uKernel)。

以通過 Winograd 算法執(zhí)行的 2D 卷積算子為例,該計算涉及四個主要運算:

wKgaombZYN-AVyRoAAC40BOhGsw604.png

Winograd 輸入轉換

Winograd 濾波轉換

矩陣乘法

Winograd 輸出轉換

上述每個運算都是一個微內核。但為什么上述運算不叫“內核”或“函數(shù)”呢?如下圖所示,微內核一詞強調了其處理輸出張量部分的能力:

wKgZombZYPSAd_EcAADyezGJvr8344.png

圖:微內核案例

如上圖中的兩個案例所示,微內核僅能處理整個輸出的一部分。這一設計決策支持細粒度優(yōu)化,例如,提供高效串聯(lián)多個微內核的靈活性,從而進一步提升 AI 框架的性能。

微內核可用于各種 Arm 架構、技術和計算參數(shù)。例如,在 matmul_clamp_f32_qai8dxp_qsi4cxp 文件夾中,來看下具有按通道量化功能的 Int4 矩陣乘法例程:

該文件夾包含用于 4 位整數(shù)矩陣乘法的關鍵 LLM 微內核。在該文件夾中可以看到,使用 Arm 點積或 i8mm 擴展優(yōu)化的微內核使用 Neon 匯編來盡可能提高效率,以及在處理的最小輸出塊方面有不同的多種變體。

文件夾中的每個 .c 和 .h 文件對均代表一種微內核變體。這些變體的計算參數(shù)(如塊大?。?、使用的 Arm 技術(如 Arm Neon)和特定 Arm 架構特性(如 FEAT_DotProd)各有不同。

所有微內核變體共享相同的功能和界面,從而保持一致性。一致性是易于采用的關鍵因素,接下來我將談談我們還采取了哪些其他措施來幫助框架開發(fā)者輕松集成微內核。

易于采用

我們深知,在 AI 框架中集成新庫時面臨著諸多挑戰(zhàn),如庫的大小、外部依賴關系和文檔。因此,我們努力收集合作伙伴的反饋意見,并將其納入我們的未來計劃之中,盡可能幫助開發(fā)者順暢完成集成。

為了實現(xiàn)這一點,KleidiAI 的設計原則是讓框架開發(fā)者能夠輕松集成所需的微內核。只需拉取相應的 .c 和 .h 文件,以及所有微內核共享的通用頭文件 (kai_common.h),即可集成每個微內核。我們稱之為“三文件微內核依賴” (Three-file Micro-kernel Dependency)。這樣我們便實現(xiàn)了這一目標。

您可以參考我們準備的相關指南,學習如何使用微內核。該指南探討了 4 位整數(shù)矩陣乘法微內核的使用,這有助于提高 Gemma LLM 的性能。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • ARM
    ARM
    +關注

    關注

    135

    文章

    9499

    瀏覽量

    388720
  • AI
    AI
    +關注

    關注

    89

    文章

    38091

    瀏覽量

    296614
  • 微內核
    +關注

    關注

    0

    文章

    58

    瀏覽量

    13850
  • 軟件庫
    +關注

    關注

    0

    文章

    15

    瀏覽量

    7940

原文標題:Arm KleidiAI 助力 AI 框架性能提升

文章出處:【微信號:Arm社區(qū),微信公眾號:Arm社區(qū)】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    如何在裸機環(huán)境中運行KleidiAI微內核

    Arm KleidiAI 是一款具有突破性意義的軟件,專為提升 Arm CPU 上的人工智能 (AI) 性能而設計。在此前發(fā)布的《
    的頭像 發(fā)表于 08-08 15:16 ?3627次閱讀
    如何在裸機環(huán)境中運行<b class='flag-5'>KleidiAI</b>微內核

    Arm+AWS實現(xiàn)AI定義汽車 基于Arm KleidiAI優(yōu)化并由AWS提供支持

    文中介紹的車載生成式 AI 應用演示由 Arm KleidiAI 進行優(yōu)化并由 AWS 所提供的服務進行支持,展示了新興技術如何幫助解決汽車行業(yè)的實際挑戰(zhàn)。該解決方案可實現(xiàn) 1 至 3 秒的響應時間并將開發(fā)時間縮短數(shù)周,證明更高效且離線可用的生成式 AI 應用不僅能夠實現(xiàn)
    的頭像 發(fā)表于 04-03 19:24 ?1673次閱讀
    <b class='flag-5'>Arm</b>+AWS實現(xiàn)AI定義汽車  基于<b class='flag-5'>Arm</b> <b class='flag-5'>KleidiAI</b>優(yōu)化并由AWS提供支持

    LabVIEW運行性能解析視頻教程

    LabVIEW運行性能解析視頻教程認真學習,天天向上! [hide]LabVIEW運行性能之謎.rar[/hide]
    發(fā)表于 12-10 17:39

    STM32頭文件功能解析

    頭文件功能解析1 文件組成內核文件:CMSIS文件夾,core_cm3.c/core_cm3.h,stm32f10x.h,system_stm32f10x.c/system_stm32f10x.h
    發(fā)表于 08-23 07:15

    按鍵部分功能解析備注

    @藍橋杯第十屆國賽部分功能解析TOC藍橋杯第十屆國賽 部分功能解析備注: 這是本人第一次發(fā)表的文章,內容有不足、有問題、有改進的地方請在評論區(qū)留言 本人將積極改進按鍵部分:下降沿代碼
    發(fā)表于 02-16 06:17

    數(shù)控實習教學中比例縮放功能解析

    數(shù)控實習教學中比例縮放功能解析:數(shù)控實習教學時,數(shù)控銑(加工中心)的比例縮放功能是教學中的一個難點,教師難以講解清楚,學生也很難理解透徹,往往到了這一章節(jié)就一筆
    發(fā)表于 10-22 21:32 ?35次下載

    HDMI音頻功能解析

    HDMI音頻功能解析 1.HDMI音頻功能淺析    在HDMI沒有出現(xiàn)之前,數(shù)字音頻信號的傳輸?shù)闹饕揽績煞N途徑:采用標準RCA接口的數(shù)字同軸電纜和SP
    發(fā)表于 10-20 15:16 ?6769次閱讀

    數(shù)字調音臺功能解析

    數(shù)字調音臺功能解析 本刊在此以著名的美奇D8B為例,向大家悉數(shù)諸項數(shù)字調音臺的代表性功能,以此作為同行深入探討數(shù)字調音臺使用的一塊“磚
    發(fā)表于 01-14 16:08 ?5684次閱讀

    智能小車有那些功能智能小車的五個功能解析包含程序

    本文檔的的主要內容詳細介紹的是智能小車有那些功能智能小車的五個功能解析包含程序主要內容包括了:1超聲波自動駕駛模式,2 貼墻模式,3 跟隨模式,4 紅外自動駕駛模式,5循跡模式
    發(fā)表于 11-27 08:00 ?52次下載
    智能小車有那些<b class='flag-5'>功能</b>智能小車的五個<b class='flag-5'>功能解析</b>包含程序

    MCU的主要模塊及其功能解析

    MCU的主要模塊及其功能解析: 微控制器:微控制器的主要任務是控制電壓源逆變器(VSI),將來自電池的電能轉換為所需的形式。它接收駕駛員的油門指令作為主要輸入,并通過調整脈寬調制(PWM)信號
    的頭像 發(fā)表于 08-12 18:12 ?1735次閱讀

    Arm成功將Arm KleidiAI軟件集成到騰訊自研的Angel 機器學習框架

    Arm 與騰訊攜手合作,成功將 Arm KleidiAI 軟件集成到騰訊自研的 Angel 機器學習框架。 ? 借助
    的頭像 發(fā)表于 11-24 15:33 ?1649次閱讀

    利用Arm Kleidi技術實現(xiàn)PyTorch優(yōu)化

    Neoverse 平臺上的 PyTorch 推理表現(xiàn)。Kleidi 技術可以通過 Arm Compute Library (ACL) 和 KleidiAI 獲取。
    的頭像 發(fā)表于 12-23 09:19 ?1619次閱讀
    利用<b class='flag-5'>Arm</b> Kleidi技術實現(xiàn)PyTorch優(yōu)化

    國產電源模塊測試軟件功能應用全面解析

    應用方面進行全面解析。 電源測試系統(tǒng) 核心功能解析: 多類型電源全面測試支持? 納米軟件電源測試系統(tǒng)能夠對多種類型的電源進行測試,包括DC-DC電源、AC-DC電源、開關電源、電源適配器等。針對不同類型的電源模塊,納米
    的頭像 發(fā)表于 08-01 11:51 ?700次閱讀
    國產電源模塊測試<b class='flag-5'>軟件</b><b class='flag-5'>功能</b>應用全面<b class='flag-5'>解析</b>

    Arm KleidiAI與XNNPack集成實現(xiàn)AI性能提升

    Arm KleidiAI 首次集成到 XNNPack 已過去整整一年。KleidiAI 是一款高度優(yōu)化的軟件,旨在加速
    的頭像 發(fā)表于 08-08 15:19 ?2545次閱讀
    <b class='flag-5'>Arm</b> <b class='flag-5'>KleidiAI</b>與XNNPack集成實現(xiàn)AI性能提升

    電磁環(huán)境數(shù)據管理系統(tǒng)平臺軟件解析

    電磁環(huán)境數(shù)據管理平臺軟件解析(精簡版)
    的頭像 發(fā)表于 09-15 21:00 ?127次閱讀
    電磁環(huán)境數(shù)據<b class='flag-5'>庫</b>管理系統(tǒng)平臺<b class='flag-5'>軟件</b><b class='flag-5'>解析</b>