chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

如何釋放異構計算的潛能?Imagination與Baya Systems的系統架構實踐啟示

穎脈Imgtec ? 2025-06-13 08:33 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

報告作者:

Pallavi Sharma, Imaginaiton產品管理總監(jiān)

Dr.Eric Norige, Baya Systems 首席軟件架構師

091a70ee-47ee-11f0-986f-92fbcf53809c.png

你是否正在設計多核或CPU/GPU混合系統,卻依然未能達成性能目標?你并不孤單。如今,系統架構師們不斷追求構建更強大的SoC,過于專注于計算能力的“堆砌”:更多核、更快引擎、更強AI加速。然而現實是:如果數據無法及時送達,再強的算力也無從發(fā)揮。

在2025年Andes RISC-V大會上,Imagination Technologies與Baya Systems聯手深入剖析了這一挑戰(zhàn),結果令人震驚。兩家公司利用Baya的CacheStudio工具,對CPU、GPU及混合計算系統中的緩存行為進行了建模分析。

目的就是要揭示:盡管硬件資源充足,現實中的異構計算性能為何仍頻頻“失速”。
那么,讓我們一起來看看他們的發(fā)現,以及這些見解如何幫助你打造更好、更快、更高效的系統。


隱藏的瓶頸:不是算力不足,而是數據流動受限

現代SoC的性能瓶頸早已不再是純粹的計算能力。相反,系統越來越受到數據在各處理單元與存儲層級之間傳輸效率的限制。

即使將CPU、GPU及各種加速器集成到同一芯片上,也并不自動等同于性能提升。事實上,若架構缺乏精細協同,這種集成反而可能帶來資源競爭、延遲增加以及緩存效率下降等問題。

本次研究將緩存行為作為一種潛在的診斷工具,旨在揭示系統中的關鍵性能限制點,同時更深入地理解異構計算單元在緩存大小配置、一致性管理及內存訪問模式方面所面臨的權衡取舍。

盡管這些發(fā)現提供了諸多有價值的洞見,但應結合本研究的具體范圍與假設前提進行解讀。以下是部分關鍵發(fā)現:


純CPU負載:優(yōu)先考慮時間局部性與分層緩存策略


一級緩存(L1):性能提升隨著緩存容量的增加呈線性趨勢。將L1從16 KB提升至64 KB,命中率從約94.5%提升至約97.8%。這驗證了CPU主導型任務具備顯著的時間局部性——即最近訪問的數據很可能會在短時間內再次被訪問。

二級緩存(L2):命中率與L1容量呈負相關關系。隨著L1緩存吸收更多訪問請求,L2的利用率下降,從16 KB L1配置下的約50–56%降至64 KB L1下的約14–28%。這表明L2應側重于一致性管理與回退路徑延遲優(yōu)化,而非盲目擴展容量。

三級緩存(L3):命中率維持在相對中等的水平(20–35%),其主要作用在于多核之間的一致性維護以及降低對DRAM的訪問壓力。

實際啟示:對于以CPU為主的工作負載,最佳性能依賴于為每個核心配置合適容量的私有L1緩存,同時針對延遲與一致性需求精細調優(yōu)L2。L3緩存主要在多核或共享內存環(huán)境中發(fā)揮作用,特別是在DRAM壓力或一致性流量較高時更為關鍵。


純GPU負載:單靠加大緩存容量無法彌補訪問模式的不規(guī)則性

一級緩存(L1):相較于CPU,GPU工作負載的L1命中率更低——隨著緩存從16 KB擴展到64 KB,命中率僅從約54%提升至約73%。這一收益受限,主要歸因于高并行計算中常見的發(fā)散式和分散式內存訪問模式。

二級緩存(L2):隨著L1緩存增大,L2性能顯著下降。在16 KB L1配置下,L2命中率可達約55%;但當L1提升至64 KB時,命中率驟降至6–7%。這表明,過度放大上層緩存可能會破壞下層緩存的重用機會。

三級緩存(L3):在所有配置下,L3利用率始終偏低,最高命中率僅約為2.2%。這可能反映出GPU的流式數據訪問模式以及線程間局部性較差的特點。

實際啟示:GPU的內存層級性能高度依賴于軟件層的訪問優(yōu)化,例如本地存儲使用、數據分塊(tiling)及顯式同步,而不能僅依賴傳統的緩存層次結構。硬件改進必須與面向負載的編程模型相結合,才能充分發(fā)揮性能。


混合負載:緩存層級的協同至關重要

一級緩存(L1):CPU和GPU線程的命中率均有提升,隨著L1從16 KB擴展至64 KB,命中率從約94%提升至約97%。

二級緩存(L2):行為對配置變化極為敏感。例如,在配置為256 KB L2和16 KB L1時,L2命中率達到61.7%;但當配置變?yōu)?4 KB L1和64 KB L2時,命中率下降至23.2%。這表明在設計時必須同時考慮各級緩存的替換模式(eviction patterns)。

三級緩存(L3):在L1和L2容量不足的情況下,L3展現出顯著優(yōu)勢。配置為1024 KB的L3時,對于較小L1/L2配置,命中率最高可達57%。

DRAM訪問流量:隨著緩存層級協調優(yōu)化,內存訪問量顯著下降,從最小緩存配置下的約38.5萬次訪問減少至優(yōu)化配置下的約32.8萬次。

實際啟示:在異構計算環(huán)境中,緩存設計不能孤立于某一處理引擎。必須精心架構各層緩存與計算單元之間的交互機制。經常被低估的L3,在降低DRAM壓力和提升系統整體響應能力方面發(fā)揮著關鍵作用。


設計的重點應是數據流,而非僅僅追求FLOPS(浮點運算性能)

本研究再次強調系統架構設計中的核心原則:在異構計算環(huán)境中,性能擴展的決定因素并非計算引擎的數量,而是這些引擎與共享內存及互連架構的協同方式。

CacheStudio并非終點工具,而是一個分析代理,可用于揭示系統中不易察覺的性能下降,并在設計初期為更優(yōu)架構決策提供指導依據。


以協同為核心進行架構設計,而非各自為戰(zhàn)

針對CPU、GPU及混合負載,本研究得出以下關鍵結論:

CPU負載需配備針對性配置的私有L1緩存及延遲優(yōu)化的L2緩存。

GPU負載需要架構層面支持發(fā)散式內存訪問,并輔以軟件層面的訪問優(yōu)化。

混合負載在依賴L3一致性緩沖和多級緩存平衡配置方面獲益最大。

系統級性能剖析對于預判內存壓力、指導緩存層級設計至關重要。


結論明確:聰明的架構優(yōu)于一味堆砌算力。

通過聚焦數據流動與內存協調,工程師才能真正釋放異構計算系統的全部潛力。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯系本站處理。 舉報投訴
  • 系統架構
    +關注

    關注

    1

    文章

    72

    瀏覽量

    24119
  • imagination
    +關注

    關注

    1

    文章

    616

    瀏覽量

    63075
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    Imagination GPU上優(yōu)化計算任務的十大技巧

    Imagination「開發(fā)者文檔」網站正式上線,涵蓋了從計算機圖形學基礎到如何充分發(fā)揮Imagination高能效PowerVRGPU架構優(yōu)勢的豐富內容。網站中不僅增加了針對我們最新
    的頭像 發(fā)表于 09-25 09:37 ?524次閱讀
    在<b class='flag-5'>Imagination</b> GPU上優(yōu)化<b class='flag-5'>計算</b>任務的十大技巧

    【TEC100TAI-KIT】青翼凌云科技基于JFMQL100TAI的全國產化智能異構計算平臺

    TEC100TAI-KIT是一款基于國產100TAI的全國產智能異構計算平臺開發(fā)套件,該套件包含1個100TAI核心板和1個PCIE規(guī)格的擴展底板。 該套件的核心板集成了100TAI的最小系統
    的頭像 發(fā)表于 09-19 17:16 ?581次閱讀
    【TEC100TAI-KIT】青翼凌云科技基于JFMQL100TAI的全國產化智能<b class='flag-5'>異構計算</b>平臺

    WAIC 直擊|Arm 鄒挺:突破基礎設施、數據安全與人才三重挑戰(zhàn),釋放 AI 發(fā)展新潛能

    WAIC 直擊|Arm 鄒挺:突破基礎設施、數據安全與人才三重挑戰(zhàn),釋放 AI 發(fā)展新潛能
    的頭像 發(fā)表于 07-28 11:33 ?863次閱讀
    WAIC 直擊|Arm 鄒挺:突破基礎設施、數據安全與人才三重挑戰(zhàn),<b class='flag-5'>釋放</b> AI 發(fā)展新<b class='flag-5'>潛能</b>

    【PZ-ZU15EG-KFB】——ZYNQ UltraScale + 異構架構下的智能邊緣計算標桿

    璞致電子推出PZ-ZU15EG-KFB異構計算開發(fā)板,搭載Xilinx ZYNQ UltraScale+ XCZU15EG芯片,整合四核ARM Cortex-A53、雙核Cortex-R5F
    的頭像 發(fā)表于 07-22 09:47 ?666次閱讀
    【PZ-ZU15EG-KFB】——ZYNQ UltraScale + <b class='flag-5'>異構架構</b>下的智能邊緣<b class='flag-5'>計算</b>標桿

    智能安防邊緣計算的技術解析

    維度,剖析核心板如何推動安防從"被動記錄"到"主動決策"的升級,并給出選型建議。 ? --- 一、核心板的硬件架構創(chuàng)新** ? 1. 異構計算架構:算力與能效的平衡? 以SSD2351為例,其采用**"CPU+NPU+IVE"三
    的頭像 發(fā)表于 06-26 11:56 ?366次閱讀

    異構計算解決方案(兼容不同硬件架構

    異構計算解決方案通過整合不同類型處理器(如CPU、GPU、NPU、FPGA等),實現硬件資源的高效協同與兼容,滿足多樣化計算需求。其核心技術與實踐方案如下: 一、硬件架構設計
    的頭像 發(fā)表于 06-23 07:40 ?620次閱讀

    能效提升3倍!異構計算架構讓AI跑得更快更省電

    電子發(fā)燒友網報道(文/李彎彎)異構計算架構通過集成多種不同類型的處理單元(如CPU、GPU、NPU、FPGA、DSP等),針對不同計算任務的特點進行分工協作,從而在性能、能效和靈活性之間實現最優(yōu)平衡
    的頭像 發(fā)表于 05-25 01:55 ?3417次閱讀

    國產芯片多架構開發(fā)實踐:從工業(yè)控制到邊緣AI的硬件設計經驗

    近年來,國產處理器與異構計算架構的成熟為硬件開發(fā)者提供了新選擇。我們基于飛騰、龍芯、海光等平臺,在VPX/COMe/ITX架構上完成了多個工業(yè)級項目驗證,在此分享一些實戰(zhàn)經驗。 硬件架構
    的頭像 發(fā)表于 05-23 09:24 ?685次閱讀

    Imagination與澎峰科技攜手推動GPU+AI解決方案,共拓計算生態(tài)

    近日, Imagination Technologies 與國內領先的異構計算軟件與智算混合云服務提供商 澎峰科技 ( PerfXLab )正式簽署合作備忘錄( MoU ),圍繞 GPU 與 AI
    發(fā)表于 05-21 09:40 ?1104次閱讀

    Imagination與澎峰科技攜手推動GPU+AI解決方案,共拓計算生態(tài)

    近日,ImaginationTechnologies與國內領先的異構計算軟件與智算混合云服務提供商澎峰科技(PerfXLab)正式簽署合作備忘錄(MoU),圍繞GPU與AI的深度融合展開合作。雙方將
    的頭像 發(fā)表于 05-20 08:33 ?737次閱讀
    <b class='flag-5'>Imagination</b>與澎峰科技攜手推動GPU+AI解決方案,共拓<b class='flag-5'>計算</b>生態(tài)

    全志科技多核異構SoC助力行業(yè)智能化創(chuàng)新

    近日, “第十二屆開源操作系統年度技術會議”在北京舉行,全志科技受邀參會。會上,全志進行了題為《多核異構SoC在行業(yè)應用中軟件方案的思考與實踐》的分享。分享從市場和技術洞察、方案設計創(chuàng)新、場景化應用落地三個維度展開
    的頭像 發(fā)表于 04-18 09:11 ?1016次閱讀
    全志科技多核<b class='flag-5'>異構</b>SoC助力行業(yè)智能化創(chuàng)新

    RAKsmart智能算力架構異構計算+低時延網絡驅動企業(yè)AI訓練范式升級

    在AI大模型參數量突破萬億、多模態(tài)應用爆發(fā)的今天,企業(yè)AI訓練正面臨算力效率與成本的雙重挑戰(zhàn)。RAKsmart推出的智能算力架構,以異構計算資源池化與超低時延網絡為核心,重構AI訓練基礎設施,助力企業(yè)實現訓練速度提升、硬件成本下降與算法迭代加速的三重突破。
    的頭像 發(fā)表于 04-17 09:29 ?587次閱讀

    RK3399處理器:高性能多核異構計算平臺

    RK3399是一款高性能的多核異構計算平臺,集成了強大的CPU、GPU以及豐富的多媒體和接口功能。其獨特的雙Cortex-A72+四Cortex-A53大小核CPU結構,使得RK3399在處理復雜
    的頭像 發(fā)表于 02-08 18:04 ?2367次閱讀

    異構計算的概念、核心、優(yōu)勢、挑戰(zhàn)及考慮因素

    異構計算就像是一支由“多才多藝”處理器組成的團隊,每個成員都有自己的強項和責任。 ? 什么是異構計算????? “異構計算”指的是在同一個計算平臺中,部署多種不同類型的處理單元(比如
    的頭像 發(fā)表于 01-13 11:43 ?1634次閱讀

    【一文看懂】什么是異構計算

    隨著人工智能、深度學習、大數據處理等技術的快速發(fā)展,計算需求的復雜性不斷提升。傳統的單一計算架構已難以滿足高效處理復雜任務的要求,異構計算因此應運而生,成為現代
    的頭像 發(fā)表于 12-04 01:06 ?3590次閱讀
    【一文看懂】什么是<b class='flag-5'>異構計算</b>?