chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

如何通過交替式幾何處理實(shí)現(xiàn)更優(yōu)的多核?GPU?擴(kuò)展

穎脈Imgtec ? 2025-12-01 10:12 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

在理論上,通過增加更多GPU核心來提升性能似乎很簡單:核心越多,性能越強(qiáng)。但在實(shí)踐中,這是圖形架構(gòu)領(lǐng)域最棘手的挑戰(zhàn)之一。雖然某些工作負(fù)載因其獨(dú)立特性能實(shí)現(xiàn)良好擴(kuò)展,但另一些工作負(fù)載(尤其是幾何處理)會引入順序依賴性,使得線性性能擴(kuò)展成為業(yè)界所有GPU架構(gòu)都難以攻克的難題。


為什么多核GPU性能擴(kuò)展如此困難?

現(xiàn)代GPU的優(yōu)勢來自高度并行化,但并不是所有任務(wù)都能做到并行。以幾何處理為例,它具有天然的順序性。圖形API要求按照提交順序處理對象,因?yàn)榭梢娦耘c渲染結(jié)果往往依賴這一順序。這意味著幾何工作負(fù)載通常只能在單一核心上運(yùn)行,生成按順序排列的tile列表供后續(xù)管線使用。當(dāng)幾何階段成為瓶頸時,其他核心會處于閑置狀態(tài),從而導(dǎo)致擴(kuò)展效率大幅下降。

這并非Imagination獨(dú)有的困境。其他GPU架構(gòu)同樣面臨類似挑戰(zhàn):它們同樣難以在工作負(fù)載無法平均分配時保持高效擴(kuò)展。雖然動態(tài)并行(dynamic parallelism)和硬件隊(duì)列(hardware queues)等技術(shù)能夠提供幫助,但在幾何密集場景下問題依然突出。結(jié)果就是:增加核心數(shù)量并不一定能帶來成比例的性能提升——無論使用的是哪種GPU。

那么,我們的解決方案是什么?


走進(jìn)Imagination的多核GPU架構(gòu)

在討論我們的幾何擴(kuò)展方案之前,我們先回顧一下Imagination的多核基礎(chǔ)。

Imagination GPU具備高度可擴(kuò)展的多核技術(shù),可幫助系統(tǒng)設(shè)計(jì)者實(shí)現(xiàn)更高峰值性能或最大工作負(fù)載靈活性。Imagination的方法是去中心化(decentralised)且松耦合(loosely-coupled),從而避免傳統(tǒng)集中式多核架構(gòu)所面臨的擁塞和布局限制問題。

這些核心是松耦合的,僅通過內(nèi)存共享命令列表和tile緩沖列表,共同分擔(dān)工作負(fù)載。由于每個核心都被設(shè)計(jì)為一個獨(dú)立、完整的GPU,它包含所有必要的功能,能夠根據(jù)優(yōu)先級自行管理并執(zhí)行任務(wù)。

3e2b2dac-ce5b-11f0-8ce9-92fbcf53809c.png

Imagination GPU多核網(wǎng)格的主–主(Primary-Primary)模式

3e3bb604-ce5b-11f0-8ce9-92fbcf53809c.png

Imagination GPU多核網(wǎng)格的主–從(Primary-Secondary)模式

多核網(wǎng)格中的每個核心都可以獨(dú)立運(yùn)行(主–主模式,Primary-Primary),也可以協(xié)同運(yùn)行(主–從模式,Primary-Secondary)。在主–從配置下,只有主GPU核心(Primary GPU Core)內(nèi)的一個固件處理器處于激活狀態(tài),它負(fù)責(zé)驅(qū)動所有屬于多核網(wǎng)格的從GPU核心(Secondary GPU Cores)中的工作負(fù)載。多個GPU實(shí)例共享命令流,并共同盡可能快速地完成任務(wù)。

通過讓每個GPU核心在渲染目標(biāo)(render target)的不同區(qū)域上工作,我們能夠保持帶寬效率,因?yàn)槊總€核心始終處理屏幕上連續(xù)且具一致性的區(qū)域,從而確保最大的緩存命中率(每個核心的數(shù)據(jù)根據(jù)自身處理的任務(wù)進(jìn)行針對性緩存,避免核心之間不必要的數(shù)據(jù)遷移和重復(fù),提高整體效率)。

多核網(wǎng)格中的寄存器設(shè)置和同步通過專用的XPU總線來處理,它連接主GPU核心和所有從GPU核心,支持點(diǎn)對點(diǎn)及廣播模式。該核間通信結(jié)構(gòu)與內(nèi)存層級經(jīng)過優(yōu)化,確保在核心數(shù)量增加時仍能降低延遲。該結(jié)構(gòu)還能將GPU核心分布在多個Chiplet、芯片甚至不同的板上。這為客戶提供了更靈活的設(shè)計(jì)選擇,并顯著降低成本——客戶只需設(shè)計(jì)一個單一chiplet(或芯片),便可通過封裝多個chiplet來構(gòu)建不同性能檔位,從而擴(kuò)展GPU性能。


引入Alternate Geometry Processing(AGP):交替式幾何處理

現(xiàn)在我們回到如何在多核心環(huán)境中實(shí)現(xiàn)接近線性的性能擴(kuò)展這一挑戰(zhàn)上。

我們多核技術(shù)的一個關(guān)鍵特性——最早在B-Series中引入,并在后續(xù)幾代中不斷優(yōu)化——這便是交替式幾何處理(AGP)。AGP并不是強(qiáng)制所有幾何任務(wù)都由一個核心處理,而是將幾何工作負(fù)載分布到多個核心,但保留一個關(guān)鍵原則:不破壞同一渲染目標(biāo)內(nèi)部的嚴(yán)格順序要求。

AGP的方法是:將不同的渲染目標(biāo)(render targets)或不同幀分配給不同GPU核心處理幾何階段。

例如:

  • 核心#1處理渲染目標(biāo)A的幾何任務(wù);

  • 核心#2處理渲染目標(biāo)B的幾何任務(wù);

  • 與此同時,像素處理和計(jì)算任務(wù)會被切片并分配到所有核心上并行執(zhí)行。

這種方式既遵循了圖形API的順序規(guī)則,又能在多個渲染任務(wù)獨(dú)立的情況下釋放并行度。在多幀、多個渲染目標(biāo)的場景中,AGP能顯著減少閑置時間,讓負(fù)載分配更均衡。


交替式幾何處理(AGP)的實(shí)際優(yōu)勢

1.更高的擴(kuò)展效率

通過在多個核心之間分配幾何工作,AGP避免了單核心成為瓶頸的問題。這在云游戲或汽車系統(tǒng)等同時處理多場景、多顯示的多核配置中尤為重要。

2.更佳的資源利用率

若沒有AGP,負(fù)責(zé)幾何處理的核心還要承擔(dān)其像素處理任務(wù),從而拖慢整個多核系統(tǒng)。而AGP能平衡負(fù)載、減少傾斜(skew),保持所有核心都持續(xù)工作。


Imagination的AGP與其他GPU廠商的比較

其他GPU廠商采用的方案不盡相同。

  • NVIDIA 多GPU架構(gòu)多基于逐幀并行(Alternate Frame Rendering)。

  • AMD則采用命令處理器和硬件隊(duì)列來分配工作負(fù)載。

但兩種方案都面臨類似的局限性:幾何密集型場景仍可能阻礙擴(kuò)展,因?yàn)樵诓黄茐匿秩菊_性的前提下難以拆分這類場景。

Imagination的AGP技術(shù)之所以脫穎而出,在于其采用軟件驅(qū)動模式并深度集成于我們的分塊式(Tile-Based)架構(gòu),從而實(shí)現(xiàn)高效靈活的運(yùn)行。結(jié)合去中心化、松耦合的多核設(shè)計(jì),AGP能為原本可能陷入停滯的工作負(fù)載提供近乎線性的擴(kuò)展能力。


對系統(tǒng)設(shè)計(jì)者意味著什么?

對系統(tǒng)設(shè)計(jì)者而言,結(jié)論非常清晰:

多核擴(kuò)展的成功并不是簡單地疊加更多核心,而是更智能合理地管理工作負(fù)載。

若您希望深入了解如何基于Imagination GPU IP構(gòu)建高性能多核解決方案,以及如何高效分配工作負(fù)載,歡迎聯(lián)系我們的團(tuán)隊(duì)。


英文鏈接:https://blog.imaginationtech.com/how-alternate-geometry-processing-enables-better-multi-core-gpu-scaling

聲明:本文為原創(chuàng)文章,轉(zhuǎn)載需注明作者、出處及原文鏈接。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    28

    文章

    5090

    瀏覽量

    134387
  • API
    API
    +關(guān)注

    關(guān)注

    2

    文章

    2126

    瀏覽量

    66170
  • imagination
    +關(guān)注

    關(guān)注

    1

    文章

    617

    瀏覽量

    63075
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    Stduio使用wifi模塊出錯如何處理?

    外設(shè)為潘多拉IOT開發(fā)板,使用Stduio配置了wifi框架,但是代碼里在配置wifi模式時,沒有找到wlan0這個設(shè)備,wifi整個功能也用不了,請問應(yīng)該如何處理。使用正點(diǎn)原子資料包里的rtthread測試demo,wifi工作正常,wifi模塊硬件沒有問題。
    發(fā)表于 10-10 08:18

    多種類幾何尺寸集成智能儀器定制 一站解決產(chǎn)線多維度測量需求

    、彎曲度、螺紋鋼米重、鉆桿螺紋等。 總結(jié) 多種幾何尺寸集成智能儀器定制,本質(zhì)是“產(chǎn)線測量需求的系統(tǒng)化解決方案”——通過整合多維度測量功能、融入智能數(shù)據(jù)能力、適配產(chǎn)線實(shí)際工況,實(shí)現(xiàn)“一臺儀器解決多需求
    發(fā)表于 10-09 13:50

    NVIDIA桌面GPU系列擴(kuò)展新產(chǎn)品

    NVIDIA 桌面 GPU 系列擴(kuò)展,推出 NVIDIA RTX PRO 4000 SFF Edition GPU 和 RTX PRO 2000 Blackwell GPU,可提高工程
    的頭像 發(fā)表于 08-18 11:50 ?968次閱讀

    【老法師】多核異構(gòu)處理器中M核程序的啟動、編寫和仿真

    文章,小編就將以飛凌嵌入的OKMX8MP-C開發(fā)板為例,為大家介紹多核異構(gòu)處理器M核程序的啟動配置、程序編寫和實(shí)時仿真的過程。
    的頭像 發(fā)表于 08-13 09:05 ?3613次閱讀
    【老法師】<b class='flag-5'>多核</b>異構(gòu)<b class='flag-5'>處理</b>器中M核程序的啟動、編寫和仿真

    多節(jié)點(diǎn)并行處理架構(gòu)

    /GPU)、內(nèi)存及本地存儲,節(jié)點(diǎn)間通過高速網(wǎng)絡(luò)通信,避免資源爭用,提升擴(kuò)展性。 數(shù)據(jù)水平分片? 海量數(shù)據(jù)被分割存儲在不同節(jié)點(diǎn),查詢時各節(jié)點(diǎn)并行處理本地數(shù)據(jù),最后匯總結(jié)果(如Doris、
    的頭像 發(fā)表于 06-12 08:18 ?473次閱讀
    多節(jié)點(diǎn)并行<b class='flag-5'>處理</b>架構(gòu)

    高效地擴(kuò)展Polars GPU Parquet讀取器

    處理大型數(shù)據(jù)集時,數(shù)據(jù)處理工具的性能至關(guān)重要。Polars 作為一個以速度和效率著稱的開源數(shù)據(jù)處理庫,它提供了由 cuDF 驅(qū)動的 GPU 加速后端,能夠顯著提升性能。
    的頭像 發(fā)表于 04-21 17:12 ?650次閱讀
    高效地<b class='flag-5'>擴(kuò)展</b>Polars <b class='flag-5'>GPU</b> Parquet讀取器

    Simcenter STAR-CCM+幾何處理,簡化設(shè)計(jì)流程,輕松創(chuàng)建、修改和準(zhǔn)備幾何

    優(yōu)勢通過一系列領(lǐng)先CAD和PLM軟件工具導(dǎo)入幾何體,與現(xiàn)有設(shè)計(jì)流程輕松集成使用集成的CAD建模器創(chuàng)建、修改和修復(fù)幾何體將各種來源的CAD合并到單一仿真利用自動幾何模型清理、搜索工具、曲
    的頭像 發(fā)表于 04-01 11:31 ?765次閱讀
    Simcenter STAR-CCM+<b class='flag-5'>幾何</b>體<b class='flag-5'>處理</b>,簡化設(shè)計(jì)流程,輕松創(chuàng)建、修改和準(zhǔn)備<b class='flag-5'>幾何</b>體

    從圖形處理到AI加速,一文看懂Imagination D系列GPU

    Imagination的D系列于2022年首次發(fā)布,見證了生成AI從云端到智能手機(jī)等消費(fèi)設(shè)備中普及。在云端,由于GPU的可編程性、可擴(kuò)展性和快速處理AI工作負(fù)載的能力,
    的頭像 發(fā)表于 02-27 08:33 ?803次閱讀
    從圖形<b class='flag-5'>處理</b>到AI加速,一文看懂Imagination D系列<b class='flag-5'>GPU</b>

    從CPU到GPU:渲染技術(shù)的演進(jìn)和趨勢

    和優(yōu)缺點(diǎn)CPU(CentralProcessingUnit)是計(jì)算機(jī)的中央處理器,它負(fù)責(zé)執(zhí)行各種程序和指令。CPU渲染是指使用CPU來執(zhí)行渲染流程,包括幾何處理、光柵化
    的頭像 發(fā)表于 02-21 11:11 ?1343次閱讀
    從CPU到<b class='flag-5'>GPU</b>:渲染技術(shù)的演進(jìn)和趨勢

    請教AD采集信號通過擴(kuò)展端子給控制器問題

    AD采集信號通過擴(kuò)展端子給控制器問題 現(xiàn)在我想做一個通用的控制板,該控制板上除包含控制芯片及部分通訊外,其他通過利用控制板上的擴(kuò)展端子擴(kuò)展
    發(fā)表于 01-21 08:32

    QorIQ?T1042多核處理

    。QorIQ?T1042多核處理器適合于路由器、交換機(jī)、網(wǎng)關(guān)ip和通用型內(nèi)嵌計(jì)算系統(tǒng)中的組合控制、數(shù)據(jù)路徑和傳輸層處理。與多個分立器件相比,QorIQ?T1042
    發(fā)表于 01-10 08:48

    解鎖新應(yīng)用:探索GPU擴(kuò)展是如何提升渲染農(nóng)場的工作效率

    聯(lián)瑞GPU擴(kuò)展方案在渲染農(nóng)場的應(yīng)用,是在原有計(jì)算機(jī)設(shè)備的基礎(chǔ)上增加GPU的數(shù)量,不用額外購買GPU服務(wù)器,有效的幫助企業(yè)降本增效.
    的頭像 發(fā)表于 01-09 17:13 ?607次閱讀
    解鎖新應(yīng)用:探索<b class='flag-5'>GPU</b><b class='flag-5'>擴(kuò)展</b>是如何提升渲染農(nóng)場的工作效率

    FPGA+GPU+CPU國產(chǎn)化人工智能平臺

    平臺采用國產(chǎn)化FPGA+GPU+CPU構(gòu)建嵌入多核異構(gòu)智算終端,可形成FPGA+GPU、FPGA+CPU、CPU+FPGA等組合模式,形成低功耗、高可
    的頭像 發(fā)表于 01-07 16:42 ?1718次閱讀
    FPGA+<b class='flag-5'>GPU</b>+CPU國產(chǎn)化人工智能平臺

    芯原發(fā)布新一代Vitality架構(gòu)GPU IP系列

    實(shí)現(xiàn)了顯著提升,并支持多核擴(kuò)展,為用戶提供更加出色的性能體驗(yàn)。該架構(gòu)集成了諸多先進(jìn)功能,如一個可配置的張量計(jì)算核心(Tensor Core)AI加速器,以及一個容量高達(dá)32MB至64MB的三級(L3)緩存,這些配置共同保證了強(qiáng)
    的頭像 發(fā)表于 12-24 10:55 ?1274次閱讀

    《CST Studio Suite 2024 GPU加速計(jì)算指南》

    許可證模型的加速令牌或SIMULIA統(tǒng)一許可證模型的SimUnit令牌或積分授權(quán)。 4. GPU計(jì)算的啟用 - 交互模擬:通過加速對話框啟用,打開求解器對話框,點(diǎn)擊“加速”按鈕,打開“硬件加速”并
    發(fā)表于 12-16 14:25