chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

如何通過交替式幾何處理實(shí)現(xiàn)更優(yōu)的多核?GPU?擴(kuò)展

穎脈Imgtec ? 2025-12-01 10:12 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

在理論上,通過增加更多GPU核心來提升性能似乎很簡單:核心越多,性能越強(qiáng)。但在實(shí)踐中,這是圖形架構(gòu)領(lǐng)域最棘手的挑戰(zhàn)之一。雖然某些工作負(fù)載因其獨(dú)立特性能實(shí)現(xiàn)良好擴(kuò)展,但另一些工作負(fù)載(尤其是幾何處理)會引入順序依賴性,使得線性性能擴(kuò)展成為業(yè)界所有GPU架構(gòu)都難以攻克的難題。


為什么多核GPU性能擴(kuò)展如此困難?

現(xiàn)代GPU的優(yōu)勢來自高度并行化,但并不是所有任務(wù)都能做到并行。以幾何處理為例,它具有天然的順序性。圖形API要求按照提交順序處理對象,因?yàn)榭梢娦耘c渲染結(jié)果往往依賴這一順序。這意味著幾何工作負(fù)載通常只能在單一核心上運(yùn)行,生成按順序排列的tile列表供后續(xù)管線使用。當(dāng)幾何階段成為瓶頸時(shí),其他核心會處于閑置狀態(tài),從而導(dǎo)致擴(kuò)展效率大幅下降。

這并非Imagination獨(dú)有的困境。其他GPU架構(gòu)同樣面臨類似挑戰(zhàn):它們同樣難以在工作負(fù)載無法平均分配時(shí)保持高效擴(kuò)展。雖然動態(tài)并行(dynamic parallelism)和硬件隊(duì)列(hardware queues)等技術(shù)能夠提供幫助,但在幾何密集場景下問題依然突出。結(jié)果就是:增加核心數(shù)量并不一定能帶來成比例的性能提升——無論使用的是哪種GPU。

那么,我們的解決方案是什么?


走進(jìn)Imagination的多核GPU架構(gòu)

在討論我們的幾何擴(kuò)展方案之前,我們先回顧一下Imagination的多核基礎(chǔ)。

Imagination GPU具備高度可擴(kuò)展的多核技術(shù),可幫助系統(tǒng)設(shè)計(jì)者實(shí)現(xiàn)更高峰值性能或最大工作負(fù)載靈活性。Imagination的方法是去中心化(decentralised)且松耦合(loosely-coupled),從而避免傳統(tǒng)集中式多核架構(gòu)所面臨的擁塞和布局限制問題。

這些核心是松耦合的,僅通過內(nèi)存共享命令列表和tile緩沖列表,共同分擔(dān)工作負(fù)載。由于每個(gè)核心都被設(shè)計(jì)為一個(gè)獨(dú)立、完整的GPU,它包含所有必要的功能,能夠根據(jù)優(yōu)先級自行管理并執(zhí)行任務(wù)。

3e2b2dac-ce5b-11f0-8ce9-92fbcf53809c.png

Imagination GPU多核網(wǎng)格的主–主(Primary-Primary)模式

3e3bb604-ce5b-11f0-8ce9-92fbcf53809c.png

Imagination GPU多核網(wǎng)格的主–從(Primary-Secondary)模式

多核網(wǎng)格中的每個(gè)核心都可以獨(dú)立運(yùn)行(主–主模式,Primary-Primary),也可以協(xié)同運(yùn)行(主–從模式,Primary-Secondary)。在主–從配置下,只有主GPU核心(Primary GPU Core)內(nèi)的一個(gè)固件處理器處于激活狀態(tài),它負(fù)責(zé)驅(qū)動所有屬于多核網(wǎng)格的從GPU核心(Secondary GPU Cores)中的工作負(fù)載。多個(gè)GPU實(shí)例共享命令流,并共同盡可能快速地完成任務(wù)。

通過讓每個(gè)GPU核心在渲染目標(biāo)(render target)的不同區(qū)域上工作,我們能夠保持帶寬效率,因?yàn)槊總€(gè)核心始終處理屏幕上連續(xù)且具一致性的區(qū)域,從而確保最大的緩存命中率(每個(gè)核心的數(shù)據(jù)根據(jù)自身處理的任務(wù)進(jìn)行針對性緩存,避免核心之間不必要的數(shù)據(jù)遷移和重復(fù),提高整體效率)。

多核網(wǎng)格中的寄存器設(shè)置和同步通過專用的XPU總線來處理,它連接主GPU核心和所有從GPU核心,支持點(diǎn)對點(diǎn)及廣播模式。該核間通信結(jié)構(gòu)與內(nèi)存層級經(jīng)過優(yōu)化,確保在核心數(shù)量增加時(shí)仍能降低延遲。該結(jié)構(gòu)還能將GPU核心分布在多個(gè)Chiplet、芯片甚至不同的板上。這為客戶提供了更靈活的設(shè)計(jì)選擇,并顯著降低成本——客戶只需設(shè)計(jì)一個(gè)單一chiplet(或芯片),便可通過封裝多個(gè)chiplet來構(gòu)建不同性能檔位,從而擴(kuò)展GPU性能。


引入Alternate Geometry Processing(AGP):交替式幾何處理

現(xiàn)在我們回到如何在多核心環(huán)境中實(shí)現(xiàn)接近線性的性能擴(kuò)展這一挑戰(zhàn)上。

我們多核技術(shù)的一個(gè)關(guān)鍵特性——最早在B-Series中引入,并在后續(xù)幾代中不斷優(yōu)化——這便是交替式幾何處理(AGP)。AGP并不是強(qiáng)制所有幾何任務(wù)都由一個(gè)核心處理,而是將幾何工作負(fù)載分布到多個(gè)核心,但保留一個(gè)關(guān)鍵原則:不破壞同一渲染目標(biāo)內(nèi)部的嚴(yán)格順序要求

AGP的方法是:將不同的渲染目標(biāo)(render targets)或不同幀分配給不同GPU核心處理幾何階段。

例如:

  • 核心#1處理渲染目標(biāo)A的幾何任務(wù);

  • 核心#2處理渲染目標(biāo)B的幾何任務(wù);

  • 與此同時(shí),像素處理和計(jì)算任務(wù)會被切片并分配到所有核心上并行執(zhí)行。

這種方式既遵循了圖形API的順序規(guī)則,又能在多個(gè)渲染任務(wù)獨(dú)立的情況下釋放并行度。在多幀、多個(gè)渲染目標(biāo)的場景中,AGP能顯著減少閑置時(shí)間,讓負(fù)載分配更均衡。


交替式幾何處理(AGP)的實(shí)際優(yōu)勢

1.更高的擴(kuò)展效率

通過在多個(gè)核心之間分配幾何工作,AGP避免了單核心成為瓶頸的問題。這在云游戲或汽車系統(tǒng)等同時(shí)處理多場景、多顯示的多核配置中尤為重要。

2.更佳的資源利用率

若沒有AGP,負(fù)責(zé)幾何處理的核心還要承擔(dān)其像素處理任務(wù),從而拖慢整個(gè)多核系統(tǒng)。而AGP能平衡負(fù)載、減少傾斜(skew),保持所有核心都持續(xù)工作。


Imagination的AGP與其他GPU廠商的比較

其他GPU廠商采用的方案不盡相同。

  • NVIDIA 多GPU架構(gòu)多基于逐幀并行(Alternate Frame Rendering)。

  • AMD則采用命令處理器和硬件隊(duì)列來分配工作負(fù)載。

但兩種方案都面臨類似的局限性:幾何密集型場景仍可能阻礙擴(kuò)展,因?yàn)樵诓黄茐匿秩菊_性的前提下難以拆分這類場景。

Imagination的AGP技術(shù)之所以脫穎而出,在于其采用軟件驅(qū)動模式并深度集成于我們的分塊式(Tile-Based)架構(gòu),從而實(shí)現(xiàn)高效靈活的運(yùn)行。結(jié)合去中心化、松耦合的多核設(shè)計(jì),AGP能為原本可能陷入停滯的工作負(fù)載提供近乎線性的擴(kuò)展能力。


對系統(tǒng)設(shè)計(jì)者意味著什么?

對系統(tǒng)設(shè)計(jì)者而言,結(jié)論非常清晰:

多核擴(kuò)展的成功并不是簡單地疊加更多核心,而是更智能合理地管理工作負(fù)載。

若您希望深入了解如何基于Imagination GPU IP構(gòu)建高性能多核解決方案,以及如何高效分配工作負(fù)載,歡迎聯(lián)系我們的團(tuán)隊(duì)。


英文鏈接:https://blog.imaginationtech.com/how-alternate-geometry-processing-enables-better-multi-core-gpu-scaling

聲明:本文為原創(chuàng)文章,轉(zhuǎn)載需注明作者、出處及原文鏈接。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    28

    文章

    5194

    瀏覽量

    135503
  • API
    API
    +關(guān)注

    關(guān)注

    2

    文章

    2373

    瀏覽量

    66802
  • imagination
    +關(guān)注

    關(guān)注

    1

    文章

    620

    瀏覽量

    63379
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    MAX77874:16A高性能四相降壓調(diào)節(jié)器,引領(lǐng)多核處理器電源解決方案

    MAX77874:16A高性能四相降壓調(diào)節(jié)器,引領(lǐng)多核處理器電源解決方案 在電子設(shè)備飛速發(fā)展的今天,多核心CPU和GPU處理器對電源的要求
    的頭像 發(fā)表于 03-06 16:40 ?950次閱讀

    請問沒有用到的I/0如何處理?

    沒有用到的I/0如何處理?
    發(fā)表于 01-12 06:29

    大語言模型如何處理上下文窗口中的輸入

    本博客介紹了五個(gè)基本概念,闡述了大語言模型如何處理上下文窗口中的輸入。通過明確的例子和實(shí)踐中獲得的見解,本文介紹了多個(gè)與上下文窗口有關(guān)的基本概念,如詞元化、序列長度和注意力等。
    的頭像 發(fā)表于 12-03 13:48 ?600次閱讀
    大語言模型如<b class='flag-5'>何處理</b>上下文窗口中的輸入

    RISC-V B擴(kuò)展介紹及實(shí)現(xiàn)

    B擴(kuò)展簡介 RISCV B擴(kuò)展指的是RISCV用于位運(yùn)算加速的一個(gè)擴(kuò)展指令集,目的是使用一條指令實(shí)現(xiàn)原本需要2-3條指令才能實(shí)現(xiàn)的位操作指
    發(fā)表于 10-21 13:01

    Stduio使用wifi模塊出錯(cuò)如何處理?

    外設(shè)為潘多拉IOT開發(fā)板,使用Stduio配置了wifi框架,但是代碼里在配置wifi模式時(shí),沒有找到wlan0這個(gè)設(shè)備,wifi整個(gè)功能也用不了,請問應(yīng)該如何處理。使用正點(diǎn)原子資料包里的rtthread測試demo,wifi工作正常,wifi模塊硬件沒有問題。
    發(fā)表于 10-10 08:18

    多種類幾何尺寸集成智能儀器定制 一站解決產(chǎn)線多維度測量需求

    、彎曲度、螺紋鋼米重、鉆桿螺紋等。 總結(jié) 多種幾何尺寸集成智能儀器定制,本質(zhì)是“產(chǎn)線測量需求的系統(tǒng)化解決方案”——通過整合多維度測量功能、融入智能數(shù)據(jù)能力、適配產(chǎn)線實(shí)際工況,實(shí)現(xiàn)“一臺儀器解決多需求
    發(fā)表于 10-09 13:50

    NVIDIA桌面GPU系列擴(kuò)展新產(chǎn)品

    NVIDIA 桌面 GPU 系列擴(kuò)展,推出 NVIDIA RTX PRO 4000 SFF Edition GPU 和 RTX PRO 2000 Blackwell GPU,可提高工程
    的頭像 發(fā)表于 08-18 11:50 ?1423次閱讀

    靜力水準(zhǔn)儀在測量過程中遇到誤差如何處理?

    靜力水準(zhǔn)儀在測量過程中遇到誤差如何處理?靜力水準(zhǔn)儀在工程沉降監(jiān)測中出現(xiàn)數(shù)據(jù)偏差時(shí),需采取系統(tǒng)性處理措施。根據(jù)實(shí)際工況,誤差主要源于環(huán)境干擾、設(shè)備狀態(tài)、安裝缺陷及操作不當(dāng)四類因素,需針對性解決。靜力
    的頭像 發(fā)表于 08-14 13:01 ?875次閱讀
    靜力水準(zhǔn)儀在測量過程中遇到誤差如<b class='flag-5'>何處理</b>?

    【老法師】多核異構(gòu)處理器中M核程序的啟動、編寫和仿真

    文章,小編就將以飛凌嵌入的OKMX8MP-C開發(fā)板為例,為大家介紹多核異構(gòu)處理器M核程序的啟動配置、程序編寫和實(shí)時(shí)仿真的過程。
    的頭像 發(fā)表于 08-13 09:05 ?3996次閱讀
    【老法師】<b class='flag-5'>多核</b>異構(gòu)<b class='flag-5'>處理</b>器中M核程序的啟動、編寫和仿真

    T113-i芯片技術(shù)解析:高性能嵌入處理器的創(chuàng)新設(shè)計(jì)

    ?芯片概述 明遠(yuǎn)智睿的T113-i芯片是一款由全志科技推出的高性能、低功耗嵌入處理器,主要面向智能家居、工業(yè)控制、消費(fèi)電子等領(lǐng)域。該芯片基于ARM架構(gòu),集成了多核CPU、GPU和豐富
    的頭像 發(fā)表于 07-17 14:15 ?1311次閱讀

    多節(jié)點(diǎn)并行處理架構(gòu)

    /GPU)、內(nèi)存及本地存儲,節(jié)點(diǎn)間通過高速網(wǎng)絡(luò)通信,避免資源爭用,提升擴(kuò)展性。 數(shù)據(jù)水平分片? 海量數(shù)據(jù)被分割存儲在不同節(jié)點(diǎn),查詢時(shí)各節(jié)點(diǎn)并行處理本地?cái)?shù)據(jù),最后匯總結(jié)果(如Doris、
    的頭像 發(fā)表于 06-12 08:18 ?627次閱讀
    多節(jié)點(diǎn)并行<b class='flag-5'>處理</b>架構(gòu)

    熱成像儀為何都在瘋狂卷多核處理器?“多核大戰(zhàn)”背后的真相你知道嗎?

    熱成像儀進(jìn)入“多核”時(shí)代,這不是噱頭,而是需求在變。 從黑夜中識別生命體,到復(fù)雜地形中實(shí)現(xiàn)熱源追蹤,過去主要用于軍事和工業(yè)的熱成像儀,如今正越來越多地進(jìn)入民用市場。而隨著使用場景的復(fù)雜化,“看得見
    的頭像 發(fā)表于 04-27 15:41 ?784次閱讀

    高效地擴(kuò)展Polars GPU Parquet讀取器

    處理大型數(shù)據(jù)集時(shí),數(shù)據(jù)處理工具的性能至關(guān)重要。Polars 作為一個(gè)以速度和效率著稱的開源數(shù)據(jù)處理庫,它提供了由 cuDF 驅(qū)動的 GPU 加速后端,能夠顯著提升性能。
    的頭像 發(fā)表于 04-21 17:12 ?914次閱讀
    高效地<b class='flag-5'>擴(kuò)展</b>Polars <b class='flag-5'>GPU</b> Parquet讀取器

    Simcenter STAR-CCM+幾何處理,簡化設(shè)計(jì)流程,輕松創(chuàng)建、修改和準(zhǔn)備幾何

    優(yōu)勢通過一系列領(lǐng)先CAD和PLM軟件工具導(dǎo)入幾何體,與現(xiàn)有設(shè)計(jì)流程輕松集成使用集成的CAD建模器創(chuàng)建、修改和修復(fù)幾何體將各種來源的CAD合并到單一仿真利用自動幾何模型清理、搜索工具、曲
    的頭像 發(fā)表于 04-01 11:31 ?1010次閱讀
    Simcenter STAR-CCM+<b class='flag-5'>幾何</b>體<b class='flag-5'>處理</b>,簡化設(shè)計(jì)流程,輕松創(chuàng)建、修改和準(zhǔn)備<b class='flag-5'>幾何</b>體