AMD 7nm Versal系列器件引入了可編程片上網(wǎng)絡(luò)(NoC, Network on Chip),這是一個硬化的、高帶寬、低延遲互連結(jié)構(gòu),旨在實(shí)現(xiàn)可編程邏輯(PL)、處理系統(tǒng)(PS)、AI引擎(AIE)、DDR控制器(DDRMC)、CPM(PCIe/CXL)等模塊之間的高效數(shù)據(jù)交換。
NoC的出現(xiàn),替代了傳統(tǒng)PL內(nèi)部布線實(shí)現(xiàn)復(fù)雜總線互連的方式,通過專用硬化通道提升吞吐量、降低延遲、減少邏輯資源占用,并且能實(shí)現(xiàn)跨Die(SSIT封裝)的高速通信。
NoC架構(gòu)與特性
NoC包含以下主要組件:
NMU(NoC Master Unit):將AXI請求轉(zhuǎn)換為NoC數(shù)據(jù)包(NPP),支持時(shí)鐘域轉(zhuǎn)換與速率匹配;
NSU(NoC Slave Unit):接收并解析NoC數(shù)據(jù)包(NPP),轉(zhuǎn)換為AXI協(xié)議;
NPS(NoC Packet Switch):全雙工交換機(jī),連接多個NoC節(jié)點(diǎn);
NIDB(NoC Inter-Die Bridge):跨Die的垂直NoC橋接模塊。
核心特性
水平(HNoC)與垂直(VNoC)通道:減少PL內(nèi)布線壓力,提高拓展能力;
AXI接口靈活配置:支持32位~512位AXI Mem位寬,以及128位~512位AXI4-Stream;
自動交錯訪問:跨多個DDR控制器分配請求,提升帶寬利用率;
QoS(服務(wù)質(zhì)量):提供基于延遲/帶寬的優(yōu)先級控制;
跨Die通信:多Die設(shè)計(jì)中提供高效數(shù)據(jù)通道;
硬化路徑固定延遲:相比可編程互連,延遲更可預(yù)測,利于實(shí)時(shí)應(yīng)用。
此文結(jié)合Vivado工程,快速熟悉NoC的使用
Vivado中的NoC使用步驟:
新建工程 & BD→添加Versal NoC IP
配置AXI\_Slave(NMU)與AXI\_Master(NSU)
連接DDR控制器、CPM、AI Engine等模塊
在NoC Compiler中查看拓?fù)?,配置QoS、帶寬、路由路徑
必要時(shí)在XDC中固定NMU/NSU位置以減少路徑延遲
分析帶寬與延遲,迭代優(yōu)化
可以看到界面中有AXI_Slave與AXI_Master兩種接口,分別對應(yīng)NMU與NSU。
NoC內(nèi)部的組件
1、NoC Master Unit (NMU)
NMU的作用是將AXI協(xié)議轉(zhuǎn)換為NoC數(shù)據(jù)包協(xié)議(NPP),同時(shí),NMU還支持AXI端口和NoC之間的異步時(shí)鐘域轉(zhuǎn)換與速率匹配。
下圖為Vivado工程中NMU的示例:
NMU內(nèi)部結(jié)構(gòu):
當(dāng)AXI請求進(jìn)入NMU時(shí)鐘域時(shí),將執(zhí)行數(shù)據(jù)分組,讀寫事務(wù)被分解為更小的傳輸(此過程稱為chopping)。
NPP寫入的最大大小為256字節(jié)。超過256字節(jié)的AXI寫入可以跨越多個NPP寫入。De-Packetizing&Packetizing會將粒度大于或等于256字節(jié)的事務(wù)切分為256字節(jié)的傳輸。例如,一個從0x0開始的1K傳輸事務(wù)將分為4 packet進(jìn)行傳輸:0-255、256-511、512-767、768-1023。
Re-tagging模塊在讀取時(shí)重新標(biāo)記以允許無序傳輸并防止互連阻塞。
在對外的AXI接口上支持配置32位~512位,在AXI4-Stream上支持從128位~512位的可配置數(shù)據(jù)寬度接口。AXI數(shù)據(jù)寬度通過參數(shù)傳播從連接的IP,無需手動指定位寬。
2、NoC Slave Unit (NSU)
NSU的主要功能是接收和響應(yīng)來自NoC的數(shù)據(jù)包,這些數(shù)據(jù)包尋址到NSU數(shù)據(jù)包接口,旨在發(fā)送到對應(yīng)的AXI端口。
3、NoC Packet Switch (NPS)
連接NoC塊以形成完整NoC網(wǎng)絡(luò)交換。每個NPS都是全雙工4x4 Switch,通過Switch至少有兩個延遲周期。
NSU512(PL) NSU512(PL)
4、NoC Inter-Die Bridge (NIDB)
在多個SSIT芯片之間橋接垂直NoC(VNoC)。
Quality of Service(QoS)
Traffic Class與Read and Write Bandwidth
1、流量類別(Traffic Class)
定義了連接上的流量在NoC編譯器和硬件中的優(yōu)先級。流量類在NMU上設(shè)置,適用于從該NMU開始的所有路徑。Traffic Class支持如下3種模式:
Low Latency:盡量減少結(jié)構(gòu)延遲,DDR仲裁中優(yōu)先級最高;
Isochronous:保證最大延遲;DDR隊(duì)列中設(shè)定超時(shí)提前處理;
Best Effort:最低優(yōu)先級,適合非關(guān)鍵流量。
2、帶寬需求(Bandwidth Requirement)
單獨(dú)設(shè)置讀/寫帶寬(單位MB/s或Gb/s);
Vivado NoC Compiler會基于此進(jìn)行資源分配與仲裁優(yōu)化。
性能優(yōu)化建議
關(guān)鍵流量優(yōu)先保障:通過QoS將低延遲或同步流量優(yōu)先級調(diào)高;
減少跨交換機(jī)跳數(shù):布局時(shí)盡量縮短N(yùn)MU→NSU的路徑;
合理位寬分配:帶寬與功耗需權(quán)衡,避免過度配置浪費(fèi)資源;
多Die優(yōu)化:跨Die數(shù)據(jù)盡量走專用VNoC通道,減少延遲;
路徑可視化:在NoC Compiler拓?fù)鋱D中檢查關(guān)鍵路徑是否經(jīng)過不必要的節(jié)點(diǎn)。
在Vivado BD的NoC界面,可以看到DDRNMUNSUNPSQoS等。
點(diǎn)擊如下QoS選擇卡中的條目,可以看到此路徑下的NoC拓?fù)洹?/p>
關(guān)于安富利
安富利是全球領(lǐng)先的技術(shù)分銷商和解決方案提供商,在過去一個多世紀(jì)里一直秉持初心,致力于滿足客戶不斷變化的需求。通過遍布全球的專業(yè)化和區(qū)域化業(yè)務(wù)覆蓋,安富利可在產(chǎn)品生命周期的每個階段為客戶和供應(yīng)商提供支持。安富利能夠幫助各種類型的公司適應(yīng)不斷變化的市場環(huán)境,在產(chǎn)品開發(fā)過程中加快設(shè)計(jì)和供應(yīng)速度。安富利在整個技術(shù)價(jià)值鏈中處于中心位置,這種獨(dú)特的地位和視角讓其成為了值得信賴的合作伙伴,能夠幫助客戶解決復(fù)雜的設(shè)計(jì)和供應(yīng)鏈難題,從而更快地實(shí)現(xiàn)營收。
-
amd
+關(guān)注
關(guān)注
25文章
5625瀏覽量
138419 -
片上網(wǎng)絡(luò)
+關(guān)注
關(guān)注
0文章
34瀏覽量
12069 -
NoC
+關(guān)注
關(guān)注
0文章
42瀏覽量
12052 -
Vivado
+關(guān)注
關(guān)注
19文章
844瀏覽量
70078
原文標(biāo)題:AMD技術(shù)干貨|NoC的使用及注意事項(xiàng)
文章出處:【微信號:AvnetAsia,微信公眾號:安富利】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
基于AMD Versal器件實(shí)現(xiàn)PCIe5 DMA功能

隨著AMD 7nm制程芯片的加速落地,AMD將爆發(fā)更強(qiáng)悍的性能
AMD:7nm明年有望出現(xiàn)
AMD公開VEGA GPU架構(gòu)使用7nm工藝
AMD 7nm處理器和Intel 7nm處理器有什么區(qū)別?
Q3季度AMD芯片均價(jià)大漲40% 7nm正在給AMD帶來豐厚回報(bào)
AMD或使用三星7nm制程來制造RX 5500系列顯卡
AMD Radeon Pro W5700系列專業(yè)卡開售,核心基于7nm Navi 10
超越蘋果和海思,AMD在臺積電7nm產(chǎn)能占比第一
AMD 7nm U/H系列處理器支持面容和指紋登陸
AMD推出銳龍4000系列APU處理器 7nm銳龍APU尤其重要
AMD加速甩掉14nm工藝,IO核心有望使用臺積電7nm工藝
消息稱AMD明年成7nm最大客戶:暴增80%
AMD Versal自適應(yīng)SoC器件Advanced Flow概覽(下)

評論