chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

淺析“大芯片”的挑戰(zhàn)、模式和架構(gòu)

旺材芯片 ? 來源:半導(dǎo)體行業(yè)觀察 ? 2024-01-24 11:30 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

1、摘要

在深度神經(jīng)網(wǎng)絡(luò) (DNN) 和科學(xué)計(jì)算日益普及的推動(dòng)下,云和邊緣平臺(tái)的利用率正在快速增長(zhǎng)[1],[2]。進(jìn)行人工智能訓(xùn)練所需的算力呈指數(shù)級(jí)增長(zhǎng),每 3.4 個(gè)月翻一番。自 2012 年以來,該指標(biāo)已增加了30多萬倍。然而,這些算法的計(jì)算強(qiáng)度相當(dāng)大,仍然是其實(shí)際部署的重大障礙。因此,人們?cè)絹碓叫枰岣咝酒阅芤詽M足更高計(jì)算能力的需求。芯片的性能與以下三個(gè)因素有關(guān):

f9af14fe-b9cb-11ee-8b88-92fbcf53809c.png

D代表晶體管密度,一般與制造工藝和器件機(jī)制有關(guān)。A代表芯片面積,與集成規(guī)模有關(guān)。E代表架構(gòu)因素,反映每個(gè)晶體管的性能,通常由芯片的結(jié)構(gòu)決定。我們將上述公式稱為芯片性能的DAE模型。因此,當(dāng)使用相同的芯片架構(gòu)時(shí),改善晶體管尺寸和面積是增強(qiáng)芯片性能的兩個(gè)關(guān)鍵方法。

集成電路 (IC) 的制造工藝在歷史上一直與摩爾定律同步發(fā)展。目前,我們已經(jīng)達(dá)到5nm工藝的量產(chǎn)階段,3nm工藝正在穩(wěn)步推進(jìn)。工藝節(jié)點(diǎn)的每一次突破都帶來了性能的提高和功耗的降低。然而,隨著摩爾定律[2]和登納德縮放比例[3]接近極限,增加集成到單個(gè)芯片中的晶體管數(shù)量變得越來越具有挑戰(zhàn)性且成本高昂[4]。

隨著晶體管尺寸的縮小變得越來越困難,集成更多功能單元的一種可行方法是增加芯片面積。然而,擴(kuò)大單芯片面積時(shí)可能出現(xiàn)的一個(gè)重要障礙就是我們所說的“面積墻”。面積墻是指由于制造技術(shù)和成本的限制引申出的對(duì)單個(gè)芯片的面積限制。芯片的制造依賴于光刻,芯片面積受到光刻孔徑的限制[5]。由于掩膜版的尺寸和光學(xué)器件的物理特性,單個(gè)芯片最大曝光區(qū)面積限制為858mm(26mm * 33mm)。要增加最大曝光區(qū)面積,光刻系統(tǒng)必須取得重大進(jìn)展,而這從成本角度來看是一項(xiàng)挑戰(zhàn)。此外,成本是增加芯片面積的另一個(gè)挑戰(zhàn)。在更先進(jìn)的工藝節(jié)點(diǎn)中,單位芯片面積的成本會(huì)增加[6]。最后,對(duì)于大面積芯片來說,良率也是一個(gè)重大挑戰(zhàn),這將導(dǎo)致制造缺陷的發(fā)生頻率更高,導(dǎo)致晶圓良率下降[7]。

為了設(shè)計(jì)一種突破面積墻限制的芯片,我們提出了一種新穎的芯片形式,稱為大芯片。“大芯片”一詞是指面積大于目前最先進(jìn)光刻機(jī)最大曝光區(qū)面積的芯片。這種類型的芯片通常還具有大量晶體管,并使用半導(dǎo)體制造技術(shù)來實(shí)現(xiàn)。大芯片有兩個(gè)特點(diǎn):首先,大芯片面積大,打破了步進(jìn)式光刻機(jī)的面積限制,將大量晶體管集成到一個(gè)芯片中,可以超過當(dāng)前制造技術(shù)下單片芯片上集成的晶體管數(shù)量。其次,大芯片由多個(gè)功能裸芯組成,并使用幾種新興的半導(dǎo)體制造技術(shù)將預(yù)制裸芯集成到大芯片中。Cerebras利用平面制造技術(shù)實(shí)現(xiàn)晶圓級(jí)大芯片,面積達(dá)46,225毫米。芯粒集成[8]、[9]、[10]、[11]、[12]、[13]、[14]、[15]、[16]也是一項(xiàng)有前途的技術(shù),它將多個(gè)芯粒組合在單個(gè)封裝內(nèi)的中介層或基板上。AMD和Nvidia分別于2019年[12]和2020年[17]推出了基于多芯粒架構(gòu)的高性能處理器設(shè)計(jì)。由于芯片面積較大,芯片性能得以大幅提升。

盡管構(gòu)建大芯片受到廣泛關(guān)注,但該領(lǐng)域的綜合分析論文卻稀缺且迫切需要。本文對(duì)大芯片進(jìn)行了詳細(xì)分析。首先,我們?cè)敿?xì)分析了面積墻,考慮到物理限制、良率和成本。在此分析的基礎(chǔ)上,我們進(jìn)一步介紹了可用于實(shí)現(xiàn)大芯片的潛在技術(shù)。其次,我們提出了一個(gè)性能模型來指導(dǎo)大芯片的設(shè)計(jì)和評(píng)估。最后,我們給出了基于芯粒技術(shù)構(gòu)建大芯片的架構(gòu)實(shí)現(xiàn)方式以及未來的發(fā)展趨勢(shì)。

2. 挑戰(zhàn):芯片的面積墻

高性能計(jì)算系統(tǒng)需要更多的計(jì)算能力來支持許多領(lǐng)域的計(jì)算密集型工作。更多的計(jì)算能力需要更多的集成晶體管,這可以通過更大的芯片面積和更密集的硅結(jié)構(gòu)來實(shí)現(xiàn)。然而,由于晶圓成本、良率和更復(fù)雜的設(shè)計(jì)規(guī)則問題,硅結(jié)構(gòu)密度增長(zhǎng)最近已經(jīng)放緩。因此,實(shí)現(xiàn)更高計(jì)算能力的最佳方法是集成更大的芯片。然而,傳統(tǒng)的單片集成存在面積墻問題,阻礙了芯片面積的增長(zhǎng)。幸運(yùn)的是,多芯片集成技術(shù)可以顯著削弱面積墻的影響。本節(jié)我們將詳細(xì)分析造成面積瓶頸的三個(gè)原因。

2.1

光刻曝光區(qū)面積限制

在現(xiàn)代光刻系統(tǒng)[5]、[18]、[19]中,掩膜版在傾斜入射光下曝光,來自掩膜版的攜帶信息的反射光經(jīng)過一組光學(xué)器件,最終落在晶圓表面,如圖1所示。晶圓上的曝光圖像實(shí)際上是掩膜版上圖像的縮小,給定放大倍數(shù) MAG,晶圓上曝光的圖像尺寸為掩膜版上尺寸的1/MAG。衡量表面上可以收集多少光的重要指標(biāo)稱為數(shù)值孔徑,其定義為光錐張角一半的正弦值。掩膜版和晶圓表面的數(shù)值孔徑為 , ,其中如圖 1 所示。這兩個(gè)數(shù)值孔徑的關(guān)系式為[5]:

f9b9dea2-b9cb-11ee-8b88-92fbcf53809c.png

有兩種選擇可以增加晶圓曝光區(qū)面積,設(shè)計(jì)更小的光學(xué)器件MAG,并增加掩膜版面積。然而,這兩種方案在目前的行業(yè)中都很難實(shí)現(xiàn)。

f9c466a6-b9cb-11ee-8b88-92fbcf53809c.png

圖 1. 光刻系統(tǒng)演示。

根據(jù)瑞利準(zhǔn)則[20],更先進(jìn)的工藝節(jié)點(diǎn)要求增加 。這使得光學(xué)器件無法設(shè)計(jì)成較小的 MAG,因?yàn)楦鶕?jù)公式2, 會(huì)隨著增大而增大。因此, 會(huì)變大,并迫使目標(biāo)處的主光線角(CRAO,如圖 1 所示)變大,這樣入射光錐和反射光錐就不會(huì)重疊。然而,較大的 CRAO 會(huì)降低圖像質(zhì)量和掩膜效率。因此,目前大多數(shù)先進(jìn)的光刻系統(tǒng)都采用 MAG = 4 的光學(xué)器件,而更先進(jìn)的工藝節(jié)點(diǎn)可能需要更大的 MAG。

假設(shè)光罩的寬度和長(zhǎng)度分別為和 ,則曝光尺寸可用下式表示:

f9d07978-b9cb-11ee-8b88-92fbcf53809c.png

目前市場(chǎng)上最大的光罩尺寸為 6",剔除制造余量后的尺寸為 104mm×132mm。由于目前先進(jìn)的光刻系統(tǒng)的 MAG = 4,因此目前的最大曝光尺寸為 26mm×33mm=858 mm2。需要強(qiáng)調(diào)的是,我們的上述分析主要針對(duì)硅基芯片制造,并沒有考慮 TFT(薄膜晶體管)制造等工藝。

2.2

良率限制

一直以來,工業(yè)界都在尋求一個(gè)精確的模型來預(yù)測(cè)芯片的良率以指導(dǎo)生產(chǎn)[21]。此外,良率模型對(duì)于探索可能的集成水平以指導(dǎo)芯片設(shè)計(jì)也很重要。人們提出了幾種在不同假設(shè)條件下預(yù)測(cè)良品率的模型。泊松良率模型假定缺陷分布均勻且隨機(jī),這往往會(huì)低估大型芯片的良率。Seeds模型引入了指數(shù)分布模擬芯片之間的缺陷密度變化。負(fù)二項(xiàng)式模型利用缺陷密度和缺陷聚類現(xiàn)象來確定良率,這種模型被廣泛使用。下式是預(yù)測(cè)單片芯片良率的負(fù)二項(xiàng)模型,其中 是取決于工藝節(jié)點(diǎn)的缺陷密度, 是缺陷聚類參數(shù)[21]:

f9d90200-b9cb-11ee-8b88-92fbcf53809c.png

在此基礎(chǔ)上,我們提出了通用多芯片系統(tǒng)的良率模型。一般的多芯粒系統(tǒng)可抽象為幾個(gè)部分,每個(gè)部分 又分為 個(gè)相同的芯粒。中每個(gè)芯粒的面積為 ,其中 是 的總關(guān)鍵面積(關(guān)鍵一詞是指排除芯片間模塊),是芯片到芯片面積與關(guān)鍵面積之比。由具有缺陷密度和聚類參數(shù) 、的加工節(jié)點(diǎn)制造,其良率可按單片情況預(yù)測(cè)。我們建議,多芯粒系統(tǒng)的良率由所有部件的最小良率決定。注意,集成過程也會(huì)引入潛在的故障,因此集成良率也應(yīng)計(jì)入系統(tǒng)良率。假設(shè)鍵合芯粒的成功率為 ,為芯片 i(由 組成)的良率,定義為芯粒 i 的實(shí)際良率與目標(biāo)良率之比:

f9e0d53e-b9cb-11ee-8b88-92fbcf53809c.png

單片集成在實(shí)現(xiàn)較大的芯片面積時(shí),尤其是在工藝節(jié)點(diǎn)先進(jìn)的情況下,存在良率低的問題。我們認(rèn)為,在相同的良率目標(biāo)下,多芯粒集成能比單片集成實(shí)現(xiàn)更大的芯片總面積。在此,我們考慮了只有一個(gè)部件 P 的 K-chiplet 系統(tǒng),并將其與單片芯片進(jìn)行比較。K-chiplet 系統(tǒng)良率的計(jì)算公式為

f9e86f24-b9cb-11ee-8b88-92fbcf53809c.jpg

通過良率模型的反函數(shù),我們可以分別建立單片系統(tǒng)和 K-chiplet 系統(tǒng)所能達(dá)到的最大關(guān)鍵面積模型如下:

f9ecc3e4-b9cb-11ee-8b88-92fbcf53809c.png

由于多芯粒系統(tǒng)的良率肯定小于鍵合良率,因此 Y 存在一個(gè)內(nèi)部約束條件,即Y

圖 2 顯示了在給定良率限制(橫軸)下,使用單片和芯粒集成技術(shù)可實(shí)現(xiàn)的最大關(guān)鍵面積(縱軸)。在相同的成品率限制下,使用更多芯粒進(jìn)行集成通常能獲得更大的關(guān)鍵面積。此外,多芯粒系統(tǒng)還能輕松突破單片芯片的物理面積限制(虛線標(biāo)記)。

f9fb0c6a-b9cb-11ee-8b88-92fbcf53809c.png

圖 2. 在良率限制下可制造的最大關(guān)鍵面積(平方毫米)。左圖和右圖分別顯示 5 納米和 14 納米工藝。水平虛線表示 858 平方毫米的物理單片芯片面積上限。

2.3

成本限制

制造成本可根據(jù)集成系統(tǒng)各部分的良率和原料成本估算。對(duì)于單片芯片,成本可以簡(jiǎn)單地用裸片良率和裸片成本估算,其中良率用于攤銷失效裸片的成本。對(duì)于多芯粒系統(tǒng),如文獻(xiàn)[6]、[7]、[22]、[23]所述,成本計(jì)入多個(gè)組成部件和集成過程。我們對(duì)單片系統(tǒng)和多芯粒系統(tǒng)的制造成本建模如下:

fa00724a-b9cb-11ee-8b88-92fbcf53809c.png

其中Gdie、Gint、分別為單位面積芯片和插層的原始成本。是將單位面積芯片鍵合到集成電路上的成本。

根據(jù)這一成本模型,我們?cè)俅伪容^單片系統(tǒng)和 K-chiplet系統(tǒng)的成本效率,如圖 2 所示。我們將晶體管數(shù)量建模為晶體管密度乘以關(guān)鍵面積,并在圖 3 中繪制出每個(gè)晶體管的成本。我們還在圖 4 中繪制了系統(tǒng)成本的對(duì)比圖。

fa088714-b9cb-11ee-8b88-92fbcf53809c.png

圖 3. 采用 5 納米(左)和 14 納米(右)工藝節(jié)點(diǎn)的不同關(guān)鍵面積(平方毫米)時(shí)每個(gè)晶體管的成本。成本已歸一化為圖中最小單片芯片的成本。

fa138be6-b9cb-11ee-8b88-92fbcf53809c.png

圖 4. 采用 5 納米(左)和 14 納米(右)工藝節(jié)點(diǎn)的不同關(guān)鍵面積(平方毫米)時(shí)的系統(tǒng)成本(任意單位)。

對(duì)于成熟的工藝節(jié)點(diǎn)(見圖 3 和圖 4 中的 14 納米),單片系統(tǒng)的單位晶體管成本和系統(tǒng)成本均低于多芯粒系統(tǒng)。然而,對(duì)于新節(jié)點(diǎn)和先進(jìn)節(jié)點(diǎn),多芯粒系統(tǒng)在關(guān)鍵面積較大的情況下成本更低。請(qǐng)注意,在圖中,我們沒有顯示超過 858 平方毫米(虛線)的關(guān)鍵面積,因?yàn)樗荒芡ㄟ^芯粒集成來實(shí)現(xiàn)。同時(shí),芯粒越多的系統(tǒng)成本曲線增長(zhǎng)越平滑,這表明在實(shí)現(xiàn)足夠大的關(guān)鍵面積時(shí),芯粒越多的系統(tǒng)成本優(yōu)勢(shì)越明顯。

3. 技術(shù):打破面積墻

大芯片由超過萬億個(gè)晶體管和數(shù)千平方毫米的面積(超過一個(gè)掩膜版)組成,目前可采用兩種方法實(shí)現(xiàn)。第一種方法是芯粒集成,即在中介層或基板上將多個(gè)芯粒組合在單個(gè)封裝中。2018 年,AMD 提出了 EPYC 處理器,利用 MCM(多芯片模塊)技術(shù)集成了四個(gè)相同的芯粒[24]。華為也提出了基于芯片集成的服務(wù)器 SoC 系列[25]。通過臺(tái)積電 CoWoS 技術(shù),鯤鵬 920 SoC 系列集成了多個(gè)不同功能的芯粒。第二種方法是晶圓級(jí)集成(WSI),即用整個(gè)硅晶圓構(gòu)建超大型集成電路。1980 年,Trilogy System 為 IBM 大型機(jī)進(jìn)行了晶圓級(jí)集成的早期嘗試[26]。這種集成將芯片間的通信放在晶圓上,從而降低了芯片間通信的延遲和功耗。

然而,良率和光刻問題導(dǎo)致 Trilogy System 的晶圓級(jí)集成失敗[26]。Cerebras System 于 2019 年實(shí)現(xiàn)了晶圓級(jí)引擎-1(WSE-1)[27],并于 2021 年實(shí)現(xiàn)了晶圓級(jí)引擎-2(WSE-2)[28]。這兩種方法都能大大提高芯片的性能。然而,大芯片的設(shè)計(jì)和實(shí)現(xiàn)也面臨著一些挑戰(zhàn),包括制造和封裝、設(shè)計(jì)成本和 IP 重用、良率和散熱。在下面的章節(jié)中,我們將深入探討這些挑戰(zhàn)以及芯片集成和晶圓級(jí)集成所提供的解決方案。

制造和封裝。在大芯片中,確保裸片封裝具有高性能和可靠的裸片間互連非常重要。在標(biāo)準(zhǔn)制造中,劃線是將芯片與相鄰芯片分開的區(qū)域。為了實(shí)現(xiàn)晶圓級(jí)集成,需要在劃片線上鋪設(shè)大量導(dǎo)線,以實(shí)現(xiàn)晶圓上的芯片互連。例如,Cerebras System WSE-1[27]使用了最新提出的臺(tái)積電 InFO_SoW 封裝技術(shù)[29],如圖 5(a)所示,在刻線上添加導(dǎo)線,實(shí)現(xiàn)了網(wǎng)狀互連,其線路密度和帶寬密度是 MCM 的 2 倍。芯片設(shè)計(jì)不需要在刻線上添加導(dǎo)線來連接芯片,而是在有機(jī)基板或硅插層[24]、[30]上實(shí)現(xiàn)裸片之間的通信,從而提供更靈活、更多樣化的芯片布局選擇。封裝是晶圓級(jí)集成的另一個(gè)挑戰(zhàn)。在考慮大規(guī)模晶圓和 PCB 的封裝時(shí),有必要減輕晶圓和 PCB 因受熱而產(chǎn)生的不同熱膨脹的影響,從而提高封裝的可靠性[27]。此外,在封裝過程中還必須考慮大型晶圓和 PCB 之間相互作用造成的影響,如機(jī)械應(yīng)力。

為了提高封裝性能,一些緩沖應(yīng)力的元件(如連接器)被用來緩解這些問題[27]。然而,額外引入的連接器增加了封裝的難度。需要確保晶片、連接器和印刷電路板之間的凸點(diǎn)精確對(duì)齊。目前,還沒有一種可靠的封裝工具能保證這種對(duì)齊要求,因此需要重新開發(fā)一種新的定制封裝工具[27]。如圖 5(b)[4]所示,片式集成提供了多種成熟且經(jīng)過驗(yàn)證的 2D/2.5D/3D 封裝技術(shù),這些片式封裝的可靠性也已在一些研究中得到證實(shí)[31],[32]。

fa2a4d54-b9cb-11ee-8b88-92fbcf53809c.png

圖 5. 芯片級(jí)集成與晶圓級(jí)集成的制造和封裝比較[4], [29]。

設(shè)計(jì)成本和 IP 重用。在構(gòu)建大芯片時(shí),需要考慮設(shè)計(jì)時(shí)間和相關(guān)成本,其中 IP 重用是幫助降低設(shè)計(jì)成本的常用方法。由于晶圓級(jí)集成是在同一晶圓上實(shí)現(xiàn)所有芯片,因此晶圓上的每個(gè)芯片都是通過相同的工藝實(shí)現(xiàn)的[27]。這導(dǎo)致系統(tǒng)設(shè)計(jì)存在兩個(gè)缺陷。首先,晶圓級(jí)集成降低了使用成熟且先進(jìn)的工藝的可能性。其次,晶圓級(jí)集成的特點(diǎn)是系統(tǒng)緊密,晶圓上的芯片很難作為功能組件重復(fù)使用[33]。芯片 IP 重用方案如圖 6 所示。系統(tǒng)應(yīng)用被分解成許多基本功能裸芯,然后進(jìn)行邏輯組合和物理集成。

與晶圓級(jí)集成相比,芯粒封裝技術(shù)支持對(duì)異構(gòu)工藝制造的芯片進(jìn)行集成。它允許以高性能為目標(biāo)的重要工藝單元通過先進(jìn)工藝來實(shí)現(xiàn),而其他單元(例如IO)可以通過成熟工藝來實(shí)現(xiàn),從而提高計(jì)算能力并最小化成本[34]。此外,所實(shí)現(xiàn)的芯粒作為預(yù)組件或IP,可以在下一代設(shè)計(jì)中重復(fù)使用,這顯著縮短了設(shè)計(jì)時(shí)間并降低了設(shè)計(jì)成本[35]。因此,chiplet集成通過IP復(fù)用帶來了降低設(shè)計(jì)成本的突出優(yōu)勢(shì)。

fa447300-b9cb-11ee-8b88-92fbcf53809c.jpg

圖6 芯粒IP 復(fù)用表

良率?;诙嘈玖O到y(tǒng)的大芯片的整體良率是一個(gè)更值得關(guān)注的因素。Chiplet集成和晶圓級(jí)集成分別引入了Known Good Die(KGD)[36]方法和冗余設(shè)計(jì)[27]來提高整體良率。由于器件和環(huán)境因素的影響,很難保證晶圓上的每個(gè)芯片都是好的,這意味著對(duì)于晶圓級(jí)集成來說,不可避免地會(huì)導(dǎo)致晶圓上的芯片出現(xiàn)缺陷。此外,由于一些晶圓級(jí)集成設(shè)計(jì)在劃片中添加了互連線,因此劃片區(qū)域中出現(xiàn)的缺陷也會(huì)損害良率。為了解決良率挑戰(zhàn),Cerebras 提出了冗余設(shè)計(jì),其中包括 1.5%額外的核心[27]。作為類似的晶圓級(jí)集成設(shè)計(jì),Trilogy System的芯片引入了2倍冗余設(shè)計(jì)[26]。這種冗余設(shè)計(jì)允許禁用有缺陷的芯片,然后用冗余芯片替換,冗余芯片與其他良好芯片的鏈接將在結(jié)構(gòu)上重建,從而避免由于有缺陷的芯片而導(dǎo)致片上網(wǎng)絡(luò)和通信的性能下降。

然而,冗余設(shè)計(jì)和重新連接增加了設(shè)計(jì)開銷,并且需要設(shè)計(jì)者和代工廠之間緊密的協(xié)同設(shè)計(jì)。相反,芯粒技術(shù)有利于提高整體良率。芯粒有兩個(gè)方面的良率提升。第一個(gè)是通過減小單個(gè)芯片尺寸來提高良率[37]?;谛玖<夹g(shù),可以用小芯片集成大芯片。隨著芯片尺寸變小,良率也會(huì)提高。提高良率的第二個(gè)層次是使用已知良好芯片(KGD)[36]進(jìn)行封裝。芯粒技術(shù)不是從晶圓上切割最大的正方形,而是從晶圓上切割單個(gè)芯片,只允許封裝通過老化測(cè)試的單個(gè)芯片,從而提高良率。

散熱。隨著大芯片中集成的晶體管數(shù)量越來越多,芯片的功耗猛增,大芯片的功耗可以大得驚人。因此,散熱就成為一個(gè)關(guān)鍵問題。在晶圓級(jí)集成中,WSE [27]開發(fā)了冷平面和定制連接器來解決散熱和熱效應(yīng)。熱量通過水和芯片之間的接觸而被帶走。在當(dāng)前的芯粒集成中,引入散熱器來散熱[30]。與帶有大型水冷系統(tǒng)的晶圓級(jí)集成相比,帶有小型散熱器的芯粒集成的散熱解決方案在移動(dòng)和邊緣應(yīng)用中更加靈活。

4. 模型:評(píng)估大芯片

4.1

性能需求模型

大芯片系統(tǒng)的巨大規(guī)模帶來了新的挑戰(zhàn),例如對(duì)內(nèi)部芯粒的片外訪問和長(zhǎng)距離通信的限制。高度的可定制性以及廣泛的集成技術(shù)和架構(gòu)使得很難確定特定市場(chǎng)的最佳設(shè)計(jì)[38]。在這種情況下,需要一個(gè)通用性能模型來深入了解大芯片設(shè)計(jì)的關(guān)鍵方面,并為架構(gòu)改進(jìn)提供指導(dǎo),包括集成技術(shù)選擇、并行性、互連和內(nèi)存層次結(jié)構(gòu)設(shè)計(jì)、片外帶寬等

我們提出了一個(gè)性能模型來表征不同規(guī)模區(qū)域的性能瓶頸。盡管并不完美,但該模型提供了對(duì)關(guān)鍵方面的見解,可以提高給定設(shè)計(jì)的性能上限。我們首先解釋如何推斷該模型,重點(diǎn)關(guān)注數(shù)據(jù)通信和并行性,這是決定系統(tǒng)性能的關(guān)鍵因素。然后,我們確定了提高不同區(qū)域峰值性能的方法,并說明了模型在某些方法下如何變化。

4.2

性能模型外推

我們研究大芯片系統(tǒng)擴(kuò)展時(shí)的性能變化。為了兼顧數(shù)據(jù)通信和并行性等方面,我們選擇面積(A)作為表示系統(tǒng)規(guī)模變化的變量。造成整個(gè)系統(tǒng)處理延遲的主要因素有三個(gè),即計(jì)算、片外訪問和芯片間(或內(nèi)核間)通信。這三個(gè)部分的延遲可簡(jiǎn)單計(jì)算為:

fa483c9c-b9cb-11ee-8b88-92fbcf53809c.png

其中,CA 指計(jì)算能力,BWoff-chip指芯片外帶寬,BWintra-chip指芯片間或內(nèi)核間帶寬。其中,αoff-chip和 αintra-chip是歸一化的數(shù)據(jù)移動(dòng)量,分別表示每次計(jì)算(以 B/op 為單位)從片外存儲(chǔ)器和芯片(或內(nèi)核)之間移動(dòng)的數(shù)據(jù)量。

現(xiàn)在,我們需要弄清楚CA、BWs和A之間的關(guān)系。隨著系統(tǒng)規(guī)模的擴(kuò)大,采用特定設(shè)計(jì)的大芯片的計(jì)算能力呈線性增長(zhǎng)。其關(guān)系可表示為:

fa501912-b9cb-11ee-8b88-92fbcf53809c.png

cd指的是計(jì)算元件的密度,fcomputing指的是計(jì)算頻率。在某種設(shè)計(jì)中,可以通過將芯片(或內(nèi)核)中的計(jì)算元件數(shù)量按其面積劃分來估算cd。

芯片外訪問帶寬與芯片周長(zhǎng)成正比,因?yàn)?I/O 布置在芯片邊緣。如果我們將 I/O 密度視為特定設(shè)計(jì),那么芯片外帶寬與面積之間的關(guān)系可估算為:

fa5b6b1e-b9cb-11ee-8b88-92fbcf53809c.png

其中,bωof f-chip表示沿芯片邊緣的芯片外帶寬密度,單位為 GB ps/mm。它也可以表示為 I/O 密度與數(shù)據(jù)傳輸頻率的乘積。

當(dāng)涉及芯片間或內(nèi)核間通信延遲,有兩個(gè)基本假設(shè)。第一個(gè)假設(shè)是總線上的數(shù)據(jù)傳輸是同時(shí)進(jìn)行的。在這種假設(shè)下,片內(nèi)通信延遲應(yīng)該是所有總線延遲中的最大值:

fa6bbc26-b9cb-11ee-8b88-92fbcf53809c.png

第二個(gè)假設(shè)是,大芯片系統(tǒng)的擴(kuò)展主要取決于相同基線設(shè)計(jì)的重復(fù)性,基線設(shè)計(jì)可以是芯片或內(nèi)核的設(shè)計(jì)。那么,每個(gè)基線設(shè)計(jì)的帶寬(即等式 11 中的BWi)可視為常數(shù)。因此,芯片內(nèi)通信延遲可表示為:

fa79fea8-b9cb-11ee-8b88-92fbcf53809c.png

然后,我們推斷總延遲與這三個(gè)決定性部分的關(guān)系。在此,我們引入了另一個(gè)與上述第一個(gè)假設(shè)類似的新假設(shè),即計(jì)算、芯片外訪問和芯片內(nèi)通信同時(shí)運(yùn)行。那么我們有:

fa81c494-b9cb-11ee-8b88-92fbcf53809c.png

由于性能與延遲成反比,我們可以得出:

fa8df85e-b9cb-11ee-8b88-92fbcf53809c.png

這是在估算延遲時(shí)的一個(gè)極端假設(shè),還有另一個(gè)極端假設(shè),即這三個(gè)操作是完全相繼進(jìn)行的。那么總延遲等于所有三部分延遲的總和。實(shí)際情況介于這兩個(gè)極端之間。即使在這種極端情況下,我們也可以假設(shè)每個(gè)區(qū)域都有一個(gè)部分主導(dǎo)總延遲,那么表達(dá)式就與公式 14 相同。將等式 9、10 和 12 代入等式 14,我們就得到了作為芯片面積函數(shù)的最終性能模型:

fa9c0e3a-b9cb-11ee-8b88-92fbcf53809c.png

這三個(gè)部分的分別是與面積成正比、與面積的平方根成正比和隨面積變化而不變。在其他參數(shù)取值不同的情況下,性能模型的趨勢(shì)應(yīng)該有三種可能,如圖 7 所示。在圖 7(a)所示的平衡模式中,性能模型被劃分為 3 個(gè)區(qū)域。在芯片面積較小的第一個(gè)區(qū)域,計(jì)算能力不足是性能的關(guān)鍵瓶頸。隨著系統(tǒng)規(guī)模的擴(kuò)大,片外訪問阻礙了并行計(jì)算資源增加所帶來的性能增長(zhǎng)。在這一區(qū)域,性能以越來越慢的趨勢(shì)持續(xù)增長(zhǎng),當(dāng)片內(nèi)通信發(fā)揮主導(dǎo)作用時(shí),性能達(dá)到頂峰。在計(jì)算密集型和計(jì)算稀疏型模式中,計(jì)算資源的充足與否導(dǎo)致沒有計(jì)算主導(dǎo)或片外主導(dǎo)區(qū)域,如圖 7(b) 和 7(c) 所示。

faadddd6-b9cb-11ee-8b88-92fbcf53809c.png

圖 7. 性能模型的三種可能趨勢(shì)。

4.3

與單片多核和多芯片系統(tǒng)的比較

我們將芯粒系統(tǒng)的性能模型與單片多核和多芯粒系統(tǒng)的性能模型進(jìn)行比較,以證明大芯片系統(tǒng)的性能優(yōu)勢(shì)。我們使用的基線設(shè)計(jì)參數(shù)來自AMD的“Zepplin”SoC及其第一代EPYC TM 芯粒處理器[39]。我們假設(shè)三個(gè)系統(tǒng)的計(jì)算能力和片外訪問是相同的,那么唯一的區(qū)別在于“片內(nèi)通信”區(qū)域。芯粒間和芯片間通信由“Zepplin”SoC 上配備的無限結(jié)構(gòu) (IF) 和 PCIe 分別提供[39],片外帶寬密度通過將其兩通道 DDR4 帶寬除以SoC 的長(zhǎng)邊長(zhǎng)度。我們?cè)O(shè)置αoff-chip和αintra-chip分別為 6 和 4。性能曲線如圖8所示。

fb39e984-b9cb-11ee-8b88-92fbcf53809c.png

圖 8. 芯粒組、單片多核和多芯片系統(tǒng)的性能模型比較。

理想情況下,由于內(nèi)核間帶寬的限制較少,單片芯片比其他兩個(gè)系統(tǒng)具有更高的峰值性能。然而,單片設(shè)計(jì)面臨著步進(jìn)式光刻機(jī)最大區(qū)域尺寸帶來的“區(qū)域墻”的巨大挑戰(zhàn),這阻礙了性能的增長(zhǎng)。為了繼續(xù)系統(tǒng)擴(kuò)展,轉(zhuǎn)而采用傳統(tǒng)工藝下的多芯片集成技術(shù),在性能曲線上表現(xiàn)為隨著面積的增加,漸近線向多芯片設(shè)計(jì)線發(fā)展(圖中未標(biāo)出這一趨勢(shì))。由此,我們可以推斷出大芯片系統(tǒng)的高性能可擴(kuò)展性的優(yōu)勢(shì)。

4.4

性能優(yōu)化

性能優(yōu)化方法通??煞譃槿齻€(gè)層次:工作負(fù)載映射、架構(gòu)和物理設(shè)計(jì)。在性能模型中,優(yōu)化表現(xiàn)為曲線函數(shù)或位置的變化。在接下來的章節(jié)中,我們將首先以三維堆疊為例,闡明物理設(shè)計(jì)如何改變性能曲線的形狀,然后說明αoff-chip和αintra-chip在我們的模型中扮演的角色及其主導(dǎo)因素。

模型形狀的優(yōu)化。我們采用Tetris 芯粒加速器[40]的2D集成和3D堆疊實(shí)現(xiàn)來證實(shí)物理設(shè)計(jì),特別是集成技術(shù),通過改變性能曲線的形狀來從根本上優(yōu)化芯片性能。

2D 和 3D 實(shí)現(xiàn)的主要區(qū)別在于片外訪問方式。2D Tetris使用 LPDDR3,符合等式 10 中的關(guān)系。3D Tetris使用混合存儲(chǔ)器立方體(HMC)[41], [42]作為三維存儲(chǔ)器基板,與邏輯芯片垂直面對(duì)面堆疊,通過高速硅通孔(TSV)通信,那么片外帶寬應(yīng)與面積成正比,如公式 16 所示。

fb4323f0-b9cb-11ee-8b88-92fbcf53809c.png

這里,bwoff-chip,area的單位是GBps/mm2

如圖 9 所示,我們可以得到兩種實(shí)現(xiàn)方式的性能模型,其中芯片間帶寬來自傳統(tǒng)的 HMC 設(shè)計(jì)。由于采用了高度并行的處理元件,雖然頻率不是很高(500MHZ)[40],但計(jì)算能力非常強(qiáng),因此在這兩種方案中都不會(huì)成為瓶頸。

fb4fcee8-b9cb-11ee-8b88-92fbcf53809c.png

圖 9. Tetris二維集成設(shè)計(jì)和三維堆疊設(shè)計(jì)的性能模型對(duì)比。三維堆疊優(yōu)化改變了模型曲線的形狀。

雖然 3D 實(shí)現(xiàn)仍然受到最大硅片面積的限制,但與 2D 設(shè)計(jì)相比,3D 實(shí)現(xiàn)的片外瓶頸區(qū)域大大縮小,即使芯片面積較小,也能輕松達(dá)到峰值性能,這歸功于 3D 存儲(chǔ)器堆疊技術(shù)提供的豐富布線資源和高速傳輸。從這個(gè)例子中我們可以看出,一項(xiàng)設(shè)計(jì)工作可能不會(huì)對(duì)系統(tǒng)的性能做出貢獻(xiàn),但卻能在設(shè)計(jì)者感興趣的區(qū)域帶來突出的改進(jìn)。

αoff-chip和αintra-chip的作用。αoff-chip指芯片與芯片外存儲(chǔ)器之間傳輸?shù)臄?shù)據(jù)量,αintra-chip指通過總線互連的兩個(gè)芯?;騼?nèi)核之間傳輸?shù)淖畲髷?shù)據(jù)量。雖然它們都是與數(shù)據(jù)量有關(guān)的變量,而且在上文的討論中假定它們與芯片面積保持不變,但它們會(huì)受到芯片內(nèi)存容量和互連結(jié)構(gòu)等架構(gòu)設(shè)計(jì)的影響。

αoff-chip取決于應(yīng)用,即計(jì)算所需的數(shù)據(jù)量、工作負(fù)載映射、調(diào)度策略以及架構(gòu)設(shè)計(jì),尤其是芯片內(nèi)存容量。片外訪問的數(shù)據(jù)量由兩部分組成:由工作負(fù)載所需的數(shù)據(jù)量決定的恒定部分,以及由無效的工作負(fù)載映射策略或片上內(nèi)存容量不足造成的冗余部分。隨著映射和片上內(nèi)存比例的改善,數(shù)據(jù)局部性可以得到優(yōu)化,αoff-chip也會(huì)相應(yīng)降低,然后在片外區(qū)域出現(xiàn)性能曲線,如圖 10(a)所示。

fb61f686-b9cb-11ee-8b88-92fbcf53809c.png

圖 10. αoff-chip和αintra-chip的影響。

αintra-chip由應(yīng)用、芯片內(nèi)存容量和互連結(jié)構(gòu)決定。應(yīng)用和片上存儲(chǔ)器會(huì)影響每個(gè)芯片上的數(shù)據(jù)位置?;ヂ?lián)結(jié)構(gòu)的影響可以從更廣闊的角度來闡述??紤]到在兩個(gè)節(jié)點(diǎn)之間傳輸固定數(shù)量的數(shù)據(jù),它們之間的路由越多,分配到每條路由上的數(shù)據(jù)就越少,從而導(dǎo)致每條總線傳輸?shù)臄?shù)據(jù)量減少,最大值也是如此。與網(wǎng)狀設(shè)計(jì)相比,Cmesh 是一種能實(shí)現(xiàn)較低αintra-chip值的互連設(shè)計(jì)。αintra-chip值的降低可提高芯片設(shè)計(jì)的峰值性能。

5. 架構(gòu):構(gòu)建大芯片

大芯片的架構(gòu)設(shè)計(jì)對(duì)性能有重大影響,與內(nèi)存訪問模式密切相關(guān)。在內(nèi)存訪問模式方面,與傳統(tǒng)的多核處理器設(shè)計(jì)考慮將多核集成在單個(gè)裸片上訪問內(nèi)存不同,大芯片設(shè)計(jì)側(cè)重于多個(gè)多核裸片訪問內(nèi)存系統(tǒng)。根據(jù)內(nèi)存訪問模式,大芯片可以分為對(duì)稱芯粒架構(gòu)、NUMA(非均勻內(nèi)存訪問)芯粒架構(gòu)、集群芯粒架構(gòu)和異構(gòu)芯粒架構(gòu)。在接下來的章節(jié)中,我們將以利用芯粒技術(shù)構(gòu)建大芯片為例,從性能、可擴(kuò)展性、可靠性、通信等方面討論這些大芯片架構(gòu)的特點(diǎn)。

對(duì)稱芯粒架構(gòu)。如圖 11(a)所示,對(duì)稱芯粒架構(gòu)由許多相同的計(jì)算芯粒組成,它們通過路由器網(wǎng)絡(luò)或芯粒間資源(例如中介層)訪問共享的統(tǒng)一存儲(chǔ)器或IO。芯粒可以設(shè)計(jì)為具有本地緩存的多核結(jié)構(gòu),或者具有多個(gè)處理元件的NoC結(jié)構(gòu)。統(tǒng)一內(nèi)存可以被所有芯粒平等地訪問,這體現(xiàn)了UMA(統(tǒng)一內(nèi)存訪問)的效果。我們現(xiàn)在討論對(duì)稱芯粒架構(gòu)的三個(gè)主要優(yōu)點(diǎn)。首先,對(duì)稱芯粒架構(gòu)允許多個(gè)芯粒執(zhí)行指令以提供高計(jì)算能力。工作負(fù)載可以分成小塊,然后分配給不同的 芯粒,以加快應(yīng)用程序的執(zhí)行速度,同時(shí)保持不同芯粒之間的工作負(fù)載平衡。其次,這種對(duì)稱的芯粒架構(gòu)提供了從不同芯粒到內(nèi)存的統(tǒng)一延遲,無需考慮NUMA等分布式共享內(nèi)存系統(tǒng)中的遠(yuǎn)程訪問或內(nèi)存復(fù)制,從而節(jié)省了由于不必要的數(shù)據(jù)移動(dòng)而導(dǎo)致的延遲和能耗。第三,對(duì)稱芯粒處理器還提供冗余設(shè)計(jì),其他芯??梢越庸芄收闲玖5墓ぷ?,從而提高系統(tǒng)可靠性。由于共享內(nèi)存,對(duì)稱芯粒處理器可以在不增加額外私有內(nèi)存的情況下增加芯粒的數(shù)量。

然而,當(dāng)對(duì)稱芯粒架構(gòu)繼續(xù)擴(kuò)大芯粒數(shù)量時(shí),互連設(shè)計(jì)將受到物理布線的嚴(yán)重限制。解決高帶寬芯粒間通信和內(nèi)存請(qǐng)求沖突也具有挑戰(zhàn)性。請(qǐng)注意,增加 芯粒 的數(shù)量可能會(huì)增加不同 芯粒 對(duì)存儲(chǔ)器的請(qǐng)求沖突,這會(huì)損害系統(tǒng)性能。平均而言,內(nèi)存帶寬由芯粒劃分。增加芯粒的數(shù)量會(huì)減少每個(gè)芯粒分區(qū)內(nèi)存帶寬。工業(yè)界和學(xué)術(shù)界的一些設(shè)計(jì)采用了對(duì)稱芯片架構(gòu)。Apple M1 Ultra 處理器[43]采用了芯粒集成設(shè)計(jì),具有兩個(gè)相同的 M1 Max 芯片,具有統(tǒng)一的內(nèi)存架構(gòu)設(shè)計(jì)。芯片上的核心可以訪問高達(dá) 128GB 的統(tǒng)一內(nèi)存。Fotouhi[44]提出了一種基于芯粒集成的統(tǒng)一內(nèi)存架構(gòu),以克服距離相關(guān)的功耗和延遲問題。Sharma [45]提出了一種通過板載光學(xué)互連共享統(tǒng)一存儲(chǔ)器的多芯片系統(tǒng)。

fb7dadc2-b9cb-11ee-8b88-92fbcf53809c.png

圖 11. 大芯片處理器的架構(gòu)。

fb9f1ed0-b9cb-11ee-8b88-92fbcf53809c.png

圖 12. 大芯片不同架構(gòu)之間的比較。

NUMA-芯粒架構(gòu)。NUMA芯粒架構(gòu)包含通過點(diǎn)對(duì)點(diǎn)網(wǎng)絡(luò)或中央路由器互連的多個(gè)芯粒,并且NUMA芯粒架構(gòu)的存儲(chǔ)器系統(tǒng)由所有芯粒共享但分布在架構(gòu)中,如圖11 (b)所示。芯粒可以采用共享緩存的多核設(shè)計(jì),或者通過NoC互連的PE的設(shè)計(jì)。而且,每個(gè)芯粒可以占用自己的本地存儲(chǔ)器,例如DRAM、HBM等,這是其區(qū)別于對(duì)稱芯粒架構(gòu)的最明顯特征。盡管這些連接到不同芯粒的存儲(chǔ)器分布在系統(tǒng)中,但存儲(chǔ)器地址空間是全局共享的。共享內(nèi)存的這種分布式放置會(huì)導(dǎo)致 NUMA 效應(yīng),即訪問遠(yuǎn)程內(nèi)存比訪問本地內(nèi)存慢[46]。NUMA-芯粒 架構(gòu)考慮了一些優(yōu)點(diǎn)。從單個(gè)芯粒的角度來看,每個(gè)芯粒都擁有自己的內(nèi)存,具有相對(duì)私有的內(nèi)存帶寬和容量,減少了與其他芯粒的內(nèi)存請(qǐng)求的沖突。此外,芯片與內(nèi)存的緊密放置提供了數(shù)據(jù)移動(dòng)的低延遲和低功耗。

此外,在NUMA-芯粒架構(gòu)中,通過高帶寬點(diǎn)對(duì)點(diǎn)網(wǎng)絡(luò)或路由器互連的多個(gè)芯??梢圆⑿袌?zhí)行任務(wù),從而提高系統(tǒng)性能和兼容性。這種 NUMA 芯粒架構(gòu)具有很高的可擴(kuò)展性,因?yàn)槊總€(gè)芯粒都有自己的內(nèi)存。然而,隨著 NUMA-芯粒 架構(gòu)擴(kuò)展到更多的芯粒,設(shè)芯粒到芯?;ミB網(wǎng)絡(luò)變得具有挑戰(zhàn)性。

此外,隨著芯粒數(shù)量的增加,編程模型的成本和難度也隨之增加。有一些設(shè)計(jì)采用 NUMA-芯粒 架構(gòu)。AMD 的第一代 EPYC 處理器將四個(gè)相同的芯粒與本地內(nèi)存連接起來[39]。對(duì)內(nèi)存的本地訪問和遠(yuǎn)程訪問之間的延遲差異可達(dá) 51ns [46]。

在AMD的第二代EPYC處理器中,計(jì)算芯粒通過IO芯粒連接到內(nèi)存,這顯示了NUMA-芯粒架構(gòu)[34]。另一種典型的 NUMA-芯粒 架構(gòu)設(shè)計(jì)是 Intel Sapphire Rapids [47]。它由四個(gè)芯粒組成,通過 MDFIO(多芯片結(jié)構(gòu) IO)連接。四個(gè)芯粒組織為 2x2 陣列,每個(gè)芯片充當(dāng) NUMA 節(jié)點(diǎn)。Zaruba [48]架構(gòu)了 4 個(gè)基于 RISC-V 處理器的芯粒,每個(gè)芯粒都有三個(gè)分別與其他三個(gè)芯粒的鏈接,以提供非統(tǒng)一的內(nèi)存訪問。

集群芯粒架構(gòu)。如圖 11(c)所示,集群芯粒架構(gòu)包含許多芯粒集群,總共有數(shù)千個(gè)核心。采用環(huán)形、網(wǎng)狀、一維/二維環(huán)面等高速或高吞吐量網(wǎng)絡(luò)拓?fù)鋪磉B接集群,以滿足此類超大規(guī)模系統(tǒng)的高帶寬和低延遲通信需求。每個(gè)集群由許多互連的芯粒和單獨(dú)的內(nèi)存組成,并且每個(gè)集群都可以運(yùn)行單獨(dú)的操作系統(tǒng)。集群可以通過消息傳遞的方式與其他集群進(jìn)行通信。通過高性能互連實(shí)現(xiàn)強(qiáng)大集群互連的集群-芯粒架構(gòu)顯示出高可擴(kuò)展性并提供巨大的計(jì)算能力。作為一種高度可擴(kuò)展的架構(gòu),集群芯粒架構(gòu)是許多設(shè)計(jì)的基礎(chǔ)。IntAct [30]集成了 96 個(gè)內(nèi)核,這些內(nèi)核在有源中介層上分為 6 個(gè)芯粒。6 個(gè)芯粒通過 NoC 連接。Tesla[49]發(fā)布了用于億級(jí)計(jì)算的Dojo系統(tǒng)微架構(gòu)。在 Dojo 中,一個(gè)訓(xùn)練圖塊由 25 個(gè) D1 芯粒組成,這些芯粒排列為 5x5 矩陣樣式。通過 2D 網(wǎng)格網(wǎng)絡(luò)互連的許多訓(xùn)練塊可以形成更大的系統(tǒng)。Simba[1]通過 MCM 集成,利用網(wǎng)狀互連構(gòu)建了 6x6 芯粒系統(tǒng)。芯粒 內(nèi)的 PE 使用 NoC 連接。

異構(gòu)芯粒架構(gòu)。異構(gòu)芯粒架構(gòu)由不同種類的芯粒組成,如圖11(d)所示。同一中介層上的不同種類的芯粒可以與其他種類的芯?;パa(bǔ),協(xié)同執(zhí)行計(jì)算任務(wù)。華為鯤鵬920系列SoC[25]是基于計(jì)算芯粒、IO 芯粒、AI 芯粒等的異構(gòu)系統(tǒng)。Intel Lakefield[50]提出了將計(jì)算芯粒堆疊在基礎(chǔ)芯粒上的設(shè)計(jì)。計(jì)算芯粒集成了許多處理核心,包括CPU、GPU、IPU(基礎(chǔ)設(shè)施處理單元)等,基礎(chǔ)芯粒包含豐富的IO接口,包括PCIe Gen3、USB type-C等。在Ponte Vecchio[51]中,有兩個(gè)基礎(chǔ)tile使用EMIB(嵌入式多芯片互連橋)互連。計(jì)算tile和 RAMBO tile堆疊在每個(gè)基礎(chǔ)tile上。Intel Meteor Lake處理器[52]集成了GPU tile、CPU tile、IO tile和SoC tile。

對(duì)于當(dāng)前和未來的億億級(jí)計(jì)算,我們預(yù)測(cè)分層芯粒架構(gòu)將是一種強(qiáng)大而靈活的解決方案。如圖11 (e)所示,分層芯粒架構(gòu)被設(shè)計(jì)為具有分層互連的多個(gè)內(nèi)核和多個(gè)芯粒。在芯粒內(nèi)部,內(nèi)核使用超低延遲互連進(jìn)行通信,而芯粒之間則以得益于先進(jìn)封裝技術(shù)的低延遲互連,從而在這種高可擴(kuò)展性系統(tǒng)中實(shí)現(xiàn)片上延遲和NUMA效應(yīng)可以最小化。存儲(chǔ)器層次結(jié)構(gòu)包含核心存儲(chǔ)器、片內(nèi)存儲(chǔ)器和片外存儲(chǔ)器。這三個(gè)級(jí)別的內(nèi)存在內(nèi)存帶寬、延遲、功耗和成本方面有所不同。在分層芯粒架構(gòu)的概述中,多個(gè)核心通過交叉交換機(jī)連接并共享緩存。這就形成了一個(gè)pod結(jié)構(gòu),并且pod通過芯粒內(nèi)網(wǎng)絡(luò)互連。多個(gè)pod形成一個(gè)芯粒,芯粒通過芯粒間網(wǎng)絡(luò)互連,然后連接到片外存儲(chǔ)器。需要仔細(xì)設(shè)計(jì)才能充分利用這種層次結(jié)構(gòu)。合理利用內(nèi)存帶寬來平衡不同計(jì)算層次的工作負(fù)載可以顯著提高芯粒系統(tǒng)效率。正確設(shè)計(jì)通信網(wǎng)絡(luò)資源可以確保芯粒協(xié)同執(zhí)行共享內(nèi)存任務(wù)。

6. 構(gòu)建大芯片:我們的實(shí)現(xiàn)

為了探索大芯片的設(shè)計(jì)和實(shí)現(xiàn)技術(shù),我們架構(gòu)和設(shè)計(jì)了一個(gè)基于 16 芯粒的 256 核處理器系統(tǒng),命名為浙江大芯片。在此,我們將介紹所提出的大芯片處理器。

浙江大芯片采用可擴(kuò)展的基于瓦片的架構(gòu),如圖13所示。該處理器由 16 個(gè)小芯粒組成,并且有可能擴(kuò)展到 100 個(gè)小芯粒。每個(gè)芯粒中都有16個(gè)CPU 處理器,通過片上網(wǎng)絡(luò)(NOC) 連接,每個(gè)tile 完全對(duì)稱互連,以實(shí)現(xiàn)多個(gè)芯粒之間的通信。CPU處理器是基于RISC-V指令集設(shè)計(jì)的。此外,該處理器采用統(tǒng)一內(nèi)存系統(tǒng),這意味著任何tile上的任何核心都可以直接訪問整個(gè)處理器的內(nèi)存。

fba3106c-b9cb-11ee-8b88-92fbcf53809c.png

圖 13. 浙江大芯片概況

為了連接多個(gè)小芯粒,采用了芯片間 (D2D) 接口。該接口采用基于時(shí)分復(fù)用機(jī)制的通道共享技術(shù)進(jìn)行設(shè)計(jì)。這種方法減少了芯片間信號(hào)的數(shù)量,從而最大限度地減少了 I/O 凸塊和內(nèi)插器布線資源的面積開銷,從而可以顯著降低基板設(shè)計(jì)的復(fù)雜性。小芯粒終止于構(gòu)建微型 I/O 焊盤的頂部金屬層。浙江大芯處理器采用22 nm CMOS工藝設(shè)計(jì)和制造。

7. 前景與挑戰(zhàn)

除了提高計(jì)算能力,大芯片還將促進(jìn)新型設(shè)計(jì)方法的發(fā)展。我們預(yù)測(cè),近存計(jì)算和光電計(jì)算將是重要的研究方向。

7.1

近存計(jì)算

由于計(jì)算工作量大量集中在芯粒中,片外存儲(chǔ)系統(tǒng)通常具有簡(jiǎn)單的存儲(chǔ)數(shù)據(jù)和IO的功能。對(duì)于數(shù)據(jù)局部性較差的應(yīng)用,頻繁發(fā)生片內(nèi)緩存未命中,導(dǎo)致需要從片外存儲(chǔ)器重新加載數(shù)據(jù)。大量芯粒和內(nèi)存之間頻繁的數(shù)據(jù)移動(dòng)可能會(huì)導(dǎo)致額外的延遲和高能耗。在對(duì)稱芯粒架構(gòu)中,總線擁塞會(huì)使這種情況惡化,從而降低系統(tǒng)性能。為了解決這些問題,可以使用近數(shù)據(jù)處理來引入近存計(jì)算,將處理和內(nèi)存單元與高帶寬互連緊密放置,以最大限度地提高系統(tǒng)性能。近存計(jì)算打破了傳統(tǒng)內(nèi)存層次結(jié)構(gòu)的性能限制。3D 堆棧內(nèi)存是近存計(jì)算的一個(gè)很好的例子,其作為容量、帶寬和性能限制的解決方案而受到越來越多的關(guān)注。

在3D堆疊存儲(chǔ)器中,多個(gè)DRAM芯粒垂直堆疊在底部邏輯芯粒上,TSV實(shí)現(xiàn)芯粒之間的電氣連接,表現(xiàn)出芯粒間數(shù)據(jù)傳輸?shù)母邘?。位于堆疊存儲(chǔ)器底部的邏輯芯粒可以進(jìn)行相對(duì)簡(jiǎn)單的數(shù)據(jù)處理,承擔(dān)部分計(jì)算工作量。近存計(jì)算的另一種方法是增加片內(nèi)緩存的容量,以在片上保留更多數(shù)據(jù),而不是頻繁調(diào)度片內(nèi)和片外數(shù)據(jù)。AMD提出了3D V-cache技術(shù),在Zen3共享的32MB L3緩存上堆疊64MB緩存,總共實(shí)現(xiàn)96MB L3緩存。Cerebras WSE 甚至實(shí)現(xiàn)了 18GB 片上內(nèi)存。

7.2

光電子計(jì)算

光電子計(jì)算已成為解決電氣設(shè)計(jì)瓶頸的潛在方案,尤其是用于芯片間通信的電氣 IO,隨著高帶寬需求的增加,這一瓶頸變得更加突出[53]、[54]、[55]。目前,電氣互連的數(shù)據(jù)速率、引腳數(shù)和引腳間距都受到串?dāng)_等信號(hào)完整性問題的限制。此外,一些引腳被保留用于電源/接地引腳等非通信目的,進(jìn)一步降低了引腳利用率,加劇了阻礙芯片間高帶寬通信的互連物理限制。然而,限制芯粒之間的距離可能會(huì)導(dǎo)致與遠(yuǎn)程芯粒通信的多跳,這進(jìn)一步影響系統(tǒng)性能。

本文定義的光 IO 處理器是未來的一項(xiàng)重要技術(shù),它利用 IO 芯片和光學(xué)設(shè)備促進(jìn)高帶寬通信。光 IO 處理器能克服傳統(tǒng)電氣互連的信號(hào)完整性限制,使其成為解決上述電氣設(shè)計(jì)問題的有吸引力的解決方案。研究[53]、[54]、[55]、[56]、[57]說明了高性能、低能耗光 IO 實(shí)現(xiàn)和封裝的可行性。

7.3

挑戰(zhàn)

大芯片雖然可以實(shí)現(xiàn)強(qiáng)大的計(jì)算能力,但仍面臨良率、散熱和性能等主要挑戰(zhàn)。首先,大芯片的集成步驟較多,受器件、技術(shù)、環(huán)境等因素影響,難以保證高良率。雖然 KGD 等方法可以提高良率,但也必須考慮缺陷芯片的設(shè)計(jì)成本。其次,散熱是大芯片設(shè)計(jì)中的一個(gè)重要問題,大量芯片會(huì)產(chǎn)生大量熱量。因此,散熱系統(tǒng)和低功耗設(shè)計(jì)至關(guān)重要。最后,大芯片設(shè)計(jì)中的任務(wù)映射和設(shè)計(jì)空間探索實(shí)施起來具有挑戰(zhàn)性。此外,在芯粒集成中,必須考慮不均勻帶寬效應(yīng)。





審核編輯:劉清

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 晶圓
    +關(guān)注

    關(guān)注

    53

    文章

    5165

    瀏覽量

    129801
  • 晶體管
    +關(guān)注

    關(guān)注

    77

    文章

    10020

    瀏覽量

    141689
  • 人工智能
    +關(guān)注

    關(guān)注

    1807

    文章

    49028

    瀏覽量

    249551
  • 硅芯片
    +關(guān)注

    關(guān)注

    0

    文章

    92

    瀏覽量

    17321
  • 深度神經(jīng)網(wǎng)絡(luò)

    關(guān)注

    0

    文章

    62

    瀏覽量

    4703

原文標(biāo)題:“大芯片”的挑戰(zhàn)、模式和架構(gòu)

文章出處:【微信號(hào):wc_ysj,微信公眾號(hào):旺材芯片】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    晶體管架構(gòu)的演變過程

    芯片制程從微米級(jí)進(jìn)入2納米時(shí)代,晶體管架構(gòu)經(jīng)歷了從 Planar FET 到 MBCFET的四次關(guān)鍵演變。這不僅僅是形狀的變化,更是一次次對(duì)物理極限的挑戰(zhàn)。從平面晶體管到MBCFET,每一次
    的頭像 發(fā)表于 07-08 16:28 ?820次閱讀
    晶體管<b class='flag-5'>架構(gòu)</b>的演變過程

    同步電機(jī)失步淺析

    純分享帖,需要者可點(diǎn)擊附件免費(fèi)獲取完整資料~~~*附件:同步電機(jī)失步淺析.pdf【免責(zé)聲明】本文系網(wǎng)絡(luò)轉(zhuǎn)載,版權(quán)歸原作者所有。本文所用視頻、圖片、文字如涉及作品版權(quán)問題,請(qǐng)第一時(shí)間告知,刪除內(nèi)容!
    發(fā)表于 06-20 17:42

    芯知識(shí)|WT2003H語(yǔ)音芯片深度解析:DAC輸出模式與硬件設(shè)計(jì)精要

    一、WT2003H核心特性與輸出模式架構(gòu)作為唯創(chuàng)電子經(jīng)典款語(yǔ)音芯片,WT2003H采用32位DSP內(nèi)核,支持最高320kbps音頻解碼(ADPCM/WAV格式),其輸出架構(gòu)具備獨(dú)特雙模
    的頭像 發(fā)表于 06-16 09:18 ?258次閱讀
    芯知識(shí)|WT2003H語(yǔ)音<b class='flag-5'>芯片</b>深度解析:DAC輸出<b class='flag-5'>模式</b>與硬件設(shè)計(jì)精要

    瑞薩RA芯片的Boot模式簡(jiǎn)介

    RA芯片在上電或通過芯片復(fù)位引腳進(jìn)行復(fù)位時(shí),會(huì)根據(jù)MD引腳的電平來進(jìn)入不同的芯片操作模式:“Single-chip Mode”或者“Boot Mode”。
    的頭像 發(fā)表于 04-09 10:52 ?1219次閱讀
    瑞薩RA<b class='flag-5'>芯片</b>的Boot<b class='flag-5'>模式</b>簡(jiǎn)介

    航順芯片用于生活模式# 芯片# 航順

    芯片
    jf_17898979
    發(fā)布于 :2025年03月14日 14:40:15

    全球驅(qū)動(dòng)芯片市場(chǎng)機(jī)遇與挑戰(zhàn)

    日前,在CINNO Research舉辦的“全球驅(qū)動(dòng)芯片市場(chǎng)機(jī)遇與挑戰(zhàn)”會(huì)員線上沙龍中,CINNO Research首席分析師周華以近期行業(yè)密集的資本動(dòng)作為切口,揭開了顯示驅(qū)動(dòng)芯片市場(chǎng)的深層變革。
    的頭像 發(fā)表于 03-13 10:51 ?1072次閱讀

    芯片架構(gòu)設(shè)計(jì)的關(guān)鍵要素

    芯片架構(gòu)設(shè)計(jì)的目標(biāo)是達(dá)到功能、性能、功耗、面積(FPA)的平衡。好的芯片架構(gòu)能有效提升系統(tǒng)的整體性能,優(yōu)化功耗,并確保在成本和時(shí)間的限制下完成設(shè)計(jì)任務(wù)。
    的頭像 發(fā)表于 03-01 16:23 ?624次閱讀

    芯片封測(cè)架構(gòu)芯片封測(cè)流程

    在此輸入導(dǎo)芯片封測(cè)芯片封測(cè)是一個(gè)復(fù)雜且精細(xì)的過程,它涉及多個(gè)步驟和環(huán)節(jié),以確保芯片的質(zhì)量和性能。本文對(duì)芯片封測(cè)架構(gòu)
    的頭像 發(fā)表于 12-31 09:15 ?1472次閱讀
    <b class='flag-5'>芯片</b>封測(cè)<b class='flag-5'>架構(gòu)</b>和<b class='flag-5'>芯片</b>封測(cè)流程

    圣誕特輯 |開源芯片系列講座第25期:RISC-V架構(gòu)在高性能領(lǐng)域的進(jìn)展與挑戰(zhàn)

    鷺島論壇開源芯片系列講座第25期「RISC-V架構(gòu)在高性能領(lǐng)域的進(jìn)展與挑戰(zhàn)」圣誕夜(周三)20:00精彩開播期待與您云相聚,共襄學(xué)術(shù)盛宴!|直播信息報(bào)告題目RISC-V架構(gòu)在高性能領(lǐng)域
    的頭像 發(fā)表于 12-24 08:03 ?848次閱讀
    圣誕特輯 |開源<b class='flag-5'>芯片</b>系列講座第25期:RISC-V<b class='flag-5'>架構(gòu)</b>在高性能領(lǐng)域的進(jìn)展與<b class='flag-5'>挑戰(zhàn)</b>

    直播預(yù)約 |開源芯片系列講座第25期:RISC-V架構(gòu)在高性能領(lǐng)域的進(jìn)展與挑戰(zhàn)

    鷺島論壇開源芯片系列講座第25期「RISC-V架構(gòu)在高性能領(lǐng)域的進(jìn)展與挑戰(zhàn)」12月25日(周三)20:00精彩開播期待與您云相聚,共襄學(xué)術(shù)盛宴!|直播信息報(bào)告題目RISC-V架構(gòu)在高性
    的頭像 發(fā)表于 12-13 17:01 ?485次閱讀
    直播預(yù)約 |開源<b class='flag-5'>芯片</b>系列講座第25期:RISC-V<b class='flag-5'>架構(gòu)</b>在高性能領(lǐng)域的進(jìn)展與<b class='flag-5'>挑戰(zhàn)</b>

    基于risc-v架構(gòu)芯片與linux系統(tǒng)兼容性討論

    的硬件接口兼容。 平臺(tái)特性支持 : RISC-V架構(gòu)芯片可能具備一些特定的功能特性,如特定的節(jié)能模式、硬件加速器等。 Linux內(nèi)核需要為這些特性提供支持并編寫相應(yīng)的代碼,以確保在RISC-V
    發(fā)表于 11-30 17:20

    技術(shù)科普 | 芯片設(shè)計(jì)中的LEF文件淺析

    技術(shù)科普 | 芯片設(shè)計(jì)中的LEF文件淺析
    的頭像 發(fā)表于 11-13 01:03 ?757次閱讀
    技術(shù)科普 | <b class='flag-5'>芯片</b>設(shè)計(jì)中的LEF文件<b class='flag-5'>淺析</b>

    主流芯片架構(gòu)包括哪些類型

    主流芯片架構(gòu)芯片設(shè)計(jì)領(lǐng)域中的核心組成部分,它們決定了芯片的功能、性能、功耗等多個(gè)方面。當(dāng)前,全球范圍內(nèi)主流的芯片
    的頭像 發(fā)表于 08-22 11:08 ?2770次閱讀

    自動(dòng)駕駛?cè)笾髁?b class='flag-5'>芯片架構(gòu)分析

    當(dāng)前主流的AI芯片主要分為三類,GPU、FPGA、ASIC。GPU、FPGA均是前期較為成熟的芯片架構(gòu),屬于通用型芯片。ASIC屬于為AI特定場(chǎng)景定制的
    的頭像 發(fā)表于 08-19 17:11 ?2397次閱讀
    自動(dòng)駕駛?cè)笾髁?b class='flag-5'>芯片</b><b class='flag-5'>架構(gòu)</b>分析

    探秘四大主流芯片架構(gòu):誰將主宰未來科技?

    在科技日新月異的今天,芯片作為現(xiàn)代電子設(shè)備的心臟,其架構(gòu)的選擇與設(shè)計(jì)顯得尤為重要。目前市場(chǎng)上主流的芯片架構(gòu)有四種:X86、ARM、RISC-V和MIPS。它們各具特色,廣泛應(yīng)用于各種電
    的頭像 發(fā)表于 07-31 11:15 ?4878次閱讀
    探秘四大主流<b class='flag-5'>芯片</b><b class='flag-5'>架構(gòu)</b>:誰將主宰未來科技?