智能化DRAM為代表的技術(shù)方向?qū)⒊蔀楦淖兇鎯ζ魇袌龈窬值闹匾侄巍?/strong>
為了解決從客戶端系統(tǒng)到高性能服務(wù)器的廣泛應(yīng)用所面臨的性能和功耗挑戰(zhàn),JEDEC固態(tài)技術(shù)協(xié)會于2020年7月正式發(fā)布了下一代主流內(nèi)存標(biāo)準(zhǔn)DDR5 SDRAM的最終規(guī)范(JESD79-5),為全球計(jì)算機(jī)內(nèi)存技術(shù)拉開了新時(shí)代的序幕。
JEDEC將DDR5描述為一種“具備革命意義”的存儲器架構(gòu),認(rèn)為它的出現(xiàn)標(biāo)志整個(gè)產(chǎn)業(yè)即將向DDR5服務(wù)器雙列直插式存儲器模塊(DIMM)過渡。
DDR5的速度比已經(jīng)超級快的DDR4還要快。與DDR4內(nèi)存的3.2Gbps最高傳輸速率相比,全新DDR5內(nèi)存則高達(dá)8.4Gbps。此外,DDR5也改善了DIMM的工作電壓,將供電電壓從DDR4的1.2V降至1.1V,從而進(jìn)一步提升了內(nèi)存的能效。兩者之間的性能、容量和功耗等指標(biāo)的具體比較見表1。
表1:DDR5與DDR4 DIMMs比較
DRAM芯片密度方面,DDR4在單裸片封裝(SDP)模式下僅支持最高16Gb的DRAM容量,而DDR5內(nèi)存標(biāo)準(zhǔn)將這一數(shù)字提高到了64Gb。這意味著,DDR5 DIMM在SDP模式下的最高容量可達(dá)256GB,是DDR4 64Gb最大容量的4倍。同時(shí),DDR5 還支持片上錯(cuò)誤更正碼、錯(cuò)誤透明模式、封裝后修復(fù)和讀寫CRC校驗(yàn)等功能,并支持最高40個(gè)單元的堆疊,從而可使其有效內(nèi)存容量達(dá)到2TB。
在設(shè)計(jì)上,DDR5內(nèi)存保持與DDR4相同的288個(gè)引腳數(shù),不過定義不同,無法兼容DDR4插槽。DDR5 DIMM采用了彼此獨(dú)立的40位寬雙通道設(shè)計(jì)(32個(gè)數(shù)據(jù)位,8個(gè)錯(cuò)誤更正碼字節(jié)),每個(gè)通道的突發(fā)長度從8字節(jié)(BL8)翻倍到16字節(jié)(BL16)。所以盡管數(shù)據(jù)位仍然是64位,但并發(fā)能力的提高使得內(nèi)存存取效率得到了提升,而且兩個(gè)通道共享寄存時(shí)鐘驅(qū)動器,每側(cè)可提供四個(gè)輸出時(shí)鐘,能夠優(yōu)化信號完整性。
此外,DDR5還帶來了一種名為“同一區(qū)塊刷新”(SAME-BANK Refresh)的新特性。這一命令允許對每一組區(qū)塊中的單獨(dú)區(qū)塊進(jìn)行刷新,而讓其他區(qū)塊保持打開狀態(tài),以繼續(xù)正常操作。測試資料顯示,單列DDR5模塊與DDR4雙列模塊以3200MT/s的速度進(jìn)行比較時(shí),前者性能可以提升1.28倍,在4800MT/s的入門級數(shù)據(jù)速率下,DDR5性能提升了高達(dá)1.87倍。
市場調(diào)研機(jī)構(gòu)Omdia分析指出,對DDR5的市場需求從2020年就開始逐步顯現(xiàn),到2022年,DDR5預(yù)計(jì)將占據(jù)整個(gè)DRAM市場的10%,2024年則將進(jìn)一步擴(kuò)大至43%; Yole Group則預(yù)測稱,DDR5的廣泛采用應(yīng)該會從2022年的服務(wù)器市場開始,2023年,手機(jī)、筆記本電腦和PC等主流市場也將開始廣泛采用DDR5,出貨量明顯將會超過DDR4,屆時(shí)兩種技術(shù)間將完成快速過渡。
與DDR2、3和4的升級演進(jìn)重點(diǎn)主要集中在如何降低功耗上,移動和終端應(yīng)用在于其主要推動力不同,DDR5的主要推動因素是因?yàn)殡S著CPU核心數(shù)量和運(yùn)算性能的持續(xù)增加,內(nèi)存帶寬和容量也必須成比例地?cái)U(kuò)展。
例如,2000~2019年,內(nèi)存帶寬從約1GB/s迅速提升至200GB/s,但與此同時(shí),一個(gè)系統(tǒng)中處理器核心數(shù)量也從早期的單核心、雙核心,增加到如今的60個(gè)以上。在這樣一個(gè)超多核心處理器的系統(tǒng)中,分?jǐn)偟矫總€(gè)核心上的可用帶寬嚴(yán)重不足。
推動DDR5前進(jìn)的其他因素,還包括:處理器和內(nèi)存希望擁有相同的內(nèi)存讀取細(xì)微性(64字節(jié)快取內(nèi)存行); 相同或更好的可靠性、可用性和可服務(wù)性功能,例如必須支持單錯(cuò)誤校正和雙錯(cuò)誤檢測(single error correction/double error detection); 保持在冷卻功率范圍內(nèi)(~15W/DIMM),并控制好啟動和內(nèi)存訓(xùn)練的時(shí)間,以免影響預(yù)期啟動時(shí)間。
數(shù)據(jù)中心、PC與平板電腦和邊緣計(jì)算,被視作DDR5最有希望廣泛普及的三大領(lǐng)域。優(yōu)先級方面,業(yè)界普遍認(rèn)為DDR5將緊隨DDR4的步伐,率先導(dǎo)入數(shù)據(jù)中心而不是PC領(lǐng)域,以應(yīng)對運(yùn)算密集型的工作負(fù)載??紤]到PC消費(fèi)者對整機(jī)價(jià)格敏感度極高,且DDR5初期推出的價(jià)格與DDR4相比存在較高溢價(jià),所以普及速度會相對較慢。
從目前的實(shí)際情況來看,DDR4仍然保持著強(qiáng)勁的態(tài)勢,DDR5還處于早期的量產(chǎn)爬坡階段,預(yù)計(jì)到2023年底DDR5的出貨量才會超過DDR4。在PC市場,英特爾(Intel) Alder Lake處理器已經(jīng)搭配了DDR5內(nèi)存,AMD也宣布會在今年支持DDR5; 在服務(wù)器市場,第一個(gè)DDR5服務(wù)器已經(jīng)出樣,預(yù)計(jì)會在接下來的3~6個(gè)月內(nèi)實(shí)現(xiàn)早期量產(chǎn)。這樣看來,先前盛傳的“2022年將能夠真正全面進(jìn)入DDR5時(shí)代”的說法看來有些過于激進(jìn)——畢竟2022年底已近,而支持DDR5的處理器平臺仍比較有限。
DRAM市場的幾大參與者包括了三星(Samsung)、美光(Micron)、SK海力士(SK Hynix)、南亞科技(Nanya)、力積電(PSMC)等,圖1展示了該領(lǐng)域主要市場參與者的技術(shù)演進(jìn)方向。簡單而言,三星、美光與SK海力士針對DDR4、DDR5和LPDDR5應(yīng)用,已經(jīng)以15nm和14nm等級的單元設(shè)計(jì)規(guī)則發(fā)布了D1z和D1α節(jié)點(diǎn)的產(chǎn)品; 三星是最早在DRAM上采用極紫外光(EUV)微影技術(shù)的供應(yīng)商,將其應(yīng)用于D1x DDR4 DRAM模組和D1z LPDDR5規(guī)模量產(chǎn)。?
圖1:主流供應(yīng)商的DRAM制程節(jié)點(diǎn)演進(jìn)
(來源:TechInsights)
HBM3
隨著人工智能(AI)和機(jī)器學(xué)習(xí)(ML)領(lǐng)域需求的快速發(fā)展,內(nèi)存產(chǎn)品設(shè)計(jì)的復(fù)雜性正在快速上升,并對帶寬提出了更高的要求,高帶寬記憶體(HBM)成為繞過DRAM傳統(tǒng)I/O增強(qiáng)模式演進(jìn)的另一個(gè)優(yōu)秀方案。
從最開始數(shù)據(jù)傳輸速率約為1Gbps左右的HBM1,到2016年推出的最高數(shù)據(jù)傳輸速率為2Gbps的HBM2,再到2018年推出的最高數(shù)據(jù)傳輸速率3.6Gbps的HBM2E。
而在三星發(fā)布的最新藍(lán)圖中,其HBM3技術(shù)已于今年開始量產(chǎn),接口傳輸速率可達(dá)6.4Gbps,相比上一代提升1.8倍,從而實(shí)現(xiàn)單芯片接口帶寬819GB/s,如果使用6層堆疊可以實(shí)現(xiàn)4.8TB/s的總帶寬。到2024年,預(yù)計(jì)將實(shí)現(xiàn)接口速度高達(dá)7.2Gbps的HBM3P,這一代數(shù)據(jù)傳輸率進(jìn)一步提升10%,從而將堆疊的總帶寬提升到5TB/s以上。
除了AI/ML訓(xùn)練市場之外,HBM3還可用于5G、高效能運(yùn)算及其他與數(shù)據(jù)中心相關(guān)的應(yīng)用場景、繪圖應(yīng)用和網(wǎng)絡(luò)應(yīng)用。其發(fā)展很大程度上是由不斷上升的帶寬需求驅(qū)動,而對帶寬的需求幾乎沒有上限。換句話說,目前來看HBM的發(fā)展可能不會遇到障礙。但相較于GDDR DRAM動輒16/18Gbps的速率,HBM3的速率仍然存在差距,而限制HBM發(fā)展的原因則主要來自兩方面:一是中間層,二是成本。
先進(jìn)的2.5D/3D制造是造成成本偏高的原因。眾所周知,HBM技術(shù)與其他技術(shù)最大的不同,就是采用了3D堆疊技術(shù)。HBM2E、DDR、GDDR,HBM3架構(gòu)的基本單元同樣是基于DRAM,但不同于其他產(chǎn)品將DDR進(jìn)行平鋪的做法,HBM選擇了3D堆疊,其直接結(jié)果就是接口變得更寬。比如DDR的接口位寬只有64位,而HBM透過DRAM堆疊的方式可以將位寬提升到1024位,這就是HBM與其他競爭技術(shù)相比最大的差異。但這對成本比較敏感的客戶或應(yīng)用來說,使用HBM的門檻就被大幅提升了。
系統(tǒng)級創(chuàng)新將成為更大內(nèi)存系統(tǒng)的關(guān)鍵
為了解決存儲容量的需求,除了芯片級解決方案之外,系統(tǒng)級解決方案也是重要方向之一,使用CXL技術(shù)做內(nèi)存擴(kuò)展就極具代表性。以數(shù)據(jù)中心為例,圖2從左至右為依次展示了數(shù)據(jù)中心正在及將要經(jīng)歷的三次重要轉(zhuǎn)型。
?圖2:數(shù)據(jù)中心架構(gòu)不斷演進(jìn) ?
首先,大約在2021年底,服務(wù)器內(nèi)存將會開始向DDR5轉(zhuǎn)型。與前代產(chǎn)品DDR4相比,DDR5整體架構(gòu)較為一致,但在容量、能效等方面實(shí)現(xiàn)了大幅提升,具備現(xiàn)代化數(shù)據(jù)中心所必需的特性。
其次,預(yù)計(jì)到2022年,數(shù)據(jù)中心將會通過串行鏈路實(shí)現(xiàn)內(nèi)存子系統(tǒng)的擴(kuò)展,也就是CXL。利用CXL,就可以在傳統(tǒng)插拔式內(nèi)存條的基礎(chǔ)之上,為服務(wù)器及數(shù)據(jù)中心增加全新的內(nèi)存擴(kuò)展方式。比傳統(tǒng)插拔內(nèi)存條的方式,CXL可以進(jìn)一步提高現(xiàn)有數(shù)據(jù)中心內(nèi)存的容量和帶寬,也被稱作“容量與帶寬的雙擴(kuò)展”。
最后,數(shù)據(jù)中心分解化。CXL的使用將讓業(yè)界更多關(guān)注資源池化和資源本身的功能效應(yīng),更高效率地分配資源。透過分解化的全新數(shù)據(jù)中心架構(gòu),運(yùn)算、內(nèi)存、存儲等資源將進(jìn)一步池化,從而能夠依照工作負(fù)載的具體需求,將資源定向分配。使用完成之后,這些資源又將回歸到統(tǒng)一的資源池中,等待后續(xù)的工作負(fù)載進(jìn)行重新分配。
資源池化可以將資源的利用率大幅度提高,這會為超大規(guī)模運(yùn)算,特別是云服務(wù)帶來巨大的優(yōu)勢,幫助大幅度降低總體擁有成本(TCO)。因此,2019年3月,英特爾宣布聯(lián)合微軟(Microsoft)、阿里巴巴、思科(Cisco)、戴爾(Dell) EMC、Facebook、Google、惠普企業(yè)(HPE)和華為等公司,共同推出了一個(gè)全新的互連標(biāo)準(zhǔn),取名為Compute Express Link (CXL),應(yīng)用目標(biāo)鎖定互聯(lián)網(wǎng)數(shù)據(jù)中心、通訊基礎(chǔ)設(shè)施、 云端運(yùn)算與云端服務(wù)等領(lǐng)域。
如前所述,作為一種開放的行業(yè)標(biāo)準(zhǔn),CXL可在數(shù)據(jù)中心內(nèi)的專用運(yùn)算、內(nèi)存、I/O和存儲元素之間提供高帶寬、低延遲的連接,以允許為給定的工作負(fù)載提供每個(gè)元素的最佳組合。
存儲器更加智能化
在傳統(tǒng)運(yùn)算設(shè)備廣泛采用的馮·諾紐曼架構(gòu)(Von Neumann architecture)中,運(yùn)算和存儲功能不但是分離的,而且更側(cè)重于運(yùn)算。資料在處理器和存儲器之間不停的來回傳輸,消耗了約80%的時(shí)間和功耗,也就是熟知的“存儲墻”和“功耗墻”問題。
學(xué)術(shù)界為此想出了很多方法試圖改變這種狀況,如通過對DRAM的邏輯層和存儲層進(jìn)行堆疊,實(shí)現(xiàn)近內(nèi)存運(yùn)算(Near Memory Compute),或者是最好能夠?qū)⒋鎯瓦\(yùn)算有機(jī)地結(jié)合(內(nèi)存顆粒本身的算法嵌入),直接利用存儲單元進(jìn)行運(yùn)算,最大程度消除數(shù)據(jù)移轉(zhuǎn)所帶來的功耗。
在這一背景下,更聚焦存儲的新型“內(nèi)存內(nèi)運(yùn)算”(In-memory Computing)架構(gòu)誕生。從目前趨勢來看,真正對“內(nèi)存內(nèi)運(yùn)算”架構(gòu)起決定性推動作用的,將是AI/物聯(lián)網(wǎng)(IoT)相關(guān)應(yīng)用的加速實(shí)踐。
美光針對存儲器與運(yùn)算架構(gòu)的發(fā)展,曾提出過三個(gè)階段的看法:第一個(gè)階段是讓內(nèi)存非常靠近邏輯運(yùn)算,用大量的高帶寬數(shù)據(jù)總線把內(nèi)存和運(yùn)算處理器更緊密連結(jié); 第二個(gè)階段是在內(nèi)存中進(jìn)行運(yùn)算處理。這個(gè)概念始于1994年,盡管實(shí)現(xiàn)量產(chǎn)在技術(shù)上存在不小的難度,軟件和邏輯也是分開的兩部分,但消除傳輸、延遲等問題,并且大幅提升效能; 第三個(gè)階段則是神經(jīng)形態(tài)(neuromorphic)運(yùn)算,使用內(nèi)存架構(gòu)本身做運(yùn)算。
以三星為例,其當(dāng)前主要的內(nèi)存內(nèi)運(yùn)算技術(shù)稱為HBM-PIM,原理是在HBM內(nèi)存中直接整合運(yùn)算單元; 另一種技術(shù)方案是在DRAM旁邊直接整合加速器邏輯,以降低存去內(nèi)存的開銷,這樣的技術(shù)三星稱為AXDIMM (accelerator DIMM),預(yù)計(jì)2024~2025年完成開發(fā)。
總體而言,無論基于哪種存儲技術(shù),在面對內(nèi)存內(nèi)運(yùn)算時(shí),其實(shí)都存在一定的挑戰(zhàn)。但隨著ML等應(yīng)用對于內(nèi)存存取提出進(jìn)一步需求,以智能化DRAM為代表的技術(shù)方向?qū)⒊蔀楦淖兇鎯ζ魇袌龈窬趾透偁幜Φ闹匾侄巍?/p>
編輯:黃飛
?
評論