智能化DRAM為代表的技術方向將成為改變存儲器市場格局的重要手段。
為了解決從客戶端系統(tǒng)到高性能服務器的廣泛應用所面臨的性能和功耗挑戰(zhàn),JEDEC固態(tài)技術協會于2020年7月正式發(fā)布了下一代主流內存標準DDR5 SDRAM的最終規(guī)范(JESD79-5),為全球計算機內存技術拉開了新時代的序幕。
JEDEC將DDR5描述為一種“具備革命意義”的存儲器架構,認為它的出現標志整個產業(yè)即將向DDR5服務器雙列直插式存儲器模塊(DIMM)過渡。
DDR5的速度比已經超級快的DDR4還要快。與DDR4內存的3.2Gbps最高傳輸速率相比,全新DDR5內存則高達8.4Gbps。此外,DDR5也改善了DIMM的工作電壓,將供電電壓從DDR4的1.2V降至1.1V,從而進一步提升了內存的能效。兩者之間的性能、容量和功耗等指標的具體比較見表1。

表1:DDR5與DDR4 DIMMs比較
DRAM芯片密度方面,DDR4在單裸片封裝(SDP)模式下僅支持最高16Gb的DRAM容量,而DDR5內存標準將這一數字提高到了64Gb。這意味著,DDR5 DIMM在SDP模式下的最高容量可達256GB,是DDR4 64Gb最大容量的4倍。同時,DDR5 還支持片上錯誤更正碼、錯誤透明模式、封裝后修復和讀寫CRC校驗等功能,并支持最高40個單元的堆疊,從而可使其有效內存容量達到2TB。
在設計上,DDR5內存保持與DDR4相同的288個引腳數,不過定義不同,無法兼容DDR4插槽。DDR5 DIMM采用了彼此獨立的40位寬雙通道設計(32個數據位,8個錯誤更正碼字節(jié)),每個通道的突發(fā)長度從8字節(jié)(BL8)翻倍到16字節(jié)(BL16)。所以盡管數據位仍然是64位,但并發(fā)能力的提高使得內存存取效率得到了提升,而且兩個通道共享寄存時鐘驅動器,每側可提供四個輸出時鐘,能夠優(yōu)化信號完整性。
此外,DDR5還帶來了一種名為“同一區(qū)塊刷新”(SAME-BANK Refresh)的新特性。這一命令允許對每一組區(qū)塊中的單獨區(qū)塊進行刷新,而讓其他區(qū)塊保持打開狀態(tài),以繼續(xù)正常操作。測試資料顯示,單列DDR5模塊與DDR4雙列模塊以3200MT/s的速度進行比較時,前者性能可以提升1.28倍,在4800MT/s的入門級數據速率下,DDR5性能提升了高達1.87倍。
市場調研機構Omdia分析指出,對DDR5的市場需求從2020年就開始逐步顯現,到2022年,DDR5預計將占據整個DRAM市場的10%,2024年則將進一步擴大至43%; Yole Group則預測稱,DDR5的廣泛采用應該會從2022年的服務器市場開始,2023年,手機、筆記本電腦和PC等主流市場也將開始廣泛采用DDR5,出貨量明顯將會超過DDR4,屆時兩種技術間將完成快速過渡。
與DDR2、3和4的升級演進重點主要集中在如何降低功耗上,移動和終端應用在于其主要推動力不同,DDR5的主要推動因素是因為隨著CPU核心數量和運算性能的持續(xù)增加,內存帶寬和容量也必須成比例地擴展。
例如,2000~2019年,內存帶寬從約1GB/s迅速提升至200GB/s,但與此同時,一個系統(tǒng)中處理器核心數量也從早期的單核心、雙核心,增加到如今的60個以上。在這樣一個超多核心處理器的系統(tǒng)中,分攤到每個核心上的可用帶寬嚴重不足。
推動DDR5前進的其他因素,還包括:處理器和內存希望擁有相同的內存讀取細微性(64字節(jié)快取內存行); 相同或更好的可靠性、可用性和可服務性功能,例如必須支持單錯誤校正和雙錯誤檢測(single error correction/double error detection); 保持在冷卻功率范圍內(~15W/DIMM),并控制好啟動和內存訓練的時間,以免影響預期啟動時間。
數據中心、PC與平板電腦和邊緣計算,被視作DDR5最有希望廣泛普及的三大領域。優(yōu)先級方面,業(yè)界普遍認為DDR5將緊隨DDR4的步伐,率先導入數據中心而不是PC領域,以應對運算密集型的工作負載。考慮到PC消費者對整機價格敏感度極高,且DDR5初期推出的價格與DDR4相比存在較高溢價,所以普及速度會相對較慢。
從目前的實際情況來看,DDR4仍然保持著強勁的態(tài)勢,DDR5還處于早期的量產爬坡階段,預計到2023年底DDR5的出貨量才會超過DDR4。在PC市場,英特爾(Intel) Alder Lake處理器已經搭配了DDR5內存,AMD也宣布會在今年支持DDR5; 在服務器市場,第一個DDR5服務器已經出樣,預計會在接下來的3~6個月內實現早期量產。這樣看來,先前盛傳的“2022年將能夠真正全面進入DDR5時代”的說法看來有些過于激進——畢竟2022年底已近,而支持DDR5的處理器平臺仍比較有限。
DRAM市場的幾大參與者包括了三星(Samsung)、美光(Micron)、SK海力士(SK Hynix)、南亞科技(Nanya)、力積電(PSMC)等,圖1展示了該領域主要市場參與者的技術演進方向。簡單而言,三星、美光與SK海力士針對DDR4、DDR5和LPDDR5應用,已經以15nm和14nm等級的單元設計規(guī)則發(fā)布了D1z和D1α節(jié)點的產品; 三星是最早在DRAM上采用極紫外光(EUV)微影技術的供應商,將其應用于D1x DDR4 DRAM模組和D1z LPDDR5規(guī)模量產。?

圖1:主流供應商的DRAM制程節(jié)點演進
(來源:TechInsights)
HBM3
隨著人工智能(AI)和機器學習(ML)領域需求的快速發(fā)展,內存產品設計的復雜性正在快速上升,并對帶寬提出了更高的要求,高帶寬記憶體(HBM)成為繞過DRAM傳統(tǒng)I/O增強模式演進的另一個優(yōu)秀方案。
從最開始數據傳輸速率約為1Gbps左右的HBM1,到2016年推出的最高數據傳輸速率為2Gbps的HBM2,再到2018年推出的最高數據傳輸速率3.6Gbps的HBM2E。
而在三星發(fā)布的最新藍圖中,其HBM3技術已于今年開始量產,接口傳輸速率可達6.4Gbps,相比上一代提升1.8倍,從而實現單芯片接口帶寬819GB/s,如果使用6層堆疊可以實現4.8TB/s的總帶寬。到2024年,預計將實現接口速度高達7.2Gbps的HBM3P,這一代數據傳輸率進一步提升10%,從而將堆疊的總帶寬提升到5TB/s以上。
除了AI/ML訓練市場之外,HBM3還可用于5G、高效能運算及其他與數據中心相關的應用場景、繪圖應用和網絡應用。其發(fā)展很大程度上是由不斷上升的帶寬需求驅動,而對帶寬的需求幾乎沒有上限。換句話說,目前來看HBM的發(fā)展可能不會遇到障礙。但相較于GDDR DRAM動輒16/18Gbps的速率,HBM3的速率仍然存在差距,而限制HBM發(fā)展的原因則主要來自兩方面:一是中間層,二是成本。
先進的2.5D/3D制造是造成成本偏高的原因。眾所周知,HBM技術與其他技術最大的不同,就是采用了3D堆疊技術。HBM2E、DDR、GDDR,HBM3架構的基本單元同樣是基于DRAM,但不同于其他產品將DDR進行平鋪的做法,HBM選擇了3D堆疊,其直接結果就是接口變得更寬。比如DDR的接口位寬只有64位,而HBM透過DRAM堆疊的方式可以將位寬提升到1024位,這就是HBM與其他競爭技術相比最大的差異。但這對成本比較敏感的客戶或應用來說,使用HBM的門檻就被大幅提升了。
系統(tǒng)級創(chuàng)新將成為更大內存系統(tǒng)的關鍵
為了解決存儲容量的需求,除了芯片級解決方案之外,系統(tǒng)級解決方案也是重要方向之一,使用CXL技術做內存擴展就極具代表性。以數據中心為例,圖2從左至右為依次展示了數據中心正在及將要經歷的三次重要轉型。

?圖2:數據中心架構不斷演進 ?
首先,大約在2021年底,服務器內存將會開始向DDR5轉型。與前代產品DDR4相比,DDR5整體架構較為一致,但在容量、能效等方面實現了大幅提升,具備現代化數據中心所必需的特性。
其次,預計到2022年,數據中心將會通過串行鏈路實現內存子系統(tǒng)的擴展,也就是CXL。利用CXL,就可以在傳統(tǒng)插拔式內存條的基礎之上,為服務器及數據中心增加全新的內存擴展方式。比傳統(tǒng)插拔內存條的方式,CXL可以進一步提高現有數據中心內存的容量和帶寬,也被稱作“容量與帶寬的雙擴展”。
最后,數據中心分解化。CXL的使用將讓業(yè)界更多關注資源池化和資源本身的功能效應,更高效率地分配資源。透過分解化的全新數據中心架構,運算、內存、存儲等資源將進一步池化,從而能夠依照工作負載的具體需求,將資源定向分配。使用完成之后,這些資源又將回歸到統(tǒng)一的資源池中,等待后續(xù)的工作負載進行重新分配。
資源池化可以將資源的利用率大幅度提高,這會為超大規(guī)模運算,特別是云服務帶來巨大的優(yōu)勢,幫助大幅度降低總體擁有成本(TCO)。因此,2019年3月,英特爾宣布聯合微軟(Microsoft)、阿里巴巴、思科(Cisco)、戴爾(Dell) EMC、Facebook、Google、惠普企業(yè)(HPE)和華為等公司,共同推出了一個全新的互連標準,取名為Compute Express Link (CXL),應用目標鎖定互聯網數據中心、通訊基礎設施、 云端運算與云端服務等領域。
如前所述,作為一種開放的行業(yè)標準,CXL可在數據中心內的專用運算、內存、I/O和存儲元素之間提供高帶寬、低延遲的連接,以允許為給定的工作負載提供每個元素的最佳組合。
存儲器更加智能化
在傳統(tǒng)運算設備廣泛采用的馮·諾紐曼架構(Von Neumann architecture)中,運算和存儲功能不但是分離的,而且更側重于運算。資料在處理器和存儲器之間不停的來回傳輸,消耗了約80%的時間和功耗,也就是熟知的“存儲墻”和“功耗墻”問題。
學術界為此想出了很多方法試圖改變這種狀況,如通過對DRAM的邏輯層和存儲層進行堆疊,實現近內存運算(Near Memory Compute),或者是最好能夠將存儲和運算有機地結合(內存顆粒本身的算法嵌入),直接利用存儲單元進行運算,最大程度消除數據移轉所帶來的功耗。
在這一背景下,更聚焦存儲的新型“內存內運算”(In-memory Computing)架構誕生。從目前趨勢來看,真正對“內存內運算”架構起決定性推動作用的,將是AI/物聯網(IoT)相關應用的加速實踐。
美光針對存儲器與運算架構的發(fā)展,曾提出過三個階段的看法:第一個階段是讓內存非常靠近邏輯運算,用大量的高帶寬數據總線把內存和運算處理器更緊密連結; 第二個階段是在內存中進行運算處理。這個概念始于1994年,盡管實現量產在技術上存在不小的難度,軟件和邏輯也是分開的兩部分,但消除傳輸、延遲等問題,并且大幅提升效能; 第三個階段則是神經形態(tài)(neuromorphic)運算,使用內存架構本身做運算。
以三星為例,其當前主要的內存內運算技術稱為HBM-PIM,原理是在HBM內存中直接整合運算單元; 另一種技術方案是在DRAM旁邊直接整合加速器邏輯,以降低存去內存的開銷,這樣的技術三星稱為AXDIMM (accelerator DIMM),預計2024~2025年完成開發(fā)。
總體而言,無論基于哪種存儲技術,在面對內存內運算時,其實都存在一定的挑戰(zhàn)。但隨著ML等應用對于內存存取提出進一步需求,以智能化DRAM為代表的技術方向將成為改變存儲器市場格局和競爭力的重要手段。
編輯:黃飛
?
電子發(fā)燒友App
















評論