2020年2月,固態(tài)存儲協(xié)會(JEDEC)對外發(fā)布了第三版HBM2存儲標(biāo)準(zhǔn)JESD235C,隨后三星和SK海力士等廠商將其命名為HBM2E。
?
相較于第一版(JESD235A)HBM2引腳的2Gbps,HBM2E將這一速度提升到了3.2Gbps,并且單堆棧12 Die能夠達到24GB的容量,理論最大帶寬410GB/s。同時,按照設(shè)計規(guī)范,對于支持四堆棧的圖形芯片來說,總帶寬高達1.64TB/s。
?
過往,三星和SK海力士在HBM內(nèi)存領(lǐng)域占據(jù)領(lǐng)先地位。目前,各大內(nèi)存廠商在HBM2E層面已經(jīng)開始鋪貨。就以SK海力士的節(jié)點來看,2020年7月2日,SK海力士才對外宣布開始量產(chǎn)超高速DRAM HBM2E,這是一款具有 460GB/s 帶寬的高帶寬內(nèi)存來自使用硅通孔 (TSV) 的垂直堆疊 DRAM 芯片,針對深度學(xué)習(xí)加速器和 AI 系統(tǒng)優(yōu)化,面向服務(wù)器、物聯(lián)網(wǎng)、消費電子和汽車領(lǐng)域。
?
從時間上來看,外界公布HBM2E的時間節(jié)點是2020年2月,SK海力士的量產(chǎn)時間是7月份,而三星就更快了,同樣是在2月份就已經(jīng)對外發(fā)布首款HBM2E顯存。
?
雖然HBM2E的標(biāo)準(zhǔn)參數(shù)很出色,但現(xiàn)在不得不說它已經(jīng)過時了,現(xiàn)在HBM3的PHY、控制器和子系統(tǒng)方案已經(jīng)面世。目前在JEDEC官網(wǎng),JESD235D標(biāo)準(zhǔn)已經(jīng)開始對會員企業(yè)免費開放。當(dāng)然,該協(xié)議也支持開放購買,售價是274美元。
?
現(xiàn)在你不需要為獲取HBM3參數(shù)去花費這些錢,和過往一樣,參與制定標(biāo)準(zhǔn)的這些內(nèi)存廠商已經(jīng)迫不及待地對外公開HBM3的性能參數(shù)了。根據(jù)SK海力士在6月份公開的細(xì)節(jié)來看,過渡版的“HBM3”標(biāo)準(zhǔn)有望實現(xiàn) 5.2 Gbps的引腳傳輸速率,較現(xiàn)有的HBM2E提升44%,從而大幅提升整體的內(nèi)存帶寬。
?
但從Rambus公司目前實現(xiàn)的方案來看,SK海力士顯然過于保守了,當(dāng)然就如同上面提到的,SK公開的這個是一個過渡標(biāo)準(zhǔn),并不是真正的HBM3,而Rambus選擇一步到位實現(xiàn)HBM3。
?
8月17日,Rambus推出了其HBM3內(nèi)存子系統(tǒng)解決方案,速率高達8.4 Gbps,單顆帶寬達到了1.075TB/s。這個數(shù)據(jù)有多恐怖呢?我們參考一下上一代的HBM2E,在標(biāo)準(zhǔn)協(xié)議中,JEDEC的定義是引腳速度為3.2Gbps,單核帶寬為410GB/s。在實際的實現(xiàn)過程中,不管是Rambus還是SK海力士,最終實現(xiàn)的方案都達到了3.6Gbps,單核帶寬達到了460GB/s。
?
因此,在HBM3方面,目前Rambus的方案在引腳速度和單核帶寬上面,都實現(xiàn)了翻倍,這是此前產(chǎn)業(yè)界一直以來都覺得實現(xiàn)起來“太難了”的事情。
?
通過上面兩個方案的對比,我們看到HBM2E和HBM3有一個明顯的區(qū)別,那就是通道數(shù),HBM3子系統(tǒng)方案具有 16 個獨立通道,每個通道包含 64 位,總數(shù)據(jù)寬度為 1024 位。在最大數(shù)據(jù)速率下,這提供了 1075.2 GB/s 的總接口帶寬,能夠以更高的每瓦帶寬效率為 AI/ML 和高性能計算 (HPC) 應(yīng)用提供更高的整體吞吐量。
?
實際上,熟悉內(nèi)存標(biāo)準(zhǔn)進程的人都很清楚,HBM3并不是這兩年提出來的新鮮事物,早在2016年SK海力士、美光、三星等公司就討論過HBM3標(biāo)準(zhǔn)。2015年,AMD推出全球第一款采用HBM高帶寬顯存的顯卡之后,512GB/s的高帶寬讓業(yè)界為之震撼。此后不久,各個內(nèi)存廠商就對HBM內(nèi)存的演進路線做了規(guī)劃,并提出了HBM3,甚至是HBM4。
?
通過AMD的技術(shù)方案能夠總結(jié)出,HBM內(nèi)存方案共有以下幾點優(yōu)勢:功耗低、效率高,外形小巧。
?
在HBM面世之前,高性能內(nèi)存更多是采用GDDR方案。直到AMD推出了HBM內(nèi)存,GDDR5已經(jīng)統(tǒng)治行業(yè)達7年之久,然而即便是GDDR方案,在帶寬上也已經(jīng)開始跟不上GPU的發(fā)展速度,成為系統(tǒng)性能提升的瓶頸。AMD在當(dāng)時就曾提到,GDDR5如果要增加1 GB 的帶寬將會帶來更多的功耗,這不論對于設(shè)計人員還是消費者來說都不是一個明智、高效或合算的選擇。而HBM就像封裝在和芯片集成的 RAM 一樣,和GPU中介層緊湊而快速地連接,當(dāng)時的HBM方案每瓦帶寬比 GDDR5 高出 3 倍還多。
?
同時,從當(dāng)時AMD揭露出的示意圖能夠看到,2.5D封裝的方式讓整體方案更小巧,當(dāng)時的HBM 比 GDDR5 節(jié)省了 94% 的表面積。
?
下圖是AMD當(dāng)年實現(xiàn)的方案,能夠看到第一代HBM顯存方案中,每一顆都采用四層Die進行堆疊,每個Die的容量為2Gb(256MB),單顆容量為1GB,那么4顆堆疊的容量就是4GB。
?
很顯然,隨著各種智能應(yīng)用逐漸發(fā)展,4GB這個容量對于數(shù)據(jù)中心、高端顯示和大型游戲等應(yīng)用是完全不夠,AMD在當(dāng)時也確認(rèn)了,HBM的內(nèi)存容量會像帶寬提升一樣困難。不過容量問題沒有束縛住HBM的發(fā)展,我們看到在美光的實現(xiàn)方案中,HBM2E內(nèi)存八堆棧單Die容量16Gb,單顆HBM2E內(nèi)存能夠達到16GB的容量,4顆組合的話可以實現(xiàn)64GB。
?
說回到HBM3內(nèi)存,Rambus現(xiàn)在已經(jīng)處于領(lǐng)先位置,雖然目前JEDEC還沒有對外公開HBM3的標(biāo)準(zhǔn)。
?
這里不得不說一個“但是”。但是,這并不能意味著HBM3將廣泛占領(lǐng)顯存市場。從市場情況來看,HBM還是主打高端市場,在HBM2階段,Tesla V100 PCIe GPU采用的是16GB的HBM2內(nèi)存,顯存帶寬高達 900 GB/s。而能夠看到,諸如基于Turing架構(gòu)搭載的TITAN RTX也還在使用GDDR6顯存,容量為24GB,而GeForce RTX 30 系列 GPU全系列都是GDDR6顯存。相對而言,AMD對于HBM內(nèi)存的使用更為廣泛,Radeon Pro Vega II 顯卡搭載了32GB HBM2 顯存,在Instinct 服務(wù)器解決方案同樣采用了32GB的HBM2內(nèi)存。但從“Pro”和“服務(wù)器”這樣的標(biāo)注來看,其主要還是面向高端應(yīng)用,而在普通Radeon顯卡方面還是以GDDR6為主。
?
其實,原因已經(jīng)很明顯了,雖然GDDR6單引腳的速度更快,但引腳數(shù)量太少了,因此HBM在系統(tǒng)帶寬方面有著獨特的優(yōu)勢,同時GDDR6的PHY面積更大(1.5倍左右),功耗也更高(4倍左右),也就是說GDDR5身上的劣勢在GDDR6這里并沒有改變。但優(yōu)勢也依然存在——GDDR6便宜,這個便宜不僅體現(xiàn)在單顆芯片價值上,同時在設(shè)計復(fù)雜度上也更低。因此,雖然HBM3來了,但依然只會面向高端市場。
?
相較于第一版(JESD235A)HBM2引腳的2Gbps,HBM2E將這一速度提升到了3.2Gbps,并且單堆棧12 Die能夠達到24GB的容量,理論最大帶寬410GB/s。同時,按照設(shè)計規(guī)范,對于支持四堆棧的圖形芯片來說,總帶寬高達1.64TB/s。
?
過往,三星和SK海力士在HBM內(nèi)存領(lǐng)域占據(jù)領(lǐng)先地位。目前,各大內(nèi)存廠商在HBM2E層面已經(jīng)開始鋪貨。就以SK海力士的節(jié)點來看,2020年7月2日,SK海力士才對外宣布開始量產(chǎn)超高速DRAM HBM2E,這是一款具有 460GB/s 帶寬的高帶寬內(nèi)存來自使用硅通孔 (TSV) 的垂直堆疊 DRAM 芯片,針對深度學(xué)習(xí)加速器和 AI 系統(tǒng)優(yōu)化,面向服務(wù)器、物聯(lián)網(wǎng)、消費電子和汽車領(lǐng)域。
?
從時間上來看,外界公布HBM2E的時間節(jié)點是2020年2月,SK海力士的量產(chǎn)時間是7月份,而三星就更快了,同樣是在2月份就已經(jīng)對外發(fā)布首款HBM2E顯存。
?
雖然HBM2E的標(biāo)準(zhǔn)參數(shù)很出色,但現(xiàn)在不得不說它已經(jīng)過時了,現(xiàn)在HBM3的PHY、控制器和子系統(tǒng)方案已經(jīng)面世。目前在JEDEC官網(wǎng),JESD235D標(biāo)準(zhǔn)已經(jīng)開始對會員企業(yè)免費開放。當(dāng)然,該協(xié)議也支持開放購買,售價是274美元。
?
現(xiàn)在你不需要為獲取HBM3參數(shù)去花費這些錢,和過往一樣,參與制定標(biāo)準(zhǔn)的這些內(nèi)存廠商已經(jīng)迫不及待地對外公開HBM3的性能參數(shù)了。根據(jù)SK海力士在6月份公開的細(xì)節(jié)來看,過渡版的“HBM3”標(biāo)準(zhǔn)有望實現(xiàn) 5.2 Gbps的引腳傳輸速率,較現(xiàn)有的HBM2E提升44%,從而大幅提升整體的內(nèi)存帶寬。
?
但從Rambus公司目前實現(xiàn)的方案來看,SK海力士顯然過于保守了,當(dāng)然就如同上面提到的,SK公開的這個是一個過渡標(biāo)準(zhǔn),并不是真正的HBM3,而Rambus選擇一步到位實現(xiàn)HBM3。
?
8月17日,Rambus推出了其HBM3內(nèi)存子系統(tǒng)解決方案,速率高達8.4 Gbps,單顆帶寬達到了1.075TB/s。這個數(shù)據(jù)有多恐怖呢?我們參考一下上一代的HBM2E,在標(biāo)準(zhǔn)協(xié)議中,JEDEC的定義是引腳速度為3.2Gbps,單核帶寬為410GB/s。在實際的實現(xiàn)過程中,不管是Rambus還是SK海力士,最終實現(xiàn)的方案都達到了3.6Gbps,單核帶寬達到了460GB/s。
?

Rambus HBM2E子系統(tǒng)方案
?因此,在HBM3方面,目前Rambus的方案在引腳速度和單核帶寬上面,都實現(xiàn)了翻倍,這是此前產(chǎn)業(yè)界一直以來都覺得實現(xiàn)起來“太難了”的事情。
?

Rambus HBM3子系統(tǒng)方案
?通過上面兩個方案的對比,我們看到HBM2E和HBM3有一個明顯的區(qū)別,那就是通道數(shù),HBM3子系統(tǒng)方案具有 16 個獨立通道,每個通道包含 64 位,總數(shù)據(jù)寬度為 1024 位。在最大數(shù)據(jù)速率下,這提供了 1075.2 GB/s 的總接口帶寬,能夠以更高的每瓦帶寬效率為 AI/ML 和高性能計算 (HPC) 應(yīng)用提供更高的整體吞吐量。
?
實際上,熟悉內(nèi)存標(biāo)準(zhǔn)進程的人都很清楚,HBM3并不是這兩年提出來的新鮮事物,早在2016年SK海力士、美光、三星等公司就討論過HBM3標(biāo)準(zhǔn)。2015年,AMD推出全球第一款采用HBM高帶寬顯存的顯卡之后,512GB/s的高帶寬讓業(yè)界為之震撼。此后不久,各個內(nèi)存廠商就對HBM內(nèi)存的演進路線做了規(guī)劃,并提出了HBM3,甚至是HBM4。
?
通過AMD的技術(shù)方案能夠總結(jié)出,HBM內(nèi)存方案共有以下幾點優(yōu)勢:功耗低、效率高,外形小巧。
?
在HBM面世之前,高性能內(nèi)存更多是采用GDDR方案。直到AMD推出了HBM內(nèi)存,GDDR5已經(jīng)統(tǒng)治行業(yè)達7年之久,然而即便是GDDR方案,在帶寬上也已經(jīng)開始跟不上GPU的發(fā)展速度,成為系統(tǒng)性能提升的瓶頸。AMD在當(dāng)時就曾提到,GDDR5如果要增加1 GB 的帶寬將會帶來更多的功耗,這不論對于設(shè)計人員還是消費者來說都不是一個明智、高效或合算的選擇。而HBM就像封裝在和芯片集成的 RAM 一樣,和GPU中介層緊湊而快速地連接,當(dāng)時的HBM方案每瓦帶寬比 GDDR5 高出 3 倍還多。
?
同時,從當(dāng)時AMD揭露出的示意圖能夠看到,2.5D封裝的方式讓整體方案更小巧,當(dāng)時的HBM 比 GDDR5 節(jié)省了 94% 的表面積。
?

圖源:AMD官網(wǎng)
?下圖是AMD當(dāng)年實現(xiàn)的方案,能夠看到第一代HBM顯存方案中,每一顆都采用四層Die進行堆疊,每個Die的容量為2Gb(256MB),單顆容量為1GB,那么4顆堆疊的容量就是4GB。
?

圖源:AMD官網(wǎng)
?很顯然,隨著各種智能應(yīng)用逐漸發(fā)展,4GB這個容量對于數(shù)據(jù)中心、高端顯示和大型游戲等應(yīng)用是完全不夠,AMD在當(dāng)時也確認(rèn)了,HBM的內(nèi)存容量會像帶寬提升一樣困難。不過容量問題沒有束縛住HBM的發(fā)展,我們看到在美光的實現(xiàn)方案中,HBM2E內(nèi)存八堆棧單Die容量16Gb,單顆HBM2E內(nèi)存能夠達到16GB的容量,4顆組合的話可以實現(xiàn)64GB。
?
說回到HBM3內(nèi)存,Rambus現(xiàn)在已經(jīng)處于領(lǐng)先位置,雖然目前JEDEC還沒有對外公開HBM3的標(biāo)準(zhǔn)。
?
這里不得不說一個“但是”。但是,這并不能意味著HBM3將廣泛占領(lǐng)顯存市場。從市場情況來看,HBM還是主打高端市場,在HBM2階段,Tesla V100 PCIe GPU采用的是16GB的HBM2內(nèi)存,顯存帶寬高達 900 GB/s。而能夠看到,諸如基于Turing架構(gòu)搭載的TITAN RTX也還在使用GDDR6顯存,容量為24GB,而GeForce RTX 30 系列 GPU全系列都是GDDR6顯存。相對而言,AMD對于HBM內(nèi)存的使用更為廣泛,Radeon Pro Vega II 顯卡搭載了32GB HBM2 顯存,在Instinct 服務(wù)器解決方案同樣采用了32GB的HBM2內(nèi)存。但從“Pro”和“服務(wù)器”這樣的標(biāo)注來看,其主要還是面向高端應(yīng)用,而在普通Radeon顯卡方面還是以GDDR6為主。
?
其實,原因已經(jīng)很明顯了,雖然GDDR6單引腳的速度更快,但引腳數(shù)量太少了,因此HBM在系統(tǒng)帶寬方面有著獨特的優(yōu)勢,同時GDDR6的PHY面積更大(1.5倍左右),功耗也更高(4倍左右),也就是說GDDR5身上的劣勢在GDDR6這里并沒有改變。但優(yōu)勢也依然存在——GDDR6便宜,這個便宜不僅體現(xiàn)在單顆芯片價值上,同時在設(shè)計復(fù)雜度上也更低。因此,雖然HBM3來了,但依然只會面向高端市場。
電子發(fā)燒友App





























評論