作者邵樂峰
新能源汽車、5G、可穿戴設(shè)備等領(lǐng)域的不斷發(fā)展,對芯片性能的需求越來越高,采用先進(jìn)封裝技術(shù)的 Chiplet 成為了芯片微縮化進(jìn)程的“續(xù)命良藥”。
在邊緣計(jì)算領(lǐng)域里,對 DRAM 帶寬的要求遠(yuǎn)高于容量,此時(shí)采用 Chiplet 方式集成 3D DRAM 存儲方案,就可以同時(shí)提供高帶寬和低功耗。
今年2月,在正式加入 UCIe (Universal Chiplet Interconnect Express) 產(chǎn)業(yè)聯(lián)盟之后,華邦電子隨即宣布其創(chuàng)新產(chǎn)品 CUBE: 3D TSV DRAM 和 3DCaaS (3D CUBE as a Service) 一站式服務(wù)平臺,將成為公司向客戶提供優(yōu)質(zhì)定制化內(nèi)存的首選解決方案。
芯片微縮化的“續(xù)命良藥”
CUBE 是 Customized/Compact Ultra Bandwidth Elements,即“半定制化緊湊型超高帶寬 DRAM” 的簡稱。華邦電子次世代內(nèi)存產(chǎn)品營銷企劃經(jīng)理曾一峻在向《電子工程專輯》說明 CUBE 核心價(jià)值時(shí)表示,新能源汽車、5G、可穿戴設(shè)備等領(lǐng)域的不斷發(fā)展,對芯片性能的需求越來越高,但如果采用諸如“直接在 5nm SoC 裸片上堆疊 7nm SRAM 裸片”的做法,會因?yàn)閹胩?TSV 工藝架構(gòu)而導(dǎo)致芯片成本暴漲。
于是,采用先進(jìn)封裝技術(shù)的 Chiplet 成為了芯片微縮化進(jìn)程的“續(xù)命良藥”?!斑@也是華邦解決方案的思路”,按照曾一峻的解釋,在邊緣計(jì)算領(lǐng)域,華邦將 SoC 裸片置上,DRAM 裸片置下,省去了 SoC 中的 TSV 工藝(圖中虛線部分所示),從而大幅降低了SoC 裸片的尺寸與成本。與此同時(shí),3D DRAM TSV 工藝又可以將 SoC 信號引至外部,使它們成為同一顆芯片,進(jìn)一步縮減了封裝尺寸。
另一方面,考慮到現(xiàn)在的 AI 芯片都有著很高的算力需求,SoC 裸片置上也可以帶來更好的散熱效果。因此,華邦方面認(rèn)為,按照這樣的方式進(jìn)行 CUBE 3D DRAM 裸片堆疊可以帶來高帶寬、低功耗和優(yōu)秀的散熱表現(xiàn),這也是華邦 CUBE 解決方案主要面向低功耗、高帶寬、中低容量內(nèi)存需求應(yīng)用的主要原因。
眾所周知,DRAM 裸片中都會包含電容,華邦 CUBE 芯片也不例外。目前,先進(jìn)制程 SoC 芯片的核心電壓約為 0.75V-1V,運(yùn)行過程中電源產(chǎn)生的波動(dòng)會影響功耗和信號穩(wěn)定性。但 CUBE 芯片所采用的硅電容(Si-Cap) 卻可以有效降低電源波動(dòng)帶來的影響。
再來關(guān)注一下華邦 DRAM 堆疊和中介層(Interposer) 架構(gòu)的演進(jìn)。如圖所示,由于中介層也是華邦提供,因此客戶可以得到一個(gè)包括 DRAM、中介層、硅電容在內(nèi)的整體解決方案,這也是華邦加入 UCIe 后做出的貢獻(xiàn)之一。
另一個(gè)值得關(guān)注的優(yōu)勢來自功耗的降低。由于 SoC 裸片和 DRAM 裸片堆疊的時(shí)候,相比于傳統(tǒng)的引線鍵合(Wire Bonding),微鍵合(Micro Bonding)工藝可以將 1000 微米的線長縮短至 40 微米,僅有傳統(tǒng)長度的 2.5%,在未來的混合鍵合(Hybrid Bonding)封裝工藝下,線長甚至可以縮短至 1 微米。這意味著在芯片內(nèi)部,信號所經(jīng)過的傳輸距離更短,功耗自然也得到相應(yīng)的降低。此外,當(dāng)采用混合鍵合工藝時(shí),兩顆堆疊的芯片其實(shí)可以被看作同一顆芯片,因此內(nèi)部傳輸信號和 SIP 表現(xiàn)會更優(yōu)秀。
與 CUBE 同時(shí)出現(xiàn)的還包括 3D CaaS 平臺,也就是 CUBE as a Service。這意味著對于客戶來說,華邦不僅僅提供 3D TSV DRAM KGD 內(nèi)存芯片和針對多芯片設(shè)備優(yōu)化的 2.5D/3D 后段工藝(采用CoW/WoW),還可獲取由華邦的平臺合作伙伴提供的技術(shù)咨詢服務(wù),是一套完整且全面的 CUBE 產(chǎn)品支持,并享受 Silicon-Cap、interposer 等技術(shù)的附加服務(wù)。
CUBE 應(yīng)用架構(gòu)
ChatGPT 的面世帶動(dòng)了 AI 應(yīng)用領(lǐng)域的再次火熱,而 CUBE 就可以應(yīng)用到 AI-ISP 架構(gòu)中。
上圖中的灰色部分代表 AI-ISP 中的神經(jīng)網(wǎng)絡(luò)處理器(NPU),如果 AI-ISP 要實(shí)現(xiàn)大算力,就需要很大的帶寬,或者是 SPRAM 加持。但目前來看,在 AI-ISP 上使用 SPRAM 成本高昂,轉(zhuǎn)而使用LPDDR4 則需要 4-8 顆,如果用到傳輸速度為 4266Mhz 的高速 LPDDR4,還需要依賴 7nm 或 12nm 的先進(jìn)制程工藝。
相比之下,CUBE 解決方案就可以允許客戶使用成熟制程(28nm/22nm)獲得類似的高速帶寬。簡單而言,CUBE 芯片可以通過多個(gè) I/O (256 或者 512個(gè))結(jié)合 28nm SoC 提供 500MHz 運(yùn)行頻率,以及最高 256GB/s 帶寬。據(jù)透露,華邦在未來可能會和客戶共同探討 64GB/s 帶寬的合作可能性,如果成功,I/O 數(shù)量和裸片尺寸都將進(jìn)一步縮小。
在下面的應(yīng)用場景中,CPU 的高速運(yùn)算需求對制程的要求從 16nm、7nm、5nm 到 3nm,越來越高。但不難發(fā)現(xiàn),盡管制程工藝越來越先進(jìn),圖中紅色部分所代表的 SRAM 占比并沒有同比例縮小,因此當(dāng)需要實(shí)現(xiàn) AI 運(yùn)算或者高速運(yùn)算的情況下,就需要將 L3 緩存 SRAM 容量加大,即便采用堆疊方式達(dá)到幾百 MB,也會導(dǎo)致高昂的成本。
華邦的做法是將 L3 緩存縮小,轉(zhuǎn)而使用 L4 緩存的 CUBE 解決方案。這并不意味著 CUBE 解決方案的時(shí)鐘傳播延遲(Latency)等同于 SRAM,而是可以作為 L4 緩存。原因在于 CUBE 可以進(jìn)行定制化的設(shè)計(jì),使得時(shí)鐘傳播延遲比一般的 DRAM 還要短。同時(shí),考慮到AI模型在某些情況下需要外置一定容量的內(nèi)存,例如在某些邊緣計(jì)算場景下會需要 8-12GB LPDDR4/LPDDR5,因此在需要的情況下,也可以外掛高容量工作內(nèi)存(Working Memory)。
“在邊緣計(jì)算領(lǐng)域里,對 DRAM 帶寬的要求遠(yuǎn)高于容量,此時(shí)采用 Chiplet 方式集成類似 CUBE 的存儲方案,就可以同時(shí)提供高帶寬和低功耗?!钡痪餐瑫r(shí)強(qiáng)調(diào)稱,畢竟 Chiplet 芯片需要兼容多個(gè)接口協(xié)議才能避免造成信號偏差,因此,如何進(jìn)一步縮小 3D DRAM 的裸片尺寸,如何更好的實(shí)現(xiàn)不同芯粒間的互聯(lián)互通,是繞不開的挑戰(zhàn)。
華邦 DRAM 技術(shù)路線圖
相對于市場上三大頭部內(nèi)存廠商而言,華邦主要專注于利基型內(nèi)存,產(chǎn)品容量一般最大為 8GB,其特點(diǎn)是不需要非常先進(jìn)的制程,并以 KGD 為主,便于與 SoC 進(jìn)行合封。
在 KGD 1.0 (SiP) 中,DRAM Die 厚度約為 100-150 微米,裸片至裸片 (Die to Die) 的 I/O 路徑為 1000 微米,目前這種性能的 KGD 信號完整性/電源完整性 (SI/PI) 是主流的,也是夠用的。華邦方面曾經(jīng)對 LPDDR4 的電源效率進(jìn)行過估算,其小于 35pJ/Byte,帶寬方面 X32 LPDDR4x 每 I/O 為17GB/s。
當(dāng)進(jìn)化到 KGD 2.0 (3D堆疊) 后,得益于 TSV 的深寬比能力,DRAM Die 厚度可以達(dá)到 50 微米的深度,未來,通過 Hybrid Bonding 工藝還可以實(shí)現(xiàn) 1 微米的距離。同時(shí),信號完整性/電源完整性 (SI/PI) 性能更好,功耗更低,可以達(dá)到甚至低于 LPDDR4 的四分之一 (為8pJ/Byte),而帶寬可以實(shí)現(xiàn) 16-256GB/s。
目前,華邦擁有兩座 12 寸晶圓廠,一座是位于臺中的 Fab 6 工廠,另一座是在高雄新建的第二座工廠,其產(chǎn)能為 1 萬片/月左右,后續(xù)將逐漸提升至 1.4 萬片 - 2 萬片/月。
從制程工藝角度來看,高雄工廠投產(chǎn)后,華邦會將一些先進(jìn)制程的 DRAM 產(chǎn)能轉(zhuǎn)移至高雄廠,臺中廠的中小容量 DRAM 制程會維持在 65nm、46nm、38nm 和 25nm,且無意再向更小制程演進(jìn),而是專注于成熟制程產(chǎn)品。高雄廠已經(jīng)量產(chǎn)的包括 25nm 2GB 和 4GB 兩種產(chǎn)品,20nm 產(chǎn)品預(yù)計(jì)在今年年中進(jìn)入量產(chǎn)階段,并繼續(xù)向 19nm 制程演進(jìn)。
華邦電子大陸區(qū)產(chǎn)品營銷處處長朱迪再次強(qiáng)調(diào)了華邦對于 DDR3 的生產(chǎn)和支持。盡管他認(rèn)為像三星這樣的大廠逐漸舍棄 DDR3 和中小容量 DDR4 是一個(gè)大概率的事件,但從實(shí)際使用情況來看, 4Gb DDR3 產(chǎn)品將有望繼續(xù)被廣泛采用至少到 2027-2028 年,尤其在工業(yè)和汽車領(lǐng)域需要長期支持。而且,相同容量相同速度下,DDR3 較 DDR4 更具成本效益(相同制程下,與 DDR3 相比,Die 尺寸 DDR4 增加 10%,LPDDR4 增加18%),DDR4 將會持續(xù)向更高容量發(fā)展,并隨著 PC 和服務(wù)器市場的需求遷移至 DDR5。
根據(jù)規(guī)劃,DDR3 仍將保持 1Gb、2Gb、4Gb 和 8Gb 四種容量,并計(jì)劃在 2025 年演進(jìn)至 16nm;DDR4 方面,當(dāng) 20nm 制程就緒之后,高雄廠會在 2024 年初量產(chǎn) DDR4 DRAM 芯片。
“利基型存儲市場大約只占整個(gè)存儲市場的 10%,它的供需相對而言是比較平衡和穩(wěn)定的。在當(dāng)前終端客戶、代理商、以及原廠庫存都比較低的情況下,確實(shí)有可能會出現(xiàn)缺貨的情況,但對具體時(shí)間節(jié)點(diǎn)做出判斷為時(shí)尚早,需要做進(jìn)一步的觀察?!敝斓险f。
編輯:黃飛
評論