篠田ゆう优无码,调教铃口玉茎针*虐玩尿眼,欧美日韩人妻无码一区二区三区

電子發(fā)燒友網(wǎng)報(bào)道（文/周凱揚(yáng)）回顧計(jì)算行業(yè)幾十年的歷史，芯片算力提升在幾年前，還在遵循摩爾定律?？呻S著如今摩爾定律顯著放緩，算力發(fā)展已經(jīng)陷入瓶頸。而且禍不單行，陷入同樣困境的還有存儲(chǔ)。從新標(biāo)準(zhǔn)推進(jìn)的角度來(lái)看，存儲(chǔ)市場(chǎng)依然在朝著更高性能的方向發(fā)展。但以這些通用標(biāo)準(zhǔn)推出的產(chǎn)品，終究還是會(huì)被用到馮諾依曼架構(gòu)的計(jì)算體系中去?；蛟S單個(gè)產(chǎn)品的性能有所增加，可面對(duì)AI計(jì)算的海量數(shù)據(jù)，這點(diǎn)提升還是有些不夠看。

以LLM這個(gè)熱門(mén)AI應(yīng)用而言，其數(shù)據(jù)量已經(jīng)在以2年750倍的速度爆發(fā)式增長(zhǎng)，相較之下硬件算力正在以2年3倍的速度增長(zhǎng)。但與存儲(chǔ)不同，硬件算力是可以靠堆規(guī)模來(lái)實(shí)現(xiàn)持續(xù)提升的，可存儲(chǔ)帶寬和互聯(lián)帶寬卻沒(méi)法擁有同樣的拓展性，只有存儲(chǔ)容量能夠勉強(qiáng)跟上。所以市場(chǎng)上多數(shù)都在追求某種形式的存算一體方案，但實(shí)現(xiàn)的形式和技術(shù)路線不盡相同。

近存方案，更大的SRAM和HBM

對(duì)于我們說(shuō)的存儲(chǔ)墻而言，其實(shí)在SRAM上并不那么明顯，這種最接近處理單元的存儲(chǔ)，常被用作高速緩存，不僅讀寫(xiě)速度極快，能效比更是遠(yuǎn)超DRAM。但SRAM相對(duì)其他存儲(chǔ)而言，存儲(chǔ)密度最低，成本卻不低。所以盡管現(xiàn)如今雖然更大的SRAM設(shè)計(jì)越來(lái)越普遍，但容量離DRAM還差得很遠(yuǎn)。

但這并不代表這樣的設(shè)計(jì)沒(méi)有人嘗試，對(duì)于愿意花大成本的廠商而言，還是很高效的一條技術(shù)路線。以特斯拉為例，其Tesla Dojo超算系統(tǒng)的自研芯片D1就采用了超大SRAM的技術(shù)路線。Dojo在其網(wǎng)格設(shè)計(jì)中采用了超快且平均分布的SRAM。

D1芯片 / 特斯拉

單個(gè)D1核心擁有1.25MB的SRAM，加載速度達(dá)到400GB/s，存儲(chǔ)速度達(dá)到270GB/s。單個(gè)D1芯片的SRAM緩存達(dá)到440MB。簡(jiǎn)單來(lái)說(shuō)，Dojo可以用遠(yuǎn)超L2緩存級(jí)別的SRAM容量，實(shí)現(xiàn)L1緩存級(jí)別的帶寬和延遲。

當(dāng)然了，這樣的設(shè)計(jì)注定代表了投入大量的成本。在特斯拉2023財(cái)年Q4的財(cái)報(bào)會(huì)議上，馬斯克強(qiáng)調(diào)他們做了英偉達(dá)和Dojo的兩手準(zhǔn)備。Dojo作為長(zhǎng)遠(yuǎn)計(jì)劃，因?yàn)樽罱K的回報(bào)可能會(huì)值回現(xiàn)在的投入，但他也強(qiáng)調(diào)這確實(shí)不是什么高收益的項(xiàng)目。

所以對(duì)于已有的計(jì)算架構(gòu)來(lái)說(shuō)，走近存路線，提高DRAM的性能是最為適合的，比如HBM。HBM作為主流的近存高帶寬方案，已經(jīng)被廣泛應(yīng)用在新一代的AI芯片、GPU上。以HBM3e為例，1.2TB/s的超大帶寬足以滿(mǎn)足現(xiàn)如今絕大多數(shù)AI芯片的數(shù)據(jù)傳輸。未來(lái)的HBM4更是承諾1.5TB/s到2TB/s的帶寬，

HBM的方案象征了目前DRAM堆疊的集大成技術(shù)，但目前還是存在不少問(wèn)題，比如更高的成本以及對(duì)產(chǎn)能的要求。在現(xiàn)如今的AI需求驅(qū)動(dòng)下，新發(fā)布的芯片很難再采用HBM設(shè)計(jì)的同時(shí)，保證大批量量產(chǎn)，無(wú)論是HBM產(chǎn)能還是CoWoS產(chǎn)能都處于滿(mǎn)載的階段，而且與制造廠商強(qiáng)綁定。可恰恰存儲(chǔ)帶寬決定了AI應(yīng)用的速度，所以在HBM方案量產(chǎn)困難成本高昂的前提下，即便是英特爾和AMD這樣的廠商也經(jīng)不起這樣揮霍，不少其他廠商更是選擇了看下存內(nèi)計(jì)算。

存內(nèi)計(jì)算與處理，需要解決算力與存儲(chǔ)雙瓶頸

為了解決AI計(jì)算中數(shù)據(jù)存取的效率問(wèn)題，把數(shù)據(jù)處理和篩選的工作放在存儲(chǔ)端，就能極大地降低數(shù)據(jù)移動(dòng)的能耗。以三星的PIM技術(shù)為例，其將關(guān)鍵的算法內(nèi)核放在內(nèi)存中的PCU模塊中執(zhí)行，相比已有的HBM方案，PIM-HBM可以將能耗降低70%以上。而且不僅是HBM，PIM也可以集成到LPDDR、GDDR等存儲(chǔ)方案中。

不過(guò)存內(nèi)處理的方案只解決了功耗和效率的問(wèn)題，并沒(méi)有對(duì)計(jì)算性能和存儲(chǔ)性能帶來(lái)任何大幅提升。至于將主要計(jì)算工作交給存內(nèi)的計(jì)算單元，就是存內(nèi)計(jì)算的目標(biāo)了，比如不少?gòu)S商嘗試的模擬存內(nèi)計(jì)算（AIMC）。但這類(lèi)方案實(shí)現(xiàn)大規(guī)模并行化運(yùn)算的同時(shí)，還是需要昂貴的數(shù)模轉(zhuǎn)換器，以及逃不開(kāi)的錯(cuò)誤檢測(cè)。至于數(shù)字存內(nèi)計(jì)算方案，一定程度上規(guī)避了模擬存內(nèi)計(jì)算的缺陷，但還是犧牲了一些面積效率。對(duì)于一些大模型AI應(yīng)用而言，單芯片的存儲(chǔ)容量擴(kuò)展性堪憂。

所以數(shù)?；旌铣闪诵碌难芯糠较?，比如中科院微電子研究所就在今年的ISSCC大會(huì)上發(fā)表了數(shù)?；旌洗嫠阋惑w芯片的論文，其采用模擬方案來(lái)進(jìn)行陣列內(nèi)位乘法計(jì)算，利用數(shù)字方案來(lái)進(jìn)行陣列外多位移位累加計(jì)算，從而達(dá)到整體的高能量效率和面積效率，INT8精度下的計(jì)算峰值能效可達(dá)111.17TFLOPS/W.

speedAI240 / Untether AI

除此之外，還有存間計(jì)算的廠商，將計(jì)算單元放在不同的SRAM之間。以存間計(jì)算初創(chuàng)公司Untether AI為例，他們以打造存內(nèi)推理加速器AI為主，通過(guò)將計(jì)算單元放在兩個(gè)存儲(chǔ)單元之間，其IC可以提供更高能效比的推理性能。比如他們?cè)诖蛟斓牡诙鶬C，speedAI240，集成了1400個(gè)定制RISC-V核心，可以提供至高2PetaFlops的推理性能，能耗比最高可達(dá)30 TFLOPS/W。

除了各種存算一體架構(gòu)的算力瓶頸外，存儲(chǔ)本身也需要做出突破。以三星的PIM為例，其雖然在DRAM上引入了PIM計(jì)算單元，但并未對(duì)DRAM本身的帶寬的性能帶來(lái)提升，這就造成了在存算一體的架構(gòu)中，依然存在計(jì)算單元與存儲(chǔ)器性能不平衡的問(wèn)題，各種其他類(lèi)型的存儲(chǔ)器，包括MRAM、PCM、RRAM，除了量產(chǎn)問(wèn)題外，寫(xiě)入速度和功耗的問(wèn)題也還未實(shí)現(xiàn)突破。

西安紫光國(guó)芯為此提出了一種3D異質(zhì)集成DRAM架構(gòu)，邏輯晶圓通過(guò)3D混合鍵合工藝堆疊至SeDRAM晶圓上，進(jìn)一步提升了訪存帶寬，降低了單位比特能耗，還能實(shí)現(xiàn)超大容量。從去年紫光國(guó)芯在VLSI 2023發(fā)布的論文來(lái)看，其SeDRAM已經(jīng)發(fā)展至新一代多層陣列架構(gòu)。結(jié)合低溫混合鍵合技術(shù)和mini-TSV堆疊技術(shù)，可以實(shí)現(xiàn)135Gbps/Gbit的帶寬和0.66pJ/bit的能效。

寫(xiě)在最后

其實(shí)無(wú)論是哪一種突破存儲(chǔ)墻瓶頸的方式，最終都很難逃脫復(fù)雜工藝帶來(lái)的挑戰(zhàn)。行業(yè)遲遲不愿普及相關(guān)的存算技術(shù)，還是在制造工藝上沒(méi)有達(dá)到適合普及的標(biāo)準(zhǔn)，無(wú)論是良率、成本還是所需的設(shè)計(jì)、制造流水線變化。已經(jīng)占據(jù)主導(dǎo)地位的計(jì)算芯片廠商，也不會(huì)選擇非得和存儲(chǔ)綁在一條船上，但行業(yè)必然會(huì)朝這個(gè)方向發(fā)展。

此外，不少存內(nèi)計(jì)算的堆疊方案中，還沒(méi)有選擇將主計(jì)算資源的CPU或GPU與存儲(chǔ)垂直堆疊，而是把部分計(jì)算負(fù)載交給與存儲(chǔ)結(jié)合的計(jì)算單元。這樣一來(lái)既提高了AI計(jì)算的效率，又不會(huì)因?yàn)榻Y(jié)構(gòu)變化而出現(xiàn)不兼容的情況。從行業(yè)發(fā)展的角度來(lái)看，近存計(jì)算和存內(nèi)處理最有可能先普及開(kāi)來(lái)。

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴