国产学生粉嫩泬无套进入,无码午夜福利视频一区二区

存算一體技術(shù)作為當(dāng)下內(nèi)存廠商和不少AI芯片公司都在全力鉆研的方向，已經(jīng)有了不少成果展示，下一代智能存儲(chǔ)的產(chǎn)品均已呼之欲出了。但新技術(shù)的新生期就是這樣，不斷有新的初創(chuàng)企業(yè)冒頭，不斷有新的架構(gòu)和路線面世，而今年的HotChips34上，就有這么兩個(gè)存算一體技術(shù)的分享，在現(xiàn)有的存算一體生態(tài)上做出了創(chuàng)新，再度為這條賽道上的激烈競(jìng)爭(zhēng)添油加醋。

1PB/s帶寬的千核RISC-V AI推理加速器

存算一體技術(shù)需要解決的，往往都是AI運(yùn)算上的問(wèn)題，比如訓(xùn)練和推理等等，所以不少做存算一體公司與AI芯片公司并無(wú)二致。而AI推理的出現(xiàn)為芯片設(shè)計(jì)者提出了三大關(guān)鍵挑戰(zhàn)，一是不斷提升的算力和功耗要求，不說(shuō)是存算一體芯片了，GPU、FPGA、ASIC等AI加速器都在往這個(gè)方向卷；二是神經(jīng)網(wǎng)絡(luò)的格局一直在變化，現(xiàn)有的芯片可能缺乏跟上節(jié)奏的擴(kuò)展性和靈活性；第三則是推理精度的缺失，在某些業(yè)務(wù)中精度的缺失可能只是意味著虧損，但在ADAS這樣的應(yīng)用中，就很有可能危及人身安全。

加拿大本土AI初創(chuàng)公司Untether AI就打算從計(jì)算的角度來(lái)解決AI推理問(wèn)題，早在2020年他們就推出了runAI200這款加速器芯片，不過(guò)該芯片基于臺(tái)積電16nm工藝，集成了200MB的SRAM，算力最高也只有500 TOPS（INT8），顯然不能滿足高性能的AI推理需求，但他們的思路卻從一開始就和其他存算一體公司不同。

我們常見的存算一體技術(shù)無(wú)疑就是近存計(jì)算和存內(nèi)計(jì)算這兩種，前者基于馮諾依曼架構(gòu)，主要還是完成加快數(shù)據(jù)轉(zhuǎn)移的過(guò)程，后者通過(guò)模擬技術(shù)來(lái)完成乘法累加運(yùn)算，再利用數(shù)字處理器來(lái)完成其他運(yùn)算。

Untether AI卻提出了存間計(jì)算（At-MemoryComputation），將雙向的計(jì)算邏輯單元放在SRAM之間。如此一來(lái)不僅能提供大規(guī)模并行卻又簡(jiǎn)短的直接連接，也能提供獨(dú)立優(yōu)化過(guò)的內(nèi)存，提升效率和帶寬，根據(jù)Untether AI所說(shuō)，存間計(jì)算恰好能夠解決AI加速的痛點(diǎn)。

Boqueria與競(jìng)品的對(duì)比/ Untether AI

為此，Untether AI推出了Boqueria，一個(gè)算力高達(dá)2PFLOPS、能效比高達(dá)30TFLOPS/W的存間計(jì)算AI推理加速器芯片。Boqueria基于臺(tái)積電7nm打造，頻率高達(dá)1.35GHz，集成了729個(gè)存儲(chǔ)體、238MB的片上SRAM和1458個(gè)RISC-V核心，SRAM內(nèi)存帶寬可以達(dá)到1PB/s。

每個(gè)存儲(chǔ)體中包含2個(gè)RISC-V核心，各管理4個(gè)行控制器。行控制器之間獨(dú)立運(yùn)行，每個(gè)行控制器控制64個(gè)SIMD處理單元，用于完成矩陣向量乘法運(yùn)算。這些處理單元支持INT4、INT8、FP8和BF16這四種常見數(shù)據(jù)格式，而且依Untether AI看來(lái)，F(xiàn)P8是精度、吞吐量和能效平衡上最好的一個(gè)，更不用說(shuō)Untether AI在處理單元上加入了零檢測(cè)，進(jìn)一步拉高了能效比。

Boqueria架構(gòu)不同規(guī)模下的功耗與算力對(duì)比/ Untether AI

Boqueria上的RISC-V核心由Untether AI自己客制化的，本身基于RV32EMC指令集的同時(shí)，還加入了20多條專用于存間計(jì)算和推理加速的指令。Boqueria的另一大優(yōu)勢(shì)，就是它極具擴(kuò)展性的架構(gòu)。最小的結(jié)構(gòu)可以做到1W以下，也可以將其做成Chiplet集成在其他SoC中，或者是再大一點(diǎn)的M.2卡、PCIe5.0卡等。要想追求最高的性能，可以做成集成6個(gè)Boqueria芯片的PCIe5.0卡，SRAM容量可達(dá)1.4GB，LPDDR5 DRAM容量可達(dá)192GB，F(xiàn)P8算力可達(dá)12PFLOPS，更不用說(shuō)除了芯片到芯片之間的通信外，Boqueria也支持PCIe卡之間的通信。

神經(jīng)形態(tài)存內(nèi)計(jì)算處理器

韓國(guó)科學(xué)技術(shù)院的研究團(tuán)隊(duì)在本屆HotChips上展示了一種新型的存算一體處理器，結(jié)合了時(shí)下兩大新技術(shù)，神經(jīng)形態(tài)和存內(nèi)計(jì)算。傳統(tǒng)的存內(nèi)計(jì)算處理器由于在矩陣乘法上的優(yōu)勢(shì)，可以為深度學(xué)習(xí)解決最大的計(jì)算問(wèn)題?？蛇@個(gè)計(jì)算結(jié)果的準(zhǔn)確性很大程度取決于處理器上DAC和ADC的精度。

可DAC和ADC的精度越高，模擬計(jì)算的結(jié)果也就越精確，也使得處理器的硬件開銷變高，無(wú)論是功耗還是面積都是如此，甚至有可能抵消存內(nèi)計(jì)算原本的硬件優(yōu)勢(shì)。在整個(gè)處理器的功耗中，高精度的ADC甚至可能會(huì)占據(jù)一半以上的功耗，甚至超過(guò)驅(qū)動(dòng)器和控制器的總和。

不僅如此，在真實(shí)應(yīng)用中由于低稀疏度，其能效比也遠(yuǎn)不如紙面數(shù)據(jù)那么理想，比如面對(duì)CIFAR-10或ImageNet等數(shù)據(jù)集時(shí)，其能效比甚至可能會(huì)縮水到十分之一，徹底毀掉了存內(nèi)計(jì)算處理器在算力和能耗上的雙重優(yōu)勢(shì)。

于是韓國(guó)科學(xué)技術(shù)院團(tuán)隊(duì)考慮用二進(jìn)制脈沖信號(hào)的事件驅(qū)動(dòng)運(yùn)算來(lái)生成輸入稀疏，并將卷積神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)換成脈沖神經(jīng)網(wǎng)絡(luò)，從而剔除ADC/DAC，并引入了四大特性。比如用最高有效位WordSkipping和早停法來(lái)減少位線活動(dòng)，從而降低各種模式下的功耗，并用混合模式的神經(jīng)元放電和電壓折疊技術(shù)，將該處理器的動(dòng)態(tài)電壓范圍提高至3倍。

傳統(tǒng)存內(nèi)計(jì)算架構(gòu)與神經(jīng)形態(tài)存內(nèi)計(jì)算架構(gòu)對(duì)比/ 韓國(guó)科學(xué)技術(shù)院

如此一來(lái)，他們打造出了一個(gè)高能效的神經(jīng)形態(tài)存內(nèi)計(jì)算架構(gòu)，存內(nèi)計(jì)算減少內(nèi)存訪問(wèn)和多字線驅(qū)動(dòng)的優(yōu)勢(shì)依然保留，但脈沖神經(jīng)網(wǎng)絡(luò)的加入，卻消除了高精度ADC的需求。他們根據(jù)這一架構(gòu)打造出了一個(gè)基于28nm工藝的存內(nèi)計(jì)算芯片，總存儲(chǔ)大小只有32KB，頻率也只有200MHz，卻可以在100到200mW的系統(tǒng)功耗下，實(shí)現(xiàn)最高310.4 TOPS/W的高能效比?？紤]到這一研究本身也是由三星贊助，這一思路未來(lái)很有可能被用于三星的MRAM存內(nèi)計(jì)算芯片中去，屆時(shí)才會(huì)考慮使用更優(yōu)的工藝來(lái)實(shí)現(xiàn)更高的性能，并做到更大的容量。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴