91app ios,日韩视频,亚洲国产另类

電子發(fā)燒友網(wǎng)報(bào)道（文/李彎彎）大模型的訓(xùn)練和推理需要高性能的算力支持。以ChatGPT為例，據(jù)估算，在訓(xùn)練方面，1746億參數(shù)的GPT-3模型大約需要375-625臺(tái)8卡DGXA100服務(wù)器訓(xùn)練10天左右，對(duì)應(yīng)A100GPU數(shù)量約3000-5000張。

在推理方面，如果以A100GPU單卡單字輸出需要350ms為基準(zhǔn)計(jì)算，假設(shè)每日訪問客戶數(shù)量高達(dá)5,000萬人時(shí)，按單客戶每日發(fā)問ChatGPT應(yīng)用10次，單次需要50字回答，則每日消耗GPU的計(jì)算時(shí)間將會(huì)高達(dá)243萬個(gè)小時(shí)，對(duì)應(yīng)的GPU需求數(shù)量將超過10萬個(gè)。

大模型的訓(xùn)練和推理依賴通用GPU

算力即計(jì)算能力，具體指硬件對(duì)數(shù)據(jù)收集、傳輸、計(jì)算和存儲(chǔ)的能力，算力的大小表明了對(duì)數(shù)字化信息處理能力的強(qiáng)弱，常用計(jì)量單位是FLOPS（Floating-pointoperationspersecond），表示每秒浮點(diǎn)運(yùn)算次數(shù)。

當(dāng)前大模型的訓(xùn)練和推理多采用GPGPU。GPGPU是一種由GPU去除圖形處理和輸出，僅保留科學(xué)計(jì)算、AI訓(xùn)練和推理功能的GPU。GPU芯片最初用于計(jì)算機(jī)系統(tǒng)圖像顯示的運(yùn)算，但因其相比于擅長橫向計(jì)算的CPU更擅長于并行計(jì)算，在涉及到大量的矩陣或向量計(jì)算的AI計(jì)算中很有優(yōu)勢，GPGPU應(yīng)運(yùn)而生。

在這波ChatGPT浪潮中長期押注AI的英偉達(dá)可以說受益最多，ChatGPT、包括各種大模型的訓(xùn)練和推理，基本都采用英偉達(dá)的GPU。目前國內(nèi)多個(gè)廠商都在布局GPGPU，包括天數(shù)智芯、燧原科技、壁仞科技、登臨科技等，不過當(dāng)前還較少能夠應(yīng)用于大模型。

事實(shí)上業(yè)界認(rèn)為，隨著模型參數(shù)越來越大，GPU在提供算力支持上也存在瓶頸。在GPT-2之前的模型時(shí)代，GPU內(nèi)存還能滿足AI大模型的需求，近年來，隨著Transformer模型的大規(guī)模發(fā)展和應(yīng)用，模型大小每兩年平均增長240倍，實(shí)際上GPT-3等大模型的參數(shù)增長已經(jīng)超過了GPU內(nèi)存的增長。傳統(tǒng)的設(shè)計(jì)趨勢已經(jīng)不能適應(yīng)當(dāng)前的需求，芯片內(nèi)部、芯片之間或AI加速器之間的通信成為了AI計(jì)算的瓶頸。

存算一體技術(shù)如何突破算力瓶頸

而存算一體作為一種新型架構(gòu)形式受到關(guān)注，存算一體將存儲(chǔ)和計(jì)算有機(jī)結(jié)合，直接在存儲(chǔ)單元中處理數(shù)據(jù)，避免了在存儲(chǔ)單元和計(jì)算單元之間頻繁轉(zhuǎn)移數(shù)據(jù)，減少了不必要的數(shù)據(jù)搬移造成的開銷，不僅大幅降低了功耗，還可以利用存儲(chǔ)單元進(jìn)行邏輯計(jì)算提高算力，顯著提升計(jì)算效率。

大模型的訓(xùn)練和部署不僅對(duì)算力提出了高要求，對(duì)能耗的要求也很高，從這個(gè)角度來看，存算一體降低功耗，提升計(jì)算效率等特性在大模型方面確實(shí)更具優(yōu)勢。

因?yàn)楠?dú)具優(yōu)勢，過去幾年已經(jīng)有眾多企業(yè)進(jìn)入到存算一體領(lǐng)域，包括知存科技、千芯科技、蘋芯科技、后摩智能、億鑄科技等。各企業(yè)的技術(shù)方向也有所不同，從介質(zhì)層面來看，有的采用NORFlash，有的采用SRAM，也有的采用RRAM。

從目前的情況來看，基于NORFlash的存算一體產(chǎn)品，在算力上難以做大，應(yīng)用場景主要是對(duì)算力要求不高，對(duì)功耗要求高的可穿戴設(shè)備等領(lǐng)域；基于SRAM的存算一體算力可以更大些，能夠用于自動(dòng)駕駛領(lǐng)域；而真正能夠在算力上實(shí)現(xiàn)突破，可以稱之為大算力AI芯片的，目前只有億鑄科技主推的基于RRAM的存算一體技術(shù)。

在大模型對(duì)大算力的需求背景下，億鑄科技近期更是提出了存算一體超異構(gòu)計(jì)算。超異構(gòu)計(jì)算能夠把更多的異構(gòu)計(jì)算整合重構(gòu)，從而各類型處理器間充分地、靈活地進(jìn)行數(shù)據(jù)交互而形成的計(jì)算。

簡單來說，就是結(jié)合DSA、GPU、CPU、CIM等多個(gè)類型引擎的優(yōu)勢，實(shí)現(xiàn)性能的飛躍：DSA負(fù)責(zé)相對(duì)確定的大計(jì)算量的工作；GPU負(fù)責(zé)應(yīng)用層有一些性能敏感的并且有一定彈性的工作；CPU啥都能干，負(fù)責(zé)兜底；CIM就是存內(nèi)計(jì)算，超異構(gòu)和普通異構(gòu)的主要區(qū)別就是加入了CIM，由此可以實(shí)現(xiàn)同等算力，更低能耗，同等能耗，更高算力。另外，CIM由于器件的優(yōu)勢，能負(fù)擔(dān)比DSA更大的算力。

億鑄科技創(chuàng)始人、董事長兼CEO熊大鵬博士表示,存算一體超異構(gòu)計(jì)算的好處在于：一是在系統(tǒng)層,能夠把整體的效率做到最優(yōu)；二是在軟件層,能夠?qū)崿F(xiàn)跨平臺(tái)架構(gòu)統(tǒng)一。

基于存算一體超異構(gòu)概念，億鑄科技提出了自己的技術(shù)暢想：若能把新型憶阻器技術(shù)(RRAM)、存算一體架構(gòu)、芯粒技術(shù)（Chiplet）、3D封裝等技術(shù)結(jié)合，將會(huì)實(shí)現(xiàn)更大的有效算力、放置更多的參數(shù)、實(shí)現(xiàn)更高的能效比、更好的軟件兼容性、從而突破性能瓶頸，抬高AI大算力芯片的發(fā)展天花板。

圖源：億鑄科技

目前國內(nèi)已公開的能夠?qū)崿F(xiàn)存算一體AI大算力的芯片公司僅有億鑄科技，其基于RRAM的存算一體AI大算力芯片將在今年回片。

小結(jié)

無論是大模型的訓(xùn)練還是部署，對(duì)大算力芯片的需求都很大，從目前的情況來看，大模型的訓(xùn)練在很長時(shí)間都將要依賴于英偉達(dá)的GPU芯片。

而在大模型的推理部署方面，除了GPU,存算一體將是非常合適的選擇。未來大模型的部署規(guī)模會(huì)很大，從前不久英偉達(dá)專門推出適合大型語言模型部署的芯片平臺(tái)也能看出來。據(jù)億鑄科技透露，公司規(guī)劃的產(chǎn)品，在同等功耗下，性能將超越英偉達(dá)H100系列的推理芯片。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴