電子發(fā)燒友網(wǎng)報(bào)道(文/周凱揚(yáng))人工智能在進(jìn)化的過程中,最不可或缺的便是模型和算力。訓(xùn)練出來的通用大模型省去了重復(fù)的開發(fā)工作,目前不少大模型都為學(xué)術(shù)研究和AI開發(fā)提供了方便,比如華為的盤古、搜狗的BERTSG、北京智源人工智能研究院的悟道2.0等等。
那么訓(xùn)練出這樣一個(gè)大模型需要怎樣的硬件前提?如何以較低的成本完成自己模型訓(xùn)練工作?這些都是不少AI初創(chuàng)企業(yè)需要考慮的問題,那么如今市面上有哪些訓(xùn)練芯片是經(jīng)得起考驗(yàn)的呢?我們先從國(guó)外的幾款產(chǎn)品開始看起。
英偉達(dá)A100
英偉達(dá)的A100可以說是目前AI訓(xùn)練界的明星產(chǎn)品,A100剛面世之際可以說是世界上最快的深度學(xué)習(xí)GPU。盡管近來有無(wú)數(shù)的GPU或其他AI加速器試圖在性能上撼動(dòng)它的地位,但綜合實(shí)力來看,A100依然穩(wěn)坐頭把交椅。

英特爾Gaudi和Ponte Vecchio
19年12月,英特爾收購(gòu)了以色列的Habana Labs,將其旗下的AI加速器產(chǎn)品線納入囊中。Habana Labs目前推出了用于推理的Goya處理器和用于訓(xùn)練的Gaudi處理器。盡管Habana Labs已經(jīng)隸屬英特爾,但現(xiàn)有的產(chǎn)品仍然基于臺(tái)積電的16nm制程,傳言稱其正在開發(fā)的Gaudi2將用上臺(tái)積電的7nm制程。 目前Gaudi已經(jīng)用于亞馬遜云服務(wù)AWS的EC2 DL1訓(xùn)練實(shí)例中,該實(shí)例選用了AWS定制的英特爾第二代Xeon可擴(kuò)展處理器,最多可配置8個(gè)Gaudi處理器,每個(gè)處理器配有32GB的HBM內(nèi)存,400Gbps的網(wǎng)絡(luò)架構(gòu)加上100Gbps的互聯(lián)帶寬,并支持4TB的NVMe存儲(chǔ)。


亞馬遜Trainium
最后我們以亞馬遜的訓(xùn)練芯片收尾,亞馬遜提供的服務(wù)器實(shí)例可以說是最多樣化的,也包含了以上提到的A100和Gaudi。亞馬遜作為云服務(wù)巨頭,早已開始部署自己的服務(wù)器芯片生態(tài),不僅在今年推出了第三代Graviton服務(wù)器處理器,也正式發(fā)布了去年公開的訓(xùn)練芯片Trainium,并推出了基于該芯片的Trn1實(shí)例。


小結(jié)
GPU一時(shí)半會(huì)不會(huì)跌落AI訓(xùn)練的神壇,但其他訓(xùn)練芯片的推陳出新證明了他們面對(duì)A100和Ponte Vecchio這種大規(guī)模芯片同樣不懼,甚至還有自己獨(dú)到的優(yōu)勢(shì)。
聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。
舉報(bào)投訴
-
gpu
+關(guān)注
關(guān)注
28文章
5050瀏覽量
134028 -
AI
+關(guān)注
關(guān)注
88文章
37213瀏覽量
291953
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
熱點(diǎn)推薦
NVIDIA Isaac Lab多GPU多節(jié)點(diǎn)訓(xùn)練指南
NVIDIA Isaac Lab 是一個(gè)適用于機(jī)器人學(xué)習(xí)的開源統(tǒng)一框架,基于 NVIDIA Isaac Sim 開發(fā),其模塊化高保真仿真適用于各種訓(xùn)練環(huán)境,可提供各種物理 AI 功能和由 GPU 驅(qū)動(dòng)的物理仿真,縮小仿真與現(xiàn)實(shí)世
【「AI芯片:科技探索與AGI愿景」閱讀體驗(yàn)】+第二章 實(shí)現(xiàn)深度學(xué)習(xí)AI芯片的創(chuàng)新方法與架構(gòu)
連接定義了神經(jīng)網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)。
不同神經(jīng)網(wǎng)絡(luò)的DNN:
一、基于大模型的AI芯片
1、Transformer 模型與引擎
1.1 Transformer 模型概述
Transformer 模型的出現(xiàn)
發(fā)表于 09-12 17:30
ai_cube訓(xùn)練模型最后部署失敗是什么原因?
ai_cube訓(xùn)練模型最后部署失敗是什么原因?文件保存路徑里也沒有中文
查看AICube/AI_Cube.log,看看報(bào)什么錯(cuò)?
發(fā)表于 07-30 08:15
aicube的n卡gpu索引該如何添加?
請(qǐng)問有人知道aicube怎樣才能讀取n卡的gpu索引呢,我已經(jīng)安裝了cuda和cudnn,在全局的py里添加了torch,能夠調(diào)用gpu,當(dāng)還是只能看到默認(rèn)的gpu0,顯示不了gpu1
發(fā)表于 07-25 08:18
提升AI訓(xùn)練性能:GPU資源優(yōu)化的12個(gè)實(shí)戰(zhàn)技巧
在人工智能與機(jī)器學(xué)習(xí)技術(shù)迅速發(fā)展的背景下,GPU計(jì)算資源的高效利用已成為關(guān)鍵技術(shù)指標(biāo)。優(yōu)化的GPU資源分配不僅能顯著提升模型訓(xùn)練速度,還能實(shí)現(xiàn)計(jì)算成本的有效控制。根據(jù)AI基礎(chǔ)設(shè)施聯(lián)盟2
海思SD3403邊緣計(jì)算AI數(shù)據(jù)訓(xùn)練概述
AI數(shù)據(jù)訓(xùn)練:基于用戶特定應(yīng)用場(chǎng)景,用戶采集照片或視頻,通過AI數(shù)據(jù)訓(xùn)練工程師**(用戶公司****員工)** ,進(jìn)行特征標(biāo)定后,將標(biāo)定好的訓(xùn)練
發(fā)表于 04-28 11:11
Deepseek海思SD3403邊緣計(jì)算AI產(chǎn)品系統(tǒng)
海思SD3403邊緣計(jì)算AI框架,提供了一套開放式AI訓(xùn)練產(chǎn)品工具包,解決客戶低成本AI系統(tǒng),針對(duì)差異化
發(fā)表于 04-28 11:05
適用于數(shù)據(jù)中心和AI時(shí)代的800G網(wǎng)絡(luò)
和性能隔離能力,以保障不同用戶任務(wù)互不干擾。
分布式AI計(jì)算與網(wǎng)絡(luò)架構(gòu)設(shè)計(jì)
分布式計(jì)算已成為AI訓(xùn)練的主流方式,通過將工作負(fù)載分配到多個(gè)GPU節(jié)點(diǎn)并行處理,以加速模型
發(fā)表于 03-25 17:35
摩爾線程GPU原生FP8計(jì)算助力AI訓(xùn)練
近日,摩爾線程正式開源MT-MegatronLM與MT-TransformerEngine兩大AI框架。通過深度融合FP8混合訓(xùn)練策略和高性能算子庫(kù),這兩大框架在國(guó)產(chǎn)全功能GPU上實(shí)現(xiàn)了
訓(xùn)練好的ai模型導(dǎo)入cubemx不成功怎么處理?
訓(xùn)練好的ai模型導(dǎo)入cubemx不成功咋辦,試了好幾個(gè)模型壓縮了也不行,ram占用過大,有無(wú)解決方案?
發(fā)表于 03-11 07:18
GPU是如何訓(xùn)練AI大模型的
在AI模型的訓(xùn)練過程中,大量的計(jì)算工作集中在矩陣乘法、向量加法和激活函數(shù)等運(yùn)算上。這些運(yùn)算正是GPU所擅長(zhǎng)的。接下來,AI部落小編帶您了解GPU
訓(xùn)練AI大模型需要什么樣的gpu
訓(xùn)練AI大模型需要選擇具有強(qiáng)大計(jì)算能力、足夠顯存、高效帶寬、良好散熱和能效比以及良好兼容性和擴(kuò)展性的GPU。在選擇時(shí),需要根據(jù)具體需求進(jìn)行權(quán)衡和選擇。
《算力芯片 高性能 CPUGPUNPU 微架構(gòu)分析》第3篇閱讀心得:GPU革命:從圖形引擎到AI加速器的蛻變
在數(shù)據(jù)挖掘工作中,我經(jīng)常需要處理海量數(shù)據(jù)的深度學(xué)習(xí)任務(wù),這讓我對(duì)GPU架構(gòu)和張量運(yùn)算充滿好奇。閱讀《算力芯片》第7-9章,讓我對(duì)這些關(guān)鍵技術(shù)有了全新認(rèn)識(shí)。
GPU架構(gòu)從早期的固定功能流水線,到現(xiàn)代
發(fā)表于 11-24 17:12
PyTorch GPU 加速訓(xùn)練模型方法
在深度學(xué)習(xí)領(lǐng)域,GPU加速訓(xùn)練模型已經(jīng)成為提高訓(xùn)練效率和縮短訓(xùn)練時(shí)間的重要手段。PyTorch作為一個(gè)流行的深度學(xué)習(xí)框架,提供了豐富的工具和
GPU服務(wù)器AI網(wǎng)絡(luò)架構(gòu)設(shè)計(jì)
眾所周知,在大型模型訓(xùn)練中,通常采用每臺(tái)服務(wù)器配備多個(gè)GPU的集群架構(gòu)。在上一篇文章《高性能GPU服務(wù)器AI網(wǎng)絡(luò)架構(gòu)(上篇)》中,我們對(duì)GPU

AI訓(xùn)練勢(shì)起,GPU要讓位了?
評(píng)論