97加勒比无码一区二区,国产mv在线免费观看

作者：算力魔方創(chuàng)始人/英特爾創(chuàng)新大使劉力

在CNN時(shí)代，AI模型的參數(shù)規(guī)模都在百萬(wàn)級(jí)別，僅需在單張消費(fèi)類顯卡上即可完成訓(xùn)練。例如，以業(yè)界知名的CNN模型：ResNet50為例，模型參數(shù)量是約為 25.63M，在ImageNet1K數(shù)據(jù)集上，使用單張消費(fèi)類顯卡RTX-4090只需大約35~40個(gè)小時(shí)，即可完成ResNet50模型的預(yù)訓(xùn)練。在大模型時(shí)代，由于大模型參數(shù)規(guī)模龐大，無(wú)法跟CNN時(shí)代的小模型一樣在單張顯卡上完成訓(xùn)練，需要構(gòu)建多張AI加速卡的集群才能完成AI大模型的預(yù)訓(xùn)練。例如：DeepSeek-V3在其技術(shù)報(bào)告中介紹，DeepSeek-V3的模型參數(shù)量為671B，需要278萬(wàn)8千個(gè)H800 GPU小時(shí)才能完成預(yù)訓(xùn)練，換句話說(shuō)，在有1萬(wàn)張H800的GPU集群上，需要訓(xùn)練278.8個(gè)小時(shí)。

包含1萬(wàn)張H800的AI數(shù)據(jù)中心包括：帶H800的服務(wù)器節(jié)點(diǎn)、網(wǎng)絡(luò)、存儲(chǔ)、電源、散熱等，一般來(lái)說(shuō)，總建設(shè)預(yù)算在15億美金左右。以從AWS上租用1萬(wàn)張H800為例，每小時(shí)的租金大約為12.3萬(wàn)美金/小時(shí)。以訓(xùn)練DeepSeek-V3為例，

訓(xùn)練效率每提升1%，相當(dāng)于節(jié)約278.8*1%*12.3=34.3萬(wàn)美金，

即240萬(wàn)人民幣的租金。所以，在大模型時(shí)代，如何充分利用分布式的GPU集群算力，是深度學(xué)習(xí)框架首先需要考慮的點(diǎn)。

要充分利用分布式的GPU集群算力，就需要充分使用復(fù)雜的并行策略，

包括數(shù)據(jù)并行、張量并行、參數(shù)分片并行、流水線并行、序列并行、專家并行等；并且還要提升GPU與GPU，服務(wù)器節(jié)點(diǎn)與服務(wù)器節(jié)點(diǎn)間的通訊效率；除此之外，還要考慮AI數(shù)據(jù)中心不同算力芯片的適配；前沿模型快速發(fā)展時(shí)，對(duì)新型模型的支持等等...若要求AI模型科學(xué)家既要

熟知模型結(jié)構(gòu)，還要深入了解芯片特點(diǎn)、硬件架構(gòu)、并行策略、調(diào)度邏輯等等

，這會(huì)使得大模型的開(kāi)發(fā)和性能優(yōu)化的

技術(shù)門(mén)檻變得非常高

，大大制約了大模型的開(kāi)發(fā)和訓(xùn)練效率。針對(duì)上述需求和痛點(diǎn)，

飛槳新一代框架3.0

應(yīng)運(yùn)而生，該版本提供了豐富的深度學(xué)習(xí)相關(guān)的各種開(kāi)發(fā)接口：

表示層：專注于計(jì)算圖的表達(dá)與轉(zhuǎn)換，通過(guò)高可擴(kuò)展中間表示PIR，實(shí)現(xiàn)動(dòng)轉(zhuǎn)靜、自動(dòng)微分、自動(dòng)并行、算子組合以及計(jì)算圖優(yōu)化等核心功能；

調(diào)度層：負(fù)責(zé)對(duì)代碼或計(jì)算圖進(jìn)行智能編排與高效調(diào)度，支持動(dòng)態(tài)圖和靜態(tài)圖兩種不同的執(zhí)行模式；

算子層：由神經(jīng)網(wǎng)絡(luò)編譯器CINN和算子庫(kù)PHI共同構(gòu)成，涵蓋了張量定義、算子定義、算子自動(dòng)融合和算子內(nèi)核實(shí)現(xiàn)等關(guān)鍵功能；

適配層：則用于實(shí)現(xiàn)與底層芯片適配，包括設(shè)備管理、算子適配、通信適配以及編譯接入等功能。

飛槳框架3.0憑借強(qiáng)大的功能和優(yōu)化的設(shè)計(jì)，

幫助算法工程師和科研人員以更低的成本進(jìn)行算法創(chuàng)新，

并實(shí)現(xiàn)產(chǎn)業(yè)應(yīng)用。以百度文心大模型為例，飛槳框架3.0在訓(xùn)練、推理等方面為文心大模型提供端到端優(yōu)化，訓(xùn)練方面重點(diǎn)提升訓(xùn)練吞吐、訓(xùn)練有效率和收斂效率，集群訓(xùn)練有效率超過(guò)98%；推理部署方面通過(guò)注意力機(jī)制量化推理、通用投機(jī)解碼等技術(shù)提升推理吞吐和效率；全面支持文心4.5、文心X1等大模型的技術(shù)創(chuàng)新和產(chǎn)業(yè)應(yīng)用。

飛槳框架3.0 Github倉(cāng)：https://github.com/PaddlePaddle/Paddle。

如果你有更好的文章，歡迎投稿！

稿件接收郵箱：nami.liu@pasuntech.com

更多精彩內(nèi)容請(qǐng)關(guān)注“算力魔方?”！

審核編輯黃宇

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

深度學(xué)習(xí)

深度學(xué)習(xí)

+關(guān)注

關(guān)注
73

文章
5549

瀏覽量
122360
大模型

大模型

+關(guān)注

關(guān)注
2

文章
2960

瀏覽量
3706
DeepSeek

DeepSeek

+關(guān)注

關(guān)注
1

文章
759

瀏覽量
1134

搜索歷史

大模型時(shí)代的深度學(xué)習(xí)框架

評(píng)論