在今年 3 月的 GTC 2022 大會上,阿里云帶來了推理優(yōu)化/部署、深度學(xué)習(xí)編譯器、大模型部署、訓(xùn)練優(yōu)化等主題的內(nèi)容,分享云端機(jī)器學(xué)習(xí)平臺 PAI (Machine Learning Platform for AI) 最新的創(chuàng)新實(shí)踐,并已在【阿里靈杰】知乎號陸續(xù)發(fā)布三篇演講內(nèi)容深度回顧。同時阿里云也分享了其設(shè)計研發(fā)的高性能云手游解決方案——彈性云手機(jī)。
專家?guī)憬庾x,免費(fèi)學(xué)習(xí)不間斷
阿里云的精彩分享均已在 NVIDIA On-Demand 上線。
云端 Triton 生產(chǎn)實(shí)踐
NVIDIA Triton 推理服務(wù)器是一款功能全面、可擴(kuò)展且功能強(qiáng)大的推理解決方案,在邊緣設(shè)備和云上皆可部署。在云上將 Triton 部署到生產(chǎn)環(huán)境中時,應(yīng)考慮效率、可擴(kuò)展性以及與 Triton 自身外的云上基礎(chǔ)設(shè)施的集成。本演講將介紹阿里云中通過 PAI-EAS 提供 Triton 作為云服務(wù)的關(guān)鍵見解:
1) 一鍵部署 Triton 集群
2) 根據(jù)請求吞吐量擴(kuò)展 Triton 集群
3) 與 OSS(對象存儲服務(wù))原生集成
4) Triton 和 GPU 共享調(diào)度。
通過 PAI-Blade 更易用、更可靠地使用 TensorRT
TensorRT 是由 NVIDIA 推出的業(yè)界領(lǐng)先的推理加速器,在深度學(xué)習(xí)推理場景應(yīng)用廣泛,但是通過 TensorRT 來優(yōu)化深度學(xué)習(xí)模型仍有一定門檻。首先,通過 TensorRT 解析模型時會遇到轉(zhuǎn)換失敗或表現(xiàn)不理想的情況。其次,從零開始搭建網(wǎng)絡(luò)比較耗時且難以擴(kuò)展。此外,在生產(chǎn)環(huán)境里增加新的推理框架需要嚴(yán)謹(jǐn)?shù)脑u估。本次演講將介紹如何通過一站式 AI 加速器 PAI-Blade 解決上述問題。PAI-Blade 能夠?qū)崿F(xiàn) TensorRT 后端上的自動圈圖和自動化運(yùn)行。同時還可以與 TensorRT Plugin 協(xié)同工作,以實(shí)現(xiàn)更好的性能。目前 PAI-Blade 提供對 TensorFlow 和 PyTorch 的產(chǎn)品化支持。
PaiSparse:面向深度學(xué)習(xí)的稀疏加速庫
隨著超大語言模型的流行, 如何部署超大模型正在成為迫切需要解決的問題。非結(jié)構(gòu)化剪枝可以將模型規(guī)??s小 99%,讓超大語言模型在單卡上部署成為可能。然而超大模型稀疏后會呈現(xiàn)不同的非零分布,而這些分布會直接影響硬件的計算量并影響最終的執(zhí)行時間。同時與傳統(tǒng)的 HPC 任務(wù)不同的是,基于訓(xùn)練后的稀疏矩陣分布的 tuning 在深度學(xué)習(xí)推理中是可以進(jìn)行的。因此我們提出一個面向深度學(xué)習(xí)的稀疏加速庫:PaiSparse,可以自動生成更高效的稀疏算子。實(shí)驗(yàn)表明,與 cuSparse 相比, PaiSparse 可以提速 1.5~5 倍。
PTXC:使用 XLA 編譯器通過云 GPU 擴(kuò)展 PyTorch 訓(xùn)練
在工業(yè)界實(shí)踐中,模型訓(xùn)練和部署的效率、規(guī)模和適配性關(guān)系到最終的應(yīng)用效果。為滿足 PyTorch eager-first 的 GPU 編譯流程, Lazy Tensor 架構(gòu)被提出來。通過采用實(shí)踐驗(yàn)證過的產(chǎn)品化 XLA 編譯器和分布式引擎, PTXC 能在阿里云 GPU 集群中以基于編譯優(yōu)化的方式一鍵快速搭建易用、彈性且高效的 PyTorch 模型訓(xùn)練系統(tǒng)。
阿里云基于 AI 編譯器的通用透明性能解決方案
本次演講將從云服務(wù)廠商的視角,分享在云端和機(jī)器學(xué)習(xí)平臺上大規(guī)模部署 AI 編譯器的實(shí)戰(zhàn)經(jīng)驗(yàn)。我們將詳細(xì)介紹近期剛剛開源的動態(tài) shape 深度學(xué)習(xí)編譯器 BladeDISC,包括它的背景和主要特性,具體設(shè)計架構(gòu)和實(shí)現(xiàn)細(xì)節(jié),動態(tài) shape 語義下的性能優(yōu)化經(jīng)驗(yàn),未來計劃以及在 NVIDIA 設(shè)備上的應(yīng)用等。
未來游戲趨勢:通過阿里云彈性云手機(jī)解決方案打造云游戲
基于 NVIDIA GPU 及原生的 ARM 平臺,阿里云設(shè)計研發(fā)了高性能的云手游解決方案——彈性云手機(jī),可實(shí)現(xiàn)虛擬化渲染及顯存隔離,在確保隔離的情況下充分發(fā)揮 GPU 性能。此外,彈性云手機(jī)無縫對接阿里巴巴云游戲流媒體平臺,該平臺兼容多種流媒體協(xié)議,并具備完整的“渲染-編碼-串流”云手游架構(gòu)。
原文標(biāo)題:NVIDIA On-Demand 觀看阿里云機(jī)器學(xué)習(xí)平臺 PAI 的精彩演講
文章出處:【微信公眾號:NVIDIA英偉達(dá)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
審核編輯:湯梓紅
-
NVIDIA
+關(guān)注
關(guān)注
14文章
5694瀏覽量
110119 -
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
67文章
8565瀏覽量
137226 -
阿里云
+關(guān)注
關(guān)注
3文章
1046瀏覽量
45870
原文標(biāo)題:NVIDIA On-Demand 觀看阿里云機(jī)器學(xué)習(xí)平臺 PAI 的精彩演講
文章出處:【微信號:NVIDIA_China,微信公眾號:NVIDIA英偉達(dá)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
壁仞科技全面入駐國家教育開源平臺啟悟學(xué)習(xí)社區(qū)
北京人形機(jī)器人創(chuàng)新中心中試驗(yàn)證平臺正式啟動
主線科技入選“人工智能+”創(chuàng)新應(yīng)用實(shí)踐案例
飛譜電子入選2025年度江蘇省博士后創(chuàng)新實(shí)踐基地
萬里紅榮獲數(shù)智化實(shí)踐典型案例“創(chuàng)新突破”稱號
山東移動攜手華為榮獲NetworkX 2025電信領(lǐng)域最具創(chuàng)新AI實(shí)踐獎
具身智能家務(wù)機(jī)器人黑客松報名通道已開啟
左藍(lán)微電子獲批設(shè)立常州市博士后創(chuàng)新實(shí)踐基地
“科創(chuàng)新勢力重慶行”圓滿落幕,啟明云端詮釋技術(shù)-產(chǎn)品-場景新質(zhì)生產(chǎn)力轉(zhuǎn)化
FPGA在機(jī)器學(xué)習(xí)中的具體應(yīng)用
盤點(diǎn)#機(jī)器人開發(fā)平臺
電力電子教學(xué)新范式:EasyGo半實(shí)物仿真平臺賦能高校創(chuàng)新實(shí)踐
云端機(jī)器學(xué)習(xí)平臺PAI最新的創(chuàng)新實(shí)踐
評論