隨著大型語(yǔ)言模型(LLM)的規(guī)模和復(fù)雜性日益增加,NVIDIA 于今日宣布對(duì) NeMo Megatron 框架進(jìn)行更新,將訓(xùn)練速度提高 30%。
此次更新包括兩項(xiàng)開(kāi)創(chuàng)性的技術(shù)和一個(gè)超參數(shù)工具,用于優(yōu)化和擴(kuò)展任意數(shù)量 GPU 上的 LLM 訓(xùn)練,這為使用 NVIDIA AI 平臺(tái)訓(xùn)練和部署模型提供了新功能。
BLOOM 是全球最大的開(kāi)放科學(xué)、開(kāi)放存取多語(yǔ)言模型,具有 1760 億參數(shù)。該模型最近在NVIDIA AI 平臺(tái)上進(jìn)行了訓(xùn)練,支持 46 種語(yǔ)言和 13 種編程語(yǔ)言的文本生成。NVIDIA AI 平臺(tái)還提供了最強(qiáng)大的轉(zhuǎn)換器語(yǔ)言模型,具有 5300 億參數(shù),Megatron-Turing NLG 模型 (MT-NLG) 。
LLMs 的最新進(jìn)展
LLM 是當(dāng)今最重要的先進(jìn)技術(shù)之一,涉及從文本中學(xué)習(xí)的多達(dá)數(shù)萬(wàn)億參數(shù)。但 LLM 的開(kāi)發(fā)過(guò)程昂貴而耗時(shí),需要深厚的技術(shù)知識(shí)、分布式基礎(chǔ)設(shè)施和全棧式方法。
LLM 也大大有助于推動(dòng)實(shí)時(shí)內(nèi)容生成、文本摘要、客服聊天機(jī)器人以及對(duì)話式AI問(wèn)答界面的發(fā)展。
為了推動(dòng) LLM 的發(fā)展,人工智能(AI)社區(qū)正在繼續(xù)對(duì) Microsoft DeepSpeed, Colossal-AI 和Hugging Face BigScience 和 Fairscale 等工具進(jìn)行創(chuàng)新,這些工具均由 NVIDIA AI 平臺(tái)提供支持,包括 Megatron-LM、Apex 和其他 GPU 加速庫(kù)。
這些對(duì) NVIDIA AI 平臺(tái)的全新優(yōu)化有助于解決整個(gè)堆棧中現(xiàn)有的許多痛點(diǎn)。NVIDIA 期待著與 AI 社區(qū)合作,讓每個(gè)人都能享受到 LLM 的力量。
更快速構(gòu)建 LLMs
NeMo Megatron 的最新更新令 GPT-3 模型的訓(xùn)練速度提高了 30%,這些模型的規(guī)模從 220 億到 1 萬(wàn)億個(gè)參數(shù)不等?,F(xiàn)在使用 1024 個(gè) NVIDIA A100 GPU 只需 24 天就可以訓(xùn)練一個(gè)擁有 1750 億個(gè)參數(shù)的模型。相比推出新版本之前,獲得結(jié)果的時(shí)間縮短了 10 天或約 25 萬(wàn)個(gè)小時(shí)的 GPU 計(jì)算。
NeMo Megatron 是快速、高效、易于使用的端到端容器化框架,它可以用于收集數(shù)據(jù)、訓(xùn)練大規(guī)模模型、根據(jù)行業(yè)標(biāo)準(zhǔn)基準(zhǔn)評(píng)估模型,并且以最高水準(zhǔn)的延遲和吞吐性能進(jìn)行推理。
它讓 LLM 訓(xùn)練和推理在各種 GPU 集群配置上變得簡(jiǎn)單、可復(fù)制。目前,早期訪問(wèn)用戶客戶可在NVIDIA DGX SuperPOD、NVIDIA DGX Foundry 以及 Microsoft Azure 上運(yùn)行這些功能。對(duì)其他云平臺(tái)的支持也即將推出。
另外,用戶還可以在 NVIDIA LaunchPad上進(jìn)行功能試用。LaunchPad 是一項(xiàng)免費(fèi)計(jì)劃,可提供短期內(nèi)訪問(wèn) NVIDIA 加速基礎(chǔ)設(shè)施上的動(dòng)手實(shí)驗(yàn)室目錄的機(jī)會(huì)。
NeMo Megatron 是 NeMo 的一部分,開(kāi)源框架 NeMo,用于為對(duì)話式 AI、語(yǔ)音 AI 和生物學(xué)構(gòu)建高性能和靈活的應(yīng)用程序。
兩項(xiàng)加速 LLM 訓(xùn)練的新技術(shù)
此次更新包括兩項(xiàng)用于優(yōu)化和擴(kuò)展 LLM 訓(xùn)練的新技術(shù)——序列并行(SP)和選擇性激活重計(jì)算(SAR)。
SP 通過(guò)注意到變換器層中尚未并行化的區(qū)域在序列維度是獨(dú)立的,以此擴(kuò)展張量級(jí)模型的并行性。
沿序列維度分割層,可以將算力以及最重要的內(nèi)激活內(nèi)存分布到張量并行設(shè)備上。激活是分布式的,因此可以將更多的激活保存到反向傳播中,而無(wú)需重新計(jì)算。
圖1. Transformer 層內(nèi)的并行模式
SAR 通過(guò)注意到不同的激活在重計(jì)算時(shí)需要不同數(shù)量的運(yùn)算,改善了內(nèi)存限制迫使重新計(jì)算部分(但不是所有)激活的情況。
可以只對(duì)每個(gè) Transformer 層中占用大量?jī)?nèi)存,但重新計(jì)算成本不高的部分設(shè)置檢查點(diǎn)和進(jìn)行重新計(jì)算,而不是針對(duì)整個(gè)變換器層。
有關(guān)更多信息,請(qǐng)參見(jiàn)減少大型 Transformer 模型中的激活重計(jì)算: https://arxiv.org/abs/2205.05198
圖2. 自注意力塊。紅色虛線表示使用選擇性激活重計(jì)算的區(qū)域
圖3. 反向傳播中因 SP 和 SAR 的存在而獲得的激活內(nèi)存量。隨著模型大小的增加,SP 和 SAR 都會(huì)產(chǎn)生類似的內(nèi)存節(jié)省,將內(nèi)存需求減少約 5 倍。
圖4. 完全激活重計(jì)算和 SP+SAR 的計(jì)算開(kāi)銷。條形圖表示每層的前向、反向和重計(jì)算時(shí)間細(xì)分?;€代表沒(méi)有重計(jì)算和序列并行時(shí)的情況。這些技術(shù)有效地減少了所有激活被重計(jì)算而不是保存時(shí)產(chǎn)生的開(kāi)銷。最大模型的開(kāi)銷從 36% 下降到僅為 2%。
運(yùn)用 LLM 的力量,還需要高度優(yōu)化的推理策略。用戶可以十分輕松地將訓(xùn)練好的模型用于推理并使用 P-tuning 和提示調(diào)整功能優(yōu)化不同的用例。
這些功能是輕量化微調(diào)的有效替代方案,使 LLM 能夠適應(yīng)新的用例,而不需要采取微調(diào)全部預(yù)訓(xùn)練模型這種繁瑣的方法。在這項(xiàng)技術(shù)中,原始模型的參數(shù)并沒(méi)有被改變,因此避免了與微調(diào)模型相關(guān)的災(zāi)難性的“遺忘”問(wèn)題。
有關(guān)更多信息,請(qǐng)參見(jiàn)采用 P-Tuning 解決非英語(yǔ)下游任務(wù): https://developer.nvidia.com/blog/adapting-p-tuning-to-solve-non-english-downstream-tasks/
用于訓(xùn)練和推理的新超參數(shù)工具
在分布式基礎(chǔ)設(shè)施中為 LLM 尋找模型配置十分耗時(shí)。NeMo Megatron 帶來(lái)了超參數(shù)工具,它能夠自動(dòng)找到最佳訓(xùn)練和推理配置,而不需要修改代碼,這使 LLM 從第一天起就能在訓(xùn)練中獲得推理收斂性,避免了在尋找高效模型配置上所浪費(fèi)的時(shí)間。
該工具對(duì)不同的參數(shù)使用啟發(fā)法和經(jīng)驗(yàn)網(wǎng)格搜索來(lái)尋找具有最佳吞吐量的配置,包括數(shù)據(jù)并行性、張量并行性、管道并行性、序列并行性、微批大小和激活檢查點(diǎn)設(shè)置層的數(shù)量(包括選擇性激活重計(jì)算)。
通過(guò)使用超參數(shù)工具以及在 NGC 容器上的 NVIDIA 測(cè)試,NVIDIA 在 24 小時(shí)內(nèi)就得到了 175B GPT-3 模型的最佳訓(xùn)練配置(見(jiàn)圖5)。與使用完整激活重計(jì)算的通用配置相比,NVIDIA 將吞吐量速度提高了 20%-30%。對(duì)于參數(shù)超過(guò) 200 億的模型,NVIDIA 使用這些最新技術(shù)將吞吐量速度進(jìn)一步提升 10%-20%。
圖5. HP 工具在幾個(gè)容器上的結(jié)果顯示了通過(guò)序列并行和選擇性激活重計(jì)算實(shí)現(xiàn)的速度提升,其中每個(gè)節(jié)點(diǎn)都是 NVIDIA DGX A100。
超參數(shù)工具還可以找到在推理過(guò)程中實(shí)現(xiàn)最高吞吐量或最低延遲的模型配置。模型可以設(shè)置延遲和吞吐量限制,該工具也將推薦合適的配置。
圖6. HP 工具的推理結(jié)果顯示每個(gè) GPU 的吞吐量和不同配置的延遲。最佳配置包括高吞吐量和低延時(shí)。
-
機(jī)器人
+關(guān)注
關(guān)注
213文章
30249瀏覽量
217795 -
NVIDIA
+關(guān)注
關(guān)注
14文章
5431瀏覽量
108264 -
AI
+關(guān)注
關(guān)注
88文章
37012瀏覽量
290026
原文標(biāo)題:NVIDIA AI 平臺(tái)大幅提高大型語(yǔ)言模型的性能
文章出處:【微信號(hào):NVIDIA-Enterprise,微信公眾號(hào):NVIDIA英偉達(dá)企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
NVIDIA Isaac Lab多GPU多節(jié)點(diǎn)訓(xùn)練指南

Votee AI借助NVIDIA技術(shù)加速方言小語(yǔ)種LLM開(kāi)發(fā)
NVIDIA Isaac Lab可用環(huán)境與強(qiáng)化學(xué)習(xí)腳本使用指南

NVIDIA Isaac Sim與NVIDIA Isaac Lab的更新
ServiceNow攜手NVIDIA構(gòu)建150億參數(shù)超級(jí)助手
企業(yè)使用NVIDIA NeMo微服務(wù)構(gòu)建AI智能體平臺(tái)
NVIDIA發(fā)布全新NIM AI Guardrail微服務(wù)
NVIDIA NeMo Guardrails引入三項(xiàng)全新NIM微服務(wù)
NVIDIA 發(fā)布保障代理式 AI 應(yīng)用安全的 NIM 微服務(wù)
NVIDIA宣布NVIDIA Isaac重要更新
簡(jiǎn)述NVIDIA Isaac的重要更新

評(píng)論