chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

NVIDIA AI平臺(tái)為大型語言模型帶來巨大收益

星星科技指導(dǎo)員 ? 來源:NVIDIA ? 作者:NVIDIA ? 2022-10-10 15:39 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

隨著大型語言模型( LLM )的規(guī)模和復(fù)雜性不斷增長, NVIDIA 今天宣布更新 NeMo Megatron 框架,提供高達(dá) 30% 的訓(xùn)練速度。

這些更新包括兩種開拓性技術(shù)和一個(gè)超參數(shù)工具,用于優(yōu)化和擴(kuò)展任何數(shù)量 GPU 上的 LLM 訓(xùn)練,提供了使用 NVIDIA AI 平臺(tái)訓(xùn)練和部署模型的新功能。

BLOOM ,世界上最大的開放科學(xué)、開放獲取多語言模型,具有 1760 億個(gè)參數(shù),最近 在 NVIDIA AI 平臺(tái)上接受培訓(xùn) ,支持 46 種語言和 13 種編程語言的文本生成。 NVIDIA AI 平臺(tái)還支持最強(qiáng)大的 transformer 語言模型之一,具有 5300 億個(gè)參數(shù), Megatron-Turing NLG 模型 (MT-NLG)。

法學(xué)碩士研究進(jìn)展

LLM 是當(dāng)今最重要的先進(jìn)技術(shù)之一,涉及數(shù)萬億個(gè)從文本中學(xué)習(xí)的參數(shù)。然而,開發(fā)它們是一個(gè)昂貴、耗時(shí)的過程,需要深入的技術(shù)專業(yè)知識(shí)、分布式基礎(chǔ)設(shè)施和全堆棧方法。

然而,在推進(jìn)實(shí)時(shí)內(nèi)容生成、文本摘要、客戶服務(wù)聊天機(jī)器人和對話 AI 界面的問答方面,它們的好處是巨大的。

為了推進(jìn) LLM ,人工智能社區(qū)正在繼續(xù)創(chuàng)新工具,例如 Microsoft DeepSpeed , 巨大的人工智能 , 擁抱大科學(xué) 和 公平比例 –由 NVIDIA AI 平臺(tái)提供支持,涉及 Megatron LM , 頂 ,以及其他 GPU 加速庫。

這些對 NVIDIA AI 平臺(tái)的新優(yōu)化有助于解決整個(gè)堆棧中存在的許多難點(diǎn)。 NVIDIA 期待著與人工智能社區(qū)合作,繼續(xù)讓所有人都能使用 LLM 。

更快地構(gòu)建 LLM

NeMo Megatron 的最新更新為訓(xùn)練 GPT-3 模型提供了 30% 的加速,模型大小從 220 億到一萬億參數(shù)不等?,F(xiàn)在,使用 1024 個(gè) NVIDIA A100 GPU 只需 24 天,就可以在 1750 億個(gè)參數(shù)模型上完成訓(xùn)練——在這些新版本發(fā)布之前,將得出結(jié)果的時(shí)間減少了 10 天,或約 250000 個(gè)小時(shí)的 GPU 計(jì)算。

NeMo Megatron 是一種快速、高效且易于使用的端到端集裝箱化框架,用于收集數(shù)據(jù)、訓(xùn)練大規(guī)模模型、根據(jù)行業(yè)標(biāo)準(zhǔn)基準(zhǔn)評(píng)估模型,以及用于推斷最先進(jìn)的延遲和吞吐量性能。

它使 LLM 訓(xùn)練和推理在廣泛的 GPU 簇配置上易于重復(fù)。目前,這些功能可供早期訪問客戶使用 DGX 疊加視圖 和 NVIDIA DGX 鑄造廠 以及 Microsoft Azure 云。對其他云平臺(tái)的支持將很快提供。

你可以試試這些功能 NVIDIA LaunchPad ,這是一個(gè)免費(fèi)項(xiàng)目,提供對 NVIDIA 加速基礎(chǔ)設(shè)施上的動(dòng)手實(shí)驗(yàn)室目錄的短期訪問。

NeMo Megatron 是 NeMo 的一部分, NeMo 是一個(gè)開源框架,用于為會(huì)話人工智能、語音人工智能和生物學(xué)構(gòu)建高性能和靈活的應(yīng)用程序。

加速 LLM 訓(xùn)練的兩種新技術(shù)

優(yōu)化和擴(kuò)展 LLM 訓(xùn)練的更新中包括兩種新技術(shù),即序列并行( SP )和選擇性激活重新計(jì)算( SAR )。

序列并行性擴(kuò)展了張量級(jí)模型并行性,注意到之前未并行的 transformer 層的區(qū)域沿序列維度是獨(dú)立的。

沿著序列維度拆分這些層可以實(shí)現(xiàn)計(jì)算的分布,最重要的是,這些區(qū)域的激活內(nèi)存可以跨張量并行設(shè)備分布。由于激活是分布式的,因此可以為向后傳遞保存更多激活,而不是重新計(jì)算它們。

pYYBAGNDzECAU8uEAAHd26pTXCI160.png

圖 1.ZFK8 層內(nèi)的并行模式。

選擇性激活重新計(jì)算通過注意到不同的激活需要不同數(shù)量的操作來重新計(jì)算,從而改善了內(nèi)存約束強(qiáng)制重新計(jì)算部分(但不是全部)激活的情況。

與檢查點(diǎn)和重新計(jì)算整個(gè) transformer 層不同,可以只檢查和重新計(jì)算每個(gè) transformer 層中占用大量內(nèi)存但重新計(jì)算計(jì)算成本不高的部分。

有關(guān)更多信息,請參閱 減少大型 transformer 模型中的激活重新計(jì)算 。

poYBAGNDzEGAG715AADqV7z1znA578.png

圖 2.自注意力塊。紅色虛線顯示了應(yīng)用選擇性激活重新計(jì)算的區(qū)域。

pYYBAGNDzEKAUFbdAAEUt7ut50Q387.png

圖 3.由于 SP 和 SAR ,反向傳遞所需的激活內(nèi)存量。隨著模型尺寸的增加, SP 和 SAR 的內(nèi)存節(jié)省量相似,所需內(nèi)存減少了約 5 倍。

poYBAGNDzEaAcnRKAAsLv-HJEgM150.png

圖 4.完全激活重新計(jì)算和 SP 加 SAR 的計(jì)算開銷量。條形圖表示向前、向后和重新計(jì)算時(shí)間的每層分解?;€是指沒有重新計(jì)算和序列并行性的情況。這些技術(shù)可以有效地減少重新計(jì)算而不是保存所有激活時(shí)產(chǎn)生的開銷。對于最大型號(hào),開銷從 36% 降至 2% 。

訪問 LLM 的功能還需要高度優(yōu)化的推理策略。用戶可以輕松地使用經(jīng)過訓(xùn)練的模型進(jìn)行推理,并使用 p- 調(diào)優(yōu)和即時(shí)調(diào)優(yōu)功能針對不同的用例進(jìn)行優(yōu)化。

這些功能是微調(diào)的參數(shù)有效替代方案,并允許 LLM 適應(yīng)新的用例,而無需對完全預(yù)訓(xùn)練模型進(jìn)行嚴(yán)格的微調(diào)。在這種技術(shù)中,原始模型的參數(shù)不會(huì)改變。因此,避免了與微調(diào)模型相關(guān)的災(zāi)難性“遺忘”問題。

用于訓(xùn)練和推理的新超參數(shù)工具

跨分布式基礎(chǔ)設(shè)施查找 LLM 的模型配置是一個(gè)耗時(shí)的過程。 NeMo Megatron 引入了一種超參數(shù)工具,可以自動(dòng)找到最佳的訓(xùn)練和推理配置,無需更改代碼。這使得 LLM 能夠從第一天開始訓(xùn)練收斂以進(jìn)行推理,從而消除了搜索有效模型配置所浪費(fèi)的時(shí)間。

它跨不同參數(shù)使用啟發(fā)式和經(jīng)驗(yàn)網(wǎng)格搜索,以找到具有最佳吞吐量的配置:數(shù)據(jù)并行性、張量并行性、管道并行性、序列并行性、微批量大小和激活檢查點(diǎn)層的數(shù)量(包括選擇性激活重新計(jì)算)。

使用超參數(shù)工具和 NVIDIA 對 NGC 上的容器進(jìn)行測試,我們在 24 小時(shí)內(nèi)獲得了 175B GPT-3 模型的最佳訓(xùn)練配置(見圖 5 )。與使用完全激活重新計(jì)算的常見配置相比,我們實(shí)現(xiàn)了 20%-30% 的吞吐量加速。使用最新技術(shù),對于參數(shù)超過 20B 的模型,我們實(shí)現(xiàn)了額外 10%-20% 的吞吐量加速。

pYYBAGNDzEeAabYnAACzikT_BJ4428.png

圖 5.HP 工具在多個(gè)容器上的結(jié)果,表明序列并行和選擇性激活重新計(jì)算的速度加快,其中每個(gè)節(jié)點(diǎn)是一個(gè) NVIDIA DGX A100 。

hyperparameter 工具還允許查找在推理過程中實(shí)現(xiàn)最高吞吐量或最低延遲的模型配置。可以提供延遲和吞吐量約束來為模型服務(wù),該工具將推薦合適的配置。

poYBAGNDzEiAd80PAAGugunkSuk831.png

圖 6.HP 工具推斷結(jié)果,顯示了每 GPU 的吞吐量和不同配置的延遲。最佳配置包括高吞吐量和低延遲。

關(guān)于作者

Markel Ausin 是 NVIDIA 的深度學(xué)習(xí)算法工程師。在目前的角色中,他致力于構(gòu)建和部署大型語言模型,作為 NeMo- Megatron 框架的一部分。

Vinh Nguyen 是一位深度學(xué)習(xí)的工程師和數(shù)據(jù)科學(xué)家,發(fā)表了 50 多篇科學(xué)文章,引文超過 2500 篇。

Annamalai Chockalingam 是 NVIDIA 的 NeMo Megatron 和 NeMo NLP 產(chǎn)品的產(chǎn)品營銷經(jīng)理。

審核編輯:郭婷

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • NVIDIA
    +關(guān)注

    關(guān)注

    14

    文章

    5496

    瀏覽量

    109110
  • AI
    AI
    +關(guān)注

    關(guān)注

    89

    文章

    38168

    瀏覽量

    296859
  • 深度學(xué)習(xí)
    +關(guān)注

    關(guān)注

    73

    文章

    5591

    瀏覽量

    123917
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    利用NVIDIA Cosmos開放世界基礎(chǔ)模型加速物理AI開發(fā)

    NVIDIA 最近發(fā)布了 NVIDIA Cosmos 開放世界基礎(chǔ)模型(WFM)的更新,旨在加速物理 AI 模型的測試與驗(yàn)證數(shù)據(jù)生成。借助
    的頭像 發(fā)表于 12-01 09:25 ?524次閱讀

    NVIDIA推出面向語言、機(jī)器人和生物學(xué)的全新開源AI技術(shù)

    NVIDIA 秉持對開源的長期承諾,推出了面向語言、機(jī)器人和生物學(xué)的全新開源 AI 技術(shù),構(gòu)建開源生態(tài)系統(tǒng)做出貢獻(xiàn),擴(kuò)展 AI 的普及并推
    的頭像 發(fā)表于 11-06 11:49 ?704次閱讀

    研華科技推出基于NVIDIA Jetson Thor平臺(tái)的邊緣AI新品MIC-743

    研華重磅推出基于NVIDIA Jetson Thor平臺(tái)的邊緣AI新品 MIC-743,這款突破性產(chǎn)品以高達(dá)2070 FP4 TOPS的AI算力重新定義邊緣計(jì)算性能邊界,適用于當(dāng)前機(jī)器
    的頭像 發(fā)表于 08-29 14:53 ?1684次閱讀

    使用NVIDIA Earth-2生成式AI基礎(chǔ)模型革新氣候建模

    NVIDIA 正通過 cBottle(Climate in a Bottle 的簡稱)這項(xiàng)工作帶來新的突破,這是全球首個(gè)專為以公里尺度分辨率模擬全球氣候而設(shè)計(jì)的生成式 AI 基礎(chǔ)
    的頭像 發(fā)表于 06-12 15:54 ?1045次閱讀

    歐洲借助NVIDIA Nemotron優(yōu)化主權(quán)大語言模型

    NVIDIA 正攜手歐洲和中東的模型構(gòu)建商與云提供商,共同優(yōu)化主權(quán)大語言模型 (LLM),加速該地區(qū)各行業(yè)采用企業(yè)級(jí) AI。
    的頭像 發(fā)表于 06-12 15:42 ?927次閱讀

    首創(chuàng)開源架構(gòu),天璣AI開發(fā)套件讓端側(cè)AI模型接入得心應(yīng)手

    ,聯(lián)發(fā)科帶來了全面升級(jí)的天璣AI開發(fā)套件2.0,在模型庫規(guī)模、架構(gòu)開放程度、前沿端側(cè)AI技術(shù)支持和端側(cè)LoRA訓(xùn)練落地等方面均迎來全面躍遷,
    發(fā)表于 04-13 19:52

    Cognizant將與NVIDIA合作部署神經(jīng)人工智能平臺(tái),加速企業(yè)人工智能應(yīng)用

    -Cognizant將與NVIDIA合作部署神經(jīng)人工智能平臺(tái),加速企業(yè)人工智能應(yīng)用 Cognizant將在關(guān)鍵增長領(lǐng)域提供解決方案,包括企業(yè)級(jí)AI智能體、定制化行業(yè)大型
    的頭像 發(fā)表于 03-26 14:42 ?581次閱讀
    Cognizant將與<b class='flag-5'>NVIDIA</b>合作部署神經(jīng)人工智能<b class='flag-5'>平臺(tái)</b>,加速企業(yè)人工智能應(yīng)用

    英偉達(dá)GTC2025亮點(diǎn) NVIDIA推出Cosmos世界基礎(chǔ)模型和物理AI數(shù)據(jù)工具的重大更新

    推理模型,讓開發(fā)者以前所未有的方式控制世界生成。 NVIDIA 還推出了兩款由 NVIDIA Omniverse 和 Cosmos 平臺(tái)提供支持的新藍(lán)圖,
    的頭像 發(fā)表于 03-20 19:01 ?1181次閱讀

    Evo 2 AI模型可通過NVIDIA BioNeMo平臺(tái)使用

    Evo 2 是一個(gè)強(qiáng)大的新型 AI 模型,它基于亞馬遜云科技(AWS)上的 NVIDIA DGX Cloud 構(gòu)建而成,能夠幫助用戶深入了解不同物種的 DNA、RNA 和蛋白質(zhì)。
    的頭像 發(fā)表于 02-28 09:57 ?1249次閱讀

    NVIDIA發(fā)布Cosmos平臺(tái),加速物理AI開發(fā)

    )和機(jī)器人等物理AI系統(tǒng)的快速發(fā)展。 Cosmos平臺(tái)的核心在于其強(qiáng)大的生成式世界基礎(chǔ)模型,能夠模擬和預(yù)測復(fù)雜環(huán)境中的各種物理現(xiàn)象。結(jié)合高級(jí)tokenizer,Cosmos能夠高效地處理和分析大量數(shù)據(jù),
    的頭像 發(fā)表于 01-13 11:06 ?1055次閱讀

    NVIDIA推出開放式Llama Nemotron系列模型

    作為 NVIDIA NIM 微服務(wù),開放式 Llama Nemotron 大語言模型和 Cosmos Nemotron 視覺語言模型可在任何
    的頭像 發(fā)表于 01-09 11:11 ?1193次閱讀

    NVIDIA發(fā)布Cosmos?平臺(tái),助力物理AI系統(tǒng)發(fā)展

    NVIDIA近日宣布推出全新的NVIDIA Cosmos?平臺(tái),該平臺(tái)專為自動(dòng)駕駛汽車(AV)和機(jī)器人等物理AI系統(tǒng)而設(shè)計(jì),旨在推動(dòng)這些領(lǐng)域
    的頭像 發(fā)表于 01-08 15:36 ?896次閱讀

    NVIDIA推出面向RTX AI PC的AI基礎(chǔ)模型

    NVIDIA 今日發(fā)布能在 NVIDIA RTX AI PC 本地運(yùn)行的基礎(chǔ)模型,數(shù)字人、內(nèi)容創(chuàng)作、生產(chǎn)力和開發(fā)提供強(qiáng)大助力。
    的頭像 發(fā)表于 01-08 11:01 ?879次閱讀

    NVIDIA Cosmos世界基礎(chǔ)模型平臺(tái)發(fā)布

    NVIDIA 宣布推出NVIDIA Cosmos,該平臺(tái)由先進(jìn)的生成式世界基礎(chǔ)模型、高級(jí) tokenizer、護(hù)欄和加速視頻處理管線組成,將推動(dòng)自動(dòng)駕駛汽車(AV)和機(jī)器人等物理
    的頭像 發(fā)表于 01-08 10:39 ?1036次閱讀

    AI語言模型開發(fā)步驟

    開發(fā)一個(gè)高效、準(zhǔn)確的大語言模型是一個(gè)復(fù)雜且多階段的過程,涉及數(shù)據(jù)收集與預(yù)處理、模型架構(gòu)設(shè)計(jì)、訓(xùn)練與優(yōu)化、評(píng)估與調(diào)試等多個(gè)環(huán)節(jié)。接下來,AI部落小編為大家詳細(xì)闡述
    的頭像 發(fā)表于 12-19 11:29 ?1226次閱讀