大模型訓練如何應對GPU萬卡互聯(lián)難題

近日，字節(jié)跳動聯(lián)合北京大學的研究團隊發(fā)表了一篇論文《將大型語言模型訓練擴展至超過10，000塊GPU》，提出一個用于訓練大語言模型的生產系統(tǒng)，解決在萬卡集群上訓練大模型時面臨的效率和穩(wěn)定性挑戰(zhàn)。

該論文介紹了系統(tǒng)的設計、實現(xiàn)和部署。此外，文中還提到了萬卡以上的集群規(guī)模遇到的問題及其解決方案。

01、萬卡集群的兩大挑戰(zhàn)

大模型時代，算力就是生產力。大模型的背后意味著巨大的計算資源，模型大小和訓練數(shù)據(jù)大小是決定模型能力的關鍵因素。市場的主力玩家們利用數(shù)萬個GPU構建大型人工智能集群，以訓練LLM。但當GPU集群達到萬卡規(guī)模，如何實現(xiàn)高效率、高穩(wěn)定的訓練？

第一個挑戰(zhàn)是實現(xiàn)大規(guī)模的高效率訓練。模型浮點運算利用率（MFU）是實際吞吐量與假設最大吞吐量之比，是評估模型訓練效率的通用指標，可以直接反映端到端的訓練速度。為了訓練LLM，需要將模型分布為多個GPU上，并且GPU之間需進行大量通信以推動進展。除了通信之外，如操作符優(yōu)化、數(shù)據(jù)預處理和GPU內存消耗等因素對MFU也有著顯著影響。

第二個挑戰(zhàn)是在大規(guī)模上實現(xiàn)訓練的高穩(wěn)定性，即在整個過程中保持高效率訓練。在大模型訓練中，穩(wěn)定性十分重要。失敗和延遲雖是大模型訓練中的常態(tài)，但其故障成本非常高。如何縮短故障恢復時間至關重要，一個掉隊者不僅會影響自己的工作，還會拖慢數(shù)萬個GPU的整個作業(yè)。

為了應對這些挑戰(zhàn)，字節(jié)跳動提出MegaScale（超大規(guī)模）系統(tǒng)，并已部署在自家的數(shù)據(jù)中心。那么字節(jié)是如何解決上述問題的呢？

02、如何實現(xiàn)大模型的高效訓練？

想要在不損害模型準確性的情況下處理急劇增加的計算需求，需要采用最先進的算法優(yōu)化、通信策略、數(shù)據(jù)流水線管理以及網絡性能調優(yōu)技術。下文深入探討了用于優(yōu)化大型模型訓練的方法，以實現(xiàn)大規(guī)模的高效率訓練。

算法優(yōu)化

在算法層面進行了一些優(yōu)化，在不影響準確性的前提下，提高訓練效率。主要包括并行transformer塊、滑動窗口注意力（SWA）和LAMB優(yōu)化器。

并行transformer塊：采用transformer塊的并行版本，代替標準的序列化公式。這種方法使得注意力塊和MLP塊的計算可以并行執(zhí)行，從而減少了計算時間。先前的研究表明，這種修改不會降低具有數(shù)千億參數(shù)的模型的質量。

滑動窗口注意力（SWA）是一種稀疏注意力機制，它在輸入序列中的每個標記周圍使用固定大小的窗口，比全自注意力更高效。通過堆疊此類窗口注意力層，模型能夠有效地捕獲輸入數(shù)據(jù)中廣泛的上下文信息，同時創(chuàng)建大感受野，從而在不影響準確性的情況下加快訓練速度。

LAMB優(yōu)化器：大規(guī)模的高效訓練通常受到批量大小限制的阻礙。特別是，增加批量大小可能會對模型收斂產生不利影響。LAMB優(yōu)化器能夠使BERT的訓練批量大小擴展到64K，而不影響準確性。

3D并行中的通信重疊

3D并行指張量并行、流水線并行和數(shù)據(jù)并行。

在數(shù)據(jù)并行中有兩個主要通信操作：all-gather操作和reduce-scatter操作。在3D并行中，單個設備可能承載多個模型塊。重疊是基于模型塊實現(xiàn)的，以最大化帶寬利用。all-gather操作在模型塊的前向傳遞之前觸發(fā)，reduce-scatter操作在它的后向傳遞之后開始。這導致第一個all-gather操作和最后一個reduce-scatter操作無法隱藏。受到PyTorch FSDP的啟發(fā)，初始的all-gather操作在每次迭代的開始時被預取，允許它與數(shù)據(jù)加載操作重疊，有效地將減少了通信時間。

在流水線并行中，MegaScale使用交錯1F1B調度方法，以實現(xiàn)通信的重疊。在熱身階段，前向傳遞僅依賴于其先前的接收。我們解耦了通常一起實現(xiàn)的發(fā)送和接收，通過打破這種依賴關系，使得發(fā)送操作能夠與計算重疊。在張量/序列并行中，介紹了融合通信和計算等優(yōu)化策略，以及將GEMM內核分成小塊并與通信進行流水線執(zhí)行。

高效操作符

盡管在MegatronLM中已經對GEMM操作符進行了優(yōu)化，但其他操作符中還有進一步增強的機會。注意力部分采用了FlashAttention-2，改進了不同線程塊和warp之間的工作分配。LayerNorm和GeLU由先前實現(xiàn)中的細粒度內核組成。通過將這些內核融合在一起，減少了與啟動多個內核相關的開銷，并有助于優(yōu)化內存訪問模式，從而實現(xiàn)更好的性能。

數(shù)據(jù)流水線優(yōu)化

數(shù)據(jù)預處理和加載經常被忽視。然而，這些操作在每個訓練步驟開始時會產生不可忽視的GPU空閑時間。優(yōu)化這些操作對于訓練過程的效率至關重要。

異步數(shù)據(jù)預處理。數(shù)據(jù)預處理不在關鍵路徑上。因此，當GPU工作器在每個訓練步驟結束同步梯度時，可以開始后續(xù)步驟的數(shù)據(jù)預處理，這就隱藏了預處理的開銷。

消除冗余數(shù)據(jù)加載器。在分布式訓練的典型數(shù)據(jù)加載階段，每個GPU工作器都配備了自己的數(shù)據(jù)加載器，負責將訓練數(shù)據(jù)讀入CPU內存，然后轉發(fā)到GPU。這導致工作線程之間為爭奪磁盤讀取帶寬，因此產生了瓶頸。我們觀察到，在LLM訓練設置中，同一臺機器內的GPU工作器處于相同的張量并行組。因此，它們每次迭代的輸入本質上是相同的?；谶@一觀察，我們采用了兩層樹狀的方法，在每臺機器上使用一個專用的數(shù)據(jù)加載器將訓練數(shù)據(jù)讀入共享內存。隨后，每個GPU工作器負責將必要的數(shù)據(jù)復制到自己的GPU內存中。這就消除了冗余讀取，并顯著提高了數(shù)據(jù)傳輸?shù)男省?/p>

集體通信群初始化

在分布式訓練中，初始化階段涉及在GPU工作器之間建立NVIDIA集體通信庫（NCCL）通信組。由于這種開銷在小規(guī)模場景中相對較小，因此默認使用torch.distributed。隨著GPU數(shù)量擴展到超過一萬個，naive實現(xiàn)引入的開銷變得無法忍受。

torch.distributed初始化時間過長有兩個原因。第一個問題在于同步步驟，其中每個進程在初始化特定通信組結束時參與了一個屏障操作。這個屏障使用TCPStore，以單線程、阻塞的讀寫方式操作。可以用非阻塞和異步的Redis替換TCPStore。第二個問題與全局屏障的不慎使用有關。每個進程在初始化其相應的通信組后執(zhí)行一個全局屏障。我們精心設計了通信組的初始化順序，以最小化全局屏障的需求，降低了時間復雜度。

在未經優(yōu)化的情況下，2048張GPU的集群初始化時間是1047秒，優(yōu)化后可降至5秒以下；萬卡GPU集群的初始化時間則可降至30秒以下。

網絡性能調優(yōu)

分析了3D并行中機器間的流量，并設計了技術方案來提高網絡性能。包括網絡拓撲設計、減少ECMP哈希沖突、擁塞控制和重傳超時設置。

網絡拓撲。我們的數(shù)據(jù)中心網絡是基于Broadcom Tomahawk 4芯片構建的高性能交換機。每個Tomahawk芯片的總帶寬為25.6Tbps，具有64×400Gbps端口。三層交換機以CLOS類似的拓撲連接，以連接超過10000個GPU。每層交換機的下行鏈路和上行鏈路的帶寬比為1:1。也就是說，32個端口用于下行，32個端口用于上行。該網絡以較小的直徑提供了高帶寬，每個節(jié)點都可以在有限的跳數(shù)內與其他節(jié)點通信。

減少ECMP哈希沖突。我們精心設計了網絡拓撲，并調度網絡流量以減少ECMP哈希沖突。首先，在機架ToR交換機上把上行與下行鏈路分開，一個 400G 下行鏈路端口通過特定的 AOC 電纜分為兩個 200G 下行鏈路端口，有效降低沖突率。

擁塞控制。在分布式訓練中大規(guī)模使用默認的DCQCN協(xié)議時，all-to-all通信可能會導致?lián)砣?a target="_blank">PFC級別的提高。過度使用PFC可能會導致頭部阻塞（HoL），從而降低網絡吞吐量。為了緩解這些問題，我們開發(fā)了一個結合了Swift和DCQCN原理的算法，該算法將往返時間（RTT）的精確測量與顯式擁塞通知（ECN）的快速擁塞響應能力相結合。這種方法顯著提高了吞吐量，并最小化了與PFC相關的擁塞。

重傳超時設置。NCCL中的參數(shù)可以設置以控制重傳定時器和重試次數(shù)。我們調整這些參數(shù)以在鏈路抖動時快速恢復。為了進一步減少恢復時間，我們在NIC上啟用了adap_retrans功能。此功能支持在較短的時間間隔內進行重傳，當鏈路抖動周期較短時，有助于更快地恢復傳輸過程。

03、容錯性

隨著訓練集群擴展到超過數(shù)萬個GPU，軟件和硬件故障幾乎是不可避免的。我們?yōu)長LM訓練設計了一個健壯的訓練框架，實現(xiàn)了自動故障識別和快速恢復，在最小的人為干預和對正在進行的訓練任務最小影響的情況下實現(xiàn)容錯性。

如上圖所示，在接收到訓練任務后，驅動程序進程會與自定義的Kubernetes接口進行交互，以便分配計算資源并為每個執(zhí)行器啟動相應的Pod。一個執(zhí)行器管理一個節(jié)點。執(zhí)行器完成初始化任務后將在每個GPU上創(chuàng)建訓練進程，并啟動一個健壯的訓練守護進程，定期向驅動程序發(fā)送heartbeat以便實時檢測異常并預警。當檢測到異常狀態(tài)或在預定時間內未收到狀態(tài)報告時，會觸發(fā)故障恢復程序，將暫停所有正在進行的訓練任務，并命令它們自我檢查診斷。

一旦識別出問題節(jié)點，驅動程序將向Kubernetes提交要被封鎖的節(jié)點的IP地址，以及在這些節(jié)點上運行的Pod信息，Kubernetes將驅逐故障節(jié)點，并用健康節(jié)點替換。此外，還有一個用戶界面可以手動刪除問題節(jié)點?；謴瓦^程完成后，驅動程序會從最新的checkpoint恢復訓練。我們優(yōu)化了checkpoint和恢復過程，以最小化訓練進度的損失。

為了增強對訓練穩(wěn)定性和性能的監(jiān)控，開發(fā)了一個精度達到毫秒級的監(jiān)控系統(tǒng)。采用不同級別的監(jiān)控來跟蹤各種指標。此外，文中還講述了如何實現(xiàn)checkpoint快速恢復、訓練故障排除，以及MegaScale部署和運營的經驗，感興趣的可下載論文查閱。

04、結論

本文深入探討了MegaScale的設計、實現(xiàn)和部署。通過算法-系統(tǒng)協(xié)同設計，MegaScale優(yōu)化了訓練效率。在12288個GPU上訓練一個175B LLM模型時，MegaScale實現(xiàn)了55.2%的MFU，比Megatron-LM提高了1.34倍。

我們強調在整個訓練過程中需要容錯，并實現(xiàn)了一個定制的健壯訓練框架，以自動定位和修復故障。此外，還提供了一套全面的監(jiān)控工具，用于深入觀察系統(tǒng)組件和事件，便于復雜異常的根本原因識別。我們相信，我們的工作不僅為那些從事LLM訓練的人提供了實用的見解，也為這個快速發(fā)展的領域的未來研究鋪平了道路。

審核編輯：黃飛

閱讀全文

gpu(126396) gpu(126396)
數(shù)據(jù)中心(69510) 數(shù)據(jù)中心(69510)
人工智能(230280) 人工智能(230280)
Transformer(5893) Transformer(5893)
大模型(940) 大模型(940)

AI訓練勢起，GPU要讓位了？

電子發(fā)燒友網報道（文/周凱揚）人工智能在進化的過程中，最不可或缺的便是模型和算力。訓練出來的通用大模型省去了重復的開發(fā)工作，目前不少大模型都為學術研究和AI開發(fā)提供了方便，比如華為的盤古、搜狗

2021-12-18 06:51:00

2840

AI模型是如何訓練的？訓練一個模型花費多大？

電子發(fā)燒友網報道（文/李彎彎）在深度學習中，經常聽到一個詞“模型訓練”，但是模型是什么？又是怎么訓練的？在人工智能中，面對大量的數(shù)據(jù)，要在雜亂無章的內容中，準確、容易地識別，輸出需要的圖像/語音

2022-10-23 00:19:00

24539

英偉達 H100 vs 蘋果M2 大模型訓練，哪款性價比更高？

訓練和微調大型語言模型對于硬件資源的要求非常高。目前，主流的大模型訓練硬件通常采用英特爾的CPU和英偉達的GPU。然而，最近蘋果的M2 Ultra芯片和AMD的顯卡進展給我們帶來了一些新的希望。

2023-07-28 16:11:01

2174

應對醫(yī)療智能化設計難題，ADI有何應對之策？

為克服智能化設計難題、搶占智能醫(yī)療市場先機，ADI公司亞太區(qū)醫(yī)療行業(yè)市場經理王勝為大家分享了ADI的應對之策？ADI公司從技術層面而言，憑借其傳感器技術，模擬及混合信號處理技術，無線傳輸以及數(shù)據(jù)處理技術一直致力于提供具有差異化及競爭優(yōu)勢的產品以應對智能化設計難題。

2013-05-23 10:11:32

1233

一文詳解知識增強的語言預訓練模型

隨著預訓練語言模型(PLMs)的不斷發(fā)展，各種NLP任務設置上都取得了不俗的性能。盡管PLMs可以從大量語料庫中學習一定的知識，但仍舊存在很多問題，如知識量有限、受訓練數(shù)據(jù)長尾分布影響魯棒性不好

2022-04-02 17:21:43

8837

基于不同量級預訓練數(shù)據(jù)的RoBERTa模型分析

NLP領域的研究目前由像RoBERTa等經過數(shù)十億個字符的語料經過預訓練的模型匯主導。那么對于一個預訓練模型，對于不同量級下的預訓練數(shù)據(jù)能夠提取到的知識和能力有何不同？

2023-03-03 11:21:51

1354

大模型訓練為什么不能用4090顯卡，GPU訓練性能和成本對比

為什么？一般有 tensor parallelism、pipeline parallelism、data parallelism 幾種并行方式，分別在模型的層內、模型的層間、訓練數(shù)據(jù)三個維度上對 GPU 進行劃分。三個并行度乘起來，就是這個訓練任務總的 GPU 數(shù)量。

2023-09-15 11:16:21

13132

盤點國產GPU在支持大模型應用方面的進展

，近些年國內也有不少GPU企業(yè)在逐步成長，雖然在大模型的訓練和推理方面，與英偉達GPU差距極大，但是不可忽視的是，不少國產GPU企業(yè)也在AI的訓練和推理應用上找到位置。 ? ? 景嘉微 ? 景嘉微是國產GPU市場的主要參與者，目前已經完成JM5、JM7和J

2024-03-29 00:27:00

2677

國產GPU在AI大模型領域的應用案例一覽

不斷推出新品，產品也逐漸在各個領域取得應用，而且在大模型的訓練和推理方面，也有所建樹。 ? 國產GPU在大模型上的應用進展 ? 電子發(fā)燒友此前就統(tǒng)計過目前國內主要的GPU廠商，也介紹了這些廠商主要的產品及產品發(fā)布、量產進展情況?？梢钥吹?/div>

2024-04-01 09:28:26

1902

大模型時代，國產GPU面臨哪些挑戰(zhàn)

，國產GPU在不斷成長的過程中也存在諸多挑戰(zhàn)。 ? 在大模型訓練上存在差距 ? 大語言模型是基于深度學習的技術。這些模型通過在海量文本數(shù)據(jù)上的訓練，學習語言的語法、語境和語義等多層次的信息，用于理解和生成自然語言文本。大語言模型是

2024-04-03 01:08:00

1550

GPU上OpenVINO基準測試的推斷模型的默認參數(shù)與CPU上的參數(shù)不同是為什么？

在 CPU 和 GPU 上推斷出具有 OpenVINO? 基準的相同模型： benchmark_app.exe -m model.xml -d CPU benchmark_app.exe -m

2023-08-15 06:43:46

GPU編程的平臺模型、執(zhí)行模型、內存模型及編程模型

GPU編程--OpenCL四大模型

2019-04-29 07:40:44

GPU虛擬化在哪里發(fā)生？

GPU虛擬化在哪里發(fā)生？它是否出現(xiàn)在GRID卡中，然后將vGPU呈現(xiàn)給管理程序然后呈現(xiàn)給客戶？或者，GPU的虛擬化和調度是否真的發(fā)生在管理程序上安裝的GRID管理器軟件？是否使用了SR-IOV？我

2018-09-28 16:45:15

萬物互聯(lián)時代，智慧農業(yè)發(fā)展難題如何解決？

萬物互聯(lián)時代，智慧農業(yè)發(fā)展難題如何解決？農業(yè)是人類的生存之本，是經濟穩(wěn)定快速發(fā)展的重要基礎。一直以來人類在農業(yè)上的探索就沒有停止過，農業(yè)也從過去的人力為主，變成了現(xiàn)在的機械為主，人類賦予了農業(yè)智慧

2018-01-31 11:09:11

訓練好的ai模型導入cubemx不成功怎么解決？

訓練好的ai模型導入cubemx不成功咋辦，試了好幾個模型壓縮了也不行，ram占用過大，有無解決方案？

2023-08-04 09:16:28

FPGA在深度學習應用中或將取代GPU

上漲，因為事實表明，它們的 GPU 在訓練和運行深度學習模型方面效果明顯。實際上，英偉達也已經對自己的業(yè)務進行了轉型，之前它是一家純粹做 GPU 和游戲的公司，現(xiàn)在除了作為一家云 GPU 服務

2024-03-21 15:19:45

GBDT算法原理和模型訓練

)，其中y取值1或-1（代表二分類的類別標簽），這也是GBDT可以用來解決分類問題的原因。模型訓練代碼地址 https://github.com/qianshuang/ml-expdef train

2019-01-23 14:38:58

Mali GPU支持tensorflow或者caffe等深度學習模型嗎

Mali GPU 支持tensorflow或者caffe等深度學習模型嗎？好像caffe2go和tensorflow lit可以部署到ARM，但不知道是否支持在GPU運行？我希望把訓練

2022-09-16 14:13:01

Nvidia GPU風扇和電源顯示ERR怎么解決

問題最近在Ubuntu上使用Nvidia GPU訓練模型的時候，如果機器鎖屏一段時間再打開的時候鼠標非常卡頓，或者說顯示界面非常卡頓，使用nvidia-smi查看發(fā)現(xiàn)，訓練模型的GPU沒有問題，但是

2021-12-30 06:44:30

Pytorch模型訓練實用PDF教程【中文】

本教程以實際應用、工程開發(fā)為目的，著重介紹模型訓練過程中遇到的實際問題和方法。在機器學習模型開發(fā)中，主要涉及三大部分，分別是數(shù)據(jù)、模型和損失函數(shù)及優(yōu)化器。本文也按順序的依次介紹數(shù)據(jù)、模型和損失函數(shù)

2018-12-21 09:18:02

labview可以調用在python上訓練好的分類模型么？

能否直接調用訓練好的模型文件？

2021-06-22 14:51:03

labview調用深度學習tensorflow模型非常簡單，附上源碼和模型

本帖最后由 wcl86 于 2021-9-9 10:39 編輯 `labview調用深度學習tensorflow模型非常簡單，效果如下，附上源碼和訓練過的模型：[hide][/hide

2021-06-03 16:38:25

　　華為云深度學習服務，讓企業(yè)智能從此不求人

模型收斂的情況下，最大集群規(guī)模只支持10塊GPU。這意味著在進行數(shù)據(jù)運算時，即時使用更多的GPU，計算效果也只相當于10塊GPU的能力，這樣訓練的時間將更加的漫長?！　　　《A為云的深度學習

2018-08-02 20:44:09

【Sipeed M2 Dock開發(fā)板試用體驗】之家貓檢測模型訓練篇

準備開始為家貓做模型訓練檢測，要去官網https://maix.sipeed.com/home 注冊帳號，文章尾部的視頻是官方的，與目前網站略有出路，說明訓練網站的功能更新得很快。其實整個的過程

2022-06-26 21:19:40

【米爾百度大腦EdgeBoard邊緣AI計算盒試用連載】第四篇基于針對EdgeBoard的EasyDL分類模型訓練實例

` EasyDL網站可以免費生成針對EdgeBoard板卡FZ5的離線訓練模型SDK，該SDK可以完美與FZ5硬件契合，最重要的是——free(免費)。下面就是針對FZ5生成模型SDK的實例——圖片

2021-03-23 14:32:35

你了解在單GPU上就可以運行的Transformer模型嗎

一定的了解，在這篇文章中我們無法一一介紹。盡管transformer模型可以產生非常好的結果，被用于越來越多的長序列，例如11k大小的文本，許多這樣的大型模型只能在大型工業(yè)計算平臺上訓練，在單個GPU

2022-11-02 15:19:41

醫(yī)療模型人訓練系統(tǒng)是什么？

醫(yī)療模型人訓練系統(tǒng)是為滿足廣大醫(yī)學生的需要而設計的。我國現(xiàn)代醫(yī)療模擬技術的發(fā)展處于剛剛起步階段，大部分仿真系統(tǒng)產品都源于國外，雖然對于模擬人仿真已經出現(xiàn)一些產品，但那些產品只是就模擬人的某一部分，某一個功能實現(xiàn)的仿真，沒有一個完整的系統(tǒng)綜合其所有功能。

2019-08-19 08:32:45

在Ubuntu上使用Nvidia GPU訓練模型

問題最近在Ubuntu上使用Nvidia GPU訓練模型的時候，沒有問題，過一會再訓練出現(xiàn)非常卡頓，使用nvidia-smi查看發(fā)現(xiàn)，顯示GPU的風扇和電源報錯：解決方案自動風扇控制在nvidia

2022-01-03 08:24:09

基于Keras利用訓練好的hdf5模型進行目標檢測實現(xiàn)輸出模型中的表情或性別gradcam

CV：基于Keras利用訓練好的hdf5模型進行目標檢測實現(xiàn)輸出模型中的臉部表情或性別的gradcam(可視化)

2018-12-27 16:48:28

基于RKNN程序開發(fā)和模型轉換的NPU簡要說明

/16bit 運算，運算性能高達 3.0TOPS。相較于 GPU 作為 AI 運算單元的大型芯片方案，功耗不到 GPU 所需要的 1%?？芍苯蛹虞d Caffe / Mxnet / TensorFlow 模型

2022-05-31 11:10:20

大數(shù)據(jù)與萬物互聯(lián)如何定義未來？

大數(shù)據(jù)與萬物互聯(lián)重新定義未來

2021-02-23 06:20:34

如何使用eIQ門戶訓練人臉檢測模型？

我正在嘗試使用 eIQ 門戶訓練人臉檢測模型。我正在嘗試從 tensorflow 數(shù)據(jù)集 (tfds) 導入數(shù)據(jù)集，特別是 coco/2017 數(shù)據(jù)集。但是，我只想導入 wider_face。但是，當我嘗試這樣做時，會出現(xiàn)導入程序錯誤，如下圖所示。任何幫助都可以。

2023-04-06 08:45:14

如何進行高效的時序圖神經網絡的訓練

現(xiàn)有的圖數(shù)據(jù)規(guī)模極大，導致時序圖神經網絡的訓練需要格外長的時間，因此使用多GPU進行訓練變得成為尤為重要，如何有效地將多GPU用于時序圖神經網絡訓練成為一個非常重要的研究議題。本文提供了兩種方式來

2022-09-28 10:37:20

怎樣使用PyTorch Hub去加載YOLOv5模型

導出格式進行推理，包括自定義訓練模型。有關導出模型的詳細信息，請參閱TFLite、ONNX、CoreML、TensorRT 導出教程。專業(yè)提示：在GPU 基準測試中， TensorRT可能比

2022-07-22 16:02:42

怎樣去應對高速互聯(lián)測試的挑戰(zhàn)？

如何使用寬頻率范圍矢量網絡分析儀去應對高速互聯(lián)測試的挑戰(zhàn)？

2021-04-30 07:25:40

探索一種降低ViT模型訓練成本的方法

（1 GPU）和時間（24小時）資源下從頭開始訓練ViT模型。首先，提出了一種向ViT架構添加局部性的有效方法。其次，開發(fā)了一種新的圖像大小課程學習策略，該策略允許在訓練開始時減少從每個圖像中提

2022-11-24 14:56:31

智能家居解決各平臺互聯(lián)互通仍是一個難題

智能家居解決各平臺互聯(lián)互通仍是一個難題

2021-05-21 07:09:14

深度融合模型的特點

深度融合模型的特點，背景深度學習模型在訓練完成之后，部署并應用在生產環(huán)境的這一步至關重要，畢竟訓練出來的模型不能只接受一些公開數(shù)據(jù)集和榜單的檢驗，還需要在真正的業(yè)務場景下創(chuàng)造價值，不能只是為了PR而

2021-07-16 06:08:20

用S3C2440訓練神經網絡算法

嵌入式設備自帶專用屬性，不適合作為隨機性很強的人工智能深度學習訓練平臺。想象用S3C2440訓練神經網絡算法都會頭皮發(fā)麻，PC上的I7、GPU上都很吃力，大部分都要依靠服務器來訓練。但是一旦算法訓練

2021-08-17 08:51:57

算法原理與模型訓練

)，其中y取值1或-1（代表二分類的類別標簽），這也是GBDT可以用來解決分類問題的原因。模型訓練代碼地址 https://github.com/qianshuang/ml-expdef train

2019-01-25 15:02:15

英偉達GPU卡多卡互聯(lián)NVLink，系統(tǒng)累積的公差，是怎么解決的？是連接器吸收的？

英偉達不斷推出GPU卡，并且實現(xiàn)多卡互聯(lián)NVLink，實際整個系統(tǒng)會累積到一個較大的公差，而目前市面上已有的連接器只能吸收較少的公差，這個是怎么做到匹配的呢？

2022-03-05 16:17:06

請問K510設備什么時候可以支持線上模型訓練？

目前官方的線上模型訓練只支持K210，請問K510什么時候可以支持

2023-09-13 06:12:13

請問Mali GPU的并行化計算模型是怎樣構建的？

Mali T604 GPU的結構是由哪些部分組成的？Mali T604 GPU的編程特性有哪些？Mali GPU的并行化計算模型是怎樣構建的？基于Mali-T604 GPU的快速浮點矩陣乘法并行化該如何去實現(xiàn)？

2021-04-19 08:06:26

龍哥手把手教你學視覺-深度學習YOLOV5篇

：【tensorflow篇】訓練：intelcpu或gpu：N卡1060，20系列可用，30系列顯卡不可用調用：intelcpu【yolov4篇】訓練：gpu：N卡1060，20系列可用，30系列顯卡不可用（后續(xù)課程

2021-09-03 09:39:28

比谷歌快46倍！GPU助力IBM Snap ML，40億樣本訓練模型僅需91.5秒

在為這樣的大規(guī)模應用部署GPU加速時，出現(xiàn)了一個主要的技術挑戰(zhàn)：訓練數(shù)據(jù)太大而無法存儲在GPU上可用的存儲器中。因此，在訓練期間，需要有選擇地處理數(shù)據(jù)并反復移入和移出GPU內存。為了解釋應用程序的運行時間，研究人員分析了在GPU內核中花費的時間與在GPU上復制數(shù)據(jù)所花費的時間。

2018-03-26 10:29:15

4301

基于虛擬化的多GPU深度神經網絡訓練框架

針對深度神經網絡在分布式多機多GPU上的加速訓練問題，提出一種基于虛擬化的遠程多GPU調用的實現(xiàn)方法。利用遠程GPU調用部署的分布式GPU集群改進傳統(tǒng)一對一的虛擬化技術，同時改變深度神經網絡在分布式

2018-03-29 16:45:25

TPU和GPU的帶寬模型

帶寬模型最大的限制就是這些計算是針對特定矩陣大小的，計算的難度在各種尺寸之間都不同。例如，如果你的batch size是128，那么GPU的速度會比TPU稍快一點。如果batch size小于128

2018-10-21 09:20:34

4007

如何利用Google Colab的云TPU加速Keras模型訓練

云TPU包含8個TPU核，每個核都作為獨立的處理單元運作。如果沒有用上全部8個核心，那就沒有充分利用TPU。為了充分加速訓練，相比在單GPU上訓練的同樣的模型，我們可以選擇較大的batch尺寸。總batch尺寸定為1024（每個核心128）一般是一個不錯的起點。

2018-11-16 09:10:03

10102

GPU如何訓練大批量模型？方法在這里

深度學習模型和數(shù)據(jù)集的規(guī)模增長速度已經讓 GPU 算力也開始捉襟見肘，如果你的 GPU 連一個樣本都容不下，你要如何訓練大批量模型？通過本文介紹的方法，我們可以在訓練批量甚至單個訓練樣本大于 GPU

2018-12-03 17:24:01

677

GPU，解決汽車駕駛輔助系統(tǒng)難題的最優(yōu)選擇

幾乎任何類型的密集并行計算難題都可以用GPU去解決。從這個層面來看，GPU是這類應用的最佳選擇。

2019-03-04 15:01:24

2115

為什么要使用預訓練模型？8種優(yōu)秀預訓練模型大盤點

正如我們在本文中所述，ULMFiT使用新穎的NLP技術取得了令人矚目的成果。該方法對預訓練語言模型進行微調，將其在WikiText-103數(shù)據(jù)集（維基百科的長期依賴語言建模數(shù)據(jù)集Wikitext之一）上訓練，從而得到新數(shù)據(jù)集，通過這種方式使其不會忘記之前學過的內容。

2019-04-04 11:26:26

23213

算法 | 超Mask RCNN速度4倍,僅在單個GPU訓練的實時實例分割算法

YOLACT——Real-time Instance Segmentation提出了一種簡潔的實時實例分割全卷積模型，速度明顯優(yōu)于以往已有的算法，而且就是在一個 GPU 上訓練取得的！

2019-06-11 10:34:57

6981

關于語言模型和對抗訓練的工作

本文把對抗訓練用到了預訓練和微調兩個階段，對抗訓練的方法是針對embedding space，通過最大化對抗損失、最小化模型損失的方式進行對抗，在下游任務上取得了一致的效果提升。有趣的是，這種對抗

2020-11-02 15:26:49

1821

如何讓PyTorch模型訓練變得飛快？

讓我們面對現(xiàn)實吧，你的模型可能還停留在石器時代。我敢打賭你仍然使用32位精度或GASP甚至只在一個GPU上訓練。我明白，網上都是各種神經網絡加速指南，但是一個checklist都沒有（現(xiàn)在

2020-11-27 10:43:52

1509

小米在預訓練模型的探索與優(yōu)化

導讀：預訓練模型在NLP大放異彩，并開啟了預訓練-微調的NLP范式時代。由于工業(yè)領域相關業(yè)務的復雜性，以及工業(yè)應用對推理性能的要求，大規(guī)模預訓練模型往往不能簡單直接地被應用于NLP業(yè)務中。本文將為

2020-12-31 10:17:11

2229

一個GPU訓練一個130億參數(shù)的模型

。這些大模型的出現(xiàn)讓普通研究者越發(fā)絕望：沒有「鈔能力」、沒有一大堆 GPU 就做不了 AI 研究了嗎？在此背景下，部分研究者開始思考：如何讓這些大模型的訓練變得更加接地氣？也就是說，怎么用更少的卡訓練更大的模型？為了解決這個問題，來自微軟、加州大學默塞德分校的研究

2021-02-11 09:04:00

2187

基于預訓練模型和長短期記憶網絡的深度學習模型

作為模型的初始化詞向量。但是，隨機詞向量存在不具備語乂和語法信息的缺點;預訓練詞向量存在¨一詞-乂”的缺點，無法為模型提供具備上下文依賴的詞向量。針對該問題，提岀了一種基于預訓練模型BERT和長短期記憶網絡的深度學習

2021-04-20 14:29:06

如何向大規(guī)模預訓練語言模型中融入知識？

本文關注于向大規(guī)模預訓練語言模型（如RoBERTa、BERT等）中融入知識。

2021-06-23 15:07:31

3539

NVIDIA GPU助力提升模型訓練和推理性價比

，其中的模型數(shù)量達數(shù)千個，日均調用服務達到千億級別。無量推薦系統(tǒng)，在模型訓練和推理都能夠進行海量Embedding和DNN模型的GPU計算，是目前業(yè)界領先的體系結構設計。傳統(tǒng)推薦系統(tǒng)面臨挑戰(zhàn) 傳統(tǒng)推薦系統(tǒng)具有以下特點：訓練是基于參數(shù)

2021-08-23 17:09:03

4514

多模態(tài)圖像-文本預訓練模型

在某一方面的智能程度。具體來說是，領域專家人工構造標準數(shù)據(jù)集，然后在其上訓練及評價相關模型及方法。但由于相關技術的限制，要想獲得效果更好、能力更強的模型，往往需要在大量的有標注的數(shù)據(jù)上進行訓練。近期預訓練模型的

2021-09-06 10:06:53

3383

NVIDIA GPU加快深度神經網絡訓練和推斷

深度學習是推動當前人工智能大趨勢的關鍵技術。在 MATLAB 中可以實現(xiàn)深度學習的數(shù)據(jù)準備、網絡設計、訓練和部署全流程開發(fā)和應用。聯(lián)合高性能 NVIDIA GPU 加快深度神經網絡訓練和推斷。

2022-02-18 13:31:44

1732

如何實現(xiàn)更綠色、經濟的NLP預訓練模型遷移

NLP中，預訓練大模型Finetune是一種非常常見的解決問題的范式。利用在海量文本上預訓練得到的Bert、GPT等模型，在下游不同任務上分別進行finetune，得到下游任務的模型。然而，這種方式

2022-03-21 15:33:30

1870

NVIDIA Modulus為數(shù)字雙胞胎開發(fā)ML模型框架

　　訓練引擎 Modulus 接受所有輸入，并利用 PyTorch 和 TensorFlow 來訓練生成的模型 cuDNN 進行 GPU 加速，利用 Magnum IO 進行多 GPU /多節(jié)點縮放。

2022-04-14 14:58:46

1026

一種基于亂序語言模型的預訓練模型-PERT

由于亂序語言模型不使用[MASK]標記，減輕了預訓練任務與微調任務之間的gap，并由于預測空間大小為輸入序列長度，使得計算效率高于掩碼語言模型。PERT模型結構與BERT模型一致，因此在下游預訓練時，不需要修改原始BERT模型的任何代碼與腳本。

2022-05-10 15:01:27

1196

如何更高效地使用預訓練語言模型

本文對任務低維本征子空間的探索是基于 prompt tuning, 而不是fine-tuning。原因是預訓練模型的參數(shù)實在是太多了，很難找到這么多參數(shù)的低維本征子空間。作者基于之前的工作提出

2022-07-08 11:28:24

958

如何在GPU資源受限的情況下訓練transformers庫上面的大模型

自BERT出現(xiàn)以來，nlp領域已經進入了大模型的時代，大模型雖然效果好，但是畢竟不是人人都有著豐富的GPU資源，在訓練時往往就捉襟見肘，出現(xiàn)顯存out of memory的問題，或者訓練時間非常非常的久

2022-08-31 18:16:05

1971

NVIDIA GPU加速潞晨科技Colossal-AI大模型開發(fā)進程

通過 NVIDIA GPU 加速平臺，Colossal-AI 實現(xiàn)了通過高效多維并行、異構內存管理、大規(guī)模優(yōu)化庫、自適應任務調度等方式，更高效快速部署 AI 大模型訓練與推理。

2022-10-19 09:39:39

1164

AI模型是如何訓練的？訓練一個模型花費多大？

2022-10-23 00:20:03

7403

什么是預訓練 AI 模型？

預訓練 AI 模型是為了完成特定任務而在大型數(shù)據(jù)集上訓練的深度學習模型。這些模型既可以直接使用，也可以根據(jù)不同行業(yè)的應用需求進行自定義。如果要教一個剛學會走路的孩子什么是獨角獸，那么我們首先應

2023-04-04 01:45:02

1057

推特并入X公司馬斯克還買了10000個GPU要訓練大模型

。另外，還有一個特別有意思的是，馬斯克才呼吁暫停?ChatGPT 的訓練，馬上就轉身就下場買了10000個GPU要訓練大模型。根據(jù)最新的數(shù)據(jù)統(tǒng)計顯示，馬斯克的身價為1876億美元，是全球第二大富豪，也是美國首富。美國首富買一些GPU不算什么。毛毛雨啦。據(jù)

2023-04-12 14:19:28

702

利用OpenVINO?部署HuggingFace預訓練模型的方法與技巧

作為深度學習領域的 “github”，HuggingFace 已經共享了超過 100,000 個預訓練模型

2023-05-19 15:57:43

514

什么是預訓練AI模型？

預訓練 AI 模型是為了完成特定任務而在大型數(shù)據(jù)集上訓練的深度學習模型。這些模型既可以直接使用，也可以根據(jù)不同行業(yè)的應用需求進行自定義。

2023-05-25 17:10:09

618

PyTorch教程13.5之在多個GPU上進行訓練

電子發(fā)燒友網站提供《PyTorch教程13.5之在多個GPU上進行訓練.pdf》資料免費下載

2023-06-05 14:18:52

芯片“新王”手創(chuàng)造的GPU制造龍頭——英偉達

當chatgpt掀起一股新的ai大規(guī)模模型熱潮時，提供基本計算能力的nvidia是最大的受惠者之一，而nvidia的gpu產品幾乎沒有能夠替代大規(guī)模模型訓練的東西。

2023-06-05 10:58:42

1118

PyTorch教程-13.5。在多個 GPU 上進行訓練

實驗室在 SageMaker Studio Lab 中打開筆記本到目前為止，我們討論了如何在 CPU 和 GPU 上高效地訓練模型。在13.3 節(jié)中，我們甚至展示了深度學習框架如何允許人們在它們

2023-06-05 15:44:33

733

天數(shù)智芯通用GPU產品為大模型時代提供強大算力底座

，全面介紹了天數(shù)智芯基于自研通用GPU的全棧式集群解決方案及其在支持大模型上的具體實踐。天數(shù)智芯產品線總裁鄒翾鄒翾指出，順應大模型的發(fā)展潮流，天數(shù)智芯依托通用GPU架構，從訓練和推理兩個角度為客戶提供支撐，全力打造高性

2023-06-08 22:55:02

1000

天數(shù)智芯天垓100率先完成百億級參數(shù)大模型訓練

的Aquila語言基礎模型，使用代碼數(shù)據(jù)進行繼續(xù)訓練，穩(wěn)定運行19天，模型收斂效果符合預期，證明天數(shù)智芯有支持百億級參數(shù)大模型訓練的能力。在北京市海淀區(qū)的大力支持下，智源研究院、天數(shù)智芯與愛特云翔共同合作，聯(lián)手開展基于自主通用GPU的

2023-06-12 15:23:17

588

基于預訓練模型和語言增強的零樣本視覺學習

在一些非自然圖像中要比傳統(tǒng)模型表現(xiàn)更好 CoOp 增加一些 prompt 會讓模型能力進一步提升怎么讓能力更好？可以引入其他知識，即其他的預訓練模型，包括大語言模型、多模態(tài)模型也包括

2023-06-15 16:36:11

299

沐曦基于曦云C500發(fā)布國產首臺GPU千億參數(shù)大模型訓推一體機

首臺GPU千億參數(shù)大模型訓推一體機由數(shù)字寧夏倡議發(fā)起技術攻關，基于沐曦最新發(fā)布的曦云C500旗艦GPU芯片提供的算力支持、智譜華章的AI大模型以及優(yōu)刻得靈活的算力部署方案，共同打造國內模型能力、算力支持及解決方案領先的國有自主知識產權的AI大模型訓練推理一體機

2023-08-21 14:41:20

2660

卷積神經網絡模型訓練步驟

卷積神經網絡模型訓練步驟? 卷積神經網絡（Convolutional Neural Network, CNN）是一種常用的深度學習算法，廣泛應用于圖像識別、語音識別、自然語言處理等諸多領域。CNN

2023-08-21 16:42:00

966

訓練大語言模型帶來的硬件挑戰(zhàn)

生成式AI和大語言模型（LLM）正在以難以置信的方式吸引全世界的目光，本文簡要介紹了大語言模型，訓練這些模型帶來的硬件挑戰(zhàn)，以及GPU和網絡行業(yè)如何針對訓練的工作負載不斷優(yōu)化硬件。

2023-09-01 17:14:56

1072

8G顯存一鍵訓練，解鎖Llama2隱藏能力！XTuner帶你玩轉大模型

針對 GPU 計算特點，在顯存允許的情況下，XTuner 支持將多條短數(shù)據(jù)拼接至模型最大輸入長度，以此最大化 GPU 計算核心的利用率，可以顯著提升訓練速度。例如，在使用 oasst1 數(shù)據(jù)集微調 Llama2-7B 時，數(shù)據(jù)拼接后的訓練時長僅為普通訓練的 50% 。

2023-09-04 16:12:26

1349

LLaMA微調顯存需求減半，清華提出4比特優(yōu)化器

從 GPT-3，Gopher 到 LLaMA，大模型有更好的性能已成為業(yè)界的共識。但相比之下，單個 GPU 的顯存大小卻增長緩慢，這讓顯存成為了大模型訓練的主要瓶頸，如何在有限的 GPU 內存下訓練大模型成為了一個重要的難題。

2023-09-11 16:08:49

250

如何讓網絡模型加速訓練

的博文，對 Pytorch的AMP ( autocast與Gradscaler 進行對比) 自動混合精度對模型訓練加速。注意Pytorch1.6+，已經內置torch.cuda.amp，因此便不需要加載

2023-11-03 10:00:19

1082

多GPU訓練大型模型：資源分配與優(yōu)化技巧｜英偉達將推出面向中國的改良芯片HGX H20、L20 PCIe、L2 PCIe

。為了解決這個問題，英偉達將針對中國市場推出新的AI芯片，以應對美國出口限制。本文將探討如何在多個GPU上訓練大型模型，并分析英偉達禁令對中國AI計算行業(yè)的影響。

2023-11-16 11:39:31

966

NVIDIA 為部分大型亞馬遜 Titan 基礎模型提供訓練支持

本文將介紹亞馬遜如何使用 NVIDIA NeMo 框架、GPU 以及亞馬遜云科技的 EFA 來訓練其最大的新一代大語言模型（LLM）。大語言模型的一切都很龐大——巨型模型是在數(shù)千顆 NVIDIA

2023-11-29 21:15:02

308

天數(shù)智芯支持智源研究院首次完成大模型異構算力混合訓練，突破異構算力束縛

基于英偉達混合資源及天數(shù)智芯混合資源完成訓練的大模型，也是智源研究院與天數(shù)智芯合作取得的最新成果，再次證明了天數(shù)智芯通用 GPU 產品支持大模型訓練的能力，以及與主流產品的兼容能力。據(jù)林詠華副院長介紹，為了解決異構算力混合訓練難題，智源研究院開發(fā)了高效并行訓練框

2023-11-30 13:10:02

880