圖解大模型訓(xùn)練之：數(shù)據(jù)并行上篇(DP, DDP與ZeRO)

在上一篇的介紹中，我們介紹了以Google GPipe為代表的流水線并行范式。當(dāng)模型太大，一塊GPU放不下時(shí)，流水線并行將模型的不同層放到不同的GPU上，通過(guò)切割mini-batch實(shí)現(xiàn)對(duì)訓(xùn)練數(shù)據(jù)的流水線處理，提升GPU計(jì)算通訊比。同時(shí)通過(guò)re-materialization機(jī)制降低顯存消耗。

但在實(shí)際應(yīng)用中，流水線并行并不特別流行，主要原因是模型能否均勻切割，影響了整體計(jì)算效率，這就需要算法工程師做手調(diào)。因此，今天我們來(lái)介紹一種應(yīng)用最廣泛，最易于理解的并行范式：數(shù)據(jù)并行。

數(shù)據(jù)并行的核心思想是：在各個(gè)GPU上都拷貝一份完整模型，各自吃一份數(shù)據(jù)，算一份梯度，最后對(duì)梯度進(jìn)行累加來(lái)更新整體模型。理念不復(fù)雜，但到了大模型場(chǎng)景，巨大的存儲(chǔ)和GPU間的通訊量，就是系統(tǒng)設(shè)計(jì)要考慮的重點(diǎn)了。在本文中，我們將遞進(jìn)介紹三種主流數(shù)據(jù)并行的實(shí)現(xiàn)方式：

DP（Data Parallelism） ：最早的數(shù)據(jù)并行模式，一般采用參數(shù)服務(wù)器(Parameters Server)這一編程框架。實(shí)際中多用于單機(jī)多卡
DDP（Distributed Data Parallelism） ：分布式數(shù)據(jù)并行，采用Ring AllReduce的通訊方式，實(shí)際中多用于多機(jī)場(chǎng)景
ZeRO ：零冗余優(yōu)化器。由微軟推出并應(yīng)用于其DeepSpeed框架中。嚴(yán)格來(lái)講ZeRO采用數(shù)據(jù)并行+張量并行的方式，旨在降低存儲(chǔ)。

本文將首先介紹DP和DDP，在下一篇文章里，介紹ZeRO。全文內(nèi)容如下：

1、數(shù)據(jù)并行（DP）

1.1 整體架構(gòu)
1.2 通訊瓶頸與梯度異步更

2、分布式數(shù)據(jù)并行（DDP）

2.1 圖解Ring-AllReduce
2.2 DP與DDP通訊分析

一、數(shù)據(jù)并行（DP）

1.1 整體架構(gòu)

一個(gè)經(jīng)典數(shù)據(jù)并行的過(guò)程如下：

若干塊 計(jì)算GPU ，如圖中GPU0~GPU2；1塊 梯度收集GPU ，如圖中AllReduce操作所在GPU。
在每塊計(jì)算GPU上都拷貝一份完整的模型參數(shù)。
把一份數(shù)據(jù)X（例如一個(gè)batch）均勻分給不同的計(jì)算GPU。
每塊計(jì)算GPU做一輪FWD和BWD后，算得一份梯度G。
每塊計(jì)算GPU將自己的梯度push給梯度收集GPU，做聚合操作。這里的聚合操作一般指 梯度累加 。當(dāng)然也支持用戶(hù)自定義。
梯度收集GPU聚合完畢后，計(jì)算GPU從它那pull下完整的梯度結(jié)果，用于更新模型參數(shù)W。更新完畢后，計(jì)算GPU上的模型參數(shù)依然保持一致。
聚合再下發(fā)梯度的操作，稱(chēng)為AllReduce。

前文說(shuō)過(guò)，實(shí)現(xiàn)DP的一種經(jīng)典編程框架叫“參數(shù)服務(wù)器”，在這個(gè)框架里，計(jì)算GPU稱(chēng)為Worker，梯度聚合GPU稱(chēng)為Server。在實(shí)際應(yīng)用中，為了盡量減少通訊量，一般可選擇一個(gè)Worker同時(shí)作為Server。比如可把梯度全發(fā)到GPU0上做聚合。需要再額外說(shuō)明幾點(diǎn)：

1個(gè)Worker或者Server下可以不止1塊GPU。
Server可以只做梯度聚合，也可以梯度聚合+全量參數(shù)更新一起做在參數(shù)服務(wù)器的語(yǔ)言體系下，DP的過(guò)程又可以被描述下圖：

1.2 通訊瓶頸與梯度異步更新

DP的框架理解起來(lái)不難，但實(shí)戰(zhàn)中確有兩個(gè)主要問(wèn)題：

存儲(chǔ)開(kāi)銷(xiāo)大 。每塊GPU上都存了一份完整的模型，造成冗余。關(guān)于這一點(diǎn)的優(yōu)化，我們將在后文ZeRO部分做講解。
通訊開(kāi)銷(xiāo)大 。Server需要和每一個(gè)Worker進(jìn)行梯度傳輸。當(dāng)Server和Worker不在一臺(tái)機(jī)器上時(shí)，Server的帶寬將會(huì)成為整個(gè)系統(tǒng)的計(jì)算效率瓶頸。

我們對(duì)通訊開(kāi)銷(xiāo)再做詳細(xì)說(shuō)明。如果將傳輸比作一條馬路，帶寬就是馬路的寬度，它決定每次并排行駛的數(shù)據(jù)量。例如帶寬是100G/s，但每秒?yún)s推給Server 1000G的數(shù)據(jù)，消化肯定需要時(shí)間。

人類(lèi)老板不愿意了：“打工系統(tǒng)里不允許有串行存在的任務(wù)！”，于是梯度異步更新這一管理層略誕生了。

上圖刻畫(huà)了在梯度異步更新的場(chǎng)景下，某個(gè)Worker的計(jì)算順序?yàn)椋?/p>

在第10輪計(jì)算中，該Worker正常計(jì)算梯度，并向Server發(fā)送push&pull梯度請(qǐng)求。
但是，該Worker并不會(huì)實(shí)際等到把聚合梯度拿回來(lái)，更新完參數(shù)W后再做計(jì)算。而是直接拿舊的W，吃新的數(shù)據(jù)，繼續(xù)第11輪的計(jì)算。 這樣就保證在通訊的時(shí)間里，Worker也在馬不停蹄做計(jì)算，提升計(jì)算通訊比 。
當(dāng)然，異步也不能太過(guò)份。只計(jì)算梯度，不更新權(quán)重，那模型就無(wú)法收斂。圖中刻畫(huà)的是延遲為1的異步更新，也就是在開(kāi)始第12輪對(duì)的計(jì)算時(shí)，必須保證W已經(jīng)用第10、11輪的梯度做完2次更新了。

參數(shù)服務(wù)器的框架下，延遲的步數(shù)也可以由用戶(hù)自己決定，下圖分別刻劃了幾種延遲情況：

(a) 無(wú)延遲
(b) 延遲但不指定延遲步數(shù) 。也即在迭代2時(shí)，用的可能是老權(quán)重，也可能是新權(quán)重，聽(tīng)天由命。
(c) 延遲且指定延遲步數(shù)為1 。例如做迭代3時(shí)，可以不拿回迭代2的梯度，但必須保證迭代0、1的梯度都已拿回且用于參數(shù)更新。

總結(jié)一下， 異步很香，但對(duì)一個(gè)Worker來(lái)說(shuō)，只是等于W不變，batch的數(shù)量增加了而已，在SGD下，會(huì)減慢模型的整體收斂速度。 異步的整體思想是，比起讓W(xué)orker閑著，倒不如讓它多吃點(diǎn)數(shù)據(jù)，雖然反饋延遲了，但只要它在干活在學(xué)習(xí)就行。

batch就像活，異步就像畫(huà)出去的餅，且往往不指定延遲步數(shù)，每個(gè)Worker干越來(lái)越多的活，但模型卻沒(méi)收斂取效。讀懂分布式訓(xùn)練系統(tǒng)其實(shí)也不難。

二、分布式數(shù)據(jù)并行(DDP)

受通訊負(fù)載不均的影響， DP一般用于單機(jī)多卡場(chǎng)景 。因此，DDP作為一種更通用的解決方案出現(xiàn)了，既能多機(jī)，也能單機(jī)。DDP首先要解決的就是通訊問(wèn)題：將Server上的通訊壓力均衡轉(zhuǎn)到各個(gè)Worker上。實(shí)現(xiàn)這一點(diǎn)后，可以進(jìn)一步去Server，留Worker。

前文我們說(shuō)過(guò)，聚合梯度 + 下發(fā)梯度這一輪操作，稱(chēng)為AllReduce。 接下來(lái)我們介紹目前最通用的AllReduce方法：Ring-AllReduce 。它由百度最先提出，非常有效地解決了數(shù)據(jù)并行中通訊負(fù)載不均的問(wèn)題，使得DDP得以實(shí)現(xiàn)。

2.1 Ring-AllReduce

如下圖，假設(shè)有4塊GPU，每塊GPU上的數(shù)據(jù)也對(duì)應(yīng)被切成4份。AllReduce的最終目標(biāo)，就是讓每塊GPU上的數(shù)據(jù)都變成箭頭右邊匯總的樣子。

Ring-ALLReduce則分兩大步驟實(shí)現(xiàn)該目標(biāo)： Reduce-Scatter和All-Gather 。

Reduce-Scatter

定義網(wǎng)絡(luò)拓?fù)潢P(guān)系，使得每個(gè)GPU只和其相鄰的兩塊GPU通訊 。每次發(fā)送對(duì)應(yīng)位置的數(shù)據(jù)進(jìn)行累加。每一次累加更新都形成一個(gè)拓?fù)洵h(huán)，因此被稱(chēng)為Ring?？吹竭@覺(jué)得困惑不要緊，我們用圖例把詳細(xì)步驟畫(huà)出來(lái)。

一次累加完畢后，藍(lán)色位置的數(shù)據(jù)塊被更新，被更新的數(shù)據(jù)塊將成為下一次更新的起點(diǎn)，繼續(xù)做累加操作。

3次更新之后，每塊GPU上都有一塊數(shù)據(jù)擁有了對(duì)應(yīng)位置完整的聚合（圖中紅色）。此時(shí)，Reduce-Scatter階段結(jié)束。進(jìn)入All-Gather階段。目標(biāo)是把紅色塊的數(shù)據(jù)廣播到其余GPU對(duì)應(yīng)的位置上。

All-Gather

如名字里Gather所述的一樣，這操作里依然按照“相鄰GPU對(duì)應(yīng)位置進(jìn)行通訊”的原則，但對(duì)應(yīng)位置數(shù)據(jù)不再做相加，而是直接替換。All-Gather以紅色塊作為起點(diǎn)。

以此類(lèi)推，同樣經(jīng)過(guò) 3輪迭代后 ，使得每塊GPU上都匯總到了完整的數(shù)據(jù)，變成如下形式：

建議讀者們手動(dòng)推一次，加深理解(注：最后一圖箭頭畫(huà)錯(cuò)，公眾號(hào)不許修改

2.2 Ring-AllReduce通訊量分析

假設(shè)模型參數(shù)W的大小為，GPU個(gè)數(shù)為。則梯度大小也為，每個(gè)梯度塊的大小為。

對(duì)單卡GPU來(lái)說(shuō)：

Reduce-Scatter階段，通訊量為
All-Gather階段，通訊量為

總通訊量為，隨著N的增大，可以近似

而對(duì)前文的DP來(lái)說(shuō)，它的Server承載的總通訊量也是。 雖然通訊量相同，但搬運(yùn)相同數(shù)據(jù)量的時(shí)間卻不一定相同 。DDP把通訊量均衡負(fù)載到了每一時(shí)刻的每個(gè)Worker上，而DP僅讓Server做勤勞的搬運(yùn)工。當(dāng)越來(lái)越多的GPU分布在距離較遠(yuǎn)的機(jī)器上時(shí)，DP的通訊時(shí)間是會(huì)增加的。

但這并不說(shuō)明參數(shù)服務(wù)器不能打（有很多文章將參數(shù)服務(wù)器當(dāng)作old dinosaur來(lái)看）。事實(shí)上，參數(shù)服務(wù)器也提供了多Server方法，如下圖：

在多Server的模式下，進(jìn)一步，每個(gè)Server可以只負(fù)責(zé)維護(hù)和更新某一塊梯度（也可以某塊梯度+參數(shù)一起維護(hù)），此時(shí)雖然每個(gè)Server仍然需要和所有Worker通訊，但它的帶寬壓力會(huì)小非常多。經(jīng)過(guò)調(diào)整設(shè)計(jì)后，依然可以用來(lái)做DDP。雖然這篇文章是用遞進(jìn)式的方式來(lái)介紹兩者，但不代表兩者間一定要決出優(yōu)劣。 我想表達(dá)的觀點(diǎn)是，方法是多樣性的 。對(duì)參數(shù)服務(wù)器有興趣的朋友，可以閱讀參考的第1個(gè)鏈接。

最后，請(qǐng)大家記住Ring-AllReduce的方法，因?yàn)樵谥蟮腪eRO，Megatron-LM中，它將頻繁地出現(xiàn)，是分布式訓(xùn)練系統(tǒng)中重要的算子。

三、總結(jié)

1、在DP中，每個(gè)GPU上都拷貝一份完整的模型，每個(gè)GPU上處理batch的一部分?jǐn)?shù)據(jù)，所有GPU算出來(lái)的梯度進(jìn)行累加后，再傳回各GPU用于更新參數(shù)。

2、DP多采用參數(shù)服務(wù)器這一編程框架，一般由若個(gè)計(jì)算Worker和1個(gè)梯度聚合Server組成。Server與每個(gè)Worker通訊，Worker間并不通訊。因此Server承擔(dān)了系統(tǒng)所有的通訊壓力?；诖薉P常用于單機(jī)多卡場(chǎng)景。

3、異步梯度更新是提升計(jì)算通訊比的一種方法，延遲更新的步數(shù)大小決定了模型的收斂速度。

4、Ring-AllReduce通過(guò)定義網(wǎng)絡(luò)環(huán)拓?fù)涞姆绞?，將通訊壓力均衡地分到每個(gè)GPU上，使得跨機(jī)器的數(shù)據(jù)并行（DDP）得以高效實(shí)現(xiàn)。

5、DP和DDP的總通訊量相同，但因負(fù)載不均的原因，DP需要耗費(fèi)更多的時(shí)間搬運(yùn)數(shù)據(jù)。

審核編輯：郭婷

閱讀全文

gpu(126255) gpu(126255)
服務(wù)器(82172) 服務(wù)器(82172)

評(píng)論

相關(guān)推薦

AI模型是如何訓(xùn)練的？訓(xùn)練一個(gè)模型花費(fèi)多大？

電子發(fā)燒友網(wǎng)報(bào)道（文/李彎彎）在深度學(xué)習(xí)中，經(jīng)常聽(tīng)到一個(gè)詞“模型訓(xùn)練”，但是模型是什么？又是怎么訓(xùn)練的？在人工智能中，面對(duì)大量的數(shù)據(jù)，要在雜亂無(wú)章的內(nèi)容中，準(zhǔn)確、容易地識(shí)別，輸出需要的圖像/語(yǔ)音

2022-10-23 00:19:00

24277

如何才能高效地進(jìn)行深度學(xué)習(xí)模型訓(xùn)練？

分布式深度學(xué)習(xí)框架中，包括數(shù)據(jù)/模型切分、本地單機(jī)優(yōu)化算法訓(xùn)練、通信機(jī)制、和數(shù)據(jù)/模型聚合等模塊?，F(xiàn)有的算法一般采用隨機(jī)置亂切分的數(shù)據(jù)分配方式，隨機(jī)優(yōu)化算法（例如隨機(jī)梯度法）的本地訓(xùn)練算法，同步或者異步通信機(jī)制，以及參數(shù)平均的模型聚合方式。

2018-07-09 08:48:22

13609

一文詳解知識(shí)增強(qiáng)的語(yǔ)言預(yù)訓(xùn)練模型

隨著預(yù)訓(xùn)練語(yǔ)言模型(PLMs)的不斷發(fā)展，各種NLP任務(wù)設(shè)置上都取得了不俗的性能。盡管PLMs可以從大量語(yǔ)料庫(kù)中學(xué)習(xí)一定的知識(shí)，但仍舊存在很多問(wèn)題，如知識(shí)量有限、受訓(xùn)練數(shù)據(jù)長(zhǎng)尾分布影響?hù)敯粜圆缓?/div>

2022-04-02 17:21:43

8765

基于不同量級(jí)預(yù)訓(xùn)練數(shù)據(jù)的RoBERTa模型分析

NLP領(lǐng)域的研究目前由像RoBERTa等經(jīng)過(guò)數(shù)十億個(gè)字符的語(yǔ)料經(jīng)過(guò)預(yù)訓(xùn)練的模型匯主導(dǎo)。那么對(duì)于一個(gè)預(yù)訓(xùn)練模型，對(duì)于不同量級(jí)下的預(yù)訓(xùn)練數(shù)據(jù)能夠提取到的知識(shí)和能力有何不同？

2023-03-03 11:21:51

1339

基于Transformer做大模型預(yù)訓(xùn)練基本的并行范式

在之前的內(nèi)容中，我們已經(jīng)介紹過(guò)流水線并行、數(shù)據(jù)并行（DP，DDP和ZeRO）。今天我們將要介紹最重要，也是目前基于Transformer做大模型預(yù)訓(xùn)練最基本的并行范式：來(lái)自NVIDIA的張量模型

2023-05-31 14:38:23

1605

大模型訓(xùn)練為什么不能用4090顯卡，GPU訓(xùn)練性能和成本對(duì)比

為什么？一般有 tensor parallelism、pipeline parallelism、data parallelism 幾種并行方式，分別在模型的層內(nèi)、模型的層間、訓(xùn)練數(shù)據(jù)三個(gè)維度上對(duì) GPU 進(jìn)行劃分。三個(gè)并行度乘起來(lái)，就是這個(gè)訓(xùn)練任務(wù)總的 GPU 數(shù)量。

2023-09-15 11:16:21

12112

DP9503芯片的multisim模型

請(qǐng)問(wèn)multisim中沒(méi)有DP9503B這個(gè)芯片的模型，需要怎么找?。窟@個(gè)芯片是一款非隔離LED恒流驅(qū)動(dòng)芯片。

2024-01-09 11:54:49

并行編程模型有什么優(yōu)勢(shì)

并行編程模型是并行計(jì)算，尤其是并行軟件的基礎(chǔ)，也是并行硬件系統(tǒng)的導(dǎo)向，在面臨多核新挑戰(zhàn)的情況下，什么樣的并行編程模型在未來(lái)能成為主流，還很難說(shuō)。至少到目前，還處于百家爭(zhēng)鳴的時(shí)代，很多模型提出，很多在應(yīng)用，下面我們簡(jiǎn)單介紹一下當(dāng)前的并行編程模型現(xiàn)狀。

2019-07-11 08:03:33

數(shù)據(jù)采集編程指南上篇.pdf

數(shù)據(jù)采集編程指南上篇.pdf

2015-12-12 21:02:50

訓(xùn)練好的ai模型導(dǎo)入cubemx不成功怎么解決？

訓(xùn)練好的ai模型導(dǎo)入cubemx不成功咋辦，試了好幾個(gè)模型壓縮了也不行，ram占用過(guò)大，有無(wú)解決方案？

2023-08-04 09:16:28

CV之YOLOv3：深度學(xué)習(xí)之計(jì)算機(jī)視覺(jué)神經(jīng)網(wǎng)絡(luò)Yolov3-5clessses訓(xùn)練自己的數(shù)據(jù)集全程記錄

CV之YOLOv3：深度學(xué)習(xí)之計(jì)算機(jī)視覺(jué)神經(jīng)網(wǎng)絡(luò)Yolov3-5clessses訓(xùn)練自己的數(shù)據(jù)集全程記錄

2018-12-24 11:51:47

CV之YOLO：深度學(xué)習(xí)之計(jì)算機(jī)視覺(jué)神經(jīng)網(wǎng)絡(luò)tiny-yolo-5clessses訓(xùn)練自己的數(shù)據(jù)集全程記錄

CV之YOLO：深度學(xué)習(xí)之計(jì)算機(jī)視覺(jué)神經(jīng)網(wǎng)絡(luò)tiny-yolo-5clessses訓(xùn)練自己的數(shù)據(jù)集全程記錄

2018-12-24 11:50:57

Django之模型

Django之模型(二)

2020-05-29 10:01:49

Flair如何進(jìn)行模型教程

工具篇Flair之訓(xùn)練模型教程

2020-04-27 14:03:05

GBDT算法原理和模型訓(xùn)練

)，其中y取值1或-1（代表二分類(lèi)的類(lèi)別標(biāo)簽），這也是GBDT可以用來(lái)解決分類(lèi)問(wèn)題的原因。模型訓(xùn)練代碼地址 https://github.com/qianshuang/ml-expdef train

2019-01-23 14:38:58

HLS-1Hin人工智能訓(xùn)練系統(tǒng)

連接器）。外部以太網(wǎng)鏈路可以連接到任何交換層次結(jié)構(gòu)。Suchconfiguration可以進(jìn)行優(yōu)化，以大規(guī)模實(shí)現(xiàn)textra大型模型并行性，并可以輕松處理數(shù)據(jù)并行性或模型和數(shù)據(jù)并行性的組合。 GAUDI

2023-08-04 06:06:14

MNIST數(shù)據(jù)集訓(xùn)練手寫(xiě)數(shù)字識(shí)別模型的優(yōu)化

TensorFlow筆記(4)——優(yōu)化手寫(xiě)數(shù)字識(shí)別模型之代價(jià)函數(shù)和擬合

2019-10-21 10:39:55

Python和Keras在訓(xùn)練期間如何將高斯噪聲添加到輸入數(shù)據(jù)中呢？

會(huì)得到添加了高斯噪聲的新圖像。高斯噪聲也稱(chēng)為白噪聲，是一種服從正態(tài)分布的隨機(jī)噪聲。在深度學(xué)習(xí)中，訓(xùn)練時(shí)往往會(huì)在輸入數(shù)據(jù)中加入高斯噪聲，以提高模型的魯棒性和泛化能力。這稱(chēng)為數(shù)據(jù)擴(kuò)充。通過(guò)向輸入數(shù)據(jù)添加

2023-02-16 14:04:10

Pytorch模型訓(xùn)練實(shí)用PDF教程【中文】

本教程以實(shí)際應(yīng)用、工程開(kāi)發(fā)為目的，著重介紹模型訓(xùn)練過(guò)程中遇到的實(shí)際問(wèn)題和方法。在機(jī)器學(xué)習(xí)模型開(kāi)發(fā)中，主要涉及三大部分，分別是數(shù)據(jù)、模型和損失函數(shù)及優(yōu)化器。本文也按順序的依次介紹數(shù)據(jù)、模型和損失函數(shù)

2018-12-21 09:18:02

TFllite模型的格式簡(jiǎn)介

簡(jiǎn)單來(lái)說(shuō)：所謂模型就是一個(gè)濾波器，訓(xùn)練的權(quán)重就是濾波系數(shù)，輸入經(jīng)過(guò)濾波器后得到一個(gè)輸出。所以嵌入式AI部署一般就是解析模型得到“濾波系數(shù)”，輸入信號(hào)進(jìn)行一系列類(lèi)似"濾波&

2023-08-18 07:01:53

labview數(shù)據(jù)采集圖解

labview數(shù)據(jù)采集圖解數(shù)據(jù)采集圖解 模擬量到數(shù)字量的轉(zhuǎn)換：為了使計(jì)算機(jī)能夠處理或存儲(chǔ)信號(hào)，將模擬電壓或電流轉(zhuǎn)換為數(shù)字信息數(shù)字量到模擬量的轉(zhuǎn)換：將數(shù)字信息轉(zhuǎn)換為模擬電壓或電流，使計(jì)算機(jī)能夠控制設(shè)備

2008-08-03 20:03:55

labview可以調(diào)用在python上訓(xùn)練好的分類(lèi)模型么？

能否直接調(diào)用訓(xùn)練好的模型文件？

2021-06-22 14:51:03

【Sipeed M2 Dock開(kāi)發(fā)板試用體驗(yàn)】之家貓檢測(cè)模型訓(xùn)練篇

準(zhǔn)備開(kāi)始為家貓做模型訓(xùn)練檢測(cè)，要去官網(wǎng)https://maix.sipeed.com/home 注冊(cè)帳號(hào)，文章尾部的視頻是官方的，與目前網(wǎng)站略有出路，說(shuō)明訓(xùn)練網(wǎng)站的功能更新得很快。其實(shí)整個(gè)的過(guò)程

2022-06-26 21:19:40

【書(shū)籍評(píng)測(cè)活動(dòng)NO.30】大規(guī)模語(yǔ)言模型：從理論到實(shí)踐

多種形式和任務(wù)。這個(gè)階段是從語(yǔ)言模型向?qū)υ?b class="flag-6" style="color: red">模型轉(zhuǎn)變的關(guān)鍵，其核心難點(diǎn)在于如何構(gòu)建訓(xùn)練數(shù)據(jù)，包括訓(xùn)練數(shù)據(jù)內(nèi)部多個(gè)任務(wù)之間的關(guān)系、訓(xùn)練數(shù)據(jù)與預(yù)訓(xùn)練之間的關(guān)系及訓(xùn)練數(shù)據(jù)的規(guī)模。獎(jiǎng)勵(lì)建模階段的目標(biāo)是構(gòu)建一個(gè)文本

2024-03-11 15:16:39

【米爾百度大腦EdgeBoard邊緣AI計(jì)算盒試用連載】第四篇基于針對(duì)EdgeBoard的EasyDL分類(lèi)模型訓(xùn)練實(shí)例

用于訓(xùn)練模型，如下圖所示：我選擇的方式為上傳本地圖片的方式，選項(xiàng)選擇如下：上傳圖片后，我們需要對(duì)圖片進(jìn)行標(biāo)記，操作則需要點(diǎn)擊下圖所示的查看與標(biāo)注第四步：在創(chuàng)建數(shù)據(jù)集完成后，就是模型訓(xùn)練，我們進(jìn)入模型

2021-03-23 14:32:35

使用YOLOv3訓(xùn)練BDD100K數(shù)據(jù)集之開(kāi)始訓(xùn)練

（三）使用YOLOv3訓(xùn)練BDD100K數(shù)據(jù)集之開(kāi)始訓(xùn)練

2020-05-12 13:38:55

使用eIQ門(mén)戶(hù)進(jìn)行訓(xùn)練時(shí)出現(xiàn)服務(wù)器錯(cuò)誤如何解決?

我正在嘗試使用自己的數(shù)據(jù)集訓(xùn)練人臉檢測(cè)模型。此錯(cuò)誤發(fā)生在訓(xùn)練開(kāi)始期間。如何解決這一問(wèn)題？

2023-04-17 08:04:49

醫(yī)療模型人訓(xùn)練系統(tǒng)是什么？

醫(yī)療模型人訓(xùn)練系統(tǒng)是為滿(mǎn)足廣大醫(yī)學(xué)生的需要而設(shè)計(jì)的。我國(guó)現(xiàn)代醫(yī)療模擬技術(shù)的發(fā)展處于剛剛起步階段，大部分仿真系統(tǒng)產(chǎn)品都源于國(guó)外，雖然對(duì)于模擬人仿真已經(jīng)出現(xiàn)一些產(chǎn)品，但那些產(chǎn)品只是就模擬人的某一部分，某一個(gè)功能實(shí)現(xiàn)的仿真，沒(méi)有一個(gè)完整的系統(tǒng)綜合其所有功能。

2019-08-19 08:32:45

在Ubuntu上使用Nvidia GPU訓(xùn)練模型

問(wèn)題最近在Ubuntu上使用Nvidia GPU訓(xùn)練模型的時(shí)候，沒(méi)有問(wèn)題，過(guò)一會(huì)再訓(xùn)練出現(xiàn)非常卡頓，使用nvidia-smi查看發(fā)現(xiàn)，顯示GPU的風(fēng)扇和電源報(bào)錯(cuò)：解決方案自動(dòng)風(fēng)扇控制在nvidia

2022-01-03 08:24:09

基于Keras利用訓(xùn)練好的hdf5模型進(jìn)行目標(biāo)檢測(cè)實(shí)現(xiàn)輸出模型中的表情或性別gradcam

CV：基于Keras利用訓(xùn)練好的hdf5模型進(jìn)行目標(biāo)檢測(cè)實(shí)現(xiàn)輸出模型中的臉部表情或性別的gradcam(可視化)

2018-12-27 16:48:28

基于Keras利用cv2建立訓(xùn)練存儲(chǔ)CNN模型(2+1)調(diào)用攝像頭實(shí)現(xiàn)實(shí)時(shí)人臉識(shí)別

CV之CNN：基于Keras利用cv2建立訓(xùn)練存儲(chǔ)CNN模型(2+1)并調(diào)用攝像頭進(jìn)行實(shí)時(shí)人臉識(shí)別

2018-12-26 11:09:16

基于Keras的mini_XCEPTION訓(xùn)練情感分類(lèi)模型hdf5并保存到指定文件夾下

CV：基于Keras利用CNN主流架構(gòu)之mini_XCEPTION訓(xùn)練情感分類(lèi)模型hdf5并保存到指定文件夾下

2018-12-26 11:08:26

如何使用eIQ門(mén)戶(hù)訓(xùn)練人臉檢測(cè)模型？

我正在嘗試使用 eIQ 門(mén)戶(hù)訓(xùn)練人臉檢測(cè)模型。我正在嘗試從 tensorflow 數(shù)據(jù)集 (tfds) 導(dǎo)入數(shù)據(jù)集，特別是 coco/2017 數(shù)據(jù)集。但是，我只想導(dǎo)入 wider_face。但是，當(dāng)我嘗試這樣做時(shí)，會(huì)出現(xiàn)導(dǎo)入程序錯(cuò)誤，如下圖所示。任何幫助都可以。

2023-04-06 08:45:14

如何正確理解功率MOSFET的數(shù)據(jù)表（上篇）.

`如何正確理解功率MOSFET的數(shù)據(jù)表（上篇）.`

2012-08-13 14:24:17

探索一種降低ViT模型訓(xùn)練成本的方法

工作探索了如何在小型數(shù)據(jù)集上從頭開(kāi)始訓(xùn)練ViT。也有工作在探索如何在24小時(shí)內(nèi)對(duì)文本數(shù)據(jù)訓(xùn)練BERT模型，但它使用8個(gè)GPU的服務(wù)器，而作者將自己限制在單個(gè)GPU。Primer建議尋找

2022-11-24 14:56:31

用PVC管自制遙控火車(chē)模型的教程圖解

想好做什么樣的?！颈尘笆乔懈顗|，每一小格是1cmX1cm的方塊，方便大家比較大小?！炕疖?chē)模型教程開(kāi)始：這些是主要的材料自制遙控火車(chē)模型的教程圖解取一小塊PVC管槽，用鐵尺和筆刀將其兩邊切整齊，在距其中

2012-12-29 15:03:47

算法原理與模型訓(xùn)練

2019-01-25 15:02:15

視頻解碼芯片DDP3310B電子資料

概述：DDP3310B是Micronas公司出品的一款用于CRT彩電中的視頻解碼處理芯片，其具備視頻處理、偏轉(zhuǎn)處理等功能。DDP3310B采用68引腳PLCCK封裝工藝。

2021-04-08 07:45:45

請(qǐng)問(wèn)K510設(shè)備什么時(shí)候可以支持線上模型訓(xùn)練？

目前官方的線上模型訓(xùn)練只支持K210，請(qǐng)問(wèn)K510什么時(shí)候可以支持

2023-09-13 06:12:13

請(qǐng)問(wèn)Mali GPU的并行化計(jì)算模型是怎樣構(gòu)建的？

Mali T604 GPU的結(jié)構(gòu)是由哪些部分組成的？Mali T604 GPU的編程特性有哪些？Mali GPU的并行化計(jì)算模型是怎樣構(gòu)建的？基于Mali-T604 GPU的快速浮點(diǎn)矩陣乘法并行化該如何去實(shí)現(xiàn)？

2021-04-19 08:06:26

請(qǐng)問(wèn)proteus中有仿真模型的并行插口怎么繪制？

proteus中有仿真模型的并行插口怎么繪制？

2019-04-23 20:14:43

算法隱含并行性的物理模型

算法隱含并行性的物理模型:利用物理學(xué)原理對(duì)算法的隱含并行性進(jìn)行了分析，提出算法的不確定性和高熵態(tài)是隱含并行性出現(xiàn)的根源，但算法的隱含并行性會(huì)導(dǎo)致算法結(jié)果的不確定

2009-10-21 08:23:07

什么是聲卡DDP電路/聲卡杜比定邏輯技術(shù)

什么是聲卡DDP電路/聲卡杜比定邏輯技術(shù) DDP電路：DDP(Double Detect and Protect:二重探測(cè)與保護(hù)),它可以使Space對(duì)輸入的信號(hào)不再重復(fù)處

2010-02-05 11:34:55

558

LabVIEW數(shù)據(jù)采集編程指南_上篇

LabVIEW數(shù)據(jù)采集編程指南【上篇】，之前有一篇中篇。記得一起看

2016-03-14 15:46:00

基于GPU的RBM并行加速方法

為針對(duì)受限玻爾茲曼機(jī)處理大數(shù)據(jù)時(shí)存在的訓(xùn)練緩慢、難以得到模型最優(yōu)的問(wèn)題，提出了基于CJPU的RBM模型訓(xùn)練并行加速方法。首先重新規(guī)劃了對(duì)比散度算法在CJPU的實(shí)現(xiàn)步驟；其次結(jié)合以往CJPU并行方案

2017-11-07 14:38:46

基于FPGA的并行硬件ECC模型的設(shè)計(jì)

針對(duì)大容量固態(tài)存儲(chǔ)器中數(shù)據(jù)錯(cuò)“位”的問(wèn)題，目前大多采用軟件ECC 模型進(jìn)行檢錯(cuò)和糾錯(cuò)，但這勢(shì)必會(huì)極大地影響存儲(chǔ)系統(tǒng)的讀寫(xiě)性能?；贓CC校驗(yàn)原理，提出一種并行硬件ECC 模型，并采用FPGA 實(shí)現(xiàn)。仿真分析和實(shí)驗(yàn)結(jié)果表明:該模型不僅具有良好的糾錯(cuò)能力，而且顯著地提高了存儲(chǔ)系統(tǒng)的讀寫(xiě)性能。

2017-11-18 10:32:51

5229

發(fā)電機(jī)模型制作圖解

2018-09-17 10:47:00

11723

Google：數(shù)據(jù)并行對(duì)神經(jīng)網(wǎng)絡(luò)訓(xùn)練用時(shí)的影響

具體來(lái)說(shuō)，就是對(duì)于每個(gè)workload（模型、訓(xùn)練算法和數(shù)據(jù)集），如果我們?cè)趧傞_(kāi)始的時(shí)候增加batch size，模型所需的訓(xùn)練步驟數(shù)確實(shí)會(huì)按比例逐漸減少，但越到后期，步驟數(shù)的減少量就越低，直到

2018-11-29 08:57:26

2778

GPU如何訓(xùn)練大批量模型？方法在這里

深度學(xué)習(xí)模型和數(shù)據(jù)集的規(guī)模增長(zhǎng)速度已經(jīng)讓 GPU 算力也開(kāi)始捉襟見(jiàn)肘，如果你的 GPU 連一個(gè)樣本都容不下，你要如何訓(xùn)練大批量模型？通過(guò)本文介紹的方法，我們可以在訓(xùn)練批量甚至單個(gè)訓(xùn)練樣本大于 GPU

2018-12-03 17:24:01

668

數(shù)據(jù)并行化對(duì)神經(jīng)網(wǎng)絡(luò)訓(xùn)練有何影響？谷歌大腦進(jìn)行了實(shí)證研究

神經(jīng)網(wǎng)絡(luò)訓(xùn)練硬件具備越來(lái)越強(qiáng)大的數(shù)據(jù)并行化處理能力。基于 GPU 或定制 ASIC 的專(zhuān)門(mén)系統(tǒng)輔以高性能互連技術(shù)使得能夠處理的數(shù)據(jù)并行化規(guī)模前所未有地大，而數(shù)據(jù)并行化的成本和收益尚未得到深入研究

2018-12-19 10:39:21

3273

為什么要使用預(yù)訓(xùn)練模型？8種優(yōu)秀預(yù)訓(xùn)練模型大盤(pán)點(diǎn)

正如我們?cè)诒疚闹兴?，ULMFiT使用新穎的NLP技術(shù)取得了令人矚目的成果。該方法對(duì)預(yù)訓(xùn)練語(yǔ)言模型進(jìn)行微調(diào)，將其在WikiText-103數(shù)據(jù)集（維基百科的長(zhǎng)期依賴(lài)語(yǔ)言建模數(shù)據(jù)集Wikitext之一）上訓(xùn)練，從而得到新數(shù)據(jù)集，通過(guò)這種方式使其不會(huì)忘記之前學(xué)過(guò)的內(nèi)容。

2019-04-04 11:26:26

23192

騰訊開(kāi)源首個(gè)3D醫(yī)療影像大數(shù)據(jù)預(yù)訓(xùn)練模型

自然圖像領(lǐng)域中存在著許多海量數(shù)據(jù)集，如ImageNet，MSCOCO?；谶@些數(shù)據(jù)集產(chǎn)生的預(yù)訓(xùn)練模型推動(dòng)了分類(lèi)、檢測(cè)、分割等應(yīng)用的進(jìn)步。

2019-08-20 15:03:16

1871

機(jī)器學(xué)習(xí)模型再訓(xùn)練的指南詳細(xì)概述

生成的數(shù)據(jù)生成準(zhǔn)確的預(yù)測(cè)。這些新數(shù)據(jù)示例可能是用戶(hù)交互、應(yīng)用處理或其他軟件系統(tǒng)的請(qǐng)求生成的——這取決于模型需要解決的問(wèn)題。在理想情況下，我們會(huì)希望自己的模型在生產(chǎn)環(huán)境中進(jìn)行預(yù)測(cè)時(shí)，能夠像使用訓(xùn)練過(guò)程中使用

2020-04-10 08:00:00

沒(méi)有大量訓(xùn)練數(shù)據(jù)時(shí)怎么生成更多的數(shù)據(jù)

成功訓(xùn)練計(jì)算機(jī)視覺(jué)任務(wù)的深層卷積神經(jīng)網(wǎng)絡(luò)需要大量數(shù)據(jù)。這是因?yàn)檫@些神經(jīng)網(wǎng)絡(luò)具有多個(gè)隱藏的處理層，并且隨著層數(shù)的增加，需要學(xué)習(xí)的樣本數(shù)也隨之增加。如果沒(méi)有足夠的訓(xùn)練數(shù)據(jù)，則該模型往往會(huì)很好地學(xué)習(xí)訓(xùn)練數(shù)據(jù)，這稱(chēng)為過(guò)度擬合。如果模型過(guò)擬合，則其泛化能力很差，因此對(duì)未見(jiàn)的數(shù)據(jù)的表現(xiàn)很差。

2020-05-04 08:59:00

2727

關(guān)于語(yǔ)言模型和對(duì)抗訓(xùn)練的工作

本文把對(duì)抗訓(xùn)練用到了預(yù)訓(xùn)練和微調(diào)兩個(gè)階段，對(duì)抗訓(xùn)練的方法是針對(duì)embedding space，通過(guò)最大化對(duì)抗損失、最小化模型損失的方式進(jìn)行對(duì)抗，在下游任務(wù)上取得了一致的效果提升。有趣的是，這種對(duì)抗

2020-11-02 15:26:49

1802

圖解BERT預(yù)訓(xùn)練模型！

BERT的發(fā)布是這個(gè)領(lǐng)域發(fā)展的最新的里程碑之一，這個(gè)事件標(biāo)志著NLP 新時(shí)代的開(kāi)始。BERT模型打破了基于語(yǔ)言處理的任務(wù)的幾個(gè)記錄。在 BERT 的論文發(fā)布后不久，這個(gè)團(tuán)隊(duì)還公開(kāi)了模型的代碼，并提供了模型的下載版本

2020-11-24 10:08:22

3200

小米在預(yù)訓(xùn)練模型的探索與優(yōu)化

導(dǎo)讀：預(yù)訓(xùn)練模型在NLP大放異彩，并開(kāi)啟了預(yù)訓(xùn)練-微調(diào)的NLP范式時(shí)代。由于工業(yè)領(lǐng)域相關(guān)業(yè)務(wù)的復(fù)雜性，以及工業(yè)應(yīng)用對(duì)推理性能的要求，大規(guī)模預(yù)訓(xùn)練模型往往不能簡(jiǎn)單直接地被應(yīng)用于NLP業(yè)務(wù)中。本文將為

2020-12-31 10:17:11

2217

利用ImageNet訓(xùn)練了一個(gè)能降噪、超分和去雨的圖像預(yù)訓(xùn)練模型

。但是不同的是，因?yàn)镮PT是同時(shí)訓(xùn)練多個(gè)task，因此模型定義了多個(gè)head和tail分別對(duì)應(yīng)不同的task。

2021-03-03 16:05:54

3903

一種脫離預(yù)訓(xùn)練的多尺度目標(biāo)檢測(cè)網(wǎng)絡(luò)模型

為提高卷積神經(jīng)網(wǎng)絡(luò)目標(biāo)檢測(cè)模型精度并增強(qiáng)檢測(cè)器對(duì)小目標(biāo)的檢測(cè)能力，提出一種脫離預(yù)訓(xùn)練的多尺度目標(biāo)檢測(cè)網(wǎng)絡(luò)模型。采用脫離預(yù)訓(xùn)練檢測(cè)網(wǎng)絡(luò)使其達(dá)到甚至超過(guò)預(yù)訓(xùn)練模型的精度，針對(duì)小目標(biāo)特點(diǎn)

2021-04-02 11:35:50

多模態(tài)圖像-文本預(yù)訓(xùn)練模型

在某一方面的智能程度。具體來(lái)說(shuō)是，領(lǐng)域?qū)＜胰斯?gòu)造標(biāo)準(zhǔn)數(shù)據(jù)集，然后在其上訓(xùn)練及評(píng)價(jià)相關(guān)模型及方法。但由于相關(guān)技術(shù)的限制，要想獲得效果更好、能力更強(qiáng)的模型，往往需要在大量的有標(biāo)注的數(shù)據(jù)上進(jìn)行訓(xùn)練。近期預(yù)訓(xùn)練模型的

2021-09-06 10:06:53

3351

探究超大Transformer語(yǔ)言模型的分布式訓(xùn)練框架

大模型的預(yù)訓(xùn)練計(jì)算。上篇主要介紹了大模型訓(xùn)練的發(fā)展趨勢(shì)、NVIDIA Megatron的模型并行設(shè)計(jì)，本篇將承接上篇的內(nèi)容，解析Megatron 在NVIDIA DGX SuperPOD 上的實(shí)踐

2021-10-20 09:25:43

2078

如何實(shí)現(xiàn)更綠色、經(jīng)濟(jì)的NLP預(yù)訓(xùn)練模型遷移

NLP中，預(yù)訓(xùn)練大模型Finetune是一種非常常見(jiàn)的解決問(wèn)題的范式。利用在海量文本上預(yù)訓(xùn)練得到的Bert、GPT等模型，在下游不同任務(wù)上分別進(jìn)行finetune，得到下游任務(wù)的模型。然而，這種方式

2022-03-21 15:33:30

1843

DGX SuperPOD助力助力織女模型的高效訓(xùn)練

　　“強(qiáng)悍的織女模型在京東探索研究院建設(shè)的全國(guó)首個(gè)基于 DGX SuperPOD 架構(gòu)的超大規(guī)模計(jì)算集群 “天琴α” 上完成訓(xùn)練，該集群具有全球領(lǐng)先的大規(guī)模分布式并行訓(xùn)練技術(shù)，其近似線性加速比的數(shù)據(jù)、模型、流水線并行技術(shù)持續(xù)助力織女模型的高效訓(xùn)練?！?/div>

2022-04-13 15:13:11

783

一種基于亂序語(yǔ)言模型的預(yù)訓(xùn)練模型-PERT

由于亂序語(yǔ)言模型不使用[MASK]標(biāo)記，減輕了預(yù)訓(xùn)練任務(wù)與微調(diào)任務(wù)之間的gap，并由于預(yù)測(cè)空間大小為輸入序列長(zhǎng)度，使得計(jì)算效率高于掩碼語(yǔ)言模型。PERT模型結(jié)構(gòu)與BERT模型一致，因此在下游預(yù)訓(xùn)練時(shí)，不需要修改原始BERT模型的任何代碼與腳本。

2022-05-10 15:01:27

1173

介紹一個(gè)基于CLIP的zero-shot實(shí)例分割方法

CLIP是近年來(lái)在多模態(tài)方面的經(jīng)典之作，得益于大量的數(shù)據(jù)和算力對(duì)模型進(jìn)行預(yù)訓(xùn)練，模型的Zero-shot性能非常可觀，甚至可以在眾多數(shù)據(jù)集上和有監(jiān)督訓(xùn)練媲美。

2022-10-13 09:13:04

3675

AI模型是如何訓(xùn)練的？訓(xùn)練一個(gè)模型花費(fèi)多大？

2022-10-23 00:20:03

7253

從預(yù)訓(xùn)練語(yǔ)言模型看MLM預(yù)測(cè)任務(wù)

為了解決這一問(wèn)題，本文主要從預(yù)訓(xùn)練語(yǔ)言模型看MLM預(yù)測(cè)任務(wù)、引入prompt_template的MLM預(yù)測(cè)任務(wù)、引入verblize類(lèi)別映射的Prompt-MLM預(yù)測(cè)、基于zero

2022-11-14 14:56:34

2497

使用 NVIDIA TAO 工具套件和預(yù)訓(xùn)練模型加快 AI 開(kāi)發(fā)

可以訪問(wèn)預(yù)訓(xùn)練模型的完整源代碼和模型權(quán)重。該工具套件能夠高效訓(xùn)練視覺(jué)和對(duì)話式 AI 模型。由于簡(jiǎn)化了復(fù)雜的 AI 模型和深度學(xué)習(xí)框架，即便是不具備 AI 專(zhuān)業(yè)知識(shí)的開(kāi)發(fā)者也可以使用該工具套件來(lái)構(gòu)建 AI 模型。通過(guò)遷移學(xué)習(xí)，開(kāi)發(fā)者可以使用自己的數(shù)據(jù)對(duì) NVIDIA 預(yù)訓(xùn)練模型進(jìn)行微調(diào)，

2022-12-15 19:40:06

722

用于MAX78000模型訓(xùn)練的數(shù)據(jù)加載器設(shè)計(jì)

在應(yīng)用程序開(kāi)發(fā)周期中，第一步是準(zhǔn)備和預(yù)處理可用數(shù)據(jù)以創(chuàng)建訓(xùn)練和驗(yàn)證/測(cè)試數(shù)據(jù)集。除了通常的數(shù)據(jù)預(yù)處理外，在MAX78000上運(yùn)行模型還需要考慮幾個(gè)硬件限制。

2023-02-21 12:11:44

903

預(yù)訓(xùn)練數(shù)據(jù)大小對(duì)于預(yù)訓(xùn)練模型的影響

BERT類(lèi)模型的工作模式簡(jiǎn)單，但取得的效果也是極佳的，其在各項(xiàng)任務(wù)上的良好表現(xiàn)主要得益于其在大量無(wú)監(jiān)督文本上學(xué)習(xí)到的文本表征能力。那么如何從語(yǔ)言學(xué)的特征角度來(lái)衡量一個(gè)預(yù)訓(xùn)練模型的究竟學(xué)習(xí)到了什么樣的語(yǔ)言學(xué)文本知識(shí)呢？

2023-03-03 11:20:00

911

ELMER: 高效強(qiáng)大的非自回歸預(yù)訓(xùn)練文本生成模型

每個(gè)單詞都依賴(lài)于輸入文本與之前生成的單詞。自回歸生成模型只建模了前向的單詞依賴(lài)關(guān)系，依次生成的結(jié)構(gòu)也使得自回歸模型難以并行化。目前大部分預(yù)訓(xùn)練生成模型均采用自回歸方式，包括GPT-2，BART，T5等模型。

2023-03-13 10:39:59

910

什么是預(yù)訓(xùn)練 AI 模型？

預(yù)訓(xùn)練 AI 模型是為了完成特定任務(wù)而在大型數(shù)據(jù)集上訓(xùn)練的深度學(xué)習(xí)模型。這些模型既可以直接使用，也可以根據(jù)不同行業(yè)的應(yīng)用需求進(jìn)行自定義。如果要教一個(gè)剛學(xué)會(huì)走路的孩子什么是獨(dú)角獸，那么我們首先應(yīng)

2023-04-04 01:45:02

1025

以Gpipe作為流水線并行的范例進(jìn)行介紹

和充沛優(yōu)質(zhì)的硬件資源算法的迭代創(chuàng)新在大模型訓(xùn)練這個(gè)系列里，我們將一起探索學(xué)習(xí)幾種經(jīng)典的分布式并行范式，包括流水線并行（Pipeline Parallelism），數(shù)據(jù)并行(Data

2023-05-25 11:41:21

625

什么是預(yù)訓(xùn)練AI模型？

預(yù)訓(xùn)練 AI 模型是為了完成特定任務(wù)而在大型數(shù)據(jù)集上訓(xùn)練的深度學(xué)習(xí)模型。這些模型既可以直接使用，也可以根據(jù)不同行業(yè)的應(yīng)用需求進(jìn)行自定義。

2023-05-25 17:10:09

595

PyTorch教程-15.9。預(yù)訓(xùn)練 BERT 的數(shù)據(jù)集

實(shí)驗(yàn)室在 SageMaker Studio Lab 中打開(kāi)筆記本為了預(yù)訓(xùn)練第 15.8 節(jié)中實(shí)現(xiàn)的 BERT 模型，我們需要以理想的格式生成數(shù)據(jù)集，以促進(jìn)兩項(xiàng)預(yù)訓(xùn)練任務(wù)：掩碼語(yǔ)言建模和下一句預(yù)測(cè)

2023-06-05 15:44:40

442

圖解大模型訓(xùn)練之：Megatron源碼解讀2，模型并行

前文說(shuō)過(guò)，用Megatron做分布式訓(xùn)練的開(kāi)源大模型有很多，我們選用的是THUDM開(kāi)源的CodeGeeX（代碼生成式大模型，類(lèi)比于openAI Codex）。選用它的原因是“完全開(kāi)源”與“清晰的模型架構(gòu)和預(yù)訓(xùn)練配置圖”，能幫助我們高效閱讀源碼。我們?cè)賮?lái)回顧下這兩張圖。

2023-06-07 15:08:24

2186

DeepSpeed里面和Zero相關(guān)技術(shù)教程

使用原始的 Megatron-LM 訓(xùn)練 GPT2 設(shè)置訓(xùn)練數(shù)據(jù) 運(yùn)行未修改的Megatron-LM GPT2模型開(kāi)啟DeepSpeed DeepSpeed 使用 GPT-2 進(jìn)行評(píng)估 Zero

2023-06-12 10:25:33

1841

爆了！GPT-4模型架構(gòu)、訓(xùn)練成本、數(shù)據(jù)集信息都被扒出來(lái)了

文章稱(chēng)，他們從許多來(lái)源收集了大量有關(guān) GPT-4 的信息，包括模型架構(gòu)、訓(xùn)練基礎(chǔ)設(shè)施、推理基礎(chǔ)設(shè)施、參數(shù)量、訓(xùn)練數(shù)據(jù)集組成、token 量、層數(shù)、并行策略、多模態(tài)視覺(jué)適應(yīng)、不同工程權(quán)衡背后的思維過(guò)程、獨(dú)特的實(shí)現(xiàn)技術(shù)以及如何減輕與巨型模型推理有關(guān)的瓶頸等。

2023-07-12 14:16:57

402

基礎(chǔ)模型自監(jiān)督預(yù)訓(xùn)練的數(shù)據(jù)之謎：大量數(shù)據(jù)究竟是福還是禍？

大型語(yǔ)言模型如 ChatGPT 的成功彰顯了海量數(shù)據(jù)在捕捉語(yǔ)言模式和知識(shí)方面的巨大潛力，這也推動(dòng)了基于大量數(shù)據(jù)的視覺(jué)模型研究。在計(jì)算視覺(jué)領(lǐng)域，標(biāo)注數(shù)據(jù)通常難以獲取，自監(jiān)督學(xué)習(xí)成為預(yù)訓(xùn)練的主流方法

2023-07-24 16:55:03

272

卷積神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練步驟

模型訓(xùn)練是將模型結(jié)構(gòu)和模型參數(shù)相結(jié)合，通過(guò)樣本數(shù)據(jù)的學(xué)習(xí)訓(xùn)練模型，使得模型可以對(duì)新的樣本數(shù)據(jù)進(jìn)行準(zhǔn)確的預(yù)測(cè)和分類(lèi)。本文將詳細(xì)介紹 CNN 模型訓(xùn)練的步驟。 CNN 模型結(jié)構(gòu) 卷積神經(jīng)網(wǎng)絡(luò)的輸入

2023-08-21 16:42:00

885

大模型分布式訓(xùn)練并行技術(shù)（一）-概述

數(shù)據(jù)并行是最常見(jiàn)的并行形式，因?yàn)樗芎?jiǎn)單。在數(shù)據(jù)并行訓(xùn)練中，數(shù)據(jù)集被分割成幾個(gè)碎片，每個(gè)碎片被分配到一個(gè)設(shè)備上。這相當(dāng)于沿批次（Batch）維度對(duì)訓(xùn)練過(guò)程進(jìn)行并行化。每個(gè)設(shè)備將持有一個(gè)完整的模型副本，并在分配的數(shù)據(jù)集碎片上進(jìn)行訓(xùn)練。

2023-08-24 15:17:28

537

使用OpenVINO優(yōu)化并部署訓(xùn)練好的YOLOv7模型

在《英特爾銳炫顯卡+ oneAPI 和 OpenVINO 實(shí)現(xiàn)英特爾視頻 AI 計(jì)算盒訓(xùn)推一體-上篇》一文中，我們?cè)敿?xì)介紹基于英特爾獨(dú)立顯卡搭建 YOLOv7 模型的訓(xùn)練環(huán)境，并完成了 YOLOv7 模型訓(xùn)練，獲得了最佳精度的模型權(quán)重。

2023-08-25 11:08:58

819

流浪者緩解PyTorch DDP的層次SGD

流浪者緩解PyTorch DDP的層次SGD

2023-08-31 14:27:11

290

訓(xùn)練大語(yǔ)言模型帶來(lái)的硬件挑戰(zhàn)

生成式AI和大語(yǔ)言模型（LLM）正在以難以置信的方式吸引全世界的目光，本文簡(jiǎn)要介紹了大語(yǔ)言模型，訓(xùn)練這些模型帶來(lái)的硬件挑戰(zhàn)，以及GPU和網(wǎng)絡(luò)行業(yè)如何針對(duì)訓(xùn)練的工作負(fù)載不斷優(yōu)化硬件。

2023-09-01 17:14:56

1046

大語(yǔ)言模型（LLM）預(yù)訓(xùn)練數(shù)據(jù)集調(diào)研分析

model 訓(xùn)練完成后，使用 instruction 以及其他高質(zhì)量的私域數(shù)據(jù)集來(lái)提升 LLM 在特定領(lǐng)域的性能；而 rlhf 是 openAI 用來(lái)讓model 對(duì)齊人類(lèi)價(jià)值觀的一種強(qiáng)大技術(shù)；pre-training dataset 是大模型在訓(xùn)練時(shí)真正喂給 model 的數(shù)據(jù)，從很多 paper 能看到一些觀

2023-09-19 10:00:06

506

基于PyTorch的模型并行分布式訓(xùn)練Megatron解析

NVIDIA Megatron 是一個(gè)基于 PyTorch 的分布式訓(xùn)練框架，用來(lái)訓(xùn)練超大Transformer語(yǔ)言模型，其通過(guò)綜合應(yīng)用了數(shù)據(jù)并行，Tensor并行和Pipeline并行來(lái)復(fù)現(xiàn) GPT3，值得我們深入分析其背后機(jī)理。

2023-10-23 11:01:33

826

深度學(xué)習(xí)框架DeepSpeed使用指南

Parallel，簡(jiǎn)稱(chēng)DDP），它也僅僅是能將數(shù)據(jù)并行，放到各個(gè)GPU的模型上進(jìn)行訓(xùn)練。也就是說(shuō)，DDP的應(yīng)用場(chǎng)景在你的模型大小大于顯卡顯存大小時(shí)，它就無(wú)法使用了，除非你自己再將模型參數(shù)拆散分散

2023-10-30 10:09:45

951

如何讓網(wǎng)絡(luò)模型加速訓(xùn)練

如果我們使用的 數(shù)據(jù)集較大，且網(wǎng)絡(luò)較深，則會(huì)造成 訓(xùn)練較慢，此時(shí)我們要想加速訓(xùn)練 可以使用 Pytorch的AMP （ autocast與Gradscaler ）；本文便是依據(jù)此寫(xiě)出

2023-11-03 10:00:19

1054

深度學(xué)習(xí)如何訓(xùn)練出好的模型

算法工程、數(shù)據(jù)派THU深度學(xué)習(xí)在近年來(lái)得到了廣泛的應(yīng)用，從圖像識(shí)別、語(yǔ)音識(shí)別到自然語(yǔ)言處理等領(lǐng)域都有了卓越的表現(xiàn)。但是，要訓(xùn)練出一個(gè)高效準(zhǔn)確的深度學(xué)習(xí)模型并不容易。不僅需要有高質(zhì)量的數(shù)據(jù)、合適的模型

2023-12-07 12:38:24

547

如何基于深度學(xué)習(xí)模型訓(xùn)練實(shí)現(xiàn)圓檢測(cè)與圓心位置預(yù)測(cè)

Hello大家好，今天給大家分享一下如何基于深度學(xué)習(xí)模型訓(xùn)練實(shí)現(xiàn)圓檢測(cè)與圓心位置預(yù)測(cè)，主要是通過(guò)對(duì)YOLOv8姿態(tài)評(píng)估模型在自定義的數(shù)據(jù)集上訓(xùn)練，生成一個(gè)自定義的圓檢測(cè)與圓心定位預(yù)測(cè)模型

2023-12-21 10:50:05

529

如何基于深度學(xué)習(xí)模型訓(xùn)練實(shí)現(xiàn)工件切割點(diǎn)位置預(yù)測(cè)

Hello大家好，今天給大家分享一下如何基于深度學(xué)習(xí)模型訓(xùn)練實(shí)現(xiàn)工件切割點(diǎn)位置預(yù)測(cè)，主要是通過(guò)對(duì)YOLOv8姿態(tài)評(píng)估模型在自定義的數(shù)據(jù)集上訓(xùn)練，生成一個(gè)工件切割分離點(diǎn)預(yù)測(cè)模型

2023-12-22 11:07:46

259