chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

詳解深度學(xué)習(xí)中的Normalization及主流的四種規(guī)范化方法

電子設(shè)計 ? 來源:電子設(shè)計 ? 作者:電子設(shè)計 ? 2020-12-10 20:11 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

深度神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練之難眾所周知,其中一個重要的現(xiàn)象就是 Internal Covariate Shift. Batch Norm 大法自 2015 年由Google 提出之后,就成為深度學(xué)習(xí)必備之神器。自 BN 之后, Layer Norm / Weight Norm / Cosine Norm 等也橫空出世。本文從 Normalization 的背景講起,用一個公式概括 Normalization 的基本思想與通用框架,將各大主流方法一一對號入座進行深入的對比分析,并從參數(shù)和數(shù)據(jù)的伸縮不變性的角度探討 Normalization 有效的深層原因。
作者:Juliuszh,PhD 畢業(yè)于 THU 計算機系?,F(xiàn)在 Tencent AI Lab 從事機器學(xué)習(xí)和個性化推薦研究與 AI 平臺開發(fā)工作。
來源:機器學(xué)習(xí)札記知乎專欄

目錄:

1. 為什么需要 Normalization
——深度學(xué)習(xí)中的 Internal Covariate Shift 問題及其影響
2. Normalization 的通用框架與基本思想
——從主流 Normalization 方法中提煉出的抽象框架
3. 主流 Normalization 方法梳理
——結(jié)合上述框架,將 BatchNorm / LayerNorm / WeightNorm / CosineNorm 對號入座,各種方法之間的異同水落石出。
4. Normalization 為什么會有效?
——從參數(shù)和數(shù)據(jù)的伸縮不變性探討Normalization有效的深層原因。

以下是正文,enjoy.

1. 為什么需要 Normalization

1.1 獨立同分布與白化

機器學(xué)習(xí)界的煉丹師們最喜歡的數(shù)據(jù)有什么特點?竊以為,莫過于“獨立同分布”了,即independent and identically distributed,簡稱為 i.i.d. 獨立同分布并非所有機器學(xué)習(xí)模型的必然要求(比如 Naive Bayes 模型就建立在特征彼此獨立的基礎(chǔ)之上,而Logistic Regression 和 神經(jīng)網(wǎng)絡(luò) 則在非獨立的特征數(shù)據(jù)上依然可以訓(xùn)練出很好的模型),但獨立同分布的數(shù)據(jù)可以簡化常規(guī)機器學(xué)習(xí)模型的訓(xùn)練、提升機器學(xué)習(xí)模型的預(yù)測能力,已經(jīng)是一個共識。

因此,在把數(shù)據(jù)喂給機器學(xué)習(xí)模型之前,“白化(whitening)”是一個重要的數(shù)據(jù)預(yù)處理步驟。白化一般包含兩個目的:

(1)去除特征之間的相關(guān)性 —> 獨立;
(2)使得所有特征具有相同的均值和方差 —> 同分布。

白化最典型的方法就是PCA,可以參考閱讀 PCAWhitening。

1.2 深度學(xué)習(xí)中的 Internal Covariate Shift

深度神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練為什么會很困難?其中一個重要的原因是,深度神經(jīng)網(wǎng)絡(luò)涉及到很多層的疊加,而每一層的參數(shù)更新會導(dǎo)致上層的輸入數(shù)據(jù)分布發(fā)生變化,通過層層疊加,高層的輸入分布變化會非常劇烈,這就使得高層需要不斷去重新適應(yīng)底層的參數(shù)更新。為了訓(xùn)好模型,我們需要非常謹慎地去設(shè)定學(xué)習(xí)率、初始化權(quán)重、以及盡可能細致的參數(shù)更新策略。

Google 將這一現(xiàn)象總結(jié)為 Internal Covariate Shift,簡稱 ICS. 什么是 ICS 呢?@魏秀參在一個回答中做出了一個很好的解釋:

大家都知道在統(tǒng)計機器學(xué)習(xí)中的一個經(jīng)典假設(shè)是“源空間(source domain)和目標空間(target domain)的數(shù)據(jù)分布(distribution)是一致的”。如果不一致,那么就出現(xiàn)了新的機器學(xué)習(xí)問題,如 transfer learning / domain adaptation 等。而 covariate shift 就是分布不一致假設(shè)之下的一個分支問題,它是指源空間和目標空間的條件概率是一致的,但是其邊緣概率不同,即:

但是大家細想便會發(fā)現(xiàn),的確,對于神經(jīng)網(wǎng)絡(luò)的各層輸出,由于它們經(jīng)過了層內(nèi)操作作用,其分布顯然與各層對應(yīng)的輸入信號分布不同,而且差異會隨著網(wǎng)絡(luò)深度增大而增大,可是它們所能“指示”的樣本標記(label)仍然是不變的,這便符合了covariate shift的定義。由于是對層間信號的分析,也即是“internal”的來由。

1.3 ICS 會導(dǎo)致什么問題?

簡而言之,每個神經(jīng)元的輸入數(shù)據(jù)不再是“獨立同分布”。

其一,上層參數(shù)需要不斷適應(yīng)新的輸入數(shù)據(jù)分布,降低學(xué)習(xí)速度。
其二,下層輸入的變化可能趨向于變大或者變小,導(dǎo)致上層落入飽和區(qū),使得學(xué)習(xí)過早停止。
其三,每層的更新都會影響到其它層,因此每層的參數(shù)更新策略需要盡可能的謹慎。

2. Normalization 的通用框架與基本思想

我們以神經(jīng)網(wǎng)絡(luò)中的一個普通神經(jīng)元為例。神經(jīng)元接收一組輸入向量

$${x}=(x_1, x_2, /cdots, x_d)$$

通過某種運算后,輸出一個標量值:

$$y=f({x})$$

由于 ICS 問題的存在,x的分布可能相差很大。要解決獨立同分布的問題,“理論正確”的方法就是對每一層的數(shù)據(jù)都進行白化操作。然而標準的白化操作代價高昂,特別是我們還希望白化操作是可微的,保證白化操作可以通過反向傳播來更新梯度。

因此,以 BN 為代表的 Normalization 方法退而求其次,進行了簡化的白化操作?;舅枷胧牵涸趯送給神經(jīng)元之前,先對其做平移和伸縮變換, 將x的分布規(guī)范化成在固定區(qū)間范圍的標準分布。

通用變換框架就如下所示:

我們來看看這個公式中的各個參數(shù)。

奇不奇怪?奇不奇怪?

說好的處理 ICS,第一步都已經(jīng)得到了標準分布,第二步怎么又給變走了?

答案是——為了保證模型的表達能力不因為規(guī)范化而下降。

我們可以看到,第一步的變換將輸入數(shù)據(jù)限制到了一個全局統(tǒng)一的確定范圍(均值為 0、方差為 1)。下層神經(jīng)元可能很努力地在學(xué)習(xí),但不論其如何變化,其輸出的結(jié)果在交給上層神經(jīng)元進行處理之前,將被粗暴地重新調(diào)整到這一固定范圍。

沮不沮喪?沮不沮喪?

難道我們底層神經(jīng)元人民就在做無用功嗎?

所以,為了尊重底層神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)結(jié)果,我們將規(guī)范化后的數(shù)據(jù)進行再平移和再縮放,使得每個神經(jīng)元對應(yīng)的輸入范圍是針對該神經(jīng)元量身定制的一個確定范圍(均值為b、方差為g2)。rescale 和 reshift 的參數(shù)都是可學(xué)習(xí)的,這就使得 Normalization 層可以學(xué)習(xí)如何去尊重底層的學(xué)習(xí)結(jié)果。

除了充分利用底層學(xué)習(xí)的能力,另一方面的重要意義在于保證獲得非線性的表達能力。Sigmoid 等激活函數(shù)在神經(jīng)網(wǎng)絡(luò)中有著重要作用,通過區(qū)分飽和區(qū)和非飽和區(qū),使得神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)變換具有了非線性計算能力。而第一步的規(guī)范化會將幾乎所有數(shù)據(jù)映射到激活函數(shù)的非飽和區(qū)(線性區(qū)),僅利用到了線性變化能力,從而降低了神經(jīng)網(wǎng)絡(luò)的表達能力。而進行再變換,則可以將數(shù)據(jù)從線性區(qū)變換到非線性區(qū),恢復(fù)模型的表達能力。

那么問題又來了——

經(jīng)過這么的變回來再變過去,會不會跟沒變一樣?

那么還有一個問題——

這樣的 Normalization 離標準的白化還有多遠?

標準白化操作的目的是“獨立同分布”。獨立就不說了,暫不考慮。變換為均值為b、方差為g2(g的平方)的分布,也并不是嚴格的同分布,只是映射到了一個確定的區(qū)間范圍而已。(所以,這個坑還有得研究呢?。?/p>

3. 主流 Normalization 方法梳理

在上一節(jié)中,我們提煉了 Normalization 的通用公式:

對照于這一公式,我們來梳理主流的四種規(guī)范化方法。

3.1 Batch Normalization —— 縱向規(guī)范化

Batch Normalization 于2015年由 Google 提出,開 Normalization 之先河。其規(guī)范化針對單個神經(jīng)元進行,利用網(wǎng)絡(luò)訓(xùn)練時一個 mini-batch 的數(shù)據(jù)來計算該神經(jīng)元Xi的均值和方差,因而稱為 Batch Normalization。

其中M是 mini-batch 的大小。

按上圖所示,相對于一層神經(jīng)元的水平排列,BN 可以看做一種縱向的規(guī)范化。由于 BN 是針對單個維度定義的,因此標準公式中的計算均為 element-wise 的。

BN 獨立地規(guī)范化每一個輸入維度Xi,但規(guī)范化的參數(shù)是一個 mini-batch 的一階統(tǒng)計量和二階統(tǒng)計量。這就要求 每一個 mini-batch 的統(tǒng)計量是整體統(tǒng)計量的近似估計,或者說每一個 mini-batch 彼此之間,以及和整體數(shù)據(jù),都應(yīng)該是近似同分布的。分布差距較小的 mini-batch 可以看做是為規(guī)范化操作和模型訓(xùn)練引入了噪聲,可以增加模型的魯棒性;但如果每個 mini-batch的原始分布差別很大,那么不同 mini-batch 的數(shù)據(jù)將會進行不一樣的數(shù)據(jù)變換,這就增加了模型訓(xùn)練的難度。

因此,BN 比較適用的場景是:每個 mini-batch 比較大,數(shù)據(jù)分布比較接近。在進行訓(xùn)練之前,要做好充分的 shuffle. 否則效果會差很多。

另外,由于 BN 需要在運行過程中統(tǒng)計每個 mini-batch 的一階統(tǒng)計量和二階統(tǒng)計量,因此不適用于 動態(tài)的網(wǎng)絡(luò)結(jié)構(gòu) 和 RNN 網(wǎng)絡(luò)。不過,也有研究者專門提出了適用于 RNN 的 BN 使用方法,這里先不展開了。

3.2 Layer Normalization —— 橫向規(guī)范化

層規(guī)范化就是針對 BN 的上述不足而提出的。與 BN 不同,LN 是一種橫向的規(guī)范化,如圖所示。它綜合考慮一層所有維度的輸入,計算該層的平均輸入值和輸入方差,然后用同一個規(guī)范化操作來轉(zhuǎn)換各個維度的輸入。

LN 針對單個訓(xùn)練樣本進行,不依賴于其他數(shù)據(jù),因此可以避免 BN 中受 mini-batch 數(shù)據(jù)分布影響的問題,可以用于 小mini-batch場景、動態(tài)網(wǎng)絡(luò)場景和 RNN,特別是自然語言處理領(lǐng)域。此外,LN 不需要保存 mini-batch 的均值和方差,節(jié)省了額外的存儲空間。

但是,BN 的轉(zhuǎn)換是針對單個神經(jīng)元可訓(xùn)練的——不同神經(jīng)元的輸入經(jīng)過再平移和再縮放后分布在不同的區(qū)間,而 LN 對于一整層的神經(jīng)元訓(xùn)練得到同一個轉(zhuǎn)換——所有的輸入都在同一個區(qū)間范圍內(nèi)。如果不同輸入特征不屬于相似的類別(比如顏色和大?。敲?LN 的處理可能會降低模型的表達能力。

3.3 Weight Normalization —— 參數(shù)規(guī)范化

BN 和 LN 均將規(guī)范化應(yīng)用于輸入的特征數(shù)據(jù)x,而 WN 則另辟蹊徑,將規(guī)范化應(yīng)用于線性變換函數(shù)的權(quán)重 w,這就是 WN 名稱的來源。

乍一看,這一方法似乎脫離了我們前文所講的通用框架?

并沒有。其實從最終實現(xiàn)的效果來看,異曲同工。我們來推導(dǎo)一下看。

對照一下前述框架:

我們只需令:

就完美地對號入座了!

回憶一下,BN 和 LN 是用輸入的特征數(shù)據(jù)的方差對輸入數(shù)據(jù)進行 scale,而 WN 則是用 神經(jīng)元的權(quán)重的歐氏范式對輸入數(shù)據(jù)進行 scale。雖然在原始方法中分別進行的是特征數(shù)據(jù)規(guī)范化和參數(shù)的規(guī)范化,但本質(zhì)上都實現(xiàn)了對數(shù)據(jù)的規(guī)范化,只是用于 scale 的參數(shù)來源不同。

另外,我們看到這里的規(guī)范化只是對數(shù)據(jù)進行了 scale,而沒有進行 shift,因為我們簡單地令 u=0. 但事實上,這里留下了與 BN 或者 LN 相結(jié)合的余地——那就是利用 BN 或者 LN 的方法來計算輸入數(shù)據(jù)的均值 u 。

WN 的規(guī)范化不直接使用輸入數(shù)據(jù)的統(tǒng)計量,因此避免了 BN 過于依賴 mini-batch 的不足,以及 LN 每層唯一轉(zhuǎn)換器的限制,同時也可以用于動態(tài)網(wǎng)絡(luò)結(jié)構(gòu)。

3.4 Cosine Normalization —— 余弦規(guī)范化

Normalization 還能怎么做?

我們再來看看神經(jīng)元的經(jīng)典變換
$$f_{w}({x})={w}/cdot{x}$$

對輸入數(shù)據(jù)x的變換已經(jīng)做過了,橫著來是 LN,縱著來是 BN。

對模型參數(shù)w的變換也已經(jīng)做過了,就是 WN。

好像沒啥可做的了。

然而天才的研究員們盯上了中間的那個點,對,就是 . 。

他們說,我們要對數(shù)據(jù)進行規(guī)范化的原因,是數(shù)據(jù)經(jīng)過神經(jīng)網(wǎng)絡(luò)的計算之后可能會變得很大,導(dǎo)致數(shù)據(jù)分布的方差爆炸,而這一問題的根源就是我們的計算方式——點積,權(quán)重向量w和 特征數(shù)據(jù)向量x的點積。向量點積是無界(unbounded)的??!

那怎么辦呢?我們知道向量點積是衡量兩個向量相似度的方法之一。哪還有沒有其他的相似度衡量方法呢?有啊,很多啊!夾角余弦就是其中之一??!而且關(guān)鍵的是,夾角余弦是有確定界的啊,[-1, 1] 的取值范圍,多么的美好!仿佛看到了新的世界!

于是,Cosine Normalization 就出世了。他們不處理權(quán)重向量w,也不處理特征數(shù)據(jù)向量x ,就改了一下線性變換的函數(shù):

然后就沒有然后了,所有的數(shù)據(jù)就都是 [-1, 1] 區(qū)間范圍之內(nèi)的了!

不過,回過頭來看,CN 與 WN 還是很相似的。我們看到上式中,分子還是 w和x的內(nèi)積,而分母則可以看做用w和 x二者的模之積進行規(guī)范化。對比一下 WN 的公式:

CN 通過用余弦計算代替內(nèi)積計算實現(xiàn)了規(guī)范化,但成也蕭何敗蕭何。原始的內(nèi)積計算,其幾何意義是 輸入向量在權(quán)重向量上的投影,既包含 二者的夾角信息,也包含 兩個向量的scale信息。去掉scale信息,可能導(dǎo)致表達能力的下降,因此也引起了一些爭議和討論。具體效果如何,可能需要在特定的場景下深入實驗。

現(xiàn)在,BN, LN, WN 和 CN 之間的來龍去脈是不是清楚多了?

4. Normalization 為什么會有效?

我們以下面這個簡化的神經(jīng)網(wǎng)絡(luò)為例來分析。

4.1 Normalization 的權(quán)重伸縮不變性

上述規(guī)范化方法均有這一性質(zhì),這是因為,當(dāng)權(quán)重w伸縮時,對應(yīng)的均值和標準差均等比例伸縮,分子分母相抵。

權(quán)重伸縮不變性可以有效地提高反向傳播的效率。

由于

因此,權(quán)重的伸縮變化不會影響反向梯度的 Jacobian 矩陣,因此也就對反向傳播沒有影響,避免了反向傳播時因為權(quán)重過大或過小導(dǎo)致的梯度消失或梯度爆炸問題,從而加速了神經(jīng)網(wǎng)絡(luò)的訓(xùn)練。

權(quán)重伸縮不變性還具有參數(shù)正則化的效果,可以使用更高的學(xué)習(xí)率。

由于

因此,下層的權(quán)重值越大,其梯度就越小。這樣,參數(shù)的變化就越穩(wěn)定,相當(dāng)于實現(xiàn)了參數(shù)正則化的效果,避免參數(shù)的大幅震蕩,提高網(wǎng)絡(luò)的泛化性能。

4.2 Normalization 的數(shù)據(jù)伸縮不變性

數(shù)據(jù)伸縮不變性僅對 BN、LN 和 CN 成立。因為這三者對輸入數(shù)據(jù)進行規(guī)范化,因此當(dāng)數(shù)據(jù)進行常量伸縮時,其均值和方差都會相應(yīng)變化,分子分母互相抵消。而 WN 不具有這一性質(zhì)。

數(shù)據(jù)伸縮不變性可以有效地減少梯度彌散,簡化對學(xué)習(xí)率的選擇。

每一層神經(jīng)元的輸出依賴于底下各層的計算結(jié)果。如果沒有正則化,當(dāng)下層輸入發(fā)生伸縮變化時,經(jīng)過層層傳遞,可能會導(dǎo)致數(shù)據(jù)發(fā)生劇烈的膨脹或者彌散,從而也導(dǎo)致了反向計算時的梯度爆炸或梯度彌散。

數(shù)據(jù)的伸縮變化也不會影響到對該層的權(quán)重參數(shù)更新,使得訓(xùn)練過程更加魯棒,簡化了對學(xué)習(xí)率的選擇。

參考文獻

[1] Sergey Ioffe and Christian Szegedy. Accelerating Deep Network Training by Reducing Internal Covariate Shift.
[2] Jimmy L. Ba, Jamie R. Kiros, Geoffrey E. Hinton. [1607.06450] Layer Normalization.
[3] Tim Salimans, Diederik P. Kingma. A Simple Reparameterization to Accelerate Training of Deep Neural Networks.
[4] Chunjie Luo, Jianfeng Zhan, Lei Wang, Qiang Yang. Using Cosine Similarity Instead of Dot Product in Neural Networks.
[5] Ian Goodfellow, Yoshua Bengio, Aaron Courville. Deep Learning.

本文在寫作過程中,參考了以下各位的回答,特此致謝。

@魏秀參的回答: 深度學(xué)習(xí)中 Batch Normalization為什么效果好?

@孔濤的回答: 深度學(xué)習(xí)中 Batch Normalization為什么效果好?

@王峰的回答: 深度學(xué)習(xí)中 Batch Normalization為什么效果好?

@lqfarmer的回答: Weight Normalization 相比batch Normalization 有什么優(yōu)點呢?

@Naiyan Wang的回答: Batch normalization和Instance normalization的對比?

@YJango的文章: YJango的Batch Normalization--介紹

-End-

推薦閱讀

2020年醫(yī)學(xué)圖像處理領(lǐng)域值得關(guān)注的期刊和會議

清華劉知遠教授:好的研究想法從哪里來?

歡迎關(guān)注我的極術(shù)專欄:AI搬運小能手,給您分享最前沿靠譜的高質(zhì)量AI技術(shù)干貨。

審核編輯 黃昊宇

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    RDMA簡介3之四種子協(xié)議對比

    分別介紹這四種子協(xié)議。圖1RDMA四種子協(xié)議網(wǎng)絡(luò)層級關(guān)系圖InfiniBand:InfiniBand是一專為RDMA設(shè)計的網(wǎng)絡(luò),其傳輸層、網(wǎng)絡(luò)層及鏈路層均遵循IB協(xié)議規(guī)范,沒有類似以
    發(fā)表于 06-04 16:05

    鐳神智能深度參與兩項激光雷達國家標準制定 引領(lǐng)行業(yè)規(guī)范化發(fā)展新征程

    ,深圳市鐳神智能系統(tǒng)有限公司在董事長胡小波先生的帶領(lǐng)下,深度參與標準制定工作,為推動激光雷達技術(shù)規(guī)范化、產(chǎn)業(yè)發(fā)展貢獻了核心力量。國家標準《車載激光雷達性能要求及
    的頭像 發(fā)表于 05-09 18:57 ?426次閱讀
    鐳神智能<b class='flag-5'>深度</b>參與兩項激光雷達國家標準制定 引領(lǐng)行業(yè)<b class='flag-5'>規(guī)范化</b>發(fā)展新征程

    芯片封裝四種鍵合方式:技術(shù)演進與產(chǎn)業(yè)應(yīng)用

    自動鍵合和混合鍵合四種主流技術(shù),它們在工藝流程、技術(shù)特點和應(yīng)用場景上各具優(yōu)勢。本文將深入剖析這四種鍵合方式的技術(shù)原理、發(fā)展現(xiàn)狀及未來趨勢,為產(chǎn)業(yè)界提供技術(shù)參考。
    的頭像 發(fā)表于 04-11 14:02 ?1184次閱讀
    芯片封裝<b class='flag-5'>中</b>的<b class='flag-5'>四種</b>鍵合方式:技術(shù)演進與產(chǎn)業(yè)應(yīng)用

    私藏技術(shù)大公開!四種常見供電方案

    在現(xiàn)代生活,供電問題直接關(guān)系到我們的生活質(zhì)量與工作效率。以下是四種超實用的供電方案,無論是在家庭生活還是工作場景,都能為你提供穩(wěn)定可靠的電力支持。 常見的物聯(lián)網(wǎng)應(yīng)用場景下,供電方式有四種
    的頭像 發(fā)表于 12-31 14:28 ?2378次閱讀
    私藏技術(shù)大公開!<b class='flag-5'>四種</b>常見供電方案

    DAC61404 SPI應(yīng)該是四種模式的哪種?

    DAC61404 SPI應(yīng)該是四種模式的哪種?
    發(fā)表于 11-27 06:18

    NPU在深度學(xué)習(xí)的應(yīng)用

    設(shè)計的硬件加速器,它在深度學(xué)習(xí)的應(yīng)用日益廣泛。 1. NPU的基本概念 NPU是一專門針對深度學(xué)習(xí)
    的頭像 發(fā)表于 11-14 15:17 ?1924次閱讀

    Pytorch深度學(xué)習(xí)訓(xùn)練的方法

    掌握這 17 種方法,用最省力的方式,加速你的 Pytorch 深度學(xué)習(xí)訓(xùn)練。
    的頭像 發(fā)表于 10-28 14:05 ?661次閱讀
    Pytorch<b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b>訓(xùn)練的<b class='flag-5'>方法</b>

    AI大模型與深度學(xué)習(xí)的關(guān)系

    AI大模型與深度學(xué)習(xí)之間存在著密不可分的關(guān)系,它們互為促進,相輔相成。以下是對兩者關(guān)系的介紹: 一、深度學(xué)習(xí)是AI大模型的基礎(chǔ) 技術(shù)支撐 :深度
    的頭像 發(fā)表于 10-23 15:25 ?2901次閱讀

    labview字符串的四種表示各有什么特點

    。在LabVIEW,字符串是一基本的數(shù)據(jù)類型,用于表示文本信息。字符串在LabVIEW中有多種表示方式,每種方式都有其特定的應(yīng)用場景和特點。以下是對LabVIEW四種字符串表示方
    的頭像 發(fā)表于 09-04 15:40 ?1428次閱讀

    雙軸測徑儀的四種樣式!

    儀設(shè)計了四種外觀樣式。 45°角布置的開口測徑儀 這個樣式的雙軸測徑儀是目前大部分產(chǎn)線所使用的,樣式簡單大氣。用于外徑及橢圓度尺寸的檢測。 45°角布置的閉口測徑儀 該樣式的雙軸測徑儀將上面的開口閉合
    發(fā)表于 08-27 17:42

    濾波電路的四種類型是什么

    濾波電路是電子電路中非常重要的一部分,它主要用于對信號進行頻率選擇,即允許特定頻率范圍內(nèi)的信號通過,而阻止其他頻率的信號。濾波電路根據(jù)其特性可以分為四種基本類型:低通濾波器(Low-Pass
    的頭像 發(fā)表于 08-08 16:25 ?6071次閱讀

    pwm脈寬調(diào)制的四種方法有哪些

    于電機控制、LED調(diào)光、音頻處理等領(lǐng)域。以下是四種常見的PWM脈寬調(diào)制方法: 固定頻率PWM(Fixed-Frequency PWM) 固定頻率PWM是一最基本的PWM調(diào)制方法。在這
    的頭像 發(fā)表于 08-08 15:10 ?3040次閱讀

    負反饋的四種類型及判斷方法

    類型及其判斷方法。 一、負反饋的四種類型 比例負反饋 比例負反饋是指系統(tǒng)輸出與輸入之間的反饋關(guān)系是線性的,即輸出的變化與輸入的變化成正比。在比例負反饋,當(dāng)系統(tǒng)輸出增加時,輸入會相應(yīng)減少,反之亦然。這種反饋機制有
    的頭像 發(fā)表于 08-02 11:01 ?5007次閱讀

    受控源四種類型及表示方法

    受控源是電子電路的一特殊元件,它具有一個或多個控制量,其輸出電壓或電流與控制量之間存在一定的函數(shù)關(guān)系。受控源有四種基本類型:電壓控制電壓源(VCVS)、電流控制電壓源(CCVS)、電壓控制電流源
    的頭像 發(fā)表于 07-29 15:15 ?1.1w次閱讀

    簡述四種基本觸發(fā)器及其功能

    在數(shù)字電路設(shè)計,觸發(fā)器是一基本且重要的存儲元件,用于存儲二進制信息(即0和1)。根據(jù)功能和應(yīng)用場景的不同,觸發(fā)器可以分為多種類型,其中四種基本觸發(fā)器包括RS觸發(fā)器、JK觸發(fā)器、D觸發(fā)器和T觸發(fā)器。以下是對這
    的頭像 發(fā)表于 07-27 14:59 ?1.9w次閱讀