chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

詳解十種激活函數(shù)的優(yōu)缺點(diǎn)

深度學(xué)習(xí)自然語言處理 ? 來源:機(jī)器之心 ? 作者:機(jī)器之心 ? 2021-03-05 16:15 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

激活函數(shù)是神經(jīng)網(wǎng)絡(luò)模型重要的組成部分,本文作者Sukanya Bag從激活函數(shù)的數(shù)學(xué)原理出發(fā),詳解了十種激活函數(shù)的優(yōu)缺點(diǎn)。

b15119da-7c22-11eb-8b86-12bb97331649.png

激活函數(shù)(Activation Function)是一種添加到人工神經(jīng)網(wǎng)絡(luò)中的函數(shù),旨在幫助網(wǎng)絡(luò)學(xué)習(xí)數(shù)據(jù)中的復(fù)雜模式。類似于人類大腦中基于神經(jīng)元的模型,激活函數(shù)最終決定了要發(fā)射給下一個(gè)神經(jīng)元的內(nèi)容。 在人工神經(jīng)網(wǎng)絡(luò)中,一個(gè)節(jié)點(diǎn)的激活函數(shù)定義了該節(jié)點(diǎn)在給定的輸入或輸入集合下的輸出。標(biāo)準(zhǔn)的計(jì)算機(jī)芯片電路可以看作是根據(jù)輸入得到開(1)或關(guān)(0)輸出的數(shù)字電路激活函數(shù)。因此,激活函數(shù)是確定神經(jīng)網(wǎng)絡(luò)輸出的數(shù)學(xué)方程式,本文概述了深度學(xué)習(xí)中常見的十種激活函數(shù)及其優(yōu)缺點(diǎn)。 首先我們來了解一下人工神經(jīng)元的工作原理,大致如下:

b172c7ce-7c22-11eb-8b86-12bb97331649.png

上述過程的數(shù)學(xué)可視化過程如下圖所示:

b1b42b38-7c22-11eb-8b86-12bb97331649.png

1. Sigmoid 激活函數(shù)

b21b8076-7c22-11eb-8b86-12bb97331649.png

Sigmoid 函數(shù)的圖像看起來像一個(gè) S 形曲線。 函數(shù)表達(dá)式如下:

b23e4d0e-7c22-11eb-8b86-12bb97331649.png

在什么情況下適合使用 Sigmoid 激活函數(shù)呢?

Sigmoid 函數(shù)的輸出范圍是 0 到 1。由于輸出值限定在 0 到 1,因此它對(duì)每個(gè)神經(jīng)元的輸出進(jìn)行了歸一化;

用于將預(yù)測(cè)概率作為輸出的模型。由于概率的取值范圍是 0 到 1,因此 Sigmoid 函數(shù)非常合適;

梯度平滑,避免「跳躍」的輸出值;

函數(shù)是可微的。這意味著可以找到任意兩個(gè)點(diǎn)的 sigmoid 曲線的斜率;

明確的預(yù)測(cè),即非常接近 1 或 0。

Sigmoid 激活函數(shù)有哪些缺點(diǎn)?

傾向于梯度消失;

函數(shù)輸出不是以 0 為中心的,這會(huì)降低權(quán)重更新的效率;

Sigmoid 函數(shù)執(zhí)行指數(shù)運(yùn)算,計(jì)算機(jī)運(yùn)行得較慢。

2. Tanh / 雙曲正切激活函數(shù)

b2893b8e-7c22-11eb-8b86-12bb97331649.png

tanh 激活函數(shù)的圖像也是 S 形,表達(dá)式如下:

b2c9a2be-7c22-11eb-8b86-12bb97331649.png

tanh 是一個(gè)雙曲正切函數(shù)。tanh 函數(shù)和 sigmoid 函數(shù)的曲線相對(duì)相似。但是它比 sigmoid 函數(shù)更有一些優(yōu)勢(shì)。

b3075dde-7c22-11eb-8b86-12bb97331649.png

首先,當(dāng)輸入較大或較小時(shí),輸出幾乎是平滑的并且梯度較小,這不利于權(quán)重更新。二者的區(qū)別在于輸出間隔,tanh 的輸出間隔為 1,并且整個(gè)函數(shù)以 0 為中心,比 sigmoid 函數(shù)更好;

在 tanh 圖中,負(fù)輸入將被強(qiáng)映射為負(fù),而零輸入被映射為接近零。

注意:在一般的二元分類問題中,tanh 函數(shù)用于隱藏層,而 sigmoid 函數(shù)用于輸出層,但這并不是固定的,需要根據(jù)特定問題進(jìn)行調(diào)整。 3. ReLU 激活函數(shù)

b33e4402-7c22-11eb-8b86-12bb97331649.png

ReLU 激活函數(shù)圖像如上圖所示,函數(shù)表達(dá)式如下:

b3655d1c-7c22-11eb-8b86-12bb97331649.png

ReLU 函數(shù)是深度學(xué)習(xí)中較為流行的一種激活函數(shù),相比于 sigmoid 函數(shù)和 tanh 函數(shù),它具有如下優(yōu)點(diǎn):

當(dāng)輸入為正時(shí),不存在梯度飽和問題。

計(jì)算速度快得多。ReLU 函數(shù)中只存在線性關(guān)系,因此它的計(jì)算速度比 sigmoid 和 tanh 更快。

當(dāng)然,它也有缺點(diǎn):

Dead ReLU 問題。當(dāng)輸入為負(fù)時(shí),ReLU 完全失效,在正向傳播過程中,這不是問題。有些區(qū)域很敏感,有些則不敏感。但是在反向傳播過程中,如果輸入負(fù)數(shù),則梯度將完全為零,sigmoid 函數(shù)和 tanh 函數(shù)也具有相同的問題;

我們發(fā)現(xiàn) ReLU 函數(shù)的輸出為 0 或正數(shù),這意味著 ReLU 函數(shù)不是以 0 為中心的函數(shù)。

4. Leaky ReLU 它是一種專門設(shè)計(jì)用于解決 Dead ReLU 問題的激活函數(shù):

b38eadde-7c22-11eb-8b86-12bb97331649.png

ReLU vs Leaky ReLU 為什么 Leaky ReLU 比 ReLU 更好?

b3bcabe4-7c22-11eb-8b86-12bb97331649.png

Leaky ReLU 通過把 x 的非常小的線性分量給予負(fù)輸入(0.01x)來調(diào)整負(fù)值的零梯度(zero gradients)問題;

leak 有助于擴(kuò)大 ReLU 函數(shù)的范圍,通常 a 的值為 0.01 左右;

Leaky ReLU 的函數(shù)范圍是(負(fù)無窮到正無窮)。

注意:從理論上講,Leaky ReLU 具有 ReLU 的所有優(yōu)點(diǎn),而且 Dead ReLU 不會(huì)有任何問題,但在實(shí)際操作中,尚未完全證明 Leaky ReLU 總是比 ReLU 更好。 5. ELU

b3f5188a-7c22-11eb-8b86-12bb97331649.png

ELU vs Leaky ReLU vs ReLU ELU 的提出也解決了 ReLU 的問題。與 ReLU 相比,ELU 有負(fù)值,這會(huì)使激活的平均值接近零。均值激活接近于零可以使學(xué)習(xí)更快,因?yàn)樗鼈兪固荻雀咏匀惶荻取?

b435ac06-7c22-11eb-8b86-12bb97331649.png

顯然,ELU 具有 ReLU 的所有優(yōu)點(diǎn),并且:

沒有 Dead ReLU 問題,輸出的平均值接近 0,以 0 為中心;

ELU 通過減少偏置偏移的影響,使正常梯度更接近于單位自然梯度,從而使均值向零加速學(xué)習(xí);

ELU 在較小的輸入下會(huì)飽和至負(fù)值,從而減少前向傳播的變異和信息。

一個(gè)小問題是它的計(jì)算強(qiáng)度更高。與 Leaky ReLU 類似,盡管理論上比 ReLU 要好,但目前在實(shí)踐中沒有充分的證據(jù)表明 ELU 總是比 ReLU 好。 6. PReLU(Parametric ReLU)

b45f86d4-7c22-11eb-8b86-12bb97331649.png

PReLU 也是 ReLU 的改進(jìn)版本:

b4bbf5e0-7c22-11eb-8b86-12bb97331649.png

看一下 PReLU 的公式:參數(shù)α通常為 0 到 1 之間的數(shù)字,并且通常相對(duì)較小。

如果 a_i= 0,則 f 變?yōu)?ReLU

如果 a_i> 0,則 f 變?yōu)?leaky ReLU

如果 a_i 是可學(xué)習(xí)的參數(shù),則 f 變?yōu)?PReLU

PReLU 的優(yōu)點(diǎn)如下:

在負(fù)值域,PReLU 的斜率較小,這也可以避免 Dead ReLU 問題。

與 ELU 相比,PReLU 在負(fù)值域是線性運(yùn)算。盡管斜率很小,但不會(huì)趨于 0。

7. Softmax

b4d0365e-7c22-11eb-8b86-12bb97331649.png

Softmax 是用于多類分類問題的激活函數(shù),在多類分類問題中,超過兩個(gè)類標(biāo)簽則需要類成員關(guān)系。對(duì)于長(zhǎng)度為 K 的任意實(shí)向量,Softmax 可以將其壓縮為長(zhǎng)度為 K,值在(0,1)范圍內(nèi),并且向量中元素的總和為 1 的實(shí)向量。

b4f3cfec-7c22-11eb-8b86-12bb97331649.png

Softmax 與正常的 max 函數(shù)不同:max 函數(shù)僅輸出最大值,但 Softmax 確保較小的值具有較小的概率,并且不會(huì)直接丟棄。我們可以認(rèn)為它是 argmax 函數(shù)的概率版本或「soft」版本。 Softmax 函數(shù)的分母結(jié)合了原始輸出值的所有因子,這意味著 Softmax 函數(shù)獲得的各種概率彼此相關(guān)。 Softmax 激活函數(shù)的主要缺點(diǎn)是:

在零點(diǎn)不可微;

負(fù)輸入的梯度為零,這意味著對(duì)于該區(qū)域的激活,權(quán)重不會(huì)在反向傳播期間更新,因此會(huì)產(chǎn)生永不激活的死亡神經(jīng)元。

8. Swish

b50f8ef8-7c22-11eb-8b86-12bb97331649.png

函數(shù)表達(dá)式:y = x * sigmoid (x) Swish 的設(shè)計(jì)受到了 LSTM 和高速網(wǎng)絡(luò)中 gating 的 sigmoid 函數(shù)使用的啟發(fā)。我們使用相同的 gating 值來簡(jiǎn)化 gating 機(jī)制,這稱為 self-gating。 self-gating 的優(yōu)點(diǎn)在于它只需要簡(jiǎn)單的標(biāo)量輸入,而普通的 gating 則需要多個(gè)標(biāo)量輸入。這使得諸如 Swish 之類的 self-gated 激活函數(shù)能夠輕松替換以單個(gè)標(biāo)量為輸入的激活函數(shù)(例如 ReLU),而無需更改隱藏容量或參數(shù)數(shù)量。 Swish 激活函數(shù)的主要優(yōu)點(diǎn)如下:

「無界性」有助于防止慢速訓(xùn)練期間,梯度逐漸接近 0 并導(dǎo)致飽和;(同時(shí),有界性也是有優(yōu)勢(shì)的,因?yàn)橛薪缂せ詈瘮?shù)可以具有很強(qiáng)的正則化,并且較大的負(fù)輸入問題也能解決);

導(dǎo)數(shù)恒 > 0;

平滑度在優(yōu)化和泛化中起了重要作用。

9. Maxout

在 Maxout 層,激活函數(shù)是輸入的最大值,因此只有 2 個(gè) maxout 節(jié)點(diǎn)的多層感知機(jī)就可以擬合任意的凸函數(shù)。 單個(gè) Maxout 節(jié)點(diǎn)可以解釋為對(duì)一個(gè)實(shí)值函數(shù)進(jìn)行分段線性近似 (PWL) ,其中函數(shù)圖上任意兩點(diǎn)之間的線段位于圖(凸函數(shù))的上方。

b59cad06-7c22-11eb-8b86-12bb97331649.png

Maxout 也可以對(duì) d 維向量(V)實(shí)現(xiàn):

假設(shè)兩個(gè)凸函數(shù) h_1(x) 和 h_2(x),由兩個(gè) Maxout 節(jié)點(diǎn)近似化,函數(shù) g(x) 是連續(xù)的 PWL 函數(shù)。

b5cba674-7c22-11eb-8b86-12bb97331649.png

因此,由兩個(gè) Maxout 節(jié)點(diǎn)組成的 Maxout 層可以很好地近似任何連續(xù)函數(shù)。

10. Softplus

b614c44e-7c22-11eb-8b86-12bb97331649.png

Softplus 函數(shù):f(x)= ln(1 + exp x) Softplus 的導(dǎo)數(shù)為 f ′(x)=exp(x) / ( 1+exp? x ) = 1/ (1 +exp(?x )) ,也稱為 logistic / sigmoid 函數(shù)。 Softplus 函數(shù)類似于 ReLU 函數(shù),但是相對(duì)較平滑,像 ReLU 一樣是單側(cè)抑制。它的接受范圍很廣:(0, + inf)。

責(zé)任編輯:lq

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 神經(jīng)網(wǎng)絡(luò)

    關(guān)注

    42

    文章

    4819

    瀏覽量

    106068
  • 函數(shù)
    +關(guān)注

    關(guān)注

    3

    文章

    4400

    瀏覽量

    66368
  • 神經(jīng)元
    +關(guān)注

    關(guān)注

    1

    文章

    368

    瀏覽量

    19034

原文標(biāo)題:【基礎(chǔ)】深度學(xué)習(xí)最常用的10個(gè)激活函數(shù)?。〝?shù)學(xué)原理+優(yōu)缺點(diǎn))

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    PCBA 表面處理:優(yōu)缺點(diǎn)大揭秘,應(yīng)用場(chǎng)景全解析

    一站式PCBA加工廠家今天為大家講講PCBA加工如何選擇合適的表面處理工藝?PCBA表面處理優(yōu)缺點(diǎn)與應(yīng)用場(chǎng)景。在電子制造中,PCBA板的表面處理工藝對(duì)電路板的性能、可靠性和成本都有重要影響。選擇合適
    的頭像 發(fā)表于 05-05 09:39 ?970次閱讀
    PCBA 表面處理:<b class='flag-5'>優(yōu)缺點(diǎn)</b>大揭秘,應(yīng)用場(chǎng)景全解析

    十種主流電機(jī)拆解全解析:內(nèi)部結(jié)構(gòu)大揭秘!

    點(diǎn)擊附件查看全文*附件:十種主流電機(jī)拆解全解析:內(nèi)部結(jié)構(gòu)大揭秘!.doc (免責(zé)聲明:本文系網(wǎng)絡(luò)轉(zhuǎn)載,版權(quán)歸原作者所有。本文所用視頻、圖片、文字如涉及作品版權(quán)問題,請(qǐng)第一時(shí)間告知,刪除內(nèi)容?。?
    發(fā)表于 04-01 14:25

    CMOS,Bipolar,F(xiàn)ET這三工藝的優(yōu)缺點(diǎn)是什么?

    在我用photodiode工具選型I/V放大電路的時(shí)候,系統(tǒng)給我推薦了AD8655用于I/V,此芯片為CMOS工藝 但是查閱資料很多都是用FET工藝的芯片,所以請(qǐng)教下用于光電信號(hào)放大轉(zhuǎn)換(主要考慮信噪比和帶寬)一般我們用哪種工藝的芯片, CMOS,Bipolar,F(xiàn)ET這三工藝的
    發(fā)表于 03-25 06:23

    壓接連接器使用裸銅線的優(yōu)缺點(diǎn)分析?

    壓接連接器使用裸銅線是一高效、可靠的電氣連接方式,廣泛應(yīng)用于電力、通信和工業(yè)領(lǐng)域。需要我們正確看待它的優(yōu)缺點(diǎn),高效使用。
    的頭像 發(fā)表于 03-18 11:01 ?726次閱讀

    惠斯通電橋的優(yōu)缺點(diǎn)分析

    惠斯通電橋作為一經(jīng)典的電阻測(cè)量工具,具有其獨(dú)特的優(yōu)缺點(diǎn)。以下是對(duì)惠斯通電橋優(yōu)缺點(diǎn)的詳細(xì)分析: 優(yōu)點(diǎn) 高精度 : 惠斯通電橋通過比較電壓差來精確測(cè)量電阻值,對(duì)于微小的電阻變化也能迅速作出反應(yīng),因此
    的頭像 發(fā)表于 02-13 15:26 ?1644次閱讀

    BP神經(jīng)網(wǎng)絡(luò)的優(yōu)缺點(diǎn)分析

    BP神經(jīng)網(wǎng)絡(luò)(Back Propagation Neural Network)作為一常用的機(jī)器學(xué)習(xí)模型,具有顯著的優(yōu)點(diǎn),同時(shí)也存在一些不容忽視的缺點(diǎn)。以下是對(duì)BP神經(jīng)網(wǎng)絡(luò)優(yōu)缺點(diǎn)的分析: 優(yōu)點(diǎn)
    的頭像 發(fā)表于 02-12 15:36 ?1271次閱讀

    硅谷物理服務(wù)器的優(yōu)缺點(diǎn)分析

    硅谷物理服務(wù)器因其高性能、高質(zhì)量和先進(jìn)的技術(shù)支持而在全球范圍內(nèi)享有很高的聲譽(yù)。硅谷物理服務(wù)器的優(yōu)缺點(diǎn)分析如下,主機(jī)推薦小編為您整理發(fā)布硅谷物理服務(wù)器的優(yōu)缺點(diǎn)分析。
    的頭像 發(fā)表于 02-12 09:30 ?479次閱讀

    香港主機(jī)托管和國(guó)內(nèi)主機(jī)的優(yōu)缺點(diǎn)比較

    香港主機(jī)托管和國(guó)內(nèi)主機(jī)(以大陸主機(jī)為例)的優(yōu)缺點(diǎn)比較,主機(jī)推薦小編為您整理發(fā)布香港主機(jī)托管和國(guó)內(nèi)主機(jī)的優(yōu)缺點(diǎn)比較,希望對(duì)您有幫助。
    的頭像 發(fā)表于 02-05 17:42 ?598次閱讀

    東京站群服務(wù)器有哪些優(yōu)缺點(diǎn)

    東京站群服務(wù)器,作為部署在東京地區(qū)的服務(wù)器集群,專為站群優(yōu)化而建,其優(yōu)缺點(diǎn)如下,主機(jī)推薦小編為您整理發(fā)布東京站群服務(wù)器有哪些優(yōu)缺點(diǎn)。
    的頭像 發(fā)表于 02-05 17:39 ?514次閱讀

    光譜傳感器的優(yōu)缺點(diǎn)

    光譜傳感器是一能夠檢測(cè)并響應(yīng)光譜范圍內(nèi)不同波長(zhǎng)光線的傳感器。以下是對(duì)其優(yōu)缺點(diǎn)的詳細(xì)分析:
    的頭像 發(fā)表于 01-27 15:28 ?1052次閱讀

    不同類型adc的優(yōu)缺點(diǎn)分析

    ADC(模數(shù)轉(zhuǎn)換器)是將模擬信號(hào)轉(zhuǎn)換為數(shù)字信號(hào)的電路,根據(jù)轉(zhuǎn)換原理和應(yīng)用需求的不同,ADC可以分為多種類型,每種類型都有其獨(dú)特的優(yōu)缺點(diǎn),以下是對(duì)不同類型ADC的優(yōu)缺點(diǎn)分析: 逐次逼近型ADC(SAR
    的頭像 發(fā)表于 11-19 16:58 ?3449次閱讀

    開環(huán)和閉環(huán)功放的區(qū)別,優(yōu)缺點(diǎn),應(yīng)用場(chǎng)合有什么不同?

    問下TI的工程師,開環(huán)和閉環(huán)功放的區(qū)別,優(yōu)缺點(diǎn),應(yīng)用場(chǎng)合有什么不同?請(qǐng)解釋下,謝謝!
    發(fā)表于 11-04 06:33

    不同類型UPS電源的優(yōu)缺點(diǎn)

    不間斷電源(UPS)是為關(guān)鍵設(shè)備提供穩(wěn)定、不間斷電力供應(yīng)的重要設(shè)備。根據(jù)設(shè)計(jì)和功能的不同,UPS可以分為幾種類型,每種類型都有其獨(dú)特的優(yōu)缺點(diǎn)。以下是一些常見的UPS類型及其優(yōu)缺點(diǎn)的概述: 在線式
    的頭像 發(fā)表于 10-28 10:45 ?2309次閱讀

    FPGA與ASIC的優(yōu)缺點(diǎn)比較

    FPGA(現(xiàn)場(chǎng)可編程門陣列)與ASIC(專用集成電路)是兩不同的硬件實(shí)現(xiàn)方式,各自具有獨(dú)特的優(yōu)缺點(diǎn)。以下是對(duì)兩者優(yōu)缺點(diǎn)的比較: FPGA的優(yōu)點(diǎn) 可編程性強(qiáng) :FPGA具有高度的可編程性,可以靈活
    的頭像 發(fā)表于 10-25 09:24 ?2094次閱讀

    請(qǐng)問Pre-Filter PBTL和Post-Filter PBTL相比有什么優(yōu)缺點(diǎn)?

    Pre-Filter PBTL和Post-Filter PBTL 相比有什么優(yōu)缺點(diǎn)
    發(fā)表于 10-18 06:54