chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

詳解機器學習和深度學習常見的正則化

汽車玩家 ? 來源:CSDN ? 作者:修煉之路 ? 2020-01-29 17:52 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

前言

說到正則化大家應(yīng)該都不陌生,這個在機器學習深度學習中都是非常常見的,常用的正則化有L1正則化和L2正則化。提到正則化大家就會想到是它會將權(quán)重添加到損失函數(shù)計算中來降低模型過擬合的程度。了解更多一點的同學還會說,L1正則化會讓模型的權(quán)重參數(shù)稀疏化(部分權(quán)重的值為0),L2正則化會讓模型的權(quán)重有趨于0的偏好。

不知道大家有沒有想過為什么L1正則化會讓部分權(quán)重的值為0?為什么L2正則化會讓權(quán)重會有偏向于0?為什么正則化可以防止過擬合?正則化究竟是怎么來的? 帶著這些問題,我們來看這篇文章,會幫助大家一一解答。

正則化的由來

在介紹正則化之前,我們先來看一張圖

詳解機器學習和深度學習常見的正則化

在上圖中我們繪制了三條不同的曲線y1、y2、y3 ,從曲線函數(shù)值的變化不難看出,y1的函數(shù)值變化最大,y2和y3的函數(shù)值相對來說要平緩一些。通過函數(shù)的表達式可以看出,y2 相對于y1 來說自變量的系數(shù)值變小了,y3相對y1 來說自變量少了一個,我們可以理解為少的那個自變量的系數(shù)為0。

通常如果函數(shù)的取值變化的幅度更大,我們會認為函數(shù)更復雜,函數(shù)的方差更大。所以,上面的三個函數(shù)中,函數(shù)y1的復雜度最高。通過函數(shù)圖像可以發(fā)現(xiàn),降低自變量的系數(shù)值,或者減少函數(shù)自變量的個數(shù)等價于自變量的系數(shù)為0是可以降低函數(shù)復雜度的。

在構(gòu)建模型之前,我們是不知道數(shù)據(jù)的分布,如果模型過于簡單就會導致欠擬合,如果模型過于復雜就會過擬合。通常我們?yōu)榱四P湍軌蚋玫臄M合數(shù)據(jù)都是使得模型處于過擬合,為了降低模型的過擬合就需要使得模型部分權(quán)重為0或者降低模型的權(quán)重,所以我們會為損失函數(shù)添加一個懲罰項,數(shù)學表達式如下

詳解機器學習和深度學習常見的正則化

上式中的J(θ;X,y)表示原目標函數(shù)(沒有添加正則化),Ω(θ)表示模型參數(shù)的懲罰項,懲罰項系數(shù)α∈[0,∞) ,α 越大表示正則化懲罰越大。

需要注意:我們在對模型的參數(shù)做懲罰的時候,其實只是添加了模型的權(quán)重參數(shù)并不包括偏置參數(shù),因為模型的偏置參數(shù)數(shù)量相對于權(quán)重參數(shù)數(shù)量來說要少的多,而且每個權(quán)重參數(shù)會指定兩個變量如何相互作用,而偏置只是控制一個單一的變量,所以我們不對偏置做正則化也不會導致太大的方差。而且,如果對偏置進行正則化可能會導致明顯的欠擬合。

上式中的參數(shù)θ 包含了權(quán)重和偏置,而我們只需要對權(quán)重做正則化。所以,L1正則化和L2正則化可以改成如下表達式

詳解機器學習和深度學習常見的正則化

正則化的影響

在正則化的由來中,我們直觀的介紹了為什么需要加入正則化?接下來我們來介紹一下為什么l1 正則化會使得模型的部分參數(shù)為0,l2 正則化會使得模型的參數(shù)接近0。為了更好的證明,接下來的公式可能會有點多,不過我會盡可能的詳細讓大家更好的理解

1. 直觀理解

為了幫助大家從直觀上理解正則化的效果,接下來我們將通過畫圖來觀察l1正則化和l2正則化的效果

前面我們介紹了正則化其實就是在原代價函數(shù)的基礎(chǔ)上多增加了一項參數(shù)的懲罰項,目的就是為了不讓網(wǎng)絡(luò)的參數(shù)過大而導致模型過擬合,所以我們其實可以將正則化后的代價函數(shù)理解為在最小化原代價函數(shù)的基礎(chǔ)上多增加了一個參數(shù)的約束函數(shù),對于約束函數(shù)的要求就是它需要小于某個常數(shù)C

詳解機器學習和深度學習常見的正則化

l1 正則化

我們將l1 正則化效果等價于求原代價函數(shù)的最小值和對權(quán)重參數(shù)的約束函數(shù),這里為了便于作圖我們只考慮二維情況

詳解機器學習和深度學習常見的正則化

根據(jù)上兩個式子,我們可以繪制出線性規(guī)劃圖如下

詳解機器學習和深度學習常見的正則化

上圖中的藍色橢圓表示的是原代價函數(shù)的等高線,紅色矩形表示的是權(quán)重的約束函數(shù),圖中的紅色箭頭表示的是約束函數(shù)的法向量方向,其中藍色箭頭表示的是原代價函數(shù)在該點的梯度方向(等高線的梯度方向與它的法向量方向一致)

因為約束函數(shù)的限制導致ω 只能在紅色矩形的邊上進行移動來尋找最佳的ω?。當ω處于上圖中的位置時,將原代價函數(shù)的梯度分解為沿約束函數(shù)的切線方向(即矩形的邊)和法線方向,為了使得原代價函數(shù)取得最小值此時需要沿著梯度在約束函數(shù)的切線方向(左上方)移動。當ω移動到ω′ 時,通過分解原代價函數(shù)的梯度可以發(fā)現(xiàn),為了使得取得原代價函數(shù)的最小值應(yīng)該沿著右上方移動,所以最終最優(yōu)的ω? 應(yīng)該為矩形的頂點位置。

通過觀察可以發(fā)現(xiàn)此時ω? 在坐標軸ω1 方向的取值為0,這也就是為什么l1 正則化會使得權(quán)重參數(shù)稀疏的原因。

l2 正則化

同樣,我們按照分析l1正則化的思路進行分析

詳解機器學習和深度學習常見的正則化

詳解機器學習和深度學習常見的正則化

上圖中藍色橢圓表示是原代價函數(shù)的等高線,紅色圓表示的是權(quán)重的約束函數(shù)它的半徑是√ C ,其中藍色箭頭表示的是原代價函數(shù)在該點的梯度方向,紅色箭頭表示的是約束函數(shù)在該點的法向量方向,綠色箭頭表示的是約束函數(shù)在該點的切線方向。

還是按照上面的思想我們將梯度按切線方向和法線方向進行分解,為了使得原代價函數(shù)取得最小值,我們需要將ω 按切線方向進行移動,當移動到ω? 時,梯度方向與切線方向垂直時梯度沿切線方向的分量為0,此時原代價函數(shù)取得最小值,所以ω? 為最優(yōu)點。

通過觀察上圖可以發(fā)現(xiàn),此時ω1的取值接近于0,這也就是為什么l2正則化會使得權(quán)重趨于0的原因。

2. 公式推導證明

l2 正則化

l2 正則化也被稱為權(quán)重衰減或嶺回歸,在神經(jīng)網(wǎng)絡(luò)中也被經(jīng)常用到,因為它會使得權(quán)重向零點靠近(使得權(quán)重的取值趨于0)。為了更好的觀察l2正則化的影響,接下來我們觀察一下在添加罰項之后,權(quán)重參數(shù)是如何更新的

詳解機器學習和深度學習常見的正則化

使用單步梯度下降更新權(quán)重,更新公式如下:

詳解機器學習和深度學習常見的正則化

上式中的,? 指的是學習率,α 指的是權(quán)重衰減系數(shù),這兩個參數(shù)通常都是小于1的。

通過單步的權(quán)重的梯度更新公式可以發(fā)現(xiàn),權(quán)重每次在更新之前都需要乘以一個小于1的系數(shù),相當于每次更新權(quán)重的時候都對它做了衰減,在經(jīng)過多次權(quán)重更新之后會,權(quán)重的系數(shù)會接近于0,最終會導致權(quán)重也接近0,假設(shè)權(quán)重的系數(shù)為0.9,經(jīng)過100次權(quán)重的迭代更新,最終權(quán)重系數(shù)會變?yōu)?.9100≈2.7?10?5(注:這里沒有考慮梯度的大小,只是簡單表明這種趨勢)。

上面只是一個單步的權(quán)重更新過程,接下來我們推導一下在整個訓練過程中,權(quán)重的更新過程,為了簡化分析我們假設(shè)ω? 為J(ω)取得最小值時的權(quán)重向量,根據(jù)泰勒公式

詳解機器學習和深度學習常見的正則化

假設(shè)J(ω)二階可導,我們對其進行二次近似的泰勒展開則有

詳解機器學習和深度學習常見的正則化

為了讓?J (ω)取得最小值,我們令其導數(shù)為0,因為?J(ω?)為常數(shù),所以它的導數(shù)為0,我們就直接省略了

詳解機器學習和深度學習常見的正則化

接下來我們研究添加l2 正則化之后的對?J(ω)的影響,我們假設(shè)?ω為l2正則化之后?J(ω)的最優(yōu)解,可得它的導數(shù)為

詳解機器學習和深度學習常見的正則化

上式中的 I 表示的是單位矩陣,通過上式不難發(fā)現(xiàn),當正則化的懲罰項系數(shù)α 為0時,此時?ω 的最優(yōu)解就等于ω?,接下來我們討論一下當懲罰項系數(shù)不為0的時。因為H 是J 在ω? 的Hessian矩陣,所以H 是一個對稱矩陣,我們可以對其做特征分解,可得 H = QΛQT,其中Λ為對角矩陣,Q 為一組特征向量的標準正交基,代入上式可得

詳解機器學習和深度學習常見的正則化

通過上面的式子可以發(fā)現(xiàn),l2正則化的效果就是沿著H 矩陣特征向量所定義的軸縮放未正則化J(ω)的解ω?。因為 I 是單位矩陣,我們可以將縮放的系數(shù)改成這種形式?,其中λi指的是矩陣H的特征向量每個軸值的大小,也就是特征分解之后特征值的大小。

通過修改后的衰減系數(shù)不難發(fā)現(xiàn),當特征值 λi>>α 時,此時α的影響可以忽略不計,正則化的縮放系數(shù)會趨于1,正則化基本沒有影響。當特征值 λi<<α 時,可以將縮放系數(shù)改為,因為 α>>λi 所以 (α/λi)>>1,所以縮放系數(shù) (λ/iα)<<1,縮放系數(shù)趨于0使得權(quán)重也會趨于0。

l1正則化

上面我們推導了添加了l2 正則化之后對權(quán)重的影響,通過最后推導得到式子可以解釋為什么l2正則化會讓權(quán)重趨于0。接下來,我們以類似的方式來推導l1正則化對于權(quán)重的影響

詳解機器學習和深度學習常見的正則化

上式中的sign函數(shù)為符號函數(shù),函數(shù)圖像如下

當函數(shù)輸入值x<0 時輸出值恒等于 -1,輸入值為0時輸出值也等于0,輸入值 x>1 時輸出值恒等于1,sign函數(shù)經(jīng)常被用來表示階躍函數(shù)

我們將J(ω;X,y) 使用二階的泰勒展開式來代替,可以將l1正則化后的代價函數(shù)轉(zhuǎn)換為如下形式

詳解機器學習和深度學習常見的正則化

接下來我們看看如何求解ωi,上式中的J(ω?)是常數(shù)我們不用考慮,主要考慮求和式中的二次項式和絕對值式來使得整個代價函數(shù)取得最小值,為了求得后兩項和的最小值,我們對其求導并令求導后的結(jié)果等于0來求ωi

詳解機器學習和深度學習常見的正則化

我們可以將上式中ωi 分為兩種情況,第一種是ωi 和ω?同號即,第二種是ωi 和ω?異號即,我們先討論第一種情況,為了幫助大家理解我們可以看看下圖

詳解機器學習和深度學習常見的正則化

通過上圖可以發(fā)現(xiàn),當ωi 與ω?異號時,無論是哪種情況為了使得損失函數(shù)最小,其最優(yōu)值都是ωi=0此時能保證代價函數(shù)的二次項式和絕對值式都取得最小值。

當ωi和ω? 同號時,可以將上式進行化簡可得

詳解機器學習和深度學習常見的正則化

詳解機器學習和深度學習常見的正則化

所以,我們可以合并上式的結(jié)果得到最終的ωi的表達式為

詳解機器學習和深度學習常見的正則化

總結(jié)

我們通過畫圖和使用公式推導證明了l1正則化和l2正則化產(chǎn)生不同效果的原因,需要注意的是它們的共同點其實都是在衰減對于代價函數(shù)的值變化影響相對較小的權(quán)重,也就是特征值小的權(quán)重,而l1正則化的效果是會使得這部分權(quán)重為0,l2正則化會使得它們趨于0。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 正則化
    +關(guān)注

    關(guān)注

    0

    文章

    17

    瀏覽量

    8303
  • 機器學習
    +關(guān)注

    關(guān)注

    66

    文章

    8544

    瀏覽量

    136350
  • 深度學習
    +關(guān)注

    關(guān)注

    73

    文章

    5592

    瀏覽量

    124023
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    一文詳解機器學習深度學習的區(qū)別

    深度學習這幾年特別火,就像5年前的大數(shù)據(jù)一樣,不過深度學習其主要還是屬于機器學習的范疇領(lǐng)域內(nèi),所
    發(fā)表于 09-06 12:48 ?3473次閱讀
    一文<b class='flag-5'>詳解</b><b class='flag-5'>機器</b><b class='flag-5'>學習</b>和<b class='flag-5'>深度</b><b class='flag-5'>學習</b>的區(qū)別

    改善深層神經(jīng)網(wǎng)絡(luò)--超參數(shù)優(yōu)化、batch正則和程序框架 學習總結(jié)

    深度學習工程師-吳恩達》02改善深層神經(jīng)網(wǎng)絡(luò)--超參數(shù)優(yōu)化、batch正則和程序框架 學習總結(jié)
    發(fā)表于 06-16 14:52

    一種基于機器學習的建筑物分割掩模自動正則和多邊形方法

    摘要我們提出了一種基于機器學習的建筑物分割掩模自動正則和多邊形方法。以圖像為輸入,首先使用通用完全卷積網(wǎng)絡(luò)( FCN )預(yù)測建筑物分割圖
    發(fā)表于 09-01 07:19

    如何區(qū)分深度學習機器學習

    深度學習與傳統(tǒng)的機器學習最主要的區(qū)別在于隨著數(shù)據(jù)規(guī)模的增加其性能也不斷增長。當數(shù)據(jù)很少時,深度學習
    發(fā)表于 10-27 16:50 ?2139次閱讀
    如何區(qū)分<b class='flag-5'>深度</b><b class='flag-5'>學習</b>與<b class='flag-5'>機器</b><b class='flag-5'>學習</b>

    基于快速自編碼的正則極限學習

    正則極限學習機RELM是一種單隱層前饋神經(jīng)網(wǎng)絡(luò),不同于傳統(tǒng)神經(jīng)網(wǎng)絡(luò)算法,RELM通過隨機設(shè)置輸入層權(quán)重和偏置值,可以快速求得輸出層權(quán)重,并且引入正則
    發(fā)表于 11-30 16:58 ?0次下載
    基于快速自編碼的<b class='flag-5'>正則</b><b class='flag-5'>化</b>極限<b class='flag-5'>學習</b>機

    深度學習機器學習深度的不同之處 淺談深度學習的訓練和調(diào)參

    近年來,深度學習作為機器學習中比較火的一種方法出現(xiàn)在我們面前,但是和非深度學習
    發(fā)表于 05-02 10:30 ?4651次閱讀

    三種典型的神經(jīng)網(wǎng)絡(luò)以及深度學習中的正則方法應(yīng)用于無人駕駛

    在前幾十年,神經(jīng)網(wǎng)絡(luò)并沒有受到人們的重視,直到深度學習的出現(xiàn),人們利用深度學習解決了不少實際問題(即一些落地性質(zhì)的商業(yè)應(yīng)用),神經(jīng)網(wǎng)絡(luò)才成為學界和工業(yè)界關(guān)注的一個焦點。本文以盡可能直白
    的頭像 發(fā)表于 06-03 09:27 ?1w次閱讀

    【連載】深度學習筆記4:深度神經(jīng)網(wǎng)絡(luò)的正則

    今天要寫的是關(guān)于機器學習深度學習中的一項關(guān)鍵技術(shù):正則。相信在
    的頭像 發(fā)表于 08-14 11:58 ?3833次閱讀

    機器學習深度學習有什么區(qū)別?

    深度學習算法現(xiàn)在是圖像處理軟件庫的組成部分。在他們的幫助下,可以學習和訓練復雜的功能;但他們的應(yīng)用也不是萬能的。 “機器學習”和“
    的頭像 發(fā)表于 03-12 16:11 ?8946次閱讀
    <b class='flag-5'>機器</b><b class='flag-5'>學習</b>和<b class='flag-5'>深度</b><b class='flag-5'>學習</b>有什么區(qū)別?

    基于耦合字典學習與圖像正則的跨模態(tài)檢索

    基于耦合字典學習與圖像正則的跨模態(tài)檢索
    發(fā)表于 06-27 11:23 ?39次下載

    人工智能與機器學習、深度學習的區(qū)別

    人工智能包含了機器學習深度學習。你可以在圖中看到,機器學習是人工智能的子集,
    的頭像 發(fā)表于 03-29 11:04 ?2230次閱讀
    人工智能與<b class='flag-5'>機器</b><b class='flag-5'>學習</b>、<b class='flag-5'>深度</b><b class='flag-5'>學習</b>的區(qū)別

    深度學習框架是什么?深度學習框架有哪些?

    高模型的精度和性能。隨著人工智能和機器學習的迅猛發(fā)展,深度學習框架已成為了研究和開發(fā)人員們必備的工具之一。 目前,市場上存在許多深度
    的頭像 發(fā)表于 08-17 16:03 ?3849次閱讀

    機器學習深度學習的區(qū)別

    機器學習深度學習的區(qū)別 隨著人工智能技術(shù)的不斷發(fā)展,機器學習
    的頭像 發(fā)表于 08-17 16:11 ?5283次閱讀

    機器學習深度學習的區(qū)別

      機器學習深度學習是當今最流行的人工智能(AI)技術(shù)之一。這兩種技術(shù)都有助于在不需要人類干預(yù)的情況下讓計算機自主學習和改進預(yù)測模型。本文
    發(fā)表于 08-28 17:31 ?2214次閱讀

    深度學習模型中的過擬合與正則

    測試數(shù)據(jù)或新數(shù)據(jù)上表現(xiàn)不佳的現(xiàn)象。為了解決這個問題,正則(Regularization)技術(shù)應(yīng)運而生,成為深度學習中不可或缺的一部分。本文將從過擬合的原因、表現(xiàn)、
    的頭像 發(fā)表于 07-09 15:56 ?2411次閱讀