chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

關(guān)于Pre-trained模型加速模型學(xué)習(xí)的建議

深度學(xué)習(xí)自然語言處理 ? 來源:深度學(xué)習(xí)自然語言處理 ? 作者:深度學(xué)習(xí)自然語言 ? 2020-11-03 18:08 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

首先,為什么要調(diào)整模型?

像卷積神經(jīng)網(wǎng)絡(luò)( CNN )這樣的深度學(xué)習(xí)模型具有大量的參數(shù);一般稱之為超參數(shù),因?yàn)樗鼈儾皇枪潭ㄖ?,需要迭代?yōu)化。通??梢酝ㄟ^網(wǎng)格搜索的方法來查找這些超參數(shù)的最佳值,但需要大量硬件和時(shí)間開銷。那么,一個(gè)真正的數(shù)據(jù)科學(xué)家是否滿足于只是猜測(cè)這些超參數(shù)呢?答案當(dāng)然是否定的。

改進(jìn)模型的最佳方法之一是,基于專業(yè)團(tuán)隊(duì)的設(shè)計(jì)和體系結(jié)構(gòu)上來進(jìn)行改進(jìn),但這些專業(yè)的知識(shí)往往需要對(duì)某一領(lǐng)域具有深入的了解,且通常需要有強(qiáng)大的硬件支持。一般這些專業(yè)的團(tuán)隊(duì)都喜歡把他們的訓(xùn)練好的模型(pre-trained model)開源出來,無償提供給別人使用。基于這些pre-trained model來做研究和應(yīng)用,可以省去大量的時(shí)間和資源。

深度學(xué)習(xí)技巧

這里分享幾種方法,如何基于預(yù)訓(xùn)練好的模型來降低深度學(xué)習(xí)模型訓(xùn)練時(shí)間,提升模型的準(zhǔn)確性:

1、選擇最適用于做pre-trained模型的網(wǎng)絡(luò)結(jié)構(gòu):了解遷移學(xué)習(xí)(transfer learning)的優(yōu)點(diǎn),或者一些強(qiáng)大的CNN網(wǎng)絡(luò)結(jié)構(gòu)。主要考慮,有些領(lǐng)域之間看起來不明顯,但領(lǐng)域之間卻共享一些具有潛在特性(share potential latent features)。

2、使用較小的學(xué)習(xí)率:由于預(yù)先訓(xùn)練的權(quán)重(weights)通常比隨機(jī)初始化的權(quán)重更好,因此調(diào)整需要更精細(xì)!如何選擇主要取決于training landscape和學(xué)習(xí)的進(jìn)展情況,但需要仔細(xì)檢查每個(gè)epoch的training errors,分析如何能讓模型達(dá)到收斂。

3、使用Dropout:就像Ridge和LASSO正則化技術(shù)對(duì)于回歸模型一樣,對(duì)于所有模型都存在需要優(yōu)化的參數(shù)alpha或Dropout。這是一個(gè)超參數(shù),取決于需要解決的具體問題,只能通過不停實(shí)驗(yàn)的方法得到。先對(duì)超參數(shù)做比較大的調(diào)整(gridsearch時(shí)選擇一個(gè)比較大的變化范圍),比如NP. logspace(),然后像上面的一樣減小學(xué)習(xí)速率。循環(huán)上述過程直到找到最優(yōu)值。

4、限制權(quán)重大?。嚎梢韵拗颇承拥臋?quán)重的最大范數(shù)(絕對(duì)值),可以提升模型泛化的能力。

5、不要改變第一層網(wǎng)絡(luò)的權(quán)值:神經(jīng)網(wǎng)絡(luò)的第一個(gè)隱含層傾向于捕捉通用和可解釋(universal and interpretable)的特征,如形狀、曲線或交叉(shapes、curves and interactions),這些特征通常與跨域(domains)相關(guān)。應(yīng)該經(jīng)常把這些特征放到一邊,把重點(diǎn)放在進(jìn)一步優(yōu)化meta latent level在水平上。這可能意味需要添加隱藏層!

6、修改輸出層:把模型參數(shù)替換成適用于要解決新領(lǐng)域的新的激活函數(shù)和輸出大小。但是,不要把自己局限于最明顯的解決方案中。比如,盡管MNIST只需要10個(gè)輸出類,但這些數(shù)字有共同的變化,允許有12 - 16個(gè)類可能會(huì)更好地解決這些問題,并提高模型性能!

Keras中的技巧

如何在Keras MNIST中修改Dropout和限制權(quán)重的大?。?/p>

Dropout最佳實(shí)踐

1、使用20–50 %的,比較小的Dropout,建議20 %的輸入(Inputs)。值取得太小,不起作用;值取得太大,不好收斂。

2、在輸入層和隱藏層上使用Dropout。這一方法已被證明可以提高深入學(xué)習(xí)的效果。

3、使用較大的(帶衰減率)學(xué)習(xí)速率(learning rate with decay),以及較大的動(dòng)量(momentum)。

4、限制模型的權(quán)重!大的學(xué)習(xí)速率容易導(dǎo)致梯度爆炸。通過對(duì)網(wǎng)絡(luò)權(quán)值施加約束(如最大范數(shù)正則化(max-norm regularization),其大小為5 )可以改善結(jié)果。

5、使用更大的網(wǎng)絡(luò)。在較大的網(wǎng)絡(luò)上使用Dropout,可能會(huì)獲得更好的性能,從而使模型有更多的機(jī)會(huì)學(xué)習(xí)獨(dú)立表示(Independent representations)。

給一個(gè)例子,如何在Keras中修改MNIST模型最后一層,輸出14個(gè)類別:

如何在網(wǎng)絡(luò)的最初五層中固定網(wǎng)絡(luò)的權(quán)值(Freeze weights):

此外,可以將該層的學(xué)習(xí)速率設(shè)置為零,或者使用參數(shù)的自適應(yīng)學(xué)習(xí)算法,如Adadelta或Adam。這有點(diǎn)復(fù)雜,在Caffe等其他平臺(tái)上可以更好地實(shí)現(xiàn)。

預(yù)訓(xùn)練模型庫(kù)

Keras
Kaggle List https://www.kaggle.com/gaborfodor/keras-pretrained-models
Keras Application:https://keras.io/applications/
OpenCV Example:https://www.learnopencv.com/keras-tutorial-fine-tuning-using-pre-trained-models/


TensorFlow
VGG16:https://github.com/ry/tensorflow-vgg16
Inception V3:https://github.com/tensorflow/models/blob/master/inception

ResNet:https://github.com/ry/tensorflow-resnet


Torch
LoadCaie:https://github.com/szagoruyko/loadcaffe


Caffe
Model Zoo:https://github.com/BVLC/caffe/wiki/Model-Zoo

TensorBoard的Graph的可視化

了解模型的整體結(jié)構(gòu)通常很重要。下面給出一個(gè)例子,如何直接使用Python可視化訓(xùn)練的模型:

http://nbviewer.jupyter.org/github/tensorflow/tensorflow/blob/master/tensorflow/examples/tutorials/deepdream/deepdream.ipynb

責(zé)任編輯:xj

原文標(biāo)題:基于Pre-trained模型加速模型學(xué)習(xí)的6點(diǎn)建議

文章出處:【微信公眾號(hào):深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3521

    瀏覽量

    50435
  • 深度學(xué)習(xí)
    +關(guān)注

    關(guān)注

    73

    文章

    5561

    瀏覽量

    122800
  • cnn
    cnn
    +關(guān)注

    關(guān)注

    3

    文章

    354

    瀏覽量

    22744

原文標(biāo)題:基于Pre-trained模型加速模型學(xué)習(xí)的6點(diǎn)建議

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    模型推理顯存和計(jì)算量估計(jì)方法研究

    ,如乘法、加法等; (2)根據(jù)各層計(jì)算操作的類型和復(fù)雜度,確定每層所需的計(jì)算量; (3)將各層計(jì)算量相加,得到模型總的計(jì)算量。 基于硬件加速的算力估計(jì) 隨著硬件加速技術(shù)的發(fā)展,許多深度學(xué)習(xí)
    發(fā)表于 07-03 19:43

    模型時(shí)代的深度學(xué)習(xí)框架

    量是約為 25.63M,在ImageNet1K數(shù)據(jù)集上,使用單張消費(fèi)類顯卡 RTX-4090只需大約35~40個(gè)小時(shí) ,即可完成ResNet50模型的預(yù)訓(xùn)練。在 大模型時(shí)代 ,由于大模型參數(shù)規(guī)模龐大,無法跟CNN時(shí)代的小
    的頭像 發(fā)表于 04-25 11:43 ?268次閱讀
    大<b class='flag-5'>模型</b>時(shí)代的深度<b class='flag-5'>學(xué)習(xí)</b>框架

    AI眼鏡大模型激戰(zhàn):多大模型協(xié)同、交互時(shí)延低至1.3S

    電子發(fā)燒友網(wǎng)報(bào)道(文/莫婷婷)“百鏡大戰(zhàn)”開始時(shí),也是AI大模型在智能眼鏡端加速落地的開始,一場(chǎng)關(guān)于智能眼鏡的“百模大戰(zhàn)”也同步進(jìn)行。幾乎今年剛推出的AI智能眼鏡都搭載了AI大模型。隨
    的頭像 發(fā)表于 03-20 08:59 ?1294次閱讀
    AI眼鏡大<b class='flag-5'>模型</b>激戰(zhàn):多大<b class='flag-5'>模型</b>協(xié)同、交互時(shí)延低至1.3S

    機(jī)器學(xué)習(xí)模型市場(chǎng)前景如何

    當(dāng)今,隨著算法的不斷優(yōu)化、數(shù)據(jù)量的爆炸式增長(zhǎng)以及計(jì)算能力的飛速提升,機(jī)器學(xué)習(xí)模型的市場(chǎng)前景愈發(fā)廣闊。下面,AI部落小編將探討機(jī)器學(xué)習(xí)模型市場(chǎng)的未來發(fā)展。
    的頭像 發(fā)表于 02-13 09:39 ?365次閱讀

    【「基于大模型的RAG應(yīng)用開發(fā)與優(yōu)化」閱讀體驗(yàn)】+大模型微調(diào)技術(shù)解讀

    同時(shí)優(yōu)化多個(gè)相關(guān)任務(wù)的損失函數(shù)來提升模型的泛化能力。學(xué)習(xí)率調(diào)整策略:合理的學(xué)習(xí)率調(diào)整可以加速模型收斂,提高最終的性能。常用的
    發(fā)表于 01-14 16:51

    AI模型部署邊緣設(shè)備的奇妙之旅:目標(biāo)檢測(cè)模型

    可能在訓(xùn)練數(shù)據(jù)上表現(xiàn)良好,但在遇到未曾見過的數(shù)據(jù)(例如不同環(huán)境、光照條件、角度等)時(shí)性能可能會(huì)下降。 對(duì)異常值敏感:如果訓(xùn)練集中包含異常值或者噪聲數(shù)據(jù),這可能導(dǎo)致模型學(xué)習(xí)到不正確的模式,從而影響其
    發(fā)表于 12-19 14:33

    【「大模型啟示錄」閱讀體驗(yàn)】如何在客服領(lǐng)域應(yīng)用大模型

    在客服領(lǐng)域是大模型落地場(chǎng)景中最多的,也是最容易實(shí)現(xiàn)的。本身客服領(lǐng)域的特點(diǎn)就是問答形式,大模型接入難度低。今天跟隨《大模型啟示錄 》這本書,學(xué)習(xí)模型
    發(fā)表于 12-17 16:53

    深度學(xué)習(xí)模型的魯棒性優(yōu)化

    深度學(xué)習(xí)模型的魯棒性優(yōu)化是一個(gè)復(fù)雜但至關(guān)重要的任務(wù),它涉及多個(gè)方面的技術(shù)和策略。以下是一些關(guān)鍵的優(yōu)化方法: 一、數(shù)據(jù)預(yù)處理與增強(qiáng) 數(shù)據(jù)清洗 :去除數(shù)據(jù)中的噪聲和異常值,這是提高模型魯棒性的基礎(chǔ)步驟
    的頭像 發(fā)表于 11-11 10:25 ?1205次閱讀

    PyTorch GPU 加速訓(xùn)練模型方法

    在深度學(xué)習(xí)領(lǐng)域,GPU加速訓(xùn)練模型已經(jīng)成為提高訓(xùn)練效率和縮短訓(xùn)練時(shí)間的重要手段。PyTorch作為一個(gè)流行的深度學(xué)習(xí)框架,提供了豐富的工具和方法來利用GPU進(jìn)行
    的頭像 發(fā)表于 11-05 17:43 ?1413次閱讀

    擴(kuò)散模型的理論基礎(chǔ)

    擴(kuò)散模型的迅速崛起是過去幾年機(jī)器學(xué)習(xí)領(lǐng)域最大的發(fā)展之一。在這本簡(jiǎn)單易懂的指南中,學(xué)習(xí)你需要知道的關(guān)于擴(kuò)散模型的一切。
    的頭像 發(fā)表于 10-28 09:30 ?1389次閱讀
    擴(kuò)散<b class='flag-5'>模型</b>的理論基礎(chǔ)

    FPGA加速深度學(xué)習(xí)模型的案例

    FPGA(現(xiàn)場(chǎng)可編程門陣列)加速深度學(xué)習(xí)模型是當(dāng)前硬件加速領(lǐng)域的一個(gè)熱門研究方向。以下是一些FPGA加速深度
    的頭像 發(fā)表于 10-25 09:22 ?1238次閱讀

    AI大模型與深度學(xué)習(xí)的關(guān)系

    AI大模型與深度學(xué)習(xí)之間存在著密不可分的關(guān)系,它們互為促進(jìn),相輔相成。以下是對(duì)兩者關(guān)系的介紹: 一、深度學(xué)習(xí)是AI大模型的基礎(chǔ) 技術(shù)支撐 :深度學(xué)習(xí)
    的頭像 發(fā)表于 10-23 15:25 ?2900次閱讀

    AI大模型與傳統(tǒng)機(jī)器學(xué)習(xí)的區(qū)別

    AI大模型與傳統(tǒng)機(jī)器學(xué)習(xí)在多個(gè)方面存在顯著的區(qū)別。以下是對(duì)這些區(qū)別的介紹: 一、模型規(guī)模與復(fù)雜度 AI大模型 :通常包含數(shù)十億甚至數(shù)萬億的參數(shù),模型
    的頭像 發(fā)表于 10-23 15:01 ?2595次閱讀

    【《大語言模型應(yīng)用指南》閱讀體驗(yàn)】+ 基礎(chǔ)知識(shí)學(xué)習(xí)

    今天來學(xué)習(xí)大語言模型在自然語言理解方面的原理以及問答回復(fù)實(shí)現(xiàn)。 主要是基于深度學(xué)習(xí)和自然語言處理技術(shù)。 大語言模型涉及以下幾個(gè)過程: 數(shù)據(jù)收集:大語言
    發(fā)表于 08-02 11:03

    LLM大模型推理加速的關(guān)鍵技術(shù)

    LLM(大型語言模型)大模型推理加速是當(dāng)前人工智能領(lǐng)域的一個(gè)研究熱點(diǎn),旨在提高模型在處理復(fù)雜任務(wù)時(shí)的效率和響應(yīng)速度。以下是對(duì)LLM大模型推理
    的頭像 發(fā)表于 07-24 11:38 ?1826次閱讀