chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

數(shù)據(jù)并行化對(duì)神經(jīng)網(wǎng)絡(luò)訓(xùn)練有何影響?谷歌大腦進(jìn)行了實(shí)證研究

jmiy_worldofai ? 來(lái)源:lq ? 2018-12-19 10:39 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

近期的硬件發(fā)展實(shí)現(xiàn)了前所未有的數(shù)據(jù)并行化,從而加速神經(jīng)網(wǎng)絡(luò)訓(xùn)練。利用下一代加速器的最簡(jiǎn)單方法是增加標(biāo)準(zhǔn)小批量神經(jīng)網(wǎng)絡(luò)訓(xùn)練算法中的批大小。最近谷歌大腦發(fā)表了一篇論文,旨在通過(guò)實(shí)驗(yàn)確定在訓(xùn)練階段增加批大小的作用,評(píng)價(jià)指標(biāo)是得到目標(biāo)樣本外誤差所需的訓(xùn)練步數(shù)。最后,批大小增加到一定量將不再減少所需訓(xùn)練步數(shù),但批大小和訓(xùn)練步數(shù)之間的確切關(guān)系對(duì)從業(yè)者、研究者和硬件設(shè)計(jì)人員來(lái)說(shuō)非常重要。谷歌大腦研究不同訓(xùn)練算法、模型和數(shù)據(jù)集中批大小和訓(xùn)練步數(shù)之間關(guān)系的變化,以及工作負(fù)載之間的最大變化。該研究還解決了批大小是否影響模型質(zhì)量這一問(wèn)題。

神經(jīng)網(wǎng)絡(luò)在解決大量預(yù)測(cè)任務(wù)時(shí)非常高效。在較大數(shù)據(jù)集上訓(xùn)練的大型模型是神經(jīng)網(wǎng)絡(luò)近期成功的原因之一,我們期望在更多數(shù)據(jù)上訓(xùn)練的模型可以持續(xù)取得預(yù)測(cè)性能改進(jìn)。盡管當(dāng)下的 GPU 和自定義神經(jīng)網(wǎng)絡(luò)加速器可以使我們以前所未有的速度訓(xùn)練當(dāng)前最優(yōu)模型,但訓(xùn)練時(shí)間仍然限制著這些模型的預(yù)測(cè)性能及應(yīng)用范圍。很多重要問(wèn)題的最佳模型在訓(xùn)練結(jié)束時(shí)仍然在提升性能,這是因?yàn)檠芯空邿o(wú)法一次訓(xùn)練很多天或好幾周。在極端案例中,訓(xùn)練必須在完成一次數(shù)據(jù)遍歷之前終止。減少訓(xùn)練時(shí)間的一種方式是提高數(shù)據(jù)處理速度。這可以極大地促進(jìn)模型質(zhì)量的提升,因?yàn)樗沟糜?xùn)練過(guò)程能夠處理更多數(shù)據(jù),同時(shí)還能降低實(shí)驗(yàn)迭代時(shí)間,使研究者能夠更快速地嘗試新想法和新配置條件。更快的訓(xùn)練還使得神經(jīng)網(wǎng)絡(luò)能夠部署到需要頻繁更新模型的應(yīng)用中,比如訓(xùn)練數(shù)據(jù)定期增刪的情況就需要生成新模型。

數(shù)據(jù)并行化是一種直接且常用的訓(xùn)練加速方法。本研究中的數(shù)據(jù)并行化指將訓(xùn)練樣本分配到多個(gè)處理器來(lái)計(jì)算梯度更新(或更高階的導(dǎo)數(shù)信息),然后對(duì)這些局部計(jì)算的梯度更新求和。只要訓(xùn)練目標(biāo)函數(shù)可分解為在訓(xùn)練樣本上的和,則數(shù)據(jù)并行化可以適用于任意模型,應(yīng)用到任意神經(jīng)網(wǎng)絡(luò)架構(gòu)。而模型并行化(對(duì)于相同的訓(xùn)練樣本,將參數(shù)和計(jì)算分配到不同處理器)的最大程度則依賴于模型大小和結(jié)構(gòu)。盡管數(shù)據(jù)并行化易于實(shí)現(xiàn),但大規(guī)模系統(tǒng)應(yīng)該考慮所有類型的并行化。這篇論文主要研究在同步訓(xùn)練設(shè)置下數(shù)據(jù)并行化的成本和收益。

神經(jīng)網(wǎng)絡(luò)訓(xùn)練硬件具備越來(lái)越強(qiáng)大的數(shù)據(jù)并行化處理能力?;?GPU 或定制 ASIC 的專門系統(tǒng)輔以高性能互連技術(shù)使得能夠處理的數(shù)據(jù)并行化規(guī)模前所未有地大,而數(shù)據(jù)并行化的成本和收益尚未得到深入研究。一方面,如果數(shù)據(jù)并行化能夠顯著加速目前的系統(tǒng),我們應(yīng)該構(gòu)建更大的系統(tǒng)。另一方面,如果額外的數(shù)據(jù)并行化收益小、成本高,則我們?cè)谠O(shè)計(jì)系統(tǒng)時(shí)或許需要考慮最大化串行執(zhí)行速度、利用其他并行化類型,甚至優(yōu)先考慮能量使用、成本。

該研究嘗試對(duì)數(shù)據(jù)并行化對(duì)神經(jīng)網(wǎng)絡(luò)訓(xùn)練的影響進(jìn)行大量嚴(yán)謹(jǐn)?shù)膶?shí)驗(yàn)研究。為了實(shí)現(xiàn)該目標(biāo),研究者考慮目前數(shù)據(jù)并行化局限條件下的實(shí)際工作負(fù)載,嘗試避免假設(shè)批大小函數(shù)對(duì)最優(yōu)元參數(shù)的影響。該研究主要關(guān)注小批量隨機(jī)梯度下降(SGD)的變體,它們是神經(jīng)網(wǎng)絡(luò)訓(xùn)練中的主要算法。該研究的貢獻(xiàn)如下:

1. 該研究展示了批大小和達(dá)到樣本外誤差所需訓(xùn)練步數(shù)之間的關(guān)系在六個(gè)不同的神經(jīng)網(wǎng)絡(luò)家族、三種訓(xùn)練算法和七個(gè)不同數(shù)據(jù)集上具備同樣的特征。

具體來(lái)說(shuō),對(duì)于每個(gè)工作負(fù)載(模型、訓(xùn)練算法和數(shù)據(jù)集),增加批大小最初都會(huì)導(dǎo)致訓(xùn)練步數(shù)的下降,但最終增加批大小將無(wú)法減少訓(xùn)練步數(shù)。該研究首次通過(guò)實(shí)驗(yàn)驗(yàn)證不同模型、訓(xùn)練算法和數(shù)據(jù)集上批大小與訓(xùn)練步數(shù)的關(guān)系,其分別調(diào)整每個(gè)批大小的學(xué)習(xí)率、動(dòng)量和學(xué)習(xí)率調(diào)度器。

2. 該研究證明最大有用批大小因工作負(fù)載而異,且依賴于模型、訓(xùn)練算法和數(shù)據(jù)集的特性。具體而言,

帶動(dòng)量(和 Nesterov 動(dòng)量)的 SGD 能夠比普通的 SGD 更好地利用較大的批大小,未來(lái)可以研究其他算法的批大小擴(kuò)展特性。

一些模型在允許訓(xùn)練擴(kuò)展至更大的批大小方面優(yōu)于其他模型。研究者將實(shí)驗(yàn)數(shù)據(jù)和不同模型特性與最大有用批大小之間的關(guān)系結(jié)合起來(lái),表明該關(guān)系與之前研究中表達(dá)的不同(如更寬的模型未必能夠更好地?cái)U(kuò)展至更大的批大?。?。

數(shù)據(jù)集對(duì)最大有用批大小的影響不如模型和訓(xùn)練算法的影響,但該影響并非一貫依賴于數(shù)據(jù)集規(guī)模。

3. 訓(xùn)練元參數(shù)的最優(yōu)值(如學(xué)習(xí)率)并非一直遵循與批大小的簡(jiǎn)單關(guān)系,盡管目前有大量啟發(fā)式方法可以調(diào)整元參數(shù)。學(xué)習(xí)率啟發(fā)式方法無(wú)法處理所有問(wèn)題或所有批大小。假設(shè)簡(jiǎn)單的啟發(fā)式方法(如隨著批大小的變化對(duì)學(xué)習(xí)率進(jìn)行線性擴(kuò)展)可能導(dǎo)致最差解或?qū)σ?guī)模遠(yuǎn)遠(yuǎn)小于基礎(chǔ)批大小的批量進(jìn)行離散訓(xùn)練。

4. 該研究回顧了之前研究中使用的實(shí)驗(yàn)方案,部分解決了增加批大小是否降低模型質(zhì)量這一問(wèn)題。研究人員假設(shè)不同批大小對(duì)應(yīng)的計(jì)算預(yù)算和元參數(shù)選擇能夠解釋文獻(xiàn)中的諸多分歧,然后發(fā)現(xiàn)沒(méi)有證據(jù)能夠證明批大小與模型質(zhì)量下降存在必然關(guān)系,但是額外的正則化方法在批量較大的情況下變得更加重要。

實(shí)驗(yàn)

實(shí)驗(yàn)所用數(shù)據(jù)集如下所示:

實(shí)驗(yàn)所用模型:

實(shí)驗(yàn)依賴大量元參數(shù)調(diào)整,如學(xué)習(xí)率、動(dòng)量和學(xué)習(xí)率調(diào)度器。在每次實(shí)驗(yàn)中,研究者檢查最佳試驗(yàn)與元參數(shù)搜索空間邊界是否太過(guò)接近,從而驗(yàn)證元參數(shù)搜索空間。

圖 1:對(duì)于上圖中所有問(wèn)題,訓(xùn)練步數(shù)與批大小之間的關(guān)系具備同樣的特征。

圖 2:對(duì)于不同(相近)性能目標(biāo),Steps-to-result 圖具備類似形式。

一些模型能夠更好地利用大批量

如下圖所示:

圖 3:a-c 展示了在相同數(shù)據(jù)集上,一些模型架構(gòu)能夠從大批量中獲益更多。d、f 展示了寬度和深度變化會(huì)影響模型利用大批量的能力,但是該情況并不適用于所有模型架構(gòu)。圖中所有的 MNIST 模型都使用了 mini-batch SGD,而其他模型使用了帶 Nesterov 動(dòng)量的 SGD。每個(gè)圖的目標(biāo)驗(yàn)證誤差允許所有模型變體都能夠達(dá)到目標(biāo)誤差。

帶動(dòng)量的 SGD 可在大批量上實(shí)現(xiàn)完美擴(kuò)展,但在小批量上能力與普通 SGD 相當(dāng)。

如下圖所示:

數(shù)據(jù)集對(duì)最大有用批大小有影響,但影響程度可能不如模型或優(yōu)化器

圖 5:數(shù)據(jù)集對(duì)最大有用批大小有影響。

圖 6:數(shù)據(jù)集大小的影響。

正則化在某些批大小上更加有用

圖 7:上圖是 ImageNet 數(shù)據(jù)集上的 ResNet-50 模型。每個(gè)點(diǎn)對(duì)應(yīng)不同的元參數(shù),因此每個(gè)點(diǎn)的學(xué)習(xí)率、Nesterov 動(dòng)量和學(xué)習(xí)率調(diào)度器都是獨(dú)立選擇的。每個(gè)批大小的訓(xùn)練預(yù)算是固定的,但是不同批大小的訓(xùn)練預(yù)算不同。

最佳學(xué)習(xí)率和動(dòng)量隨批大小的變化而改變

圖 8:最佳學(xué)習(xí)率未必遵循線性或平方根擴(kuò)展啟發(fā)式方法。

圖 9:在固定訓(xùn)練數(shù)量的 epoch 中,達(dá)到目標(biāo)誤差的元參數(shù)空間區(qū)域隨著批大小增加而縮小。

圖 10:在固定的訓(xùn)練步數(shù)下,達(dá)到目標(biāo)誤差的元參數(shù)空間區(qū)域隨著批大小增加而擴(kuò)大。

解的質(zhì)量更多地依賴計(jì)算預(yù)算而不是批大小

圖 12:驗(yàn)證誤差更多地依賴計(jì)算預(yù)算,而非批大小。

實(shí)驗(yàn)缺陷

在元參數(shù)調(diào)整時(shí)難免會(huì)有一定程度的人類判斷。研究分析沒(méi)有考慮到取得目標(biāo)誤差的魯棒性。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 加速器
    +關(guān)注

    關(guān)注

    2

    文章

    836

    瀏覽量

    39711
  • 神經(jīng)網(wǎng)絡(luò)

    關(guān)注

    42

    文章

    4827

    瀏覽量

    106792
  • 數(shù)據(jù)集
    +關(guān)注

    關(guān)注

    4

    文章

    1230

    瀏覽量

    26046

原文標(biāo)題:數(shù)據(jù)并行化對(duì)神經(jīng)網(wǎng)絡(luò)訓(xùn)練有何影響?谷歌大腦進(jìn)行了實(shí)證研究

文章出處:【微信號(hào):worldofai,微信公眾號(hào):worldofai】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    在Ubuntu20.04系統(tǒng)中訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型的一些經(jīng)驗(yàn)

    模型。 我們使用MNIST數(shù)據(jù)集,訓(xùn)練一個(gè)卷積神經(jīng)網(wǎng)絡(luò)(CNN)模型,用于手寫數(shù)字識(shí)別。一旦模型被訓(xùn)練并保存,就可以用于對(duì)新圖像進(jìn)行推理和預(yù)
    發(fā)表于 10-22 07:03

    【案例分享】ART神經(jīng)網(wǎng)絡(luò)與SOM神經(jīng)網(wǎng)絡(luò)

    神經(jīng)網(wǎng)絡(luò)在學(xué)習(xí)新知識(shí)的同時(shí)要保持對(duì)之前學(xué)習(xí)的知識(shí)的記憶,而不是狗熊掰棒子SOM神經(jīng)網(wǎng)絡(luò)是一種競(jìng)爭(zhēng)學(xué)習(xí)型的無(wú)監(jiān)督神經(jīng)網(wǎng)絡(luò),它能將高維輸入數(shù)據(jù)映射到低維空間(通常為二維),同時(shí)保持輸入
    發(fā)表于 07-21 04:30

    如何設(shè)計(jì)BP神經(jīng)網(wǎng)絡(luò)圖像壓縮算法?

    稱為BP神經(jīng)網(wǎng)絡(luò)。采用BP神經(jīng)網(wǎng)絡(luò)模型能完成圖像數(shù)據(jù)的壓縮處理。在圖像壓縮中,神經(jīng)網(wǎng)絡(luò)的處理優(yōu)勢(shì)在于:巨量并行性;信息處理和存儲(chǔ)單元結(jié)合在一
    發(fā)表于 08-08 06:11

    MATLAB訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)移植到STM32F407上

    我在MATLAB中進(jìn)行了神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練,然后將訓(xùn)練好的模型的閾值和權(quán)值導(dǎo)出來(lái),移植到STM32F407單片機(jī)上進(jìn)行計(jì)算,但是在單片機(jī)上的計(jì)
    發(fā)表于 06-16 11:14

    如何采用神經(jīng)網(wǎng)絡(luò)技術(shù),對(duì)鎳鉻-鎳硅熱電偶進(jìn)行了非線性校正?

    請(qǐng)問(wèn)如何采用基于虛擬儀器編程語(yǔ)言CVI編成的BP神經(jīng)網(wǎng)絡(luò)訓(xùn)練儀對(duì)K型鎳鉻-鎳硅熱電偶的非線性進(jìn)行校正?
    發(fā)表于 04-08 06:55

    怎么解決人工神經(jīng)網(wǎng)絡(luò)并行數(shù)據(jù)處理的問(wèn)題

    本文提出了一個(gè)基于FPGA 的信息處理的實(shí)例:一個(gè)簡(jiǎn)單的人工神經(jīng)網(wǎng)絡(luò)應(yīng)用Verilog 語(yǔ)言描述,該數(shù)據(jù)流采用模塊的程序設(shè)計(jì),并考慮了模塊間數(shù)據(jù)傳輸信號(hào)同 步的問(wèn)題,有效地解決了人工
    發(fā)表于 05-06 07:22

    分享一種400×25×2的三層BP神經(jīng)網(wǎng)絡(luò)

    本文首先簡(jiǎn)單的選取了少量的樣本并進(jìn)行樣本歸一,這樣就得到了可供訓(xùn)練訓(xùn)練集和測(cè)試集。然后訓(xùn)練了400×25×2的三層BP
    發(fā)表于 07-12 06:49

    卷積神經(jīng)網(wǎng)絡(luò)模型發(fā)展及應(yīng)用

    十余年來(lái)快速發(fā)展的嶄新領(lǐng)域,越來(lái)越受到研究者的關(guān)注。卷積神經(jīng)網(wǎng)絡(luò)(CNN)模型是深度學(xué)習(xí)模型中最重要的一種經(jīng)典結(jié)構(gòu),其性能在近年來(lái)深度學(xué)習(xí)任務(wù)上逐步提高。由于可以自動(dòng)學(xué)習(xí)樣本數(shù)據(jù)的特征表示,卷積
    發(fā)表于 08-02 10:39

    優(yōu)化神經(jīng)網(wǎng)絡(luò)訓(xùn)練方法哪些?

    優(yōu)化神經(jīng)網(wǎng)絡(luò)訓(xùn)練方法哪些?
    發(fā)表于 09-06 09:52

    如何進(jìn)行高效的時(shí)序圖神經(jīng)網(wǎng)絡(luò)訓(xùn)練

    現(xiàn)有的圖數(shù)據(jù)規(guī)模極大,導(dǎo)致時(shí)序圖神經(jīng)網(wǎng)絡(luò)訓(xùn)練需要格外長(zhǎng)的時(shí)間,因此使用多GPU進(jìn)行訓(xùn)練變得成為尤為重要,如何有效地將多GPU用于時(shí)序圖
    發(fā)表于 09-28 10:37

    卷積神經(jīng)網(wǎng)絡(luò)簡(jiǎn)介:什么是機(jī)器學(xué)習(xí)?

    模型。第 3 部分將研究使用專用 AI 微控制器測(cè)試模型的特定用例。什么是卷積神經(jīng)網(wǎng)絡(luò)?神經(jīng)網(wǎng)絡(luò)是系統(tǒng)或神經(jīng)元結(jié)構(gòu),使人工智能能夠更好地理解數(shù)據(jù)
    發(fā)表于 02-23 20:11

    神經(jīng)網(wǎng)絡(luò)什么天生的性質(zhì)

    谷歌大腦研究人員通過(guò)精簡(jiǎn)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),在前幾代中發(fā)現(xiàn)了最小架構(gòu)的神經(jīng)網(wǎng)絡(luò)能夠控制此處所示的雙足機(jī)器人,即使它的得分不高。
    發(fā)表于 02-05 16:55 ?1545次閱讀

    如何訓(xùn)練和優(yōu)化神經(jīng)網(wǎng)絡(luò)

    神經(jīng)網(wǎng)絡(luò)是人工智能領(lǐng)域的重要分支,廣泛應(yīng)用于圖像識(shí)別、自然語(yǔ)言處理、語(yǔ)音識(shí)別等多個(gè)領(lǐng)域。然而,要使神經(jīng)網(wǎng)絡(luò)在實(shí)際應(yīng)用中取得良好效果,必須進(jìn)行有效的訓(xùn)練和優(yōu)化。本文將從
    的頭像 發(fā)表于 07-01 14:14 ?1383次閱讀

    如何利用Matlab進(jìn)行神經(jīng)網(wǎng)絡(luò)訓(xùn)練

    ,使得神經(jīng)網(wǎng)絡(luò)的創(chuàng)建、訓(xùn)練和仿真變得更加便捷。本文將詳細(xì)介紹如何利用Matlab進(jìn)行神經(jīng)網(wǎng)絡(luò)訓(xùn)練,包括網(wǎng)
    的頭像 發(fā)表于 07-08 18:26 ?4569次閱讀

    怎么對(duì)神經(jīng)網(wǎng)絡(luò)重新訓(xùn)練

    發(fā)生變化,導(dǎo)致神經(jīng)網(wǎng)絡(luò)的泛能力下降。為了保持神經(jīng)網(wǎng)絡(luò)的性能,需要對(duì)其進(jìn)行重新訓(xùn)練。本文將詳細(xì)介紹重新訓(xùn)
    的頭像 發(fā)表于 07-11 10:25 ?1203次閱讀