chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

深度ReLU網(wǎng)絡(luò)的訓練動態(tài)過程及其對泛化能力的影響

DPVg_AI_era ? 來源:lq ? 2019-06-15 10:48 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

神經(jīng)網(wǎng)絡(luò)而言,使用同一架構(gòu)的網(wǎng)絡(luò),從不同初始值開始優(yōu)化,最終的泛化效果可以完全不同。在傳統(tǒng)的機器學習中,對優(yōu)化算法和泛化性能的研究是分開的,但對深度學習這樣的非凸問題而言,兩者是密不可分的。本文試圖對這個問題做出統(tǒng)一的解釋。

神經(jīng)網(wǎng)絡(luò)有很多異于傳統(tǒng)機器學習系統(tǒng)(比如決策樹和SVM)的奇特性質(zhì)。比如說過參化(over-parameterization)時并不會產(chǎn)生過擬合,而只會讓測試集上效果變好(泛化能力變好),如果用正好的參數(shù)去擬合數(shù)據(jù),泛化能力反而變差。比如說有隱式正則化(implicit regularization)的能力,即同樣大小的模型,可以完全擬合正常數(shù)據(jù),也可以完全擬合隨機數(shù)據(jù),并且在完全擬合正常數(shù)據(jù)時自動具有泛化能力。

近日,F(xiàn)acebook人工智能研究院研究員,卡內(nèi)基梅隆大學機器人系博士田淵棟團隊發(fā)表新作,試圖對這類傳統(tǒng)機器學習難以解釋的問題做出統(tǒng)一的理論解釋。

在本文預印本發(fā)布后,田淵棟博士本人在知乎上題為《求道之人,不問寒暑(三)》的專欄文章中,對這篇論文的思想脈絡(luò)和實現(xiàn)過程做出了精彩的解讀,并和讀者進行了深入討論。

經(jīng)作者授權(quán),新智元全文轉(zhuǎn)載如下:

神經(jīng)網(wǎng)絡(luò)有很多異于傳統(tǒng)機器學習系統(tǒng)(比如決策樹和SVM)的奇特性質(zhì)。比如說過參化(over-parameterization)時并不會產(chǎn)生過擬合,而只會讓測試集上效果變好(泛化能力變好),如果用正好的參數(shù)去擬合數(shù)據(jù),泛化能力反而變差;比如說它有隱式正則化(implicit regularization)的能力,即同樣大小的模型,可以完全擬合正常數(shù)據(jù),也可以完全擬合隨機數(shù)據(jù),并且在完全擬合正常數(shù)據(jù)時自動具有泛化能力。

這些現(xiàn)象在傳統(tǒng)機器學習理論中不太能夠得到解釋,按照傳統(tǒng)理論,用大小恰好的模型去擬合數(shù)據(jù)集是最優(yōu)的,更小的模型,其復雜度不夠從而無法擬合數(shù)據(jù),更大的模型則會過擬合數(shù)據(jù),降低其泛化能力,要使大模型有優(yōu)秀的泛化能力,需要使用正則化方法。按照傳統(tǒng)理論,如果一個模型大到能夠擬合復雜度更高的隨機數(shù)據(jù),那它為什么不在正常數(shù)據(jù)上過擬合?如果一個模型能在正常數(shù)據(jù)上具有泛化能力,那它不應(yīng)該能完全擬合隨機數(shù)據(jù)——在神經(jīng)網(wǎng)絡(luò)上同時看到這兩個現(xiàn)象,是非常奇怪的。

最近ICLR19的最優(yōu)論文“The Lottery Ticket Hypothesis”(網(wǎng)絡(luò)權(quán)重的彩票現(xiàn)象)又增加了傳統(tǒng)理論難以解釋的部分——對神經(jīng)網(wǎng)絡(luò)而言,使用同一架構(gòu)的網(wǎng)絡(luò),從不同初始值開始優(yōu)化,最終的泛化效果可以完全不同。 而權(quán)重初始值在傳統(tǒng)的泛化理論中沒有什么地位。因為傳統(tǒng)上“優(yōu)化算法”和“泛化性能”這兩件事情是完全分開的。做泛化性能的文章往往假設(shè)背后的優(yōu)化算法能拿到最優(yōu)解,而不考慮優(yōu)化的細節(jié);而做優(yōu)化算法的文章只關(guān)心在訓練集上的權(quán)重到局部極小值的收斂速度,并不關(guān)心這個局部極小值在測試集上會有什么效果。如果模型空間有限或者模型的最優(yōu)參數(shù)可以由凸優(yōu)化得到,那這樣做理所當然;但對深度學習這樣的非凸問題而言,兩者是密不可分的。

這次我們做的這篇文章(arxiv.org/abs/1905.1340)試圖提出一個統(tǒng)一的理論來解釋這些現(xiàn)象,包括神經(jīng)網(wǎng)絡(luò)參數(shù)多時效果更好,有動態(tài)適應(yīng)不同數(shù)據(jù)集的能力,還能解釋從不同初始值出發(fā),泛化能力完全不同的網(wǎng)絡(luò)彩票現(xiàn)象。我們提出的這個理論對這些問題都有比較好的直觀解釋,并且還有一個統(tǒng)一的數(shù)學框架來支撐。

其根本的方案,是將訓練時的優(yōu)化過程和泛化能力結(jié)合起來,從而去分析傳統(tǒng)方法分析不了的情況。

首先我們采用了教師-學生網(wǎng)絡(luò)(student-teacher)的框架,假設(shè)數(shù)據(jù)集的標注由一個隱藏的(多層)教師網(wǎng)絡(luò)(teacher network)生成,然后依據(jù)教師網(wǎng)絡(luò)的輸入輸出,用梯度下降法去優(yōu)化學生網(wǎng)絡(luò)(student network)。學生和教師網(wǎng)絡(luò)的層數(shù)相同,但因為over-parameterization,學生的每一層可以有比教師更多的輸出結(jié)點(神經(jīng)元)。在這個框架下,我們證明了在一些情況下的權(quán)重復原定理,即學生網(wǎng)絡(luò)的權(quán)重可以收斂于教師網(wǎng)絡(luò)的對應(yīng)權(quán)重,以及如何靠攏,并且分析了在over-parameterization的情況下學生網(wǎng)絡(luò)可能的行為。由這些定理,可以給出一些神經(jīng)網(wǎng)絡(luò)奇特性質(zhì)的解釋。

對于結(jié)構(gòu)化的數(shù)據(jù),其對應(yīng)生成數(shù)據(jù)的教師網(wǎng)絡(luò)較小,過參化得到的學生網(wǎng)絡(luò)中的結(jié)點會優(yōu)先朝著教師網(wǎng)絡(luò)的結(jié)點收斂過去,并且初始時和教師網(wǎng)絡(luò)結(jié)點重合較大的學生結(jié)點(也即是“幸運神經(jīng)元”,lucky weights/nodes)會收斂得更快,這樣就會產(chǎn)生“勝者全拿”的效應(yīng),最后每個教師結(jié)點可能只有幾個幸運學生結(jié)點對應(yīng)。對于隨機數(shù)據(jù),其對應(yīng)的教師網(wǎng)絡(luò)比較大,學生結(jié)點會各自分散向不同的教師結(jié)點收斂。這就是為什么同樣大小的模型可以同時擬合兩者。并且因為勝者全拿的效應(yīng),學生傾向于用最少的結(jié)點去解釋教師,從而對結(jié)構(gòu)數(shù)據(jù)仍然具有泛化能力。

從這些解釋出發(fā),大家可能猜到了,“The Lottery Ticket Hypothesis”就是因為lucky nodes/weights的緣故:保留lucky nodes而去除其它不必要的結(jié)點,不會讓泛化效果變差;但若是只保留lucky nodes,并且重新初始化它們的權(quán)重,那相當于中彩者重買彩票,再中彩的概率就很小了。而過參化的目的就是讓更多的人去買彩票,這樣總會有幾個人中彩,最終神經(jīng)網(wǎng)絡(luò)的效果,就由它們來保證了——那自然過參化程度越好,最后泛化效果越好。

另外,對過參化的初步分析表明,一方面lucky student weights可以收斂到對應(yīng)的teacher weights,而大部分無關(guān)的student weights/nodes可能會收斂到任意的區(qū)域去——但這并不要緊,因為這些結(jié)點的上層權(quán)重會收斂到零,以減少它們對網(wǎng)絡(luò)輸出的影響。這就附帶解釋了為何神經(jīng)網(wǎng)絡(luò)訓練后的解往往具有平坦極小值(Flat Minima)性質(zhì):對無關(guān)的學生結(jié)點而言,任意改變它們的權(quán)重,對網(wǎng)絡(luò)輸出都沒有太大影響。

具體細節(jié)是怎么做的呢?如果大家有興趣的話,可以繼續(xù)看下去。

雖然學生網(wǎng)絡(luò)接收到的信號只來自于教師的最終輸出層,對教師中間層如何輸出毫無知覺,但因為教師的前向傳遞和學生的反向傳遞算法,教師中間層和對應(yīng)的學生中間層,這兩者其實是有隱含聯(lián)系的。這篇文章首先找到了一個學生網(wǎng)絡(luò)-教師網(wǎng)絡(luò)的一個很有趣的對應(yīng)關(guān)系,即學生中間層收集到的梯度和對應(yīng)教師層輸出的關(guān)系,然后借著這個對應(yīng)關(guān)系,就可以找到學生網(wǎng)絡(luò)的權(quán)重和教師網(wǎng)絡(luò)的權(quán)重的對應(yīng)關(guān)系。在此之上,再加一些基本假設(shè),就可以有相應(yīng)的權(quán)重復原定理。

這篇文章的基本假設(shè)很簡單,即教師同層兩個神經(jīng)元同時被激活的概率遠遠小于各自單獨被激活的概率。這個假設(shè)相對來說是比較實際的:如果每個神經(jīng)元只負責輸入信號的某個特性,那這些特性同時出現(xiàn)的概率相比單獨出現(xiàn)的概率要小很多。那么如何檢查這個假設(shè)呢?很簡單,按照這個假設(shè),如果輸入是零均值分布,假設(shè)激活函數(shù)是ReLU,那神經(jīng)元的bias就應(yīng)當是負的,這樣它只對輸入的一小部分數(shù)據(jù)有正響應(yīng)。事實似乎確實如此,我們在文章中檢查了VGG11/16這兩個在ImageNet上的預訓練網(wǎng)絡(luò)(都采用Conv-BN-ReLU架構(gòu))的BatchNorm層的bias,發(fā)現(xiàn)絕大部分都是負的,也就是說在訓練后網(wǎng)絡(luò)里的那些神經(jīng)元確實每個負責不一樣的特性。

與之前平均場(Mean Field)的一系列文章相比,這篇文章不需要假設(shè)權(quán)重滿足獨立同分布這個非常嚴格且只在初始化時才成立的條件,可以用于分析網(wǎng)絡(luò)優(yōu)化的整個過程,事實上,我一直覺得多層神經(jīng)網(wǎng)絡(luò)的優(yōu)化過程和平均場或者熱力學的箭頭是相反的:熱力學里系統(tǒng)從非平衡點到達平衡點的過程是抹消結(jié)構(gòu)的過程,而神經(jīng)網(wǎng)絡(luò)的優(yōu)化是從隨機初始的權(quán)重中創(chuàng)造并且強化結(jié)構(gòu)的過程。這篇文章曾經(jīng)打算投去年的ICML,原本的題目叫作“潘多拉的盒子”,也就是說,從隨機漲落的權(quán)重中,依著不同的數(shù)據(jù)集,可以收斂出任意的結(jié)構(gòu)出來,但因為OpenGo的項目一直拖,一直到一年半以后才有比較初步的結(jié)果。

另一個附帶的結(jié)果是,從這篇文章的分析里可以比較清楚地看到“上層調(diào)制”這種機制的作用。很多人對多層神經(jīng)網(wǎng)絡(luò)的疑問是:既然多層神經(jīng)網(wǎng)絡(luò)號稱是對輸入特征進行不斷組合以獲得效果更好的高層特征,那為什么不可以采用自底向上的機制,每次單獨訓練一層,等訓練完再建上一層?依據(jù)這篇文章,回答是如果沒有上層的監(jiān)督信號,那底層的特征組合數(shù)量會指數(shù)級增長,并且生成的特征大多是對上層任務(wù)無用的。唯有優(yōu)化時不停聽取來自上層的信號,有針對性地進行組合,才可以以極高的效率獲得特定任務(wù)的重要特征。而對權(quán)重的隨機初始化,是賦予它們在優(yōu)化時滑向任意組合的能力。

原文鏈接:

https://zhuanlan.zhihu.com/p/67782029

以下是新智元對論文內(nèi)容的簡編:

本文分析了深度ReLU網(wǎng)絡(luò)的訓練動態(tài)過程及其對泛化能力的影響。使用教師和學生的設(shè)置,我們發(fā)現(xiàn)隱藏學生節(jié)點接收的梯度,和深度ReLU網(wǎng)絡(luò)的教師節(jié)點激活之間存在新的關(guān)系。通過這種關(guān)系,我們證明了兩點:(1)權(quán)重初始化為接近教師節(jié)點的學生節(jié)點,會以更快的速度向教師節(jié)點收斂,(2)在過參數(shù)化的環(huán)境中,當一小部分幸運節(jié)點收斂到教師節(jié)點時,其他節(jié)點的fan-out權(quán)重收斂為零。

在本文中,我們提出了多層ReLU網(wǎng)絡(luò)的理論框架。該框架提供了對深度學習中的多種令人費解的現(xiàn)象的觀察,如過度參數(shù)化,隱式正則化,彩票問題等。

圖1

圖2

基于這個框架,我們試圖用統(tǒng)一的觀點來解釋這些令人費解的經(jīng)驗現(xiàn)象。本文使用師生設(shè)置,其中給過度參數(shù)化的深度學生ReLU網(wǎng)絡(luò)的標簽,是具有相同深度和未知權(quán)重的固定教師ReLU網(wǎng)絡(luò)的輸出(圖1(a))。在這個角度來看,隱藏的學生節(jié)點將隨機初始化為不同的激活區(qū)域。(圖2(a))。

依托這個框架,本研究主要解決以下幾個問題:

擬合

結(jié)構(gòu)化和隨機數(shù)據(jù)。在梯度下降動態(tài)下,一些學生節(jié)點恰好與教師節(jié)點重疊,將進入教師節(jié)點并覆蓋教師節(jié)點。不管對于中間節(jié)點數(shù)量較少的小型教師網(wǎng)絡(luò)的結(jié)構(gòu)化數(shù)據(jù),或者對具有中間節(jié)點數(shù)量較多的大型教師網(wǎng)絡(luò)的隨機數(shù)據(jù),情況都是如此。這也解釋了為什么同一個網(wǎng)絡(luò)可以同時適應(yīng)結(jié)構(gòu)化和隨機數(shù)據(jù)(圖2(a-b))。

過參數(shù)化

在過度參數(shù)化中,許多學生節(jié)點在每一層進行隨機初始化。任何教師節(jié)點都更可能與某些學生節(jié)點有很大部分的重疊,這會導致快速收斂(圖2(a)和(c),)。這也解釋了為什么網(wǎng)絡(luò)容量恰好適合數(shù)據(jù)的訓練模型的性能表現(xiàn)會更差。

平滑極小值問題

深層網(wǎng)絡(luò)經(jīng)常會收斂到“平滑極小值”。此外,雖然存在爭議,平滑極小值似乎意味著良好的泛化能力,而尖銳的極小值往往導致不良的泛化能力。

而在我們的理論中,在與結(jié)構(gòu)化數(shù)據(jù)進行擬合時,只有少數(shù)幸運的學生節(jié)點收斂至教師節(jié)點,而對于其他節(jié)點,他們的fan-out權(quán)重縮小為零,使得它們與最終結(jié)果無關(guān),產(chǎn)生平滑極小值,學生節(jié)點沿大多數(shù)維度上(“不幸節(jié)點”)的運動導致輸出變化最小。另一方面,尖銳的極小值與噪聲數(shù)據(jù)有關(guān)(圖2(d)),更多的學生節(jié)點能夠與教師節(jié)點相匹配。

隱式正則化

另一方面,捕捉行為強制執(zhí)行贏者通吃規(guī)則:在優(yōu)化之后,教師節(jié)點會被少數(shù)學生節(jié)點完全覆蓋(即解釋),而不是由于過度參數(shù)化而在學生節(jié)點之間分裂。這解釋了為什么同一網(wǎng)絡(luò)一旦經(jīng)過結(jié)構(gòu)化數(shù)據(jù)訓練,就可以推廣到測試集。

彩票現(xiàn)象

圖3

如果我們將“顯著權(quán)重”(大幅度訓練的權(quán)重)重置為優(yōu)化前的值,但在初始化之后,對其他權(quán)重進行壓縮(比例通常大于總權(quán)重的90%)并重新訓練模型,結(jié)果性能相當或更好。如果我們重新初始化顯著權(quán)重,測試性能會更差。在我們的理論中,顯著權(quán)重是一些幸運區(qū)域(圖3中的Ej3和Ej4),它們在初始化后恰好與一些教師節(jié)點重疊并在優(yōu)化中收斂教師節(jié)點。

因此,如果我們重置顯著權(quán)重并修剪其他權(quán)重,它們?nèi)匀豢梢允諗康酵唤M教師節(jié)點上,并且由于與其他不相關(guān)節(jié)點的干擾較少,可能實現(xiàn)更好的性能。但是,如果我們重新初始化,最終這些節(jié)點可能會落入那些不能覆蓋教師節(jié)點的不利區(qū)域,從而導致性能不佳(圖3(c)),就像參數(shù)化不足時的表現(xiàn)一樣。

實驗設(shè)置和方法

我們對全連接(FC)網(wǎng)絡(luò)和卷積網(wǎng)絡(luò)都進行了評估。對于全連接網(wǎng)絡(luò),使用大小為50-75-100-125的ReLU教師網(wǎng)絡(luò)。對于卷積網(wǎng)絡(luò),使用大小為64-64-64-64的教師網(wǎng)絡(luò)。學生網(wǎng)絡(luò)的深度與教師網(wǎng)絡(luò)相同,但每層的節(jié)點/通道是前者的10倍,因此它們是過度參數(shù)化的。添加BatchNorm時,會在ReLU之后添加。

本文采用兩種量度來衡量對一些幸運的學生節(jié)點收斂至教師節(jié)點情況的預測:

圖4:歸一化相關(guān)度ρˉ和平均排名rˉ在GAUS訓練集上隨epoch的變化

歸一化相關(guān)度ρˉ

我們計算出在驗證集上評估的教師和學生激活之間的歸一化相關(guān)度(或余弦相似度)ρ。在每一層中,我們對教師節(jié)點上的最佳相關(guān)度進行平均得到ρˉ,ρˉ≈1表示大多數(shù)教師節(jié)點至少由一名學生覆蓋。

平均排名rˉ

訓練后,每個教師節(jié)點j?都具備了相關(guān)度最高的學生節(jié)點j。這時對j的相關(guān)度等級進行檢測,并歸一化為[0,1](0 表示排名第一),回到初始化和不同的epoch階段,并在教師節(jié)點上進行平均化,產(chǎn)生平均排名rˉ。rˉ值較小意味著最初與教師節(jié)點保持高相關(guān)度的學生節(jié)點一直將這一領(lǐng)先保持至訓練結(jié)束。

實驗結(jié)果

圖5:將圖4的實驗在CIFAR-10數(shù)據(jù)集上進行的結(jié)果

圖6:在GAUS數(shù)據(jù)集上的Ablation學習結(jié)果

關(guān)于教師網(wǎng)絡(luò)的大小:對于小型教師網(wǎng)絡(luò)(10-15-20-25,全連接網(wǎng)絡(luò)),收斂速度要快得多,不使用BatchNorm的訓練比使用BatchNorm訓練要快。 對于大型教師網(wǎng)絡(luò),BatchNorm肯定會提高收斂速度和ρˉ的增長。

關(guān)于有限與無限數(shù)據(jù)集:我們還在卷積神經(jīng)網(wǎng)絡(luò)的案例中使用預生成的GAUS有限數(shù)據(jù)集重復實驗,并發(fā)現(xiàn)節(jié)點相似性的收斂在幾次迭代后終止。這是因為一些節(jié)點在其激活區(qū)域中接收的數(shù)據(jù)點非常少,這對于無限數(shù)據(jù)集來說不是問題。我們懷疑這可能是CIFAR-10作為有限數(shù)據(jù)集沒有表現(xiàn)出GAUS類似行為的原因。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴

原文標題:田淵棟團隊新作:模型優(yōu)化算法和泛化性能的統(tǒng)一解釋

文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    高性能網(wǎng)絡(luò)存儲設(shè)計:NVMe-oF IP的實現(xiàn)探討

    。 該機制能夠根據(jù) IO 類型、SSD 當前隊列深度、任務(wù)并行度動態(tài)選擇最優(yōu)NVMe傳輸隊列,避免隊列熱點(Queue Hotspot)與長尾延遲,有效提升NVMe層吞吐能力與指令并行度。在多流場景下
    發(fā)表于 12-19 18:45

    在連接基石:自主可控WAPI CPE終端實現(xiàn)倉儲異構(gòu)設(shè)備安全統(tǒng)一入網(wǎng)

    CPE終端,以其工業(yè)級設(shè)計、深度加密集成與卓越漫游能力,為所有需要聯(lián)網(wǎng)的倉儲裝備提供了標準、高安全、高可靠的“無線橋梁”,實現(xiàn)了從網(wǎng)絡(luò)到裝備“最后一米”的安全、靈活接入。 一、 裝
    的頭像 發(fā)表于 12-18 17:33 ?557次閱讀

    自動駕駛大模型中常提的能力是指啥?

    [首發(fā)于智駕最前沿微信公眾號]在討論自動駕駛大模型時,常會有幾個評價維度,如感知是否準確、決策是否穩(wěn)定、系統(tǒng)是否足夠魯棒,以及模型有沒有“能力”。相比準確率、延遲這些容易量化的指標,“
    的頭像 發(fā)表于 12-10 09:15 ?500次閱讀
    自動駕駛大模型中常提的<b class='flag-5'>泛</b><b class='flag-5'>化</b><b class='flag-5'>能力</b>是指啥?

    【團購】獨家全套珍藏!龍哥LabVIEW視覺深度學習實戰(zhàn)課(11大系列課程,共5000+分鐘)

    (包含資深工程師) 1)技術(shù)盲區(qū)突破 傳統(tǒng)視覺進階:九點標定誤差補償、手眼協(xié)調(diào)動態(tài)精度優(yōu)化等高級技巧,提升系統(tǒng)穩(wěn)定性 深度學習落地:模型輕量化部署(YOLOv8篇)、LabVIEW與GPU協(xié)同訓練,解決算
    發(fā)表于 12-04 09:28

    攻擊逃逸測試:深度驗證網(wǎng)絡(luò)安全設(shè)備的真實防護能力

    網(wǎng)絡(luò)威脅,建議金融、能源、政務(wù)及其他各行業(yè)單位/企業(yè)應(yīng)將攻擊逃逸測試作為安全設(shè)備上線前的強制性驗收環(huán)節(jié),并建立常態(tài)的定期測試機制,尤其對核心業(yè)務(wù)系統(tǒng)需通過周期性測試持續(xù)驗證防護有效性,確保其安全
    發(fā)表于 11-17 16:17

    激活函數(shù)ReLU的理解與總結(jié)

    ,現(xiàn)有的計算神經(jīng)網(wǎng)絡(luò)和生物神經(jīng)網(wǎng)絡(luò)還是有很大差距的。慶幸的是,ReLu只有負值才會被稀疏掉,即引入的稀疏性是可以訓練調(diào)節(jié)的,是動態(tài)變化的。只
    發(fā)表于 10-31 06:16

    構(gòu)建CNN網(wǎng)絡(luò)模型并優(yōu)化的一般建議

    :Dropout層隨機跳過神經(jīng)網(wǎng)絡(luò)模型中某些神經(jīng)元之間的連接,通過隨機制造缺陷進行訓練提升整個神經(jīng)網(wǎng)絡(luò)的魯棒性。 6)指定合理的學習率策略:一旦神經(jīng)網(wǎng)絡(luò)的準確率飽和,那么學習率應(yīng)當
    發(fā)表于 10-28 08:02

    在Ubuntu20.04系統(tǒng)中訓練神經(jīng)網(wǎng)絡(luò)模型的一些經(jīng)驗

    , batch_size=512, epochs=20)總結(jié) 這個核心算法中的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)和訓練過程,是用來對MNIST手寫數(shù)字圖像進行分類的。模型將圖像作為輸入,通過卷積和池層提取圖像的特征,然后通過全連接層進行分類預
    發(fā)表于 10-22 07:03

    信而泰×DeepSeek:AI推理引擎驅(qū)動網(wǎng)絡(luò)智能診斷邁向 “自愈”時代

    網(wǎng)絡(luò)智能診斷平臺。通過對私有網(wǎng)絡(luò)數(shù)據(jù)的定向訓練,信而泰打造了高性能、高可靠性的網(wǎng)絡(luò)診斷模型,顯著提升了AI輔助診斷的精準度與實用性。該方案
    發(fā)表于 07-16 15:29

    明晚開播 |數(shù)據(jù)智能系列講座第7期:面向高能力的視覺感知系統(tǒng)空間建模與微調(diào)學習

    鷺島論壇數(shù)據(jù)智能系列講座第7期「面向高能力的視覺感知系統(tǒng)空間建模與微調(diào)學習」明晚8點精彩開播期待與您云相聚,共襄學術(shù)盛宴!|直播信息報告題目面向高
    的頭像 發(fā)表于 06-24 08:01 ?938次閱讀
    明晚開播 |數(shù)據(jù)智能系列講座第7期:面向高<b class='flag-5'>泛</b><b class='flag-5'>化</b><b class='flag-5'>能力</b>的視覺感知系統(tǒng)空間建模與微調(diào)學習

    直播預約 |數(shù)據(jù)智能系列講座第7期:面向高能力的視覺感知系統(tǒng)空間建模與微調(diào)學習

    鷺島論壇數(shù)據(jù)智能系列講座第7期「面向高能力的視覺感知系統(tǒng)空間建模與微調(diào)學習」6月25日(周三)20:00精彩開播期待與您云相聚,共襄學術(shù)盛宴!|直播信息報告題目面向高
    的頭像 發(fā)表于 05-29 10:04 ?536次閱讀
    直播預約 |數(shù)據(jù)智能系列講座第7期:面向高<b class='flag-5'>泛</b><b class='flag-5'>化</b><b class='flag-5'>能力</b>的視覺感知系統(tǒng)空間建模與微調(diào)學習

    動態(tài)IP在跨境業(yè)務(wù)中的戰(zhàn)略價值:解鎖全球運營新范式

    超簡單的網(wǎng)絡(luò)連接工具范疇。本文將深度解析動態(tài)IP在跨境場景中的創(chuàng)新應(yīng)用,揭示其如何構(gòu)建企業(yè)全球運營的新基建。
    的頭像 發(fā)表于 05-15 16:40 ?623次閱讀

    BP神經(jīng)網(wǎng)絡(luò)的優(yōu)缺點分析

    自學習能力 : BP神經(jīng)網(wǎng)絡(luò)能夠通過訓練數(shù)據(jù)自動調(diào)整網(wǎng)絡(luò)參數(shù),實現(xiàn)對輸入數(shù)據(jù)的分類、回歸等任務(wù),無需人工進行復雜的特征工程。
    的頭像 發(fā)表于 02-12 15:36 ?1886次閱讀

    BP神經(jīng)網(wǎng)絡(luò)深度學習的關(guān)系

    ),是一種多層前饋神經(jīng)網(wǎng)絡(luò),它通過反向傳播算法進行訓練。BP神經(jīng)網(wǎng)絡(luò)由輸入層、一個或多個隱藏層和輸出層組成,通過逐層遞減的方式調(diào)整網(wǎng)絡(luò)權(quán)重,目的是最小
    的頭像 發(fā)表于 02-12 15:15 ?1605次閱讀

    如何訓練BP神經(jīng)網(wǎng)絡(luò)模型

    BP(Back Propagation)神經(jīng)網(wǎng)絡(luò)是一種經(jīng)典的人工神經(jīng)網(wǎng)絡(luò)模型,其訓練過程主要分為兩個階段:前向傳播和反向傳播。以下是訓練BP神經(jīng)網(wǎng)絡(luò)
    的頭像 發(fā)表于 02-12 15:10 ?1630次閱讀