chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

原來滿足這三個條件就可以不用考慮深度神經(jīng)網(wǎng)絡(luò)了

8g3K_AI_Thinker ? 來源:未知 ? 作者:steve ? 2018-04-19 16:39 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

AI科技大本營按:4 月 15 日舉辦的京東人工智能創(chuàng)新峰會上,剛剛上任京東人工智能南京分院學術(shù)總顧問的周志華教授做了《關(guān)于深度學習一點思考》的公開分享。

近年來,深度神經(jīng)網(wǎng)絡(luò)在語音、圖像領(lǐng)域取得突出進展,以至于很多人將深度學習與深度神經(jīng)網(wǎng)絡(luò)等同視之。但周志華表示,總結(jié)Kaggle 競賽中的獲獎結(jié)果可以發(fā)現(xiàn),神經(jīng)網(wǎng)絡(luò)獲勝的往往就是在圖像、視頻、聲音這幾類典型任務(wù)上,而在其它涉及到混合建模、離散建模、符號建模的任務(wù)上,相比其他模型就會差一些。

為什么會產(chǎn)生這樣的結(jié)果?周志華從深度神經(jīng)網(wǎng)絡(luò)的深層含義說起,條分縷析地總結(jié)出神經(jīng)網(wǎng)絡(luò)取得成功的三大原因:

有逐層的處理

有特征的內(nèi)部變化

有足夠的模型復(fù)雜度

并得出結(jié)論:如果滿足這三大條件,則并不一定只能用深度神經(jīng)網(wǎng)絡(luò)。

由于神經(jīng)網(wǎng)絡(luò)存在的一些缺陷,很多時候人們不得不考慮其他的模型。周志華介紹了他所領(lǐng)導(dǎo)的團隊提出的gcforest方法,稱該方法有良好的跨任務(wù)表現(xiàn)、自適應(yīng)的模型復(fù)雜度等優(yōu)勢。

而對于 gcforest 研究的重要意義,正如周志華在分享中表示的那樣,深度學習是一個黑屋子,以前大家都知道它里面有深度神經(jīng)網(wǎng)絡(luò),現(xiàn)在我們把這個屋子打開了一扇門,把 gcforest 放進來,我想以后可能還有更多的東西,這是這個工作從學術(shù)科學發(fā)展上更重要的價值所在。

周志華教授是美國計算機學會 (ACM)、美國科學促進會 (AAAS)、國際人工智能學會 (AAAI) 、國際電氣電子工程師學會 (IEEE) 、國際模式識別學會 (IAPR)、國際工程技術(shù) (IET/IEE) 等學會的會士,實現(xiàn)了 AI 領(lǐng)域會士大滿貫,也是唯一一位在中國大陸取得全部學位的 AAAI 會士,對于機器學習中的集成學習、多標記學習與半監(jiān)督學習有著卓越的貢獻。他還一手參與創(chuàng)建了南京大學人工智能學院并擔任院長。

下面是演講全文,AI科技大本營整理:

各位可能最近都聽說我們南京大學成立了人工智能學院,這是中國 C9 高校的第一個人工智能學科。今天就跟大家談一談我們自己對于深度學習的一點點非常粗淺的看法,僅供大家批評討論。

▌什么是深度學習?

我們都知道現(xiàn)在人工智能很熱,掀起這股的熱潮最重要的技術(shù)之一就是深度學習技術(shù)。今天當我們談到深度學習的時候,其實已經(jīng)可以看到在各種各樣的應(yīng)用,包括圖像、視頻、聲音、自然語言處理等等。如果我們問一個問題,什么是深度學習?大多數(shù)人基本會認為,深度學習差不多就等于深度神經(jīng)網(wǎng)絡(luò)。

我給大家看一個例子。有一個非常著名的學會是國際工業(yè)與應(yīng)用數(shù)學學會,他們有一個報紙叫 SIAM News。去年 6 月份的頭版上有一篇文章,它里面的重點說的就是深度學習是什么?它(深度學習)是機器學習的一個子域(subfield),這里面要用深度神經(jīng)網(wǎng)絡(luò)。

所以基本上如果我們要談深度學習的話,首先要從神經(jīng)網(wǎng)絡(luò)開始。神經(jīng)網(wǎng)絡(luò)并不是一個新生事物,人們已經(jīng)研究了超過半個世紀。但以往的話我們會用這樣的神經(jīng)網(wǎng)絡(luò),就是中間有一個隱層或者有兩個隱層。在這樣的神經(jīng)網(wǎng)絡(luò)里面,它的每一個單元是一個什么樣的東西呢?是個非常簡單的計算模型。

比如說這么一個計算模型,實際上半個多世紀以前我們就已經(jīng)總結(jié)出來了。我們收到一些輸入,這些輸入通過一些連接放大,到了細胞之后,它的“加和”如果超過一個閾值,這個細胞就激活了。實際上說穿了就是這么一個非常簡單的公式,所謂的神經(jīng)網(wǎng)絡(luò)就是很多這樣的公式通過嵌套迭代得到的一個數(shù)學系統(tǒng)。

今天我們說深度神經(jīng)網(wǎng)絡(luò)的時候指的是什么?其實簡單來說就是用的神經(jīng)網(wǎng)絡(luò)有很多層,很深很深。大概多少?看一個數(shù)據(jù),2012 年深度學習剛剛受到大家的重視的時候,一個 ImageNet 競賽的冠軍用了 8 層,2015 年 152 層,2016 年 1207 多層,這是一個非常龐大的系統(tǒng)。

要把這個系統(tǒng)訓練出來難度非常大,但有一個非常好的消息,真正的神經(jīng)網(wǎng)絡(luò)里面的計算單元,它最重要的激活函數(shù)是連續(xù)的,是可微的。以前在神經(jīng)網(wǎng)絡(luò)里面我們經(jīng)常用 Sigmoid,它是連續(xù)可微的,現(xiàn)在在深度神經(jīng)網(wǎng)絡(luò)里,我們經(jīng)常用 tanh 或者 tanh 的變體,它也是連續(xù)可微的。有了這么一個性質(zhì)以后,我們會得到一個非常好的結(jié)果,這個結(jié)果就是現(xiàn)在我們可以很容易計算系統(tǒng)的梯度。因此就可以很容易用著名的 BP 算法(注:反向傳播算法)來訓練這系統(tǒng)。

今天通過這樣的算法,神經(jīng)網(wǎng)絡(luò)已經(jīng)取得了非常多的勝利,但實際上在學術(shù)界大家一直沒有想清楚一件事情,就是我們?yōu)槭裁匆眠@么深的模式?可能今天有很多人會說深度學習已經(jīng)取得了很多的成功,但它一個很大的問題就是理論基礎(chǔ)不清楚,我們理論上還說不清楚它到底怎么做?為什么會成功?這里面的關(guān)鍵是什么?其實我們根本不知道該從什么角度去看它。因為如果我們要做理論分析的話,首先應(yīng)該有一點直覺,你到底因為什么有用,在這條路上往前走才能有關(guān)鍵的結(jié)果。

關(guān)于深度神經(jīng)網(wǎng)絡(luò)為什么能深,其實這件事情到今天為止學術(shù)界都沒有統(tǒng)一的看法。在這里面給大家講一個我們前一段時間給出的論述,這個論述其實是從主要模型的復(fù)雜度的角度來討論的。

▌深度學習成功的關(guān)鍵是什么?

我們知道一個機器學習模型的復(fù)雜度實際上和它的容量有關(guān),而這個容量直接決定了它的學習能力,所以說學習能力和復(fù)雜度是有關(guān)的。其實我們老早就知道,如果我們能夠增強一個學習模型的復(fù)雜度,它的學習能力就能夠提升,那么怎樣去提高復(fù)雜度呢?

對神經(jīng)網(wǎng)絡(luò)這樣的模型來說有兩條很明顯的途徑,一條是我們把模型變深,一條是我們把它變寬,但是如果從提升復(fù)雜度的角度,變深會更有效。當你變寬的時候你只不過增加了一些計算單元、增加了函數(shù)的個數(shù),而在變深的時候不僅增加了個數(shù),其實還增加了嵌入的層次,所以泛函的表達能力會更強。所以從這個角度來說,我們應(yīng)該嘗試變深。

原來滿足這三個條件就可以不用考慮深度神經(jīng)網(wǎng)絡(luò)了

大家可能就會問了,既然要變深,你們不早就知道這件事了嗎?為什么現(xiàn)在才開始做呢?其實這就涉及到另外一個問題,我們在機器學習里面把學習能力變強了,這其實未必真的是一件好事。因為我們機器學習一直在斗爭的一個問題,就是我們經(jīng)常會碰到過擬合。

給定一個數(shù)據(jù)集,我們希望把數(shù)據(jù)集里的東西學出來,但是有時候可能把這個數(shù)據(jù)本身的一些特性學出來了,而這個特性卻不是一般的規(guī)律。當把學出來的錯誤東西當成一般規(guī)律來用的時候,就會犯巨大的錯誤,這種現(xiàn)象就是過擬合。為什么會把數(shù)據(jù)本身的特性學出來?就是因為我們的模型學習能力太強了。

所以以往我們不太用太復(fù)雜的模型,為什么現(xiàn)在我們可以用這樣的模型?其實有很多因素,第一個因素是現(xiàn)在我們有很大的數(shù)據(jù),那么比如說我手上如果只有 3000 多數(shù)據(jù),學出來的特性就不太可能是一般規(guī)律。但是如果有三千萬、甚至三千萬萬的數(shù)據(jù),那么這些數(shù)據(jù)里的特性本來就是一般規(guī)律,所以使用大的數(shù)據(jù)本身就是緩解過擬合的關(guān)鍵條件。

第二個因素,今天有很多很強大的計算設(shè)備,所以才能夠訓練出這樣的模型,同時通過領(lǐng)域里很多學者的努力,我們有了大量關(guān)于訓練這樣復(fù)雜模型的技巧和算法,所以這使得我們使用復(fù)雜模型成為可能。

按照這個思路來說,其實有三件事:第一,我們今天有更大的數(shù)據(jù);第二;有強力的計算設(shè)備;第三,有很多有效的訓練技巧。

這導(dǎo)致我們可以用高復(fù)雜度的模型。而深度神經(jīng)網(wǎng)絡(luò)恰恰就是一種很便于實現(xiàn)的高復(fù)雜度的模型。所以這么一套理論解釋,如果我們說它是一個解釋的話,它好像是能告訴我們?yōu)槭裁次覀儸F(xiàn)在能用深度神經(jīng)網(wǎng)絡(luò)。為什么它能成功?就是因為復(fù)雜度大。

原來滿足這三個條件就可以不用考慮深度神經(jīng)網(wǎng)絡(luò)了

在一年多之前,我們把這個解釋說出來的時候,其實國內(nèi)外很多同行也很贊同這么一個解釋,因為大家覺得這聽起來蠻有道理的,其實我一直對這個不是特別滿意,這是為什么?其實有一個潛在的問題我們一直沒有回答。如果從復(fù)雜度解釋的話,我們就沒有辦法說為什么扁平的或者寬的網(wǎng)絡(luò)做不到深度神經(jīng)網(wǎng)絡(luò)的性能?因為事實上我們把網(wǎng)絡(luò)變寬,雖然它的效率不是那么高,但是它同樣也能起到增加復(fù)雜度的能力。

實際上我們在 1989 年的時候就已經(jīng)有一個理論證明,說神經(jīng)網(wǎng)絡(luò)有萬有逼近能力:只要你用一個隱層,就可以以任意精度逼近任意復(fù)雜度的定義在一個緊集上的連續(xù)函數(shù)。

其實不一定要非常深。這里面我要引用一個說法,神經(jīng)網(wǎng)絡(luò)有萬有逼近能力,可能是有的人會認為這是導(dǎo)致神經(jīng)網(wǎng)絡(luò)為什么這么強大的一個主要原因,其實這是一個誤解。

我們在機器學習里面用到的所有模型,它必須具有萬有逼近能力。如果沒有這個能力,根本不可用。所以最簡單的,哪怕傅立葉變換,它就已經(jīng)有這個能力,所以這個能力不是神經(jīng)網(wǎng)絡(luò)所特有的。那我們在這兒要強調(diào)的一件事情是什么?其實我只要有一個隱層,我加無限度的神經(jīng)元進去,它的能力也會變得很強,復(fù)雜度會變得很高。但是這樣的模型無論在應(yīng)用里面怎么試,我們發(fā)現(xiàn)都不如深度神經(jīng)網(wǎng)絡(luò)好。所以從復(fù)雜的角度可能很難解決這個問題,我們需要一點更深入的思考。

原來滿足這三個條件就可以不用考慮深度神經(jīng)網(wǎng)絡(luò)了

所以我們要問這么一個問題:深度神經(jīng)網(wǎng)絡(luò)里面最本質(zhì)的東西到底是什么?今天我們的答案可能是要做表示學習的能力。以往我們用機器學習,首先拿到一個數(shù)據(jù),比如這個數(shù)據(jù)對象是一個圖像,我們就用很多特征把它描述出來,比如說顏色、紋理等等,這一些特征都是我們?nèi)祟悓<彝ㄟ^手工來設(shè)計的,表達出來之后我們再去進行學習。

而今天我們有了深度學習之后,現(xiàn)在不再需要手工設(shè)計特征,把數(shù)據(jù)從一端扔進去,模型從另外一端出來,中間所有的特征完全通過學習自己來解決,這是所謂的特征學習或者表示學習,這和以往的機器學習技術(shù)相比是一個很大的進步,我們不再需要完全依賴人類專家去設(shè)計特征了。

有時候我們的工業(yè)界朋友會說,這里面有一個很重要的叫做端到端學習,大家認為這個非常重要。其實這一件事情要分兩個方面來看:一個方面當我們把特征學習和分類器學習聯(lián)合起來考慮,可以達到聯(lián)合優(yōu)化的作用,這是好的方面;但另一方面,如果這里面發(fā)生什么我們不清楚,這時候端到端的學習不一定真的好,因為可能第一部分往東,第二部分往西,合起來看往東走的更多一些,其實內(nèi)部有一些東西已經(jīng)抵消了。

實際上機器學習里面早就有端到端學習,比如說做特征選擇,但這類方法是不是比其它特征選擇的方法要強?不一定,所以這不是最重要的,真正重要的還是特征學習或者表示學習。

我們再問下一個問題,表示學習最關(guān)鍵的又是什么?對這件事情我們現(xiàn)在有這么一個答案,就是逐層的處理?,F(xiàn)在我們就引用非常流行的《深度學習》一書里的一張圖,當我們拿到一個圖像的時候,如果我們把神經(jīng)網(wǎng)絡(luò)看作很多層的時候,首先在最底層我們看到是一些像素的東西,當我們一層一層往上的時候,慢慢的有邊緣,再往上有輪廓等等,在真正的神經(jīng)網(wǎng)絡(luò)模型里不一定有這么清晰的分層,但總體上確實是在往上不斷做對象的抽象。

原來滿足這三個條件就可以不用考慮深度神經(jīng)網(wǎng)絡(luò)了

而這個特點,我們現(xiàn)在認為這好像是深度學習真正成功的關(guān)鍵因素之一,因為扁平神經(jīng)網(wǎng)絡(luò)能做很多深層神經(jīng)網(wǎng)絡(luò)所做的事,但是有一點它做不到:當它是扁平的時候,就沒有進行一個深度加工,所以深度的逐層抽象可能很關(guān)鍵。那如果我們再看一看,大家可能就會問,其實逐層處理這件事,在機器學習里也不是一個新東西。

以前有很多逐層處理的東西,比如說決策樹,它就是逐層處理,這是非常典型的模型。這個已經(jīng)有五六十年的歷史了,但它為什么做不到深度神經(jīng)網(wǎng)絡(luò)這么好呢?首先它的復(fù)雜度不夠,因為決策樹的深度,如果我們只考慮離散特征,其最深的深度不會超過特征的個數(shù),所以它的模型復(fù)雜度有上限;第二整個決策樹的學習過程中,它內(nèi)部沒有進行特征變化,始終是在一個特征空間里面進行,這可能也是一個問題。

大家如果對高級一點的機器學習模型有所了解,你可能會問,現(xiàn)在很多 Boosting 模型也是一層一層往下走,為什么它沒有取得深度學習的成功?我想問題其實差不多,首先復(fù)雜度還不夠,第二,更關(guān)鍵的一點,它始終在原始空間里面做事情,所有的這些學習器都是在原始特征空間,中間沒有進行任何的特征變換。

深度神經(jīng)網(wǎng)絡(luò)到底為什么成功?里面的關(guān)鍵原因是什么?我想首先我們需要兩件事,第一是逐層地處理,第二我們要有一個內(nèi)部的特征變換。而當我們考慮到這兩件事情的時候,我們就會發(fā)現(xiàn),其實深度模型是一個非常自然的選擇。有了這樣的模型,我們很容易可以做上面兩件事。但是當我們選擇用這么一個深度模型的時候,我們就會有很多問題,它容易 overfit,所以我們要用大數(shù)據(jù),它很難訓練,我們要有很多訓練的 trick,這個系統(tǒng)的計算開銷非常大,所以我們要有非常強有力的計算設(shè)備,比如 GPU 等等。

原來滿足這三個條件就可以不用考慮深度神經(jīng)網(wǎng)絡(luò)了

實際上所有這些東西是因為我們選擇了深度模型之后產(chǎn)生的一個結(jié)果,他們不是我們用深度學習的原因。所以這和以往我們的思考不太一樣,以往我們認為有了這些東西,導(dǎo)致我們用深度模型,現(xiàn)在我們覺得這個因果關(guān)系恰恰是反過來的——因為我們要用它,所以我們才會考慮上面的這些東西。

而另外還有一點我們要注意,當我們要有很大的訓練數(shù)據(jù)的時候,這就要求我們必須要有很復(fù)雜的模型。假設(shè)我們有一個線性模型的話,給你 2000 萬要的還是 2 億的樣本,其實對它不是太大區(qū)別,它已經(jīng)學不進去。而我們有了充分的復(fù)雜度,其實我們看到恰恰它又給我們使用深度模型加了一分。

由于這幾個原因,我們才覺得可能這是深度學習里面最關(guān)鍵的事情。所以這是我們現(xiàn)在的一個認識:第一我們要有逐層的處理;第二我們要有特征的內(nèi)部變化;第三,我們要有足夠的模型復(fù)雜度。

這三件事情是我們現(xiàn)在認為深度神經(jīng)網(wǎng)絡(luò)為什么能夠成功的關(guān)鍵原因,或者說這是一個猜測。如果滿足這幾個條件,我其實可以馬上想到,不一定真的要用神經(jīng)網(wǎng)絡(luò),神經(jīng)網(wǎng)絡(luò)是選擇的幾個方案之一,我只要同時做到這三件事,別的模型也可以,并不一定只能用深度神經(jīng)網(wǎng)絡(luò)。

原來滿足這三個條件就可以不用考慮深度神經(jīng)網(wǎng)絡(luò)了

▌深度神經(jīng)網(wǎng)絡(luò)的缺陷

我們就要想一想,我們有沒有必要考慮神經(jīng)網(wǎng)絡(luò)之外的模型?其實是有的。因為大家都知道神經(jīng)網(wǎng)絡(luò)有很多缺陷。

第一,凡是用過深度神經(jīng)網(wǎng)絡(luò)的人都知道,你要花大量的精力來調(diào)它的參數(shù),因為這是一個巨大的系統(tǒng)。這里面會帶來很多問題,首先當我們調(diào)參數(shù)的時候,這個經(jīng)驗其實是很難共享的。有的朋友可能說,我在第一個圖像數(shù)據(jù)集之上調(diào)數(shù)據(jù)的經(jīng)驗,當我用第二個圖像數(shù)據(jù)集的時候,這個經(jīng)驗肯定可以重用的。但是我們有沒有想過,比如說我們在圖像方面做了一個很大的神經(jīng)網(wǎng)絡(luò),這時候如果要去做語音,其實在圖像上面調(diào)參數(shù)的經(jīng)驗,在語音問題上可能基本上不太有借鑒作用,所以當我們跨任務(wù)的時候,經(jīng)驗可能就很難有成效。

而且還帶來第二個問題,我們今天都非常關(guān)注結(jié)果的可重復(fù)性,不管是科學研究、技術(shù)發(fā)展,都希望這結(jié)果可重復(fù),而在整個機器學習領(lǐng)域里面,深度學習的可重復(fù)性是最弱的。我們經(jīng)常會碰到這樣的情況,有一組研究人員發(fā)文章報告了一個結(jié)果,而這結(jié)果其他的研究人員很難重復(fù)。因為哪怕你用同樣的數(shù)據(jù)、同樣的方法,只要超參數(shù)的設(shè)計不一樣,你的結(jié)果就不一樣。

我們在用深度神經(jīng)網(wǎng)絡(luò)的時候,模型的復(fù)雜度必須事先指定,因為在訓練模型之前,神經(jīng)網(wǎng)絡(luò)是什么樣就必須定了,然后才能用 BP 算法等等去訓練它。其實這就會帶來很大的問題,因為在沒有解決這個任務(wù)之前,我們怎么知道這個復(fù)雜度應(yīng)該有多大呢?所以實際上大家做的通常都是設(shè)更大的復(fù)雜度。

如果在座各位關(guān)注過去三四年里深度神經(jīng)網(wǎng)絡(luò)、深度學習領(lǐng)域的進展,你可以看到很多最前沿的工作在做什么事呢?其實都是在有效地縮減網(wǎng)絡(luò)的復(fù)雜度。比如說 ResNet 網(wǎng)絡(luò),還有最近大家經(jīng)常用的模型壓縮等,其實我們想一想不都是把復(fù)雜度變小,實際上是先用了一個過大的復(fù)雜度,然后再降下來。

那么我們有沒有可能在一開始就讓這個模型的復(fù)雜度隨著數(shù)據(jù)而變化?這一點對神經(jīng)網(wǎng)絡(luò)可能很困難,但是對別的模型是有可能的。還有很多別的問題,比如說理論分析很困難,需要非常大的數(shù)據(jù),黑箱模型等等。

原來滿足這三個條件就可以不用考慮深度神經(jīng)網(wǎng)絡(luò)了

從另外一個方面,各位朋友可能說,你做學術(shù)研究可能要考慮這些事,我是做應(yīng)用的,你只要給我解決問題就好了。就算從這角度來講,我們研究神經(jīng)網(wǎng)絡(luò)之外的東西也是很必要的。雖然神經(jīng)網(wǎng)絡(luò)這么流行,這么成功,但是其實我們可以看到,在很多的任務(wù)上性能最好的,不見得完全是深度神經(jīng)網(wǎng)絡(luò),比如說大家經(jīng)常關(guān)心的 Kaggle 競賽,它上面是各種各樣的真實問題,比如說有機票、訂旅館,商品推薦等等。

如果我們看上面的獲勝者,今天很多還不是神經(jīng)網(wǎng)絡(luò),很多是像隨機森林等這樣的模型。如果我們真的仔細去關(guān)注,真的神經(jīng)網(wǎng)絡(luò)獲勝的往往就是在圖像、視頻、聲音這幾類典型任務(wù)上,而在其它涉及到混合建模、離散建模、符號建模的任務(wù)上,其實神經(jīng)網(wǎng)絡(luò)的性能比其它模型還要差一些。

所以如果我們從一個學術(shù)的角度重新總結(jié)下這件事,我們就可以看到,今天我們談到的深度模型基本上都是深度神經(jīng)網(wǎng)絡(luò)。如果用術(shù)語來說的話,它是多層可參數(shù)化的可微分的非線性模塊所組成的模型,而這個模型可以用 BP 算法來訓練。

那么這里面有兩個問題:第一,我們現(xiàn)實世界遇到的各種各樣的問題的性質(zhì),并不是絕對都是可微的,或者能夠用可微的模型做最佳建模;第二,過去幾十年里面,我們的機器學習界做了很多很多模型出來,這些都可以作為我們構(gòu)建一個系統(tǒng)的基石,而中間有相當一部分模塊是不可微的。

原來滿足這三個條件就可以不用考慮深度神經(jīng)網(wǎng)絡(luò)了

那么這些能不能用來構(gòu)建深度模型?能不能通過構(gòu)建深度模型之后得到更好的性能呢?能不能通過把它們變深之后,使得今天深度模型還打不過隨機森林這一些模型的任務(wù),能夠得到更好的結(jié)果呢?

所以我們現(xiàn)在有一個很大的挑戰(zhàn),這不光是學術(shù)上也是技術(shù)上的挑戰(zhàn),就是我們能不能用不可微的模塊來構(gòu)建深度模型。

原來滿足這三個條件就可以不用考慮深度神經(jīng)網(wǎng)絡(luò)了

其實這個問題一旦得到回答,我們同時就可以得到好多其他問題的回答。比如說深度模型是不是就是深度神經(jīng)網(wǎng)絡(luò)?我們能不能用不可微的模型把它做深,這個時候我們不能用 BP 算法來訓練,同時我們能不能讓深度模型在更多的任務(wù)上獲勝。這個問題其實我們提出來之后在國際上也有一些學者提出了一些相似看法。比如大家都知道深度學習非常著名的領(lǐng)軍人物 Geoffrey Hinton 教授,他也提出來希望深度學習以后能不能擺脫 BP 算法來做,他提出這個想法比我們要更晚一些。所以我想這一些問題是站在很前沿的角度上做的探索。

那我們自己就受到這樣的一個啟發(fā),我們要考慮這三件事,就是剛才跟大家分析得到的三個結(jié)論:第一要做逐層處理,第二是特征的內(nèi)部變換,第三我們希望得到一個充分的模型復(fù)雜度。

▌深度森林

我自己領(lǐng)導(dǎo)的研究組最近在這一方面做了一些工作,我們最近提出了一個 深度森林的方法。

原來滿足這三個條件就可以不用考慮深度神經(jīng)網(wǎng)絡(luò)了

在這個方法里面我今天不跟大家講技術(shù)細節(jié),它是一個基于樹模型的方法,主要是借用集成學習的很多想法。其次在很多不同的任務(wù)上,它的模型得到的結(jié)果和深度神經(jīng)網(wǎng)絡(luò)是高度相似的,除了一些大規(guī)模的圖像等等。在其他的任務(wù)上,特別是跨任務(wù)表現(xiàn)非常好,我們可以用同樣一套參數(shù),用在不同的任務(wù)中得到不錯的性能,就不需要逐任務(wù)的慢慢調(diào)參數(shù)。

還有一個很重要的特性,它有自適應(yīng)的模型復(fù)雜度,可以根據(jù)數(shù)據(jù)的大小自動來判定該模型長到什么程度。它的中間有很多好的性質(zhì),有很多朋友可能也會下載我們的開源代碼拿去試,到時候我們會有更大規(guī)模分布式的版本等等,要做大的任務(wù)必須要有更大規(guī)模的實現(xiàn),就不再是單機版能做的事。

但另一方面,我們要看到這實際上是在發(fā)展學科思路上一個全新的思路探索,所以今天雖然它已經(jīng)能夠解決一部分問題了,但是我們應(yīng)該可以看到它再往下發(fā)展,前景可能是今天我們還不太能夠完全預(yù)見到的,所以我這邊簡單回顧一下卷積神經(jīng)網(wǎng)絡(luò),這么一個非常流行的技術(shù),它其實也是經(jīng)過了很長期的發(fā)展。

最早信號處理里面關(guān)于卷積的出現(xiàn),其實是有一個多世紀了,但是現(xiàn)在深度神經(jīng)網(wǎng)絡(luò)的歷史是從 1962 年兩位諾貝爾獎得主關(guān)于生物視覺皮層的研究開始。但是不管怎么樣第一次在神經(jīng)網(wǎng)絡(luò)里引入卷積是 1982 年,在此之后他們做了很多的工作,1989 年引入 BP 算法,那時算法就已經(jīng)成型了,到了 1995 年第一次對 CNN 有了一個完整的描述,在 1998 年對美國支票的識別取得了很大的成功,在 2006 年提出了通過無監(jiān)督逐層訓練深層模型,到了 2009 年這個技術(shù)被引到 CNN 里,我們可以做深度的 CNN,2012 年深度的 CNN 被用在ImageNet 比賽中,直接掀起了一波深度學習的浪潮。

原來滿足這三個條件就可以不用考慮深度神經(jīng)網(wǎng)絡(luò)了

回顧這段歷史,從卷積神經(jīng)網(wǎng)絡(luò)開始出現(xiàn),到這個算法真正在工業(yè)界取得巨大成效,中間經(jīng)過了 30 年的發(fā)展,我經(jīng)常說我們其實沒有什么真正的顛覆性技術(shù),所有的技術(shù)都是一步步發(fā)展。今天我們有新的探索,新的探索能夠解決一些問題,但我們應(yīng)該往長遠看,在經(jīng)過很多年,很多人的進一步努力后,今天的探索應(yīng)該是為未來技術(shù)打下一個更加重要的基礎(chǔ)。

我們做的這一工作,我想它實際上是深度森林這一大類模型的開始,技術(shù)細節(jié)就不展開了,但是它全面的用到了集成學習里,據(jù)我所知多樣性增強方面,所有的技術(shù)都用進去,所以如果大家感興趣,這是我自己寫的一本書。

原來滿足這三個條件就可以不用考慮深度神經(jīng)網(wǎng)絡(luò)了

我所做的工作的最重要的意義是什么呢?以前我們說深度學習是一個黑屋子,這個黑屋子里面有什么東西呢?大家都知道它有深度神經(jīng)網(wǎng)絡(luò),現(xiàn)在我們把這個屋子打開了一扇門,把深度森林放進來,我想以后可能還有更多的東西。所以這是這個工作從學術(shù)科學發(fā)展上的意義上,有一個更重要的價值。

▌AI時代最重要的是人才

最后我想用兩分鐘的時間談一談,南京大學人工智能學院馬上跟京東開展全面的、深入的在科學研究和人才培養(yǎng)方面的合作。

關(guān)于人工智能產(chǎn)業(yè)的發(fā)展,我們要問一個問題,我們到底需要什么?大家說需要設(shè)備嗎?其實做人工智能的研究不需要特殊機密的設(shè)備,你只要花錢,這些設(shè)備都買得到,GPU 這些都不是什么高端的禁運的商品。第二是不是缺數(shù)據(jù)?也不是,現(xiàn)在我們的數(shù)據(jù)收集存儲、傳輸、處理的能力大幅度的提升,到處都是數(shù)據(jù),真正缺的是什么?

其實人工智能時代最缺的就是人才。因為對這個行業(yè)來說,你有多好的人,才有多好的人工智能。所以我們現(xiàn)在可以看到,其實全球都在爭搶人工智能人才,不光是中國,美國也是這樣。所以我們成立人工智能學院,其實就有這樣的考慮。

原來滿足這三個條件就可以不用考慮深度神經(jīng)網(wǎng)絡(luò)了

信息化之后人類社會必然進入智能化,可以說這是一個不可逆轉(zhuǎn)、不可改變的一個趨勢。因為我們基于數(shù)據(jù)信息為人提供智能輔助,讓人做事更容易,這是我們所有人的愿望。蒸汽機的革命是把我們從體力勞動里面解放出來,人工智能革命應(yīng)該是把我們?nèi)祟悘囊恍┓磸?fù)性強的簡單智力勞動中解放出來,而且人工智能這一個學科和其他短期的投資風口和短期熱點不太一樣,它經(jīng)過 60 多年的發(fā)展,已經(jīng)有了一個龐大的、真正的知識體系。

原來滿足這三個條件就可以不用考慮深度神經(jīng)網(wǎng)絡(luò)了

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴

原文標題:周志華:滿足這三大條件,可以考慮不用深度神經(jīng)網(wǎng)絡(luò)

文章出處:【微信號:AI_Thinker,微信公眾號:人工智能頭條】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    ADS828的GND引腳有三個,這三個引腳的接地是哪個接數(shù)字地,哪個接模擬地?

    在貴公司的這款A(yù)D轉(zhuǎn)換芯片ADS828的GND引腳有三個(1、16、26)想咨詢一下這三個引腳的接地是哪個接數(shù)字地,哪個接模擬地,還是不用考慮這方面;還有就是在輸出偏置電壓的時候,在
    發(fā)表于 02-14 08:27

    BP神經(jīng)網(wǎng)絡(luò)與卷積神經(jīng)網(wǎng)絡(luò)的比較

    BP神經(jīng)網(wǎng)絡(luò)與卷積神經(jīng)網(wǎng)絡(luò)在多個方面存在顯著差異,以下是對兩者的比較: 一、結(jié)構(gòu)特點 BP神經(jīng)網(wǎng)絡(luò) : BP神經(jīng)網(wǎng)絡(luò)是一種多層的前饋神經(jīng)網(wǎng)絡(luò)
    的頭像 發(fā)表于 02-12 15:53 ?661次閱讀

    BP神經(jīng)網(wǎng)絡(luò)深度學習的關(guān)系

    ),是一種多層前饋神經(jīng)網(wǎng)絡(luò),它通過反向傳播算法進行訓練。BP神經(jīng)網(wǎng)絡(luò)由輸入層、一或多個隱藏層和輸出層組成,通過逐層遞減的方式調(diào)整網(wǎng)絡(luò)權(quán)重,目的是最小化
    的頭像 發(fā)表于 02-12 15:15 ?850次閱讀

    深度學習入門:簡單神經(jīng)網(wǎng)絡(luò)的構(gòu)建與實現(xiàn)

    深度學習中,神經(jīng)網(wǎng)絡(luò)是核心模型。今天我們用 Python 和 NumPy 構(gòu)建一簡單的神經(jīng)網(wǎng)絡(luò)。 神經(jīng)網(wǎng)絡(luò)由多個
    的頭像 發(fā)表于 01-23 13:52 ?528次閱讀

    人工神經(jīng)網(wǎng)絡(luò)的原理和多種神經(jīng)網(wǎng)絡(luò)架構(gòu)方法

    在上一篇文章中,我們介紹傳統(tǒng)機器學習的基礎(chǔ)知識和多種算法。在本文中,我們會介紹人工神經(jīng)網(wǎng)絡(luò)的原理和多種神經(jīng)網(wǎng)絡(luò)架構(gòu)方法,供各位老師選擇。 01 人工神經(jīng)網(wǎng)絡(luò) ? 人工
    的頭像 發(fā)表于 01-09 10:24 ?1183次閱讀
    人工<b class='flag-5'>神經(jīng)網(wǎng)絡(luò)</b>的原理和多種<b class='flag-5'>神經(jīng)網(wǎng)絡(luò)</b>架構(gòu)方法

    卷積神經(jīng)網(wǎng)絡(luò)與傳統(tǒng)神經(jīng)網(wǎng)絡(luò)的比較

    深度學習領(lǐng)域,神經(jīng)網(wǎng)絡(luò)模型被廣泛應(yīng)用于各種任務(wù),如圖像識別、自然語言處理和游戲智能等。其中,卷積神經(jīng)網(wǎng)絡(luò)(CNNs)和傳統(tǒng)神經(jīng)網(wǎng)絡(luò)是兩種常見的模型。 1. 結(jié)構(gòu)差異 1.1 傳統(tǒng)
    的頭像 發(fā)表于 11-15 14:53 ?1865次閱讀

    深度學習中的卷積神經(jīng)網(wǎng)絡(luò)模型

    深度學習近年來在多個領(lǐng)域取得了顯著的進展,尤其是在圖像識別、語音識別和自然語言處理等方面。卷積神經(jīng)網(wǎng)絡(luò)作為深度學習的一分支,因其在圖像處理任務(wù)中的卓越性能而受到廣泛關(guān)注。 卷積
    的頭像 發(fā)表于 11-15 14:52 ?844次閱讀

    卷積神經(jīng)網(wǎng)絡(luò)的基本原理與算法

    ),是深度學習的代表算法之一。 一、基本原理 卷積運算 卷積運算是卷積神經(jīng)網(wǎng)絡(luò)的核心,用于提取圖像中的局部特征。 定義卷積核:卷積核是一小的矩陣,用于在輸入圖像上滑動,提取局部特征。 滑動窗口:將卷積核在輸入圖像上滑動,每次滑
    的頭像 發(fā)表于 11-15 14:47 ?1773次閱讀

    LSTM神經(jīng)網(wǎng)絡(luò)與傳統(tǒng)RNN的區(qū)別

    深度學習領(lǐng)域,循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)因其能夠處理序列數(shù)據(jù)而受到廣泛關(guān)注。然而,傳統(tǒng)RNN在處理長序列時存在梯度消失或梯度爆炸的問題。為了解決這一問題,LSTM(長短期記憶)神經(jīng)網(wǎng)絡(luò)應(yīng)運而生。 循環(huán)
    的頭像 發(fā)表于 11-13 09:58 ?1208次閱讀

    LSTM神經(jīng)網(wǎng)絡(luò)在時間序列預(yù)測中的應(yīng)用

    LSTM是一種特殊的循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN),它能夠?qū)W習長期依賴關(guān)系。與傳統(tǒng)的RNN相比,LSTM通過引入門控機制(輸入門、遺忘門、輸出門)來解決梯度消失和梯度爆炸的問題,使其能夠處理更長的序列數(shù)據(jù)。 LSTM的工作原理 LSTM單元包含三個門控機制,它們
    的頭像 發(fā)表于 11-13 09:54 ?2037次閱讀

    Moku人工神經(jīng)網(wǎng)絡(luò)101

    Moku3.3版更新在Moku:Pro平臺新增全新的儀器功能【神經(jīng)網(wǎng)絡(luò)】,使用戶能夠在Moku設(shè)備上部署實時機器學習算法,進行快速、靈活的信號分析、去噪、傳感器調(diào)節(jié)校準、閉環(huán)反饋等應(yīng)用。如果您
    的頭像 發(fā)表于 11-01 08:06 ?661次閱讀
    Moku人工<b class='flag-5'>神經(jīng)網(wǎng)絡(luò)</b>101

    關(guān)于卷積神經(jīng)網(wǎng)絡(luò),這些概念你厘清了么~

    元值的激活范圍。神經(jīng)元的功能在數(shù)學上可以描述為 其中,f為激活函數(shù),w為權(quán)重,x為輸入數(shù)據(jù),b為偏置。數(shù)據(jù)可以是單獨的標量、向量或矩陣。圖1顯示
    發(fā)表于 10-24 13:56

    【飛凌嵌入式OK3576-C開發(fā)板體驗】RKNN神經(jīng)網(wǎng)絡(luò)算法開發(fā)環(huán)境搭建

    download_model.sh 腳本,該腳本 將下載一可用的 YOLOv5 ONNX 模型,并存放在當前 model 目錄下,參考命令如下: 安裝COCO數(shù)據(jù)集,在深度神經(jīng)網(wǎng)絡(luò)算法中,模型的訓練離不開大量的數(shù)據(jù)集,數(shù)據(jù)
    發(fā)表于 10-10 09:28

    FPGA在深度神經(jīng)網(wǎng)絡(luò)中的應(yīng)用

    隨著人工智能技術(shù)的飛速發(fā)展,深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network, DNN)作為其核心算法之一,在圖像識別、語音識別、自然語言處理等領(lǐng)域取得了顯著成果。然而,傳統(tǒng)的深度神經(jīng)網(wǎng)絡(luò)
    的頭像 發(fā)表于 07-24 10:42 ?1199次閱讀

    如何構(gòu)建多層神經(jīng)網(wǎng)絡(luò)

    構(gòu)建多層神經(jīng)網(wǎng)絡(luò)(MLP, Multi-Layer Perceptron)模型是一在機器學習和深度學習領(lǐng)域廣泛使用的技術(shù),尤其在處理分類和回歸問題時。在本文中,我們將深入探討如何從頭開始構(gòu)建一
    的頭像 發(fā)表于 07-19 17:19 ?1554次閱讀