chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

神經(jīng)網(wǎng)絡可解釋性研究的重要性日益凸顯

WpOh_rgznai100 ? 來源:YXQ ? 2019-06-27 10:54 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

本來想把題目取為“從煉丹到化學”,但是這樣的題目太言過其實,遠不是近期可以做到的,學術(shù)研究需要嚴謹。但是,尋找適當?shù)臄?shù)學工具去建模深度神經(jīng)網(wǎng)絡表達能力和訓練能力,將基于經(jīng)驗主義的調(diào)參式深度學習,逐漸過渡為基于一些評測指標定量指導的深度學習, 是新一代人工智能需要面對的課題,也是在當前深度學習渾渾噩噩的大背景中的一些新的希望。

這篇短文旨在介紹團隊近期的ICML工作——”Towards a Deep and Unified Understanding of Deep Neural Models in NLP”(這篇先介紹NLP領域,以后有時間再介紹類似思想解釋CV網(wǎng)絡的論文)。這是我與微軟亞洲研究院合作的一篇論文。其中,微軟研究院的王希廷研究員在NLP方向有豐富經(jīng)驗,王老師和關超宇同學在這個課題上做出了非常巨大的貢獻,這里再三感謝。

大家說神經(jīng)網(wǎng)絡是“黑箱”,其含義至少有以下兩個方面:一、神經(jīng)網(wǎng)絡特征或決策邏輯在語義層面難以理解;二、缺少數(shù)學工具去診斷與評測網(wǎng)絡的特征表達能力(比如,去解釋深度模型所建模的知識量、其泛化能力和收斂速度),進而解釋目前不同神經(jīng)網(wǎng)絡模型的信息處理特點。

過去我的研究一直關注第一個方面,而這篇ICML論文同時關注以上兩個方面——針對不同自然語言應用的神經(jīng)網(wǎng)絡,尋找恰當?shù)臄?shù)學工具去建模其中層特征所建模的信息量,并可視化其中層特征的信息分布,進而解釋不同模型的性能差異。

其實,我一直希望去建模神經(jīng)網(wǎng)絡的特征表達能力,但是又一直遲遲不愿意下手去做。究其原因,無非是找不到一套優(yōu)美的數(shù)學建模方法。深度學習研究及其應用很多已經(jīng)被人詬病為“經(jīng)驗主義”與“拍腦袋”,我不能讓其解釋性算法也淪為經(jīng)驗主義式的拍腦袋——不然解釋性工作還有什么意義。

研究的難點在于對神經(jīng)網(wǎng)絡表達能力的評測指標需要具備“普適性”和“一貫性”。首先,這里“普適性”是指解釋性指標需要定義在某種通用的數(shù)學概念之上,保證與既有數(shù)學體系有盡可能多的連接,而與此同時,解釋性指標需要建立在盡可能少的條件假設之上,指標的計算算法盡可能獨立于神經(jīng)網(wǎng)絡結(jié)構(gòu)和目標任務的選擇。

其次,這里的“一貫性”指評測指標需要客觀的反應特征表達能力,并實現(xiàn)廣泛的比較,比如

診斷與比較同一神經(jīng)網(wǎng)絡中不同層之間語義信息的繼承與遺忘;

診斷與比較針對同一任務的不同神經(jīng)網(wǎng)絡的任意層之間的語義信息分

比較針對不同任務的不同神經(jīng)網(wǎng)絡的信息處理特點。

具體來說,在某個NLP應用中,當輸入某句話x=[x1,x2,…,xn]到目標神經(jīng)網(wǎng)絡時,我們可以把神經(jīng)網(wǎng)絡的信息處理過程,看成對輸入單詞信息的逐層遺忘的過程。即,網(wǎng)絡特征每經(jīng)過一層傳遞,就會損失一些信息,而神經(jīng)網(wǎng)絡的作用就是盡可能多的遺忘與目標任務無關的信息,而保留與目標任務相關的信息。于是,相對于目標任務的信噪比會逐層上升,保證了目標任務的分類性能。

我們提出一套算法,測量每一中層特征f中所包含的輸入句子的信息量,即H(X|F=f)。當假設各單詞信息相互獨立時,我們可以把句子層面的信息量分解為各個單詞的信息量H(X|F=f) = H(X1=x1|F=f) + H(X2=x2|F=f) + … + H(Xn=xn|F=f). 這評測指標在形式上是不是與信息瓶頸理論相關?但其實兩者還是有明顯的區(qū)別的。信息瓶頸理論關注全部樣本上的輸入特征與中層特征的互信息,而我們僅針對某一特定輸入,細粒度地研究每個單詞的信息遺忘程度。

其實,我們可以從兩個不同的角度,計算出兩組不同的熵H(X|F=f)。(1)如果我們只關注真實自然語言的低維流形,那么p(X=x|F=f)的計算比較容易,可以將p建模為一個decoder,即用中層特征f去重建輸入句子x。(2)在這篇文章中,我們其實選取了第二個角度:我們不關注真實語言的分布,而考慮整個特征空間的分布,即x可以取值為噪聲。在計算p(X=x,F=f) = p(X=x) p(F=f|X=x)時,我們需要考慮“哪些噪聲輸入也可以生成同樣的特征f”。舉個toy example,當輸入句子是"How are you?"時,明顯“are”是廢話,可以從“How XXX you?”中猜得。這時,如果僅從真實句子分布出發(fā),考慮句子重建,那些話佐料(“are” “is” “an”)將被很好的重建。而真實研究選取了第二個角度,即我們關注的是哪些單詞被神經(jīng)網(wǎng)絡遺忘了,發(fā)現(xiàn)原來“How XYZ you?”也可以生成與“How are you?”一樣的特征。

這時,H(X|F=f)所體現(xiàn)的是,在中層特征f的計算過程中,哪些單詞的信息在層間傳遞的過程中逐漸被神經(jīng)網(wǎng)絡所忽略——將這些單詞的信息替換為噪聲,也不會影響其中層特征。這種情況下,信息量H(X|F=f)不是直接就可以求出來的,如何計算信息量也是這個課題的難點。具體求解的公式推導可以看論文,知乎上只放文字,不談公式。

首先,從“普適性”的角度來看,中層特征中輸入句子的信息量(輸入句子的信息的遺忘程度)是信息論中基本定義,它只關注中層特征背后的“知識量”,而不受網(wǎng)絡模型參數(shù)大小、中層特征值的大小、中層卷積核順序影響。其次,從“一貫性”的角度來看,“信息量”可以客觀反映層間信息快遞能力,實現(xiàn)穩(wěn)定的跨層比較。如下圖所示,基于梯度的評測標準,無法為不同中間層給出一貫的穩(wěn)定的評測。

下圖比較了不同可視化方法在分析“reverse sequence”神經(jīng)網(wǎng)絡中層特征關注點的區(qū)別。我們基于輸入單詞信息量的方法,可以更加平滑自然的顯示神經(jīng)網(wǎng)絡內(nèi)部信息處理邏輯。

下圖分析比較了不同可視化方法在診斷“情感語義分類”應用的神經(jīng)網(wǎng)絡中層特征關注點的區(qū)別。我們基于輸入單詞信息量的方法,可以更加平滑自然的顯示神經(jīng)網(wǎng)絡內(nèi)部信息處理邏輯。

基于神經(jīng)網(wǎng)絡中層信息量指標,分析不同神經(jīng)網(wǎng)絡模型的處理能力。我們分析比較了四種在NLP中常用的深度學習模型,即BERT, Transformer, LSTM, 和CNN。在各NLP任務中, BERT模型往往表現(xiàn)最好,Transformer模型次之。

如下圖所示,我們發(fā)現(xiàn)相比于LSTM和CNN,基于預訓練參數(shù)的BERT模型和Transformer模型往往可以更加精確地找到與任務相關的目標單詞,而CNN和LSTM往往使用大范圍的鄰接單詞去做預測。

進一步,如下圖所示,BERT模型在預測過程中往往使用具有實際意義的單詞作為分類依據(jù),而其他模型把更多的注意力放在了and the is 等缺少實際意義的單詞上。

如下圖所示,BERT模型在L3-L4層就已經(jīng)遺忘了EOS單詞,往往在第5到12層逐漸遺忘其他與情感語義分析無關的單詞。相比于其他模型,BERT模型在單詞選擇上更有針對性。

我們的方法可以進一步細粒度地分析,各個單詞的信息遺忘。BERT模型對各種細粒度信息保留的效果最好。

十多年前剛剛接觸AI時總感覺最難的是獨立找課題,后來發(fā)現(xiàn)追著熱點還是很容易拍腦袋想出一堆新題目,再后來發(fā)現(xiàn)真正想做的課題越來越少,雖然AI領域中學者們的投稿量一直指數(shù)增長。

回國以后,身份從博后變成了老師,帶的學生增加了不少,工作量也翻倍了,所以一直沒有時間寫文章與大家分享一些新的工作,如果有時間還會與大家分享更多的研究,包括這篇文章后續(xù)的眾多算法。信息量在CV方向應用的論文,以及基于這些技術(shù)衍生出的課題,我稍后有空再寫。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 神經(jīng)網(wǎng)絡

    關注

    42

    文章

    4838

    瀏覽量

    107875
  • AI
    AI
    +關注

    關注

    91

    文章

    39938

    瀏覽量

    301567

原文標題:上海交大張拳石:神經(jīng)網(wǎng)絡的可解釋性,從經(jīng)驗主義到數(shù)學建模

文章出處:【微信號:rgznai100,微信公眾號:rgznai100】歡迎添加關注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    神經(jīng)網(wǎng)絡的初步認識

    日常生活中的智能應用都離不開深度學習,而深度學習則依賴于神經(jīng)網(wǎng)絡的實現(xiàn)。什么是神經(jīng)網(wǎng)絡?神經(jīng)網(wǎng)絡的核心思想是模仿生物神經(jīng)系統(tǒng)的結(jié)構(gòu),特別是大腦中神經(jīng)
    的頭像 發(fā)表于 12-17 15:05 ?339次閱讀
    <b class='flag-5'>神經(jīng)網(wǎng)絡</b>的初步認識

    提升可靠,防水透氣膜的多重功能的重要性

    提升可靠,防水透氣膜的多重功能的重要性
    的頭像 發(fā)表于 12-03 17:34 ?506次閱讀
    提升可靠<b class='flag-5'>性</b>,防水透氣膜的多重功能的<b class='flag-5'>重要性</b>

    NMSIS神經(jīng)網(wǎng)絡庫使用介紹

    NMSIS NN 軟件庫是一組高效的神經(jīng)網(wǎng)絡內(nèi)核,旨在最大限度地提高 Nuclei N 處理器內(nèi)核上的神經(jīng)網(wǎng)絡的性能并最??大限度地減少其內(nèi)存占用。 該庫分為多個功能,每個功能涵蓋特定類別
    發(fā)表于 10-29 06:08

    在Ubuntu20.04系統(tǒng)中訓練神經(jīng)網(wǎng)絡模型的一些經(jīng)驗

    , batch_size=512, epochs=20)總結(jié) 這個核心算法中的卷積神經(jīng)網(wǎng)絡結(jié)構(gòu)和訓練過程,是用來對MNIST手寫數(shù)字圖像進行分類的。模型將圖像作為輸入,通過卷積和池化層提取圖像的特征,然后通過全連接層進行分類預測。訓練過程中,模型通過最小化損失函數(shù)來優(yōu)化模型參數(shù),從而提高分類準確
    發(fā)表于 10-22 07:03

    液態(tài)神經(jīng)網(wǎng)絡(LNN):時間連續(xù)與動態(tài)適應神經(jīng)網(wǎng)絡

    1.算法簡介液態(tài)神經(jīng)網(wǎng)絡(LiquidNeuralNetworks,LNN)是一種新型的神經(jīng)網(wǎng)絡架構(gòu),其設計理念借鑒自生物神經(jīng)系統(tǒng),特別是秀麗隱桿線蟲的神經(jīng)結(jié)構(gòu),盡管這種微生物的
    的頭像 發(fā)表于 09-28 10:03 ?1256次閱讀
    液態(tài)<b class='flag-5'>神經(jīng)網(wǎng)絡</b>(LNN):時間連續(xù)<b class='flag-5'>性</b>與動態(tài)適應<b class='flag-5'>性</b>的<b class='flag-5'>神經(jīng)網(wǎng)絡</b>

    神經(jīng)網(wǎng)絡的并行計算與加速技術(shù)

    問題。因此,并行計算與加速技術(shù)在神經(jīng)網(wǎng)絡研究和應用中變得至關重要,它們能夠顯著提升神經(jīng)網(wǎng)絡的性能和效率,滿足實際應用中對快速響應和大規(guī)模數(shù)據(jù)處理的需求。
    的頭像 發(fā)表于 09-17 13:31 ?1148次閱讀
    <b class='flag-5'>神經(jīng)網(wǎng)絡</b>的并行計算與加速技術(shù)

    鋰電池測試設備的重要性與應用

    不斷增長,對電池質(zhì)量的要求也越來越高。因此,鋰電池測試設備的重要性日益凸顯。 鋰電池測試通常包括多個方面,例如容量測試、內(nèi)阻測試、循環(huán)壽命測試、安全性能測試等。通過這些測試,可以全面了解電池在實際使用中的表
    的頭像 發(fā)表于 09-16 14:04 ?588次閱讀

    淺析多模態(tài)標注對大模型應用落地的重要性與標注實例

    ”的關鍵工序——多模態(tài)標注重要性日益凸顯。 一、什么是多模態(tài)標注? 多模態(tài)標注是指對文本、圖像、語音、視頻、點云等異構(gòu)數(shù)據(jù)進行跨模態(tài)語義關聯(lián)的標注過程,通過建立數(shù)據(jù)間的時空一致和語義
    的頭像 發(fā)表于 09-05 13:49 ?2373次閱讀

    藍牙隨機化RPA更新的重要性和工作原理

    藍牙?隨機可解析私有地址(Bluetooth? Randomized RPA)更新功能已推出,該更新通過優(yōu)化可解析私有地址的管理,提高了低功耗藍牙設備的隱私和能效。本文將介紹藍牙?隨機化RPA更新的重要性解釋其工作原理,并為
    的頭像 發(fā)表于 07-10 09:36 ?987次閱讀
    藍牙隨機化RPA更新的<b class='flag-5'>重要性</b>和工作原理

    無刷電機小波神經(jīng)網(wǎng)絡轉(zhuǎn)子位置檢測方法的研究

    MATLAB/SIMULINK工具對該方法進行驗證,實驗結(jié)果表明該方法在全程速度下效果良好。 純分享帖,點擊下方附件免費獲取完整資料~~~ *附件:無刷電機小波神經(jīng)網(wǎng)絡轉(zhuǎn)子位置檢測方法的研究.pdf
    發(fā)表于 06-25 13:06

    神經(jīng)網(wǎng)絡專家系統(tǒng)在電機故障診斷中的應用

    的診斷誤差。仿真結(jié)果驗證了該算法的有效。 純分享帖,需要者可點擊附件免費獲取完整資料~~~*附件:神經(jīng)網(wǎng)絡專家系統(tǒng)在電機故障診斷中的應用.pdf【免責聲明】本文系網(wǎng)絡轉(zhuǎn)載,版權(quán)歸原作者所有。本文所用視頻、圖片、文字如涉及作品版
    發(fā)表于 06-16 22:09

    神經(jīng)網(wǎng)絡RAS在異步電機轉(zhuǎn)速估計中的仿真研究

    ,在一定程度上擴展了轉(zhuǎn)速估計范圍。 純分享帖,需要者可點擊附件免費獲取完整資料~~~*附件:神經(jīng)網(wǎng)絡RAS在異步電機轉(zhuǎn)速估計中的仿真研究.pdf【免責聲明】本文系網(wǎng)絡轉(zhuǎn)載,版權(quán)歸原作者所有。本文所用視頻、圖片、文字如涉及作品版權(quán)
    發(fā)表于 06-16 21:54

    中國科學院西安光機所在計算成像可解釋性深度學習重建方法取得進展

    圖1 MDFP-Net網(wǎng)絡結(jié)構(gòu) 近日,中國科學院西安光機所空間光學技術(shù)研究室在計算成像可解釋性深度學習重建方法研究取得創(chuàng)新進展。相關
    的頭像 發(fā)表于 06-09 09:27 ?692次閱讀
    中國科學院西安光機所在計算成像<b class='flag-5'>可解釋性</b>深度學習重建方法取得進展

    NVIDIA實現(xiàn)神經(jīng)網(wǎng)絡渲染技術(shù)的突破增強功能

    近日,NVIDIA 宣布了 NVIDIA RTX 神經(jīng)網(wǎng)絡渲染技術(shù)的突破增強功能。NVIDIA 與微軟合作,將在 4 月的 Microsoft DirectX 預覽版中增加神經(jīng)網(wǎng)絡著色技術(shù),讓開
    的頭像 發(fā)表于 04-07 11:33 ?1208次閱讀

    連接器氣密檢測的重要性

    。連接器氣密檢測的重要性?惡劣環(huán)境電氣連接保障:潮濕、粉塵、腐蝕性氣體、溫度劇變等惡劣環(huán)境,氣密不良將導致觸點腐蝕、絕緣下降、信號中斷等故障,威脅設備安全運行
    的頭像 發(fā)表于 03-17 11:01 ?847次閱讀
    連接器氣密<b class='flag-5'>性</b>檢測的<b class='flag-5'>重要性</b>