chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

神經(jīng)網(wǎng)絡(luò)可解釋性研究的重要性日益凸顯

WpOh_rgznai100 ? 來源:YXQ ? 2019-06-27 10:54 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

本來想把題目取為“從煉丹到化學(xué)”,但是這樣的題目太言過其實(shí),遠(yuǎn)不是近期可以做到的,學(xué)術(shù)研究需要嚴(yán)謹(jǐn)。但是,尋找適當(dāng)?shù)臄?shù)學(xué)工具去建模深度神經(jīng)網(wǎng)絡(luò)表達(dá)能力和訓(xùn)練能力,將基于經(jīng)驗(yàn)主義的調(diào)參式深度學(xué)習(xí),逐漸過渡為基于一些評測指標(biāo)定量指導(dǎo)的深度學(xué)習(xí), 是新一代人工智能需要面對的課題,也是在當(dāng)前深度學(xué)習(xí)渾渾噩噩的大背景中的一些新的希望。

這篇短文旨在介紹團(tuán)隊(duì)近期的ICML工作——”Towards a Deep and Unified Understanding of Deep Neural Models in NLP”(這篇先介紹NLP領(lǐng)域,以后有時(shí)間再介紹類似思想解釋CV網(wǎng)絡(luò)的論文)。這是我與微軟亞洲研究院合作的一篇論文。其中,微軟研究院的王希廷研究員在NLP方向有豐富經(jīng)驗(yàn),王老師和關(guān)超宇同學(xué)在這個(gè)課題上做出了非常巨大的貢獻(xiàn),這里再三感謝。

大家說神經(jīng)網(wǎng)絡(luò)是“黑箱”,其含義至少有以下兩個(gè)方面:一、神經(jīng)網(wǎng)絡(luò)特征或決策邏輯在語義層面難以理解;二、缺少數(shù)學(xué)工具去診斷與評測網(wǎng)絡(luò)的特征表達(dá)能力(比如,去解釋深度模型所建模的知識量、其泛化能力和收斂速度),進(jìn)而解釋目前不同神經(jīng)網(wǎng)絡(luò)模型的信息處理特點(diǎn)。

過去我的研究一直關(guān)注第一個(gè)方面,而這篇ICML論文同時(shí)關(guān)注以上兩個(gè)方面——針對不同自然語言應(yīng)用的神經(jīng)網(wǎng)絡(luò),尋找恰當(dāng)?shù)臄?shù)學(xué)工具去建模其中層特征所建模的信息量,并可視化其中層特征的信息分布,進(jìn)而解釋不同模型的性能差異。

其實(shí),我一直希望去建模神經(jīng)網(wǎng)絡(luò)的特征表達(dá)能力,但是又一直遲遲不愿意下手去做。究其原因,無非是找不到一套優(yōu)美的數(shù)學(xué)建模方法。深度學(xué)習(xí)研究及其應(yīng)用很多已經(jīng)被人詬病為“經(jīng)驗(yàn)主義”與“拍腦袋”,我不能讓其解釋性算法也淪為經(jīng)驗(yàn)主義式的拍腦袋——不然解釋性工作還有什么意義。

研究的難點(diǎn)在于對神經(jīng)網(wǎng)絡(luò)表達(dá)能力的評測指標(biāo)需要具備“普適性”和“一貫性”。首先,這里“普適性”是指解釋性指標(biāo)需要定義在某種通用的數(shù)學(xué)概念之上,保證與既有數(shù)學(xué)體系有盡可能多的連接,而與此同時(shí),解釋性指標(biāo)需要建立在盡可能少的條件假設(shè)之上,指標(biāo)的計(jì)算算法盡可能獨(dú)立于神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)和目標(biāo)任務(wù)的選擇。

其次,這里的“一貫性”指評測指標(biāo)需要客觀的反應(yīng)特征表達(dá)能力,并實(shí)現(xiàn)廣泛的比較,比如

診斷與比較同一神經(jīng)網(wǎng)絡(luò)中不同層之間語義信息的繼承與遺忘;

診斷與比較針對同一任務(wù)的不同神經(jīng)網(wǎng)絡(luò)的任意層之間的語義信息分

比較針對不同任務(wù)的不同神經(jīng)網(wǎng)絡(luò)的信息處理特點(diǎn)。

具體來說,在某個(gè)NLP應(yīng)用中,當(dāng)輸入某句話x=[x1,x2,…,xn]到目標(biāo)神經(jīng)網(wǎng)絡(luò)時(shí),我們可以把神經(jīng)網(wǎng)絡(luò)的信息處理過程,看成對輸入單詞信息的逐層遺忘的過程。即,網(wǎng)絡(luò)特征每經(jīng)過一層傳遞,就會(huì)損失一些信息,而神經(jīng)網(wǎng)絡(luò)的作用就是盡可能多的遺忘與目標(biāo)任務(wù)無關(guān)的信息,而保留與目標(biāo)任務(wù)相關(guān)的信息。于是,相對于目標(biāo)任務(wù)的信噪比會(huì)逐層上升,保證了目標(biāo)任務(wù)的分類性能。

我們提出一套算法,測量每一中層特征f中所包含的輸入句子的信息量,即H(X|F=f)。當(dāng)假設(shè)各單詞信息相互獨(dú)立時(shí),我們可以把句子層面的信息量分解為各個(gè)單詞的信息量H(X|F=f) = H(X1=x1|F=f) + H(X2=x2|F=f) + … + H(Xn=xn|F=f). 這評測指標(biāo)在形式上是不是與信息瓶頸理論相關(guān)?但其實(shí)兩者還是有明顯的區(qū)別的。信息瓶頸理論關(guān)注全部樣本上的輸入特征與中層特征的互信息,而我們僅針對某一特定輸入,細(xì)粒度地研究每個(gè)單詞的信息遺忘程度。

其實(shí),我們可以從兩個(gè)不同的角度,計(jì)算出兩組不同的熵H(X|F=f)。(1)如果我們只關(guān)注真實(shí)自然語言的低維流形,那么p(X=x|F=f)的計(jì)算比較容易,可以將p建模為一個(gè)decoder,即用中層特征f去重建輸入句子x。(2)在這篇文章中,我們其實(shí)選取了第二個(gè)角度:我們不關(guān)注真實(shí)語言的分布,而考慮整個(gè)特征空間的分布,即x可以取值為噪聲。在計(jì)算p(X=x,F=f) = p(X=x) p(F=f|X=x)時(shí),我們需要考慮“哪些噪聲輸入也可以生成同樣的特征f”。舉個(gè)toy example,當(dāng)輸入句子是"How are you?"時(shí),明顯“are”是廢話,可以從“How XXX you?”中猜得。這時(shí),如果僅從真實(shí)句子分布出發(fā),考慮句子重建,那些話佐料(“are” “is” “an”)將被很好的重建。而真實(shí)研究選取了第二個(gè)角度,即我們關(guān)注的是哪些單詞被神經(jīng)網(wǎng)絡(luò)遺忘了,發(fā)現(xiàn)原來“How XYZ you?”也可以生成與“How are you?”一樣的特征。

這時(shí),H(X|F=f)所體現(xiàn)的是,在中層特征f的計(jì)算過程中,哪些單詞的信息在層間傳遞的過程中逐漸被神經(jīng)網(wǎng)絡(luò)所忽略——將這些單詞的信息替換為噪聲,也不會(huì)影響其中層特征。這種情況下,信息量H(X|F=f)不是直接就可以求出來的,如何計(jì)算信息量也是這個(gè)課題的難點(diǎn)。具體求解的公式推導(dǎo)可以看論文,知乎上只放文字,不談公式。

首先,從“普適性”的角度來看,中層特征中輸入句子的信息量(輸入句子的信息的遺忘程度)是信息論中基本定義,它只關(guān)注中層特征背后的“知識量”,而不受網(wǎng)絡(luò)模型參數(shù)大小、中層特征值的大小、中層卷積核順序影響。其次,從“一貫性”的角度來看,“信息量”可以客觀反映層間信息快遞能力,實(shí)現(xiàn)穩(wěn)定的跨層比較。如下圖所示,基于梯度的評測標(biāo)準(zhǔn),無法為不同中間層給出一貫的穩(wěn)定的評測。

下圖比較了不同可視化方法在分析“reverse sequence”神經(jīng)網(wǎng)絡(luò)中層特征關(guān)注點(diǎn)的區(qū)別。我們基于輸入單詞信息量的方法,可以更加平滑自然的顯示神經(jīng)網(wǎng)絡(luò)內(nèi)部信息處理邏輯。

下圖分析比較了不同可視化方法在診斷“情感語義分類”應(yīng)用的神經(jīng)網(wǎng)絡(luò)中層特征關(guān)注點(diǎn)的區(qū)別。我們基于輸入單詞信息量的方法,可以更加平滑自然的顯示神經(jīng)網(wǎng)絡(luò)內(nèi)部信息處理邏輯。

基于神經(jīng)網(wǎng)絡(luò)中層信息量指標(biāo),分析不同神經(jīng)網(wǎng)絡(luò)模型的處理能力。我們分析比較了四種在NLP中常用的深度學(xué)習(xí)模型,即BERT, Transformer, LSTM, 和CNN。在各NLP任務(wù)中, BERT模型往往表現(xiàn)最好,Transformer模型次之。

如下圖所示,我們發(fā)現(xiàn)相比于LSTM和CNN,基于預(yù)訓(xùn)練參數(shù)的BERT模型和Transformer模型往往可以更加精確地找到與任務(wù)相關(guān)的目標(biāo)單詞,而CNN和LSTM往往使用大范圍的鄰接單詞去做預(yù)測。

進(jìn)一步,如下圖所示,BERT模型在預(yù)測過程中往往使用具有實(shí)際意義的單詞作為分類依據(jù),而其他模型把更多的注意力放在了and the is 等缺少實(shí)際意義的單詞上。

如下圖所示,BERT模型在L3-L4層就已經(jīng)遺忘了EOS單詞,往往在第5到12層逐漸遺忘其他與情感語義分析無關(guān)的單詞。相比于其他模型,BERT模型在單詞選擇上更有針對性。

我們的方法可以進(jìn)一步細(xì)粒度地分析,各個(gè)單詞的信息遺忘。BERT模型對各種細(xì)粒度信息保留的效果最好。

十多年前剛剛接觸AI時(shí)總感覺最難的是獨(dú)立找課題,后來發(fā)現(xiàn)追著熱點(diǎn)還是很容易拍腦袋想出一堆新題目,再后來發(fā)現(xiàn)真正想做的課題越來越少,雖然AI領(lǐng)域中學(xué)者們的投稿量一直指數(shù)增長。

回國以后,身份從博后變成了老師,帶的學(xué)生增加了不少,工作量也翻倍了,所以一直沒有時(shí)間寫文章與大家分享一些新的工作,如果有時(shí)間還會(huì)與大家分享更多的研究,包括這篇文章后續(xù)的眾多算法。信息量在CV方向應(yīng)用的論文,以及基于這些技術(shù)衍生出的課題,我稍后有空再寫。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 神經(jīng)網(wǎng)絡(luò)

    關(guān)注

    42

    文章

    4814

    瀏覽量

    103672
  • AI
    AI
    +關(guān)注

    關(guān)注

    88

    文章

    35167

    瀏覽量

    280102

原文標(biāo)題:上海交大張拳石:神經(jīng)網(wǎng)絡(luò)的可解釋性,從經(jīng)驗(yàn)主義到數(shù)學(xué)建模

文章出處:【微信號:rgznai100,微信公眾號:rgznai100】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    無刷電機(jī)小波神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)子位置檢測方法的研究

    MATLAB/SIMULINK工具對該方法進(jìn)行驗(yàn)證,實(shí)驗(yàn)結(jié)果表明該方法在全程速度下效果良好。 純分享帖,點(diǎn)擊下方附件免費(fèi)獲取完整資料~~~ *附件:無刷電機(jī)小波神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)子位置檢測方法的研究.pdf
    發(fā)表于 06-25 13:06

    神經(jīng)網(wǎng)絡(luò)專家系統(tǒng)在電機(jī)故障診斷中的應(yīng)用

    的診斷誤差。仿真結(jié)果驗(yàn)證了該算法的有效。 純分享帖,需要者可點(diǎn)擊附件免費(fèi)獲取完整資料~~~*附件:神經(jīng)網(wǎng)絡(luò)專家系統(tǒng)在電機(jī)故障診斷中的應(yīng)用.pdf【免責(zé)聲明】本文系網(wǎng)絡(luò)轉(zhuǎn)載,版權(quán)歸原作者所有。本文所用視頻、圖片、文字如涉及作品版
    發(fā)表于 06-16 22:09

    神經(jīng)網(wǎng)絡(luò)RAS在異步電機(jī)轉(zhuǎn)速估計(jì)中的仿真研究

    ,在一定程度上擴(kuò)展了轉(zhuǎn)速估計(jì)范圍。 純分享帖,需要者可點(diǎn)擊附件免費(fèi)獲取完整資料~~~*附件:神經(jīng)網(wǎng)絡(luò)RAS在異步電機(jī)轉(zhuǎn)速估計(jì)中的仿真研究.pdf【免責(zé)聲明】本文系網(wǎng)絡(luò)轉(zhuǎn)載,版權(quán)歸原作者所有。本文所用視頻、圖片、文字如涉及作品版權(quán)
    發(fā)表于 06-16 21:54

    中國科學(xué)院西安光機(jī)所在計(jì)算成像可解釋性深度學(xué)習(xí)重建方法取得進(jìn)展

    圖1 MDFP-Net網(wǎng)絡(luò)結(jié)構(gòu) 近日,中國科學(xué)院西安光機(jī)所空間光學(xué)技術(shù)研究室在計(jì)算成像可解釋性深度學(xué)習(xí)重建方法研究取得創(chuàng)新進(jìn)展。相關(guān)
    的頭像 發(fā)表于 06-09 09:27 ?226次閱讀
    中國科學(xué)院西安光機(jī)所在計(jì)算成像<b class='flag-5'>可解釋性</b>深度學(xué)習(xí)重建方法取得進(jìn)展

    NVIDIA實(shí)現(xiàn)神經(jīng)網(wǎng)絡(luò)渲染技術(shù)的突破增強(qiáng)功能

    近日,NVIDIA 宣布了 NVIDIA RTX 神經(jīng)網(wǎng)絡(luò)渲染技術(shù)的突破增強(qiáng)功能。NVIDIA 與微軟合作,將在 4 月的 Microsoft DirectX 預(yù)覽版中增加神經(jīng)網(wǎng)絡(luò)著色技術(shù),讓開
    的頭像 發(fā)表于 04-07 11:33 ?447次閱讀

    鑒源實(shí)驗(yàn)室·HTTPS對于網(wǎng)絡(luò)安全的重要性

    本文旨在深入解析HTTPS的工作原理、安全以及其在網(wǎng)絡(luò)安全中的重要性
    的頭像 發(fā)表于 02-19 14:31 ?424次閱讀
    鑒源實(shí)驗(yàn)室·HTTPS對于<b class='flag-5'>網(wǎng)絡(luò)</b>安全的<b class='flag-5'>重要性</b>

    BP神經(jīng)網(wǎng)絡(luò)的調(diào)參技巧與建議

    BP神經(jīng)網(wǎng)絡(luò)的調(diào)參是一個(gè)復(fù)雜且關(guān)鍵的過程,涉及多個(gè)超參數(shù)的優(yōu)化和調(diào)整。以下是一些主要的調(diào)參技巧與建議: 一、學(xué)習(xí)率(Learning Rate) 重要性 :學(xué)習(xí)率是BP神經(jīng)網(wǎng)絡(luò)中最重要
    的頭像 發(fā)表于 02-12 16:38 ?820次閱讀

    BP神經(jīng)網(wǎng)絡(luò)與卷積神經(jīng)網(wǎng)絡(luò)的比較

    BP神經(jīng)網(wǎng)絡(luò)與卷積神經(jīng)網(wǎng)絡(luò)在多個(gè)方面存在顯著差異,以下是對兩者的比較: 一、結(jié)構(gòu)特點(diǎn) BP神經(jīng)網(wǎng)絡(luò) : BP神經(jīng)網(wǎng)絡(luò)是一種多層的前饋神經(jīng)網(wǎng)絡(luò)
    的頭像 發(fā)表于 02-12 15:53 ?674次閱讀

    如何優(yōu)化BP神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)率

    優(yōu)化BP神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)率是提高模型訓(xùn)練效率和性能的關(guān)鍵步驟。以下是一些優(yōu)化BP神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)率的方法: 一、理解學(xué)習(xí)率的重要性 學(xué)習(xí)率決定了模型參數(shù)在每次迭代時(shí)更新的幅度。過大的學(xué)習(xí)率可能導(dǎo)致模型在
    的頭像 發(fā)表于 02-12 15:51 ?942次閱讀

    小白學(xué)解釋性AI:從機(jī)器學(xué)習(xí)到大模型

    科學(xué)AI需要可解釋性人工智能的崛起,尤其是深度學(xué)習(xí)的發(fā)展,在眾多領(lǐng)域帶來了令人矚目的進(jìn)步。然而,伴隨這些進(jìn)步而來的是一個(gè)關(guān)鍵問題——“黑箱”問題。許多人工智能模型,特別是復(fù)雜的模型,如神經(jīng)網(wǎng)
    的頭像 發(fā)表于 02-10 12:12 ?633次閱讀
    小白學(xué)<b class='flag-5'>解釋性</b>AI:從機(jī)器學(xué)習(xí)到大模型

    人工神經(jīng)網(wǎng)絡(luò)的原理和多種神經(jīng)網(wǎng)絡(luò)架構(gòu)方法

    所擬合的數(shù)學(xué)模型的形式受到大腦中神經(jīng)元的連接和行為的啟發(fā),最初是為了研究大腦功能而設(shè)計(jì)的。然而,數(shù)據(jù)科學(xué)中常用的神經(jīng)網(wǎng)絡(luò)作為大腦模型已經(jīng)過時(shí),現(xiàn)在它們只是能夠在某些應(yīng)用中提供最先進(jìn)性能的機(jī)器學(xué)習(xí)模型。近年來,由于
    的頭像 發(fā)表于 01-09 10:24 ?1212次閱讀
    人工<b class='flag-5'>神經(jīng)網(wǎng)絡(luò)</b>的原理和多種<b class='flag-5'>神經(jīng)網(wǎng)絡(luò)</b>架構(gòu)方法

    漏電開關(guān)的重要性及作用

    在現(xiàn)代生活中,電能已成為不可或缺的能源之一。隨著電氣設(shè)備的普及,電氣安全問題也日益凸顯。漏電開關(guān)作為電氣安全的重要組成部分,其重要性和作用不容忽視。 一、漏電開關(guān)的定義與原理 漏電開關(guān)
    的頭像 發(fā)表于 12-30 16:26 ?2036次閱讀

    卷積神經(jīng)網(wǎng)絡(luò)與傳統(tǒng)神經(jīng)網(wǎng)絡(luò)的比較

    在深度學(xué)習(xí)領(lǐng)域,神經(jīng)網(wǎng)絡(luò)模型被廣泛應(yīng)用于各種任務(wù),如圖像識別、自然語言處理和游戲智能等。其中,卷積神經(jīng)網(wǎng)絡(luò)(CNNs)和傳統(tǒng)神經(jīng)網(wǎng)絡(luò)是兩種常見的模型。 1. 結(jié)構(gòu)差異 1.1 傳統(tǒng)神經(jīng)網(wǎng)絡(luò)
    的頭像 發(fā)表于 11-15 14:53 ?1881次閱讀

    Moku人工神經(jīng)網(wǎng)絡(luò)101

    不熟悉神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)知識,或者想了解神經(jīng)網(wǎng)絡(luò)如何優(yōu)化加速實(shí)驗(yàn)研究,請繼續(xù)閱讀,探索基于深度學(xué)習(xí)的現(xiàn)代智能化實(shí)驗(yàn)的廣闊應(yīng)用前景。什么是神經(jīng)網(wǎng)絡(luò)?“人工
    的頭像 發(fā)表于 11-01 08:06 ?667次閱讀
    Moku人工<b class='flag-5'>神經(jīng)網(wǎng)絡(luò)</b>101

    數(shù)據(jù)智能系列講座第3期—交流式學(xué)習(xí):神經(jīng)網(wǎng)絡(luò)的精細(xì)與或邏輯與人類認(rèn)知的對齊

    類認(rèn)知的對齊報(bào)告簡介雖然近年來神經(jīng)網(wǎng)絡(luò)可解釋性研究得到了廣泛的關(guān)注,但是神經(jīng)網(wǎng)絡(luò)中精細(xì)決策邏輯尚未得到有效的解釋,學(xué)界對
    的頭像 發(fā)表于 09-25 08:06 ?431次閱讀
    數(shù)據(jù)智能系列講座第3期—交流式學(xué)習(xí):<b class='flag-5'>神經(jīng)網(wǎng)絡(luò)</b>的精細(xì)與或邏輯與人類認(rèn)知的對齊