chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

一篇文章講清楚交叉熵和KL散度

深度學(xué)習(xí)自然語言處理 ? 來源:PaperWeekly ? 作者:康斯坦丁 ? 2022-11-16 15:35 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

看了很多講交叉熵的文章,感覺都是拾人牙慧,又不得要領(lǐng)。還是分享一下自己的理解,如果看完這篇文章你還不懂這倆概念就來掐死我吧。

1

『先翻譯翻譯,什么叫驚喜』

我們用 表示事件 發(fā)生的概率。這里我們先不討論概率的內(nèi)涵, 只需要遵循直覺: 可以衡量事件 發(fā)生時(shí)會(huì)造成的驚喜(行文需要,請(qǐng)按照中性理解)程度: 概率越低的事件發(fā)生所造成的驚喜程度高;概率越高的事件發(fā)生所造成的驚喜程度低。 但是概率倒數(shù)這一運(yùn)算的性質(zhì)不是很好,所以在不改變單調(diào)性的情況下,可以將驚喜度(surprisal)定義為:

10ee981e-64f1-11ed-8abf-dac502259ad0.png

這樣定義后產(chǎn)生了另外兩個(gè)好處: 1. 確定性事件的驚喜度 = 0; 2. 如果有多個(gè)獨(dú)立事件同時(shí)發(fā)生,他們產(chǎn)生的驚喜度可以直接相加。是的,一個(gè)事件發(fā)生概率的倒數(shù)再取對(duì)數(shù)就是驚喜。

2

『信息熵,不過只是驚喜的期望』

驚喜度,在大部分文章里,都叫做信息量,但這個(gè)命名只是香農(nóng)根據(jù)他研究對(duì)象的需要而做的,對(duì)于很多其它的場(chǎng)景,要生搬硬套就會(huì)變得非常不好理解了。 信息量 = 驚喜度,那么信息熵呢?看看公式不言自明:

11065166-64f1-11ed-8abf-dac502259ad0.png

或是連續(xù)形式:

111e3ccc-64f1-11ed-8abf-dac502259ad0.png

這不就是驚喜度的期望嗎? 換句話說,信息熵描述的是整個(gè)事件空間會(huì)產(chǎn)生的平均驚喜。 什么情況下,平均驚喜最低呢?確定事件。以某個(gè)離散隨機(jī)分布為例,整個(gè)分布在特定值 為 1,其它處均為 0,此時(shí)的信息熵/平均驚喜也為 0。 什么情況下產(chǎn)生的平均驚喜最高呢?自然是不確定越高平均驚喜越高。對(duì)于給定均值和方差的連續(xù)分布,正態(tài)分布(高斯分布)具有最大的信息熵(也就是平均驚喜)。所以再想想為什么大量生活中會(huì)看到的隨機(jī)事件分布都服從正態(tài)分布呢?說明大自然有著創(chuàng)造最大驚喜的傾向,或者說,就是要讓你猜不透。這也是理解熱力學(xué)中的熵增定律的另一個(gè)角度。

3

『交叉熵,交叉的是古典和貝葉斯學(xué)派』

對(duì)于概率,比較經(jīng)典的理解是看做是重復(fù)試驗(yàn)無限次后事件頻率會(huì)逼近的值,是一個(gè)客觀存在的值;但是貝葉斯學(xué)派提出了另一種理解方式:即將概率理解為我們主觀上對(duì)事件發(fā)生的確信程度。針對(duì)同一個(gè)隨機(jī)變量空間有兩個(gè)分布,分別記作和; 是我們主觀認(rèn)為會(huì)發(fā)生的概率,下標(biāo)代表 subjective; 是客觀上會(huì)發(fā)生的概率,下標(biāo) ○ 代表 objective。 這種情況下,客觀上這個(gè)隨機(jī)事件會(huì)給我們?cè)斐审@喜的期望應(yīng)該是:

1132fa68-64f1-11ed-8abf-dac502259ad0.png

這個(gè)量 is a.k.a 交叉熵。 再翻譯一下,交叉熵是什么?可以理解為:我們帶著某個(gè)主觀認(rèn)知去接觸某個(gè)客觀隨機(jī)現(xiàn)象的時(shí)候,會(huì)產(chǎn)生的平均驚喜度。 那什么時(shí)候交叉熵(也就是我們會(huì)獲得的平均驚喜度)會(huì)大?就是當(dāng)我們主觀上認(rèn)為一個(gè)事情發(fā)生的概率很低很大),但是客觀上發(fā)生概率很高很大) 的時(shí)候,也就是主觀認(rèn)知和客觀現(xiàn)實(shí)非常不匹配的時(shí)候。機(jī)器學(xué)習(xí)當(dāng)中為啥用交叉熵來當(dāng)作損失函數(shù)應(yīng)該也就不言自明了。

4

『相對(duì)熵,K-L散度』

交叉熵可以衡量我們基于某種主觀認(rèn)識(shí)去感受客觀世界時(shí),會(huì)產(chǎn)生的平均驚喜。但是根據(jù)上面的分析,即使主觀和客觀完全匹配,這時(shí)交叉熵等于信息熵,只要事件仍然隨機(jī)而非確定,就一定會(huì)給我們?cè)斐梢欢ǔ潭鹊捏@喜。那我們要怎么度量主觀認(rèn)識(shí)和客觀之間差異呢?可以用應(yīng)該用以當(dāng)前對(duì)“世界觀”產(chǎn)生的驚喜期望和完全正確認(rèn)識(shí)事件時(shí)產(chǎn)生的驚喜期望的差值來衡量,這個(gè)就是相對(duì)熵(常稱作 KL-散度),通常寫作:

11443508-64f1-11ed-8abf-dac502259ad0.png

當(dāng)我們的主觀認(rèn)知完全匹配客觀現(xiàn)實(shí)的時(shí)候,KL-散度應(yīng)該等于 0,其它任何時(shí)候都會(huì)大于 0。由于存在恒為正這一性質(zhì),KL-散度經(jīng)常用于描述兩個(gè)分布是否接近,也就是作為兩個(gè)分布之間“距離”的度量;不過由于運(yùn)算不滿足交換律,所以又不能完全等同于“距離”來理解。 機(jī)器學(xué)習(xí)中通常用交叉熵作為損失函數(shù)的原因在與,客觀分布并不隨參數(shù)變化,所以即使是優(yōu)化 KL-散度,對(duì)參數(shù)求導(dǎo)的時(shí)候也只有交叉熵的導(dǎo)數(shù)了。

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 機(jī)器學(xué)習(xí)

    關(guān)注

    66

    文章

    8547

    瀏覽量

    136600
  • 交叉熵
    +關(guān)注

    關(guān)注

    0

    文章

    4

    瀏覽量

    2499

原文標(biāo)題:一篇文章講清楚交叉熵和KL散度

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    什么是新能源移動(dòng)充電車?文章講清楚它的類型和原理

    隨著全球新能源汽車市場(chǎng)高速發(fā)展,傳統(tǒng)的固定充電基礎(chǔ)設(shè)施在城市高密度區(qū)域、老舊小區(qū)以及配電網(wǎng)承載力方面面臨著嚴(yán)峻挑戰(zhàn)。在此背景下,新能源 移動(dòng)充電車 作為種創(chuàng)新的解決方案快速崛起,其核心優(yōu)勢(shì)在于
    的頭像 發(fā)表于 01-20 14:36 ?228次閱讀

    壓接款連接器優(yōu)勢(shì)有哪些?講清楚

    突破接線瓶頸,凌科電氣M20系列壓接款工業(yè)連接器全新上市——以卓越的可靠性與極致便捷,重新定義工業(yè)連接標(biāo)準(zhǔn)。
    的頭像 發(fā)表于 01-06 13:57 ?737次閱讀

    選天線犯難?陶瓷 VS 普通天線區(qū)別?AN3216/AN2051 等型號(hào)幫你精準(zhǔn)匹配!

    、AN2051這些型號(hào),適合我的項(xiàng)目嗎?”別慌!今天咱們掰開揉碎講清楚——陶瓷天線和普通天線的核心區(qū)別,還把AN3216、AN2051、AN9520、PF1004這些常用款揉
    的頭像 發(fā)表于 12-10 17:45 ?347次閱讀
    選天線犯難?陶瓷 VS 普通天線區(qū)別?AN3216/AN2051 等型號(hào)幫你精準(zhǔn)匹配!

    企業(yè)為什么開始換用 RFID智能硬盤柜?選型標(biāo)準(zhǔn)講清楚

    在企業(yè)的數(shù)據(jù)資產(chǎn)管理體系中,硬盤直是非常特殊的類介質(zhì)。它體積小、價(jià)值高、存儲(chǔ)密度大,旦丟失或流轉(zhuǎn)不規(guī)范,風(fēng)險(xiǎn)遠(yuǎn)高于紙質(zhì)檔案。本文結(jié)合業(yè)內(nèi)廣泛采用斯科兩款機(jī)型——CK-GYP?和?CK-GYP1,把企業(yè)在選型時(shí)真正需要關(guān)注的
    的頭像 發(fā)表于 12-10 09:38 ?230次閱讀

    單模 vs 多模:光纖選擇終極指南

    很多朋友在組建網(wǎng)絡(luò)時(shí)都會(huì)遇到個(gè)核心問題:我到底該用多模光纖還是單模光纖?今天,小易就為大家徹底講清楚這兩者的區(qū)別,幫助您做出最經(jīng)濟(jì)、高效的選擇。
    的頭像 發(fā)表于 12-08 14:12 ?773次閱讀
    單模 vs 多模:光纖選擇終極指南

    別再迷糊了!Linux交叉編譯到底是個(gè)啥?講清楚

    就用 不繞彎子、接地氣、工程師能看懂 的方式,把交叉編譯講得明明白白。 而且結(jié)合我們鋇錸技術(shù)(BaileiTech)那些跑在 ARM、RISC-V、國(guó)產(chǎn)嵌入式 Linux 的產(chǎn)品,告訴你交叉編譯在工業(yè)場(chǎng)景里究竟為什么重要。
    的頭像 發(fā)表于 12-03 16:28 ?913次閱讀
    別再迷糊了!Linux<b class='flag-5'>交叉</b>編譯到底是個(gè)啥?<b class='flag-5'>一</b>文<b class='flag-5'>講清楚</b>

    講清楚TVS二極管的作用和分類

    TVS二極管(Transient Voltage Suppression Diode,瞬態(tài)電壓抑制二極管)是種專門用于抑制電路中瞬態(tài)過電壓的半導(dǎo)體器件,其核心作用是通過快速響應(yīng)和低鉗位電壓保護(hù)
    的頭像 發(fā)表于 11-18 16:41 ?2001次閱讀
    <b class='flag-5'>一</b>文<b class='flag-5'>講清楚</b>TVS二極管的作用和分類

    講清楚線性霍爾靈敏和輸出關(guān)系

    線性霍爾靈敏與輸出范圍的關(guān)系解析 、核心定義與物理基礎(chǔ) 靈敏(Sensitivity) 線性霍爾傳感器的靈敏(單位:mV/mT 或 mV/G)表示單位磁場(chǎng)強(qiáng)度變化時(shí)輸出電壓的變
    的頭像 發(fā)表于 11-18 16:38 ?830次閱讀

    GPIO、PWM、ADC,到底怎么區(qū)分?

    在嵌入式開發(fā)中,我們經(jīng)常聽到GPIO、PWM、ADC這些術(shù)語。初學(xué)者常常搞不清楚它們的區(qū)別和用途:“它們不是都是和電平有關(guān)嗎?為什么還要分這么多種?”今天,我們就把這些基礎(chǔ)概念講清楚,讓你在動(dòng)手開發(fā)
    的頭像 發(fā)表于 11-14 10:28 ?617次閱讀
    GPIO、PWM、ADC,到底怎么區(qū)分?

    工業(yè)級(jí)防爆型PDA手持終端(化工/石油/礦場(chǎng)等場(chǎng)景)的實(shí)操指南

    今天講防爆型PDA手持終端,主要會(huì)講到:為什么要用防爆PDA、它們到底怎么防爆、要看哪些證書與參數(shù)、不同場(chǎng)景的選型與落地注意點(diǎn)、以及采購(gòu)/驗(yàn)收/運(yùn)維清單”都會(huì)盡量講清楚
    的頭像 發(fā)表于 11-04 15:02 ?504次閱讀
    工業(yè)級(jí)防爆型PDA手持終端(化工/石油/礦場(chǎng)等場(chǎng)景)的實(shí)操指南

    高壓放大器穩(wěn)定性與振鈴

    在實(shí)際的操作使用中,高壓驅(qū)動(dòng)電路時(shí)遇到了穩(wěn)定性問題:輸出波形出現(xiàn) 振蕩或振鈴。且高壓放大器本身帶寬有限、壓擺率受限,驅(qū)動(dòng)容性負(fù)載時(shí)矛盾 會(huì)更突出。從物理本質(zhì)講清楚:相位裕不足是根源。 首先相位裕
    的頭像 發(fā)表于 10-10 11:38 ?405次閱讀

    CSD船用變壓器鐵芯硅鋼片,真能扛住鹽霧和振動(dòng)嗎?

    變壓器就要拆下來返工,碼頭多停天,成本就多燒天。今天,我們就把硅鋼片在船用環(huán)境里的真實(shí)表現(xiàn),拆開來講清楚。硅鋼片到底是什么?簡(jiǎn)單說,它是片片極薄的含硅鋼板,
    的頭像 發(fā)表于 08-23 09:44 ?756次閱讀
    CSD船用變壓器鐵芯硅鋼片,真能扛住鹽霧和振動(dòng)嗎?

    阿里云設(shè)備的物模型數(shù)據(jù)里面始終沒有值是哪里的問題?

    如上圖,不知道講清楚沒有。 IG502自定義TOPIC 上發(fā)到阿里云沒問題。采用阿里云物模型的格式來上發(fā)就不行。請(qǐng)大佬指教!
    發(fā)表于 08-05 06:43

    文了解什么是 BQB 認(rèn)證

    講清楚。、什么是BQB認(rèn)證?BQB是BluetoothQualificationBody的縮寫,即“藍(lán)牙資格認(rèn)證”。它是由**藍(lán)牙技術(shù)聯(lián)盟(BluetoothSI
    的頭像 發(fā)表于 07-18 14:53 ?1713次閱讀
    <b class='flag-5'>一</b>文了解什么是 BQB 認(rèn)證

    講清楚芯片的分類-多個(gè)維度

    芯片作為現(xiàn)代電子設(shè)備的核心組件,其分類方式多樣,以下從功能、應(yīng)用領(lǐng)域、制造工藝、集成、設(shè)計(jì)架構(gòu)、用途、數(shù)據(jù)類型、工作方式、材料及封裝形式十個(gè)維度進(jìn)行詳細(xì)闡述: 、按功能分類 1. 處理器芯片
    的頭像 發(fā)表于 05-06 15:04 ?6013次閱讀