chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

這些機器學(xué)習(xí)分類器性能標(biāo)準(zhǔn)你知道嗎?

自然語言處理愛好者 ? 來源:AIAS編程有道 ? 作者:菊子皮 ? 2020-11-27 10:37 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

機器學(xué)習(xí)算法中,在模型訓(xùn)練出來之后,總會去尋找衡量模型性能的指標(biāo)。評價指標(biāo)是針對將相同的數(shù)據(jù),使用不同的算法模型,或者輸入不同參數(shù)的同一種算法模型,而給出這個算法或者參數(shù)好壞的定量指標(biāo)。在模型評估過程中,往往需要使用多種不同的指標(biāo)協(xié)作評估一個模型的好壞,因為眾多的評價指標(biāo)中,大部分指標(biāo)只能片面的反應(yīng)模型的一部分特點,那么對模型的評估就會比較片面,在算法落地后也會出現(xiàn)很多問題。根據(jù)評估指標(biāo)的反饋進行模型調(diào)整,這些都是機器學(xué)習(xí)在模型評估階段的關(guān)鍵問題,也是一名合格的算法工程師應(yīng)當(dāng)具備的基本功[文獻1]。

本文參考文獻1, 2,詳細介紹機器學(xué)習(xí)分類任務(wù)的常用評價指標(biāo):準(zhǔn)確率(Accuracy)、精確率(Precision)、召回率(Recall)、P-R曲線(Precision-Recall Curve)、F1 Score、混淆矩陣(Confuse Matrix)、ROC、AUC。

1 準(zhǔn)確率(Accuracy)

準(zhǔn)確率定義如下:

也就是被正確分類的樣本個數(shù)與總樣本的個數(shù)之比,對于二分類來說可以這樣看:

其中(正、負樣本代表兩個不同類別):

真正例(True Positive, TP):標(biāo)注的數(shù)據(jù)為正樣本,被模型預(yù)測為正的正樣本;

假正例(False Positive, FP):標(biāo)注的數(shù)據(jù)為負樣本,被模型預(yù)測為正的負樣本;

假負例(False Negative, FN):標(biāo)注的數(shù)據(jù)為負樣本,被模型預(yù)測為負的正樣本;

真負例(True Negative, TN):標(biāo)注的數(shù)據(jù)為正樣本,被模型預(yù)測為負的負樣本;

準(zhǔn)確率是分類問題中最簡單也是最直觀的評價指標(biāo),但存在明顯的缺陷,就是在數(shù)據(jù)的類別不均衡,特別是一種類別數(shù)據(jù)特別多另一種類別數(shù)據(jù)特別少的情況下,準(zhǔn)確率就不能客觀評價算法的優(yōu)劣了。舉個例子:當(dāng)負樣本占99%時,分類器把所有樣本都預(yù)測為負樣本,那么對于這個模型來說可以獲得99%的準(zhǔn)確率,所以在樣本數(shù)據(jù)極度不均衡的時候,選用這種方式去評價一個模型是不可取的。

2 精確率(Precision)

精準(zhǔn)率又叫查準(zhǔn)率,容易與準(zhǔn)確率弄混,請記住這個“精”字,「它是針對一個類別預(yù)測結(jié)果而言的」,含義是在所有被預(yù)測為正的樣本中實際為正的樣本的概率,在預(yù)測為正樣本的結(jié)果中,有多少把握可以預(yù)測正確,因為其他類別的數(shù)據(jù)也可能被預(yù)測成為該類別。以二分類(以下不特殊說明,都以二分類為例介紹)來說其公式如下:

精準(zhǔn)率代表對正樣本「結(jié)果」中的預(yù)測準(zhǔn)確程度,而準(zhǔn)確率則代表整體的預(yù)測準(zhǔn)確程度,既包括正樣本,也包括負樣本。

3 召回率(Recall)

召回率又叫查全率,「它是針對原樣本而言的」,即在實際為正的樣本中被預(yù)測為正樣本的概率,其公式如下:

精確率和召回率又是一對歡喜冤家(一個查準(zhǔn)率,一個查全率)。引用wiki上的圖,來理解一下:

實際中該如何選擇這兩個指標(biāo)呢?因為精確率和召回率有不同的側(cè)重點,并且精確率和召回率是一對此消彼長的度量,精確率高可能原因是原始樣本中正樣本預(yù)測為正樣本比較少,負樣本預(yù)測為正樣本也比較多,那么這個時候召回率就低了,因為召回率是正樣本預(yù)測為正樣本的比率。例如,在預(yù)測股票的時候,更關(guān)心精準(zhǔn)率,假如你買的股票現(xiàn)在有漲有跌,預(yù)測這些股票漲的多,那么這就是對我們有用的,因為所預(yù)測漲的股票都是你投錢的。而在預(yù)測病患的場景下,則更關(guān)注召回率,即真的患病的那些人中預(yù)測對了情況應(yīng)該越多越好,即召回率越高越好。

因為兩種精準(zhǔn)率和召回率是此消彼長的參數(shù),而在實際情況中,例如推薦系統(tǒng)中有這樣的情形。在給用戶推薦的N個數(shù)據(jù)中,我們都認(rèn)為是預(yù)測為正的值,那么其中有用戶喜歡的就是預(yù)測正樣本預(yù)測為正樣本的情形,即TP,其中用戶不喜歡的就是預(yù)測負樣本為正樣本的情形,即FP。當(dāng)準(zhǔn)確率比較高的時候,那么類別就比較多,而用戶實際喜歡的并沒有那么多,而當(dāng)召回率比較高,那么推送的類別少,用戶可能想看更多的類別,推送的又沒有。所以,在實際工程中,往往需要結(jié)合兩個指標(biāo)的結(jié)果,去尋找一個平衡點,使綜合性能最大化。

4 P-R曲線

P-R曲線(Precision Recall Curve)是描述精確率/召回率變化的曲線,如下圖所示,橫軸為召回率,縱軸為精確率:

對于一個模型來說,其P-R曲線上的一個點代表著:在某一閾值下,模型將大于該閾值的結(jié)果判定為正樣本,小于該閾值的結(jié)果判定為負樣本,此時就可以計算出對應(yīng)的召回率和精確率。改變這個閾值就可以得到一條P-R曲線。那么如何去看一個P-R曲線呢?若一個學(xué)習(xí)器A的P-R曲線被另一個學(xué)習(xí)器B的P-R曲線完全包住,則稱:B的性能優(yōu)于A。若A和B的曲線發(fā)生了交叉,則誰的曲線下的面積大,誰的性能更優(yōu)。但一般來說,曲線下的面積是很難進行估算的,所以衍生出了“平衡點”(Break-Event Point,簡稱BEP),即當(dāng)P=R時的取值,平衡點的取值越高,性能更優(yōu)。

5 F1-Score

除了使用P-R曲線去兼顧精準(zhǔn)率和召回率一個模型之外,最常見的方法就是F-Measure,又稱F-Score。F-Measure是P和R的加權(quán)調(diào)和平均,使用最多也就是F1值了,即:

當(dāng)F1較高時,模型的性能越好。

6 ROC曲線

介紹了這么多指標(biāo)為什么還要介紹ROC(Receiver Operating Characteristic Curve,又稱接受者操作特征曲線)曲線呢,因為ROC曲線有很多優(yōu)點,經(jīng)常作為評估二值分類器最重要的指標(biāo)之一。如:「當(dāng)測試集中的正負樣本的分布變化的時候,ROC曲線能夠保持不變」。在輸出為概率分布的分類模型中,如果僅使用準(zhǔn)確率、精確率、召回率作為評價指標(biāo)進行模型對比時,都必須是基于某一個給定閾值的,對于不同的閾值,各模型的Metrics結(jié)果也會有所不同,這樣就很難得出一個很置信的結(jié)果。需要注意的是P-R曲線是不依賴閾值的,但是在繪制P-R曲線的時候需要閾值。

ROC曲線的橫坐標(biāo)為假陽性率(False Positive Rate,F(xiàn)PR);縱坐標(biāo)為真陽性率(True Positive Rate,TPR)。FPR和TPR的計算方法分別為:

其中,F(xiàn)P是所有負樣本中預(yù)測為正樣本那些負樣本數(shù)目,N是真實負樣本數(shù)目。

其中,TP是所有正樣本中預(yù)測為正樣本那些正樣本數(shù)目,P是真是正樣本數(shù)目。

上面定義有點繞,舉個例子:假設(shè)有10位疑似癌癥患者,其中有3位很不幸確實患了癌癥(P=3),另外7位不是癌癥患者(N=7)。醫(yī)院對這10位疑似患者做了診斷,診斷出3位癌癥患者,其中有2位確實是真正的患者(TP=2)。那么真陽性率TPR=TP/P=2/3。對于7位非癌癥患者來說,有一位很不幸被誤診為癌癥患者(FP=1),那么假陽性率FPR=FP/N=1/7。對于“該醫(yī)院”這個分類器來說,這組分類結(jié)果就對應(yīng)ROC曲線上的一個點(1/7,2/3)。(還是有點繞?那就沉下心理一下)。下面就有一個ROC曲線,來欣賞一下。

「那么為什么ROC曲線衡量效果可以不用在意數(shù)據(jù)的分布呢?」舉個例子:假設(shè)總樣本中,90%是正樣本,10%是負樣本。因為TPR只關(guān)注90%正樣本中有多少是被預(yù)測正確的,而與那10%負樣本毫無關(guān)系,同理,F(xiàn)PR只關(guān)注10%負樣本中有多少是被預(yù)測錯誤的,也與那90%正樣本毫無關(guān)系。這樣就避免了樣本不平衡的問題。那么兩者協(xié)作起來就能夠很好地衡量一個模型了。

「那么如何繪制ROC曲線呢?」這里也需要我們通過閾值來繪制(「與之前一樣,遍歷所有閾值來繪制整條曲線的」)。當(dāng)改變閾值時,那么預(yù)測出正樣本和負樣本的數(shù)目也隨之變化,如下圖:

「知道了如何繪制ROC曲線了,那么怎么去看ROC曲線呢,也就是說如何根據(jù)ROC曲線確定一個模型的好壞?即如何根據(jù)ROC曲線判斷模型性能?」 FPR(假陽率)表示模型對于負樣本誤判的程度,而TPR(真陽率)表示模型對正樣本召回的程度。可想而知:負樣本誤判的越少越好,正樣本召回的越多越好。所以總結(jié)一下就是TPR越高,同時FPR越低(即ROC曲線越陡),那么模型的性能就越好。可參考如下動態(tài)圖進行理解:

也就是說:在進行模型的性能比較時,若一個模型A的ROC曲線被另一個模型B的ROC曲線完全包住,則稱B的性能優(yōu)于A。若A和B的曲線發(fā)生了交叉,則誰的曲線下的面積大,誰的性能更優(yōu)。下面再次借用文獻2中的圖片演示ROC曲線不隨樣本數(shù)目的變化而變化的動圖,如下:

當(dāng)然,我們也不可能總是通過看圖去比較幾個模型的性能,那么問題就來了,如何將圖形進行量化呢?

7 AUC值

AUC(Area Under Curve)指的是ROC曲線下的面積大小,該值能夠量化地反映基于ROC曲線衡量出的模型性能。計算AUC值只需要沿著ROC橫軸做積分就可以了。由于ROC曲線一般都處于y=x這條直線的上方(如果不是的話,只要把模型預(yù)測的概率反轉(zhuǎn)成1?p就可以得到一個更好的分類器),所以AUC的取值一般在0.5~1之間。AUC越大,說明分類器越可能把真正的正樣本排在前面,分類性能越好。具體計算方法可參考文獻[3]。

8 混淆矩陣

混淆矩陣(Confusion Matrix)也稱錯誤矩陣,通過它可以直觀地觀察到算法的效果。它的每一列是樣本的預(yù)測分類,每一行是樣本的真實分類(反過來也可以),顧名思義,它反映了分類結(jié)果的混淆程度?;煜仃噄行j列的原始是原本是類別i卻被分為類別j的樣本個數(shù),計算完之后還可以對之進行可視化,可看看文獻[2]中的混淆矩陣圖片演示:

9 多分類

最基本的內(nèi)容是二分類,多分類也可以拆分為多個二分類進行。在了解二分類的基礎(chǔ)上,我們來看看如何衡量一個多分類模型的性能了,畢竟實際的問題屬于多分類的概率是比較大的。

估算模型全局性能的方法有兩種:宏平均(macro-average)和微平均(micro-average)。綜合來看宏平均會比微平均更可靠一些,因為微平均受稀有類別影響更大。宏平均平等對待每一個類別,所以它的值主要受到稀有類別的影響,而微平均平等考慮數(shù)據(jù)集中的每一個樣本,所以它的值受到常見類別的影響比較大。

簡單來說,宏平均就是先算出每個混淆矩陣的P值和R值,然后取得平均P值macro-P和平均R值macro-R,再算出F1值。微平均則是計算出混淆矩陣的平均TP、FP、TN、FN,接著進行計算P、R,進而求出F1值。同理可以使用這兩種方式計算出其他的衡量指標(biāo)。這兩種計算公式如下:

原文標(biāo)題:機器學(xué)習(xí)分類器性能標(biāo)準(zhǔn)(Accuracy、Precision、Recall、P-R曲線、F1等)你是否真的懂了?

文章出處:【微信公眾號:自然語言處理愛好者】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

責(zé)任編輯:haq

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 數(shù)據(jù)
    +關(guān)注

    關(guān)注

    8

    文章

    7292

    瀏覽量

    93413
  • 機器學(xué)習(xí)
    +關(guān)注

    關(guān)注

    66

    文章

    8528

    瀏覽量

    135880

原文標(biāo)題:機器學(xué)習(xí)分類器性能標(biāo)準(zhǔn)(Accuracy、Precision、Recall、P-R曲線、F1等)你是否真的懂了?

文章出處:【微信號:NLP_lover,微信公眾號:自然語言處理愛好者】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    薄膜電容的關(guān)鍵詞是什么知道嗎?

    薄膜電容是一種以金屬箔作為電極,以聚乙酯、聚丙烯、聚苯乙烯等塑料薄膜作為電介質(zhì)的電容器,在電子電路中具有重要作用。薄膜電容有哪些關(guān)鍵詞知道嗎?
    的頭像 發(fā)表于 10-13 15:30 ?132次閱讀
    薄膜電容的關(guān)鍵詞是什么<b class='flag-5'>你</b><b class='flag-5'>知道嗎</b>?

    控制上蓋氣密檢測不過關(guān)?這些原因和對策知道嗎?

    控制是電子設(shè)備與機械系統(tǒng)的核心,其上蓋氣密性直接影響內(nèi)部電路可靠性。良好氣密性可阻隔灰塵、水分等侵入,避免短路、腐蝕等問題。但實際生產(chǎn)中,氣密檢測不過關(guān)現(xiàn)象頻發(fā),影響產(chǎn)品質(zhì)量與企業(yè)聲譽,需深入剖析
    的頭像 發(fā)表于 08-22 15:49 ?358次閱讀
    控制<b class='flag-5'>器</b>上蓋氣密檢測不過關(guān)?<b class='flag-5'>這些</b>原因和對策<b class='flag-5'>你</b><b class='flag-5'>知道嗎</b>?

    想搞定控制連接?耐達訊Modbus轉(zhuǎn)Profinet這招知道嗎?

    點,還能提升整個系統(tǒng)的性能和效率。如果也在為協(xié)議連接問題發(fā)愁,不妨試試這個“破圈密碼”。在項目中還有哪些協(xié)議連接難題呢?
    發(fā)表于 07-25 15:41

    嵌入式工控機vs普通工控機:區(qū)別在哪?誰才更適合的生產(chǎn)線?

    說到智能制造,大家第一時間可能會想到自動化生產(chǎn)線、機器人、MES系統(tǒng)這些高大上的名詞。但知道嗎這些系統(tǒng)背后都有一個“幕后英雄”在默默運轉(zhuǎn)
    的頭像 發(fā)表于 05-15 10:09 ?1371次閱讀
    嵌入式工控機vs普通工控機:區(qū)別在哪?誰才更適合<b class='flag-5'>你</b>的生產(chǎn)線?

    **【技術(shù)干貨】Nordic nRF54系列芯片:傳感數(shù)據(jù)采集與AI機器學(xué)習(xí)的完美結(jié)合**

    【技術(shù)干貨】nRF54系列芯片:傳感數(shù)據(jù)采集與AI機器學(xué)習(xí)的完美結(jié)合 近期收到不少伙伴咨詢nRF54系列芯片的應(yīng)用與技術(shù)細節(jié),今天我們整理幾個核心問題與解答,帶你快速掌握如何在nRF54上部署AI
    發(fā)表于 04-01 00:00

    串口服務(wù)品牌排名背后,隱藏著的行業(yè)潛規(guī)則知道嗎?

    在科技飛速發(fā)展的當(dāng)下,串口服務(wù)作為連接串口設(shè)備與網(wǎng)絡(luò)的重要橋梁,在工業(yè)、金融、交通等眾多領(lǐng)域都有著廣泛應(yīng)用。市場上的串口服務(wù)品牌繁多,各種品牌排名也讓人眼花繚亂。但是否想過,這些
    的頭像 發(fā)表于 03-27 13:09 ?420次閱讀

    嵌入式機器學(xué)習(xí)的應(yīng)用特性與軟件開發(fā)環(huán)境

    設(shè)備和智能傳感)上,這些設(shè)備通常具有有限的計算能力、存儲空間和功耗。本文將您介紹嵌入式機器學(xué)習(xí)的應(yīng)用特性,以及常見的機器
    的頭像 發(fā)表于 01-25 17:05 ?982次閱讀
    嵌入式<b class='flag-5'>機器</b><b class='flag-5'>學(xué)習(xí)</b>的應(yīng)用特性與軟件開發(fā)環(huán)境

    xgboost在圖像分類中的應(yīng)用

    XGBoost(eXtreme Gradient Boosting)是一種高效的機器學(xué)習(xí)算法,它基于梯度提升框架,通過構(gòu)建多個弱學(xué)習(xí)(通常是決策樹)來提高模型的
    的頭像 發(fā)表于 01-19 11:16 ?1356次閱讀

    LED戶外顯示屏的五大優(yōu)勢,知道嗎

    LED戶外顯示屏的五大優(yōu)勢,知道嗎? LED戶外顯示屏在城市的夜晚中扮演著越來越重要的角色,其鮮艷的色彩、生動的畫面為城市增添了一抹亮色。那么,LED戶外顯示屏的顯示效果到底如何呢?讓我們一起
    的頭像 發(fā)表于 01-06 18:20 ?1101次閱讀

    什么是機器學(xué)習(xí)?通過機器學(xué)習(xí)方法能解決哪些問題?

    計算機系統(tǒng)自身的性能”。事實上,由于“經(jīng)驗”在計算機系統(tǒng)中主要以數(shù)據(jù)的形式存在,因此機器學(xué)習(xí)需要設(shè)法對數(shù)據(jù)進行分析學(xué)習(xí),這就使得它逐漸成為智能數(shù)據(jù)分析技術(shù)的創(chuàng)新源之一,
    的頭像 發(fā)表于 11-16 01:07 ?1350次閱讀
    什么是<b class='flag-5'>機器</b><b class='flag-5'>學(xué)習(xí)</b>?通過<b class='flag-5'>機器</b><b class='flag-5'>學(xué)習(xí)</b>方法能解決哪些問題?

    NPU與機器學(xué)習(xí)算法的關(guān)系

    在人工智能領(lǐng)域,機器學(xué)習(xí)算法是實現(xiàn)智能系統(tǒng)的核心。隨著數(shù)據(jù)量的激增和算法復(fù)雜度的提升,對計算資源的需求也在不斷增長。NPU作為一種專門為深度學(xué)習(xí)機器
    的頭像 發(fā)表于 11-15 09:19 ?1671次閱讀

    秒懂連接分類及應(yīng)用

    連接方式、電氣性能、形狀和結(jié)構(gòu)以及應(yīng)用領(lǐng)域等為您進行分類解讀,希望能夠幫到您。不知道連接怎么分類?秒懂教程來了~連接方式
    的頭像 發(fā)表于 11-12 01:00 ?4028次閱讀
    秒懂連接<b class='flag-5'>器</b><b class='flag-5'>分類</b>及應(yīng)用

    【每天學(xué)點AI】KNN算法:簡單有效的機器學(xué)習(xí)分類

    過程,其實就是一個簡單的分類問題,而KNN(K-NearestNeighbors)算法正是模仿這種人類決策過程的機器學(xué)習(xí)算法。|什么是KNN?KNN(K-NearestNeighbo
    的頭像 發(fā)表于 10-31 14:09 ?1217次閱讀
    【每天學(xué)點AI】KNN算法:簡單有效的<b class='flag-5'>機器</b><b class='flag-5'>學(xué)習(xí)</b><b class='flag-5'>分類</b><b class='flag-5'>器</b>

    這些電源常用仿真軟件,知道嗎?

    ,便于工程師驗證分析。 電源仿真為電源系統(tǒng)開發(fā)帶來很多便利 : ▍電源的設(shè)計與分析: 在電源方案制定過程中,可利用電源仿真手段輔助電源電路設(shè)計與分析,提升電源方案的制定效率與設(shè)計可靠性; ▍電源性能
    發(fā)表于 10-25 14:20

    這些電源常用仿真軟件,知道嗎?

    電源系統(tǒng)的建模仿真是電源開發(fā)過程中不可或缺的一環(huán),它可以幫助工程師模擬電源系統(tǒng),測試電源功能,驗證電源方案可行性,優(yōu)化電源電路設(shè)計,加速電源系統(tǒng)開發(fā)。選擇一款合適的仿真軟件至關(guān)重要,本篇將對在電源仿真中的常用軟件為大家進行介紹。一、電源仿真1、電源仿真電源仿真是指通過計算機仿真軟件對電源系統(tǒng)行為進行模擬和分析。仿真軟件利用數(shù)學(xué)模型和算法來模擬電路的工作過程,
    的頭像 發(fā)表于 10-24 18:05 ?1692次閱讀
    <b class='flag-5'>這些</b>電源常用仿真軟件,<b class='flag-5'>你</b>都<b class='flag-5'>知道嗎</b>?