chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

機(jī)器學(xué)習(xí)模型調(diào)優(yōu)3大策略

新機(jī)器視覺 ? 來源:機(jī)器之心 ? 作者:機(jī)器之心 ? 2022-04-06 15:55 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

無論是 Kaggle 競賽還是工業(yè)部署,機(jī)器學(xué)習(xí)模型在搭建起來之后都面臨著無盡的調(diào)優(yōu)需求。在這個(gè)過程中我們要遵循怎樣的思路呢?

如果準(zhǔn)確性不夠,機(jī)器學(xué)習(xí)模型在真實(shí)世界就沒有什么實(shí)用性了。對(duì)于開發(fā)者們來說,如何提高性能是非常重要的工作,本文將介紹一些常用策略,包括選擇最佳算法、調(diào)整模型設(shè)置和特征工程。 如果你學(xué)習(xí)過正確的教程,很快就能訓(xùn)練起自己的第一個(gè)機(jī)器學(xué)習(xí)模型。然而想要在第一個(gè)模型上跑出很好的效果是極難的。在模型訓(xùn)練完后,我們需要花費(fèi)大量時(shí)間進(jìn)行調(diào)整以提高性能。不同類型的模型有不同的調(diào)優(yōu)策略,在本文中,我們將介紹模型調(diào)優(yōu)的常用策略。 模型好不好? 在模型調(diào)優(yōu)之前,我們首先需要知道現(xiàn)在的模型性能是好是壞。如果你不知道如何衡量模型的性能,可以參考:

https://www.mage.ai/blog/definitive-guide-to-accuracy-precision-recall-for-product-developers

https://www.mage.ai/blog/product-developers-guide-to-ml-regression-model-metrics

每個(gè)模型都有基線指標(biāo)。我們可以使用「模式類別」作為分類模型的基線指標(biāo)。如果你的模型優(yōu)于基準(zhǔn)線,那么恭喜你,這是一個(gè)好的開始。如果模型能力還沒有達(dá)到基準(zhǔn)水平,這說明你的模型還沒有從數(shù)據(jù)中獲得有價(jià)值的見解(insight)。為了提高性能,還有很多事情要做。 當(dāng)然還有一個(gè)情況就是模型的表現(xiàn)「太過優(yōu)秀」了,比如 99% 的準(zhǔn)確率和 99% 的召回率。這并不是什么好事,可能表示你的模型存在一定的問題。一個(gè)可能的原因是「數(shù)據(jù)泄露」,我們將在「消除數(shù)據(jù)泄漏功能」部分討論如何解決此問題。 改進(jìn)模型的策略 一般來說,模型調(diào)優(yōu)有 3 個(gè)方向:選擇更好的算法,調(diào)優(yōu)模型參數(shù),改進(jìn)數(shù)據(jù)。 比較不同算法 比較多個(gè)算法是提高模型性能的一個(gè)簡單的想法,不同的算法適合不同類型的數(shù)據(jù)集,我們可以一起訓(xùn)練它們,找到表現(xiàn)最好的那個(gè)。例如對(duì)于分類模型,我們可以嘗試邏輯回歸、支持向量機(jī)、XGBoost、神經(jīng)網(wǎng)絡(luò)等。

6e7cfb52-ac4f-11ec-aa7f-dac502259ad0.png

圖源:https://scikit-learn.org/stable/tutorial/machine_learning_map/index.html 超參數(shù)調(diào)優(yōu) 超參數(shù)調(diào)優(yōu)是一種常用的模型調(diào)優(yōu)方法。在機(jī)器學(xué)習(xí)模型中,學(xué)習(xí)過程開始之前需要選擇的一些參數(shù)被稱為超參數(shù)。比如決策樹允許的最大深度,以及隨機(jī)森林中包含的樹的數(shù)量。超參數(shù)明顯影響學(xué)習(xí)過程的結(jié)果。調(diào)整超參數(shù)可以讓我們在學(xué)習(xí)過程中很快獲得最佳結(jié)果。

我們非常建議使用公開可用的庫幫助進(jìn)行超參數(shù)調(diào)整,例如 optuna。 用召回率換精度 對(duì)于分類模型,我們通常用 2 個(gè)指標(biāo)來衡量模型的性能:精度和召回率。根據(jù)問題的不同,你可能需要優(yōu)化召回率或精度中的一個(gè)。有一種快速的方法來調(diào)整模型以在兩個(gè)指標(biāo)之間進(jìn)行權(quán)衡。分類模型預(yù)測標(biāo)簽類別的概率,因此我們可以簡單地修改概率閾值來修改召回率和精度。 例如,如果我們建立一個(gè)模型來預(yù)測乘客在泰坦尼克號(hào)沉船事故中是否生還,該模型可以預(yù)測乘客生還或死亡的概率。果概率高于 50%,模型將預(yù)測乘客會(huì)幸存,反之乘客死亡。如果我們想要更高的精度,我們可以增加概率閾值。然后,該模型將預(yù)測較少的乘客幸存,但會(huì)更精確。

6ec06e00-ac4f-11ec-aa7f-dac502259ad0.png

特征工程 除了選擇最佳算法和調(diào)優(yōu)參數(shù)外,我們還可以從現(xiàn)有數(shù)據(jù)中生成更多特征,這被稱為特征工程。 創(chuàng)建新的特征 構(gòu)建新的特征需要一定的領(lǐng)域知識(shí)和創(chuàng)造力。這是一個(gè)構(gòu)建新特征的例子:

創(chuàng)建一個(gè)功能來計(jì)算文本中的字母數(shù)。

創(chuàng)建一個(gè)功能來計(jì)算文本中的單詞數(shù)。

創(chuàng)建一個(gè)理解文本含義的特征(例如詞嵌入)。

過去 7 天、30 天或 90 天的聚合用戶事件計(jì)數(shù)。

從日期或時(shí)間戳特征中提取「日」、「月」、「年」和「假期后的天數(shù)」等特征。

使用公共數(shù)據(jù)集來增加訓(xùn)練數(shù)據(jù) 當(dāng)你窮盡從現(xiàn)有數(shù)據(jù)集中生成新特征的想法時(shí),另一個(gè)想法是從公共數(shù)據(jù)集中獲取特征。假如你正在構(gòu)建一個(gè)用來預(yù)測用戶是否會(huì)轉(zhuǎn)換為會(huì)員的模型,可用的數(shù)據(jù)集中卻沒有太多的用戶信息,只有「電子郵件」和「公司」屬性。那么你就可以從第三方獲取用戶和公司以外的數(shù)據(jù),如用戶地址、用戶年齡、公司規(guī)模等等,這些數(shù)據(jù)可以用于豐富你的訓(xùn)練數(shù)據(jù)。

特征選擇 添加更多特征并不總是好的。去除不相關(guān)和嘈雜的特征有助于減少模型訓(xùn)練時(shí)間并提高模型性能。scikit-learn 中有多種特征選擇方法可以用來去除不相關(guān)的特征。 刪除數(shù)據(jù)泄露(data leakage)特征 正如上文提到的,一種場景是模型的性能「非常好」。但是在部署模型并在生產(chǎn)中使用這些模型時(shí),性能會(huì)變得很差。造成這個(gè)問題的原因可能是「數(shù)據(jù)泄露」,這是模型訓(xùn)練的一個(gè)常見陷阱。數(shù)據(jù)泄露是指使用一些發(fā)生在目標(biāo)變量之后的特征,并包含目標(biāo)變量的信息。然而現(xiàn)實(shí)生活中的預(yù)測不會(huì)有那些數(shù)據(jù)泄露特征。 例如想要預(yù)測用戶是否會(huì)打開電子郵件,特征可能就包括用戶是否點(diǎn)擊了電子郵件。模型一旦看到用戶點(diǎn)擊了它,那么就預(yù)測用戶 100% 會(huì)打開它。然而在現(xiàn)實(shí)生活中,我們無法知道是否有人在打開電子郵件之前沒有點(diǎn)擊它。 我們可以使用 SHAP 值 debug 數(shù)據(jù)泄露問題,用 SHAP 庫繪制圖表可以顯示出影響最大的特征以及它們?nèi)绾味ㄏ蛴绊懩P偷妮敵觥H绻卣髋c目標(biāo)變量高度相關(guān)并且權(quán)重非常高,那么它們可能是數(shù)據(jù)泄露特征,我們可以將它們從訓(xùn)練數(shù)據(jù)中刪除。

6f1dcd34-ac4f-11ec-aa7f-dac502259ad0.png

更多數(shù)據(jù) 獲取更多訓(xùn)練數(shù)據(jù)是提高模型性能一種明顯而有效的方法。更多的訓(xùn)練數(shù)據(jù)能夠讓模型找到更多見解,并獲得更高的準(zhǔn)確率。

那么,什么時(shí)候該停止調(diào)優(yōu)了? 你需要知道如何開始,也需要知道在何時(shí)停止,很多時(shí)候怎樣才算足夠是一個(gè)難以回答的問題。模型的提升仿佛是無限的,沒有終點(diǎn):總會(huì)有新想法帶來新數(shù)據(jù)、創(chuàng)建新功能或算法的新調(diào)整。首先,最低限度的標(biāo)準(zhǔn)是模型性能至少應(yīng)優(yōu)于基線指標(biāo)。一旦滿足了最低標(biāo)準(zhǔn),我們應(yīng)該采用以下流程來改進(jìn)模型并判斷何時(shí)停止:

嘗試所有改進(jìn)模型的策略。

將模型性能與你必須驗(yàn)證的其他一些指標(biāo)進(jìn)行比較,以驗(yàn)證模型是否有意義。

在進(jìn)行了幾輪模型調(diào)整后,評(píng)估一下繼續(xù)修改和性能提升百分點(diǎn)之間的性價(jià)比。

如果模型表現(xiàn)良好,并且在嘗試了一些想法后幾乎沒有繼續(xù)改進(jìn),請將模型部署到生產(chǎn)過程中并測量實(shí)際性能。

如果真實(shí)條件下的性能和測試環(huán)境中類似,那你的模型就算可以用了。如果生產(chǎn)性能比訓(xùn)練中的性能差,則說明訓(xùn)練中存在一些問題,這可能是因?yàn)檫^擬合或者數(shù)據(jù)泄露。這意味著還需要重新調(diào)整模型。

結(jié)論 模型調(diào)優(yōu)是一個(gè)漫長而復(fù)雜的過程,包含模型的重新訓(xùn)練、新想法的試驗(yàn)、效果評(píng)估和指標(biāo)對(duì)比。通過本文介紹的思路,希望你可以將自己的機(jī)器學(xué)習(xí)技術(shù)提升到更高的水平。

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 算法
    +關(guān)注

    關(guān)注

    23

    文章

    4775

    瀏覽量

    97641
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3694

    瀏覽量

    51959
  • 機(jī)器學(xué)習(xí)

    關(guān)注

    66

    文章

    8546

    瀏覽量

    136539

原文標(biāo)題:收藏 | 機(jī)器學(xué)習(xí)模型調(diào)優(yōu)3大策略

文章出處:【微信號(hào):vision263com,微信公眾號(hào):新機(jī)器視覺】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    性能測試調(diào)優(yōu)實(shí)戰(zhàn)與探索(存儲(chǔ)模型優(yōu)化+調(diào)用鏈路分析)

    分析、流量分析、壓測實(shí)施和剖解調(diào)優(yōu)等主要環(huán)節(jié)中,引發(fā)對(duì)于系統(tǒng)能力底盤夯實(shí)和測試策略改進(jìn)的諸多思考。 在性能測試階段,剖析系統(tǒng)能力實(shí)現(xiàn)及調(diào)優(yōu)方案,探索更優(yōu)解及性能測試策略的提升空間。 ?
    的頭像 發(fā)表于 01-12 14:46 ?424次閱讀
    性能測試<b class='flag-5'>調(diào)</b><b class='flag-5'>優(yōu)</b>實(shí)戰(zhàn)與探索(存儲(chǔ)<b class='flag-5'>模型</b>優(yōu)化+調(diào)用鏈路分析)

    實(shí)戰(zhàn)RK3568性能調(diào)優(yōu):如何利用迅為資料壓榨NPU潛能-在Android系統(tǒng)中使用NPU

    《實(shí)戰(zhàn)RK3568性能調(diào)優(yōu):如何利用迅為資料壓榨NPU潛能-在Android系統(tǒng)中使用NPU》
    的頭像 發(fā)表于 11-07 13:42 ?430次閱讀
    實(shí)戰(zhàn)RK3568性能<b class='flag-5'>調(diào)</b><b class='flag-5'>優(yōu)</b>:如何利用迅為資料壓榨NPU潛能-在Android系統(tǒng)中使用NPU

    天翼云基于開源歐拉的智能調(diào)優(yōu)實(shí)踐

    在數(shù)字經(jīng)濟(jì)加速滲透的當(dāng)下,操作系統(tǒng)作為底層基礎(chǔ)設(shè)施的核心,其穩(wěn)定性與適配性直接關(guān)系到行業(yè)數(shù)字化進(jìn)程。隨著CentOS停止維護(hù),國內(nèi)企業(yè)面臨操作系統(tǒng)遷移的緊迫需求,天翼云基于開源歐拉研發(fā)的CTyunOS,不僅成為這一遷移浪潮中的關(guān)鍵解決方案,更通過智能調(diào)優(yōu)實(shí)踐,為數(shù)字經(jīng)濟(jì)筑
    的頭像 發(fā)表于 10-17 11:04 ?602次閱讀

    HarmonyOSAI編程智慧調(diào)優(yōu)

    DevEco Studio提供智慧調(diào)優(yōu)能力,支持通過自然語言交互,分析并解釋當(dāng)前實(shí)例或項(xiàng)目中存在的性能問題,幫助開發(fā)者快速定位影響性能的具體原因。該功能從DevEco Studio 6.0.0
    發(fā)表于 09-01 15:15

    HarmonyOS AI輔助編程工具(CodeGenie)智慧調(diào)優(yōu)

    DevEco Studio提供智慧調(diào)優(yōu)能力,支持通過自然語言交互,分析并解釋當(dāng)前實(shí)例或項(xiàng)目中存在的性能問題,幫助開發(fā)者快速定位影響性能的具體原因。該功能從DevEco Studio 6.0.0
    發(fā)表于 08-14 11:12

    Linux網(wǎng)絡(luò)性能調(diào)優(yōu)方案

    在當(dāng)今高并發(fā)、大流量的互聯(lián)網(wǎng)環(huán)境下,網(wǎng)絡(luò)性能往往成為系統(tǒng)的瓶頸。作為一名資深運(yùn)維工程師,我在生產(chǎn)環(huán)境中遇到過無數(shù)次因?yàn)門CP/IP參數(shù)配置不當(dāng)導(dǎo)致的性能問題。今天分享一套完整的Linux網(wǎng)絡(luò)性能調(diào)優(yōu)方案,幫助大家徹底解決網(wǎng)絡(luò)性能瓶頸。
    的頭像 發(fā)表于 08-06 18:01 ?1122次閱讀

    Linux內(nèi)核參數(shù)調(diào)優(yōu)方案

    在高并發(fā)微服務(wù)環(huán)境中,網(wǎng)絡(luò)性能往往成為K8s集群的瓶頸。本文將深入探討如何通過精細(xì)化的Linux內(nèi)核參數(shù)調(diào)優(yōu),讓你的K8s節(jié)點(diǎn)網(wǎng)絡(luò)性能提升30%以上。
    的頭像 發(fā)表于 08-06 17:50 ?861次閱讀

    Linux系統(tǒng)性能調(diào)優(yōu)方案

    關(guān)鍵要點(diǎn)預(yù)覽:本文將深入解析Linux系統(tǒng)性能瓶頸的根本原因,提供可直接落地的調(diào)優(yōu)方案,讓你的系統(tǒng)性能提升30-50%!
    的頭像 發(fā)表于 08-06 17:49 ?755次閱讀

    超小型Neuton機(jī)器學(xué)習(xí)模型, 在任何系統(tǒng)級(jí)芯片(SoC)上解鎖邊緣人工智能應(yīng)用.

    Neuton 是一家邊緣AI 公司,致力于讓機(jī)器 學(xué)習(xí)模型更易于使用。它創(chuàng)建的模型比競爭對(duì)手的框架小10 倍,速度也快10 倍,甚至可以在最先進(jìn)的邊緣設(shè)備上進(jìn)行人工智能處理。在這篇博文
    發(fā)表于 07-31 11:38

    MySQL配置調(diào)優(yōu)技巧

    上個(gè)月,我們公司的核心業(yè)務(wù)系統(tǒng)突然出現(xiàn)大面積超時(shí),用戶投訴電話不斷。經(jīng)過緊急排查,發(fā)現(xiàn)是MySQL服務(wù)器CPU飆升到99%,大量慢查詢堆積。通過一系列配置調(diào)優(yōu)和SQL優(yōu)化,最終在30分鐘內(nèi)恢復(fù)了服務(wù)。
    的頭像 發(fā)表于 07-31 10:27 ?506次閱讀

    人工智能學(xué)習(xí)17問:從入門到避坑,新手最關(guān)心的問題全在這

    問:學(xué)人工智能,光看書就行?答:不行。AI是“練出來”的,不是“看出來”的。書能教理論,但寫代碼、調(diào)模型、解決實(shí)際問題的能力,必須靠動(dòng)手練。利用學(xué)習(xí)平臺(tái)把書本知識(shí)拆解成可操作的步驟,跟著練3
    的頭像 發(fā)表于 07-30 14:18 ?625次閱讀
    人工智能<b class='flag-5'>學(xué)習(xí)</b>17問:從入門到避坑,新手最關(guān)心的問題全在這

    Nginx在企業(yè)環(huán)境中的調(diào)優(yōu)策略

    Nginx作為現(xiàn)代互聯(lián)網(wǎng)架構(gòu)中最重要的Web服務(wù)器和反向代理服務(wù)器,其性能調(diào)優(yōu)對(duì)企業(yè)級(jí)應(yīng)用的穩(wěn)定性和效率至關(guān)重要。本指南將從運(yùn)維實(shí)踐角度出發(fā),詳細(xì)介紹Nginx在企業(yè)環(huán)境中的各種調(diào)優(yōu)
    的頭像 發(fā)表于 07-14 11:13 ?531次閱讀

    手把手教你如何調(diào)優(yōu)Linux網(wǎng)絡(luò)參數(shù)

    在高并發(fā)網(wǎng)絡(luò)服務(wù)場景中,Linux內(nèi)核的默認(rèn)網(wǎng)絡(luò)參數(shù)往往無法滿足需求,導(dǎo)致性能瓶頸、連接超時(shí)甚至服務(wù)崩潰。本文基于真實(shí)案例分析,從參數(shù)解讀、問題診斷到優(yōu)化實(shí)踐,手把手教你如何調(diào)優(yōu)Linux網(wǎng)絡(luò)參數(shù),支撐百萬級(jí)并發(fā)連接。
    的頭像 發(fā)表于 05-29 09:21 ?822次閱讀

    機(jī)器學(xué)習(xí)模型市場前景如何

    當(dāng)今,隨著算法的不斷優(yōu)化、數(shù)據(jù)量的爆炸式增長以及計(jì)算能力的飛速提升,機(jī)器學(xué)習(xí)模型的市場前景愈發(fā)廣闊。下面,AI部落小編將探討機(jī)器學(xué)習(xí)
    的頭像 發(fā)表于 02-13 09:39 ?691次閱讀

    xgboost超參數(shù)調(diào)優(yōu)技巧 xgboost在圖像分類中的應(yīng)用

    一、XGBoost超參數(shù)調(diào)優(yōu)技巧 XGBoost(eXtreme Gradient Boosting)是一種基于梯度提升決策樹(GBDT)的高效梯度提升框架,在機(jī)器學(xué)習(xí)競賽和實(shí)際業(yè)務(wù)應(yīng)
    的頭像 發(fā)表于 01-31 15:16 ?2398次閱讀