chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

機(jī)器學(xué)習(xí)中最常見(jiàn)錯(cuò)誤解決方案

新機(jī)器視覺(jué) ? 來(lái)源:機(jī)器之心 ? 作者:機(jī)器之心 ? 2022-08-08 16:56 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

當(dāng)你構(gòu)建第一個(gè)模型,注意避免這5個(gè)坑。

數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)正變得越來(lái)越流行,這個(gè)領(lǐng)域的人數(shù)每天都在增長(zhǎng)。這意味著有很多數(shù)據(jù)科學(xué)家在構(gòu)建他們的第一個(gè)機(jī)器學(xué)習(xí)模型時(shí)沒(méi)有豐富的經(jīng)驗(yàn),而這也是錯(cuò)誤可能會(huì)發(fā)生的地方。

近日,軟件架構(gòu)師、數(shù)據(jù)科學(xué)家、Kaggle 大師 Agnis Liukis 撰寫(xiě)了一篇文章,他在文中談了談在機(jī)器學(xué)習(xí)中最常見(jiàn)的一些初學(xué)者錯(cuò)誤的解決方案,以確保初學(xué)者了解并避免它們。

以下為文章內(nèi)容:

在機(jī)器學(xué)習(xí)領(lǐng)域,初學(xué)者避免這 5 個(gè)坑

1、在需要的地方?jīng)]有使用數(shù)據(jù)歸一化

對(duì)數(shù)據(jù)進(jìn)行歸一化操作,然后獲取特征,并將其輸入到模型中,讓模型做出預(yù)測(cè),這種方法是很容易的。但在某些情況下,這種簡(jiǎn)單方法的結(jié)果可能會(huì)讓人失望,因?yàn)樗鄙僖粋€(gè)非常重要的部分。

一些類(lèi)型的模型需要數(shù)據(jù)歸一化,如線性回歸、經(jīng)典神經(jīng)網(wǎng)絡(luò)等。這類(lèi)模型使用特征值去乘訓(xùn)練值的權(quán)重。在非歸一化特征的情況下,一個(gè)特征值的可能范圍可能不同于另一個(gè)特征值的可能范圍。

假設(shè)一個(gè)特征的值在 [0,0.001] 范圍內(nèi),另一個(gè)特征的值在 [100000,200000] 范圍內(nèi)。對(duì)于使兩個(gè)特征同等重要的模型,第一個(gè)特征的權(quán)重將比第二個(gè)特征的權(quán)重大 1 億倍。巨大的權(quán)重可能會(huì)給模型帶來(lái)嚴(yán)重問(wèn)題,比如存在一些異常值的時(shí)候。此外,估計(jì)各種特征的重要性變得困難,因?yàn)闄?quán)重大可能意味著特征很重要,但也可能只是意味著其特征值很小

歸一化后,所有特征的值都在相同的范圍內(nèi),通常為 [0,1] 或 [-1,1]。在這種情況下,權(quán)重將在相似的范圍內(nèi),并與每個(gè)特征的實(shí)際重要性密切對(duì)應(yīng)。

總的來(lái)說(shuō),在需要的地方使用數(shù)據(jù)歸一化將產(chǎn)生更好、更準(zhǔn)確的預(yù)測(cè)。

2、認(rèn)為特征越多越好

有人可能會(huì)認(rèn)為加入所有特征是一個(gè)好主意,認(rèn)為模型會(huì)自動(dòng)選擇并使用最好的特征。實(shí)際上,這種想法很難成真。

模型的特征越多,過(guò)擬合的風(fēng)險(xiǎn)越大。即使在完全隨機(jī)的數(shù)據(jù)中,模型也能夠找到一些特征(信號(hào)),盡管有時(shí)較弱,有時(shí)較強(qiáng)。當(dāng)然,隨機(jī)噪聲中沒(méi)有真實(shí)信號(hào)。但如果我們有足夠多的噪聲列,則該模型有可能根據(jù)檢測(cè)到的故障信號(hào)使用其中的一部分。當(dāng)這種情況發(fā)生時(shí),模型預(yù)測(cè)質(zhì)量將會(huì)降低,因?yàn)樗鼈円欢ǔ潭壬匣陔S機(jī)噪聲。

現(xiàn)在有許多技術(shù)幫助我們進(jìn)行特征選擇。但你要記住,你需要解釋你擁有的每一個(gè)特征,以及為什么這個(gè)特征會(huì)幫助你的模型。

3. 在需要外推的情況下,使用基于樹(shù)的模型

基于樹(shù)的模型易于使用,功能強(qiáng)大,這也是其受歡迎的原因。然而,在某些情況下,使用基于樹(shù)的模型可能是錯(cuò)誤的。

基于樹(shù)的模型無(wú)法外推,這些模型的預(yù)測(cè)值永遠(yuǎn)不會(huì)大于訓(xùn)練數(shù)據(jù)中的最大值,而且在訓(xùn)練中也永遠(yuǎn)不會(huì)輸出比最小值更小的預(yù)測(cè)值。

在某些任務(wù)中,外推能力可能非常重要。例如,如果該模型預(yù)測(cè)股票價(jià)格,那么未來(lái)股票價(jià)格可能會(huì)比以往任何時(shí)候都高。在這種情況下,基于樹(shù)的模型將無(wú)法直接使用,因?yàn)樗鼈兊念A(yù)測(cè)幾乎會(huì)超過(guò)最高歷史價(jià)格。

這個(gè)問(wèn)題有多種解決方案,一種解決方案是預(yù)測(cè)變化或差異,而不是直接預(yù)測(cè)價(jià)值。另一種解決方案是為此類(lèi)任務(wù)使用不同類(lèi)型的模型。線性回歸或神經(jīng)網(wǎng)絡(luò)就可以進(jìn)行外推。

4、在不需要的地方使用數(shù)據(jù)歸一化

之前文章談到了數(shù)據(jù)歸一化的必要性,但情況并非總是如此,基于樹(shù)的模型不需要數(shù)據(jù)歸一化。神經(jīng)網(wǎng)絡(luò)可能也不需要明確的歸一化,因?yàn)橛行┚W(wǎng)絡(luò)內(nèi)部已經(jīng)包含歸一化層,例如 Keras 庫(kù)的 BatchNormalization 操作。

在某些情況下,即使是線性回歸也可能不需要數(shù)據(jù)歸一化,這是指所有特征都已處于類(lèi)似的值范圍,并且具有相同的含義。例如,如果模型適用于時(shí)間序列數(shù)據(jù),并且所有特征都是同一參數(shù)的歷史值。

5. 在訓(xùn)練集和驗(yàn)證集 / 測(cè)試集之間泄漏信息

造成數(shù)據(jù)泄漏比人們想象的要容易,考慮以下代碼段:

67499348-165a-11ed-ba43-dac502259ad0.png

數(shù)據(jù)泄漏的示例特性

實(shí)際上,這兩種特征(sum_feature 和 diff_feature)都不正確。它們正在泄漏信息,因?yàn)樵诓鸱值接?xùn)練集 / 測(cè)試集后,具有訓(xùn)練數(shù)據(jù)的部分將包含來(lái)自測(cè)試的一些信息。這將導(dǎo)致更高的驗(yàn)證分?jǐn)?shù),但當(dāng)應(yīng)用于實(shí)際的數(shù)據(jù)模型時(shí),性能會(huì)更差。

正確的方法是首先將訓(xùn)練集 / 測(cè)試集分開(kāi),然后才應(yīng)用特征生成功能。通常,分別處理訓(xùn)練集和測(cè)試集是一種很好的特征工程模式。

在某些情況下,可能需要在兩者之間傳遞一些信息 —— 例如,我們可能希望在測(cè)試集和訓(xùn)練集上使用相同的 StandardScaler。

總而言之,從錯(cuò)誤中吸取教訓(xùn)是件好事,希望上述所提供的錯(cuò)誤示例能幫助到你。

審核編輯:彭靜
聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴

原文標(biāo)題:機(jī)器學(xué)習(xí)初學(xué)者易踩的5個(gè)坑

文章出處:【微信號(hào):vision263com,微信公眾號(hào):新機(jī)器視覺(jué)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    機(jī)器學(xué)習(xí)和深度學(xué)習(xí)中需避免的 7 個(gè)常見(jiàn)錯(cuò)誤與局限性

    無(wú)論你是剛?cè)腴T(mén)還是已經(jīng)從事人工智能模型相關(guān)工作一段時(shí)間,機(jī)器學(xué)習(xí)和深度學(xué)習(xí)中都存在一些我們需要時(shí)刻關(guān)注并銘記的常見(jiàn)錯(cuò)誤。如果對(duì)這些
    的頭像 發(fā)表于 01-07 15:37 ?192次閱讀
    <b class='flag-5'>機(jī)器</b><b class='flag-5'>學(xué)習(xí)</b>和深度<b class='flag-5'>學(xué)習(xí)</b>中需避免的 7 個(gè)<b class='flag-5'>常見(jiàn)</b><b class='flag-5'>錯(cuò)誤</b>與局限性

    三防漆應(yīng)用失???八個(gè)常見(jiàn)問(wèn)題與解決方案一文搞定 | 東莞 鉻銳特實(shí)業(yè)

    東莞三防漆|鉻銳特實(shí)業(yè)官網(wǎng) | 三防漆涂覆失敗怎么辦?本文總結(jié)8個(gè)最常見(jiàn)問(wèn)題(如起泡、不均勻、發(fā)白、附著力差等)及實(shí)用解決方案,一文幫您避開(kāi)三防漆應(yīng)用坑點(diǎn),提升電子產(chǎn)品防護(hù)成功率。
    的頭像 發(fā)表于 12-24 00:36 ?371次閱讀
    三防漆應(yīng)用失???八個(gè)<b class='flag-5'>常見(jiàn)</b>問(wèn)題與<b class='flag-5'>解決方案</b>一文搞定 | 東莞 鉻銳特實(shí)業(yè)

    程序員最常見(jiàn)謊言

    前任留下的 Bug。 14這個(gè)問(wèn)題可能是由于客戶端的錯(cuò)誤引起的。 15我已經(jīng)檢查了所有的服務(wù)器配置,沒(méi)有發(fā)現(xiàn)任何問(wèn)題。 16在我機(jī)器上是好好的! 17你清緩存了嗎?瀏覽器是谷歌瀏覽器嗎? 18這個(gè)
    發(fā)表于 12-10 08:24

    分析負(fù)載特性時(shí),有哪些常見(jiàn)錯(cuò)誤或誤區(qū)?

    分析負(fù)載特性時(shí),很多人會(huì)因 “想當(dāng)然套用經(jīng)驗(yàn)”“忽略實(shí)際場(chǎng)景細(xì)節(jié)” 或 “混淆概念” 導(dǎo)致判斷偏差,進(jìn)而讓報(bào)警閾值調(diào)整失效(如誤報(bào)、漏報(bào))。以下是 6 個(gè)最常見(jiàn)錯(cuò)誤 / 誤區(qū),附錯(cuò)誤表現(xiàn)、危害
    的頭像 發(fā)表于 10-10 17:03 ?809次閱讀

    Nginx常見(jiàn)故障案例總結(jié)

    在互聯(lián)網(wǎng)公司的運(yùn)維生涯中,Nginx故障可以說(shuō)是最常見(jiàn)也最讓人頭疼的問(wèn)題之一。從簡(jiǎn)單的配置錯(cuò)誤到復(fù)雜的性能瓶頸,從偶發(fā)的502到持續(xù)的高延遲,每一個(gè)故障背后都有其獨(dú)特的原因和解決方案
    的頭像 發(fā)表于 09-18 14:51 ?1291次閱讀

    規(guī)避生產(chǎn)陷阱:PCB設(shè)計(jì)中常見(jiàn)錯(cuò)誤解決方案

    生產(chǎn)階段造成嚴(yán)重問(wèn)題,導(dǎo)致設(shè)計(jì)報(bào)廢、生產(chǎn)延誤和成本增加。原型的成功并不意味著量產(chǎn)也能成功,因此 在設(shè)計(jì)早期階段就應(yīng)考慮生產(chǎn)可行性的重要性。 ? 本文總結(jié)了常見(jiàn)的與生產(chǎn)相關(guān)的設(shè)計(jì)缺陷并提供了解決方案。 缺乏關(guān)鍵信號(hào)測(cè)試點(diǎn) ? 問(wèn)題 : 這是最
    的頭像 發(fā)表于 09-08 11:15 ?5630次閱讀
    規(guī)避生產(chǎn)陷阱:PCB設(shè)計(jì)中<b class='flag-5'>常見(jiàn)</b>的<b class='flag-5'>錯(cuò)誤</b>及<b class='flag-5'>解決方案</b>

    國(guó)巨貼片電容的電壓標(biāo)識(shí)有哪些常見(jiàn)錯(cuò)誤?

    國(guó)巨貼片電容的電壓標(biāo)識(shí)在識(shí)別和使用過(guò)程中可能存在一些常見(jiàn)錯(cuò)誤,這些錯(cuò)誤可能源于標(biāo)識(shí)本身的模糊性、不同系列產(chǎn)品的差異、對(duì)標(biāo)識(shí)規(guī)則的誤解,或使用環(huán)境的影響。以下是具體分析: 一、標(biāo)識(shí)模糊或
    的頭像 發(fā)表于 08-28 16:51 ?753次閱讀

    在使用示波器探測(cè)時(shí),你犯過(guò)這7大錯(cuò)誤嗎?

    不盡相同,每次探測(cè)設(shè)備,需要選擇對(duì)測(cè)量影響最小的探頭,這是成功測(cè)量的關(guān)鍵。以下這些錯(cuò)誤,是大家在測(cè)量過(guò)程中最常見(jiàn)的,請(qǐng)牢記它們并在平時(shí)的測(cè)量中規(guī)避這些錯(cuò)誤,以便獲
    的頭像 發(fā)表于 07-23 17:33 ?735次閱讀
    在使用示波器探測(cè)時(shí),你犯過(guò)這7大<b class='flag-5'>錯(cuò)誤</b>嗎?

    NCS放大器DAD3350常見(jiàn)錯(cuò)誤碼及解決方案

    NCS放大器DAD3350在工業(yè)應(yīng)用中可能出現(xiàn)的錯(cuò)誤碼及解決方案如下: ? 一、常見(jiàn)錯(cuò)誤碼及原因 ? ? 過(guò)載報(bào)警(如LV低電壓報(bào)警、OVC過(guò)電流報(bào)警) ? ? 原因 ?: 電源電壓異
    的頭像 發(fā)表于 07-12 09:41 ?921次閱讀

    電商API常見(jiàn)錯(cuò)誤排查指南:避免集成陷阱

    ? 在電商平臺(tái)開(kāi)發(fā)中,API集成是連接系統(tǒng)、實(shí)現(xiàn)數(shù)據(jù)交換的核心環(huán)節(jié)。然而,許多開(kāi)發(fā)者在集成過(guò)程中常遇到錯(cuò)誤,導(dǎo)致項(xiàng)目延遲、數(shù)據(jù)丟失或用戶體驗(yàn)下降。本文將逐步介紹常見(jiàn)錯(cuò)誤類(lèi)型、排查方法以及預(yù)防策略
    的頭像 發(fā)表于 07-11 14:21 ?2045次閱讀
    電商API<b class='flag-5'>常見(jiàn)</b><b class='flag-5'>錯(cuò)誤</b>排查指南:避免集成陷阱

    PCBA代工避坑指南:常見(jiàn)問(wèn)題+解決方案全解析

    一站式PCBA加工廠家今天為大家講講PCBA代工代購(gòu)元器件常見(jiàn)問(wèn)題有哪些?PCBA代工代購(gòu)元器件常見(jiàn)問(wèn)題及解決方案。隨著科技的不斷發(fā)展和市場(chǎng)需求的變化,越來(lái)越多的企業(yè)選擇通過(guò)外包方式進(jìn)行PCBA生產(chǎn)
    的頭像 發(fā)表于 07-09 09:38 ?762次閱讀

    內(nèi)網(wǎng)穿透避坑指南 6 大常見(jiàn)錯(cuò)誤 + 保姆級(jí)解決方案

    在內(nèi)網(wǎng)穿透部署中,哪怕是老手也可能踩坑!今天整理了6大高頻錯(cuò)誤場(chǎng)景+實(shí)戰(zhàn)解決方案,幫你少走彎路,效率翻倍 1.端口映射失敗:訪問(wèn)顯示「連接超時(shí)」 ?錯(cuò)誤原因: 本地服務(wù)未啟動(dòng)或端口被占用 防火墻
    的頭像 發(fā)表于 05-20 12:14 ?776次閱讀

    記憶示波器設(shè)置有哪些常見(jiàn)錯(cuò)誤?

    與示波器兼容。 九、常見(jiàn)場(chǎng)景示例 [td]場(chǎng)景常見(jiàn)錯(cuò)誤解決方案 測(cè)量電源紋波帶寬限制未啟用啟用20MHz帶寬限制 高速數(shù)字信號(hào)調(diào)試存儲(chǔ)深度不足增加存儲(chǔ)深度或降低時(shí)間檔位 微弱信號(hào)測(cè)量垂直檔位過(guò)大調(diào)整垂直
    發(fā)表于 04-14 15:29

    多板 PCB 組裝中最常見(jiàn)的邏輯錯(cuò)誤

    到電路板原型制作結(jié)束后,也無(wú)法發(fā)現(xiàn)這些錯(cuò)誤。幸運(yùn)的是,您可以采取一些簡(jiǎn)單的解決方案和設(shè)計(jì)選擇,避免電路板之間出現(xiàn)這些邏輯連接錯(cuò)誤。01什么是電路板之間的邏輯連接錯(cuò)誤?
    的頭像 發(fā)表于 03-14 18:15 ?919次閱讀
    多板 PCB 組裝<b class='flag-5'>中最常見(jiàn)</b>的邏輯<b class='flag-5'>錯(cuò)誤</b>

    FLIR OGI熱像儀在智能機(jī)器人中的應(yīng)用

    石油化工廠的氣體泄漏檢測(cè)不僅危險(xiǎn)而且耗時(shí),還很容易受到人為錯(cuò)誤解釋的影響。為了提供更安全、更高效、更可靠的檢測(cè)解決方案,德國(guó)某公司和研究所共同開(kāi)發(fā)RoboGasInspector系統(tǒng),通過(guò)自主移動(dòng)檢查機(jī)器人來(lái)遠(yuǎn)程檢測(cè)和定位氣體泄
    的頭像 發(fā)表于 03-13 10:35 ?913次閱讀