chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

機器學(xué)習(xí)的特征工程是將原始的輸入數(shù)據(jù)轉(zhuǎn)換成特征

Dbwd_Imgtec ? 來源:lp ? 2019-04-19 16:42 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

一、簡介

機器學(xué)習(xí)的特征工程是將原始的輸入數(shù)據(jù)轉(zhuǎn)換成特征,以便于更好的表示潛在的問題,并有助于提高預(yù)測模型準確性的過程。

找出合適的特征是很困難且耗時的工作,它需要專家知識,而應(yīng)用機器學(xué)習(xí)基本也可以理解成特征工程。但是,特征工程對機器學(xué)習(xí)模型的應(yīng)用有很大影響,有句俗話叫做“數(shù)據(jù)和特征決定了機器學(xué)習(xí)模型的性能上限”。

二、錯誤數(shù)據(jù)和缺失值

特征工程之前需要對缺失數(shù)據(jù)和錯誤數(shù)據(jù)進行處理。錯誤數(shù)據(jù)可以矯正,有的錯誤是格式錯誤,如日期的格式可能是“2018-09-19”和“20180920”這種混合的,要統(tǒng)一。

缺失數(shù)據(jù)的處理:

去掉所在行/列

取均值

中位數(shù)

眾數(shù)

使用算法預(yù)測

三、特征的種類

機器學(xué)習(xí)的輸入特征包括幾種:

數(shù)值特征:包括整形、浮點型等,可以有順序意義,或者無序數(shù)據(jù)。

分類特征:如ID、性別等。

時間特征:時間序列如月份、年份、季度、日期、小時等。

空間特征:經(jīng)緯度等,可以轉(zhuǎn)換成郵編,城市等。

文本特征:文檔,自然語言,語句等,這里暫時不介紹處理。

四、特征工程技巧

4.1、分箱(Binning)

數(shù)據(jù)分箱(Binning)是一種數(shù)據(jù)預(yù)處理技術(shù),用于減少輕微觀察錯誤的影響。落入給定小間隔bin的原始數(shù)據(jù)值由代表該間隔的值(通常是中心值)代替。這是一種量化形式。 統(tǒng)計數(shù)據(jù)分箱是一種將多個或多或少連續(xù)值分組為較少數(shù)量的“分箱”的方法。例如,如果您有關(guān)于一組人的數(shù)據(jù),您可能希望將他們的年齡安排到較小的年齡間隔。對于一些時間數(shù)據(jù)可以進行分箱操作,例如一天24小時可以分成早晨[5,8),上午[8,11),中午[11,14),下午[14,19),夜晚[10,22),深夜[19,24)和[24,5)。因為比如中午11點和12點其實沒有很大區(qū)別,可以使用分箱技巧處理之后可以減少這些“誤差”。

4.2、獨熱編碼(One-Hot Encoding)

獨熱編碼(One-Hot Encoding)是一種數(shù)據(jù)預(yù)處理技巧,它可以把類別數(shù)據(jù)變成長度相同的特征。例如,人的性別分成男女,每一個人的記錄只有男或者女,那么我們可以創(chuàng)建一個維度為2的特征,如果是男,則用(1,0)表示,如果是女,則用(0,1)。即創(chuàng)建一個維度為類別總數(shù)的向量,把某個記錄的值對應(yīng)的維度記為1,其他記為0即可。對于類別不多的分類變量,可以采用獨熱編碼。

4.3、特征哈希(Hashing Trick)

對于類別數(shù)量很多的分類變量可以采用特征哈希(Hashing Trick),特征哈希的目標就是將一個數(shù)據(jù)點轉(zhuǎn)換成一個向量。利用的是哈希函數(shù)將原始數(shù)據(jù)轉(zhuǎn)換成指定范圍內(nèi)的散列值,相比較獨熱模型具有很多優(yōu)點,如支持在線學(xué)習(xí),維度減小很多燈。具體參考數(shù)據(jù)特征處理之特征哈希(Feature Hashing)。

4.4、嵌套法(Embedding)

嵌套法(Embedding)是使用神經(jīng)網(wǎng)絡(luò)的方法來將原始輸入數(shù)據(jù)轉(zhuǎn)換成新特征,嵌入實際上是根據(jù)您想要實現(xiàn)的任務(wù)將您的特征投影到更高維度的空間,因此在嵌入空間中,或多或少相似的特征在它們之間具有小的距離。 這允許分類器更好地以更全面的方式學(xué)習(xí)表示。例如,word embedding就是將單個單詞映射成維度是幾百維甚至幾千維的向量,在進行文檔分類等,原本具有語義相似性的單詞映射之后的向量之間的距離也比較小,進而可以幫助我們進一步進行機器學(xué)習(xí)的應(yīng)用,這一點比獨熱模型好很多。

4.5、取對數(shù)(Log Transformation)

取對數(shù)就是指對數(shù)值做log轉(zhuǎn)換,可以將范圍很大的數(shù)值轉(zhuǎn)換成范圍較小的區(qū)間中。Log轉(zhuǎn)換對分布的形狀有很大的影響,它通常用于減少右偏度,使得最終的分布形狀更加對稱一些。它不能應(yīng)用于零值或負值。對數(shù)刻度上的一個單位表示乘以所用對數(shù)的乘數(shù)。在某些機器學(xué)習(xí)的模型中,對特征做對數(shù)轉(zhuǎn)換可以將某些連乘變成求和,更加簡單,這不屬于這部分范圍了。

如前所述,log轉(zhuǎn)換可以將范圍很大的值縮小在一定范圍內(nèi),這對某些異常值的處理也很有效,例如用戶查看的網(wǎng)頁數(shù)量是一個長尾分布,一個用戶在短時間內(nèi)查看了500個和1000個頁面都可能屬于異常值,其行為可能差別也沒那么大,那么使用log轉(zhuǎn)換也能體現(xiàn)這種結(jié)果。

4.6、特征縮放(Scaling)

特征縮放是一種用于標準化獨立變量或數(shù)據(jù)特征范圍的方法。 在數(shù)據(jù)處理中,它也稱為數(shù)據(jù)標準化,并且通常在數(shù)據(jù)預(yù)處理步驟期間執(zhí)行。特征縮放可以將很大范圍的數(shù)據(jù)限定在指定范圍內(nèi)。由于原始數(shù)據(jù)的值范圍變化很大,在一些機器學(xué)習(xí)算法中,如果沒有標準化,目標函數(shù)將無法正常工作。例如,大多數(shù)分類器按歐幾里德距離計算兩點之間的距離。 如果其中一個要素具有寬范圍的值,則距離將受此特定要素的控制。因此,應(yīng)對所有特征的范圍進行歸一化,以使每個特征大致與最終距離成比例。

應(yīng)用特征縮放的另一個原因是梯度下降與特征縮放比沒有它時收斂得快得多。

特征縮放主要包括兩種:

最大最小縮放(Min-max Scaling)

標準化縮放(Standard(Z) Scaling)

4.7、標準化(Normalization)

在最簡單的情況下,標準化意味著將在不同尺度上測量的值調(diào)整到概念上的共同尺度。在更復(fù)雜的情況下,標準化可以指更復(fù)雜的調(diào)整,其中意圖是使調(diào)整值的整個概率分布對齊。在一般情況下,可能有意將分布與正態(tài)分布對齊。

在統(tǒng)計學(xué)的另一種用法中,標準化上將不同單位的數(shù)值轉(zhuǎn)換到可以互相比較的范圍內(nèi),避免總量大小的影響。標準化后的數(shù)據(jù)對于某些優(yōu)化算法如梯度下降等也很重要。

4.8、特征交互(Feature Interaction)

在回歸模型中加入交互項是一種非常常見的處理方式。它可以極大的拓展回歸模型對變量之間的依賴的解釋。具體參見回歸模型中的交互項簡介(Interactions in Regression)。

五、時間特征處理

幾乎所有的時間特征都要處理,時間特征有序列性,其順序有意義。這里簡單列舉幾種處理方式。

5.1、分箱法

這是最常用的方法,如前面所述。有時候11點與12點之間差別并沒有意義,可以采用上述分箱法處理。

5.2、趨勢線(Treadlines)

多使用趨勢量而不是總量來編碼,例如使用上個星期花銷,上個月花銷,去年的花銷,而不是總花銷。兩個總花銷相同的客戶可能在消費行為上有很大差別。

5.3、事件貼近(Closeness to major events)

假日之前幾天,每個月第一個周六等。這種重要時間節(jié)點附近的值可能更有意義。

5.4、時間差(Time Difference)

上次用戶交互的時間到這次用戶交互時間間隔,這種時間差別意義也很大。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴

原文標題:機器學(xué)習(xí):特征工程相關(guān)技術(shù)簡介

文章出處:【微信號:Imgtec,微信公眾號:Imagination Tech】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    機器學(xué)習(xí)算法的特征工程與意義詳解

    1、特征工程與意義 特征就是從數(shù)據(jù)中抽取出來的對結(jié)果預(yù)測有用的信息。 特征工程是使用專業(yè)知識背景
    發(fā)表于 10-08 15:24 ?3218次閱讀
    <b class='flag-5'>機器</b><b class='flag-5'>學(xué)習(xí)</b>算法的<b class='flag-5'>特征</b><b class='flag-5'>工程</b>與意義詳解

    如何陀螺儀的原始數(shù)據(jù)轉(zhuǎn)換成角速度呢

    我正在使用 lsm6dsl 傳感器。我正在獲取有關(guān)寄存器的數(shù)據(jù)。如何原始數(shù)據(jù)轉(zhuǎn)換成角度
    發(fā)表于 12-15 08:19

    如何pads2007轉(zhuǎn)換成cadence文件

    pads2007轉(zhuǎn)cadence:如何pads2007轉(zhuǎn)換成cadence文件
    發(fā)表于 09-14 09:55 ?0次下載
    如何<b class='flag-5'>將</b>pads2007<b class='flag-5'>轉(zhuǎn)換成</b>cadence文件

    利用物聯(lián)網(wǎng)工廠數(shù)據(jù)轉(zhuǎn)換成價值

    英特爾打造核心技術(shù)利用物聯(lián)網(wǎng)工廠數(shù)據(jù)轉(zhuǎn)換成價值
    發(fā)表于 12-28 18:00 ?0次下載

    為什么特征工程如此重要?把數(shù)據(jù)轉(zhuǎn)換成圖像

    如上圖所示,目標變量明顯泄漏到了f190486列中。事實上,我沒有用任何機器學(xué)習(xí)就得到了0.57分,這在排行榜上是個高分。在競賽截止日期前二十天左右,主持競賽的桑坦德銀行終于發(fā)現(xiàn)了這個問題,但他們最終還是決定繼續(xù)比賽,讓參賽者假設(shè)這是一個
    的頭像 發(fā)表于 09-05 09:00 ?5916次閱讀

    想掌握機器學(xué)習(xí)技術(shù)?從了解特征工程開始

    的相關(guān)知識來創(chuàng)建能夠使機器學(xué)習(xí)算法達到最佳性能的特征的過程。簡而言之,特征工程就是一個把原始數(shù)據(jù)
    的頭像 發(fā)表于 12-05 09:36 ?2425次閱讀

    機器學(xué)習(xí)特征工程的五個方面優(yōu)點

    特征工程是用數(shù)學(xué)轉(zhuǎn)換的方法原始輸入數(shù)據(jù)
    的頭像 發(fā)表于 03-15 16:57 ?4363次閱讀

    機器學(xué)習(xí)特征提取 VS 特征選擇

    機器學(xué)習(xí)特征選擇和特征提取區(qū)別 demi 在 周四, 06/11/2020 - 16:08 提交 1. 特征提取 V.S
    的頭像 發(fā)表于 09-14 16:23 ?4559次閱讀
    <b class='flag-5'>機器</b><b class='flag-5'>學(xué)習(xí)</b>之<b class='flag-5'>特征</b>提取 VS <b class='flag-5'>特征</b>選擇

    特征選擇和機器學(xué)習(xí)的軟件缺陷跟蹤系統(tǒng)對比

    針對Bugzilla缺陷跟蹤系統(tǒng)的ε clipse項目軟件缺陷報告數(shù)據(jù)集,使用特征選擇和機器學(xué)習(xí)算法對向量化的原始數(shù)據(jù)進行
    發(fā)表于 06-10 10:50 ?12次下載

    機器學(xué)習(xí)算法學(xué)習(xí)特征工程1

    特征工程機器學(xué)習(xí)過程中的關(guān)鍵步驟,涉及原始數(shù)據(jù)轉(zhuǎn)換
    的頭像 發(fā)表于 04-19 11:38 ?1283次閱讀
    <b class='flag-5'>機器</b><b class='flag-5'>學(xué)習(xí)</b>算法<b class='flag-5'>學(xué)習(xí)</b>之<b class='flag-5'>特征</b><b class='flag-5'>工程</b>1

    機器學(xué)習(xí)算法學(xué)習(xí)特征工程2

    特征工程機器學(xué)習(xí)過程中的關(guān)鍵步驟,涉及原始數(shù)據(jù)轉(zhuǎn)換
    的頭像 發(fā)表于 04-19 11:38 ?1292次閱讀
    <b class='flag-5'>機器</b><b class='flag-5'>學(xué)習(xí)</b>算法<b class='flag-5'>學(xué)習(xí)</b>之<b class='flag-5'>特征</b><b class='flag-5'>工程</b>2

    機器學(xué)習(xí)算法學(xué)習(xí)特征工程3

    特征工程機器學(xué)習(xí)過程中的關(guān)鍵步驟,涉及原始數(shù)據(jù)轉(zhuǎn)換
    的頭像 發(fā)表于 04-19 11:38 ?1408次閱讀
    <b class='flag-5'>機器</b><b class='flag-5'>學(xué)習(xí)</b>算法<b class='flag-5'>學(xué)習(xí)</b>之<b class='flag-5'>特征</b><b class='flag-5'>工程</b>3

    數(shù)據(jù)預(yù)處理和特征工程的常用功能

    機器學(xué)習(xí)最基礎(chǔ)的5個流程,分別是數(shù)據(jù)獲取,數(shù)據(jù)預(yù)處理,特征工程,建模、測試和預(yù)測,上線與部署。
    的頭像 發(fā)表于 01-25 11:26 ?1226次閱讀

    機器學(xué)習(xí)中的數(shù)據(jù)預(yù)處理與特征工程

    機器學(xué)習(xí)的整個流程中,數(shù)據(jù)預(yù)處理與特征工程是兩個至關(guān)重要的步驟。它們直接決定了模型的輸入質(zhì)量,
    的頭像 發(fā)表于 07-09 15:57 ?1842次閱讀

    數(shù)據(jù)準備指南:10種基礎(chǔ)特征工程方法的實戰(zhàn)教程

    數(shù)據(jù)分析和機器學(xué)習(xí)領(lǐng)域,從原始數(shù)據(jù)中提取有價值的信息是一個關(guān)鍵步驟。這個過程不僅有助于輔助決策,還能預(yù)測未來趨勢。為了實現(xiàn)這一目標,特征
    的頭像 發(fā)表于 11-01 08:09 ?813次閱讀
    <b class='flag-5'>數(shù)據(jù)</b>準備指南:10種基礎(chǔ)<b class='flag-5'>特征</b><b class='flag-5'>工程</b>方法的實戰(zhàn)教程