chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

特征工程實施步驟

穎脈Imgtec ? 2024-10-23 08:07 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

來源:Coggle數(shù)據(jù)科學


入門特征工程

1. 為什么特征工程很重要?

對于不同的數(shù)據(jù)科學家,特征工程可能呈現(xiàn)不同的意義。對于一些數(shù)據(jù)科學家,特征工程是我們如何縮減用于監(jiān)督模型的特征(例如,試圖預測響應或結果變量)。

be9c071c-90d2-11ef-b5cd-92fbcf53809c.png

對于其他人,它是從非結構化數(shù)據(jù)中提取數(shù)值表示以供無監(jiān)督模型使用的方法(例如,試圖從之前非結構化的數(shù)據(jù)集中提取結構)。特征工程包括這兩種情況,以及更多內容。數(shù)據(jù)從業(yè)者通常依賴ML和深度學習算法,即使所使用的數(shù)據(jù)格式不良且非最佳。如果我們不構建適當?shù)奶卣?,依賴復雜而耗時的ML模型來解決問題,我們可能會得到糟糕的ML模型。如果我們花時間了解我們的數(shù)據(jù),并為我們的ML模型構建特征,使其能夠學習,那么我們最終可以得到更小、更快的模型,其性能可以與甚至優(yōu)于復雜的模型相媲美。

2. 特征工程的局限性

特征工程并不是解決所有問題的靈丹妙藥。例如,在數(shù)據(jù)量過小的情況下,特征工程無法解決機器學習模型面臨的數(shù)據(jù)不足問題。對于包含少于1000行數(shù)據(jù)的數(shù)據(jù)集,在特征工程方面的努力有限,很難從這些數(shù)據(jù)觀察中提取更多信息。

特征工程也不能在特征和響應之間創(chuàng)建本來不存在的聯(lián)系。如果最初的特征在隱含上對于響應變量沒有任何預測能力,那么再多的特征工程也無法創(chuàng)造這種聯(lián)系??梢栽谛阅苌先〉靡恍┬》鹊奶嵘荒苤竿卣鞴こ袒驒C器學習模型能夠奇跡般地在特征和響應之間創(chuàng)造關系。

3. 特征工程的步驟特征工程是指將原始數(shù)據(jù)轉化為機器學習模型能夠理解的數(shù)據(jù)表示的過程,它是整個ML流水線的關鍵一環(huán)。以下是文本中提到的主要概念和步驟:機器學習流水線的五個步驟:

定義問題領域(Defining the problem domain):這一步驟涉及明確我們想要通過機器學習解決的問題,同時考慮模型預測速度或可解釋性等特點。這些考慮將在模型評估階段起到關鍵作用。

獲取準確代表問題的數(shù)據(jù)(Obtaining data):考慮并實施數(shù)據(jù)收集方法,確保數(shù)據(jù)收集公平、安全,并尊重數(shù)據(jù)提供者的隱私。此時還可以進行探索性數(shù)據(jù)分析(EDA),以更好地了解正在處理的數(shù)據(jù)。

特征工程(Feature engineering):這是文本中重點介紹的部分。特征工程涵蓋了將數(shù)據(jù)轉化為適合輸入機器學習模型的最佳表示的所有工作。

模型選擇和訓練(Model selection and training):在這個階段,選擇適合數(shù)據(jù)和問題的模型,并進行仔細的訓練。如果在第一步中強調模型的可解釋性,可能會選擇基于樹的模型而不是深度學習模型。

模型部署和評估(Model deployment and evaluation):在這個階段,數(shù)據(jù)準備就緒,模型已經(jīng)訓練完畢,可以將模型投入生產。同時需要考慮模型版本控制和預測速度等因素。必須部署評估過程,以跟蹤模型隨時間的性能變化,并注意模型的衰退情況。

概念漂移和數(shù)據(jù)漂移:

  • 概念漂移(Concept Drift):這是指隨著時間推移,特征或響應的統(tǒng)計特性發(fā)生變化。模型訓練時的數(shù)據(jù)代表了某個時間點的快照,隨著時間的推移,數(shù)據(jù)所代表的環(huán)境可能會發(fā)生變化,導致我們對特征和響應的認識也發(fā)生變化。這可能需要更新模型以適應新的概念。
  • 數(shù)據(jù)漂移(Data Drift):這是指數(shù)據(jù)的基礎分布因某種原因發(fā)生了變化,但我們對特征的解釋保持不變。例如,在全球大流行病爆發(fā)后,人們的觀影習慣發(fā)生了變化,觀影時間的分布可能會發(fā)生顯著變化。這需要我們調整模型以適應新的數(shù)據(jù)分布。

特征工程細分的步驟:

  1. 特征理解(Feature understanding):理解正在處理的數(shù)據(jù)的層級結構對選擇適當?shù)奶卣鞴こ谭椒ㄖ陵P重要。
  2. 特征結構化(Feature structuring):如果數(shù)據(jù)是非結構化的(如文本、圖像、視頻等),需要將其轉換為結構化格式,以便機器學習模型能夠理解。這可能需要應用特征提取或學習方法。
  3. 特征優(yōu)化(Feature optimization):一旦數(shù)據(jù)被結構化,可以應用優(yōu)化技術,如特征改進、提取、構建和選擇,以獲得最適合模型的數(shù)據(jù)表示。
  4. 特征評估(Feature evaluation):在嘗試不同特征工程方案時,可以選擇一個學習算法和一些參數(shù)選項進行快速調整,以評估應用不同特征工程技術的效果。

數(shù)據(jù)類型1. 結構化數(shù)據(jù)和非結構化數(shù)據(jù)結構化數(shù)據(jù)是按照嚴格的數(shù)據(jù)模型或設計組織起來的,通常以表格(行/列)格式表示,其中行代表個體觀察,列代表特征。

beceb45a-90d2-11ef-b5cd-92fbcf53809c.png

而非結構化數(shù)據(jù)則沒有預定義的設計,不遵循特定的數(shù)據(jù)模型,例如客戶服務對話的轉錄、YouTube 視頻、播客音頻等。2. 數(shù)據(jù)的四個級別

名義級別、序數(shù)級別、間隔級別和比例級別。名義級別是純粹的定性數(shù)據(jù),沒有順序和數(shù)值含義。序數(shù)級別在定性數(shù)據(jù)中具有一定的順序,但值之間的差異沒有實際意義。間隔級別中,數(shù)據(jù)之間的差異有一致的意義,可以進行加法和減法操作。比例級別是最高級別,除了有一致的差異意義外,還存在真正的零點,允許進行乘法和除法操作。

bee6c324-90d2-11ef-b5cd-92fbcf53809c.png

特征工程的類型

特征工程是指在機器學習流程中對原始數(shù)據(jù)進行預處理和轉換,以便更好地適應模型的需求,提高模型的性能和效果。

bf045650-90d2-11ef-b5cd-92fbcf53809c.png
  1. 特征改進(Feature Improvement):特征改進技術通過各種數(shù)學轉換來增強現(xiàn)有的結構化特征。通常是對數(shù)值特征應用轉換,如填充缺失數(shù)據(jù)、標準化和歸一化。這可以包括應用z-score轉換、使用統(tǒng)計中位數(shù)來填充缺失值等。特征改進在早期的案例研究中扮演著重要角色。它適用于不同層級的數(shù)據(jù),根據(jù)數(shù)據(jù)的層級可以選擇不同的改進方式。
  2. 特征構建(Feature Construction):特征構建是通過直接轉換現(xiàn)有特征或將原始數(shù)據(jù)與新數(shù)據(jù)源的數(shù)據(jù)進行連接,從而手動創(chuàng)建新特征的過程。這可以包括從新數(shù)據(jù)源中提取信息,創(chuàng)建新的特征。例如,從住房數(shù)據(jù)集中提取戶主總收入以及家庭人數(shù)作為新特征。特征構建可以涉及將分類特征轉換為數(shù)值特征,或者將數(shù)值特征通過分桶轉換為分類特征。
  3. 特征選擇(Feature Selection):特征選擇涉及從現(xiàn)有特征集中選擇最佳特征,以減少模型需要學習的特征數(shù)量,同時減少特征之間的依賴關系。這可以防止模型中出現(xiàn)特征之間的混淆,從而提高模型的性能。特征選擇適用于處理維度災難、特征之間存在依賴性以及需要提高模型速度的情況。
  4. 特征提取(Feature Extraction):特征提取是自動生成新特征的過程,基于對數(shù)據(jù)的潛在形狀做出假設。這可以涉及應用線性代數(shù)技術來執(zhí)行主成分分析(PCA)和奇異值分解(SVD)等。在自然語言處理(NLP)案例研究中,可以通過學習詞匯并將原始文本轉換為詞頻向量來執(zhí)行特征提取。

特征學習(Feature Learning):特征學習類似于特征提取,但不同之處在于它是通過應用非參數(shù)(不對原始數(shù)據(jù)的形狀做出假設)的深度學習模型來自動生成一組特征,從而自動發(fā)現(xiàn)原始數(shù)據(jù)的潛在表示。特征學習適用于處理非結構化數(shù)據(jù),如文本、圖像和視頻。但它也可能需要更多的數(shù)據(jù),并且生成的特征可能難以解釋。


特征工程的評估方法

在特征工程中,需要采用多種評估方法來確保模型的質量。以下將介紹幾種評估特征工程成果的指標。

1. 機器學習指標

與基準相比,機器學習指標可能是最直接的評估方法。這包括在應用特征工程方法之前和之后查看模型性能。具體步驟如下:

在應用任何特征工程之前,獲取計劃使用的機器學習模型的基準性能。

對數(shù)據(jù)進行特征工程處理。

從機器學習模型中獲取新的性能指標值,并將其與第一步得到的值進行比較。如果性能有所提升,并且超過了數(shù)據(jù)科學家定義的某個閾值,則表明特征工程取得了成功。

2. 解釋性指標

數(shù)據(jù)科學家和其他模型相關者應該深刻關注管道的可解釋性,因為它可能會影響業(yè)務和工程決策??山忉屝钥梢远x為我們能夠多好地詢問我們的模型“為什么”做出了特定的決策,并將該決策與用于做出模型決策的個別特征或特征組聯(lián)系起來。

3. 公平性和偏見評估指標為了確保模型不會根據(jù)數(shù)據(jù)中固有的偏見產生預測,必須根據(jù)公平性標準來評估模型。這在涉及個人高度影響的領域特別重要,比如金融貸款授予系統(tǒng)、識別算法、欺詐檢測和學術表現(xiàn)預測。在同一份2020年的數(shù)據(jù)科學調查中,超過一半的受訪者表示已經(jīng)實施或計劃實施解釋性更強(可解釋性)的解決方案,而只有38%的受訪者表示對公平性和偏見緩解的情況也是如此。

4. 機器學習復雜性和速度評估指標機器學習流程的復雜性、規(guī)模和速度通常是一個被忽視的方面,但有時可能決定部署的成敗。正如之前提到的,有時數(shù)據(jù)科學家會轉向大型學習算法,例如神經(jīng)網(wǎng)絡或集成模型,而不是進行適當?shù)奶卣鞴こ蹋MP湍軌蜃约航鉀Q問題。


建議1:結構化數(shù)據(jù)工程在結構化數(shù)據(jù)上進行特征工程是提高模型性能和泛化能力的關鍵步驟,在結構化數(shù)據(jù)上進行特征工程的步驟:

查看字段類型、確定字段的噪音和分布:

  1. 計算字段與標簽的相關性:
  2. 對字段進行編碼,找到新特征:

建議2:文本數(shù)據(jù)特征工程

將原始文本數(shù)據(jù)轉化為可供機器學習算法使用的特征,有多種方式:

bf1dd13e-90d2-11ef-b5cd-92fbcf53809c.png

1. 文本向量化:對于定量特征,可以考慮使用諸如TF-IDF(詞頻-逆文檔頻率)等技術將文本數(shù)據(jù)轉化為數(shù)值特征。TF-IDF可以將文本中的每個詞轉化為一個數(shù)值,表示該詞在文本中的重要性。

2. 清洗和分詞:對原始文本進行清洗,去除特殊字符、標點符號和無關信息。然后,將清洗后的文本進行分詞,將文本劃分為詞語或標記??梢允褂酶鞣N文本處理庫(如NLTK、spaCy)來實現(xiàn)。

3. 特征提?。涸谏疃葘W習方面,可以使用詞嵌入技術(如Word2Vec、GloVe)來將每個詞轉化為具有語義信息的向量表示。

4. 遷移學習:使用預訓練的大型模型(如BERT、T5、ChatGPT等)來進行遷移學習。這些模型在大規(guī)模文本數(shù)據(jù)上進行了預訓練,可以捕捉豐富的語義信息。


建議3:圖像數(shù)據(jù)特征工程

深度學習模型特別是卷積神經(jīng)網(wǎng)絡(CNN),已經(jīng)在圖像處理領域取得了顯著的成功??梢允褂妙A訓練的深度學習模型(如VGG、ResNet、Inception等)作為特征提取器,通過去掉最后的分類層,將模型用作特征提取器。然后可以對這些提取的特征進行降維(如PCA或t-SNE)或直接用于機器學習模型。

bf297278-90d2-11ef-b5cd-92fbcf53809c.png

建議4:時序數(shù)據(jù)特征工程

bf4b8246-90d2-11ef-b5cd-92fbcf53809c.png

1. 理解時序數(shù)據(jù):首先需要理解你的時序數(shù)據(jù)的特點。了解時間戳、觀測頻率、時間間隔等信息。

2. 構建自定義特征集和響應變量:根據(jù)問題的需求,你可能需要構建自定義的特征集和響應變量。這可能包括計算滾動統(tǒng)計量(如移動平均、滾動標準差)、創(chuàng)建時間窗口特征、構建滯后特征等。

3. 使用標準時序特征類型:在時序數(shù)據(jù)中,有一些常見的特征類型,如趨勢、季節(jié)性、周期性等。你可以嘗試提取這些特征,并將它們作為模型的輸入。

4. 添加領域特定的特征:在一些情況下,你可能有領域特定的知識,可以用于構建有用的特征。例如,在股票市場數(shù)據(jù)中,你可以添加技術指標(如移動平均線、相對強弱指標等)作為特征。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 神經(jīng)網(wǎng)絡

    關注

    42

    文章

    4831

    瀏覽量

    107223
  • ML
    ML
    +關注

    關注

    0

    文章

    154

    瀏覽量

    35440
  • 深度學習
    +關注

    關注

    73

    文章

    5594

    瀏覽量

    124142
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    進程概念和特征

    進程的概念   在多道程序環(huán)境下,允許多個程序并發(fā)執(zhí)行,此時它們將失去封閉性,并具有間斷性及不可再現(xiàn)性的特征。為此引入了進程(Process)的概念,以便更好地描述和控制程序的并發(fā)執(zhí)行,實現(xiàn)操作系統(tǒng)
    發(fā)表于 01-15 06:39

    利用Verdi調試協(xié)處理器的實現(xiàn)步驟

    縮寫名為verilog的測試文件,通過vcs仿真并生成波形文件,為接下來調試波形做準備。 2、實施步驟 第一步,輸入“cd vsim”,進入工程目錄下的vsim文件夾內。 第二步,修改
    發(fā)表于 10-30 08:26

    工程實施不卡殼!藍蜂MQTT 邊緣計算網(wǎng)關讓設備聯(lián)網(wǎng)快 3 倍

    工程實施不卡殼!藍蜂MQTT 邊緣計算網(wǎng)關讓設備聯(lián)網(wǎng)快 3 倍 對項目工程實施團隊來說,現(xiàn)場最怕遇到兩件事:一是設備對接“卡脖子”,二是數(shù)據(jù)上報 “掉鏈子”。比如某智慧工廠項目,現(xiàn)場擺
    的頭像 發(fā)表于 10-23 17:30 ?493次閱讀
    <b class='flag-5'>工程</b><b class='flag-5'>實施</b>不卡殼!藍蜂MQTT 邊緣計算網(wǎng)關讓設備聯(lián)網(wǎng)快 3 倍

    ERP系統(tǒng)實施全流程,從統(tǒng)一思想到持續(xù)運行

    ERP成功上線的關鍵在于科學的實施步驟和全流程管理。 選擇合適的ERP工具是成功的第一步: 工具的選擇至關重要,正確的選型決定了后續(xù)實施的基礎是否穩(wěn)固。 召開啟動會議以統(tǒng)一管理思想: 通過啟動會議
    的頭像 發(fā)表于 10-20 09:34 ?246次閱讀
    ERP系統(tǒng)<b class='flag-5'>實施</b>全流程,從統(tǒng)一思想到持續(xù)運行

    如何進行動態(tài)校準與補償策略的實施?

    工具類型(硬件 / 軟件)、環(huán)境特征(強電磁 / 高溫高濕等)分步驟落地,形成 “環(huán)境感知 - 模型計算 - 實時修正 - 驗證優(yōu)化” 的閉環(huán)流程,具體實施方法如下: 一、實施前準備:
    的頭像 發(fā)表于 09-23 17:56 ?791次閱讀

    一個MES項目,是軟件重要還是實施重要?

    軟件決定了你能走多快,而實施決定了你能走多遠。兩者相輔相成,但實施是真正將藍圖變?yōu)楝F(xiàn)實、創(chuàng)造價值的關鍵。
    的頭像 發(fā)表于 09-09 09:50 ?332次閱讀
    一個MES項目,是軟件重要還是<b class='flag-5'>實施</b>重要?

    封閉式園區(qū)安全管控解決方案應該如何實施?

    封閉式園區(qū)安全管控解決方案的實施是一項系統(tǒng)工程,涉及前期規(guī)劃、設備部署與系統(tǒng)搭建、人員培訓等多個環(huán)節(jié)
    的頭像 發(fā)表于 08-20 11:08 ?678次閱讀
    封閉式園區(qū)安全管控解決方案應該如何<b class='flag-5'>實施</b>?

    無鉛焊接工藝有哪些步驟?

    無鉛焊接工藝的核心步驟如下,每個步驟均包含關鍵控制要點以確保焊接質量:
    的頭像 發(fā)表于 08-01 09:13 ?803次閱讀

    工業(yè)相機選型步驟

    選型步驟詳解明確應用需求檢測對象(尺寸、形狀、顏色等)檢測速度(生產線節(jié)拍、運動物體速度)精度要求(最小特征識別能力)環(huán)境條件(光照、溫度、振動、潔凈度)計算分辨率公式:分辨率=視野范圍(FOV
    的頭像 發(fā)表于 07-03 17:19 ?580次閱讀
    工業(yè)相機選型<b class='flag-5'>步驟</b>

    openstack搭建詳細步驟

    openstack搭建詳細步驟
    的頭像 發(fā)表于 05-07 14:05 ?1802次閱讀

    光纖涂覆質量金標準實施總結匯報

    光纖涂覆質量金標準實施總結匯報 一、項目背景 為突破行業(yè)光纖涂覆質量參差不齊的技術瓶頸,濰坊華纖光電科技基于15年研發(fā)經(jīng)驗,率先建立 六大涂覆質量金標準 ,通過技術創(chuàng)新與工藝優(yōu)化,實現(xiàn)涂覆精度
    發(fā)表于 03-28 11:45

    企業(yè)與建筑防雷檢測及防雷接地工程實施指南

    科技 將系統(tǒng)闡述防雷檢測的關鍵技術、工程實施規(guī)范及行業(yè)解決方案。 一、防雷系統(tǒng)工程核心組成 1. 防雷接地系統(tǒng)構造 完整的防雷體系包含三大子系統(tǒng): 接閃裝置:由避雷針、避雷帶、金屬屋面等構成,采用滾球法確定保護范圍 引下
    的頭像 發(fā)表于 03-20 11:02 ?1026次閱讀
    企業(yè)與建筑防雷檢測及防雷接地<b class='flag-5'>工程</b><b class='flag-5'>實施</b>指南

    封裝基板設計的詳細步驟

    封裝基板設計是集成電路封裝工程中的核心步驟之一,涉及將芯片與外部電路連接的基板(substrate)設計工作?;逶O計不僅決定了芯片與外部電路之間的電氣連接,還影響著封裝的可靠性、性能、成本及生產可行性。
    的頭像 發(fā)表于 03-12 17:30 ?1958次閱讀

    深度解析:PCBA設計打樣的核心步驟有哪些?

    、組裝、測試等多個步驟,每一步都需要精確和謹慎,以保證最終產品的質量。 PCBA設計打樣的主要步驟 1. 原理圖設計與審核 - 設計原理圖:工程師根據(jù)產品需求和功能要求繪制電路原理圖,明確各個電子元器件的連接關系。 - 審核原理
    的頭像 發(fā)表于 02-19 09:12 ?776次閱讀

    帶通濾波器的設計步驟與優(yōu)化方法

    帶通濾波器作為信號處理領域的重要組件,其設計步驟與優(yōu)化方法對于確保濾波器性能滿足特定應用需求至關重要。本文將詳細闡述帶通濾波器的設計步驟,并深入探討優(yōu)化方法,以期為相關領域的研究者和工程師提供全面的技術參考。
    的頭像 發(fā)表于 02-05 16:48 ?3517次閱讀