chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

想掌握機(jī)器學(xué)習(xí)技術(shù)?從了解特征工程開始

格創(chuàng)東智 ? 2018-12-05 09:36 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

本文作者:格創(chuàng)東智科技有限公司 OT團(tuán)隊


人工智能是過去兩到三年時間內(nèi)科技行業(yè)最熱的話題。而人工智能技術(shù)進(jìn)步的背后,實(shí)質(zhì)上是機(jī)器學(xué)習(xí)快速發(fā)展后所帶來的巨大提升。


機(jī)器學(xué)習(xí)被廣泛定義為“利用經(jīng)驗來改善計算機(jī)系統(tǒng)的自身性能”。事實(shí)上,“經(jīng)驗”在計算機(jī)中主要是以數(shù)據(jù)的形式存在的,因此數(shù)據(jù)是機(jī)器學(xué)習(xí)的前提和基礎(chǔ)。

在第一期格物匯的文章中,我們介紹了工業(yè)數(shù)據(jù)預(yù)處理的方法,主要針對數(shù)據(jù)格式異常,數(shù)據(jù)內(nèi)容異常等問題進(jìn)行了簡要探討。做數(shù)據(jù)預(yù)處理的主要目的是將雜亂無章的數(shù)據(jù)規(guī)整成我們想要的矩陣、表格、張量等結(jié)構(gòu),方便在之后的機(jī)器學(xué)習(xí)中進(jìn)行模型訓(xùn)練。然而數(shù)據(jù)中的問題還包含了冗余,噪聲,高維度,體量大等很多問題。解決這些問題的方法與數(shù)據(jù)預(yù)處理的方法在機(jī)器學(xué)習(xí)中被統(tǒng)稱為特征工程,今天我們就來了解一下吧。


特征工程是什么


當(dāng)你想要你的預(yù)測模型性能達(dá)到最佳時,你要做的不僅是要選取最好的算法,還要盡可能的從原始數(shù)據(jù)中獲取更多的信息。那么問題來了,你應(yīng)該如何為你的預(yù)測模型得到更好的數(shù)據(jù)呢?這就是特征工程要做的事,它的目的就是獲取更好的訓(xùn)練數(shù)據(jù)

維基百科中給特征工程做出了簡單定義:特征工程是利用數(shù)據(jù)領(lǐng)域的相關(guān)知識來創(chuàng)建能夠使機(jī)器學(xué)習(xí)算法達(dá)到最佳性能的特征的過程。簡而言之,特征工程就是一個把原始數(shù)據(jù)轉(zhuǎn)變成特征的過程,這些特征可以很好的描述這些數(shù)據(jù),并且利用它們建立的模型在未知數(shù)據(jù)上的表現(xiàn)性能可以達(dá)到最優(yōu)(或者接近最佳性能)。從數(shù)學(xué)的角度來看,特征工程就是人工地去設(shè)計輸入變量X。


特征工程的重要性


關(guān)于特征工程(Feature Engineering),已經(jīng)是很古老很常見的話題了,坊間常說:“數(shù)據(jù)和特征決定了機(jī)器學(xué)習(xí)的上限,而模型和算法只是逼近這個上限而已”。由此可見,特征工程在機(jī)器學(xué)習(xí)中占有相當(dāng)重要的地位。


1、特征越好,靈活性越強(qiáng)

只要特征選得好,即使是一般的模型(或算法)也能獲得很好的性能,因為大多數(shù)模型(或算法)在好的數(shù)據(jù)特征下表現(xiàn)的性能都還不錯。好特征的靈活性在于它允許你選擇不復(fù)雜的模型,同時運(yùn)行速度也更快,也更容易理解和維護(hù)。


2、特征越好,構(gòu)建的模型越簡單

有了好的特征,即便你的參數(shù)不是最優(yōu)的,你的模型性能也能仍然會表現(xiàn)的很nice,所以你就不需要花太多的時間去尋找最有參數(shù),這大大的降低了模型的復(fù)雜度,使模型趨于簡單。


3、特征越好,模型的性能越出色

顯然,這一點(diǎn)是毫無爭議的,我們進(jìn)行特征工程的最終目的就是提升模型的性能。


特征工程怎么做

既然特征工程這么重要,那么我們就來看看特征工程到底是如何實(shí)現(xiàn)或者工作的。特征工程到底分為哪些內(nèi)容?我們大致可以參考如下流程圖來看看。



簡單來說,特征處理主要分如下三個方法:

特征構(gòu)建

特征構(gòu)建是指從原始數(shù)據(jù)中人工的找出一些具有實(shí)際意義的特征。需要花時間去觀察原始數(shù)據(jù),思考問題的潛在形式和數(shù)據(jù)結(jié)構(gòu),對數(shù)據(jù)敏感性和機(jī)器學(xué)習(xí)實(shí)戰(zhàn)經(jīng)驗?zāi)軒椭卣鳂?gòu)建。除此之外,屬性分割和結(jié)合是特征構(gòu)建時常使用的方法。特征構(gòu)建是個非常麻煩的問題,書里面也很少提到具體的方法,需要對問題有比較深入的理解。

特征抽取

一些觀測數(shù)據(jù)如果直接建模,其原始狀態(tài)的數(shù)據(jù)太多。像圖像、音頻和文本數(shù)據(jù),如果將其看做是表格數(shù)據(jù),那么其中包含了數(shù)以千計的屬性。特征抽取是自動地對原始觀測降維,使其特征集合小到可以進(jìn)行建模的過程。通??刹捎弥鞒煞址治?PCA)、線性判別分析(LDA))等方法;對于圖像數(shù)據(jù),可以進(jìn)行線(line)或邊緣(edge)的提??;根據(jù)相應(yīng)的領(lǐng)域,圖像、視頻和音頻數(shù)據(jù)可以有很多數(shù)字信號處理的方法對其進(jìn)行處理。

特征選擇

不同的特征對模型的準(zhǔn)確度的影響不同,有些特征與要解決的問題不相關(guān),有些特征是冗余信息,這些特征都應(yīng)該被移除掉。特征選擇是自動地選擇出對于問題最重要的那些特征子集的過程。常用的特征選擇方法可以分為3類:過濾式(filter)、包裹式(wrapper)和嵌入式(embedding)。


小結(jié)

總的來說,數(shù)據(jù)會存在各種各樣的問題,針對這些問題我們的特征工程給出了相應(yīng)的解決辦法:1.特征解釋能力不足,我們可以嘗試使用特征構(gòu)建,對數(shù)據(jù)進(jìn)行升維來提升特征解釋能力;2.特征冗余,維度太高,噪聲太多,我們可以通過特征抽取和特征選擇,來對數(shù)據(jù)進(jìn)行降維去噪,提煉特征。當(dāng)然還有其他的特征處理方法,一般需要根據(jù)具體問題而定。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    人工智能-Python深度學(xué)習(xí)進(jìn)階與應(yīng)用技術(shù)工程師高培解讀

    深度學(xué)習(xí)工程化落地,早已不是紙上談兵的事。卷積神經(jīng)網(wǎng)絡(luò)到Transformer,目標(biāo)檢測到大模型私有化部署,技術(shù)棧不斷延伸,
    的頭像 發(fā)表于 04-21 11:01 ?335次閱讀
    人工智能-Python深度<b class='flag-5'>學(xué)習(xí)</b>進(jìn)階與應(yīng)用<b class='flag-5'>技術(shù)</b>:<b class='flag-5'>工程</b>師高培解讀

    機(jī)器學(xué)習(xí)特征工程:縮放、編碼、聚合、嵌入與自動化

    本文轉(zhuǎn)自:DeepHubIMBA好模型的秘訣不在于更花哨的算法,而在于更好的特征。第1部分:數(shù)值特征1.1縮放多數(shù)機(jī)器學(xué)習(xí)算法對尺度敏感。一個取值范圍在0到1,000,000的列,會在
    的頭像 發(fā)表于 04-08 14:41 ?731次閱讀
    <b class='flag-5'>機(jī)器</b><b class='flag-5'>學(xué)習(xí)</b><b class='flag-5'>特征</b><b class='flag-5'>工程</b>:縮放、編碼、聚合、嵌入與自動化

    算法工程師需要具備哪些技能?

    算法工程師需要掌握一系列跨學(xué)科的技能,涵蓋數(shù)學(xué)基礎(chǔ)、編程能力、算法理論、工程實(shí)踐以及業(yè)務(wù)理解等多個方面。 以下是具體技能及學(xué)習(xí)建議: 線性代數(shù)核心內(nèi)容:矩陣運(yùn)算、
    發(fā)表于 02-27 10:53

    機(jī)器學(xué)習(xí)特征工程:分類變量的數(shù)值化處理方法

    編碼是機(jī)器學(xué)習(xí)流程里最容易被低估的環(huán)節(jié)之一,模型沒辦法直接處理文本形式的分類數(shù)據(jù),尺寸(Small/Medium/Large)、顏色(Red/Blue/Green)、城市、支付方式等都是典型的分類
    的頭像 發(fā)表于 02-10 15:58 ?455次閱讀
    <b class='flag-5'>機(jī)器</b><b class='flag-5'>學(xué)習(xí)</b><b class='flag-5'>特征</b><b class='flag-5'>工程</b>:分類變量的數(shù)值化處理方法

    嵌入式單片機(jī)開發(fā)學(xué)習(xí)路徑

    路徑,讓你的學(xué)習(xí)過程更加輕松有趣。 1. 入門基礎(chǔ) 1.1 了解嵌入式系統(tǒng) 在開始學(xué)習(xí)之前,首先需要了解什么是嵌入式系統(tǒng)以及它的基本構(gòu)
    發(fā)表于 02-09 15:42

    嵌入式應(yīng)掌握的幾種能力

    、能力。 我覺得牢牢地掌握這些99.99999%的概率都會用得上的嵌入式軟件基礎(chǔ)對找工作才比較有利。其它一些技術(shù)可以再用的時候再去了解、學(xué)習(xí)。 特別是一些行業(yè)相關(guān)知識,可以入行之后
    發(fā)表于 12-08 06:05

    0到1,10+年資深LabVIEW專家,手把手教你攻克機(jī)器視覺+深度學(xué)習(xí)(5000分鐘實(shí)戰(zhàn)課)

    ;完整技術(shù)鏈,帶你掌握工業(yè)4.0硬核技能!LabVIEW視覺學(xué)習(xí)困境1.技術(shù)體系復(fù)雜,學(xué)習(xí)路徑模糊LabVIEW視覺開發(fā)需同時
    的頭像 發(fā)表于 12-02 08:07 ?767次閱讀
    <b class='flag-5'>從</b>0到1,10+年資深LabVIEW專家,手把手教你攻克<b class='flag-5'>機(jī)器</b>視覺+深度<b class='flag-5'>學(xué)習(xí)</b>(5000分鐘實(shí)戰(zhàn)課)

    學(xué)習(xí)Linux應(yīng)該哪里開始

    、交叉編譯、網(wǎng)絡(luò)棧、文件系統(tǒng)……到底哪里開始學(xué),才能既不繞彎路,又能學(xué)得“有感覺”? 今天, 深圳市鋇錸技術(shù)有限公司 就來帶你拆解這個問題。 一、先理解:Linux 到底是什么? 很多人學(xué) Linux,一上來就打開虛擬機(jī)敲命令
    的頭像 發(fā)表于 10-16 09:51 ?573次閱讀
    <b class='flag-5'>學(xué)習(xí)</b>Linux應(yīng)該<b class='flag-5'>從</b>哪里<b class='flag-5'>開始</b>?

    學(xué)習(xí)物聯(lián)網(wǎng)怎么入門?

    隨著物聯(lián)網(wǎng)技術(shù)的不斷發(fā)展,越來越多的人開始關(guān)注學(xué)習(xí)這一領(lǐng)域。但是對于初學(xué)者來說,物聯(lián)網(wǎng)似乎是一個龐雜的概念,學(xué)習(xí)起來很困難。因此,哪里
    發(fā)表于 10-14 10:34

    如何在機(jī)器視覺中部署深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)

    人士而言往往難以理解,人們也常常誤以為需要扎實(shí)的編程技能才能真正掌握并合理使用這項技術(shù)。事實(shí)上,這種印象忽視了該技術(shù)機(jī)器視覺(乃至生產(chǎn)自動化)帶來的潛力,因為深度
    的頭像 發(fā)表于 09-10 17:38 ?1054次閱讀
    如何在<b class='flag-5'>機(jī)器</b>視覺中部署深度<b class='flag-5'>學(xué)習(xí)</b>神經(jīng)網(wǎng)絡(luò)

    線性到非線性:工程師必須掌握的Abaqus三大非線性來源

    碩迪科技為您深入剖析Abaqus三大非線性來源:材料非線性、幾何非線性、邊界條件非線性。掌握工程師必備的非線性分析核心知識,理解復(fù)雜工程問題的本質(zhì)
    的頭像 發(fā)表于 08-07 18:08 ?1775次閱讀
    <b class='flag-5'>從</b>線性到非線性:<b class='flag-5'>工程</b>師必須<b class='flag-5'>掌握</b>的Abaqus三大非線性來源

    ARM入門學(xué)習(xí)方法分享

    )架構(gòu)。學(xué)習(xí)ARM的開始可以學(xué)習(xí)RISC和CISC架構(gòu)的基礎(chǔ)知識開始。 二、學(xué)習(xí)匯編語言:A
    發(fā)表于 07-23 10:21

    電子硬件工程師如何從零開始學(xué)習(xí)?(文末免費(fèi)分享從零開始學(xué)習(xí)資料)

    經(jīng)常有用戶咨詢,如何學(xué)習(xí)和提升電子硬件能力,有沒有適合小白學(xué)習(xí)的資料等等;電子硬件工程師是一個結(jié)合理論、實(shí)踐和創(chuàng)新能力的職業(yè),需要掌握電路設(shè)計、元器件選型、PCB設(shè)計、嵌入式系統(tǒng)、測試
    的頭像 發(fā)表于 06-04 07:36 ?2768次閱讀
    電子硬件<b class='flag-5'>工程</b>師如何從零<b class='flag-5'>開始</b><b class='flag-5'>學(xué)習(xí)</b>?(文末免費(fèi)分享從零<b class='flag-5'>開始</b><b class='flag-5'>學(xué)習(xí)</b>資料)

    嵌入式開發(fā)入門指南:從零開始學(xué)習(xí)嵌入式

    特定功能的計算機(jī)系統(tǒng),廣泛應(yīng)用于智能家居、工業(yè)控制、醫(yī)療設(shè)備、車載系統(tǒng)等領(lǐng)域。 2. 學(xué)習(xí)嵌入式開發(fā)的前置知識熟悉C語言編程掌握基本的數(shù)據(jù)結(jié)構(gòu)與算法了解數(shù)字電路與微控制器原理熟悉Linux操作系統(tǒng)
    發(fā)表于 05-15 09:29

    【「# ROS 2智能機(jī)器人開發(fā)實(shí)踐」閱讀體驗】機(jī)器人入門的引路書

    的限制和調(diào)控) 本書還有很多前沿技術(shù)項目的擴(kuò)展 比如神經(jīng)網(wǎng)絡(luò)識別例程,機(jī)器學(xué)習(xí)圖像識別的原理,yolo圖像追蹤的原理 機(jī)器學(xué)習(xí)訓(xùn)練三大點(diǎn):
    發(fā)表于 04-30 01:05