chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

如何給工業(yè)大數(shù)據(jù)降維去噪,你可以試試特征選擇

格創(chuàng)東智 ? 2018-12-18 14:09 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

本文作者:格創(chuàng)東智OT團(tuán)隊(duì) (轉(zhuǎn)載請(qǐng)注明來(lái)源及作者)


在之前格物匯的文章中,我們介紹了特征構(gòu)建的幾種常用方法。特征構(gòu)建是一種升維操作,針對(duì)特征解釋能力不足,可以通過(guò)特征構(gòu)建的方法來(lái)增加特征解釋力,從而提升模型效果。隨著近幾年大數(shù)據(jù)技術(shù)的普及,我們可以獲取海量數(shù)據(jù),但是這些海量數(shù)據(jù)帶給我們更多信息的同時(shí),也帶來(lái)了更多的噪音和異常數(shù)據(jù)。如何降維去噪成為很多企業(yè)關(guān)注的焦點(diǎn),今天我們將介紹特征工程中的一種降維方法——特征選擇。


什么是特征選擇

特征選擇( Feature Selection )也稱特征子集選擇( FeatureSubset Selection , FSS ),或屬性選擇( Attribute Selection )。是指從已有的N個(gè)特征(Feature)中選擇M個(gè)特征使得系統(tǒng)的特定指標(biāo)最優(yōu)化。

圖1.jpg



特征選擇主要有兩個(gè)功能

  • 減少特征數(shù)量、降維,使模型泛化能力更強(qiáng),減少過(guò)擬合

  • 增強(qiáng)對(duì)特征和特征值之間的理解


特征選擇的流程


特征選擇的目標(biāo)是尋找一個(gè)能夠有效識(shí)別目標(biāo)的最小特征子集。尋找的一般流程可用下圖表示:


一般來(lái)說(shuō),通過(guò)枚舉來(lái)對(duì)特征子集進(jìn)行選擇是一個(gè)比較費(fèi)時(shí)的步驟,所以應(yīng)使用一些策略來(lái)進(jìn)行特征選擇,通常來(lái)說(shuō),我們會(huì)從兩個(gè)方面考慮來(lái)選擇特征:

>>>>

特征是否發(fā)散

如果一個(gè)特征不發(fā)散,例如方差接近于0,也就是說(shuō)樣本在這個(gè)特征上基本上沒(méi)有差異,這個(gè)特征對(duì)于樣本的區(qū)分并沒(méi)有什么用。

>>>>

特征與目標(biāo)的相關(guān)性

這點(diǎn)比較顯見(jiàn),與目標(biāo)相關(guān)性高的特征,應(yīng)當(dāng)優(yōu)選選擇。除方差法外,本文介紹的其他方法均從相關(guān)性考慮。

根據(jù)特征選擇的形式又可以將特征選擇方法分為3種:

  • Filter

  • Wrapper

  • Embedded

特征選擇的方法


01

Filter


過(guò)濾法,按照發(fā)散性或者相關(guān)性對(duì)各個(gè)特征進(jìn)行評(píng)分,設(shè)定閾值或者待選擇閾值的個(gè)數(shù),選擇特征。

評(píng)分指標(biāo)有:

  • 方差:評(píng)價(jià)指標(biāo)的離散程度,越離散說(shuō)明包含的信息越多。

  • 相關(guān)性:衡量特征對(duì)目標(biāo)的解釋能力,相關(guān)系數(shù)越大說(shuō)明解釋能力越強(qiáng)。

  • 卡方檢驗(yàn):檢驗(yàn)定性自變量對(duì)定性因變量的相關(guān)性。

圖3.jpg

  • 互信息:也是評(píng)價(jià)定性自變量對(duì)定性因變量的相關(guān)性的。

圖4.jpg


02

Wrapper

包裝法,根據(jù)目標(biāo)函數(shù)(通常是預(yù)測(cè)效果)評(píng)分,每次選擇若干特征,或者排除若干特征,主要的方法是遞歸特征消除法。遞歸消除特征法使用一個(gè)基模型來(lái)進(jìn)行多輪訓(xùn)練,每輪訓(xùn)練后,減少若干特征,或者新增若干特征,進(jìn)行評(píng)估看新增的特征是否需要保留,剔除的特征是否需要還原。最后再基于新的特征集進(jìn)行下一輪訓(xùn)練。

03

Embedded


嵌入法,先使用某些機(jī)器學(xué)習(xí)算法和模型進(jìn)行訓(xùn)練,得到各個(gè)特征的權(quán)值系數(shù),根據(jù)系數(shù)從大到小選擇特征。類似于Filter方法,但是是通過(guò)訓(xùn)練來(lái)確定特征的優(yōu)劣。

一般分為如下兩大類:

>>>>

基于懲罰項(xiàng)的特征選擇法

這個(gè)方法可以用線性回歸模型來(lái)舉例說(shuō)明,我們?cè)诰€性模型的目標(biāo)函數(shù)中增加L1正則項(xiàng)(實(shí)際上這就是lasso模型)。由于該正則項(xiàng)的存在,某些與目標(biāo)y不太相關(guān)的特征的系數(shù)將縮減至0,而保留的特征系數(shù)將相應(yīng)調(diào)整,從而達(dá)到了對(duì)特征進(jìn)行篩選的效果,L1正則項(xiàng)系數(shù)越大,篩選的力度也就越大。

>>>>

基于樹(shù)模型的特征選擇法

在我們之前的文章中介紹過(guò)隨機(jī)森林,GDBT等等基于樹(shù)的模型,他們均有一個(gè)特點(diǎn)就是模型可以計(jì)算出特征的重要性。決策樹(shù)會(huì)優(yōu)先將對(duì)預(yù)測(cè)目標(biāo)y幫助最大的特征放在模型的頂端,因此根據(jù)這個(gè)效果我們計(jì)算得到特征的重要性,進(jìn)而我們可以根據(jù)特征重要性對(duì)特征進(jìn)行選擇。


今天我們大致了解了如何給工業(yè)大數(shù)據(jù)降維去噪,進(jìn)行特征選擇,在后續(xù)文章中,我們將繼續(xù)帶大家了解特征工程的另一個(gè)內(nèi)容——特征抽取,敬請(qǐng)期待。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    工業(yè)大舵機(jī)和普通舵機(jī)的區(qū)別?

    工業(yè)大舵機(jī)和普通舵機(jī)在設(shè)計(jì)定位、性能參數(shù)、應(yīng)用場(chǎng)景等多方面存在顯著差異,以下是具體對(duì)比: 核心性能參數(shù) 精度控制 工業(yè)大舵機(jī) :配備高精度位置傳感器(如磁阻式絕對(duì)值編碼器),精度可達(dá) 0.1 度以下
    的頭像 發(fā)表于 09-25 10:41 ?294次閱讀

    御控工業(yè)物聯(lián)網(wǎng)大數(shù)據(jù)解決方案:排水設(shè)備遠(yuǎn)程監(jiān)控與大數(shù)據(jù)統(tǒng)計(jì)系統(tǒng)

    御控工業(yè)物聯(lián)網(wǎng)推出排水設(shè)備遠(yuǎn)程監(jiān)控與大數(shù)據(jù)統(tǒng)計(jì)系統(tǒng),通過(guò)物聯(lián)網(wǎng)、大數(shù)據(jù)、云計(jì)算等技術(shù)構(gòu)建“感知-傳輸-分析-決策”閉環(huán)管理體系,助力排水行業(yè)數(shù)字化轉(zhuǎn)型。
    的頭像 發(fā)表于 09-12 10:04 ?355次閱讀

    智科技榮獲2025年第七屆浦東新區(qū)大數(shù)據(jù)創(chuàng)新應(yīng)用競(jìng)賽優(yōu)勝獎(jiǎng)

    智科技憑借基于時(shí)空AI技術(shù)打造的“城市時(shí)空智能服務(wù)平臺(tái)",榮獲第七屆浦東新區(qū)大數(shù)據(jù)創(chuàng)新應(yīng)用競(jìng)賽——城市數(shù)字化轉(zhuǎn)型場(chǎng)景創(chuàng)新賽《優(yōu)勝獎(jiǎng)》。
    的頭像 發(fā)表于 09-06 16:47 ?1116次閱讀

    智科技亮相2025中國(guó)國(guó)際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)

    近日,全球大數(shù)據(jù)領(lǐng)域矚目的盛會(huì)——2025中國(guó)國(guó)際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)隆重開(kāi)幕。作為華為重要生態(tài)合作伙伴,智科技作為時(shí)空人工智能與城市數(shù)字化領(lǐng)域的領(lǐng)先企業(yè),受邀參加展覽展示。
    的頭像 發(fā)表于 09-04 18:03 ?1011次閱讀

    重構(gòu)工業(yè)設(shè)備管理新范式:解析設(shè)備遠(yuǎn)程運(yùn)管理系統(tǒng)的變革邏輯

    工業(yè)生產(chǎn)全球化、設(shè)備智能化的背景下,傳統(tǒng)的 “故障 - 現(xiàn)場(chǎng)維修” 模式已難以滿足現(xiàn)代工業(yè)對(duì)設(shè)備可靠性、生產(chǎn)連續(xù)性的要求。設(shè)備遠(yuǎn)程運(yùn)管理系統(tǒng)通過(guò)物聯(lián)網(wǎng)、大數(shù)據(jù)、人工智能等技術(shù)的融合
    的頭像 發(fā)表于 08-20 16:58 ?525次閱讀

    數(shù)據(jù)中臺(tái)可以接入哪些物聯(lián)網(wǎng)云平臺(tái)

    : 一、工業(yè)互聯(lián)網(wǎng)平臺(tái) 工業(yè)互聯(lián)網(wǎng)平臺(tái)聚焦制造業(yè)場(chǎng)景,提供設(shè)備連接、協(xié)議解析、邊緣計(jì)算及工業(yè)大數(shù)據(jù)分析能力,與數(shù)據(jù)中臺(tái)結(jié)合可實(shí)現(xiàn)生產(chǎn)數(shù)據(jù)全鏈
    的頭像 發(fā)表于 08-19 15:22 ?426次閱讀

    工業(yè)組態(tài)云平臺(tái)可以實(shí)現(xiàn)哪些功能

    工業(yè)組態(tài)云平臺(tái)可以實(shí)現(xiàn)數(shù)據(jù)采集與監(jiān)控、報(bào)警通知、遠(yuǎn)程控制與運(yùn)、數(shù)據(jù)分析與決策、組態(tài)設(shè)計(jì)與可視化等多種功能,以下是具體介紹: 1、
    的頭像 發(fā)表于 08-18 14:36 ?194次閱讀

    工業(yè)大模型利用全流程數(shù)據(jù)采集推動(dòng)顯示行業(yè)生產(chǎn)制造升級(jí)

    挖掘與智能分析,顯示工業(yè)大模型能夠突破傳統(tǒng)生產(chǎn)模式的局限,在工藝優(yōu)化、質(zhì)量管控、設(shè)備運(yùn)等關(guān)鍵環(huán)節(jié)實(shí)現(xiàn)智能化躍升,推動(dòng)顯示制造向更高效率、更高質(zhì)量、更低成本的方向發(fā)展。 全流程數(shù)據(jù):顯示工業(yè)大
    的頭像 發(fā)表于 07-28 10:37 ?279次閱讀

    歐菲光榮獲第七屆“深圳工業(yè)大獎(jiǎng)” 深圳工業(yè)界最高榮譽(yù)

    近日,第七屆“深圳工業(yè)大獎(jiǎng)”名單公示,經(jīng)深圳工業(yè)大獎(jiǎng)獨(dú)立評(píng)審團(tuán)成員認(rèn)真審議、記名投票,分別評(píng)選產(chǎn)生第七屆“深圳工業(yè)大獎(jiǎng)”企業(yè)10家、工業(yè)家10位、項(xiàng)目10個(gè)。其中,歐菲光集團(tuán)股份有限公
    的頭像 發(fā)表于 07-15 18:07 ?846次閱讀

    工業(yè)大數(shù)據(jù)管理平臺(tái)是什么?有什么功能?

    PLC跨網(wǎng)段通信網(wǎng)關(guān)是一種用于解決工業(yè)自動(dòng)化領(lǐng)域中不同網(wǎng)絡(luò)段內(nèi)PLC(可編程邏輯控制器)設(shè)備通信問(wèn)題的關(guān)鍵設(shè)備,其核心作用是實(shí)現(xiàn)不同網(wǎng)絡(luò)協(xié)議、IP網(wǎng)段之間的數(shù)據(jù)交互與信息傳輸,下面從多個(gè)方面詳細(xì)介紹
    的頭像 發(fā)表于 06-13 15:43 ?276次閱讀

    哈爾濱工業(yè)大學(xué)與華為舉行智慧校園創(chuàng)新成果發(fā)布會(huì)

    近日,哈爾濱工業(yè)大學(xué)(以下簡(jiǎn)稱“哈工大”)與華為舉行智慧校園創(chuàng)新成果發(fā)布會(huì),推出“通感一體智慧校園方案”與“校園網(wǎng)運(yùn)管AI中樞方案”。這兩大創(chuàng)新成果深度融合華為CSI(Channel State
    的頭像 發(fā)表于 06-11 11:17 ?782次閱讀

    京東工業(yè)大模型Joy industrial重磅發(fā)布

    京東工業(yè)多年深耕工業(yè)數(shù)智供應(yīng)鏈領(lǐng)域形成的經(jīng)驗(yàn)積累和數(shù)據(jù)沉淀,通過(guò)“工業(yè)大模型+供應(yīng)鏈場(chǎng)景應(yīng)用”雙引擎,構(gòu)建從底層算力、算法、數(shù)據(jù)到應(yīng)用的全棧
    的頭像 發(fā)表于 05-28 17:12 ?671次閱讀

    數(shù)據(jù)聚類工具介紹——SpatialPCA

    ,NMF)等,多是基于單細(xì)胞數(shù)據(jù)進(jìn)行開(kāi)發(fā)的,因此不一定完全適用于空間轉(zhuǎn)錄組數(shù)據(jù)。例如,常用的聚類方法并沒(méi)有運(yùn)用空間轉(zhuǎn)錄組所特有的組織空間定位信息,而僅僅只是基于表達(dá)譜進(jìn)行聚類。但是
    的頭像 發(fā)表于 02-07 11:19 ?895次閱讀
    <b class='flag-5'>數(shù)據(jù)</b><b class='flag-5'>降</b><b class='flag-5'>維</b>聚類工具介紹——SpatialPCA

    西北工業(yè)大學(xué)OpenHarmony技術(shù)俱樂(lè)部正式揭牌成立

    11月15日,由OpenAtom OpenHarmony(以下簡(jiǎn)稱“OpenHarmony”)項(xiàng)目群技術(shù)指導(dǎo)委員會(huì)與西北工業(yè)大學(xué)共同舉辦的“西北工業(yè)大學(xué)OpenHarmony技術(shù)俱樂(lè)部成立大會(huì)”在
    的頭像 發(fā)表于 11-19 18:04 ?1199次閱讀
    西北<b class='flag-5'>工業(yè)大</b>學(xué)OpenHarmony技術(shù)俱樂(lè)部正式揭牌成立

    CASAIM與北京工業(yè)大學(xué)合作開(kāi)展鋼桁梁鋼材三掃描試驗(yàn),研究高服役期鋼材銹蝕特征及力學(xué)性能退化規(guī)律

    近期,CASAIM與北京工業(yè)大學(xué)攜手,開(kāi)展鋼桁梁鋼材三掃描試驗(yàn),此次研究結(jié)合了北京工業(yè)大學(xué)在材料科學(xué)方面的深厚積累,以及CASAIM在實(shí)際工程應(yīng)用上的豐富經(jīng)驗(yàn),共同推進(jìn)鋼桁梁鋼材銹蝕機(jī)理的深入研究和力學(xué)性能退化規(guī)律的探索。
    的頭像 發(fā)表于 11-12 15:01 ?568次閱讀