本文將重點介紹一些數(shù)據(jù)科學(xué)領(lǐng)域的關(guān)鍵概念,掌握它們對于你今后的職業(yè)生涯大有益處。這些概念或許你已經(jīng)了解,或許你還未掌握。不論你現(xiàn)在是否清楚,筆者的目的是向你專業(yè)地解釋為何它們至關(guān)重要。
多重共線性、獨熱編碼、欠采樣和過采樣、誤差度量以及敘事能力,這是筆者在想到專業(yè)數(shù)據(jù)科學(xué)家日常工作時首先想到的關(guān)鍵概念。敘事能力或許算是技能和概念的結(jié)合,但筆者在此還是想強調(diào)它在數(shù)據(jù)科學(xué)家工作中的重要性。我們開始吧!
多重共線性
多重共線性雖然看起來又長又拗口,拆開來看還是易于理解的。“多重”指數(shù)量多,“共線性”則意味著線性相關(guān)。多重共線性可以描述為在回歸模型中,兩個或多個解釋變量解釋相似信息或高度相關(guān)。這一概念之所以引起關(guān)注,有以下幾個原因。
對于某些建模技術(shù)來說,多重共線性可能導(dǎo)致過擬合,最終降低模型性能。冗余數(shù)據(jù)時有出現(xiàn),模型中的所有特征或?qū)傩圆⒎嵌际怯斜匾?。因此,可以采用某些方法來找到?yīng)該被刪除的特征,正是它們導(dǎo)致了多重共線性。
方差膨脹系數(shù)(VIF)
相關(guān)矩陣
數(shù)據(jù)科學(xué)家們經(jīng)常使用這兩種技術(shù),尤其是相關(guān)矩陣和相關(guān)圖——通常用某種熱圖進行可視化,而VIF則不太為人所知。VIF值越高,該特征對回歸模型的用處就越小。
獨熱編碼
獨熱編碼是模型中的一種特征轉(zhuǎn)換形式,你可以通過編碼來數(shù)值化地體現(xiàn)類別特征。盡管類別特征本身有文本值,但是獨熱編碼會將這些信息轉(zhuǎn)置,以便每個值都成為特征,行中的觀察值記為0或1。例如,假設(shè)我們有分類變量gender,獨熱編碼后的數(shù)字表示如下(之前表示為gender,之后表示為male/female):
獨熱編碼處理前后對比
如果你不僅要使用數(shù)字化的特征,還需要使用文本/類別特征創(chuàng)建數(shù)字表示,那么此轉(zhuǎn)換非常有用。
采樣
當(dāng)你擁有的數(shù)據(jù)不足時,可以使用過采樣作為一種補償。假設(shè)在處理一個分類問題時,有一個如下例所示的少數(shù)類:
如你所見,class_1的類只有少量數(shù)據(jù),這意味著你的數(shù)據(jù)集是不平衡的,也就是所謂的少數(shù)類。
有幾種過采樣方法。其中一種叫做SMOTE,即合成少數(shù)類過采樣技術(shù)(Synthetic Minority Over-samplingTechnique)。SMOTE的實現(xiàn)方式之一是采用K近鄰(K-neighbor)算法來找到最近的點以合成樣本。也有類似的技術(shù)反其道而行之,進行欠采樣。
當(dāng)類或回歸數(shù)據(jù)中有離群值時,如果你希望確保模型運行在最能體現(xiàn)數(shù)據(jù)集的采樣結(jié)果之上,那么這些技術(shù)便能派上用場。
誤差度量
在數(shù)據(jù)科學(xué)中,有很多用于分類模型和回歸模型的誤差度量。以下是一些可以專門用于回歸模型的方法:
對回歸模型來說,上述誤差度量中最常用的兩種是MSE(均方誤差)和RMSE(均方根誤差):
MSE:平均絕對誤差回歸損失(引自sklearn)
RMSE:均方根誤差回歸損失(引自sklearn)
對于分類模型來說,可以用精度和ROC曲線下的面積(AUC,Area Under the Curve)來評價模型的性能。
敘事能力
敘事概念的重要性怎么強調(diào)都不為過。它可以被定義成一種概念或技能,但定義本身并不重要。重要的是,如何在商業(yè)環(huán)境中展現(xiàn)出自己解決問題的能力。許多數(shù)據(jù)科學(xué)家總是只關(guān)注模型的精度,但卻無法理解整個商業(yè)過程。該過程包括:
業(yè)務(wù)是什么?
問題是什么?
為何需要數(shù)據(jù)科學(xué)?
數(shù)據(jù)科學(xué)在其中的目標是什么?
何時能得到可用結(jié)果?
如何應(yīng)用我們的結(jié)果?
我們的結(jié)果有什么影響?
如何分享我們的結(jié)果和整個過程?
上述問題與模型本身或提升精度無關(guān),重點是如何使用數(shù)據(jù)來解決公司的問題。與利益相關(guān)者和非技術(shù)領(lǐng)域的同事相熟對此是大有助益的,在運行基礎(chǔ)模型之前,你需要和產(chǎn)品經(jīng)理一道評估問題,和數(shù)據(jù)工程師一起收集數(shù)據(jù)。在模型過程結(jié)束時,你將向關(guān)鍵人員介紹結(jié)果,這些人最喜歡看可視化結(jié)果,因此掌握呈現(xiàn)和交流的技能也是有益的。
對于數(shù)據(jù)科學(xué)家和機器學(xué)習(xí)工程師來說,有許多需要掌握的關(guān)鍵概念。本文介紹的5點,你了解了嗎?
責(zé)編AJX
-
數(shù)據(jù)
+關(guān)注
關(guān)注
8文章
7256瀏覽量
91862 -
數(shù)字化
+關(guān)注
關(guān)注
8文章
9521瀏覽量
63576 -
數(shù)據(jù)科學(xué)
+關(guān)注
關(guān)注
0文章
168瀏覽量
10488
發(fā)布評論請先 登錄
工業(yè)物聯(lián)網(wǎng)實施應(yīng)考慮的五大關(guān)鍵要素
智能穿戴產(chǎn)業(yè)的五大關(guān)鍵技術(shù)
五大關(guān)鍵詞解讀2010年半導(dǎo)體照明產(chǎn)業(yè)發(fā)展熱點
施耐德電機智能城市五大關(guān)鍵領(lǐng)域解決方案
決定人工智能發(fā)展的風(fēng)向標五大關(guān)鍵之問
微服務(wù)五大關(guān)鍵好處揭秘

一文看懂LTE五大關(guān)鍵技術(shù)和日常維護

細談智能穿戴的五大關(guān)鍵技術(shù)
智能工廠的五大關(guān)鍵領(lǐng)域及特征
智能工廠五大關(guān)鍵領(lǐng)域及其特征體現(xiàn)
制造業(yè)創(chuàng)新中心政策體系形成,主要聚集在五大關(guān)鍵領(lǐng)域

工業(yè)化超聲波清洗設(shè)備的五大關(guān)鍵特性

評論