本系列文章會(huì)先簡(jiǎn)單介紹主成分分析(PCA)的基本原理,然后用實(shí)例介紹分析的過(guò)程以及算法代碼。PCA主要用于數(shù)據(jù)降維。由一系列特征組成的多維向量,其中某些元素本身沒(méi)有區(qū)分性,比如某個(gè)元素在所有的樣本中都相等,或者彼此差距不大,那么這個(gè)元素本身就沒(méi)有區(qū)分性,如果用它做特征來(lái)區(qū)分,貢獻(xiàn)會(huì)非常小。我們的目的是找到那些變化大的元素,即方差大的維,而去除掉那些變化不大的維。使用PCA的好處在于可以對(duì)新求出的“主元”向量的重要性進(jìn)行排序。根據(jù)需要取前面最重要的部分,將后面的維數(shù)省去,從而達(dá)到降維、簡(jiǎn)化模型或?qū)?shù)據(jù)進(jìn)行壓縮的效果。同時(shí)最大程度地保持了原有數(shù)據(jù)的信息,較低的維數(shù)意味著運(yùn)算量的減少,在數(shù)據(jù)較多的情況帶來(lái)的性能提高更明顯。
PCA通過(guò)將主成分分析的問(wèn)題轉(zhuǎn)化為求解協(xié)方差矩陣的特征值和特征向量來(lái)計(jì)算。其目標(biāo)是尋找r(r小于原先的個(gè)數(shù)n)個(gè)新變量,使它們反映事物的主要特征,壓縮原有數(shù)據(jù)矩陣的規(guī)模,每個(gè)新變量是原有變量的線性組合,體現(xiàn)原有變量的綜合效果,這r個(gè)新變量稱(chēng)為“主成分”,它們可以在很大程度上反映原來(lái)n個(gè)變量的影響,并且這些新變量是互不相關(guān)的,也是正交的。主成分分析是把原來(lái)多個(gè)變量劃為少數(shù)幾個(gè)綜合指標(biāo)的一種統(tǒng)計(jì)分析方法,從數(shù)學(xué)角度來(lái)看,這是一種降維處理技術(shù)??梢允褂米詭Ш瘮?shù)來(lái)完成,也可以使用自編函數(shù)來(lái)實(shí)現(xiàn)!這些內(nèi)容都在本文中得到體現(xiàn)!
PCA自帶函數(shù)?。?!
MATLAB 2021a版本里面有主成分分析的函數(shù)pca。先看語(yǔ)法,然后在程序中使用看看效果!預(yù)先提示:計(jì)算相關(guān)系數(shù)的方式有些特別,居然用到了SVD算法,新奇!
由于主成分分析(principile component analysis,PCA)這個(gè)概念在不同領(lǐng)域(統(tǒng)計(jì)學(xué)、數(shù)學(xué)等)的解釋差異較大,所以,本文通過(guò)示例使用對(duì)該函數(shù)做一點(diǎn)兒解釋。
語(yǔ)法:
coeff =pca(X)
coeff =pca(X,Name,Value)
[coeff,score,latent] =pca(___)
[coeff,score,latent,tsquared] =pca(___)
[coeff,score,latent,tsquared,explained,mu] =pca(___)
[coeff,score,latent] =pca(___)還在score中返回主成分分?jǐn)?shù),在latent中返回主成分方差。您可以使用上述語(yǔ)法中的任何輸入?yún)?shù)。主成分分?jǐn)?shù)是X在主成分空間中的表示。score的行對(duì)應(yīng)于觀測(cè)值,列對(duì)應(yīng)于成分。主成分方差是X的協(xié)方差矩陣的特征值。
原文標(biāo)題:大學(xué)課程 數(shù)據(jù)分析 實(shí)戰(zhàn)之主成分分析(1)
文章出處:【微信公眾號(hào):通信工程師專(zhuān)輯】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
-
通信網(wǎng)絡(luò)
+關(guān)注
關(guān)注
22文章
2076瀏覽量
52965
原文標(biāo)題:大學(xué)課程 數(shù)據(jù)分析 實(shí)戰(zhàn)之主成分分析(1)
文章出處:【微信號(hào):gh_30373fc74387,微信公眾號(hào):通信工程師專(zhuān)輯】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
高光譜相機(jī)在生物醫(yī)學(xué)中的應(yīng)用:病理分析、智慧中醫(yī)與成分分析
Mathematica 在數(shù)據(jù)分析中的應(yīng)用
數(shù)據(jù)可視化與數(shù)據(jù)分析的關(guān)系
LLM在數(shù)據(jù)分析中的作用
eda與傳統(tǒng)數(shù)據(jù)分析的區(qū)別
為什么選擇eda進(jìn)行數(shù)據(jù)分析
raid 在大數(shù)據(jù)分析中的應(yīng)用
SUMIF函數(shù)在數(shù)據(jù)分析中的應(yīng)用
什么是成分分析?

智能制造中的數(shù)據(jù)分析應(yīng)用
數(shù)據(jù)分析在數(shù)字化中的作用
云計(jì)算在大數(shù)據(jù)分析中的應(yīng)用
使用AI大模型進(jìn)行數(shù)據(jù)分析的技巧
IP 地址大數(shù)據(jù)分析如何進(jìn)行網(wǎng)絡(luò)優(yōu)化?

評(píng)論