知識點離散數(shù)據(jù)的處理
若數(shù)據(jù)存在“序”關(guān)系則連續(xù)化,如:
| 離散 | 連續(xù) |
| 高/m | 高 |
| 10 | 1 |
| 5 | 0.5 |
| 1 | 0 |
否則,轉(zhuǎn)為K維向量代碼可見本實例中的Pd.get_dummies(X['state'])。但要注意虛擬變量,例如“性別”變量,可虛擬出“男”和”女”兩個變量,
| 男 | 1 | 0 |
| 女 | 0 | 1 |
這里所說的虛擬變量陷阱是兩個或多個變量高度相關(guān)的情況,簡單地說,一個變量可以從其他變量中預測出來,那么這里就有一個重復的類別,可以去掉一個變量,節(jié)約內(nèi)存計算機內(nèi)存空間,減少計算量。
本實例用的數(shù)據(jù)集是50_Startups.csv,
代碼如下:
importnumpyasnp pipinstallmatplotlib importmatplotlib.pyplotasplt importpandasaspd dataset=pd.read_csv("D:/python/50.csv") X=dataset.iloc[:,0:4]#0到3列的所有行數(shù)據(jù)(共4列) X["State"].unique() y=dataset.iloc[:,4]#第5列的所有行數(shù)據(jù) pd.get_dummies(X['State'])#離散數(shù)據(jù)轉(zhuǎn)為K維向量 statesdump=pd.get_dummies(X['State'],drop_first=True)#去掉X['State']的第一列數(shù)據(jù)(減少虛擬變量) X=X.drop('State',axis=1) X=pd.concat([X,statesdump],axis=1) from sklearn.model_selection import train_test_split x_train,x_test,y_train,y_test=train_test_split(X,y,test_size=0.3,random_state=0) x_train #引入線性回歸模型擬合訓練集 from sklearn.linear_model import LinearRegression regressor=LinearRegression() model=regressor.fit(x_train,y_train) #預測測試集的結(jié)果 y_predict=regressor.predict(x_test) from sklearn.metrics import r2_score# score1=r2_score(y_test,y_predict) model.coef_#多元函數(shù)的系數(shù) model.intercept_#函數(shù)的截距 model.score(X,y)
審核編輯:劉清
聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。
舉報投訴
-
向量機
+關(guān)注
關(guān)注
0文章
166瀏覽量
21688 -
虛擬機
+關(guān)注
關(guān)注
1文章
973瀏覽量
30553 -
機器學習
+關(guān)注
關(guān)注
66文章
8558瀏覽量
137069 -
python
+關(guān)注
關(guān)注
58文章
4879瀏覽量
90153 -
線性回歸
+關(guān)注
關(guān)注
0文章
42瀏覽量
4574
原文標題:機器學習-多元線性回歸數(shù)據(jù)集(50_Startups.csv)及代碼實現(xiàn)
文章出處:【微信號:智行RFID,微信公眾號:智行RFID】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
熱點推薦
回歸算法有哪些,常用回歸算法(3種)詳解
因變量和自變量之間的關(guān)系實現(xiàn)對數(shù)據(jù)的預測。例如,對房價估計時,需要確定房屋面積(自變量)與其價格(因變量)之間的關(guān)系,可以利用這一關(guān)系來預測給定面積的房屋的價格??梢杂卸鄠€影響因變量的自變量。因此,回歸
發(fā)表于 07-28 14:36
TensorFlow csv文件讀取數(shù)據(jù)(代碼實現(xiàn))詳解
大多數(shù)人了解 Pandas 及其在處理大數(shù)據(jù)文件方面的實用性。TensorFlow 提供了讀取這種文件的方法。前面章節(jié)中,介紹了如何在 TensorFlow 中讀取文件,本節(jié)將重點介紹如何從 CSV
發(fā)表于 07-28 14:40
TensorFlow實現(xiàn)簡單線性回歸
本小節(jié)直接從 TensorFlow contrib 數(shù)據(jù)集加載數(shù)據(jù)。使用隨機梯度下降優(yōu)化器優(yōu)化單個訓練樣本的系數(shù)。實現(xiàn)簡單線性
發(fā)表于 08-11 19:34
TensorFlow實現(xiàn)多元線性回歸(超詳細)
。這里是波士頓房價數(shù)據(jù)集的多重線性回歸的代碼,使用 13 個輸入特征。波士頓房價數(shù)據(jù)
發(fā)表于 08-11 19:35
TensorFlow邏輯回歸處理MNIST數(shù)據(jù)集
本節(jié)基于回歸學習對 MNIST 數(shù)據(jù)集進行處理,但將添加一些 TensorBoard 總結(jié)以便更好地理解 MNIST 數(shù)據(jù)集。MNIST由h
發(fā)表于 08-11 19:36
TensorFlow邏輯回歸處理MNIST數(shù)據(jù)集
本節(jié)基于回歸學習對 MNIST 數(shù)據(jù)集進行處理,但將添加一些 TensorBoard 總結(jié)以便更好地理解 MNIST 數(shù)據(jù)集。MNIST由h
發(fā)表于 08-11 19:36
使用PyMC3包實現(xiàn)貝葉斯線性回歸
1、如何使用PyMC3包實現(xiàn)貝葉斯線性回歸 PyMC3(現(xiàn)在簡稱為PyMC)是一個貝葉斯建模包,它使數(shù)據(jù)科學家能夠輕松地進行貝葉斯推斷?! yMC3采用馬爾可夫鏈蒙特卡羅(MCMC
發(fā)表于 10-08 15:59
基于Weierstrass逼近定理在非線性回歸模型中應用
基于Weierstrass逼近定理,闡釋了將一般非線性回歸模型近似為多項式模型來處理的數(shù)學原理,從而引入了把多元非線性回歸分析轉(zhuǎn)化為多元線性
發(fā)表于 01-12 09:59
?0次下載
多元線性回歸數(shù)據(jù)集(50_Startups.csv)及代碼實現(xiàn)
評論