如何用R處理進(jìn)行數(shù)據(jù)清洗

R是進(jìn)行運(yùn)算、清洗、匯總及生成概率統(tǒng)計(jì)等數(shù)據(jù)處理的一個(gè)絕佳選擇。此外，由于它獨(dú)立于平臺(tái)、短期內(nèi)不會(huì)消失，所以生成的程序可以在任何地方運(yùn)行。并且，它具備非常棒的輔助資源。

本文摘錄自James D.Miller撰寫(xiě)的《數(shù)據(jù)科學(xué)統(tǒng)計(jì)學(xué)》（Statistics for Data Science）一書(shū)，該書(shū)由Packt Publishing出版。

R是一種易上手的語(yǔ)言和環(huán)境，它本身很靈活且專注于統(tǒng)計(jì)計(jì)算，因此成為運(yùn)算、清洗、匯總及生成概率統(tǒng)計(jì)等數(shù)據(jù)處理的一個(gè)絕佳選擇。

此外，以下是用R進(jìn)行數(shù)據(jù)清洗的其他原因：

由于大量數(shù)據(jù)科學(xué)家都在使用R，所以它短時(shí)間內(nèi)不會(huì)消失。

R獨(dú)立于平臺(tái)，因此可以在任意地方運(yùn)行程序。

R有絕佳的輔助資源---Google一下，你就可以看到。

注：盡管作者將示例數(shù)據(jù)命名為“賭博數(shù)據(jù)”（Gamming Data），它只是用來(lái)演示代碼的賭博數(shù)據(jù)。

離群點(diǎn)

對(duì)離群點(diǎn)最簡(jiǎn)單的解釋是：離群點(diǎn)是和其余數(shù)據(jù)不匹配的數(shù)據(jù)點(diǎn)。按照慣例，任何過(guò)高、過(guò)低或者異常（基于項(xiàng)目背景）的數(shù)據(jù)都是離群點(diǎn)。作為數(shù)據(jù)清洗的一部分，數(shù)據(jù)科學(xué)家通常要識(shí)別出離群點(diǎn)并用通用的方法解決它：

刪除離群點(diǎn)的值，甚至是離群點(diǎn)對(duì)應(yīng)的實(shí)際變量。

轉(zhuǎn)換變量值或變量本身。

讓我們來(lái)看一下實(shí)際案例中如何用R識(shí)別并解決數(shù)據(jù)離群點(diǎn)。

老虎機(jī)在賭博界十分流行（老虎機(jī)的操作方法是把硬幣投入到機(jī)器中，并拉動(dòng)把手來(lái)決定回報(bào)）。如今大部分老虎機(jī)都電子化了，編程使它們的所有活動(dòng)都能被持續(xù)追蹤。在本文的案例中，賭場(chǎng)的投資者希望利用這些數(shù)據(jù)（以及各種補(bǔ)充數(shù)據(jù)）來(lái)調(diào)整盈利策略。換句話說(shuō)，什么能讓老虎機(jī)賺更多錢(qián)？是機(jī)器的主題還是類型？新機(jī)器比舊機(jī)器或老式機(jī)器更有利可圖嗎？機(jī)器的位置會(huì)產(chǎn)生怎樣的影響？低面額的機(jī)器會(huì)賺更多錢(qián)嗎？我們嘗試用離群點(diǎn)來(lái)找到答案。

給定一個(gè)集合或賭博數(shù)據(jù)庫(kù)（格式為逗號(hào)分隔或CSV文本文件），其中包括的數(shù)據(jù)如老虎機(jī)的位置、錢(qián)的面額、月份、日、年、機(jī)器類型、機(jī)器的年齡、促銷、優(yōu)惠券、天氣和投幣量（投幣量是放入機(jī)器的錢(qián)幣總額減去支付的數(shù)額）。

作為一個(gè)數(shù)據(jù)科學(xué)家，第一步要對(duì)數(shù)據(jù)進(jìn)行綜評(píng)（有時(shí)稱為概述），此時(shí)我們要確定是否存在異常值，第二步是解決這些離群點(diǎn)。

步驟一數(shù)據(jù)概述

R使這一步驟變得非常簡(jiǎn)單。盡管可以通過(guò)很多方式編程求解，但我們要嘗試用最少的程序代碼或腳本來(lái)解決問(wèn)題。將CSV文件定義為R的變量（命名為MyFile）并將文件讀入為數(shù)據(jù)框（命名為Mydata）：

MyFile《-“C:/GammingData/SlotsResults.csv” MyData《- read.csv（file=MyFile， header=TRUE， sep=“，”）

在統(tǒng)計(jì)學(xué)上，箱型圖是一種簡(jiǎn)單的方式以得到統(tǒng)計(jì)數(shù)據(jù)集的分布、變異性和中心（或中位數(shù)）相關(guān)信息，所以我們將用箱型圖來(lái)研究我們能否識(shí)別出中位數(shù)Coin-in以及能否找到離群點(diǎn)。為了達(dá)成這些，我們可以讓R畫(huà)出文件中每個(gè)老虎機(jī)的Coin-in值，繪制箱型圖的函數(shù)如下：

boxplot（MyData［11］，main=‘GammingData Review’， ylab = “Coin-in”）

注：Coin-in是文件中的第11列，所以直接將它作為boxplot函數(shù)的參數(shù)。此外還添加了一個(gè)可選擇的參數(shù)（再次強(qiáng)調(diào)，本文已盡量保持代碼的簡(jiǎn)潔度），以便在可視化圖中添加標(biāo)題。

執(zhí)行前文的代碼可以得到下圖效果，包括中位數(shù)（中位數(shù)在箱型圖中是中間橫穿的線）以及四個(gè)離群點(diǎn)：

如何用R處理進(jìn)行數(shù)據(jù)清洗

步驟2-處理離群點(diǎn)

現(xiàn)在我們發(fā)現(xiàn)數(shù)據(jù)中確實(shí)存在離群點(diǎn)，我們要解決這些點(diǎn)以保證它們不會(huì)對(duì)本研究產(chǎn)生負(fù)面影響。首先，我們知道Coin-in有負(fù)值是不合理的，因?yàn)闄C(jī)器輸出的錢(qián)幣一定不會(huì)比投入到機(jī)器中的硬幣多?；谶@個(gè)原則，我們可以從文件中刪除Coin-in為負(fù)值的記錄。此外，R可以幫助我們用subset生成一個(gè)新的數(shù)據(jù)框，新數(shù)據(jù)集中只有Coin-in中的非負(fù)值。

我們要將subset數(shù)據(jù)框命名為noNegs：

noNegs《- subset（MyData， MyData［11］》0）

接下來(lái)，我們要再一次畫(huà)圖以確定已經(jīng)刪除負(fù)值離群點(diǎn)：

boxplot（noNegs［11］，main=‘GammingData Review’， ylab = “Coin-in”）

這就產(chǎn)生了新的箱型圖，如下圖中所示：

如何用R處理進(jìn)行數(shù)據(jù)清洗

我們可以用同樣的方法去除Coin-in中極端的正值（大于1500美元）得到另一個(gè)數(shù)據(jù)子集并再次畫(huà)圖：

noOutliers《-subset（noNegs， noNegs［11］《1500） boxplot（noOutliers［11］，main=‘GammingData Review’， ylab = “Coin-in”）

當(dāng)你對(duì)數(shù)據(jù)進(jìn)行不同的迭代后，建議你保存大部分版本的數(shù)據(jù)（如果不是最重要的）。你可以用write.csv這個(gè)R函數(shù)：

write.csv（noOutliers，file=“C:/GammingData/MyData_lessOutliers.csv”）

注：大部分?jǐn)?shù)據(jù)科學(xué)家在整個(gè)項(xiàng)目中采取通用的命名規(guī)律。文件的名字應(yīng)該盡可能清晰以便今后幫助你節(jié)省時(shí)間。此外，特別是在處理大量數(shù)據(jù)時(shí)，你需要注意內(nèi)存空間的問(wèn)題。

以上代碼的輸出結(jié)果如下：

如何用R處理進(jìn)行數(shù)據(jù)清洗

領(lǐng)域知識(shí)

接下來(lái)，另一個(gè)數(shù)據(jù)清洗的技術(shù)是基于領(lǐng)域知識(shí)清理數(shù)據(jù)。這并不復(fù)雜，這種技術(shù)的關(guān)鍵是使用數(shù)據(jù)中無(wú)法察覺(jué)的信息。例如，當(dāng)我們知道Coin-in不可能有負(fù)值時(shí)，我們排除了Coin-in負(fù)值的情況。另一個(gè)案例是颶風(fēng)Sandy襲擊美國(guó)東北部的時(shí)間。在這段時(shí)間內(nèi)，機(jī)器的Coin-in值都很低（非零）。數(shù)據(jù)科學(xué)家應(yīng)該基于信息判斷是否要移除某段特定時(shí)期內(nèi)的數(shù)據(jù)。

有效性檢查

交叉驗(yàn)證是一種幫助數(shù)據(jù)科學(xué)家在數(shù)據(jù)庫(kù)中使用規(guī)則的技術(shù)。

注：有效性檢查是統(tǒng)計(jì)數(shù)據(jù)清洗中最普遍的形式，并且是數(shù)據(jù)開(kāi)發(fā)者和數(shù)據(jù)科學(xué)家都非常熟悉的流程。

數(shù)據(jù)清洗時(shí)可以設(shè)定任意數(shù)量的有效性原則，這些原則要遵循數(shù)據(jù)科學(xué)家的意圖或目標(biāo)。例如有如下原則：數(shù)據(jù)類型（例如，某個(gè)字段一定要是數(shù)值型），范圍限制（數(shù)據(jù)或日期要在一個(gè)特定范圍內(nèi)），要求（某個(gè)字段不能為空或沒(méi)有值），唯一性（一個(gè)字段，或字段的結(jié)合，一定是數(shù)據(jù)庫(kù)中唯一的），組成員（這個(gè)值一定是列表中的值），外鍵（案例中一定要被定義的明確的值或滿足特殊規(guī)則），正則表達(dá)式模式（簡(jiǎn)單地說(shuō)就是這個(gè)值的格式滿足預(yù)設(shè)的格式），交叉字段驗(yàn)證（案例中的字段組合要滿足特定標(biāo)準(zhǔn)）。

按照前文提到的內(nèi)容，我們來(lái)看一些案例，從數(shù)據(jù)類型開(kāi)始（也稱為強(qiáng)制原則）。R提供的六個(gè)強(qiáng)制函數(shù)如下：

as.numeric

as.integer

as.character

as.logical

as.factor

as.ordered

as.Date

這些函數(shù)，結(jié)合一些R的知識(shí)，使得在數(shù)據(jù)庫(kù)中轉(zhuǎn)換數(shù)據(jù)變得簡(jiǎn)單。例如，以前文的賭博數(shù)據(jù)為例，我們可以生成新的賭博結(jié)果文件，其中年齡值被存為字符型（或文本值）。為清理它，我們需要將其轉(zhuǎn)化為數(shù)據(jù)型。我們可以運(yùn)用以下R代碼完成快速轉(zhuǎn)化：

noOutliers［“Age”］《-as.numeric（noOutliers［“Age”］）

一個(gè)需要注意的地方：用這種簡(jiǎn)單方法時(shí)，如果有數(shù)據(jù)不能轉(zhuǎn)化，需要將其設(shè)定為NA值。在類型轉(zhuǎn)換中，最大的工作是理解需要輸入什么數(shù)據(jù)以及哪些數(shù)據(jù)類型是合法的;R有很廣泛的數(shù)據(jù)類型，包括標(biāo)量、向量（數(shù)值型，字符型，邏輯型），矩陣，數(shù)據(jù)框及列表。

數(shù)據(jù)清洗中我們要關(guān)注的另一個(gè)領(lǐng)域是正則表達(dá)式。在實(shí)踐中，特別是當(dāng)處理的數(shù)據(jù)來(lái)源于很多渠道時(shí)，數(shù)據(jù)科學(xué)家確實(shí)面對(duì)如下問(wèn)題：字段不是理想的格式（對(duì)于當(dāng)下目標(biāo)而言）或者字段值的格式不一致（可能會(huì)引發(fā)錯(cuò)誤的結(jié)果）。例如日期、社會(huì)安全號(hào)碼（SSN）以及手機(jī)號(hào)碼。基于數(shù)據(jù)的來(lái)源，你不得不重新輸入（如前文描述），但是通常情況下，你需要基于目標(biāo)將數(shù)據(jù)重新定義為可以使用的模式。

注：重新輸入數(shù)據(jù)是很重要的，這樣R就知道將值作為目前的數(shù)據(jù)并且你可以正確使用各種R數(shù)據(jù)函數(shù)。

一個(gè)常見(jiàn)的案例是當(dāng)數(shù)據(jù)包括形式為YYYY/MM/DD的日期數(shù)據(jù)時(shí)，你想按每周匯總的形式呈現(xiàn)出時(shí)間序列分析，或者其他需要日期值的操作但是可能需要重新定義日期格式，或者你需要將其變?yōu)镽日期類型。所以，假定一個(gè)新的賭博文件——只有兩列數(shù)據(jù)：日期和投幣量，這個(gè)文件是一個(gè)老虎機(jī)每天的投幣量。

新的文件記錄如下截圖所示：

如何用R處理進(jìn)行數(shù)據(jù)清洗

數(shù)據(jù)科學(xué)家可以用各種數(shù)據(jù)清洗的案例。從驗(yàn)證每個(gè)數(shù)據(jù)點(diǎn)的數(shù)據(jù)類型入手，我們可以用R函數(shù)class來(lái)驗(yàn)證文檔的數(shù)據(jù)類型。首先（如我們?cè)谇拔陌咐兴鳎?，讀入CSV文件存為數(shù)據(jù)框：

MyFile《-“C:/GammingData/SlotsByMachine.csv” MyData《- read.csv（file=MyFile， header=TRUE， sep=“，”）

隨后，我們可以使用class函數(shù)，如下圖截圖所示：

如何用R處理進(jìn)行數(shù)據(jù)清洗

從上圖中可以看到用class來(lái)顯示數(shù)據(jù)類型。

MyData是用來(lái)保存賭博數(shù)據(jù)的數(shù)據(jù)框，日期Date是向量類型，投幣量Coinin是一個(gè)整數(shù)。所以，數(shù)據(jù)框和整數(shù)是有意義的，但是要注意R將日期設(shè)置為向量（factor）類型。向量是分類變量，在匯總統(tǒng)計(jì)、繪圖和回歸中非常有用，但它不是非常適用日期型。為了解決這個(gè)問(wèn)題，我們可以使用R函數(shù)substr和paste，如下所示：

MyData$Date《-paste（substr（MyData$Date，6，7），substr（MyData$Date，9，10）， substr（MyData$Date，1，4），sep=“/”）

以上代碼重新定義了日期字段的格式。它將數(shù)據(jù)字段值分成三部分（月、日和年）然后按照理想的順序（/分隔符（sep））粘貼在一起，如下截圖所示：

如何用R處理進(jìn)行數(shù)據(jù)清洗

我們發(fā)現(xiàn)這一行腳本將日期字段轉(zhuǎn)換為字符類型，最后我們可以用as.Date函數(shù)將值重設(shè)為日期（Date）類型：

如何用R處理進(jìn)行數(shù)據(jù)清洗

稍微嘗試一下，就可以重新格式化來(lái)得到理想的字符串或字符數(shù)據(jù)點(diǎn)。

改善數(shù)據(jù)

通過(guò)改善進(jìn)行數(shù)據(jù)清理是另一種常見(jiàn)的技術(shù)，添加相關(guān)信息、事實(shí)或數(shù)據(jù)使得數(shù)據(jù)變得完整（可能更有價(jià)值）。這些附加數(shù)據(jù)的來(lái)源可以是用數(shù)據(jù)中現(xiàn)有信息或從其他來(lái)源添加信息進(jìn)行計(jì)算。數(shù)據(jù)科學(xué)家花費(fèi)時(shí)間完善數(shù)據(jù)的原因有很多。

基于當(dāng)前的目的或目標(biāo)，數(shù)據(jù)科學(xué)家補(bǔ)充的信息可能用于參考、比較、對(duì)比或發(fā)現(xiàn)趨勢(shì)。

典型的用例包括：

衍生事實(shí)計(jì)算

對(duì)比日歷與財(cái)政年度的使用

轉(zhuǎn)換時(shí)區(qū)

貨幣轉(zhuǎn)換

添加當(dāng)前和前期指標(biāo)

計(jì)算價(jià)值，如每天總出貨量

保持緩慢變化的維度

注：作為數(shù)據(jù)科學(xué)家，你要經(jīng)常用腳本來(lái)改善數(shù)據(jù)，這個(gè)方法要比直接編輯數(shù)據(jù)文檔好得多，因?yàn)檫@樣出錯(cuò)的可能性更低并且可以維持原始文件的完整性。此外，建立腳本可讓你將改善的過(guò)程重復(fù)應(yīng)用于多個(gè)文件或收到的新版文件中，不需要重做同樣的工作。

回到我們的賭博數(shù)據(jù)中，假定我們?cè)诮邮绽匣C(jī)的投幣量文檔，同時(shí)公司在美國(guó)大陸外的地方設(shè)立賭場(chǎng)。這些新地點(diǎn)正在向我們發(fā)送文件，并且數(shù)據(jù)將納入到我們的統(tǒng)計(jì)分析中。我們發(fā)現(xiàn)這些國(guó)際文件是以當(dāng)?shù)刎泿庞?jì)算的投幣量。為了正確地對(duì)數(shù)據(jù)建模，我們要將數(shù)據(jù)轉(zhuǎn)化為美元。

場(chǎng)景如下：

文件來(lái)源：英國(guó)

使用貨幣：英鎊

將英鎊轉(zhuǎn)化為美元的公式十分簡(jiǎn)單，只要用數(shù)額乘以匯率即可。所以，在R中：

MyData$Coinin《-MyData$Coinin* 1.4

以上代碼可以完成我們想要的轉(zhuǎn)換;然而，數(shù)據(jù)科學(xué)家要決定那種貨幣將被轉(zhuǎn)化（英鎊）以及匯率應(yīng)當(dāng)是多少。這并不是什么大問(wèn)題，但是我們可以嘗試創(chuàng)建一個(gè)用戶定義的函數(shù)來(lái)確定要使用的匯率，如下所示：

getRate《- function（arg）{ if（arg==“GPB”） { myRate 《- 1.4 } if（arg==“CAD”） { myRate 《-1.34 } return（myRate） }

盡管之前的代碼更簡(jiǎn)單，但以上代碼說(shuō)明了創(chuàng)建邏輯的要點(diǎn)，以便我們今后可以重復(fù)使用：

如何用R處理進(jìn)行數(shù)據(jù)清洗

最終，為了使整個(gè)過(guò)程更完美，我們要將函數(shù)儲(chǔ)存（在R文檔中）以便將來(lái)使用：

source（“C:/GammingData/CurerncyLogic.R”）

隨后：

MyFile《-“C:/GammingData/SlotsByMachine.csv” MyData《- read.csv（file=MyFile， header=TRUE， sep=“，”） MyData$Coin《- MyData$Coinin * getRate（“CAD”）

注：當(dāng)然，在最理想的情況下，我們可改進(jìn)函數(shù)以便在表或文件中根據(jù)國(guó)家代碼查找匯率，這樣匯率能夠隨即時(shí)價(jià)值而改變并且可以從程序中解耦數(shù)據(jù)。

數(shù)據(jù)調(diào)和

基于研究分析的整體目標(biāo)，數(shù)據(jù)科學(xué)家可以通過(guò)數(shù)據(jù)調(diào)和來(lái)轉(zhuǎn)換、翻譯、或?qū)?shù)據(jù)值映射到其他理想值。最普遍的案例是性別或國(guó)家代碼。例如，如果你的文檔中將性別編碼為0和1或M和F，你想將數(shù)據(jù)轉(zhuǎn)化為一致的MALE或FEMALE。

關(guān)于國(guó)家代碼，數(shù)據(jù)科學(xué)家想要繪制地區(qū)的匯總：北美、南美和歐洲，而不是分開(kāi)的美國(guó)、加拿大、墨西哥、巴西、智利、英國(guó)、法國(guó)和德國(guó)。在這種情況下，將產(chǎn)生合計(jì)值如下：

北美=美國(guó)+加拿大+墨西哥

南美=巴西+智利

歐洲=英國(guó)+法國(guó)+德國(guó)

需要強(qiáng)調(diào)的是，數(shù)據(jù)科學(xué)家可能會(huì)將所有包括性別的調(diào)查文檔合并在一起，稱為gender.txt，但是文檔中的性別編碼不同（1，0，M，F(xiàn)，Male和Female）。如果我們嘗試用R函數(shù)表，我們會(huì)看到如下可理解的結(jié)果：

如何用R處理進(jìn)行數(shù)據(jù)清洗

如果在最理想的狀態(tài)下進(jìn)行可視化分析：

lbs= c（“Male”， “Female”） pie（table（MyData），main=“Gambling by Gender”）

我們看到如下截圖：

如何用R處理進(jìn)行數(shù)據(jù)清洗

為了解決性別數(shù)據(jù)編碼不一致的問(wèn)題，我借用了前文案例中的概念并生成簡(jiǎn)單的函數(shù)來(lái)幫助我們重新編碼：

setGender《- function（arg）{ if（substr（arg，1，1）==“0”| toupper（substr（arg，1，1））==“M”） { Gender 《- “MALE” } if（substr（arg，1，1）==“1”| toupper（substr（arg，1，1））==“F”） { Gender 《- “FEMALE” } return（Gender） }

此次，我加入了toupper函數(shù)，因此我們不必?fù)?dān)憂大小寫(xiě)，并且有substr來(lái)控制長(zhǎng)度大于一個(gè)字符的值。

注：假定參數(shù)的值是0，1，m，M，f，F(xiàn)，Male或Female，否則將會(huì)引發(fā)報(bào)錯(cuò)。

由于R將性別作為向量類型，我發(fā)現(xiàn)很難應(yīng)用簡(jiǎn)單的函數(shù)，所以我決定生成新的R數(shù)據(jù)框來(lái)容納調(diào)和后的數(shù)據(jù)。并且用一個(gè)循環(huán)來(lái)讀入文檔中的記錄并將其轉(zhuǎn)化為Male 或Female：

MyFile《-“C:/GammingData/Gender.txt” MyData《- read.csv（file=MyFile， header=TRUE， sep=“，”） GenderData《-data.frame（nrow（MyData）） for（iin 2:nrow（MyData）） { x《-as.character（MyData［i，1］） GenderData［i，1］《-setGender（x） }

現(xiàn)在我們將通過(guò)以下語(yǔ)句得到更適合的可視化結(jié)果：

lbls= c（“Male”， “Female”） pie（table（GenderData），labels=lbls， main=“Gambling by Gender”）

以上代碼的輸出結(jié)果如下所示：

如何用R處理進(jìn)行數(shù)據(jù)清洗

標(biāo)準(zhǔn)化

大多數(shù)主流數(shù)據(jù)科學(xué)家都已經(jīng)注意到在開(kāi)始統(tǒng)計(jì)研究或分析項(xiàng)目之前，將數(shù)據(jù)標(biāo)準(zhǔn)化作為數(shù)據(jù)清理過(guò)程一部分的重要性。這是很重要的，如果沒(méi)有標(biāo)準(zhǔn)化，量綱不同的數(shù)據(jù)點(diǎn)對(duì)分析的貢獻(xiàn)會(huì)不均等。

如果你認(rèn)為在0到100之間的數(shù)據(jù)點(diǎn)比0到1范圍內(nèi)的變量影響更大，你可以理解數(shù)據(jù)標(biāo)準(zhǔn)化的重要性。使用這些未經(jīng)過(guò)標(biāo)準(zhǔn)化的變量，事實(shí)上在分析中賦予較大范圍的變量更多的權(quán)重。為了解決這一問(wèn)題并均衡這些變量，數(shù)據(jù)科學(xué)家試圖將數(shù)據(jù)轉(zhuǎn)化為可比的量綱。

數(shù)據(jù)點(diǎn)的中心化是數(shù)據(jù)標(biāo)準(zhǔn)化中最常見(jiàn)的例子（盡管還有很多）。為了使數(shù)據(jù)點(diǎn)中心化，數(shù)據(jù)科學(xué)家把文件中的每個(gè)數(shù)據(jù)點(diǎn)減去所有數(shù)據(jù)的平均值。

R不是做運(yùn)算，它提供了scale函數(shù)，其默認(rèn)方法可以通過(guò)一行代碼將文件中的數(shù)值中心化或縮減。讓我們來(lái)看一個(gè)簡(jiǎn)單的例子。

回到老虎機(jī)的案例中！在我們的賭博文件中，你可能還記得有一個(gè)字段叫投幣量（Coinin），它是一個(gè)表示投入到機(jī)器中美元總額的值，這被看作衡量機(jī)器盈利能力的指標(biāo)。這似乎是我們盈利能力分析中使用的一個(gè)重要的數(shù)據(jù)點(diǎn)。然而這些金額可能是誤導(dǎo)性的，因?yàn)椴煌臋C(jī)器有不同面額（換句話說(shuō)，一些機(jī)器接受美分，而其他機(jī)器接受一角硬幣或美元）。也許機(jī)器面值的差別造成了不同的量綱，我們可以使用scale函數(shù)來(lái)解決這種情況。首先，我們?cè)谙旅娴慕貓D中看到，Coin.in的值：

如何用R處理進(jìn)行數(shù)據(jù)清洗

我們可以通過(guò)以下語(yǔ)句對(duì)數(shù)據(jù)點(diǎn)Coin.in進(jìn)行中心化處理：

scale（MyData［11］，center = TRUE， scale = TRUE）

center的值決定了如何行中心化。center為T(mén)RUE是需要對(duì)應(yīng)的行減去Coin.in均值（省略NA）。scale的值決定了如何行縮放（在中心化之后）。如果scale的值是TRUE且center值是TRUE，那么縮放是通過(guò)除以（中心化后的）Coin.in的標(biāo)準(zhǔn)差來(lái)進(jìn)行的。如果center值是False，將得到均方根值。

在下圖截屏中看到了差別：

如何用R處理進(jìn)行數(shù)據(jù)清洗

閱讀全文

數(shù)據(jù)處理(28212) 數(shù)據(jù)處理(28212)
r語(yǔ)言(6170) r語(yǔ)言(6170)

評(píng)論

相關(guān)推薦

AD7606能否實(shí)現(xiàn)使用DMA進(jìn)行數(shù)據(jù)讀??？

因?yàn)锳D7606它沒(méi)有內(nèi)部寄存器，所以我想知道它能否實(shí)現(xiàn)使用DMA進(jìn)行數(shù)據(jù)讀??？？

2023-12-08 08:22:59

DMA進(jìn)行數(shù)據(jù)傳輸和CPU進(jìn)行數(shù)據(jù)傳輸?shù)囊蓡?wèn)

求大佬解答，本人正在學(xué)習(xí)STM32單片機(jī)中DMA直接數(shù)據(jù)存儲(chǔ)部分的內(nèi)容看了DMA簡(jiǎn)介后，也上手過(guò)實(shí)例代碼，但是沒(méi)有實(shí)際的項(xiàng)目經(jīng)驗(yàn)，所以有以下疑問(wèn)： DMA外設(shè)在進(jìn)行數(shù)據(jù)傳輸?shù)牟僮?，是否也是需要?jīng)過(guò)

2023-05-25 17:18:32

DSP怎么在進(jìn)行數(shù)據(jù)處理的同時(shí)進(jìn)行串口通信

DM642的學(xué)習(xí)版中，怎么在進(jìn)行數(shù)據(jù)處理的同時(shí)進(jìn)行串口通信？求大神指導(dǎo)啊糾結(jié)了好長(zhǎng)時(shí)間了

2014-02-24 15:42:30

HX711如何進(jìn)行數(shù)據(jù)處理？

HX711如何進(jìn)行數(shù)據(jù)處理？

2016-11-21 22:03:43

LabView可以進(jìn)行數(shù)據(jù)的即時(shí)無(wú)損壓縮嗎？

LabView可以進(jìn)行數(shù)據(jù)的即時(shí)無(wú)損壓縮嗎？

2015-04-24 10:57:24

MCCdaq進(jìn)行數(shù)據(jù)采集遇到點(diǎn)問(wèn)題

請(qǐng)問(wèn)哪位大神用過(guò)MCCdaq進(jìn)行數(shù)據(jù)采集，我現(xiàn)在遇到點(diǎn)問(wèn)題，希望可以幫助一下

2015-05-27 08:38:44

PCBA的清洗工藝介紹

　　1、全自動(dòng)化的在線式清洗機(jī)　　一種全自動(dòng)化的在線式清洗機(jī)，該清洗機(jī)針對(duì)SMT/THT的PCBA焊接后表面殘留的松香助焊劑、水溶性助焊劑、免清洗性助焊劑/焊膏等有機(jī)、無(wú)機(jī)污染物進(jìn)行徹底有效的清洗

2021-02-05 15:27:50

STM32 USART串口是如何進(jìn)行數(shù)據(jù)處理的呢

STM32 USART串口接收數(shù)據(jù)的具體步驟有哪些？STM32 USART串口是如何進(jìn)行數(shù)據(jù)處理的呢？

2021-11-25 08:56:51

TensorFlow object detect如何修改配置文件進(jìn)行數(shù)據(jù)增強(qiáng)處理

TensorFlow object_detect 修改配置文件進(jìn)行數(shù)據(jù)增強(qiáng)處理

2020-04-27 13:10:27

arduino可以對(duì)OV7670攝像頭進(jìn)行數(shù)據(jù)采集和處理嗎？

arduino可以對(duì)OV7670攝像頭進(jìn)行數(shù)據(jù)采集和處理嗎？

2017-08-07 09:23:08

fpga和DSP之間進(jìn)行數(shù)據(jù)傳輸有幾種方案

進(jìn)行高速數(shù)據(jù)傳輸有幾種方案我知道可以用雙口RAM 或者協(xié)議的方式但是不知道還有沒(méi)有其他的方式要求之間的通信速度要快相互之間進(jìn)行數(shù)據(jù)的交換其實(shí)就是FPGA把數(shù)據(jù)交給DSP進(jìn)行處理處理完了之后再有FPGA進(jìn)行實(shí)時(shí)的圖像顯示而已

2012-08-06 10:56:57

labview實(shí)時(shí)處理數(shù)據(jù)出現(xiàn)的問(wèn)題

我現(xiàn)在可以用labview將單片機(jī)采集的數(shù)據(jù)通過(guò)串口visa函數(shù)上傳在labview中，然后才可以進(jìn)行數(shù)據(jù)處理，也就是發(fā)送完數(shù)據(jù)才可以進(jìn)行數(shù)據(jù)處理，怎樣可以在發(fā)送數(shù)據(jù)的同時(shí)進(jìn)行數(shù)據(jù)處理呢？請(qǐng)各位指教。

2014-09-11 15:05:38

labview調(diào)用dll進(jìn)行數(shù)據(jù)采集

有一個(gè)非NI的數(shù)據(jù)采集卡，求哪位大神指導(dǎo)一下調(diào)用dll進(jìn)行數(shù)據(jù)采集，謝謝拉。QQ：495916189

2017-03-01 19:22:34

mysql是根據(jù)哪些原則來(lái)進(jìn)行數(shù)據(jù)類型選擇的？

mysql應(yīng)該根據(jù)那些原則來(lái)進(jìn)行數(shù)據(jù)類型的選擇！

2019-07-23 06:32:51

wearable的js工程怎么打印日志進(jìn)行數(shù)據(jù)調(diào)試

創(chuàng)建wearable的js工程打印日志console.log的時(shí)候報(bào)錯(cuò)怎么進(jìn)行數(shù)據(jù)調(diào)試

2020-10-18 21:30:36

利用Python進(jìn)行數(shù)據(jù)分析之時(shí)間序列基礎(chǔ)

《利用Python進(jìn)行數(shù)據(jù)分析》 112時(shí)間序列基礎(chǔ)

2020-03-20 09:30:20

在labview中如何進(jìn)行數(shù)據(jù)存儲(chǔ)？

在labview中如何進(jìn)行數(shù)據(jù)存儲(chǔ)？

2013-07-26 09:19:08

如何用C++做一個(gè)TCP的服務(wù)器進(jìn)行數(shù)據(jù)觀察及采集呢

如何用C++做一個(gè)TCP的服務(wù)器進(jìn)行數(shù)據(jù)觀察及采集呢？有哪些設(shè)計(jì)步驟？

2021-12-23 09:41:34

如何用KeilAssistant工具對(duì)ADC采集的數(shù)據(jù)進(jìn)行調(diào)試呢

如何使用STM32去開(kāi)發(fā)一個(gè)測(cè)量系統(tǒng)呢？如何用KeilAssistant工具對(duì)ADC采集的數(shù)據(jù)進(jìn)行調(diào)試呢？

2021-11-05 06:30:40

如何用Multisim10進(jìn)行數(shù)據(jù)采集？如何用LabVIEW顯示單結(jié)晶體管伏安特性？

2021-04-09 06:13:03

如何用OpenMv進(jìn)行圖像處理？

為什么使用串口？如何用OpenMv進(jìn)行圖像處理？

2021-12-07 07:39:38

如何用STM32CUBEMX去配置USART串口進(jìn)行數(shù)據(jù)的收發(fā)呢

如何用STM32CUBEMX去配置USART串口進(jìn)行數(shù)據(jù)的收發(fā)呢？

2021-12-14 07:08:47

如何用labview和電腦聲卡進(jìn)行數(shù)據(jù)采集

各位大大，感覺(jué)遇到了瓶頸啊……如何用電腦聲卡進(jìn)行聲音數(shù)據(jù)的采集呢？求教TAT

2013-12-05 18:51:04

如何進(jìn)行數(shù)字信號(hào)處理呢？有哪幾個(gè)基本步驟呢？

數(shù)字信號(hào)處理是如何定義的？如何進(jìn)行數(shù)字信號(hào)處理呢？有哪幾個(gè)基本步驟呢？

2021-06-22 06:46:45

如何使用STM32與PC進(jìn)行數(shù)據(jù)的相互發(fā)送、接收？

USART發(fā)送接收的基本方式是什么？如何使用STM32與PC進(jìn)行數(shù)據(jù)的相互發(fā)送、接收？

2022-02-18 07:38:26

如何使用STM32與PC進(jìn)行數(shù)據(jù)的相互發(fā)送接收？

2021-12-06 06:00:58

如何利用PIP對(duì)象進(jìn)行數(shù)據(jù)通信？

本文在對(duì)各種通信方式進(jìn)行簡(jiǎn)要介紹的基礎(chǔ)上，對(duì)各種通信方式進(jìn)行比較，并給出利用PIP對(duì)象進(jìn)行數(shù)據(jù)通信的1個(gè)例子。

2021-05-27 06:00:07

如何利用Python進(jìn)行數(shù)據(jù)分析

《利用Python進(jìn)行數(shù)據(jù)分析》 122高階GroupBy應(yīng)用

2020-04-23 07:29:16

如何通過(guò)TXD、RXD與上位機(jī)進(jìn)行數(shù)據(jù)交換？

如何通過(guò)TXD、RXD與上位機(jī)進(jìn)行數(shù)據(jù)交換？

2021-10-09 07:43:31

如何通過(guò)UART1進(jìn)行數(shù)據(jù)發(fā)送？

2021-12-06 07:31:56

實(shí)現(xiàn) Labview 和SQL server進(jìn)行數(shù)據(jù)的讀取和寫(xiě)入

行數(shù)據(jù)不變?，F(xiàn)在實(shí)現(xiàn)了 Labview 和SQL server進(jìn)行數(shù)據(jù)的讀取和寫(xiě)入，但怎樣選中某行，顏色變深，以及怎樣保存數(shù)據(jù)進(jìn)入該行，有請(qǐng)高人指點(diǎn)，有案例更好，謝謝

2017-09-07 09:25:09

對(duì)AD7091r-8進(jìn)行寄存器寫(xiě)，讀回都正確，唯獨(dú)進(jìn)行數(shù)據(jù)采集是沒(méi)有輸出是為什么？

對(duì)AD7091r-8進(jìn)行寄存器寫(xiě)，并讀回都正確，唯獨(dú)進(jìn)行數(shù)據(jù)采集是沒(méi)有輸出，發(fā)出采集命令0x00XX后，sdo返回為0；對(duì)CHANNEL SEQUENCER進(jìn)行寫(xiě)操作后，也沒(méi)有輸出，讀CHANNEL SEQUENCER為寫(xiě)入數(shù)據(jù)。實(shí)在不解？

2023-12-14 07:49:54

對(duì)高速電主軸振動(dòng)進(jìn)行數(shù)據(jù)的采集，但不知怎么對(duì)數(shù)據(jù)處理

我想對(duì)高速電主軸振動(dòng)進(jìn)行數(shù)據(jù)的采集，然后對(duì)他進(jìn)行然后對(duì)數(shù)據(jù)進(jìn)行數(shù)據(jù)的分析，請(qǐng)大神幫給這個(gè)程序加一個(gè)濾波然后在進(jìn)行時(shí)域分析，頻譜分析，功率譜分析，做一個(gè)圖表能顯示其振動(dòng)加速的大小的波形圖，求大神幫幫忙？相關(guān)源程序如下連接！http://pan.baidu.com/s/1eQ9tajK

2014-07-25 11:18:02

怎么使用CR2032進(jìn)行數(shù)據(jù)記錄

你好，我與PIC18F67J94一起工作，使用熱敏電阻進(jìn)行數(shù)據(jù)記錄，使用的電源是CR2032電池。我使用兩個(gè)發(fā)光二極管作為指示，并將數(shù)據(jù)存儲(chǔ)在控制器存儲(chǔ)器中。誰(shuí)能告訴我cr2032電池在負(fù)溫下

2019-09-06 06:42:43

怎么用Labview進(jìn)行數(shù)據(jù)采集

2015-05-21 16:32:20

怎么用串口進(jìn)行數(shù)據(jù)采集

本帖最后由 sushu 于 2013-7-16 15:45 編輯怎么用串口進(jìn)行數(shù)據(jù)采集PCB打樣找華強(qiáng) http://www.hqpcb.com 樣板2天出貨

2013-07-15 13:35:28

怎么解決人工神經(jīng)網(wǎng)絡(luò)并行數(shù)據(jù)處理的問(wèn)題

本文提出了一個(gè)基于FPGA 的信息處理的實(shí)例：一個(gè)簡(jiǎn)單的人工神經(jīng)網(wǎng)絡(luò)應(yīng)用Verilog 語(yǔ)言描述，該數(shù)據(jù)流采用模塊化的程序設(shè)計(jì)，并考慮了模塊間數(shù)據(jù)傳輸信號(hào)同步的問(wèn)題，有效地解決了人工神經(jīng)網(wǎng)絡(luò)并行數(shù)據(jù)處理的問(wèn)題。

2021-05-06 07:22:07

怎樣使用SPI的DMA模式進(jìn)行數(shù)據(jù)的收發(fā)呢？

處理器是：STM32F407的想實(shí)現(xiàn)SPI+DMA進(jìn)行數(shù)據(jù)收發(fā)，讀取ADC芯片；我看DMA配置文件中有SPI的配置，但是不知道怎么配置。

2023-03-29 15:41:56

怎樣使用STM32的串口進(jìn)行數(shù)據(jù)的接收或者發(fā)送呢

STM32串口通信可分為哪幾類？怎樣使用STM32的串口進(jìn)行數(shù)據(jù)的接收或者發(fā)送呢？

2021-12-06 07:09:52

怎樣在其他的數(shù)據(jù)幀發(fā)送完畢后進(jìn)行數(shù)據(jù)的發(fā)送？

判斷線忙的主要方法有哪幾種？如何進(jìn)行數(shù)據(jù)的總線判“忙”檢測(cè)？怎樣在其他的數(shù)據(jù)幀發(fā)送完畢后進(jìn)行數(shù)據(jù)的發(fā)送？如何寫(xiě)一個(gè)真的隨機(jī)數(shù)而不是偽隨機(jī)數(shù)呢？如何產(chǎn)生一個(gè)真正隨機(jī)的隨機(jī)種子呢？

2021-07-08 06:44:35

有關(guān)攝像頭采集數(shù)據(jù)進(jìn)行分割處理

如何將攝像頭所采集的數(shù)據(jù)進(jìn)行分割處理后，然后進(jìn)行數(shù)據(jù)處理 找到圖片上需要找到的一點(diǎn)！??！

2013-07-20 18:07:10

求大神！！！如何用labview讀取，處理數(shù)據(jù)進(jìn)行線性擬合

小白一個(gè)，求大神告知?。?！數(shù)據(jù)都存在一個(gè)文件里，如何把它們讀進(jìn)labview？如何用labview對(duì)這些數(shù)據(jù)進(jìn)行線性擬合？

2017-05-06 15:33:51

求救！如何用PIC單片機(jī)實(shí)現(xiàn)GPRS模塊進(jìn)行數(shù)據(jù)傳輸

如何用PIC單片機(jī)實(shí)現(xiàn)GPRS模塊進(jìn)行數(shù)據(jù)傳輸，從網(wǎng)上了解到要通過(guò)AT指令，沒(méi)用過(guò)啊，請(qǐng)大俠指點(diǎn)，最好給個(gè)例子，謝謝！

2012-12-14 13:59:07

簡(jiǎn)述主機(jī)與外設(shè)進(jìn)行數(shù)據(jù)交換的幾種常用方式

在8086的微計(jì)算機(jī)系統(tǒng)中，存儲(chǔ)器是如何組織的？是如何與處理器總線連接的？BHE信號(hào)起什么作用？簡(jiǎn)述主機(jī)與外設(shè)進(jìn)行數(shù)據(jù)交換的幾種常用方式？

2021-09-27 06:49:01

設(shè)備與IoT中心之間進(jìn)行數(shù)據(jù)交換的功能

本次示例程序?qū)⒄故驹O(shè)備與IoT中心之間進(jìn)行數(shù)據(jù)交換的功能。

2021-03-30 07:35:40

請(qǐng)問(wèn)AD7606能否實(shí)現(xiàn)使用DMA進(jìn)行數(shù)據(jù)讀?。?/a>

因?yàn)锳D7606它沒(méi)有內(nèi)部寄存器，所以我想知道它能否實(shí)現(xiàn)使用DMA進(jìn)行數(shù)據(jù)讀??？？

2019-01-28 13:47:32

請(qǐng)問(wèn)STM32超聲波定高返回的高度數(shù)據(jù)如何用PID算法處理？

STM32超聲波定高返回的高度數(shù)據(jù)如何用PID算法處理？STM32超聲波模塊定高返回的高度值如何用PID算法進(jìn)行處理，然后輸出PWM信號(hào)？?

2020-08-03 04:10:06

請(qǐng)問(wèn)下位機(jī)采集多通道數(shù)據(jù)怎么通過(guò)VISA串口上傳到labview進(jìn)行數(shù)據(jù)處理？

請(qǐng)問(wèn)我想用單片機(jī)stm32采集兩個(gè)通道的數(shù)據(jù)通過(guò)labview串口上傳，然后進(jìn)行數(shù)據(jù)處理，比如說(shuō)：波形顯示、保存數(shù)據(jù)，單通道的我會(huì)弄程序，但是多通道的就不知道怎么做了。VISA是不是只能接收一個(gè)通道的數(shù)據(jù)？

2018-07-28 11:33:42

請(qǐng)問(wèn)在DSP和PRU進(jìn)行數(shù)據(jù)交互時(shí)需要什么設(shè)置？

斷事件，DSP進(jìn)中斷服務(wù)函數(shù)并讀取對(duì)應(yīng)內(nèi)存（0x01C30000）中的數(shù)據(jù)，發(fā)現(xiàn)數(shù)據(jù)并沒(méi)有翻倍，請(qǐng)問(wèn)在DSP和PRU進(jìn)行數(shù)據(jù)交互時(shí)需要什么設(shè)置，基本流程是什么？其中PRU中獲取數(shù)據(jù)的處理如下：LBCOr16

2019-09-29 11:27:17

風(fēng)電機(jī)組異常數(shù)據(jù)識(shí)別與清洗

風(fēng)電機(jī)組異常數(shù)據(jù)識(shí)別與清洗-baseline比賽類型：數(shù)據(jù)挖掘比賽數(shù)據(jù)：表格題（csv）學(xué)習(xí)方式：無(wú)監(jiān)督主辦方：國(guó)家電力投資集團(tuán)有限公司科技與創(chuàng)新部比賽鏈接比賽任務(wù)：依據(jù)提供的8臺(tái)風(fēng)力電機(jī)1年

2021-07-12 07:15:22

（R語(yǔ)言）風(fēng)電機(jī)組運(yùn)行數(shù)據(jù)分析精選資料分享

風(fēng)電機(jī)組運(yùn)行數(shù)據(jù)分析基于R語(yǔ)言，對(duì)德國(guó)某風(fēng)電場(chǎng)7臺(tái)850kw的風(fēng)電機(jī)組運(yùn)行數(shù)據(jù)進(jìn)行分析。約5萬(wàn)條數(shù)據(jù)。部分數(shù)據(jù)：讀取數(shù)據(jù)：> datahead(data)PCTimeStamp11/1/132

2021-07-12 07:10:38

用MatLab進(jìn)行數(shù)字信號(hào)處理

附錄B 用MatLab進(jìn)行數(shù)字信號(hào)處理一、 Matlab簡(jiǎn)介在科學(xué)研究和工程應(yīng)用中，往往要進(jìn)行大量的數(shù)學(xué)計(jì)算，這些運(yùn)算一般來(lái)說(shuō)難以用手工精確和快捷地進(jìn)行，而要借助計(jì)算機(jī)編制

2009-05-10 10:03:25

如何用CAXA線切割進(jìn)行數(shù)控加工自動(dòng)編程

如何用CAXA線切割進(jìn)行數(shù)控加工自動(dòng)編程 CAXA線切割是一個(gè)面向線切割機(jī)床數(shù)控編程的軟件系統(tǒng)，在我國(guó)線切割加工領(lǐng)域有廣泛的

2009-10-18 18:44:14

14875

如何更好地進(jìn)行數(shù)據(jù)采集

如何更好地進(jìn)行數(shù)據(jù)采集工程師經(jīng)常需要進(jìn)行數(shù)據(jù)采集來(lái)驗(yàn)證產(chǎn)品的性能和指標(biāo)，或者對(duì)一些特定的應(yīng)用進(jìn)行監(jiān)測(cè)和控制，以便確定其物理參數(shù)，例如溫度、應(yīng)力、壓

2010-01-04 10:32:54

1587

什么是信號(hào)處理?如何進(jìn)行數(shù)字信號(hào)處理呢？

什么是信號(hào)處理?如何進(jìn)行數(shù)字信號(hào)處理呢？在我們的周圍存在著為數(shù)眾多的"信號(hào)"。如：從茫茫宇宙中的天體發(fā)出的微弱電波信號(hào)，移動(dòng)電話發(fā)出

2010-03-06 10:13:51

3045

使用LabVIEW軟件進(jìn)行數(shù)據(jù)采集和信號(hào)處理的10大理由

使用LabVIEW軟件進(jìn)行數(shù)據(jù)采集和信號(hào)處理的10大理由，很直得一看哦。

2011-09-03 17:27:53

4786

如何清洗激光頭

如何清洗激光頭，本文講述了如何用超聲波清洗機(jī)來(lái)清洗激光頭

2012-05-07 14:42:54

15771

游客游跡RFID數(shù)據(jù)處理與清洗方法研究與實(shí)現(xiàn)

針對(duì)游客游跡跟蹤與追溯系統(tǒng)，本文深入分析了游客游跡不確定數(shù)據(jù)產(chǎn)生的原因，根據(jù)景區(qū)應(yīng)用特點(diǎn)，提出了一種游客游跡RFID數(shù)據(jù)處理與清洗方法。在數(shù)據(jù)處理時(shí)，引入事件概念，設(shè)計(jì)

2013-07-25 17:52:31

企業(yè)數(shù)據(jù)中臺(tái)如何進(jìn)行數(shù)據(jù)的清洗和處理？#數(shù)據(jù)中臺(tái) #光點(diǎn)科技

數(shù)據(jù)

光點(diǎn)科技發(fā)布于 2023-11-30 09:28:53

Python在音頻（Audio）領(lǐng)域中，如何進(jìn)行數(shù)據(jù)擴(kuò)充呢？

經(jīng)典的深度學(xué)習(xí)網(wǎng)絡(luò)AlexNet使用數(shù)據(jù)擴(kuò)充（Data Augmentation）的方式擴(kuò)大數(shù)據(jù)集，取得較好的分類效果。在深度學(xué)習(xí)的圖像領(lǐng)域中，通過(guò)平移、翻轉(zhuǎn)、加噪等方法進(jìn)行數(shù)據(jù)擴(kuò)充。但是，在音頻（Audio）領(lǐng)域中，如何進(jìn)行數(shù)據(jù)擴(kuò)充呢？

2018-04-15 10:35:48

10069

為什么要進(jìn)行數(shù)據(jù)清洗呢？

在實(shí)際項(xiàng)目中，當(dāng)我們確定需求后就會(huì)去找相應(yīng)的數(shù)據(jù)，拿到數(shù)據(jù)后，首先要對(duì)數(shù)據(jù)進(jìn)行描述性統(tǒng)計(jì)分析，查看哪些數(shù)據(jù)是不合理的，也可以知道數(shù)據(jù)的基本情況。如果是銷售額數(shù)據(jù)可以通過(guò)分析不同商品的銷售總額、人均消費(fèi)額、人均消費(fèi)次數(shù)等，同一商品的不同時(shí)間的消費(fèi)額、消費(fèi)頻次等等，了解數(shù)據(jù)的基本情況。

2018-07-27 17:17:23

25886

數(shù)據(jù)庫(kù)教程之如何進(jìn)行數(shù)據(jù)庫(kù)設(shè)計(jì)

本文檔的主要內(nèi)容詳細(xì)介紹的是數(shù)據(jù)庫(kù)教程之如何進(jìn)行數(shù)據(jù)庫(kù)設(shè)計(jì)內(nèi)容包括了：1 數(shù)據(jù)庫(kù)設(shè)計(jì)概述，2 數(shù)據(jù)庫(kù)需求分析，3 數(shù)據(jù)庫(kù)結(jié)構(gòu)設(shè)計(jì) ，4 數(shù)據(jù)庫(kù)行為設(shè)計(jì) ，5 數(shù)據(jù)庫(kù)實(shí)施，6數(shù)據(jù)庫(kù)的運(yùn)行和維護(hù)

2018-10-19 10:41:00

數(shù)據(jù)清洗的步驟是什么

數(shù)據(jù)清洗是指重復(fù)。多余的數(shù)據(jù)篩選和清除，完整地補(bǔ)充丟失的數(shù)據(jù)，糾正或刪除錯(cuò)誤的數(shù)據(jù)，最后整理成我們可以進(jìn)一步處理和使用的數(shù)據(jù)。

2021-10-18 17:05:26

17886

三菱PLC如何用網(wǎng)關(guān)去進(jìn)行數(shù)據(jù)采集

，遠(yuǎn)程運(yùn)行和維護(hù)，遠(yuǎn)程PLC程序上下載，物通博聯(lián)推出的三菱PLC網(wǎng)關(guān)能夠很好的去和工業(yè)設(shè)備內(nèi)置的PLC進(jìn)行對(duì)接，那么三菱PLC如何用網(wǎng)關(guān)去進(jìn)行數(shù)據(jù)采集的呢?

2022-01-17 16:18:49

1452

成功進(jìn)行數(shù)據(jù)整合的案例

預(yù)置數(shù)十個(gè)開(kāi)箱即用連接器，基于SDK和熱插拔的連接器擴(kuò)展技術(shù)，快速啟動(dòng)數(shù)據(jù)集成，然后利用低代碼、自動(dòng)化數(shù)據(jù)處理管道方式進(jìn)行數(shù)據(jù)建模。

2022-08-19 14:14:48

618

使用tf.data進(jìn)行數(shù)據(jù)集處理

在進(jìn)行AI模型訓(xùn)練過(guò)程前，需要對(duì)數(shù)據(jù)集進(jìn)行處理, Tensorflow提供了tf.data數(shù)據(jù)集處理模塊，通過(guò)該接口能夠輕松實(shí)現(xiàn)數(shù)據(jù)集預(yù)處理。tf.data支持對(duì)數(shù)據(jù)集進(jìn)行大量處理，如圖片裁剪、圖片打亂、圖片分批次處理等操作。

2022-11-29 15:34:59

838

數(shù)據(jù)清洗、缺失值填充和異常值處理

綜上所述，數(shù)據(jù)清洗、缺失值填充和異常值處理對(duì)數(shù)據(jù)分析非常重要，并且 MATLAB 提供了許多工具來(lái)實(shí)現(xiàn)這些步驟?？梢愿鶕?jù)具體情況選擇合適的函數(shù)和方法來(lái)處理數(shù)據(jù)。

2023-06-21 15:30:37

2047

隧道沒(méi)信號(hào)怎么進(jìn)行數(shù)據(jù)采集

隧道沒(méi)信號(hào)怎么進(jìn)行數(shù)據(jù)采集

2023-12-06 13:27:37

257

已全部加載完成

搜索歷史

如何用R處理進(jìn)行數(shù)據(jù)清洗

評(píng)論