久久人妇人妻精品系列,欧美粗大强交18p直喷水

創(chuàng)建測(cè)試集

在這個(gè)階段就分割數(shù)據(jù)，聽(tīng)起來(lái)很奇怪。畢竟，你只是簡(jiǎn)單快速地查看了數(shù)據(jù)而已，你需要再仔細(xì)調(diào)查下數(shù)據(jù)以決定使用什么算法。這么想是對(duì)的，但是人類(lèi)的大腦是一個(gè)神奇的發(fā)現(xiàn)規(guī)律的系統(tǒng)，這意味著大腦非常容易發(fā)生過(guò)擬合：如果你查看了測(cè)試集，就會(huì)不經(jīng)意地按照測(cè)試集中的規(guī)律來(lái)選擇某個(gè)特定的機(jī)器學(xué)習(xí)模型。再當(dāng)你使用測(cè)試集來(lái)評(píng)估誤差率時(shí)，就會(huì)導(dǎo)致評(píng)估過(guò)于樂(lè)觀，而實(shí)際部署的系統(tǒng)表現(xiàn)就會(huì)差。這稱(chēng)為數(shù)據(jù)透視偏差。

理論上，創(chuàng)建測(cè)試集很簡(jiǎn)單：只要隨機(jī)挑選一些實(shí)例，一般是數(shù)據(jù)集的 20%，放到一邊：

import numpy as np def split_train_test(data, test_ratio): shuffled_indices = np.random.permutation(len(data)) test_set_size = int(len(data) * test_ratio) test_indices = shuffled_indices[:test_set_size] train_indices = shuffled_indices[test_set_size:] return data.iloc[train_indices], data.iloc[test_indices]

然后可以像下面這樣使用這個(gè)函數(shù)：

>>> train_set, test_set = split_train_test(housing, 0.2) >>> print(len(train_set), "train +", len(test_set), "test") 16512 train + 4128 test

這個(gè)方法可行，但是并不完美：如果再次運(yùn)行程序，就會(huì)產(chǎn)生一個(gè)不同的測(cè)試集！多次運(yùn)行之后，你（或你的機(jī)器學(xué)習(xí)算法）就會(huì)得到整個(gè)數(shù)據(jù)集，這是需要避免的。

解決的辦法之一是保存第一次運(yùn)行得到的測(cè)試集，并在隨后的過(guò)程加載。另一種方法是在調(diào)用np.random.permutation()之前，設(shè)置隨機(jī)數(shù)生成器的種子（比如np.random.seed(42)），以產(chǎn)生總是相同的洗牌指數(shù)（shuffled indices）。

但是如果數(shù)據(jù)集更新，這兩個(gè)方法都會(huì)失效。一個(gè)通常的解決辦法是使用每個(gè)實(shí)例的ID來(lái)判定這個(gè)實(shí)例是否應(yīng)該放入測(cè)試集（假設(shè)每個(gè)實(shí)例都有唯一并且不變的ID）。例如，你可以計(jì)算出每個(gè)實(shí)例ID的哈希值，只保留其最后一個(gè)字節(jié)，如果該值小于等于 51（約為 256 的 20%），就將其放入測(cè)試集。這樣可以保證在多次運(yùn)行中，測(cè)試集保持不變，即使更新了數(shù)據(jù)集。新的測(cè)試集會(huì)包含新實(shí)例中的 20%，但不會(huì)有之前位于訓(xùn)練集的實(shí)例。下面是一種可用的方法：

import hashlib def test_set_check(identifier, test_ratio, hash): return hash(np.int64(identifier)).digest()[-1] < 256 * test_ratio def split_train_test_by_id(data, test_ratio, id_column, hash=hashlib.md5): ? ?ids = data[id_column] ? ?in_test_set = ids.apply(lambda id_: test_set_check(id_, test_ratio, hash)) ? ?return data.loc[~in_test_set], data.loc[in_test_set]

不過(guò)，房產(chǎn)數(shù)據(jù)集沒(méi)有ID這一列。最簡(jiǎn)單的方法是使用行索引作為 ID：

housing_with_id = housing.reset_index() # adds an `index` column train_set, test_set = split_train_test_by_id(housing_with_id, 0.2, "index")

如果使用行索引作為唯一識(shí)別碼，你需要保證新數(shù)據(jù)都放到現(xiàn)有數(shù)據(jù)的尾部，且沒(méi)有行被刪除。如果做不到，則可以用最穩(wěn)定的特征來(lái)創(chuàng)建唯一識(shí)別碼。例如，一個(gè)區(qū)的維度和經(jīng)度在幾百萬(wàn)年之內(nèi)是不變的，所以可以將兩者結(jié)合成一個(gè) ID：

housing_with_id["id"] = housing["longitude"] * 1000 + housing["latitude"] train_set, test_set = split_train_test_by_id(housing_with_id, 0.2, "id")

Scikit-Learn 提供了一些函數(shù)，可以用多種方式將數(shù)據(jù)集分割成多個(gè)子集。最簡(jiǎn)單的函數(shù)是train_test_split，它的作用和之前的函數(shù)split_train_test很像，并帶有其它一些功能。首先，它有一個(gè)random_state參數(shù)，可以設(shè)定前面講過(guò)的隨機(jī)生成器種子；第二，你可以將種子傳遞給多個(gè)行數(shù)相同的數(shù)據(jù)集，可以在相同的索引上分割數(shù)據(jù)集（這個(gè)功能非常有用，比如你的標(biāo)簽值是放在另一個(gè)DataFrame里的）：

from sklearn.model_selection import train_test_split train_set, test_set = train_test_split(housing, test_size=0.2, random_state=42)

目前為止，我們采用的都是純隨機(jī)的取樣方法。當(dāng)你的數(shù)據(jù)集很大時(shí)（尤其是和屬性數(shù)相比），這通?？尚校坏绻麛?shù)據(jù)集不大，就會(huì)有采樣偏差的風(fēng)險(xiǎn)。當(dāng)一個(gè)調(diào)查公司想要對(duì) 1000 個(gè)人進(jìn)行調(diào)查，它們不是在電話(huà)亭里隨機(jī)選 1000 個(gè)人出來(lái)。調(diào)查公司要保證這 1000 個(gè)人對(duì)人群整體有代表性。例如，美國(guó)人口的 51.3% 是女性，48.7% 是男性。所以在美國(guó)，嚴(yán)謹(jǐn)?shù)恼{(diào)查需要保證樣本也是這個(gè)比例：513 名女性，487 名男性。這稱(chēng)作分層采樣（stratified sampling）：將人群分成均勻的子分組，稱(chēng)為分層，從每個(gè)分層去取合適數(shù)量的實(shí)例，以保證測(cè)試集對(duì)總?cè)藬?shù)有代表性。如果調(diào)查公司采用純隨機(jī)采樣，會(huì)有 12% 的概率導(dǎo)致采樣偏差：女性人數(shù)少于 49%，或多于 54%。不管發(fā)生那種情況，調(diào)查結(jié)果都會(huì)嚴(yán)重偏差。

假設(shè)專(zhuān)家告訴你，收入中位數(shù)是預(yù)測(cè)房?jī)r(jià)中位數(shù)非常重要的屬性。你可能想要保證測(cè)試集可以代表整體數(shù)據(jù)集中的多種收入分類(lèi)。因?yàn)槭杖胫形粩?shù)是一個(gè)連續(xù)的數(shù)值屬性，你首先需要?jiǎng)?chuàng)建一個(gè)收入類(lèi)別屬性。再仔細(xì)地看一下收入中位數(shù)的柱狀圖（圖 2-9）（譯注：該圖是對(duì)收入中位數(shù)處理過(guò)后的圖）：

圖 2-9 收入分類(lèi)的柱狀圖

大多數(shù)的收入中位數(shù)的值聚集在 2-5（萬(wàn)美元），但是一些收入中位數(shù)會(huì)超過(guò) 6。數(shù)據(jù)集中的每個(gè)分層都要有足夠的實(shí)例位于你的數(shù)據(jù)中，這點(diǎn)很重要。否則，對(duì)分層重要性的評(píng)估就會(huì)有偏差。這意味著，你不能有過(guò)多的分層，且每個(gè)分層都要足夠大。后面的代碼通過(guò)將收入中位數(shù)除以 1.5（以限制收入分類(lèi)的數(shù)量），創(chuàng)建了一個(gè)收入類(lèi)別屬性，用ceil對(duì)值舍入（以產(chǎn)生離散的分類(lèi)），然后將所有大于 5的分類(lèi)歸入到分類(lèi) 5：

housing["income_cat"] = np.ceil(housing["median_income"] / 1.5) housing["income_cat"].where(housing["income_cat"] < 5, 5.0, inplace=True)

現(xiàn)在，就可以根據(jù)收入分類(lèi)，進(jìn)行分層采樣。你可以使用 Scikit-Learn 的StratifiedShuffleSplit類(lèi)：

from sklearn.model_selection import StratifiedShuffleSplit split = StratifiedShuffleSplit(n_splits=1, test_size=0.2, random_state=42) for train_index, test_index in split.split(housing, housing["income_cat"]): strat_train_set = housing.loc[train_index] strat_test_set = housing.loc[test_index]

檢查下結(jié)果是否符合預(yù)期。你可以在完整的房產(chǎn)數(shù)據(jù)集中查看收入分類(lèi)比例：

>>> housing["income_cat"].value_counts() / len(housing) 3.0 0.350581 2.0 0.318847 4.0 0.176308 5.0 0.114438 1.0 0.039826 Name: income_cat, dtype: float64

使用相似的代碼，還可以測(cè)量測(cè)試集中收入分類(lèi)的比例。圖 2-10 對(duì)比了總數(shù)據(jù)集、分層采樣的測(cè)試集、純隨機(jī)采樣測(cè)試集的收入分類(lèi)比例?？梢钥吹?，分層采樣測(cè)試集的收入分類(lèi)比例與總數(shù)據(jù)集幾乎相同，而隨機(jī)采樣數(shù)據(jù)集偏差嚴(yán)重。

圖 2-10 分層采樣和純隨機(jī)采樣的樣本偏差比較

現(xiàn)在，你需要?jiǎng)h除income_cat屬性，使數(shù)據(jù)回到初始狀態(tài)：

for set in (strat_train_set, strat_test_set): set.drop(["income_cat"], axis=1, inplace=True)

我們用了大量時(shí)間來(lái)生成測(cè)試集的原因是：測(cè)試集通常被忽略，但實(shí)際是機(jī)器學(xué)習(xí)非常重要的一部分。還有，生成測(cè)試集過(guò)程中的許多思路對(duì)于后面的交叉驗(yàn)證討論是非常有幫助的。接下來(lái)進(jìn)入下一階段：數(shù)據(jù)探索。

數(shù)據(jù)探索和可視化、發(fā)現(xiàn)規(guī)律

目前為止，你只是快速查看了數(shù)據(jù)，對(duì)要處理的數(shù)據(jù)有了整體了解?，F(xiàn)在的目標(biāo)是更深的探索數(shù)據(jù)。

首先，保證你將測(cè)試集放在了一旁，只是研究訓(xùn)練集。另外，如果訓(xùn)練集非常大，你可能需要再采樣一個(gè)探索集，保證操作方便快速。在我們的案例中，數(shù)據(jù)集很小，所以可以在全集上直接工作。創(chuàng)建一個(gè)副本，以免損傷訓(xùn)練集：

housing = strat_train_set.copy()

地理數(shù)據(jù)可視化

housing.plot(kind="scatter", x="longitude", y="latitude")

因?yàn)榇嬖诘乩硇畔ⅲň暥群徒?jīng)度），創(chuàng)建一個(gè)所有街區(qū)的散點(diǎn)圖來(lái)數(shù)據(jù)可視化是一個(gè)不錯(cuò)的主意（圖 2-11）：

圖 2-11 數(shù)據(jù)的地理信息散點(diǎn)圖

這張圖看起來(lái)很像加州，但是看不出什么特別的規(guī)律。將alpha設(shè)為 0.1，可以更容易看出數(shù)據(jù)點(diǎn)的密度（圖 2-12）：

圖 2-12 顯示高密度區(qū)域的散點(diǎn)圖

現(xiàn)在看起來(lái)好多了：可以非常清楚地看到高密度區(qū)域，灣區(qū)、洛杉磯和圣迭戈，以及中央谷，特別是從薩克拉門(mén)托和弗雷斯諾。

通常來(lái)講，人類(lèi)的大腦非常善于發(fā)現(xiàn)圖片中的規(guī)律，但是需要調(diào)整可視化參數(shù)使規(guī)律顯現(xiàn)出來(lái)。

現(xiàn)在來(lái)看房?jī)r(jià)（圖 2-13）。每個(gè)圈的半徑表示街區(qū)的人口（選項(xiàng)s），顏色代表價(jià)格（選項(xiàng)c）。我們用預(yù)先定義的名為jet的顏色圖（選項(xiàng)cmap），它的范圍是從藍(lán)色（低價(jià)）到紅色（高價(jià)）：

housing.plot(kind="scatter", x="longitude", y="latitude", alpha=0.4, s=housing["population"]/100, label="population", c="median_house_value", cmap=plt.get_cmap("jet"), colorbar=True, ) plt.legend()

圖 2-13 加州房?jī)r(jià)

這張圖說(shuō)明房?jī)r(jià)和位置（比如，靠海）和人口密度聯(lián)系密切，這點(diǎn)你可能早就知道?？梢允褂镁垲?lèi)算法來(lái)檢測(cè)主要的聚集，用一個(gè)新的特征值測(cè)量聚集中心的距離。盡管北加州海岸區(qū)域的房?jī)r(jià)不是非常高，但離大海距離屬性也可能很有用，所以這不是用一個(gè)簡(jiǎn)單的規(guī)則就可以定義的問(wèn)題。

查找關(guān)聯(lián)

因?yàn)閿?shù)據(jù)集并不是非常大，你可以很容易地使用corr()方法計(jì)算出每對(duì)屬性間的標(biāo)準(zhǔn)相關(guān)系數(shù)（standard correlation coefficient，也稱(chēng)作皮爾遜相關(guān)系數(shù)）：

corr_matrix = housing.corr()

現(xiàn)在來(lái)看下每個(gè)屬性和房?jī)r(jià)中位數(shù)的關(guān)聯(lián)度：

>>> corr_matrix["median_house_value"].sort_values(ascending=False) median_house_value 1.000000 median_income 0.687170 total_rooms 0.135231 housing_median_age 0.114220 households 0.064702 total_bedrooms 0.047865 population -0.026699 longitude -0.047279 latitude -0.142826 Name: median_house_value, dtype: float64

相關(guān)系數(shù)的范圍是 -1 到 1。當(dāng)接近 1 時(shí)，意味強(qiáng)正相關(guān)；例如，當(dāng)收入中位數(shù)增加時(shí)，房?jī)r(jià)中位數(shù)也會(huì)增加。當(dāng)相關(guān)系數(shù)接近 -1 時(shí)，意味強(qiáng)負(fù)相關(guān)；你可以看到，緯度和房?jī)r(jià)中位數(shù)有輕微的負(fù)相關(guān)性（即，越往北，房?jī)r(jià)越可能降低）。最后，相關(guān)系數(shù)接近 0，意味沒(méi)有線(xiàn)性相關(guān)性。圖 2-14 展示了相關(guān)系數(shù)在橫軸和縱軸之間的不同圖形。

圖 2-14 不同數(shù)據(jù)集的標(biāo)準(zhǔn)相關(guān)系數(shù)（來(lái)源：Wikipedia；公共領(lǐng)域圖片）

警告：相關(guān)系數(shù)只測(cè)量線(xiàn)性關(guān)系（如果x上升，y則上升或下降）。相關(guān)系數(shù)可能會(huì)完全忽略非線(xiàn)性關(guān)系（例如，如果x接近 0，則y值會(huì)變高）。在上面圖片的最后一行中，他們的相關(guān)系數(shù)都接近于 0，盡管它們的軸并不獨(dú)立：這些就是非線(xiàn)性關(guān)系的例子。另外，第二行的相關(guān)系數(shù)等于 1 或 -1；這和斜率沒(méi)有任何關(guān)系。例如，你的身高（單位是英寸）與身高（單位是英尺或納米）的相關(guān)系數(shù)就是 1。

另一種檢測(cè)屬性間相關(guān)系數(shù)的方法是使用 Pandas 的scatter_matrix函數(shù)，它能畫(huà)出每個(gè)數(shù)值屬性對(duì)每個(gè)其它數(shù)值屬性的圖。因?yàn)楝F(xiàn)在共有 11 個(gè)數(shù)值屬性，你可以得到11 ** 2 = 121張圖，在一頁(yè)上畫(huà)不下，所以只關(guān)注幾個(gè)和房?jī)r(jià)中位數(shù)最有可能相關(guān)的屬性（圖 2-15）：

from pandas.tools.plotting import scatter_matrix attributes = ["median_house_value", "median_income", "total_rooms", "housing_median_age"] scatter_matrix(housing[attributes], figsize=(12, 8))

圖 2-15 散點(diǎn)矩陣

如果 pandas 將每個(gè)變量對(duì)自己作圖，主對(duì)角線(xiàn)（左上到右下）都會(huì)是直線(xiàn)圖。所以 Pandas 展示的是每個(gè)屬性的柱狀圖（也可以是其它的，請(qǐng)參考 Pandas 文檔）。

最有希望用來(lái)預(yù)測(cè)房?jī)r(jià)中位數(shù)的屬性是收入中位數(shù)，因此將這張圖放大（圖 2-16）：

housing.plot(kind="scatter", x="median_income",y="median_house_value", alpha=0.1)

圖 2-16 收入中位數(shù) vs 房?jī)r(jià)中位數(shù)

這張圖說(shuō)明了幾點(diǎn)。首先，相關(guān)性非常高；可以清晰地看到向上的趨勢(shì)，并且數(shù)據(jù)點(diǎn)不是非常分散。第二，我們之前看到的最高價(jià)，清晰地呈現(xiàn)為一條位于 $500000 的水平線(xiàn)。這張圖也呈現(xiàn)了一些不是那么明顯的直線(xiàn)：一條位于 $450000 的直線(xiàn)，一條位于 $350000 的直線(xiàn)，一條在 $280000 的線(xiàn)，和一些更靠下的線(xiàn)。你可能希望去除對(duì)應(yīng)的街區(qū)，以防止算法重復(fù)這些巧合。

屬性組合試驗(yàn)

希望前面的一節(jié)能教給你一些探索數(shù)據(jù)、發(fā)現(xiàn)規(guī)律的方法。你發(fā)現(xiàn)了一些數(shù)據(jù)的巧合，需要在給算法提供數(shù)據(jù)之前，將其去除。你還發(fā)現(xiàn)了一些屬性間有趣的關(guān)聯(lián)，特別是目標(biāo)屬性。你還注意到一些屬性具有長(zhǎng)尾分布，因此你可能要將其進(jìn)行轉(zhuǎn)換（例如，計(jì)算其log對(duì)數(shù)）。當(dāng)然，不同項(xiàng)目的處理方法各不相同，但大體思路是相似的。

給算法準(zhǔn)備數(shù)據(jù)之前，你需要做的最后一件事是嘗試多種屬性組合。例如，如果你不知道某個(gè)街區(qū)有多少戶(hù)，該街區(qū)的總房間數(shù)就沒(méi)什么用。你真正需要的是每戶(hù)有幾個(gè)房間。相似的，總臥室數(shù)也不重要：你可能需要將其與房間數(shù)進(jìn)行比較。每戶(hù)的人口數(shù)也是一個(gè)有趣的屬性組合。讓我們來(lái)創(chuàng)建這些新的屬性：

housing["rooms_per_household"] = housing["total_rooms"]/housing["households"] housing["bedrooms_per_room"] = housing["total_bedrooms"]/housing["total_rooms"] housing["population_per_household"]=housing["population"]/housing["households"]

現(xiàn)在，再來(lái)看相關(guān)矩陣：

>>> corr_matrix = housing.corr() >>> corr_matrix["median_house_value"].sort_values(ascending=False) median_house_value 1.000000 median_income 0.687170 rooms_per_household 0.199343 total_rooms 0.135231 housing_median_age 0.114220 households 0.064702 total_bedrooms 0.047865 population_per_household -0.021984 population -0.026699 longitude -0.047279 latitude -0.142826 bedrooms_per_room -0.260070 Name: median_house_value, dtype: float64

看起來(lái)不錯(cuò)！與總房間數(shù)或臥室數(shù)相比，新的bedrooms_per_room屬性與房?jī)r(jià)中位數(shù)的關(guān)聯(lián)更強(qiáng)。顯然，臥室數(shù)/總房間數(shù)的比例越低，房?jī)r(jià)就越高。每戶(hù)的房間數(shù)也比街區(qū)的總房間數(shù)的更有信息，很明顯，房屋越大，房?jī)r(jià)就越高。

這一步的數(shù)據(jù)探索不必非常完備，此處的目的是有一個(gè)正確的開(kāi)始，快速發(fā)現(xiàn)規(guī)律，以得到一個(gè)合理的原型。但是這是一個(gè)交互過(guò)程：一旦你得到了一個(gè)原型，并運(yùn)行起來(lái)，你就可以分析它的輸出，進(jìn)而發(fā)現(xiàn)更多的規(guī)律，然后再回到數(shù)據(jù)探索這步。

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

機(jī)器學(xué)習(xí)

機(jī)器學(xué)習(xí)

+關(guān)注

關(guān)注
66

文章
8503

瀏覽量
134628
數(shù)據(jù)可視化

數(shù)據(jù)可視化

+關(guān)注

關(guān)注
0

文章
476

瀏覽量
10804

原文標(biāo)題：【翻譯】Sklearn 與 TensorFlow 機(jī)器學(xué)習(xí)實(shí)用指南 —— 第2章一個(gè)完整的機(jī)器學(xué)習(xí)項(xiàng)目（中）

文章出處：【微信號(hào)：AI_shequ，微信公眾號(hào)：人工智能愛(ài)好者社區(qū)】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛兴趣闲谈,欧美亚洲精品 8区,国产精品久久久久精品免费

搜索歷史

一個(gè)完整的機(jī)器學(xué)習(xí)項(xiàng)目

評(píng)論