日本波霸巨爆乳无码视频二区 ,偷人精品免费视频

寫在前面：去年學習GBDT之初，為了加強對算法的理解，整理了一篇筆記形式的文章，發(fā)出去之后發(fā)現(xiàn)閱讀量越來越多，漸漸也有了評論，評論中大多指出來了筆者理解或者編輯的錯誤，故重新編輯一版文章，內容更加翔實，并且在GitHub上實現(xiàn)了和本文一致的GBDT簡易版（包括回歸、二分類、多分類以及可視化），供大家交流探討。感謝各位的點贊和評論，希望繼續(xù)指出錯誤~Github：

簡介：

GBDT 的全稱是 Gradient Boosting Decision Tree，梯度提升樹，在傳統(tǒng)機器學習算法中，GBDT算的上TOP3的算法。想要理解GBDT的真正意義，那就必須理解GBDT中的Gradient Boosting 和Decision Tree分別是什么？

1. Decision Tree：CART回歸樹

首先，GBDT使用的決策樹是CART回歸樹，無論是處理回歸問題還是二分類以及多分類，GBDT使用的決策樹通通都是都是CART回歸樹。為什么不用CART分類樹呢？因為GBDT每次迭代要擬合的是梯度值，是連續(xù)值所以要用回歸樹。

對于回歸樹算法來說最重要的是尋找最佳的劃分點，那么回歸樹中的可劃分點包含了所有特征的所有可取的值。在分類樹中最佳劃分點的判別標準是熵或者基尼系數(shù)，都是用純度來衡量的，但是在回歸樹中的樣本標簽是連續(xù)數(shù)值，所以再使用熵之類的指標不再合適，取而代之的是平方誤差，它能很好的評判擬合程度。

回歸樹生成算法：

輸入：訓練數(shù)據(jù)集D:輸出：回歸樹f(x).在訓練數(shù)據(jù)集所在的輸入空間中，遞歸的將每個區(qū)域劃分為兩個子區(qū)域并決定每個子區(qū)域上的輸出值，構建二叉決策樹：（1）選擇最優(yōu)切分變量jj與切分點s，求解

GBDT算法原理以及實例理解

遍歷變量j，對固定的切分變量j掃描切分點s，選擇使得上式達到最小值的對(j,s).

（2）用選定的對(j,s)劃分區(qū)域并決定相應的輸出值：

GBDT算法原理以及實例理解

（3）繼續(xù)對兩個子區(qū)域調用步驟（1）和（2），直至滿足停止條件。

（4）將輸入空間劃分為M個區(qū)域，生成決策樹：

GBDT算法原理以及實例理解

2. Gradient Boosting：擬合負梯度

梯度提升樹（Grandient Boosting）是提升樹（Boosting Tree）的一種改進算法，所以在講梯度提升樹之前先來說一下提升樹。

先來個通俗理解：假如有個人30歲，我們首先用20歲去擬合，發(fā)現(xiàn)損失有10歲，這時我們用6歲去擬合剩下的損失，發(fā)現(xiàn)差距還有4歲，第三輪我們用3歲擬合剩下的差距，差距就只有一歲了。如果我們的迭代輪數(shù)還沒有完，可以繼續(xù)迭代下面，每一輪迭代，擬合的歲數(shù)誤差都會減小。最后將每次擬合的歲數(shù)加起來便是模型輸出的結果。

提升樹算法：

（1）初始化

（2）對m=1,2,…,M?（a）計算殘差

（b）擬合殘差學習一個回歸樹，得到

（c）更新

（3）得到回歸問題提升樹

GBDT算法原理以及實例理解

上面?zhèn)未a中的殘差是什么？在提升樹算法中，假設我們前一輪迭代得到的強學習器是

GBDT算法原理以及實例理解

損失函數(shù)是

GBDT算法原理以及實例理解

我們本輪迭代的目標是找到一個弱學習器

GBDT算法原理以及實例理解

最小化本輪的損失

GBDT算法原理以及實例理解

當采用平方損失函數(shù)時

GBDT算法原理以及實例理解

這里，

GBDT算法原理以及實例理解

是當前模型擬合數(shù)據(jù)的殘差（residual）。所以，對于提升樹來說只需要簡單地擬合當前模型的殘差。??回到我們上面講的那個通俗易懂的例子中，第一次迭代的殘差是10歲，第二次殘差4歲...

當損失函數(shù)是平方損失和指數(shù)損失函數(shù)時，梯度提升樹每一步優(yōu)化是很簡單的，但是對于一般損失函數(shù)而言，往往每一步優(yōu)化起來不那么容易，針對這一問題，F(xiàn)reidman提出了梯度提升樹算法，這是利用最速下降的近似方法，其關鍵是利用損失函數(shù)的負梯度作為提升樹算法中的殘差的近似值。那么負梯度長什么樣呢？第t輪的第i個樣本的損失函數(shù)的負梯度為：

GBDT算法原理以及實例理解

此時不同的損失函數(shù)將會得到不同的負梯度，如果選擇平方損失

GBDT算法原理以及實例理解

負梯度為

GBDT算法原理以及實例理解

此時我們發(fā)現(xiàn)GBDT的負梯度就是殘差，所以說對于回歸問題，我們要擬合的就是殘差。??那么對于分類問題呢？二分類和多分類的損失函數(shù)都是log loss，本文以回歸問題為例進行講解。

3. GBDT算法原理

上面兩節(jié)分別將Decision Tree和Gradient Boosting介紹完了，下面將這兩部分組合在一起就是我們的GBDT了。

GBDT算法：（1）初始化弱學習器

GBDT算法原理以及實例理解

（2）對m=1,2,…,M有：

（a）對每個樣本i=1,2,…,N，計算負梯度，即殘差

GBDT算法原理以及實例理解

（b）將上步得到的殘差作為樣本新的真實值，并將數(shù)據(jù)作為下棵樹的訓練數(shù)據(jù)，得到一顆新的回歸樹，其對應的葉子節(jié)點區(qū)域為，。其中J為回歸樹t的葉子節(jié)點的個數(shù)。

（c）對葉子區(qū)域j =1,2,..J計算最佳擬合值

GBDT算法原理以及實例理解

（d）更新強學習器

GBDT算法原理以及實例理解

（3）得到最終學習器

GBDT算法原理以及實例理解

4. 實例詳解

==本人用python以及pandas庫實現(xiàn)GBDT的簡易版本，在下面的例子中用到的數(shù)據(jù)都在github可以找到，大家可以結合代碼和下面的例子進行理解，歡迎star~==??Github：https://github.com/Freemanzxp/GBDT_Simple_Tutorial

數(shù)據(jù)介紹：

如下表所示：一組數(shù)據(jù)，特征為年齡、體重，身高為標簽值。共有5條數(shù)據(jù)，前四條為訓練樣本，最后一條為要預測的樣本。

GBDT算法原理以及實例理解

訓練階段：

參數(shù)設置：

學習率：learning_rate=0.1

迭代次數(shù)：n_trees=5

樹的深度：max_depth=3

1.初始化弱學習器:

GBDT算法原理以及實例理解

損失函數(shù)為平方損失，因為平方損失函數(shù)是一個凸函數(shù)，直接求導，倒數(shù)等于零，得到c。

GBDT算法原理以及實例理解

令導數(shù)等于0

GBDT算法原理以及實例理解

所以初始化時，c取值為所有訓練樣本標簽值的均值。c=(1.1+1.3+1.7+1.8)/4=1.475，此時得到初始學習器

GBDT算法原理以及實例理解

2.對迭代輪數(shù)m=1，2,…,M:??由于我們設置了迭代次數(shù)：n_trees=5，這里的M=5。??計算負梯度，根據(jù)上文損失函數(shù)為平方損失時，負梯度就是殘差殘差，再直白一點就是y與上一輪得到的學習器的差值

GBDT算法原理以及實例理解

殘差在下表列出：

GBDT算法原理以及實例理解

此時將殘差作為樣本的真實值來訓練弱學習器，即下表數(shù)據(jù)：

GBDT算法原理以及實例理解

接著，尋找回歸樹的最佳劃分節(jié)點，遍歷每個特征的每個可能取值。從年齡特征的5開始，到體重特征的70結束，分別計算分裂后兩組數(shù)據(jù)的平方損失（Square Error），左節(jié)點平方損失，右節(jié)點平方損失，找到使平方損失和最小的那個劃分節(jié)點，即為最佳劃分節(jié)點。