午夜福利亚洲国产精品,清纯唯美经典一区二区

在格物匯之前發(fā)表的《工業(yè)大數(shù)據(jù)挖掘的利器——Spark MLlib》中提到，Spark 的MLlib組件能夠?qū)I(yè)現(xiàn)場海量數(shù)據(jù)進行高效挖掘，快速呈現(xiàn)結(jié)果給業(yè)務(wù)分析人員。接下來將向大家介紹SparkMLlib 中的GBDT算法，并將應(yīng)用該算法對工業(yè)數(shù)據(jù)進行代碼實戰(zhàn)。

1算法概念

GB（Gradient Boosting）梯度提升算法，GB 共需要進行M次迭代，通過采用梯度下降的方法，每次迭代向損失函數(shù)的負梯度方向進行移動，從而使損失函數(shù)越來越小，進而使模型越來越精確。算法偽代碼如下：

SparkMLlib中的GBDT算法對工業(yè)數(shù)據(jù)的代碼實戰(zhàn)

GB算法跟原始的Boosting算法相比較，還是有比較明顯的區(qū)別。

Boosting算法開始的時候，是會給每個樣本附上權(quán)重的，在每次迭代的時候就會增加錯的樣本的權(quán)重，減少對的樣本的權(quán)重，經(jīng)過N次迭代之后，會得到N個分類器，然后我們再將他們組合起來，得到最終模型。

GB算法與Boosting區(qū)別是，他的每一次迭代的目標都是減少上一次的殘差，所以在殘差減少的方向上建立一個新的模型。在GB算法框架上加入決策樹，就是GBDT（GradientBoost Decision Tree）算法。

GBDT主要的優(yōu)點有：

1) 可以靈活處理各種類型的數(shù)據(jù)，包括連續(xù)值和離散值。

2) 在相對少的調(diào)參時間情況下，預(yù)測的準備率也可以比較高。這個是相對SVM來說的。

3)使用一些健壯的損失函數(shù)，對異常值的魯棒性非常強。比如 Huber損失函數(shù)和Quantile損失函數(shù)。

4) 很好的利用了弱分類器進行級聯(lián)。

5) 充分考慮的每個分類器的權(quán)重。

6) 可以得到變量間的重要性排序。

GBDT的主要缺點有：

1）由于弱學(xué)習(xí)器之間存在依賴關(guān)系，難以并行訓(xùn)練數(shù)據(jù)，不過可以通過自采樣的SGBT來達到部分并行。

2完整代碼實例

工業(yè)生產(chǎn)中，產(chǎn)品在制程過程中會有很多特性值，如果能對產(chǎn)品的特性值及時進行預(yù)測，得到特性值的具體數(shù)值，那么就會幫組業(yè)務(wù)人員知曉產(chǎn)品的質(zhì)量，實現(xiàn)產(chǎn)品的全檢，并能防止異常產(chǎn)品后流，造成不必要的浪費。

本次實戰(zhàn)代碼的采用的數(shù)據(jù)是半導(dǎo)體制程中某一道工序的機臺的制程參數(shù)值，通過采用SparkMLlib中的GBDT算法對工業(yè)現(xiàn)場機臺的制程參數(shù)進行建模，預(yù)測出經(jīng)過該機臺生產(chǎn)之后產(chǎn)品的膜層厚度。

SparkMLlib中的GBDT算法對工業(yè)數(shù)據(jù)的代碼實戰(zhàn)

模型最后輸出模型性能指標如下：

Mape(Mean Absolute Percentage Error):0.23%

SparkMLlib中的GBDT算法對工業(yè)數(shù)據(jù)的代碼實戰(zhàn)

通過上圖模型輸出的預(yù)測值與實際值對比，發(fā)現(xiàn)預(yù)測出來的產(chǎn)品膜厚的數(shù)值走勢跟實際數(shù)值走勢基本符合，mape達到0.5%以內(nèi)，擬合度相當可觀，后續(xù)還可以通過樣本篩選以及特征工程等手段對該模型進行進一步調(diào)優(yōu)。

在模型達到業(yè)務(wù)需求的擬合度等指標后，通過該模型進行部署，實現(xiàn)產(chǎn)品的“實時全檢”，從而實現(xiàn)產(chǎn)品質(zhì)量的全面監(jiān)控，杜絕異常產(chǎn)品后流；與工廠內(nèi)的抽檢系統(tǒng)結(jié)合后，降低產(chǎn)品的抽檢率，提高工廠的效率。

GBDT算法的用途還是比較廣泛的，它不僅可以處理分類問題，能對線性與非線性回歸問題進行處理，還能通過輸出變量間重要因子排序，方便業(yè)務(wù)人員快速定位異常變量。在工業(yè)現(xiàn)場的頑固異常分析還是產(chǎn)品特性預(yù)測等領(lǐng)域，GBDT算法確實是很值得數(shù)據(jù)分析人員考慮的一種算法。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

算法

算法

+關(guān)注

關(guān)注
23

文章
4761

瀏覽量
97165
大數(shù)據(jù)

大數(shù)據(jù)

+關(guān)注

關(guān)注
64

文章
9030

瀏覽量
143084

原文標題：一文快速讀懂自動駕駛傳感器與其市場趨勢

文章出處：【微信號：electronicaChina，微信公眾號：e星球】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛兴趣闲谈,欧美亚洲精品 8区,国产精品久久久久精品免费

搜索歷史

SparkMLlib中的GBDT算法對工業(yè)數(shù)據(jù)的代碼實戰(zhàn)

評論