chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

SparkMLlib GBDT算法工業(yè)大數(shù)據(jù)實(shí)戰(zhàn)

格創(chuàng)東智 ? 2019-04-28 14:11 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

在格物匯之前發(fā)表的《工業(yè)大數(shù)據(jù)挖掘的利器——Spark MLlib》中提到,Spark 的MLlib組件能夠?qū)I(yè)現(xiàn)場(chǎng)海量數(shù)據(jù)進(jìn)行高效挖掘,快速呈現(xiàn)結(jié)果給業(yè)務(wù)分析人員。接下來(lái)將向大家介紹SparkMLlib 中的GBDT算法,并將應(yīng)用該算法對(duì)工業(yè)數(shù)據(jù)進(jìn)行代碼實(shí)戰(zhàn)。

1算法概念

GB(Gradient Boosting)梯度提升算法,GB 共需要進(jìn)行M次迭代,通過(guò)采用梯度下降的方法,每次迭代向損失函數(shù)的負(fù)梯度方向進(jìn)行移動(dòng),從而使損失函數(shù)越來(lái)越小,進(jìn)而使模型越來(lái)越精確。算法偽代碼如下:


圖片 1.png


GB算法跟原始的Boosting算法相比較,還是有比較明顯的區(qū)別。


Boosting算法開(kāi)始的時(shí)候,是會(huì)給每個(gè)樣本附上權(quán)重的,在每次迭代的時(shí)候就會(huì)增加錯(cuò)的樣本的權(quán)重,減少對(duì)的樣本的權(quán)重,經(jīng)過(guò)N次迭代之后,會(huì)得到N個(gè)分類(lèi)器,然后我們?cè)賹⑺麄兘M合起來(lái),得到最終模型。


GB算法與Boosting區(qū)別是,他的每一次迭代的目標(biāo)都是減少上一次的殘差,所以在殘差減少的方向上建立一個(gè)新的模型。在GB算法框架上加入決策樹(shù),就是GBDT(GradientBoost Decision Tree)算法。

GBDT主要的優(yōu)點(diǎn)有:

1) 可以靈活處理各種類(lèi)型的數(shù)據(jù),包括連續(xù)值和離散值。

2) 在相對(duì)少的調(diào)參時(shí)間情況下,預(yù)測(cè)的準(zhǔn)備率也可以比較高。這個(gè)是相對(duì)SVM來(lái)說(shuō)的。

3)使用一些健壯的損失函數(shù),對(duì)異常值的魯棒性非常強(qiáng)。比如 Huber損失函數(shù)和Quantile損失函數(shù)。

4) 很好的利用了弱分類(lèi)器進(jìn)行級(jí)聯(lián)。

5) 充分考慮的每個(gè)分類(lèi)器的權(quán)重。

6) 可以得到變量間的重要性排序。


GBDT的主要缺點(diǎn)有:

1)由于弱學(xué)習(xí)器之間存在依賴(lài)關(guān)系,難以并行訓(xùn)練數(shù)據(jù),不過(guò)可以通過(guò)自采樣的SGBT來(lái)達(dá)到部分并行。

1完整代碼實(shí)例

工業(yè)生產(chǎn)中,產(chǎn)品在制程過(guò)程中會(huì)有很多特性值,如果能對(duì)產(chǎn)品的特性值及時(shí)進(jìn)行預(yù)測(cè),得到特性值的具體數(shù)值,那么就會(huì)幫組業(yè)務(wù)人員知曉產(chǎn)品的質(zhì)量,實(shí)現(xiàn)產(chǎn)品的全檢,并能防止異常產(chǎn)品后流,造成不必要的浪費(fèi)。


本次實(shí)戰(zhàn)代碼的采用的數(shù)據(jù)是半導(dǎo)體制程中某一道工序的機(jī)臺(tái)的制程參數(shù)值,通過(guò)采用SparkMLlib中的GBDT算法對(duì)工業(yè)現(xiàn)場(chǎng)機(jī)臺(tái)的制程參數(shù)進(jìn)行建模,預(yù)測(cè)出經(jīng)過(guò)該機(jī)臺(tái)生產(chǎn)之后產(chǎn)品的膜層厚度。

packageSparkML

importcommon.Logger
importorg.apache.spark.ml.Pipeline
importorg.apache.spark.ml.evaluation.{BinaryClassificationEvaluator,RegressionEvaluator}
importorg.apache.spark.ml.feature.VectorAssembler
importorg.apache.spark.ml.regression.GBTRegressor
importorg.apache.spark.ml.tuning.{CrossValidator,ParamGridBuilder}
importorg.apache.spark.sql.{Row,SparkSession}
importscala.collection.mutable.ArrayBuffer
/**
* Created by huanghuan01 on 2019/3/27.
*/
objectgbdtDemoextendsLogger{

defmain(args: Array[String]):Unit= {
valspark= SparkSession
.builder()
.enableHiveSupport()
.master(
"local[4]")
.appName(
"gbdtDemo")
.getOrCreate()

spark.sparkContext.setLogLevel(
"WARN")

varrawData= spark.read.format("csv")
.option(
"header","true")
.load(
"E:\\sampleData.csv")

valfieldNames= rawData.schema.map(f=>s"${f.name}").toArray

valcastBuffer:ArrayBuffer[String] = ArrayBuffer()
for(i<-0until fieldNames.length){
valcast_str="cast("+ fieldNames(i) +" as double) as "+ fieldNames(i)
castBuffer.append(cast_str)
}
valcastArr= castBuffer.toArray
valinputData = rawData.selectExpr(castArr:_*)
valfeatureFieldNames= fieldNames.filter(!_.contains("label"))

valfeatureIndexer=newVectorAssembler()
.setInputCols(featureFieldNames)
.setOutputCol(
"featureIndexer")


valgbt=newGBTRegressor()
.setLabelCol(
"label")
.setFeaturesCol(
"featureIndexer")


valArray(trainingData,testData) =inputData.randomSplit(Array(0.8,0.2))

valpipline =newPipeline()
.setStages(Array(featureIndexer
,gbt))

valparamGrid =newParamGridBuilder()

.addGrid(gbt.maxIter,Array(30,50,100,200))

.addGrid(gbt.maxDepth,Array(3,7,9))

.addGrid(gbt.stepSize,Array(0.01,0.05,0.1))

.build()

valcv =newCrossValidator()
.setEstimator(pipline)
.setEvaluator(
newRegressionEvaluator())
.setNumFolds(
5)
.setEstimatorParamMaps(paramGrid)
valmodel =cv.fit(trainingData)

valpredictions =model.transform(testData)

predictions.select(
"label","prediction").show(100,false)

valevaluator =newRegressionEvaluator()
.setLabelCol(
"label")
.setPredictionCol(
"prediction")
.setMetricName(
"mae")

val mae = evaluator.evaluate

(predictions)
log.warn(s"The mae is : ${mae}")


val predictionAndLabels =

predictions

.select("prediction",

"label")

.rdd

.map { case Row(prediction:

Double, label: Double) =>

(prediction, label) }

val mape = math.abs

(predictionAndLabels.map

{ x => math.abs((x._1 - x._2) /

x._1) }.mean())

log.warn(s"The mape is :

${mape}")

val pipLine = model.bestModel.

asInstanceOf[org.apache.spark.

ml.PipelineModel]

}
}


模型最后輸出模型性能指標(biāo)如下:

Mape(Mean Absolute Percentage Error):0.23%

圖片 2.png


通過(guò)上圖模型輸出的預(yù)測(cè)值與實(shí)際值對(duì)比,發(fā)現(xiàn)預(yù)測(cè)出來(lái)的產(chǎn)品膜厚的數(shù)值走勢(shì)跟實(shí)際數(shù)值走勢(shì)基本符合,mape達(dá)到0.5%以?xún)?nèi),擬合度相當(dāng)可觀,后續(xù)還可以通過(guò)樣本篩選以及特征工程等手段對(duì)該模型進(jìn)行進(jìn)一步調(diào)優(yōu)。


在模型達(dá)到業(yè)務(wù)需求的擬合度等指標(biāo)后,通過(guò)該模型進(jìn)行部署,實(shí)現(xiàn)產(chǎn)品的“實(shí)時(shí)全檢”,從而實(shí)現(xiàn)產(chǎn)品質(zhì)量的全面監(jiān)控,杜絕異常產(chǎn)品后流;與工廠內(nèi)的抽檢系統(tǒng)結(jié)合后,降低產(chǎn)品的抽檢率,提高工廠的效率。


GBDT算法的用途還是比較廣泛的,它不僅可以處理分類(lèi)問(wèn)題,能對(duì)線性與非線性回歸問(wèn)題進(jìn)行處理,還能通過(guò)輸出變量間重要因子排序,方便業(yè)務(wù)人員快速定位異常變量。在工業(yè)現(xiàn)場(chǎng)的頑固異常分析還是產(chǎn)品特性預(yù)測(cè)等領(lǐng)域,GBDT算法確實(shí)是很值得數(shù)據(jù)分析人員考慮的一種算法。

本文作者:

格創(chuàng)東智大數(shù)據(jù)工程師黃歡(轉(zhuǎn)載請(qǐng)注明作者及來(lái)源)

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 算法
    +關(guān)注

    關(guān)注

    23

    文章

    4739

    瀏覽量

    96718
  • 智能制造
    +關(guān)注

    關(guān)注

    48

    文章

    6040

    瀏覽量

    79010
  • 工業(yè)互聯(lián)網(wǎng)

    關(guān)注

    28

    文章

    4376

    瀏覽量

    95761
  • SPARK
    +關(guān)注

    關(guān)注

    1

    文章

    106

    瀏覽量

    20939
  • 工業(yè)大數(shù)據(jù)

    關(guān)注

    0

    文章

    72

    瀏覽量

    8125
  • GBDT
    +關(guān)注

    關(guān)注

    0

    文章

    13

    瀏覽量

    4148
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    工業(yè)大舵機(jī)和普通舵機(jī)的區(qū)別?

    ,支持閉環(huán)控制和誤差修正,適用于精密機(jī)械臂、醫(yī)療設(shè)備等場(chǎng)景。 普通舵機(jī) :精度通常在 ±1°-±2°,依賴(lài)簡(jiǎn)單電位器反饋,無(wú)復(fù)雜誤差校正算法,僅能滿(mǎn)足航模、玩具等基礎(chǔ)定位需求。 負(fù)載能力 工業(yè)大舵機(jī) :扭力范圍 10kg.cm-120kg.cm,采用金屬
    的頭像 發(fā)表于 09-25 10:41 ?293次閱讀

    【深圳站圓滿(mǎn)收官】開(kāi)發(fā)者線下實(shí)戰(zhàn),睿擎工業(yè)平臺(tái)Workshop精彩回顧!|新聞速遞

    9月18日,睿擎工業(yè)平臺(tái)深度實(shí)戰(zhàn)Workshop深圳站圓滿(mǎn)收官!本次Workshop延續(xù)了上海站的技術(shù)深度與實(shí)戰(zhàn)精神,吸引了華南地區(qū)數(shù)十家企業(yè)的工業(yè)控制、嵌入式開(kāi)發(fā)領(lǐng)域的工程師與技術(shù)負(fù)
    的頭像 發(fā)表于 09-23 20:19 ?270次閱讀
    【深圳站圓滿(mǎn)收官】開(kāi)發(fā)者線下<b class='flag-5'>實(shí)戰(zhàn)</b>,睿擎<b class='flag-5'>工業(yè)</b>平臺(tái)Workshop精彩回顧!|新聞速遞

    深圳站報(bào)名火熱進(jìn)行中!睿擎工業(yè)平臺(tái)線下實(shí)戰(zhàn) Workshop,親手實(shí)戰(zhàn)4小時(shí)解鎖工業(yè)級(jí)開(kāi)發(fā)!|活動(dòng)預(yù)告

    想一站式實(shí)戰(zhàn)QT圖形開(kāi)發(fā)、EtherCAT通信、RPMSG多核交互?睿擎工業(yè)平臺(tái)深度實(shí)戰(zhàn)Workshop深圳站報(bào)名火熱進(jìn)行中!這是一場(chǎng)專(zhuān)為工業(yè)開(kāi)發(fā)者打造的沉浸式
    的頭像 發(fā)表于 09-14 10:04 ?877次閱讀
    深圳站報(bào)名火熱進(jìn)行中!睿擎<b class='flag-5'>工業(yè)</b>平臺(tái)線下<b class='flag-5'>實(shí)戰(zhàn)</b> Workshop,親手<b class='flag-5'>實(shí)戰(zhàn)</b>4小時(shí)解鎖<b class='flag-5'>工業(yè)</b>級(jí)開(kāi)發(fā)!|活動(dòng)預(yù)告

    御控工業(yè)物聯(lián)網(wǎng)大數(shù)據(jù)解決方案:排水設(shè)備遠(yuǎn)程監(jiān)控與大數(shù)據(jù)統(tǒng)計(jì)系統(tǒng)

    御控工業(yè)物聯(lián)網(wǎng)推出排水設(shè)備遠(yuǎn)程監(jiān)控與大數(shù)據(jù)統(tǒng)計(jì)系統(tǒng),通過(guò)物聯(lián)網(wǎng)、大數(shù)據(jù)、云計(jì)算等技術(shù)構(gòu)建“感知-傳輸-分析-決策”閉環(huán)管理體系,助力排水行業(yè)數(shù)字化轉(zhuǎn)型。
    的頭像 發(fā)表于 09-12 10:04 ?353次閱讀

    最后召集!明日睿擎工業(yè)平臺(tái)Workshop上海站開(kāi)啟!現(xiàn)場(chǎng)體驗(yàn)工業(yè)設(shè)備實(shí)戰(zhàn)開(kāi)發(fā),最終席位即將關(guān)閉!

    明天(9月4日)下午1點(diǎn),睿擎工業(yè)平臺(tái)深度實(shí)戰(zhàn)Workshop上海站將準(zhǔn)時(shí)開(kāi)啟!所有技術(shù)設(shè)備已調(diào)試完畢,開(kāi)發(fā)套件、全套資料均已就位,僅剩最后少量席位,報(bào)名通道將于今日24:00正式關(guān)閉。并非所有
    的頭像 發(fā)表于 09-03 14:47 ?533次閱讀
    最后召集!明日睿擎<b class='flag-5'>工業(yè)</b>平臺(tái)Workshop上海站開(kāi)啟!現(xiàn)場(chǎng)體驗(yàn)<b class='flag-5'>工業(yè)</b>設(shè)備<b class='flag-5'>實(shí)戰(zhàn)</b>開(kāi)發(fā),最終席位即將關(guān)閉!

    工業(yè)大模型利用全流程數(shù)據(jù)采集推動(dòng)顯示行業(yè)生產(chǎn)制造升級(jí)

    ? 顯示產(chǎn)業(yè)作為電子信息產(chǎn)業(yè)的核心支柱,其技術(shù)迭代速度快、生產(chǎn)工藝復(fù)雜、質(zhì)量要求嚴(yán)苛,對(duì)制造升級(jí)的需求尤為迫切。工業(yè)大模型的出現(xiàn),為顯示生產(chǎn)制造升級(jí)提供了全新的技術(shù)路徑。依托顯示生產(chǎn)全流程數(shù)據(jù)的深度
    的頭像 發(fā)表于 07-28 10:37 ?278次閱讀

    歐菲光榮獲第七屆“深圳工業(yè)大獎(jiǎng)” 深圳工業(yè)界最高榮譽(yù)

    近日,第七屆“深圳工業(yè)大獎(jiǎng)”名單公示,經(jīng)深圳工業(yè)大獎(jiǎng)獨(dú)立評(píng)審團(tuán)成員認(rèn)真審議、記名投票,分別評(píng)選產(chǎn)生第七屆“深圳工業(yè)大獎(jiǎng)”企業(yè)10家、工業(yè)家10位、項(xiàng)目10個(gè)。其中,歐菲光集團(tuán)股份有限公
    的頭像 發(fā)表于 07-15 18:07 ?844次閱讀

    工業(yè)大數(shù)據(jù)管理平臺(tái)是什么?有什么功能?

    PLC跨網(wǎng)段通信網(wǎng)關(guān)是一種用于解決工業(yè)自動(dòng)化領(lǐng)域中不同網(wǎng)絡(luò)段內(nèi)PLC(可編程邏輯控制器)設(shè)備通信問(wèn)題的關(guān)鍵設(shè)備,其核心作用是實(shí)現(xiàn)不同網(wǎng)絡(luò)協(xié)議、IP網(wǎng)段之間的數(shù)據(jù)交互與信息傳輸,下面從多個(gè)方面詳細(xì)介紹
    的頭像 發(fā)表于 06-13 15:43 ?275次閱讀

    邊緣計(jì)算 + 工控一體機(jī):如何實(shí)現(xiàn)工業(yè)數(shù)據(jù)實(shí)時(shí)處理與本地化決策?

    工業(yè) 4.0 和智能制造蓬勃發(fā)展的時(shí)代,工業(yè)數(shù)據(jù)的高效處理與決策的及時(shí)性成為提升企業(yè)競(jìng)爭(zhēng)力的關(guān)鍵因素。邊緣計(jì)算與工控一體機(jī)的結(jié)合,為實(shí)現(xiàn)工業(yè)數(shù)據(jù)實(shí)
    的頭像 發(fā)表于 06-07 15:03 ?453次閱讀
    邊緣計(jì)算 + 工控一體機(jī):如何實(shí)現(xiàn)<b class='flag-5'>工業(yè)</b><b class='flag-5'>數(shù)據(jù)實(shí)</b>時(shí)處理與本地化決策?

    京東工業(yè)大模型Joy industrial重磅發(fā)布

    京東工業(yè)多年深耕工業(yè)數(shù)智供應(yīng)鏈領(lǐng)域形成的經(jīng)驗(yàn)積累和數(shù)據(jù)沉淀,通過(guò)“工業(yè)大模型+供應(yīng)鏈場(chǎng)景應(yīng)用”雙引擎,構(gòu)建從底層算力、算法
    的頭像 發(fā)表于 05-28 17:12 ?670次閱讀

    工業(yè)現(xiàn)場(chǎng)數(shù)據(jù)實(shí)時(shí)采集:解鎖工業(yè)智能化轉(zhuǎn)型的關(guān)鍵

    在當(dāng)今工業(yè)智能化轉(zhuǎn)型的浪潮中,工業(yè)現(xiàn)場(chǎng)數(shù)據(jù)實(shí)時(shí)采集的重要性不言而喻。它猶如企業(yè)運(yùn)營(yíng)的 “慧眼”,為企業(yè)帶來(lái)全方位的顯著價(jià)值。
    的頭像 發(fā)表于 01-20 13:24 ?692次閱讀
    <b class='flag-5'>工業(yè)</b>現(xiàn)場(chǎng)<b class='flag-5'>數(shù)據(jù)實(shí)</b>時(shí)采集:解鎖<b class='flag-5'>工業(yè)</b>智能化轉(zhuǎn)型的關(guān)鍵

    工程大數(shù)據(jù)平臺(tái)

    由于無(wú)人駕駛系統(tǒng)開(kāi)發(fā)需要長(zhǎng)期迭代優(yōu)化,其過(guò)程需要大量的路試數(shù)據(jù)支撐,經(jīng)緯恒潤(rùn)針對(duì)無(wú)人駕駛系統(tǒng)持續(xù)運(yùn)營(yíng)和持續(xù)迭代的需求,開(kāi)發(fā)并在云端部署了車(chē)路云工程大數(shù)據(jù)平臺(tái),依托5G網(wǎng)絡(luò),具有遠(yuǎn)程數(shù)據(jù)采集、壓縮、傳輸、解析、回放與
    的頭像 發(fā)表于 01-10 17:00 ?890次閱讀
    工程<b class='flag-5'>大數(shù)據(jù)</b>平臺(tái)

    西北工業(yè)大學(xué)OpenHarmony技術(shù)俱樂(lè)部正式揭牌成立

    11月15日,由OpenAtom OpenHarmony(以下簡(jiǎn)稱(chēng)“OpenHarmony”)項(xiàng)目群技術(shù)指導(dǎo)委員會(huì)與西北工業(yè)大學(xué)共同舉辦的“西北工業(yè)大學(xué)OpenHarmony技術(shù)俱樂(lè)部成立大會(huì)”在
    的頭像 發(fā)表于 11-19 18:04 ?1196次閱讀
    西北<b class='flag-5'>工業(yè)大</b>學(xué)OpenHarmony技術(shù)俱樂(lè)部正式揭牌成立

    智慧城市與大數(shù)據(jù)的關(guān)系

    智慧城市與大數(shù)據(jù)之間存在著密切的關(guān)系,這種關(guān)系體現(xiàn)在大數(shù)據(jù)對(duì)智慧城市建設(shè)的支撐和推動(dòng)作用,以及智慧城市產(chǎn)生的大量數(shù)據(jù)對(duì)大數(shù)據(jù)技術(shù)的應(yīng)用需求。 大數(shù)據(jù)
    的頭像 發(fā)表于 10-24 15:27 ?1625次閱讀

    大數(shù)據(jù)實(shí)時(shí)鏈路備戰(zhàn)——數(shù)據(jù)雙流高保真壓測(cè)

    作者:京東零售 京東零售 一、大數(shù)據(jù)雙流建設(shè) 1.1 數(shù)據(jù)雙流 大數(shù)據(jù)時(shí)代,越來(lái)越多的業(yè)務(wù)依賴(lài)實(shí)時(shí)數(shù)據(jù)用于決策,比如促銷(xiāo)調(diào)整,點(diǎn)擊率預(yù)估、廣告分傭等。為了保障業(yè)務(wù)的順利開(kāi)展,也為了保證
    的頭像 發(fā)表于 10-22 14:40 ?777次閱讀
    <b class='flag-5'>大數(shù)據(jù)實(shí)</b>時(shí)鏈路備戰(zhàn)——<b class='flag-5'>數(shù)據(jù)</b>雙流高保真壓測(cè)