“
伴隨著工業(yè)企業(yè)對數(shù)字化應(yīng)用需求的日益高漲,基于工業(yè)大數(shù)據(jù)建模,已成為行業(yè)內(nèi)的熱議話題。然而在這一過程中,人們常常過度強調(diào)數(shù)據(jù)算法,卻忽視業(yè)務(wù)相關(guān)的知識,這給工業(yè)模型的實用性和可靠性帶來了重重挑戰(zhàn)。
”
為什么工業(yè)大數(shù)據(jù)的數(shù)據(jù)建模如此重要?在建模過程中,企業(yè)首要考慮的因素有哪些?又該如何搭建一個符合自身實際需求的模型呢?
請看原寶鋼首席研究員、工業(yè)大數(shù)據(jù)資深專家郭朝輝博士,在2022(第十一屆)全球自動化和制造主題峰會上的演講。
郭朝暉演講內(nèi)容梗概
工業(yè)大數(shù)據(jù)建模:兩個靈魂拷問
Q1
為什么有了理論模型,還要數(shù)據(jù)建模?
任何一個理論模型都需要參數(shù),牛頓定律也不例外,更何況對于復(fù)雜的工業(yè)系統(tǒng),若干個子系統(tǒng)都需要各自的參數(shù)。但這些參數(shù)往往是吃不準,或者有很大誤差,或者沒法測量,在這個情況下,機理模型不是沒有,而是沒有用的條件。
工業(yè)中有大量知識,這些知識的特點是都可以用物理學原理推導(dǎo)出來。即使算不出來也沒關(guān)系,把它記錄下來下次就會有標準和依據(jù)。它也不是理論推導(dǎo)不出來,而是不方便推導(dǎo),在應(yīng)用過程中,直接用實際的結(jié)果來算就完事了。
Q2
很多工業(yè)關(guān)鍵知識都實現(xiàn)了標準化,
為什么還要建模?
標準往往都是固定的,所以應(yīng)對不穩(wěn)定的生產(chǎn)過程,標準是需要修改的。靜態(tài)的標準往往不成,我們需要用動態(tài)標準來以變應(yīng)變,這就需要用模型來幫助我們制定標準,所以模型其實也是有用的。
解決完這兩個問題,我們要知道標準從何而來。在工業(yè)大數(shù)據(jù)時代,有一種很好的辦法——歷史上這樣發(fā)生過,下次再出現(xiàn)問題,就讓計算機“跟著學”(NN、KNN、CBR)。我們不用把它想的太復(fù)雜,比如深度學習、神經(jīng)元等,在多數(shù)情況下都沒那么復(fù)雜。
然而,在數(shù)據(jù)不多的時候,能跟著誰去學呢?過去,對一臺設(shè)備的故障進行診斷,數(shù)據(jù)記住后,故障如果十年發(fā)生一次,再過10年設(shè)備就報廢了,有了數(shù)據(jù)也沒機會學。而工業(yè)互聯(lián)網(wǎng),可以把成千上萬臺類似的設(shè)備放在一起,發(fā)生一次故障就可以作為一個知識記下來,這也是工業(yè)大數(shù)據(jù)真正的意義所在。
常見的模型:基準選擇+矯正
至于如何提高模型精度,由于生產(chǎn)過程參數(shù)在不斷變化,“一竿進洞”往往很難達到,這就需要我們分步走,即首先跟著成功案例,選擇一個基準來學習,再根據(jù)差別進行補缺和調(diào)整,以獲得更高的精度。當然,現(xiàn)實中調(diào)整是需要數(shù)據(jù)來提供支持的。
比如說X測不到,但你知道變量Z,就可以根據(jù)它的變動來做調(diào)整。在工業(yè)大數(shù)據(jù)的背景下,數(shù)據(jù)條件也會越來越好,跟X接近的變量會越來越多,模型也會越來越好。然而,這個過程中也會產(chǎn)生新的問題。過去是Y=f(X,C),用了Z后真正的數(shù)據(jù)模型就是Y=H(Z,C),選不同的Z,H就會不一樣。所以工業(yè)過程由于缺少數(shù)據(jù),由于變量不同,數(shù)據(jù)模型的結(jié)果可能也完全不一樣。
現(xiàn)實數(shù)據(jù)模型和理論模型不一樣
那么,工業(yè)建模在數(shù)據(jù)不完整的情況下,如何選擇變量?我們需要明確一點,精度并不代表一切,應(yīng)用價值好才是最終目的。這看似不能接受,但哪怕是微積分在內(nèi)也是這樣。數(shù)據(jù)建模和機理模型往往是不一樣的,但是在一定的范圍內(nèi)有用就行了。
正確認識現(xiàn)實的模型:對錯與實用是兩碼事
當然,在工業(yè)大數(shù)據(jù)的基礎(chǔ)上,我們有機會在保障精度的同時追求真實性,這就是所謂的“第四范式”。但這個事情非常難,可能需要一二十年的功夫,因此多數(shù)企業(yè)在做選擇時要慎重。精度、正確性和它的應(yīng)用范圍,有可能是存在矛盾的,要根據(jù)實際的需求來決定。
理解實用的模型:精度與可靠性
實用模型的關(guān)鍵有三點:精度、應(yīng)用范圍,以及二者是否是可知和穩(wěn)定。眾所周知,工業(yè)領(lǐng)域?qū)τ诜€(wěn)定性的要求非常高,模型正確的時候能帶來好處,但錯誤的時候同樣會帶來壞處。人們常說的平均精度高,就是需要在過程穩(wěn)定的時候高,而穩(wěn)定可能占了99%的情況,但人們往往是在過程不穩(wěn)定的時候需要模型。
傳統(tǒng)模型往往只適合特殊情況,因此,如果精度不能持續(xù),精度再高都沒用。工業(yè)大數(shù)據(jù)之所以能適合于各種各樣的場景,是因為它能拿到對象方方面面的屬性,且提供了更多角度來識別場景,以便在具體場景下,也能做識別和精度調(diào)整。
此外,很多人對機器學習也有理解偏差。首先,機器學習并不意味著要做多么復(fù)雜的模型;另外,智能化時代的模型往往針對大系統(tǒng),而大系統(tǒng)的參數(shù)本身是不斷漂移的,如果沒有跟著漂移的機制,模型用幾天就慢慢不能用了,所以針對生產(chǎn)過程的模型,機器學習就是來應(yīng)對模型參數(shù)漂移的。
此外,只要是基于數(shù)據(jù)的定量模型,幾乎都會有誤差,當然有的邏輯模型可能沒有誤差,或者有的能知道有多大誤差等。因此,我們就要考慮誤差和應(yīng)用場景需求的匹配,這非常重要。
實用模型的背后:數(shù)據(jù)質(zhì)量是關(guān)鍵
模型使用的根本是高質(zhì)量的數(shù)據(jù)。當建立數(shù)學模型的時候,人們總希望它的穩(wěn)定度高,而現(xiàn)實中不穩(wěn)定是一種常態(tài),對同一對象,這個月和下個月建出的模型,它的數(shù)據(jù)參數(shù)會相差很遠。
有一個重要的原因是,我們建??倳谝粋€工作點,或者特定的場景附近,這樣做測量的時候,它的波動相當大的一部分,不是對象參數(shù)的波動,而是由于測量過程的干擾。測量精度決定了控制精度,測量誤差和實際波動,往往是處在一個數(shù)量級上的。
此外,在建模的時候,輸入誤差不可忽略,這就會導(dǎo)致“有偏估計”,即誤差最小的模型往往是錯的,因為輸入是錯的,誤差小是“錯錯得對”引發(fā)的。任何一種方程或是建模方法,只要你追求的是誤差最小,其實它都會偏離真實的問題。
因此,在模型精度不高時,首先應(yīng)該關(guān)注的不是算法,而是數(shù)據(jù)質(zhì)量。寶鋼信息技術(shù)的奠基人何麟生先生曾提過“數(shù)據(jù)不落地”,即為了保證數(shù)據(jù)的真實性,數(shù)據(jù)的產(chǎn)生和存儲過程不經(jīng)過人。因為很多數(shù)據(jù),不是為了建模而產(chǎn)生的,它的質(zhì)量往往不能達到要求。這涉及到了數(shù)據(jù)采集過程的標準化,只有解決數(shù)據(jù)的質(zhì)量問題,才能把數(shù)據(jù)建模做好。
工業(yè)大數(shù)據(jù)的意義在于促進智能化
除此之外,數(shù)據(jù)建模的基本條件,是要讓數(shù)據(jù)的因果關(guān)系能對應(yīng)得上。這聽起來簡單,但做起來難。數(shù)據(jù)質(zhì)量不僅是數(shù)據(jù)精度的問題,更重要的是數(shù)據(jù)對應(yīng)關(guān)系,這與采樣頻度等因素息息相關(guān)。我們要知道,工業(yè)大數(shù)據(jù)并不等同于互聯(lián)網(wǎng)大數(shù)據(jù)。工業(yè)大數(shù)據(jù)數(shù)據(jù)“大”,并不能保證做的好,但是數(shù)據(jù)“大”能為提高數(shù)據(jù)質(zhì)量創(chuàng)造條件,并為后期數(shù)據(jù)建模、根因分析鋪平道路。
軟件角度看模型:關(guān)鍵還是可靠
現(xiàn)代工業(yè),尤其是自動化程度很高的行業(yè),執(zhí)行工藝都會讓計算機執(zhí)行,所以現(xiàn)代化工業(yè)知識和訣竅,也都寫在計算機里面。因此如果不懂計算機軟件,是把握不住工藝的細節(jié)的,學習知識就會面對“天花板”。
從工業(yè)軟件的角度認識“模型”
早在20多年前,當時本人建議寶鋼公司重視數(shù)學模型,領(lǐng)導(dǎo)也給予了充分重視。通過知識和數(shù)學模型計算的融合,寶鋼經(jīng)過10多年的努力,全部掌握了引進技術(shù),徹底解決了這類問題,中國鋼鐵行業(yè)再也不會被卡脖子了。
那么,工藝的數(shù)學模型是什么?舉個例子,工業(yè)生產(chǎn)的過程中,在各種事件和場景變化下,我們想要控制某個參數(shù),比如一個鋼胚的表面溫度,這和傳統(tǒng)控制的固定工作點做自動控制是不一樣的,需要計算和數(shù)學模型兩者間進行融合。
有一種計算機概念叫“自動機”,而工業(yè)界所說的數(shù)學模型,其實就是一種工業(yè)APP。要在工業(yè)場景不斷變化的過程中執(zhí)行任務(wù),完成控制靠自動化能力,而感知場景的不斷變化,則需要通過信息系統(tǒng),因此,信息系統(tǒng)和控制系統(tǒng)的集成至關(guān)重要。
現(xiàn)如今,模型開發(fā)80%的時間都會花在保障可靠性上,這也是難點所在。比如要考慮模型運行是否會出現(xiàn)意外、歧義和異常,處理異常的方法是否完備等,為了穩(wěn)定可靠性,模型的編程方式也會不一樣。
軟件開發(fā)追求的重點不是效率、新穎,而是穩(wěn)定
結(jié)語
我個人認為,軟件編程開發(fā)適合“有罪推定”原則,即如果你不能證明你的代碼是正確的,你就要拿回去重寫。因為現(xiàn)場無小事,無論是軟件開發(fā)還是建模的過程,開發(fā)效率高、模型精度高都是次要的,安全穩(wěn)定性才是最重要的,只有這個問題解決了,模型的實用性才能得到保障。
審核編輯 :李倩
-
建模
+關(guān)注
關(guān)注
1文章
319瀏覽量
62195 -
數(shù)字化
+關(guān)注
關(guān)注
8文章
9987瀏覽量
65641 -
工業(yè)大數(shù)據(jù)
+關(guān)注
關(guān)注
0文章
72瀏覽量
8125
原文標題:郭朝暉:回答工業(yè)大數(shù)據(jù)建模的兩個靈魂拷問
文章出處:【微信號:控制工程中文版,微信公眾號:控制工程中文版】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
一個硬件SPI兩個CS操作兩個norflash,怎么互斥操作兩個norflash?
工業(yè)大舵機和普通舵機的區(qū)別?
御控工業(yè)物聯(lián)網(wǎng)大數(shù)據(jù)解決方案:排水設(shè)備遠程監(jiān)控與大數(shù)據(jù)統(tǒng)計系統(tǒng)
基本半導(dǎo)體連獲兩個行業(yè)獎項
工業(yè)大模型利用全流程數(shù)據(jù)采集推動顯示行業(yè)生產(chǎn)制造升級
歐菲光榮獲第七屆“深圳工業(yè)大獎” 深圳工業(yè)界最高榮譽
請問一個藍牙芯片可以同時傳輸兩個不同的數(shù)據(jù)嗎?
工業(yè)大數(shù)據(jù)管理平臺是什么?有什么功能?
京東工業(yè)大模型Joy industrial重磅發(fā)布
兩個不同頻率晶振靠的近會怎樣

評論