資料介紹
機(jī)器學(xué)習(xí)模型的訓(xùn)練,通常是通過(guò)學(xué)習(xí)某一組輸入特征與輸出目標(biāo)之間的映射來(lái)進(jìn)行的。一般來(lái)說(shuō),對(duì)于映射的學(xué)習(xí)是通過(guò)優(yōu)化某些成本函數(shù),來(lái)使預(yù)測(cè)的誤差最小化。在訓(xùn)練出最佳模型之后,將其正式發(fā)布上線(xiàn),再根據(jù)未來(lái)生成的數(shù)據(jù)生成準(zhǔn)確的預(yù)測(cè)。這些新數(shù)據(jù)示例可能是用戶(hù)交互、應(yīng)用處理或其他軟件系統(tǒng)的請(qǐng)求生成的——這取決于模型需要解決的問(wèn)題。在理想情況下,我們會(huì)希望自己的模型在生產(chǎn)環(huán)境中進(jìn)行預(yù)測(cè)時(shí),能夠像使用訓(xùn)練過(guò)程中使用的數(shù)據(jù)一樣,準(zhǔn)確地預(yù)測(cè)未來(lái)情況。
當(dāng)我們將模型部署到生產(chǎn)中時(shí),往往會(huì)假設(shè)未來(lái)將使用到的數(shù)據(jù)會(huì)類(lèi)似于過(guò)去模型評(píng)估期間所使用的數(shù)據(jù)。具體來(lái)說(shuō),我們可能會(huì)假設(shè),特征和目標(biāo)的分布將保持相當(dāng)?shù)暮愣?。但是這種假設(shè)通常不成立。趨勢(shì)會(huì)隨著時(shí)間的推移而變化,人們的興趣會(huì)隨著季節(jié)的變化而變化,股票市場(chǎng)會(huì)起伏不定。因此,我們的模型必須適應(yīng)這些變化。
世界是持續(xù)變化的,因此模型部署應(yīng)視為一個(gè)連續(xù)的過(guò)程,而不是完成第一次部署之后就扭頭去開(kāi)展下一個(gè)項(xiàng)目。如果機(jī)器學(xué)習(xí)團(tuán)隊(duì)的工程師發(fā)現(xiàn)數(shù)據(jù)分布與原始訓(xùn)練集的數(shù)據(jù)分布有明顯出入,則需要重新訓(xùn)練模型。這個(gè)現(xiàn)象——通常被稱(chēng)為模型漂移(model drift)——可以緩解,但是會(huì)帶來(lái)額外的開(kāi)銷(xiāo),如監(jiān)視基礎(chǔ)設(shè)施、監(jiān)督和流程等等。
在本文中,筆者想對(duì)模型漂移下定義,并討論如何去識(shí)別和跟蹤模型漂移。然后,我將描述如何重新訓(xùn)練模型,來(lái)減輕漂移對(duì)預(yù)測(cè)性能的影響,并對(duì)應(yīng)多久重新訓(xùn)練一次模型做出建議。最后,我將介紹啟用模型重新訓(xùn)練的幾種方法。
機(jī)器學(xué)習(xí)模型的訓(xùn)練,通常是通過(guò)學(xué)習(xí)某一組輸入特征與輸出目標(biāo)之間的映射來(lái)進(jìn)行的。一般來(lái)說(shuō),對(duì)于映射的學(xué)習(xí)是通過(guò)優(yōu)化某些成本函數(shù),來(lái)使預(yù)測(cè)的誤差最小化。在訓(xùn)練出最佳模型之后,將其正式發(fā)布上線(xiàn),再根據(jù)未來(lái)生成的數(shù)據(jù)生成準(zhǔn)確的預(yù)測(cè)。這些新數(shù)據(jù)示例可能是用戶(hù)交互、應(yīng)用處理或其他軟件系統(tǒng)的請(qǐng)求生成的——這取決于模型需要解決的問(wèn)題。在理想情況下,我們會(huì)希望自己的模型在生產(chǎn)環(huán)境中進(jìn)行預(yù)測(cè)時(shí),能夠像使用訓(xùn)練過(guò)程中使用的數(shù)據(jù)一樣,準(zhǔn)確地預(yù)測(cè)未來(lái)情況。
當(dāng)我們將模型部署到生產(chǎn)中時(shí),往往會(huì)假設(shè)未來(lái)將使用到的數(shù)據(jù)會(huì)類(lèi)似于過(guò)去模型評(píng)估期間所使用的數(shù)據(jù)。具體來(lái)說(shuō),我們可能會(huì)假設(shè),特征和目標(biāo)的分布將保持相當(dāng)?shù)暮愣ā5沁@種假設(shè)通常不成立。趨勢(shì)會(huì)隨著時(shí)間的推移而變化,人們的興趣會(huì)隨著季節(jié)的變化而變化,股票市場(chǎng)會(huì)起伏不定。因此,我們的模型必須適應(yīng)這些變化。
世界是持續(xù)變化的,因此模型部署應(yīng)視為一個(gè)連續(xù)的過(guò)程,而不是完成第一次部署之后就扭頭去開(kāi)展下一個(gè)項(xiàng)目。如果機(jī)器學(xué)習(xí)團(tuán)隊(duì)的工程師發(fā)現(xiàn)數(shù)據(jù)分布與原始訓(xùn)練集的數(shù)據(jù)分布有明顯出入,則需要重新訓(xùn)練模型。這個(gè)現(xiàn)象——通常被稱(chēng)為模型漂移(model drift)——可以緩解,但是會(huì)帶來(lái)額外的開(kāi)銷(xiāo),如監(jiān)視基礎(chǔ)設(shè)施、監(jiān)督和流程等等。
在本文中,筆者想對(duì)模型漂移下定義,并討論如何去識(shí)別和跟蹤模型漂移。然后,我將描述如何重新訓(xùn)練模型,來(lái)減輕漂移對(duì)預(yù)測(cè)性能的影響,并對(duì)應(yīng)多久重新訓(xùn)練一次模型做出建議。最后,我將介紹啟用模型重新訓(xùn)練的幾種方法。
什么是模型漂移?
模型漂移是指,由于環(huán)境的變化違反了模型假設(shè),而導(dǎo)致模型的預(yù)測(cè)性能隨時(shí)間而降低。模型漂移有點(diǎn)用詞不當(dāng),因?yàn)樽兓牟皇悄P?,而是模型運(yùn)行的環(huán)境。因此,概念漂移(concept drift)一詞實(shí)際上可能是一個(gè)更好的用詞,不過(guò)兩個(gè)術(shù)語(yǔ)都描述了相同的現(xiàn)象。
請(qǐng)注意,筆者對(duì)模型漂移的定義實(shí)際上包括幾個(gè)可以更改的變量。預(yù)測(cè)性能將下降,它將在一段時(shí)間內(nèi)以某種速率下降,并且這種下降會(huì)歸因于違反建模假設(shè)的環(huán)境變化。在確定如何診斷ai服務(wù)器模型漂移以及如何通過(guò)模型再訓(xùn)練糾正模型漂移時(shí),應(yīng)考慮這些變量中的每一個(gè)。
如何跟蹤模型漂移?
目前業(yè)內(nèi)已有多種識(shí)別和跟蹤模型漂移的技術(shù)。在介紹這些技術(shù)之前,值得一提的是,并沒(méi)有一種萬(wàn)能的方法。不同的模型問(wèn)題需要不同的解決方案,您可能有、也可能沒(méi)有相應(yīng)的基礎(chǔ)架構(gòu)或資源來(lái)利用某些技術(shù)策略。
模型性能降級(jí)
識(shí)別模型漂移的最直接方法是明確預(yù)測(cè)性能是否已下降,同時(shí)量化這種下降。測(cè)量實(shí)時(shí)數(shù)據(jù)上已部署模型的準(zhǔn)確性是一個(gè)眾所周知的難題。之所以出現(xiàn)這種困難,部分原因是我們需要訪(fǎng)問(wèn)生成的模型的預(yù)測(cè)和基本事實(shí)信號(hào)。出于以下這些原因,這可能無(wú)法實(shí)現(xiàn):
·預(yù)測(cè)的數(shù)據(jù)在生成后沒(méi)有存儲(chǔ)——?jiǎng)e讓這種事發(fā)生在你身上。
·預(yù)測(cè)已存儲(chǔ),但是您無(wú)法訪(fǎng)問(wèn)基本事實(shí)標(biāo)簽。
·預(yù)測(cè)和標(biāo)簽均可用,但不能結(jié)合在一起。
即使預(yù)測(cè)和標(biāo)簽可以合并在一起,也可能需要一段時(shí)間才能使用標(biāo)簽。例如一個(gè)可以預(yù)測(cè)下一季度收入的財(cái)務(wù)預(yù)測(cè)模型。在這種情況下,只有在該季度過(guò)去之后才能觀(guān)察到實(shí)際收入,所以直到那個(gè)時(shí)候你才能夠量化模型的效果。在此類(lèi)預(yù)測(cè)問(wèn)題中, 回填預(yù)測(cè)(即訓(xùn)練模型,并根據(jù)過(guò)去的歷史數(shù)據(jù)生成預(yù)測(cè))可以幫助您了解模型性能下降的速度。
正如Josh Wills 指出的那樣,在部署模型之前您可以做的最重要的事情之一就是試圖了解離線(xiàn)環(huán)境中的模型漂移。數(shù)據(jù)科學(xué)家應(yīng)想辦法回答以下問(wèn)題:“如果我使用六個(gè)月前的浪潮ai服務(wù)器數(shù)據(jù)對(duì)這組特征進(jìn)行訓(xùn)練,并將其應(yīng)用于今天生成的數(shù)據(jù),那么這個(gè)模型比我一個(gè)月前未經(jīng)訓(xùn)練而創(chuàng)建并應(yīng)用到今天的模型差多少呢?”。離線(xiàn)執(zhí)行此分析,您可以估計(jì)模型性能下降的速度以及需要重新訓(xùn)練的頻率。當(dāng)然,這種方法的前提是要有一臺(tái)“時(shí)光機(jī)”來(lái)訪(fǎng)問(wèn)過(guò)去任何時(shí)候的實(shí)時(shí)數(shù)據(jù)。
- 精通機(jī)器學(xué)習(xí)之MATLAB分步實(shí)施指南 0次下載
- 基于終身機(jī)器學(xué)習(xí)的主題挖掘評(píng)分和評(píng)論推薦模型 42次下載
- 基于BERT的中文科技NLP預(yù)訓(xùn)練模型 14次下載
- 機(jī)器學(xué)習(xí)的訓(xùn)練樣本數(shù)據(jù)選擇方法綜述 8次下載
- 基于預(yù)訓(xùn)練模型和長(zhǎng)短期記憶網(wǎng)絡(luò)的深度學(xué)習(xí)模型 19次下載
- 一種可分享數(shù)據(jù)和機(jī)器學(xué)習(xí)模型的區(qū)塊鏈 15次下載
- 一種基于多任務(wù)聯(lián)合訓(xùn)練的閱讀理解模型 10次下載
- 188萬(wàn)中文詞庫(kù)包括了輸入法和機(jī)器學(xué)習(xí)與訓(xùn)練 6次下載
- 機(jī)器學(xué)習(xí)教程之線(xiàn)性模型的詳細(xì)資料說(shuō)明 0次下載
- 機(jī)器學(xué)習(xí)的模型評(píng)估與選擇詳細(xì)資料說(shuō)明 0次下載
- 機(jī)器視覺(jué)光學(xué)系統(tǒng)的介紹和選型指南詳細(xì)概述 2次下載
- 深度學(xué)習(xí)網(wǎng)絡(luò)訓(xùn)練技巧的詳細(xì)資料匯總 10次下載
- 機(jī)器學(xué)習(xí)教程之使用matlab研究機(jī)器學(xué)習(xí)的資料概述 32次下載
- 機(jī)器學(xué)習(xí)有哪十大算法?機(jī)器學(xué)習(xí)的十大算法詳細(xì)資料概述免費(fèi)下載 13次下載
- TI電子醫(yī)學(xué)應(yīng)用指南的詳細(xì)英文原版資料概述 0次下載
- 預(yù)訓(xùn)練和遷移學(xué)習(xí)的區(qū)別和聯(lián)系 1157次閱讀
- 如何理解機(jī)器學(xué)習(xí)中的訓(xùn)練集、驗(yàn)證集和測(cè)試集 4522次閱讀
- 預(yù)訓(xùn)練模型的基本原理和應(yīng)用 3035次閱讀
- 解讀PyTorch模型訓(xùn)練過(guò)程 1127次閱讀
- 深度學(xué)習(xí)模型訓(xùn)練過(guò)程詳解 1418次閱讀
- 如何基于深度學(xué)習(xí)模型訓(xùn)練實(shí)現(xiàn)工件切割點(diǎn)位置預(yù)測(cè) 844次閱讀
- 如何基于深度學(xué)習(xí)模型訓(xùn)練實(shí)現(xiàn)圓檢測(cè)與圓心位置預(yù)測(cè) 2119次閱讀
- 視覺(jué)深度學(xué)習(xí)遷移學(xué)習(xí)訓(xùn)練框架Torchvision介紹 934次閱讀
- 支持 ChatGPT 的機(jī)器學(xué)習(xí)模型的概況 896次閱讀
- 什么是預(yù)訓(xùn)練AI模型? 1082次閱讀
- 超詳細(xì)配置教程:用Windows電腦訓(xùn)練深度學(xué)習(xí)模型 1511次閱讀
- 機(jī)器學(xué)習(xí)的知識(shí)產(chǎn)權(quán)問(wèn)題 1526次閱讀
- 針對(duì)線(xiàn)性回歸模型和深度學(xué)習(xí)模型,介紹了確定訓(xùn)練數(shù)據(jù)集規(guī)模的方法 6220次閱讀
- 谷歌新推無(wú)程式碼機(jī)器學(xué)習(xí)模型分析工具 2528次閱讀
- 機(jī)器學(xué)習(xí)中的特征選擇的5點(diǎn)詳細(xì)資料概述 7054次閱讀
下載排行
本周
- 1STM32開(kāi)發(fā)板教程之STM32開(kāi)發(fā)指南免費(fèi)下載
- 24.88 MB | 176次下載 | 3 積分
- 2EN60335-1安規(guī)標(biāo)準(zhǔn) 中文版本
- 1.86 MB | 52次下載 | 1 積分
- 3LT7406FJ N溝道增強(qiáng)型功率MOSFET規(guī)格書(shū)
- 1.38 MB | 2次下載 | 免費(fèi)
- 4STM32系列產(chǎn)品選型-中文
- 1.81 MB | 1次下載 | 免費(fèi)
- 5LTS6802FJCB N溝道增強(qiáng)型功率MOSFET規(guī)格書(shū)
- 1.00 MB | 1次下載 | 免費(fèi)
- 6運(yùn)算放大電路入門(mén)教程
- 0.70 MB | 1次下載 | 免費(fèi)
- 7米爾-瑞芯微RK3562核心板開(kāi)發(fā)板,4核CPU,ARM中量級(jí)多面手
- 3.45 MB | 1次下載 | 免費(fèi)
- 8開(kāi)源鴻蒙版真4K顯示器廣告機(jī)主板AIoT-6780SE彩頁(yè)
- 613.79 KB | 1次下載 | 免費(fèi)
本月
- 1STM32開(kāi)發(fā)板教程之STM32開(kāi)發(fā)指南免費(fèi)下載
- 24.88 MB | 176次下載 | 3 積分
- 2DeepSeek:從入門(mén)到精通
- 5.36 MB | 92次下載 | 1 積分
- 3EN60335-1安規(guī)標(biāo)準(zhǔn) 中文版本
- 1.86 MB | 52次下載 | 1 積分
- 4OAH0428最新規(guī)格書(shū)(中文)
- 2.52 MB | 27次下載 | 10 積分
- 5UHV系列雷電沖擊電壓發(fā)生器試驗(yàn)裝置詳細(xì)說(shuō)明使用
- 1.07 MB | 17次下載 | 免費(fèi)
- 6Altium-常用3D封裝庫(kù)(Step)接插件篇
- 4.95 MB | 14次下載 | 免費(fèi)
- 7介紹一些常用的電子元器件
- 3.20 MB | 7次下載 | 免費(fèi)
- 8麻將機(jī)升降電路
- 0.12 MB | 6次下載 | 1 積分
總榜
- 1matlab軟件下載入口
- 未知 | 935124次下載 | 10 積分
- 2開(kāi)源硬件-PMP21529.1-4 開(kāi)關(guān)降壓/升壓雙向直流/直流轉(zhuǎn)換器 PCB layout 設(shè)計(jì)
- 1.48MB | 420063次下載 | 10 積分
- 3Altium DXP2002下載入口
- 未知 | 233088次下載 | 10 積分
- 4電路仿真軟件multisim 10.0免費(fèi)下載
- 340992 | 191371次下載 | 10 積分
- 5十天學(xué)會(huì)AVR單片機(jī)與C語(yǔ)言視頻教程 下載
- 158M | 183336次下載 | 10 積分
- 6labview8.5下載
- 未知 | 81583次下載 | 10 積分
- 7Keil工具M(jìn)DK-Arm免費(fèi)下載
- 0.02 MB | 73814次下載 | 10 積分
- 8LabVIEW 8.6下載
- 未知 | 65988次下載 | 10 積分
電子發(fā)燒友App






創(chuàng)作
發(fā)文章
發(fā)帖
提問(wèn)
發(fā)資料
發(fā)視頻
上傳資料賺積分
評(píng)論