chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

時間序列分析的異常檢測綜述

可靠性雜壇 ? 來源:北斗系統(tǒng) ? 2024-03-11 09:36 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

時間序列分析是一種非常實用且強大的技術(shù),用于研究隨時間變化的數(shù)據(jù),例如銷售、交通、氣候等。異常檢測是識別偏離數(shù)據(jù)正常趨勢的值或事件的過程。在本文中,我將解釋什么是時間序列,它的組成部分是什么,它與其他類型的數(shù)據(jù)有何不同,如何檢測時間序列中的異常,以及進行此類檢測的最常見技術(shù)。

時間序列分析簡介

時間序列是在不同時點記錄一個或多個變量值的數(shù)據(jù)。例如,每天訪問網(wǎng)站的人數(shù)、每月城市的 average 溫度、每小時的股票價格等。時間序列非常重要,因為它們允許我們分析過去,理解現(xiàn)在,并預(yù)測未來。此外,時間序列幫助我們發(fā)現(xiàn)數(shù)據(jù)中的隱藏模式和趨勢,這些可以用于改進決策和策略。

然而,時間序列分析也帶來了挑戰(zhàn),并且與非時間數(shù)據(jù)分析有所不同。主要區(qū)別之一是時間序列是時間依賴的,即數(shù)據(jù)的排序和范圍是相關(guān)且不能被忽視或更改的。另一個區(qū)別是時間序列通常是非平穩(wěn)的,即它們的統(tǒng)計屬性(如均值和方差)會隨時間變化。這使得應(yīng)用傳統(tǒng)的統(tǒng)計方法變得困難,這些方法假設(shè)數(shù)據(jù)的平穩(wěn)性。

此外,時間序列分析需要對異常檢測采取不同的方法。異常是顯著偏離數(shù)據(jù)正常趨勢的值或事件。異??赡苁怯蓽y量錯誤、結(jié)構(gòu)變化、欺詐活動、特殊事件等引起的。異常檢測很重要,因為它可以提供隱藏在數(shù)據(jù)中的問題或機會的寶貴見解。然而,檢測時間序列中的異常比非時間數(shù)據(jù)更復(fù)雜,因為必須考慮到數(shù)據(jù)的時序依賴性、非平穩(wěn)性和動態(tài)性質(zhì)。

時間序列分析的基本概念

在我們詳細討論時間序列分析和異常檢測技術(shù)之前,我們需要定義什么是時間序列及其組成部分。時間序列是在不同時點測量的一個或多個變量值的序列。

時間序列有三個主要組成部分:日期、時間和特征。日期和時間指示了何時測量變量值。特征是我們希望分析的變量。在我們的示例中,日期是月份的一天,天氣是星期幾,特征是訪客數(shù)量。

為了能夠分析時間序列,我們需要滿足某些要求。第一個要求是有足夠的數(shù)據(jù)點,即隨時間變化的變量觀測值。所需的數(shù)據(jù)點數(shù)量取決于我們想要進行的分析類型以及數(shù)據(jù)收集的頻率。例如,如果我們想要分析數(shù)據(jù)的季節(jié)性,即數(shù)據(jù)作為時間的函數(shù)的周期性變化,我們需要至少一個完整的觀測周期,涵蓋所有可能的季節(jié)。如果數(shù)據(jù)每天收集一次,我們需要至少一年的數(shù)據(jù)才能分析年度季節(jié)性。

第二個要求是對數(shù)據(jù)的領(lǐng)域有深入的了解,即數(shù)據(jù)生成的背景和變量的含義。這有助于我們解釋分析結(jié)果并識別異常的可能原因。例如,如果我們分析網(wǎng)站的訪客數(shù)量,我們需要知道網(wǎng)站的類型、目標受眾、目標、影響流量的因素等。

第三個要求是對分析目標有清晰的定義,即我們想要從數(shù)據(jù)中發(fā)現(xiàn)什么以及我們想要如何使用它。分析的目標可能因用例和研究問題而異。例如,我們可能想要分析時間序列有:

描述數(shù)據(jù)隨時間的行為及其主要特征

基于過去的值預(yù)測未來的數(shù)據(jù)值

檢測數(shù)據(jù)中的異常及其原因

測試關(guān)于數(shù)據(jù)及其關(guān)系的假設(shè)

優(yōu)化數(shù)據(jù)驅(qū)動的決策和行動

理解時間序列中的異常

在我們查看如何檢測時間序列中的異常之前,我們需要了解異常是什么以及它們?nèi)绾卧跀?shù)據(jù)中表現(xiàn)出來。異常是顯著偏離數(shù)據(jù)正常趨勢的值或事件。異常可以分為兩種類型:點狀或集體。點狀異常是與時間序列中的其他值非常不同的孤立值。集體異常是與時間序列的其他部分不同的一組值。

例如,在下面的圖中,我們可以看到一個月內(nèi)每天記錄網(wǎng)站訪客數(shù)量的時間序列。點狀異常用紅色標出,集體異常用藍色標出。

91aee00c-de9a-11ee-a297-92fbcf53809c.png

異常可能有不同的原因和含義。一些異常可能是由于測量、傳輸或數(shù)據(jù)處理錯誤引起的。這些異常通常被稱為噪聲,可以被忽略或糾正。其他異??赡苁怯捎诮Y(jié)構(gòu)性變化、欺詐活動、特殊事件或其他影響數(shù)據(jù)的因素引起的。這些異常通常被稱為信號,檢測和分析它們可能很重要。

為了檢測時間序列中的異常,我們首先需要對數(shù)據(jù)隨時間的正常運動有所期望。這些期望是基于對時間序列的主要組成部分的分析,這些組成部分是:

趨勢,即數(shù)據(jù)長期變化的方向和速度。例如,上升趨勢表明數(shù)據(jù)隨時間增加,而下降趨勢表明數(shù)據(jù)隨時間減少。

季節(jié)性,即數(shù)據(jù)作為時間的函數(shù)的周期性變化。例如,年度季節(jié)性表明數(shù)據(jù)具有每年重復(fù)一次的循環(huán)模式,例如玩具店的銷售在12月增加而在1月減少。

周期性,即數(shù)據(jù)作為時間的函數(shù)的不規(guī)則變化。例如,經(jīng)濟周期性表明數(shù)據(jù)具有依賴于外部因素(如GDP、通貨膨脹、失業(yè)率等)的波動趨勢。

噪聲,即數(shù)據(jù)作為時間的函數(shù)的隨機變化。例如,噪聲可能是由測量、傳輸或處理錯誤引起的。

在下面的圖中,我們可以看到一個具有上升趨勢、年度季節(jié)性和噪聲的時間序列示例。

91b77492-de9a-11ee-a297-92fbcf53809c.png

當分析時間序列時,我們需要考慮這些組件并了解它們?nèi)绾坞S時間變化。一個或多個組件的變化可能會引起異常。因此,通過理解和建模時間序列的趨勢、季節(jié)性、周期性和噪聲,我們可以建立對正常行為的期望,并相應(yīng)地檢測偏離這些期望的異常。

時間序列分析的數(shù)據(jù)要求

如我們所見,為了能夠分析時間序列并檢測異常值,我們需要擁有滿足特定要求的數(shù)據(jù)。第一個要求是擁有足夠數(shù)量的數(shù)據(jù)點,即隨時間變化的變量觀測值。所需的數(shù)據(jù)點數(shù)量取決于我們想要進行的分析類型以及數(shù)據(jù)的收集頻率。例如,如果我們想要分析數(shù)據(jù)的趨勢,我們需要至少有十二個覆蓋相當長時間范圍的數(shù)據(jù)點。如果我們想要分析數(shù)據(jù)的季節(jié)性,我們需要至少有一個完整的觀測周期,涵蓋所有可能的季節(jié)。如果我們想要分析數(shù)據(jù)噪聲,我們需要至少有二十個足夠變化的數(shù)據(jù)點。

第二個要求是擁有捕捉時間變化的數(shù)據(jù),即反映變量隨時間變化的變動。這意味著數(shù)據(jù)應(yīng)該在規(guī)律且一致的時間間隔內(nèi)收集,不跳過或重復(fù)某些觀測值。此外,數(shù)據(jù)必須是時間對齊的,即每個觀測值必須對應(yīng)于變量被測量的時間。這暗示著數(shù)據(jù)必須轉(zhuǎn)換為適合時間序列分析的格式,例如日期時間格式。

第三個要求是擁有滿足時間序列主要組件(即趨勢、季節(jié)性和噪聲)分析的最低要求的數(shù)據(jù)。這些要求根據(jù)我們想要用于分析的模型而有所不同。例如,如果我們想要使用線性模型來分析趨勢,我們需要擁有在變量和時間之間具有線性關(guān)系的數(shù)據(jù)。如果我們想要使用指數(shù)模型來分析趨勢,我們需要擁有在變量和時間之間具有指數(shù)關(guān)系的數(shù)據(jù)。如果我們想要使用ARIMA模型來分析季節(jié)性和噪聲,我們需要擁有穩(wěn)定或可微分的數(shù)據(jù)。

時間序列分析中的差分

如我們所見,時間序列分析中的一個主要挑戰(zhàn)是數(shù)據(jù)中存在非穩(wěn)定性,即數(shù)據(jù)的統(tǒng)計屬性(如均值和方差)隨時間變化。這使得應(yīng)用傳統(tǒng)的統(tǒng)計方法變得困難,因為這些方法假設(shè)數(shù)據(jù)是穩(wěn)定的。為了使用這些方法,我們必須首先轉(zhuǎn)換數(shù)據(jù),使其變得穩(wěn)定,或至少近似穩(wěn)定。進行這種轉(zhuǎn)換的最常見技術(shù)之一是差分。

差分包括從時間序列中的每個值中減去前一個值,從而得到一個代表數(shù)據(jù)隨時間變化的新的時序。例如,如果我們有一個時間序列 {x1, x2, x3, …},它的一階差分是 {x2 - x1, x3 - x2, …}。差分可以重復(fù)多次,從而實現(xiàn)二階差分、三階差分等。差分的目的是從時間序列中移除趨勢和季節(jié)性成分,這些是非穩(wěn)定性的主要原因。實際上,如果數(shù)據(jù)具有趨勢或季節(jié)性,其值將與前一個或后一個值相關(guān)。減去這些值可以減少或消除這種相關(guān)性。

例如,我們可以看到一個具有上升趨勢和年度季節(jié)性的時間序列。其一階差分去除了趨勢,但沒有去除季節(jié)性。其二階差分去除了趨勢和季節(jié)性。

差分是最廣泛使用的時間序列分析和異常檢測模型之一——ARIMA模型的基礎(chǔ)。

ARIMA模型介紹

ARIMA模型是時間序列分析和異常檢測中廣泛使用的模型之一。ARIMA代表自回歸差分移動平均模型(Autoregressive Integrated Moving Average)。這個模型結(jié)合了三個主要組成部分:

自回歸(AR)部分,它建模時間序列值與之前值之間的相關(guān)性。例如,如果數(shù)據(jù)是周期性的,時間序列值將受到過去值的影響。

差分(I)部分,它通過使時間序列差分來建模,使其變得穩(wěn)定。例如,如果數(shù)據(jù)具有趨勢或季節(jié)性,差分將從時間序列中移除這些成分。

移動平均(MA)部分,它建模時間序列誤差與之前誤差之間的相關(guān)性。例如,如果數(shù)據(jù)有噪聲,時間序列誤差將受到過去誤差的影響。

ARIMA模型有三個主要參數(shù):p、d和q。p參數(shù)表示模型中使用的自回歸項的數(shù)量。d參數(shù)表示為了使時間序列穩(wěn)定而必須對時間序列進行差分的次數(shù)。q參數(shù)表示模型中使用的移動平均項的數(shù)量。例如,ARIMA(1,1,1)模型使用一個自回歸項、一個差分和一個移動平均項。

ARIMA模型可以用來描述、預(yù)測和檢測時間序列中的異常。為此,我們需要遵循幾個步驟:

首先,我們需要檢查時間序列是否穩(wěn)定。我們可以使用統(tǒng)計測試,如增強的Dickey-Fuller測試,來檢查時間序列的均值和方差是否隨時間恒定。

其次,我們需要對時間序列進行差分,直到它變得穩(wěn)定。我們可以使用圖表,如自相關(guān)函數(shù)圖和偏自相關(guān)函數(shù)圖,來確定所需的差分次數(shù)。

第三,我們需要使用優(yōu)化方法,如最大似然法,來估計ARIMA模型的參數(shù)。我們可以使用模型選擇標準,如赤池信息準則或貝葉斯信息準則,來選擇p、d和q參數(shù)的最優(yōu)值。

第四,我們需要使用驗證方法,如Ljung-Box測試或Jarque-Bera測試,來驗證ARIMA模型。我們可以使用圖表,如殘差圖或預(yù)測圖,來檢查模型是否與數(shù)據(jù)擬合良好,以及數(shù)據(jù)中是否存在任何異常。

第五,我們需要使用ARIMA模型來描述時間序列的主要特征,預(yù)測未來的時間序列值,并檢測時間序列中的異常。我們可以使用準確性度量,如均方誤差或平均絕對誤差,來評估預(yù)測和異常的質(zhì)量。

時間序列異常檢測

在估計和驗證我們的時間序列的ARIMA模型后,我們可以使用它來檢測數(shù)據(jù)中的異常。異常是與數(shù)據(jù)的正常運行趨勢顯著偏離的值或事件。為了檢測異常,我們需要將觀察到的時間序列值與ARIMA模型預(yù)測的值進行比較。如果兩個值之間的差異大于某個閾值,我們可以將觀察到的值視為異常。

定義異常的閾值取決于多個因素,如置信水平、誤差分布、數(shù)據(jù)的頻繁程度等。通常,我們可以使用置信區(qū)間的概念來確定閾值。置信區(qū)間是一個以一定概率包含預(yù)測值的區(qū)間。例如,95%的置信區(qū)間意味著預(yù)測值在該范圍內(nèi)的概率為95%。如果觀察到的值在置信區(qū)間之外,我們可以將其視為異常。

當我們在時間序列中檢測到異常時,我們還必須嘗試理解它們的原因和含義。一些異??赡苁怯捎跍y量、傳輸或數(shù)據(jù)處理錯誤造成的。這些異常通常被稱為噪聲,可以被忽略或糾正。其他異常可能是由于結(jié)構(gòu)性變化、欺詐活動、特殊事件或其他影響數(shù)據(jù)的因素造成的。這些異常通常被稱為信號,檢測和分析它們可能很重要。

為了理解異常的原因和含義,我們需要使用我們對數(shù)據(jù)領(lǐng)域的知識,即數(shù)據(jù)生成的背景和變量的含義。此外,我們需要使用其他信息來源,如其他相關(guān)時間序列、歷史數(shù)據(jù)、新聞、報告等。這有助于我們解釋異常檢測結(jié)果并確定可能采取的行動。

在本文中,我們已經(jīng)看到了如何使用ARIMA模型進行時間序列分析和異常檢測。

結(jié)論

在本文中,我們已經(jīng)看到了如何使用ARIMA模型進行時間序列分析和異常檢測。我們已經(jīng)了解了什么是時間序列,它的組成部分是什么,它與其他類型的數(shù)據(jù)有何不同,如何在時間序列中檢測異常,以及進行這些操作的最常見技術(shù)。我們已經(jīng)看到了如何驗證數(shù)據(jù)的平穩(wěn)性,如何對時間序列進行差分,如何估計和驗證ARIMA模型,如何使用ARIMA模型來描述、預(yù)測和檢測時間序列中的異常,以及如何解釋異常檢測結(jié)果。

時間序列分析和異常檢測是研究隨時間變化的數(shù)據(jù)(如銷售、交通、氣候等)的非常有用的強大技術(shù)。這些技術(shù)允許我們分析過去,理解現(xiàn)在,并預(yù)測未來。此外,這些技術(shù)幫助我們發(fā)現(xiàn)數(shù)據(jù)中隱藏的模式和趨勢,這可以用來改進決策和策略。最后,這些技術(shù)幫助我們識別數(shù)據(jù)中的隱藏問題或機會,這可能是由數(shù)據(jù)中的異常引起的。

審核編輯:黃飛

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 數(shù)據(jù)
    +關(guān)注

    關(guān)注

    8

    文章

    7292

    瀏覽量

    93392
  • 時間序列
    +關(guān)注

    關(guān)注

    0

    文章

    31

    瀏覽量

    10651
  • 數(shù)據(jù)分析
    +關(guān)注

    關(guān)注

    2

    文章

    1494

    瀏覽量

    35727

原文標題:時間序列分析的異常檢測綜述

文章出處:【微信號:可靠性雜壇,微信公眾號:可靠性雜壇】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    【「時間序列與機器學(xué)習(xí)」閱讀體驗】全書概覽與時間序列概述

    如何通過根因分析技術(shù)獲得導(dǎo)致故障的維度和元素,包括基于時間序列異常檢測算法的根因分析、基于熵的根
    發(fā)表于 08-07 23:03

    【《時間序列與機器學(xué)習(xí)》閱讀體驗】+ 了解時間序列

    處理的專業(yè)書籍。再看一下目錄結(jié)構(gòu): 可看出書的前五章以理論為主,先后介紹了時間序列分析的基礎(chǔ)知識、時間序列的信息提取、
    發(fā)表于 08-11 17:55

    時間序列小波分析的操作步驟及實例分析

    時間序列(Time Series)是地學(xué)研究中經(jīng)常遇到的問題。在時間序列研究中,時域和頻域是常用的兩種基本形式。其中,時域分析具有
    發(fā)表于 11-15 10:45 ?6.9w次閱讀
    <b class='flag-5'>時間</b><b class='flag-5'>序列</b>小波<b class='flag-5'>分析</b>的操作步驟及實例<b class='flag-5'>分析</b>

    多變量水質(zhì)參數(shù)時間異常事件檢測算法

    在供水管網(wǎng)中部署傳感器網(wǎng)絡(luò)實時獲取多個水質(zhì)參數(shù)時間序列數(shù)據(jù),當供水管網(wǎng)發(fā)生污染時,高效準確地檢測水質(zhì)異常是一個重要問題。提出多變量水質(zhì)參數(shù)時間
    發(fā)表于 12-07 16:17 ?0次下載
    多變量水質(zhì)參數(shù)<b class='flag-5'>時間</b><b class='flag-5'>異常</b>事件<b class='flag-5'>檢測</b>算法

    基于導(dǎo)數(shù)序列時間序列同構(gòu)關(guān)系

    時間序列序列匹配作為時間序列檢索、聚類、分類、異常監(jiān)測等挖掘任務(wù)的基礎(chǔ)被廣泛研究。但傳統(tǒng)的
    發(fā)表于 12-12 15:52 ?0次下載
    基于導(dǎo)數(shù)<b class='flag-5'>序列</b>的<b class='flag-5'>時間</b><b class='flag-5'>序列</b>同構(gòu)關(guān)系

    寶信利用Spark Analytics Zoo對基于LSTM的時間序列異常檢測的探索

    摘要:寶信和英特爾相關(guān)團隊利用Analytics Zoo在無監(jiān)督的基于時間序列異常檢測用例上進行了有益的合作探索,本文分享了合作項目的結(jié)果和經(jīng)驗。 背景 在 工業(yè)制造 行業(yè),有多種方法
    的頭像 發(fā)表于 10-17 10:30 ?6262次閱讀

    如何使用頻繁模式發(fā)現(xiàn)進行時間序列異常檢測詳細方法概述

    針對傳統(tǒng)異常片 段檢測方法在處理增量式時間序列時效率低的問題,提出一種基于頻繁模式發(fā)現(xiàn)的時間序列
    發(fā)表于 11-28 11:09 ?5次下載
    如何使用頻繁模式發(fā)現(xiàn)進行<b class='flag-5'>時間</b><b class='flag-5'>序列</b><b class='flag-5'>異常</b><b class='flag-5'>檢測</b>詳細方法概述

    基于時間卷積網(wǎng)絡(luò)的通用日志序列異常檢測框架

    基于循環(huán)神經(jīng)網(wǎng)絡(luò)的日志序列異常檢測模型對短序列有較好的檢測能力,但對長序列
    發(fā)表于 03-30 10:29 ?8次下載
    基于<b class='flag-5'>時間</b>卷積網(wǎng)絡(luò)的通用日志<b class='flag-5'>序列</b><b class='flag-5'>異常</b><b class='flag-5'>檢測</b>框架

    一種多維時間序列汽車駕駛異常檢測模型

    針對傳統(tǒng)異常檢測模型難以準確分析汽車駕駛異常行為的情況,建立一種基于自動編碼器與孤立森林算法的多維時間
    發(fā)表于 05-26 16:32 ?2次下載

    基于shapelets的時間序列分類技術(shù)綜述

    基于shapelets的時間序列分類技術(shù)綜述
    發(fā)表于 06-08 11:16 ?5次下載

    時間序列分析及其應(yīng)用

    時間序列分析及其應(yīng)用。
    發(fā)表于 02-22 13:56 ?1次下載

    時間序列分析的定義

    01 時間序列分析的定義 1.1 概念 首先,時間序列定義為在一定時間間隔內(nèi)按
    的頭像 發(fā)表于 03-16 16:17 ?6538次閱讀

    一種新的無監(jiān)督時間序列異常檢測方法

    時間序列數(shù)據(jù)是生活中常見的一種數(shù)據(jù),在時間順序上具有一定規(guī)律,且大量存在于金融貿(mào)易、工業(yè)生產(chǎn)、環(huán)境保護、網(wǎng)絡(luò)安全等眾多領(lǐng)域。時間序列
    的頭像 發(fā)表于 08-10 11:29 ?3447次閱讀

    采用基于時間序列的日志異常檢測算法應(yīng)用

    目前,日志異常檢測算法采用基于時間序列的方法檢測異常,具體為:日志結(jié)構(gòu)化 -> 日志模式識別 -
    的頭像 發(fā)表于 12-09 10:47 ?2338次閱讀

    智能電網(wǎng)時間序列異常檢測:a survey

    故障、中斷、外部網(wǎng)絡(luò)攻擊或能源欺詐引起的。識別這些異常對于現(xiàn)代電網(wǎng)的可靠和高效運行至關(guān)重要。對電網(wǎng)時間序列數(shù)據(jù)進行異常檢測的方法有很多種。本
    發(fā)表于 04-04 16:13 ?0次下載
    智能電網(wǎng)<b class='flag-5'>時間</b><b class='flag-5'>序列</b><b class='flag-5'>異常</b><b class='flag-5'>檢測</b>:a survey