Hello 大家好,今天繼續(xù)為大家?guī)韊IQ Time Series Studio系列講解,上期咱們講到“Utilities”模塊中的“Data Labeling”數(shù)據(jù)標簽工具。數(shù)據(jù)標簽工具使用戶能夠通過可視化界面將相應的數(shù)據(jù)標簽(如電弧或無電?。糜诋斍皵?shù)據(jù)圖形的不同部分,從而對導入的原始數(shù)據(jù)進行分類。然后,該工具根據(jù)標簽對原始數(shù)據(jù)進行細分,并創(chuàng)建用于訓練機器學習模型的優(yōu)化數(shù)據(jù)集。本節(jié)會繼續(xù)介紹“Utilities”模塊中的“Data Intelligence”數(shù)據(jù)智能工具。
“Data Intelligence”
數(shù)據(jù)智能為用戶提供了一種非常有價值的工具,它能夠自動并智能地分析數(shù)據(jù)集,以完成分類和異常檢測任務。本節(jié)介紹數(shù)據(jù)集分析的過程,并列出了優(yōu)化和重新收集數(shù)據(jù)的步驟,以提高性能并從分析結果中獲取更多數(shù)據(jù)信息。
數(shù)據(jù)智能的重要性
用戶通常根據(jù)自身經驗和對數(shù)據(jù)的了解導入時間序列數(shù)據(jù)集。然而,由于經驗和時間等限制,對數(shù)據(jù)的分析不夠全面無法得出令人滿意的結果。例如,采樣頻率可能高于相應的應用需求?;蛘撸瑢τ诜诸惾蝿?,每個類別的訓練數(shù)據(jù)量可能不均衡。為了應對這些挑戰(zhàn),數(shù)據(jù)智能工具可以幫助用戶評估數(shù)據(jù)集的平衡性,并確定各個數(shù)據(jù)通道/軸的重要性。該工具不僅標記不平衡的數(shù)據(jù)集,還會建議忽略冗余通道。此外,該工具還可以幫助確定最佳采樣頻率和窗口大小,從而優(yōu)化數(shù)據(jù)集,提高質量和分析結果。
數(shù)據(jù)集配置
第一步是配置導入數(shù)據(jù)的必需參數(shù)(以分類示例中風扇狀態(tài)檢測為例)。
輸入以下信息:
數(shù)據(jù)集類型:“Segmented Data”分段數(shù)據(jù)或“Continuous Data”連續(xù)數(shù)據(jù)。
通道數(shù):每個數(shù)據(jù)點由有多少個通道組成。
類別數(shù):用戶數(shù)據(jù)需要分析的類別數(shù)。
使用的采樣頻率:用戶原始數(shù)據(jù)的采樣頻率。
最小頻率:可設置的最低分頻系數(shù)。
設置完成后,點擊“Confirm”按鈕,若有設置錯誤,可點擊“Reset”并重新配置。
設置通道數(shù)后,用戶可以為每個通道分配單獨的別名,有助于區(qū)分各個通道并便于用戶理解分析報告。
數(shù)據(jù)集導入
數(shù)據(jù)集配置后,導入用戶數(shù)據(jù):
點擊每個類別旁邊的“+”按鈕彈出文件選擇窗口并加載文件。文件中的分隔符、行數(shù)和列數(shù)都會被自動識別。
請確保每個文件符合指定的設置:當數(shù)據(jù)分段時,列數(shù)必須等于窗口大小乘以通道數(shù)。當數(shù)據(jù)連續(xù)時,列數(shù)必須等于通道數(shù)。同時還可以修改每個類別的別名,以便于標注各類別的表現(xiàn)。
完成這些步驟后,點擊“START DATA ANALYSIS”按鈕,繼續(xù)進行數(shù)據(jù)分析并生成報告。
數(shù)據(jù)分析報告
點擊“START DATA ANALYSIS”按鈕后,啟動分析,系統(tǒng)會自動處理數(shù)據(jù),然后顯示分析結果。
Segmented Data數(shù)據(jù)分析報告
Segmented Data數(shù)據(jù)分析報告主要包括:數(shù)據(jù)平衡,通道相關性,通道重要性和最佳采樣參數(shù)分析。
Data Balance-數(shù)據(jù)平衡
用五星對數(shù)據(jù)量的平衡進行評價,點亮的星數(shù)越多,表明各分類的數(shù)據(jù)集量越平衡。
Channel Correlation-通道相關性
僅適用于通道數(shù) >= 2 的情況。
顯示混淆矩陣表,說明不同通道之間的相關值。
絕對值越高,通道之間的相關性越高。值越接近于零,表示通道彼此獨立。該信息可用于識別并可能刪除冗余通道。刪除冗余通道有助于優(yōu)化數(shù)據(jù)集以用于訓練步驟。
Channel Importance-通道重要性
僅適用于分段數(shù)據(jù)集。
僅適用于通道數(shù) >= 2 的情況。
在排名欄中顯示每個通道的重要性得分,分數(shù)越高說明該通道越重要。
Best Sampling Params-最佳采樣參數(shù)
采樣頻率:輸出原始采樣頻率的推薦分頻。此建議旨在幫助消除數(shù)據(jù)中潛在的高頻噪聲成分。通過這種方式降低頻率,用戶可以節(jié)省資源和功耗,同時保留基本信息。
窗口大小:輸出推薦的窗口大小。對于分段數(shù)據(jù),此大小保持不變,僅適用于連續(xù)數(shù)據(jù)。
采樣時長:單個樣本數(shù)據(jù)的采樣時間。
Continuous Data數(shù)據(jù)分析報告
前面主要介紹導入“Segmented”數(shù)據(jù)后的數(shù)據(jù)分析報告,而導入“Continuous”的數(shù)據(jù)分析報告略有不同,如“Best Sampling Params”功能描述
在窗口大小和采樣頻率矩陣中,最推薦使用采樣頻率fs/1和窗口大小64的組合。
區(qū)分度:僅適用于連續(xù)數(shù)據(jù)。輸出在最佳分段窗口大小和采樣頻率下連續(xù)數(shù)據(jù)的數(shù)據(jù)區(qū)分度。
用戶可以將連續(xù)數(shù)據(jù)導入到“ Data Operation”中。使用生成數(shù)據(jù)樣本并嘗試推薦的采樣參數(shù),生成用于機器學習的樣本數(shù)據(jù)集。如果推薦的采樣頻率不是fs/1,則數(shù)據(jù)會根據(jù)分頻和推薦的窗口大小進行降采樣。例如,如果智能分析后得到的分頻為fs/2,則數(shù)據(jù)集將按如下方式進行降采樣并保存。
最后,用戶可以選擇“quality”并點擊 “Save PDF”按鈕將分析報告保存在本地PC中。
結論
該數(shù)據(jù)智能工具可自動生成數(shù)據(jù)集質量報告,并向用戶提供反饋,無需恩智浦的直接工程支持。分析的功能包括數(shù)據(jù)平衡、通道相關性、通道重要性、最佳采樣參數(shù)和窗長。這些功能使用戶能夠就數(shù)據(jù)重新收集或重新格式化做出明智的決策,確保其數(shù)據(jù)集處于最佳狀態(tài)以供后續(xù)處理。
-
恩智浦
+關注
關注
14文章
6028瀏覽量
125683 -
Studio
+關注
關注
2文章
213瀏覽量
30298 -
機器學習
+關注
關注
66文章
8528瀏覽量
135873 -
數(shù)據(jù)集
+關注
關注
4文章
1229瀏覽量
25916
原文標題:eIQ Time Series Studio 工具使用攻略(十)-數(shù)據(jù)智能
文章出處:【微信號:NXP_SMART_HARDWARE,微信公眾號:恩智浦MCU加油站】歡迎添加關注!文章轉載請注明出處。
發(fā)布評論請先 登錄
恩智浦eIQ Time Series Studio 工具使用攻略(四)-數(shù)據(jù)導入

恩智浦eIQ Time Series Studio工具使用教程之數(shù)據(jù)記錄

恩智浦車規(guī)級深度學習工具包使新一代汽車應用性能提高30倍
NXP eIQ Time Series Studio 工具使用攻略(九)-數(shù)據(jù)標簽

恩智浦eIQ Time Series Studio工具使用教程之數(shù)據(jù)操作

恩智浦eIQ? Neutron神經處理單元
NVIDIA TAO工具套件功能與恩智浦eIQ機器學習開發(fā)環(huán)境的集成
恩智浦eIQ AI和機器學習開發(fā)軟件增加兩款新工具
恩智浦eIQ Time Series Studio的工作流程

恩智浦eIQ Time Series Studio工具使用教程之模型訓練

恩智浦eIQ Time Series Studio工具使用教程之仿真

評論