編者按:在KDD 2017上,Google推出基于TensorFlow的可擴展機器學習平臺TFX,主打管理數(shù)據(jù)、訓練模型、模型評估和模型服務四塊內(nèi)容。而今天,TensorFlow宣布開源TXF的一個重要組件:“數(shù)據(jù)驗證(tf.DataValidation)”,可幫助開發(fā)人員更好地認識數(shù)據(jù),并將其用于機器學習。
ML算法及其性能一直是學術(shù)界和工業(yè)界關(guān)注的一個重點,如果輸入數(shù)據(jù)有誤,所有的優(yōu)化工作就會付諸東流。在數(shù)據(jù)量較少的時候,理解和驗證數(shù)據(jù)只是一項微不足道的任務,但是在實踐中,研究人員使用的數(shù)據(jù)量往往非常龐大,這就給手動檢查造成了巨大壓力。因此,自動化數(shù)據(jù)分析、驗證和監(jiān)管是有必要的。
TFDV(數(shù)據(jù)驗證)是TFX平臺的一部分,它也是Google每天用來分析和驗證數(shù)PB數(shù)據(jù)的技術(shù)。鑒于此前它在數(shù)據(jù)糾錯上一直有不錯的表現(xiàn),Google相信,TFDV也可以被用戶作為維持ML模型性能的一個好工具。
在設計TFDV的早期,Google就已經(jīng)考慮到了在筆記本電腦環(huán)境中使用它的需求,所以對于硬件要求,大家可以放寬心。
計算描述性數(shù)據(jù)統(tǒng)計
TFDV可以計算描述性統(tǒng)計數(shù)據(jù),根據(jù)存在的特征和值分布的形狀快速概述數(shù)據(jù)。這些統(tǒng)計信息有助于開發(fā)人員調(diào)查和了解他們的數(shù)據(jù),并據(jù)此推斷數(shù)據(jù)模式。
用TFDV計算統(tǒng)計信息:
stats = tfdv.generate_statistics_from_tfrecord(data_location=path)
可視化:
推斷數(shù)據(jù)模式
所謂數(shù)據(jù)模式,就是描述數(shù)據(jù)的預期性能,它可以包括:
預計將出現(xiàn)哪些特征
它們的類型
每個樣本中,一個特征有幾個值
所有樣本中,每個特征的出現(xiàn)幾率
特征的預期域
簡而言之,模式描述了對“正確”數(shù)據(jù)的期望,因此可被用于檢測數(shù)據(jù)中的錯誤。但是在實踐中,編寫模式可能是非常繁瑣的,尤其是對于具有大量特征的數(shù)據(jù)集。TFDV提供了一種基于描述性統(tǒng)計信息,生成旨在反映數(shù)據(jù)穩(wěn)定特征的模式的方法:
#根據(jù)統(tǒng)計信息推斷模式
schema = tfdv.infer_schema(train_stats)
#以表格格式顯示內(nèi)聯(lián)模式
tfdv.display_schema(schema)
上圖是個簡單的可視化,列出了數(shù)據(jù)集中的每個特征以及它在編碼模式下的主要特征。
驗證新數(shù)據(jù)
給定一個模式,TFDV可以根據(jù)模式中的期望驗證一組新數(shù)據(jù)。
#統(tǒng)計一組新數(shù)據(jù)
new_stats = tfdv.generate_statistics_from_csv(NEW_DATA)
#比較新數(shù)據(jù)如何符合模式
anomalies = tfdv.validate_statistics(new_stats, schema)
#顯示內(nèi)聯(lián)異常
tfdv.display_anomalies(異常)
上述異常報告了新數(shù)據(jù)和模式之間的差別
驗證持續(xù)添加的數(shù)據(jù)
對于數(shù)據(jù)集中不斷增加的新數(shù)據(jù),我們需要用原模式對它們進行驗證。但是,在常規(guī)設置中,這個模式每個一段時間都會維護一次,它基于統(tǒng)計信息,而統(tǒng)計信息又會受新加入的數(shù)據(jù)影響。因此,之前我們推斷的模式只是原始模式,它還必須要能隨著時間推移不斷變化。
用validate_statistics驗證新添加的數(shù)據(jù)
如果想可視化不同數(shù)據(jù)集(不同日期的數(shù)據(jù)集)的統(tǒng)計數(shù)據(jù),用visualize_statistics:
用Facets可視化兩組數(shù)據(jù)的比較,示例:DAY1、DAY2票價對比
TFDV還可以檢測連續(xù)版本訓練數(shù)據(jù)之間的分布變化,這有助于對比連續(xù)版本數(shù)據(jù)集之間的統(tǒng)計信息,如果發(fā)現(xiàn)有刪改/添加的情況,應及時在檢查數(shù)據(jù)異常時,更新信息。此外,TFDV還能檢查訓練數(shù)據(jù)和服務系統(tǒng)觀察到的數(shù)據(jù)之間的特征值/分布差異,并用Facets可視化。
Github:github.com/tensorflow/data-validation
-
機器學習
+關(guān)注
關(guān)注
66文章
8546瀏覽量
136517 -
數(shù)據(jù)集
+關(guān)注
關(guān)注
4文章
1235瀏覽量
26114 -
tensorflow
+關(guān)注
關(guān)注
13文章
334瀏覽量
61943
原文標題:TensorFlow新庫TFDV:大規(guī)模理解、驗證和監(jiān)控你的ML數(shù)據(jù)
文章出處:【微信號:jqr_AI,微信公眾號:論智】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
關(guān)于 TensorFlow
MIPS宣布開源
情地使用Tensorflow吧!
TensorFlow是什么
TensorFlow、PyTorch,“后浪”O(jiān)neFlow 有沒有機會
南京E創(chuàng)譚小慧:介紹OpenEDI開源數(shù)據(jù)基礎組件
蔚來汽車掛牌紐交所,12位車主“替”李斌敲了鐘
谷歌推出了AdaNet,一個基于TensorFlow的輕量化框架
不寫代碼也能玩轉(zhuǎn)人工智能 Uber宣布開源Ludwig
谷歌推出開源的量子機器學習庫TensorFlow Quantum
開源機器學習平臺TensorFlow的更新內(nèi)容
鴻蒙滑動拼圖驗證組件分享 已開源
TensorFlow宣布開源TXF的一個重要組件:“數(shù)據(jù)驗證”
評論