亚洲欧洲,色中文字幕无码韩国,亚洲AV日韩AV天堂影

數(shù)據(jù)集就是機(jī)器學(xué)習(xí)行業(yè)的石油，強(qiáng)大的模型需要含有大量樣本的數(shù)據(jù)集作為基礎(chǔ)。而標(biāo)記訓(xùn)練集中的數(shù)據(jù)樣本是開發(fā)機(jī)器學(xué)習(xí)應(yīng)用的最大瓶頸之一。

最近，谷歌與斯坦福大學(xué)、布朗大學(xué)一起，研究如何快速標(biāo)記大型數(shù)據(jù)集，將整個組織的資源用作分類任務(wù)的弱監(jiān)督資源，使機(jī)器學(xué)習(xí)的開發(fā)時間和成本降低一個數(shù)量級。

谷歌在論文中表示，這種方法能讓工程師能夠在不到30分鐘的時間內(nèi)對數(shù)百萬個樣本執(zhí)行弱監(jiān)督策略。

他們使用一種Snorkel Drybell系統(tǒng)，讓開源Snorkel框架適應(yīng)各種組織知識資源，生成Web規(guī)模機(jī)器學(xué)習(xí)模型的訓(xùn)練數(shù)據(jù)。

Snorkel是由斯坦福大學(xué)在2017年開發(fā)的系統(tǒng)，它可以在弱監(jiān)督條件下快速創(chuàng)建訓(xùn)練數(shù)據(jù)集，該項(xiàng)目已經(jīng)在GitHub上開源。而Snorkel Drybell的目標(biāo)是在工業(yè)規(guī)模上部署弱監(jiān)督學(xué)習(xí)。

而且用這種方法開發(fā)的分類器質(zhì)量與手工標(biāo)記樣本進(jìn)行訓(xùn)練的分類器效果相當(dāng)，把弱監(jiān)督分類器的平均性能提高了52%。

什么是Snorkel

Snorkel是斯坦福大學(xué)在2016年為許多弱監(jiān)督學(xué)習(xí)開發(fā)的一個通用框架，由這種方法生成的標(biāo)簽可用于訓(xùn)練任意模型。

已經(jīng)有人將Snorkel用于處理圖像數(shù)據(jù)、自然語言監(jiān)督、處理半結(jié)構(gòu)化數(shù)據(jù)、自動生成訓(xùn)練集等具體用途。

原理

與手工標(biāo)注訓(xùn)練數(shù)據(jù)不同，Snorkel DryBell支持編寫標(biāo)記函數(shù)，以編程方式標(biāo)記訓(xùn)練數(shù)據(jù)。

過去的方法中，標(biāo)記函數(shù)只是以編程方式標(biāo)記數(shù)據(jù)的腳本，它產(chǎn)生的標(biāo)簽是帶有噪聲的。

為了解決噪聲等問題，Supert Drybell使用生成建模技術(shù)，以一種可證明一致的方式自動估計標(biāo)記函數(shù)的準(zhǔn)確性和相關(guān)性，而無需任何基本事實(shí)作為訓(xùn)練標(biāo)簽。然后用這種方法對每個數(shù)據(jù)點(diǎn)的輸出進(jìn)行重新加權(quán)，并組合成一個概率標(biāo)簽。

使用多種知識來源作為弱監(jiān)督

Snorkel Drybell先用多種知識來源作為弱監(jiān)督，在基于MapReduce模板的pipeline中編寫標(biāo)記函數(shù)，每個標(biāo)記函數(shù)都接受一個數(shù)據(jù)點(diǎn)生成的概率標(biāo)簽，并選擇返回None（無標(biāo)簽）或輸出標(biāo)簽。

這一步生成的標(biāo)簽帶有大量噪聲，甚至相互沖突，還行需要進(jìn)一步的清洗才能用到最終的訓(xùn)練集中。

結(jié)合和重新利用現(xiàn)有資源對準(zhǔn)確度建模

為了處理這些噪聲標(biāo)簽，Snorkel DryBell將標(biāo)記函數(shù)的輸出組合成對每個數(shù)據(jù)點(diǎn)的訓(xùn)練標(biāo)簽置信度加權(quán)。這一步的難點(diǎn)在于，必須在沒有任何真實(shí)標(biāo)簽的情況下完成。

研究人員使用生成建模技術(shù)，僅使用未標(biāo)記的數(shù)據(jù)來學(xué)習(xí)每個標(biāo)記函數(shù)的準(zhǔn)確性。通過標(biāo)簽函數(shù)輸出之間的一致性矩陣來學(xué)習(xí)打標(biāo)簽是否準(zhǔn)確。

在Snorkel DryBell中，研究人員還實(shí)現(xiàn)了建模方法一種更快、無采樣的版本，并在TensorFlow中實(shí)現(xiàn)，以處理Web規(guī)模的數(shù)據(jù)。

通過在Snorkel DryBell中使用此程序組合和建模標(biāo)簽函數(shù)的輸出，能夠生成高質(zhì)量的訓(xùn)練標(biāo)簽。與兩個分別有1.2萬和8萬個手工標(biāo)記訓(xùn)練數(shù)據(jù)集比較，由Snorkel DryBell標(biāo)記的數(shù)據(jù)集訓(xùn)練出的模型實(shí)現(xiàn)了一樣的預(yù)測準(zhǔn)確度。

將不可服務(wù)的知識遷移到可服務(wù)的模型

在許多情況下，可服務(wù)特征(可用于生產(chǎn))和不可服務(wù)特征(太慢或太貴而無法用于生產(chǎn))之間也有重要區(qū)別。這些不可服務(wù)的特征可能具有非常豐富的信號，但是有個問題是如何使用它們來訓(xùn)練，或者是幫助能在生產(chǎn)中部署的可服務(wù)模型呢？

在Snorkel DryBell中，用戶發(fā)現(xiàn)可以在一個不可服務(wù)的特征集上編寫標(biāo)簽函數(shù)，然后使用Snorkel DryBell輸出的訓(xùn)練標(biāo)簽來訓(xùn)練在不同的、可服務(wù)的特征集上定義的模型。

這種跨特征轉(zhuǎn)移將基準(zhǔn)數(shù)據(jù)集的性能平均提高了52%。

這種方法可以被看作是一種新型的遷移學(xué)習(xí)，但不是在不同的數(shù)據(jù)集之間轉(zhuǎn)移模型，而是在不同的特征集之間轉(zhuǎn)移領(lǐng)域知識。它可以使用速度太慢、私有或其他不適合部署的資源，在廉價、實(shí)時特征上訓(xùn)練可服務(wù)的模型。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

函數(shù)

函數(shù)

+關(guān)注

關(guān)注
3

文章
4417

瀏覽量
67499
機(jī)器學(xué)習(xí)

機(jī)器學(xué)習(xí)

+關(guān)注

關(guān)注
66

文章
8553

瀏覽量
136920
數(shù)據(jù)集

數(shù)據(jù)集

+關(guān)注

關(guān)注
4

文章
1236

瀏覽量
26187

原文標(biāo)題：告別數(shù)據(jù)集資源匱乏，谷歌與斯坦福大學(xué)用弱監(jiān)督學(xué)習(xí)給訓(xùn)練集打標(biāo)簽

文章出處：【微信號：worldofai，微信公眾號：worldofai】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛兴趣闲谈,欧美亚洲精品 8区,国产精品久久久久精品免费

搜索歷史

標(biāo)記訓(xùn)練集中的數(shù)據(jù)樣本是開發(fā)機(jī)器學(xué)習(xí)應(yīng)用的最大瓶頸之一

評論