作為工作中最關(guān)鍵的部分,數(shù)據(jù)預(yù)處理同時(shí)也是大多數(shù)數(shù)據(jù)科學(xué)家耗時(shí)最長(zhǎng)的項(xiàng)目,他們大約80%的時(shí)間花在這上面。
這些任務(wù)有怎樣重要性?有哪些學(xué)習(xí)方法和技巧?本文就將重點(diǎn)介紹來自著名大學(xué)和研究團(tuán)隊(duì)在不同培訓(xùn)數(shù)據(jù)主題上的學(xué)術(shù)論文。主題包括人類注釋者的重要性,如何在相對(duì)較短的時(shí)間內(nèi)創(chuàng)建大型數(shù)據(jù)集,如何安全處理可能包含私人信息的訓(xùn)練數(shù)據(jù)等等。
1. 人類注釋器(human annotators)是多么重要?

本文介紹了注釋器質(zhì)量如何極大地影響訓(xùn)練數(shù)據(jù),進(jìn)而影響模型的準(zhǔn)確性的第一手資料。在這個(gè)情緒分類項(xiàng)目里,Joef Stefan研究所的研究人員用多種語(yǔ)言分析了sentiment-annotated tweet的大型數(shù)據(jù)集。
有趣的是,該項(xiàng)目的結(jié)果表明頂級(jí)分類模型的性能在統(tǒng)計(jì)學(xué)上沒有重大差異。相反,人類注釋器的質(zhì)量是決定模型準(zhǔn)確性的更大因素。
為了評(píng)估他們的注釋器,團(tuán)隊(duì)使用了注釋器之間的認(rèn)同過程和自我認(rèn)同過程。研究發(fā)現(xiàn),雖然自我認(rèn)同是去除表現(xiàn)不佳的注釋器的好方法,但注釋者之間的認(rèn)同可以用來衡量任務(wù)的客觀難度。
研究論文:《多語(yǔ)言Twitter情緒分類:人類注釋器的角色》(MultilingualTwitter Sentiment Classification: The Role of Human Annotators)
作者/供稿人:Igor Mozetic, Miha Grcar, Jasmina Smailovic(所有作者均來自Jozef Stefan研究所)
出版/最后更新日期:2016年5月5日
2.機(jī)器學(xué)習(xí)的數(shù)據(jù)收集調(diào)查

這篇論文來自韓國(guó)先進(jìn)科學(xué)技術(shù)研究所的一個(gè)研究團(tuán)隊(duì),非常適合那些希望更好地了解數(shù)據(jù)收集、管理和注釋的初學(xué)者。此外,本文還介紹和解釋了數(shù)據(jù)采集、數(shù)據(jù)擴(kuò)充和數(shù)據(jù)生成的過程。
對(duì)于剛接觸機(jī)器學(xué)習(xí)的人來說,這篇文章是一個(gè)很好的資源,可以幫助你了解許多常見的技術(shù),這些技術(shù)可以用來創(chuàng)建高質(zhì)量的數(shù)據(jù)集。
研究論文:《機(jī)器學(xué)習(xí)的數(shù)據(jù)收集調(diào)查》(A Survey on Data Collection for MachineLearning)
作者/供稿人: Yuji Roh, Geon Heo, Steven Euijong Whang (所有作者均來自韓國(guó)科學(xué)技術(shù)院)
出版/最后更新日期:2019年8月12日
3.用于半監(jiān)督式學(xué)習(xí)和遷移學(xué)習(xí)的高級(jí)數(shù)據(jù)增強(qiáng)技術(shù)

目前數(shù)據(jù)科學(xué)家面臨的最大問題之一就是獲得訓(xùn)練數(shù)據(jù)。也可以說,深度學(xué)習(xí)所面臨最大的問題之一,是大多數(shù)模型都需要大量的標(biāo)簽數(shù)據(jù)才能以較高的精度發(fā)揮作用。
為了解決這些問題,來自谷歌和卡內(nèi)基·梅隆大學(xué)的研究人員提出了一個(gè)在大幅降低數(shù)據(jù)量的情況下訓(xùn)練模型的框架。該團(tuán)隊(duì)提出使用先進(jìn)的數(shù)據(jù)增強(qiáng)方法來有效地將噪音添加到半監(jiān)督式學(xué)習(xí)模型中使用的未標(biāo)記數(shù)據(jù)樣本中,這個(gè)框架能夠取得令人難以置信的結(jié)果。
該團(tuán)隊(duì)表示,在IMDB文本分類數(shù)據(jù)集上,他們的方法只需在20個(gè)標(biāo)記樣本上進(jìn)行訓(xùn)練,就能夠超越最先進(jìn)的模型。此外,在CIFAR-10基準(zhǔn)上,他們的方法表現(xiàn)優(yōu)于此前所有的方法。
論文題目:《用于一致性訓(xùn)練的無監(jiān)督數(shù)據(jù)增強(qiáng)》(UnsupervisedData Augmentation for Consistency Training)
作者/供稿人:Qizhe Xie (1,2), Zihang Dai (1,2), Eduard Hovy (2),Minh-Thang Luong (1), Quoc V. Le (1) (1 – Google研究院,谷歌大腦團(tuán)隊(duì), 2 – 卡耐基·梅隆大學(xué))
發(fā)布日期 / 最后更新:2019年9月30日
4.利用弱監(jiān)督對(duì)大量數(shù)據(jù)進(jìn)行標(biāo)注
對(duì)于許多機(jī)器學(xué)習(xí)項(xiàng)目來說,獲取和注釋大型數(shù)據(jù)集需要花費(fèi)大量的時(shí)間。在這篇論文中,來自斯坦福大學(xué)的研究人員提出了一個(gè)通過稱為“數(shù)據(jù)編程”的過程自動(dòng)創(chuàng)建數(shù)據(jù)集的系統(tǒng)。

上表是直接從論文中提取的,使用數(shù)據(jù)編程(DP)顯示了與遠(yuǎn)程監(jiān)督的ITR方法相比的精度、召回率和F1得分。
該系統(tǒng)采用弱監(jiān)管策略來標(biāo)注數(shù)據(jù)子集。產(chǎn)生的標(biāo)簽和數(shù)據(jù)可能會(huì)有一定程度的噪音。然而,該團(tuán)隊(duì)隨后通過將訓(xùn)練過程表示為生成模型,從數(shù)據(jù)中去除噪音,并提出了修改損失函數(shù)的方法,以確保它對(duì)“噪音感知”。
研究論文:《數(shù)據(jù)編程:快速創(chuàng)建大型訓(xùn)練集》(DataProgramming: Creating Large Training Sets, Quickly)
作者/供稿人:Alexander Ratner, Christopher De Sa, Sen Wu, DanielSelsam, Christopher Re(作者均來自斯坦福大學(xué))
發(fā)布/最后更新日期:2017年1月8日
5.如何使用半監(jiān)督式知識(shí)轉(zhuǎn)移來處理個(gè)人身份信息(PII)

來自谷歌和賓夕法尼亞州立大學(xué)的研究人員介紹了一種處理敏感數(shù)據(jù)的方法,例如病歷和用戶隱私信息。這種方法被稱為教師集合私有化(PATE),可以應(yīng)用于任何模型,并且能夠在MNIST和SVHN數(shù)據(jù)集上實(shí)現(xiàn)最先進(jìn)的隱私/效用權(quán)衡。
然而,正如數(shù)據(jù)科學(xué)家Alejandro Aristizabal在文章中所說,PATE所設(shè)計(jì)的一個(gè)主要問題為該框架要求學(xué)生模型與教師模型共享其數(shù)據(jù)。在這個(gè)過程中,隱私得不到保障。
為此Aristizabal提出了一個(gè)額外的步驟,為學(xué)生模型的數(shù)據(jù)集加密。你可以在他的文章Making PATEBidirectionally Private中讀到這個(gè)過程,但一定要先閱讀其原始研究論文。
論文題目:《從隱私訓(xùn)練數(shù)據(jù)進(jìn)行深度學(xué)習(xí)的半監(jiān)督式知識(shí)轉(zhuǎn)移》(Semi-SupervisedKnowledge Transfer for Deep Learning From Private Training Data)
作者/供稿人:Nicolas Papernot(賓夕法尼亞州立大學(xué))、Martin Abadi(谷歌大腦)、Ulfar Erlingsson(谷歌)、Ian Goodfellow(谷歌大腦)、Kunal Talwar(谷歌大腦)。
發(fā)布日期 / 最后更新:2017年3月3日
閱讀頂尖學(xué)術(shù)論文是了解學(xué)術(shù)前沿的不二法門,同時(shí)也是從他人實(shí)踐中內(nèi)化重要知識(shí)、學(xué)習(xí)優(yōu)秀研究方法的好辦法,多讀讀論文絕對(duì)會(huì)對(duì)你有幫助。
-
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8553瀏覽量
136975 -
論文
+關(guān)注
關(guān)注
1文章
103瀏覽量
15416 -
數(shù)據(jù)預(yù)處理
+關(guān)注
關(guān)注
1文章
20瀏覽量
3000
發(fā)布評(píng)論請(qǐng)先 登錄
機(jī)器學(xué)習(xí)特征工程:分類變量的數(shù)值化處理方法
人工智能與機(jī)器學(xué)習(xí)在這些行業(yè)的深度應(yīng)用
機(jī)器學(xué)習(xí)和深度學(xué)習(xí)中需避免的 7 個(gè)常見錯(cuò)誤與局限性
數(shù)據(jù)預(yù)處理軟核加速模塊設(shè)計(jì)
思必馳與上海交大聯(lián)合實(shí)驗(yàn)室五篇論文入選NeurIPS 2025
量子機(jī)器學(xué)習(xí)入門:三種數(shù)據(jù)編碼方法對(duì)比與應(yīng)用
超小型Neuton機(jī)器學(xué)習(xí)模型, 在任何系統(tǒng)級(jí)芯片(SoC)上解鎖邊緣人工智能應(yīng)用.
FPGA在機(jī)器學(xué)習(xí)中的具體應(yīng)用
思必馳與上海交大聯(lián)合實(shí)驗(yàn)室兩篇論文入選ICML 2025
邊緣計(jì)算中的機(jī)器學(xué)習(xí):基于 Linux 系統(tǒng)的實(shí)時(shí)推理模型部署與工業(yè)集成!
機(jī)器學(xué)習(xí)賦能的智能光子學(xué)器件系統(tǒng)研究與應(yīng)用
使用MATLAB進(jìn)行無監(jiān)督學(xué)習(xí)
嵌入式AI技術(shù)之深度學(xué)習(xí):數(shù)據(jù)樣本預(yù)處理過程中使用合適的特征變換對(duì)深度學(xué)習(xí)的意義
**【技術(shù)干貨】Nordic nRF54系列芯片:傳感器數(shù)據(jù)采集與AI機(jī)器學(xué)習(xí)的完美結(jié)合**
Raspberry Pi Pico 2 上實(shí)現(xiàn):實(shí)時(shí)機(jī)器學(xué)習(xí)(ML)音頻噪音抑制功能
機(jī)器學(xué)習(xí)的任務(wù):從學(xué)術(shù)論文中學(xué)習(xí)數(shù)據(jù)預(yù)處理
評(píng)論