日本亚洲A在线观看,健身美女

機器學習中的數(shù)據(jù)偏差是一種錯誤，其中數(shù)據(jù)集的某些元素比其他元素具有更大的權(quán)重和或表示。有偏見的數(shù)據(jù)集不能準確地表示模型的用例，從而導致結(jié)果偏斜，準確性水平低和分析錯誤。

通常，用于機器學習項目的訓練數(shù)據(jù)必須代表現(xiàn)實世界。這很重要，因為這些數(shù)據(jù)是機器學習如何完成其工作的方式。數(shù)據(jù)偏差可能會發(fā)生在從人類報告和選擇偏差到算法和解釋偏差的一系列區(qū)域中。

解決機器學習項目中的數(shù)據(jù)偏差意味著首先確定它在哪里。只有在知道存在偏見的地方之后，你才可以采取必要的措施來糾正它，無論是解決數(shù)據(jù)不足還是改善注釋過程的問題?？紤]到這一點，請務必對數(shù)據(jù)的范圍，質(zhì)量和處理保持警惕，以免產(chǎn)生偏差。這不僅影響模型的準確性，而且還會涉及道德，公平和包容性問題。

下面，我列出了機器學習中最常見的7種數(shù)據(jù)偏見類型，以幫助你分析和了解其發(fā)生的位置以及你可以采取的措施。

數(shù)據(jù)偏差的類型

盡管并不詳盡，但此列表包含了該領域中數(shù)據(jù)偏見的常見示例，以及其發(fā)生位置的示例。

樣本偏差：當數(shù)據(jù)集不能反映模型將在其中運行的環(huán)境的實際情況時，就會發(fā)生樣本偏差。這樣的一個例子是某些主要在白人圖像上訓練的面部識別系統(tǒng)。這些模型對婦女和不同種族的人的準確度要低得多。此偏差的另一個名稱是選擇偏差。

排除偏差：排除偏差在數(shù)據(jù)預處理階段最常見。通常，這是刪除不重要的有價值數(shù)據(jù)的情況。但是，由于某些信息的系統(tǒng)排除，它也可能發(fā)生。例如，假設你有一個在美國和加拿大的客戶銷售數(shù)據(jù)集。98％的客戶來自美國，因此你選擇刪除不相關的位置數(shù)據(jù)。但是，這意味著你的模型將不會因為加拿大客戶的消費增加兩倍多這一事實而受到影響。

測量偏差：當為訓練而收集的數(shù)據(jù)與現(xiàn)實世界中收集的數(shù)據(jù)不同時，或者當錯誤的測量結(jié)果導致數(shù)據(jù)失真時，就會發(fā)生這種偏差。這種偏差的一個很好的例子出現(xiàn)在圖像識別數(shù)據(jù)集中，其中訓練數(shù)據(jù)是用一種類型的照相機收集的，而生產(chǎn)數(shù)據(jù)是用另一種照相機收集的。在項目的數(shù)據(jù)標記階段，由于注釋不一致也會導致測量偏差。

召回偏差：這是一種測量偏差，在項目的數(shù)據(jù)標記階段很常見。當你不一致地標記相似類型的數(shù)據(jù)時，就會產(chǎn)生召回偏差。這導致較低的精度。例如，假設你有一個團隊將電話的圖像標記為損壞，部分損壞或未損壞。如果有人將一張圖像標記為已損壞，但將相似的圖像標記為部分已損壞，則你的數(shù)據(jù)將不一致。

觀察者偏差：也稱為確認偏差，觀察者偏差是看到你期望在數(shù)據(jù)中看到或想要看到的結(jié)果的效果。當研究人員在有意識或無意識的情況下對自己的研究有主觀想法進入項目時，可能會發(fā)生這種情況。當標簽制作者讓主觀思想控制他們的標簽制作習慣，從而導致數(shù)據(jù)不準確時，你也可以看到這一點。

種族偏見：盡管不是傳統(tǒng)意義上的數(shù)據(jù)偏見，但由于其在AI技術(shù)中的盛行，因此仍然值得一提。當數(shù)據(jù)偏向特定人群時，就會發(fā)生種族偏見。在面部識別和自動語音識別技術(shù)中可以看到這一點，該技術(shù)無法像白種人那樣準確地識別有色人種。Google的Inclusive Images競賽提供了很好的例子說明了這種情況的發(fā)生。

關聯(lián)偏差：當機器學習模型的數(shù)據(jù)加強和/或乘以文化偏差時，就會發(fā)生這種偏差。你的數(shù)據(jù)集可能包含一組工作，其中所有男性都是醫(yī)生，所有女性都是護士。這并不意味著女人不能當醫(yī)生，男人不能當護士。但是，就你的機器學習模型而言，不存在女醫(yī)生和男護士。社交偏見最出名的是造成性別偏見，這在“挖掘人工智能”研究中可見。

如何避免機器學習項目中的數(shù)據(jù)偏差？

防止機器學習項目中的數(shù)據(jù)偏差是一個持續(xù)的過程。盡管有時很難知道數(shù)據(jù)或模型何時出現(xiàn)偏差，但是你可以采取許多步驟來幫助防止偏差或及早發(fā)現(xiàn)偏差。盡管遠非詳盡的清單，但以下要點為思考機器學習項目的數(shù)據(jù)偏差提供了入門級指南。

盡你所能，事先研究用戶。請注意你的一般用例和潛在異常值。

確保你的數(shù)據(jù)科學家和數(shù)據(jù)標簽團隊是多元化的。

盡可能合并來自多個來源的輸入以確保數(shù)據(jù)多樣性。

為數(shù)據(jù)標簽創(chuàng)建黃金標準。黃金標準是一組數(shù)據(jù)，可以反映任務的理想標記數(shù)據(jù)。它使你能夠測量團隊的注釋的準確性。

為數(shù)據(jù)標簽期望制定明確的準則，以便數(shù)據(jù)標簽保持一致。

對于可能會出現(xiàn)數(shù)據(jù)準確性偏差的任何項目，請使用多次通過注釋。例如，情感分析，內(nèi)容審核和意圖識別。

尋求具有領域?qū)I(yè)知識的人員的幫助，以查看你收集和/或注釋的數(shù)據(jù)。團隊外部的人可能會看到團隊忽略的偏見。

定期分析你的數(shù)據(jù)。跟蹤錯誤和問題區(qū)域，以便您快速響應并解決它們。在決定刪除或保留它們之前，請仔細分析數(shù)據(jù)點。

使偏差測試成為開發(fā)周期的一部分。Google，IBM和Microsoft都發(fā)布了工具和指南，以幫助分析許多不同數(shù)據(jù)類型的偏差。

如果你想更深入地了解偏見的產(chǎn)生方式，偏見對機器學習模型的影響以及過去在自動化技術(shù)中的偏見，我建議你參考瑪格麗特·米切爾（Margaret Mitchell）的“人工智能的視野和語言偏見”演示。

鏈接：https://web.stanford.edu/class/archive/cs/cs224n/cs224n.1194/slides/cs224n-2019-lecture19-bias.pdf?ref=hackernoon.com

總結(jié)

請務必注意任何數(shù)據(jù)項目在機器學習中的潛在偏見。通過盡早安裝正確的系統(tǒng)并保持數(shù)據(jù)收集，標記和實施的最頂層，你可以在出現(xiàn)問題之前就注意到它，或者在出現(xiàn)問題時對其進行響應。

責任編輯：xj

原文標題：機器學習中的7種數(shù)據(jù)偏見

文章出處：【微信公眾號：Imagination Tech】歡迎添加關注！文章轉(zhuǎn)載請注明出處。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴