普林斯頓大學(xué)的研究人員開(kāi)發(fā)了一種工具,用于標(biāo)記用于訓(xùn)練人工智能(AI)系統(tǒng)的圖像集中的潛在偏差。這項(xiàng)工作是糾正和防止AI系統(tǒng)中普遍存在的偏見(jiàn)的一項(xiàng)較大努力的一部分,該偏見(jiàn)影響了從信貸服務(wù)到法庭判決程序的所有內(nèi)容。
盡管AI系統(tǒng)中偏見(jiàn)的來(lái)源多種多樣,但一個(gè)主要的原因是從在線資源收集的大量圖像中包含的定型圖像,工程師使用這些圖像來(lái)開(kāi)發(fā)計(jì)算機(jī)視覺(jué),這是AI的一個(gè)分支,允許計(jì)算機(jī)識(shí)別人,物體和動(dòng)作。由于計(jì)算機(jī)視覺(jué)的基礎(chǔ)是建立在這些數(shù)據(jù)集上的,因此反映社會(huì)定型觀念和偏見(jiàn)的圖像會(huì)無(wú)意間影響計(jì)算機(jī)視覺(jué)模型。
為了從源頭上解決這個(gè)問(wèn)題,普林斯頓視覺(jué)AI實(shí)驗(yàn)室的研究人員開(kāi)發(fā)了一種開(kāi)源工具,該工具可以自動(dòng)發(fā)現(xiàn)視覺(jué)數(shù)據(jù)集中的潛在偏差。該工具允許數(shù)據(jù)集創(chuàng)建者和用戶在使用圖像收集來(lái)訓(xùn)練計(jì)算機(jī)視覺(jué)模型之前糾正代表性不足或刻板印象的問(wèn)題。在相關(guān)工作中,Visual AI Lab的成員發(fā)布了現(xiàn)有方法的比較,這些方法可防止計(jì)算機(jī)視覺(jué)模型本身出現(xiàn)偏差,并提出了一種新的,更有效的緩解偏差的方法。
第一個(gè)工具稱為REVISE(揭示視覺(jué)偏見(jiàn)),它使用統(tǒng)計(jì)方法來(lái)檢查數(shù)據(jù)集的三個(gè)方面:基于對(duì)象,基于性別和基于地理位置的潛在偏見(jiàn)或代表性不足。REVISE是一種全自動(dòng)工具,建立在早期工作的基礎(chǔ)上,涉及以需要用戶更多指導(dǎo)的方式來(lái)過(guò)濾和平衡數(shù)據(jù)集的圖像。該研究報(bào)告于8月24日在虛擬的歐洲計(jì)算機(jī)視覺(jué)會(huì)議上發(fā)表。
REVISE使用現(xiàn)有的圖像注釋和度量來(lái)評(píng)估數(shù)據(jù)集的內(nèi)容,例如對(duì)象計(jì)數(shù),對(duì)象和人的共現(xiàn)以及圖像的原產(chǎn)國(guó)。在這些測(cè)量中,該工具可顯示不同于中值分布的圖案。
例如,在一個(gè)測(cè)試的數(shù)據(jù)集中,REVISE顯示,包括人和花朵在內(nèi)的圖像在雄性和雌性之間是不同的:雄性更經(jīng)常出現(xiàn)在儀式或會(huì)議上,并帶有花朵,而雌性則傾向于出現(xiàn)在舞臺(tái)上或繪畫中。(分析僅限于反映圖像中出現(xiàn)的人的二元性別的注釋。)
一旦該工具揭示了這些差異,“那么,這就是一個(gè)完全無(wú)害的事實(shí),或者是否正在發(fā)生更深層的事情,而這很難自動(dòng)化,”計(jì)算機(jī)科學(xué)與專業(yè)副教授奧爾加·魯薩科夫斯基(Olga Russakovsky)說(shuō)。視覺(jué)AI實(shí)驗(yàn)室的調(diào)查員。Russakovsky與研究生Angelina Wang和計(jì)算機(jī)科學(xué)副教授Arvind Narayanan共同撰寫了該論文。
例如,REVISE顯示,包括飛機(jī),床和比薩餅在內(nèi)的物體在包含它們的圖像中比在其中一個(gè)數(shù)據(jù)集中的典型物體更大。這樣的問(wèn)題可能不會(huì)永久保留社會(huì)定型觀念,但是對(duì)于訓(xùn)練計(jì)算機(jī)視覺(jué)模型可能會(huì)出現(xiàn)問(wèn)題。作為補(bǔ)救措施,研究人員建議收集飛機(jī)圖像,其中還包括山峰,沙漠或天空標(biāo)簽。
但是,計(jì)算機(jī)視覺(jué)數(shù)據(jù)集中全球區(qū)域的代表性不足,可能會(huì)導(dǎo)致AI算法出現(xiàn)偏差。與以前的分析一致,研究人員發(fā)現(xiàn),對(duì)于圖像的來(lái)源國(guó)(按人口標(biāo)準(zhǔn)化),美國(guó)和歐洲國(guó)家在數(shù)據(jù)集中的代表過(guò)多。除此之外,REVISE還顯示,對(duì)于來(lái)自世界其他地區(qū)的圖像,圖像標(biāo)題通常不是使用本地語(yǔ)言,這表明其中許多圖像是被游客捕獲的,并可能導(dǎo)致某個(gè)國(guó)家/地區(qū)的視角偏斜。
Russakovsky說(shuō),專注于對(duì)象檢測(cè)的研究人員可能會(huì)忽略計(jì)算機(jī)視覺(jué)的公平性問(wèn)題。她說(shuō):“但是,這種地理分析表明,物體識(shí)別仍然可能存在很大的偏見(jiàn)和排他性,并且會(huì)不平等地影響不同的地區(qū)和人民?!?/p>
共同作者,計(jì)算機(jī)科學(xué)研究生安吉麗娜·王說(shuō):“直到最近,才對(duì)計(jì)算機(jī)科學(xué)中的數(shù)據(jù)集收集實(shí)踐進(jìn)行徹底的審查?!彼f(shuō),圖片大多是“從互聯(lián)網(wǎng)上抓取的,人們并不總是意識(shí)到他們的圖片在[數(shù)據(jù)集中]被使用。我們應(yīng)該從更多的人群中收集圖片,但是當(dāng)我們這樣做時(shí),我們應(yīng)該小心我們以尊重的方式獲得圖像?!?/p>
“工具和基準(zhǔn)測(cè)試是重要的一步……它們使我們能夠在開(kāi)發(fā)初期就抓住這些偏見(jiàn),并重新考慮我們的問(wèn)題設(shè)置和假設(shè)以及數(shù)據(jù)收集實(shí)踐,”計(jì)算機(jī)科學(xué)助理教授Vicente Ordonez-Roman說(shuō)。未參與研究的弗吉尼亞大學(xué)?!霸谟?jì)算機(jī)視覺(jué)中,有關(guān)刻板印象的表示和傳播存在一些特定的挑戰(zhàn)。諸如普林斯頓視覺(jué)AI實(shí)驗(yàn)室所做的工作有助于闡明這些問(wèn)題并引起計(jì)算機(jī)視覺(jué)界的注意,并提供了緩解這些問(wèn)題的策略。 ”
視覺(jué)AI實(shí)驗(yàn)室的一項(xiàng)相關(guān)研究對(duì)防止計(jì)算機(jī)視覺(jué)模型學(xué)習(xí)可能反映偏差的虛假關(guān)聯(lián)進(jìn)行了研究,這些虛假關(guān)聯(lián)可能會(huì)反映偏差,例如過(guò)度預(yù)測(cè)活動(dòng)(例如以女性形象烹飪或以男性形象進(jìn)行計(jì)算機(jī)編程)。視覺(jué)提示(例如,斑馬是黑白的,或者籃球運(yùn)動(dòng)員經(jīng)常穿著球衣)有助于提高模型的準(zhǔn)確性,因此在開(kāi)發(fā)有效模型的同時(shí)避免出現(xiàn)問(wèn)題性關(guān)聯(lián)是該領(lǐng)域的重大挑戰(zhàn)。
在6月舉行的虛擬計(jì)算機(jī)視覺(jué)和模式識(shí)別國(guó)際國(guó)際會(huì)議上提出的研究中,電氣工程專業(yè)的研究生Zeyu Wang及其同事比較了四種緩解計(jì)算機(jī)視覺(jué)模型偏差的技術(shù)。
他們發(fā)現(xiàn)一種稱為對(duì)抗訓(xùn)練或“盲目的公平”的流行技術(shù)損害了圖像識(shí)別模型的整體性能。在對(duì)抗訓(xùn)練中,模型無(wú)法考慮有關(guān)受保護(hù)變量的信息-在研究中,研究人員使用性別作為測(cè)試案例。在團(tuán)隊(duì)的分析中,另一種方法稱為域獨(dú)立培訓(xùn),即“通過(guò)意識(shí)進(jìn)行公平”,效果更好。
魯薩科夫斯基說(shuō):“從本質(zhì)上講,這意味著我們將針對(duì)不同性別進(jìn)行不同的活動(dòng)頻率,是的,這一預(yù)測(cè)將取決于性別。因此,我們只是接受這一觀點(diǎn)?!?/p>
本文中概述的技術(shù)通過(guò)與其他視覺(jué)提示分開(kāi)考慮受保護(hù)的屬性來(lái)減輕潛在的偏見(jiàn)。
王澤宇說(shuō):“我們?nèi)绾握嬲鉀Q偏差問(wèn)題是一個(gè)更深層次的問(wèn)題,因?yàn)槲覀儺?dāng)然可以看到它存在于數(shù)據(jù)本身中?!彼f(shuō):“但是在現(xiàn)實(shí)世界中,人們?nèi)匀豢梢栽谝庾R(shí)到我們的偏見(jiàn)的同時(shí)做出良好的判斷”,并且可以設(shè)置計(jì)算機(jī)視覺(jué)模型以類似的方式工作。
責(zé)任編輯:lq
-
圖像
+關(guān)注
關(guān)注
2文章
1094瀏覽量
41241 -
人工智能
+關(guān)注
關(guān)注
1806文章
49011瀏覽量
249371 -
數(shù)據(jù)集
+關(guān)注
關(guān)注
4文章
1224瀏覽量
25445
發(fā)布評(píng)論請(qǐng)先 登錄
評(píng)論