chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

Google遵循AI原則減少機(jī)器翻譯的性別偏見(jiàn)

硬件三人行 ? 來(lái)源:TensorFlow ? 作者:Romina Stella ? 2021-08-24 10:14 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

得益于神經(jīng)機(jī)器翻譯 (NMT) 的進(jìn)步,譯文更加自然流暢,但與此同時(shí),這些譯文也反映出訓(xùn)練數(shù)據(jù)存在社會(huì)偏見(jiàn)和刻板印象。因此,Google 持續(xù)致力于遵循 AI 原則,開(kāi)發(fā)創(chuàng)新技術(shù),減少機(jī)器翻譯中的性別偏見(jiàn)。

神經(jīng)機(jī)器翻譯

https://ai.googleblog.com/2020/06/recent-advances-in-google-translate.html

其中一個(gè)研究領(lǐng)域是利用句子或段落等上下文,來(lái)提高性別表述的準(zhǔn)確性。傳統(tǒng) NMT 方法是單獨(dú)翻譯句子,但單獨(dú)的句子中并不是總能帶有對(duì)性別信息的明確說(shuō)明,因此這無(wú)疑會(huì)帶來(lái)挑戰(zhàn)。例如,在下方西班牙語(yǔ)(該語(yǔ)言并不總是明確提及主語(yǔ) (Null-subject language))段落中,第一句話明確將 Marie Curie 視為主語(yǔ),但第二句話沒(méi)有明確提及主語(yǔ)。孤立來(lái)看,第二句話可以指任何性別的人。然而,在翻譯成英語(yǔ)時(shí),需要選擇一個(gè)代詞,而翻譯準(zhǔn)確所需的信息就在第一句話中。

西班牙語(yǔ)文本 英語(yǔ)譯文
Marie Curie nació en Varsovia.Fue la primera persona en recibir dos premios Nobel en distintas especialidades. Marie Curie was born in Warsaw.Shewas the first person to receive two Nobel Prizes in different specialties.

如果想推動(dòng)翻譯技術(shù),讓其不止步于單句翻譯,則需要新指標(biāo)來(lái)衡量進(jìn)展,并且需要新數(shù)據(jù)集,其中包括最常見(jiàn)的上下文錯(cuò)誤。翻譯性別錯(cuò)誤(如選擇正確的代詞或性別一致)可能直接涉及到人及自我認(rèn)同方式,因此尤其敏感。而這一點(diǎn)則進(jìn)一步加劇了挑戰(zhàn)。

為應(yīng)對(duì)上下文翻譯的常見(jiàn)挑戰(zhàn)(如代詞省略、性別一致和準(zhǔn)確使用所有格),我們發(fā)布了 Translated Wikipedia Biographies(維基百科傳記譯本)數(shù)據(jù)集,可用于評(píng)估翻譯模型的性別偏見(jiàn)。發(fā)布此數(shù)據(jù)集的目的在于提供衡量模型改變前后的翻譯準(zhǔn)確性的基準(zhǔn),從而對(duì)翻譯中代詞和性別的 ML 系統(tǒng)進(jìn)行長(zhǎng)期改進(jìn)。

Translated Wikipedia Biographies(維基百科傳記譯本)

https://storage.googleapis.com/gresearch/translate-gender-challenge-sets/Readme.html

常見(jiàn)翻譯錯(cuò)誤的來(lái)源

“維基百科傳記 (Wikipedia:Biographies of living persons) ”經(jīng)過(guò)精心撰寫(xiě),涵蓋多個(gè)地域,包含多個(gè)句子,并以第三人稱指代主語(yǔ)(所以包含大量代詞)。因此極有可能出現(xiàn)性別相關(guān)的翻譯錯(cuò)誤。當(dāng)文章在段落前幾句中明確提及某人,但在后面的句子中沒(méi)有明確提及時(shí),通常會(huì)出現(xiàn)性別相關(guān)的翻譯錯(cuò)誤。一些示例如下:

翻譯錯(cuò)誤 文本 譯文
西班牙語(yǔ)→英語(yǔ)中的代詞省略
(Pro-drop language)
Marie Curie nació en Varsovia.
Recibió el Premio
Nobel en 1903 y en 1911.
Marie Curie
was born in Warsaw.Hereceived the Nobel Prize in 1903 and in 1911.
西班牙語(yǔ)→英語(yǔ)中的中性所有格(Possessive determiner) Marie Curie nació en Varsovia.Su carrera profesional fue desarrollada en Francia. Marie Curie
was born in Warsaw.Hisprofessional career was developed
in France.
英語(yǔ)→德語(yǔ)中的性別一致(Grammatical gender) Marie Curie was born in Warsaw.The distinguished scientist received the Nobel Prize
in 1903 and
in 1911.
Marie Curiewurde in Varsovia geboren.DerangeseheneWissens-
chaftlererhielt1903 und 1911den
Nobelpreis.
英語(yǔ)→西班牙語(yǔ)中的性別一致
(Grammatical gender)
Marie Curie was born in Warsaw.The distinguished scientist received the Nobel Prize
in 1903 and
in 1911.
Marie Curienació en Varsovia.Eldistinguido científicorecibió el Premio Nobel en 1903 y en 1911.

構(gòu)建數(shù)據(jù)集

如上文所示,Translated Wikipedia Biographies(維基百科傳記譯本)數(shù)據(jù)集旨在分析機(jī)器翻譯中常見(jiàn)的性別表述錯(cuò)誤。該數(shù)據(jù)集中的每個(gè)實(shí)例代表個(gè)人(在傳記中被認(rèn)為是女性或男性)、搖滾樂(lè)隊(duì)或運(yùn)動(dòng)隊(duì)(被視為性別無(wú)關(guān))。每個(gè)實(shí)例都均由 8 到 15 個(gè)相互關(guān)聯(lián)的句子組成的長(zhǎng)文本翻譯來(lái)表示,且這些句子中會(huì)提到中心主語(yǔ)(人、搖滾樂(lè)隊(duì)或運(yùn)動(dòng)隊(duì))。文章撰寫(xiě)的源語(yǔ)言為英語(yǔ),并由專業(yè)人士處理,翻譯成西班牙語(yǔ)和德語(yǔ)。我們已針對(duì)代詞省略,對(duì)西班牙語(yǔ)譯文進(jìn)行優(yōu)化,因此可以使用相同的集合來(lái)分析代詞省略(西班牙語(yǔ)→英文)和性別一致(英語(yǔ)→西班牙語(yǔ))。

我們選擇一組在不同地域和性別之間具有同等代表性的實(shí)例構(gòu)建該數(shù)據(jù)集。為此,我們根據(jù)職業(yè)、專業(yè)、工作和/或活動(dòng),從維基百科中提取傳記。為了確保職業(yè)選擇的公平性,我們根據(jù)維基百科的統(tǒng)計(jì)數(shù)據(jù),選擇了九種職業(yè)。這些職業(yè)代表了一系列刻板的性別聯(lián)想(女性、男性或兩者都不是)。為了減輕任何基于地域的偏見(jiàn),之后我們根據(jù)不同地域來(lái)劃分所有這些實(shí)例。對(duì)于每個(gè)職業(yè)類別,我們希望每個(gè)地區(qū)(使用 census.gov 中的地區(qū)作為不同地域的代表)都有一名人選。在關(guān)聯(lián)實(shí)例與地區(qū)時(shí),我們會(huì)檢查被選者是否與指定地區(qū)的國(guó)家具有相關(guān)性(國(guó)籍、出生地、長(zhǎng)期居住之地等等)。該數(shù)據(jù)集使用此標(biāo)準(zhǔn),包含了來(lái)自世界 90 多個(gè)國(guó)家和所有地區(qū)的個(gè)人條目。

雖然性別并非二元化,但我們專注于令“女性”和“男性”實(shí)體具有同等代表性。值得一提的是,由于維基百科通過(guò)這種方式來(lái)表示實(shí)體,目前其中的實(shí)例還不足以準(zhǔn)確反映非二元群體。因此很遺憾,該集合并不包括標(biāo)識(shí)為非二元的個(gè)人。為了將每個(gè)實(shí)例貼上“女性”或“男性”標(biāo)簽,我們依靠的是維基百科上的傳記信息,其中包含對(duì)此人特定性別的參考資料(她、他、女人、兒子、父親等)。

在應(yīng)用所有這些過(guò)濾條件之后,我們會(huì)為每個(gè)“職業(yè)-地區(qū)-性別”三元組隨機(jī)選擇一個(gè)實(shí)例。針對(duì)七個(gè)地理區(qū)域的每一種職業(yè),我們都挑選了兩份傳記(一份男性傳記和一份女性傳記)。

最后,我們添加了 12 個(gè)性別無(wú)關(guān)實(shí)例。之所以選擇搖滾樂(lè)隊(duì)和運(yùn)動(dòng)隊(duì),是因?yàn)樗鼈兺ǔS蔁o(wú)性別的第三人稱代詞(如“它”或復(fù)數(shù)形式的“它們”)所指代。包含這些實(shí)例是為了研究過(guò)度觸發(fā) (over triggering),即當(dāng)模型得知其因產(chǎn)生特定性別的代詞而獲得獎(jiǎng)勵(lì)時(shí),它們會(huì)在本不應(yīng)該的情況下產(chǎn)生這些代詞。

結(jié)果和應(yīng)用

該數(shù)據(jù)集為降低機(jī)器翻譯中的性別偏見(jiàn)提供了一種新的評(píng)估方法(前一篇文章中已有所介紹)。每個(gè)實(shí)例都指向已知性別的主語(yǔ),因此我們可以計(jì)算出指向該主語(yǔ)的、特定性別翻譯的準(zhǔn)確性。在翻譯成英語(yǔ)(該語(yǔ)言有代詞省略或中性代詞)時(shí),因?yàn)橹饕?jì)算基于英語(yǔ)的特定性別代詞,所以這種計(jì)算更為容易。在這些情況下,與先前模型相比,上下文感知模型利用性別數(shù)據(jù)集,將錯(cuò)誤數(shù)量減少了 67%。如前所述,我們可利用中性實(shí)體,如使用陰性或陽(yáng)性代詞來(lái)指代無(wú)性別實(shí)體,來(lái)發(fā)現(xiàn)過(guò)度觸發(fā)的情況。這個(gè)新數(shù)據(jù)集還為不同類型的職業(yè)或地理區(qū)域中不同模型的性能提供了新的研究方向。

比如,我們利用該數(shù)據(jù)集,在翻譯自西班牙語(yǔ)的 Marie Curie 傳記節(jié)選中發(fā)現(xiàn)了改進(jìn)之處。

結(jié)論

Translated Wikipedia Biographies(維基百科傳記譯本)數(shù)據(jù)集是我們?cè)谘芯孔R(shí)別與性別和機(jī)器翻譯有關(guān)的偏見(jiàn)方面的工作成果。該數(shù)據(jù)集側(cè)重于與性別偏見(jiàn)有關(guān)的具體問(wèn)題,并不旨在涵蓋整個(gè)問(wèn)題。值得一提的是,我們發(fā)布此數(shù)據(jù)集的目的并不在于強(qiáng)調(diào)確定解決性別偏見(jiàn)的最佳方法,而是幫助推動(dòng)全球研究界在應(yīng)對(duì)這一方面挑戰(zhàn)。

致謝

這些數(shù)據(jù)集的構(gòu)建得到了以下人員的幫助:Anja Austermann、Melvin Johnson、Michelle Linch、Mengmeng Niu、Mahima Pushkarna、Apu Shah、Romina Stella 和 Kellie Webster。

責(zé)任編輯:haq

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 谷歌
    +關(guān)注

    關(guān)注

    27

    文章

    6249

    瀏覽量

    110719
  • AI
    AI
    +關(guān)注

    關(guān)注

    91

    文章

    39083

    瀏覽量

    299631
  • 機(jī)器學(xué)習(xí)

    關(guān)注

    66

    文章

    8546

    瀏覽量

    136522

原文標(biāo)題:用于研究翻譯中性別偏見(jiàn)的數(shù)據(jù)集

文章出處:【微信號(hào):yingjiansanrenxing,微信公眾號(hào):硬件三人行】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    視美泰發(fā)布AI即時(shí)翻譯機(jī)解決方案,硬核配置+多語(yǔ)種覆蓋破解跨語(yǔ)言溝通難題

    、機(jī)器翻譯、語(yǔ)音合成和大模型四項(xiàng)能力構(gòu)建高效同聲傳譯鏈路,實(shí)現(xiàn)70+種語(yǔ)言全覆蓋的強(qiáng)大能力,為跨境商貿(mào)、文化交流、戶外出行等場(chǎng)景提供高效精準(zhǔn)的翻譯解決方案,推動(dòng)AI
    的頭像 發(fā)表于 12-03 10:50 ?952次閱讀
    視美泰發(fā)布<b class='flag-5'>AI</b>即時(shí)<b class='flag-5'>翻譯</b>機(jī)解決方案,硬核配置+多語(yǔ)種覆蓋破解跨語(yǔ)言溝通難題

    VS680 HDMI AI分析解決方案 #目標(biāo)識(shí)別 #視頻翻譯 #AI #芯片

    AI
    深蕾半導(dǎo)體
    發(fā)布于 :2025年11月12日 10:29:33

    聲智科技AI翻譯耳機(jī)重塑智能聽(tīng)覺(jué)體驗(yàn)

    在日益緊密的全球化浪潮中,跨語(yǔ)言溝通的障礙正在被前沿的聲學(xué)AI技術(shù)逐步瓦解。聲智AI翻譯耳機(jī),憑借深厚的聲學(xué)AI積累,率先實(shí)現(xiàn)了“跨語(yǔ)種音色與情感復(fù)刻技術(shù)”在實(shí)時(shí)
    的頭像 發(fā)表于 10-21 15:28 ?837次閱讀
    聲智科技<b class='flag-5'>AI</b><b class='flag-5'>翻譯</b>耳機(jī)重塑智能聽(tīng)覺(jué)體驗(yàn)

    vivo攜手Google Cloud推動(dòng)智能手機(jī)邁入AI新時(shí)代

    在人們期待更智能、更前瞻手機(jī)的時(shí)代,vivo 攜手 Google Cloud,迅速推出更安全、更前沿的 AI 功能,共同加速創(chuàng)新,推動(dòng)智能手機(jī)邁入智能、無(wú)縫、以人為本的 AI 新時(shí)代。
    的頭像 發(fā)表于 09-23 16:54 ?1269次閱讀

    為了減少電磁干擾,裝置在硬件設(shè)計(jì)時(shí)應(yīng)該遵循哪些原則

    在硬件設(shè)計(jì)階段減少電磁干擾(EMI)對(duì)電能質(zhì)量在線監(jiān)測(cè)裝置的影響,需遵循 “ 源頭抑制、路徑阻斷、敏感防護(hù) ” 三大核心邏輯,覆蓋元器件選型、電路拓?fù)?、信?hào)隔離、濾波設(shè)計(jì)、接地布局、PCB 設(shè)計(jì)等全
    的頭像 發(fā)表于 09-19 15:41 ?704次閱讀

    聲智科技出席2025年北京市多語(yǔ)種AI語(yǔ)音翻譯大賽

    8月20日,由北京市科委、中關(guān)村管委會(huì)主辦,北京語(yǔ)言大學(xué)、北京第二外國(guó)語(yǔ)學(xué)院、北京市翻譯協(xié)會(huì)、中國(guó)人工智能百人會(huì)共同承辦的“2025年北京市多語(yǔ)種AI語(yǔ)音翻譯大賽”在中關(guān)村展示中心順利啟幕。聲智作為
    的頭像 發(fā)表于 08-25 17:18 ?1142次閱讀

    傳音斬獲WMT 2025國(guó)際機(jī)器翻譯大賽四項(xiàng)冠軍

    近日,在由國(guó)際計(jì)算語(yǔ)言學(xué)協(xié)會(huì)(ACL)主辦的WMT 2025國(guó)際機(jī)器翻譯大賽中,傳音在低資源印度語(yǔ)言翻譯任務(wù)(Low-Resource Indic Language Translation)中斬獲
    的頭像 發(fā)表于 08-06 18:21 ?1145次閱讀

    AI輸出“偏見(jiàn)”,人類能否信任它的“三觀”?

    人工智能(AI)已成為我們不可分割的“伙伴”。從聊天機(jī)器人、語(yǔ)音助手到自動(dòng)翻譯,AI不斷介入人與人之間的交流和理解。然而,它能做到“客觀中立”嗎?據(jù)美國(guó)《麻省理工科技評(píng)論》官網(wǎng)報(bào)道,一
    的頭像 發(fā)表于 08-04 13:43 ?1284次閱讀
    <b class='flag-5'>AI</b>輸出“<b class='flag-5'>偏見(jiàn)</b>”,人類能否信任它的“三觀”?

    Google Fast Pair服務(wù)簡(jiǎn)介

    Google Fast Pair 是一項(xiàng)利用低功耗藍(lán)牙(Bluetooth LE)技術(shù),實(shí)現(xiàn)設(shè)備間快速安全配對(duì)及提供多種服務(wù)的協(xié)議。其主要功能包括: 設(shè)備處于配對(duì)模式時(shí),顯示半頁(yè)通知,便于用戶進(jìn)行
    發(fā)表于 06-29 19:28

    知識(shí)點(diǎn)積累——什么是3W原則和20H原則

    的寄生電容,導(dǎo)致信號(hào)衰減和傳輸延遲,影響時(shí)序同步性能。 嚴(yán)格遵循3W原則會(huì)增加PCB面積和布線的難度,因此通常僅對(duì)關(guān)鍵信號(hào)進(jìn)行強(qiáng)制應(yīng)用,普通信號(hào)可靈活調(diào)整。 純分享貼,有需要可以直接下載附件獲取完整資料! (如果內(nèi)容有幫助可以關(guān)注、點(diǎn)贊、評(píng)論支持一下哦~)
    發(fā)表于 04-16 11:18

    **【技術(shù)干貨】Nordic nRF54系列芯片:傳感器數(shù)據(jù)采集與AI機(jī)器學(xué)習(xí)的完美結(jié)合**

    【技術(shù)干貨】nRF54系列芯片:傳感器數(shù)據(jù)采集與AI機(jī)器學(xué)習(xí)的完美結(jié)合 近期收到不少伙伴咨詢nRF54系列芯片的應(yīng)用與技術(shù)細(xì)節(jié),今天我們整理幾個(gè)核心問(wèn)題與解答,帶你快速掌握如何在nRF54上部署AI
    發(fā)表于 04-01 00:00

    Google發(fā)布最新AI模型Gemma 3

    Gemma 開(kāi)放模型系列是 Google 推動(dòng)實(shí)用 AI 技術(shù)普惠大眾的重要基石。上個(gè)月,Gemma 迎來(lái)了首個(gè)生日?;赝^(guò)去一年,其成果斐然:全球下載量突破 1 億,社區(qū)欣欣向榮,衍生模型超過(guò) 6 萬(wàn)個(gè)1。Gemma 生態(tài)的蓬勃發(fā)展,不斷激發(fā)我們的創(chuàng)新熱情。
    的頭像 發(fā)表于 03-18 09:51 ?1595次閱讀

    Arm技術(shù)助力Google Axion處理器加速AI工作負(fù)載推理

    由 Arm Neoverse V2 平臺(tái)賦能的 Google Axion 處理器已在 Google Cloud 上正式上線,其中,C4A 是首款基于 Axion 的云虛擬機(jī),為基于 CPU 的人工智能 (AI) 推理和通用云工作
    的頭像 發(fā)表于 02-14 14:11 ?1117次閱讀
    Arm技術(shù)助力<b class='flag-5'>Google</b> Axion處理器加速<b class='flag-5'>AI</b>工作負(fù)載推理

    AI助力實(shí)時(shí)翻譯耳機(jī)

    你是否曾經(jīng)因?yàn)檎Z(yǔ)言障礙而無(wú)法與外國(guó)人順暢交流?或者在旅行中因?yàn)檎Z(yǔ)言不通而錯(cuò)過(guò)了一些精彩的經(jīng)歷?現(xiàn)在,隨著AI技術(shù)的發(fā)展,實(shí)時(shí)翻譯耳機(jī)可以幫你輕松解決這些問(wèn)題。 1 什么是實(shí)時(shí)翻譯耳機(jī) 實(shí)時(shí)翻譯
    的頭像 發(fā)表于 01-24 11:14 ?3821次閱讀
    <b class='flag-5'>AI</b>助力實(shí)時(shí)<b class='flag-5'>翻譯</b>耳機(jī)