chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

Google翻譯出現(xiàn)“水逆”,是員工的惡作?。?/h1>

最近,一些網(wǎng)友使用的 Google 翻譯“水逆”了。

在Reddit上,有網(wǎng)友截圖顯示,在 Google 翻譯中當(dāng)某些語種的詞匯翻譯成英語時,輸出的卻是毫無由頭的宗教語言。比如鍵入 19 個 dog,將其從毛利語翻譯成英語時,輸出的卻是“距離十二點的世界末日時鐘還差三分鐘,我們正在經(jīng)歷世界上的人物和戲劇性發(fā)展,這預(yù)示著我們正在無線接近末日,耶穌回歸時日將近?!?/p>

但這只是眾多無厘頭翻譯的其中之一。還有網(wǎng)友放出了很多“不詳”的翻譯內(nèi)容。例如,在索馬里語中,“ag”這個詞被翻譯成了“Gershon 的兒子(sons of Gershon)”,“耶和華的名字(name of the LORD)”,并且會引用圣經(jīng)里的“cubits”(計量單位)和Deuteronomy(《申命記》)。

有網(wǎng)友留言稱其為“惡魔”或者“幽靈”,猜測這是 Google 員工的惡作劇,也有人建議設(shè)置“建議編輯”功能,讓用戶可以進(jìn)行修改為正確內(nèi)容。Google 發(fā)言人 Justin Burr 在一封電子郵件中稱:這只是一個將無意義的話語輸入系統(tǒng)然后產(chǎn)生無意義輸出的功能。

不過 Justin Burr 并未透露 Google 翻譯使用的訓(xùn)練數(shù)據(jù)是否有宗教文本。但上述詭異輸出內(nèi)容很可能已被 Google 翻譯修正,AI科技大本營編輯輸入上述相同內(nèi)容后也并未發(fā)現(xiàn)異常。

但人們對探討 Google 翻譯出現(xiàn)如此結(jié)果的背后原因熱情不減,更專業(yè)的聲音在不斷發(fā)出。哈佛大學(xué)助理教授 Andrew Rush 認(rèn)為,這很可能與 2 年前 Google 翻譯技術(shù)的改變有關(guān),它目前使用了的是“神經(jīng)機(jī)器翻譯(NMT)”的技術(shù)。

BBN Technologies 的科學(xué)家 Sean Colbath 從事機(jī)器翻譯工作,他同意奇怪的輸出可能是由于 Google 翻譯的算法試圖在混亂中尋找秩序。他還指出,索馬里語、夏威夷語以及毛利語等產(chǎn)生最奇怪結(jié)果的語言,它們用于訓(xùn)練的翻譯文本比英語或漢語等更廣泛使用的語言要少很多。所以他認(rèn)為,Google 可能會使用像圣經(jīng)等被翻譯成多種語言的宗教文本來訓(xùn)練小語種的模型,這也解釋了為什么會最終輸出宗教內(nèi)容。

前 Google 員工 Delip Rao 在其博客上則指出,當(dāng)談到平行語料庫時,宗教文本是最低層次的共同標(biāo)準(zhǔn)資源,像“圣經(jīng)”和“古蘭經(jīng)”這樣的主要宗教文本有各種語言版本。

比如,如果你為政府部署一個 Urdu-to-English (烏爾都語——英語)的機(jī)器翻譯系統(tǒng),那么很容易將一堆已經(jīng)翻譯成烏爾都語的宗教文本組合在一起。因此,可以合理地假設(shè) Google 的平行語料庫中包含所有的宗教文本,而對于許多資源不足的語言,它們不只是訓(xùn)練語料庫中微不足道的部分。

那么,為什么我們看到 Google 翻譯會輸出宗教文本,尤其是以那些資源不足的語言對作為輸入時 ,如上文中的毛利語?一種解釋是,因為宗教文本包含許多只會在宗教文本中出現(xiàn)的罕見詞,而這些詞在其他任何地方都不會出現(xiàn)。因此,罕見的詞語可能會觸發(fā)解碼器中的宗教情境,尤其是當(dāng)這些文本的比例很大時。另一種解釋是該模型對輸入的內(nèi)容沒有太多的統(tǒng)計支持,而輸出也只是解碼器模型的無意義采樣。

更重要的是,他想要指出現(xiàn)在的神經(jīng)機(jī)器翻譯 (NMT) 真正存在的問題。

他特意總結(jié)了2017 年 Philipp Koehn 和 Rebecca Knowles 撰寫的一篇論文,內(nèi)容如下:

1.NMT 在域外數(shù)據(jù)上表現(xiàn)很差:像 Google 翻譯這樣的通用 MT 系統(tǒng)在法律或金融等專業(yè)領(lǐng)域的表現(xiàn)尤其糟糕。此外,與基于短語的翻譯系統(tǒng)等傳統(tǒng)方法相比,NMT 系統(tǒng)的效果更差。到底有多糟糕?如下圖所示,其中非對角線元素表示域外結(jié)果,綠色是 NMT 的結(jié)果,藍(lán)色是基于短語的翻譯系統(tǒng)的結(jié)果。

MT 系統(tǒng)在一個域 (行) 上訓(xùn)練并在另一個域 (列) 上進(jìn)行測試。藍(lán)色表示基于短語翻譯系統(tǒng)的表現(xiàn),而綠色表示 NMT 的表現(xiàn)。

2.NMT 在小數(shù)據(jù)集上的表現(xiàn)很差:雖然這算是機(jī)器學(xué)習(xí)的通病,但這個問題在 NMT 中體現(xiàn)尤其明顯。相比基于短語的 MT 系統(tǒng),雖然 NMT 隨著數(shù)據(jù)量的增加能進(jìn)行更好地概括 ,但在小數(shù)據(jù)量情況下 NMT 的表現(xiàn)確實更糟糕。

引用作者的話來說,“在資源較少的情況下,NMT 會產(chǎn)生與輸入無關(guān)的輸出,盡管這些輸出是流暢的?!边@可能也是 Motherboard 那篇文章中探討 NMT 表現(xiàn)怪異的另一個原因。

3.Subword NMT 在罕見詞匯上的表現(xiàn)很糟糕:雖然它的表現(xiàn)仍然要好過基于短語的翻譯系統(tǒng),但對于罕見或未見過的詞語,NMT 的表現(xiàn)不佳。例如,那些系統(tǒng)只觀察到一次的單詞就會被 drop 掉。像 byte-pair encoding 這樣的技術(shù)對解決這個問題有所幫助,但我們有必要對此進(jìn)行更詳細(xì)的研究。

我們可以看到圖中像土耳其語 (Turkish) 這樣的語言,遇到詞的變形形式是很常見的。

4.長句:以長句編碼并產(chǎn)生長句,這仍然是一個開放的、值得研究的話題。在法律等領(lǐng)域,冗長復(fù)雜的句子是很常見的。MT 系統(tǒng)的性能將隨句子長度而降級,而 NMT 系統(tǒng)亦是如此。引入注意力機(jī)制可能會有所幫助,但問題還遠(yuǎn)未解決。

5.注意力機(jī)制 != 對齊:這是一個非常微妙但又很重要的問題。在傳統(tǒng)的 SMT 系統(tǒng)中,如基于短語的翻譯系統(tǒng),語句對齊能夠提供有用的調(diào)試信息來檢查模型。但即便論文中經(jīng)常將軟注意力機(jī)制視為“軟對齊”,注意力機(jī)制并不是傳統(tǒng)意義上的對齊。在 NMT 系統(tǒng)中,除了源域中的動詞外,目標(biāo)中的動詞也可以作為主語和賓語。

6.難以控制翻譯質(zhì)量:每個單詞都有多種翻譯,并且典型的 MT 系統(tǒng)對源句的翻譯好于lattice of possible translations。為了保持后者的大小合理,我們使用集束搜索 (beam search)。通過改變波束的寬度,來找到低概率但正確的翻譯。而對于 NMT 系統(tǒng),調(diào)整集束尺寸似乎沒有任何不利影響。

當(dāng)你擁有大量數(shù)據(jù)時,NMT 系統(tǒng)的翻譯性能依然還是難以被擊敗的,而且它們?nèi)匀辉诖罅康乇皇褂?。關(guān)于通常我們所說的神經(jīng)網(wǎng)絡(luò)模型的黑盒性,也有待進(jìn)一步說明,如今的 NMT 模型 (基于 LSTM 和 Transformer 模型) 也都受此影響。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • Google
    +關(guān)注

    關(guān)注

    5

    文章

    1797

    瀏覽量

    60065
  • 翻譯
    +關(guān)注

    關(guān)注

    0

    文章

    47

    瀏覽量

    11101

原文標(biāo)題:輸出不詳宗教預(yù)言,Google翻譯為何“水逆”了?

文章出處:【微信號:rgznai100,微信公眾號:rgznai100】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    谷歌查找我的設(shè)備配件(Google Find My Device Accessory)詳解和應(yīng)用

    谷歌查找我的設(shè)備配件(Google Find My Device Accessory)介紹 谷歌查找我的設(shè)備配件是與谷歌 “查找我的設(shè)備” 應(yīng)用程序配合使用的配件,旨在幫助用戶更方便地追蹤和定位個人
    發(fā)表于 08-31 21:10

    求助,關(guān)于STM32H743使用DSP進(jìn)行矩陣求計算出現(xiàn)的問題求解

    我正在STM32H743上實現(xiàn)一個算法,需要進(jìn)行一個20*20的矩陣求,但是計算結(jié)果與matlab對比差距非常大,完全不正確,原矩陣A的部分?jǐn)?shù)值類似如下: 在matlab中求的部分結(jié)果如下: 但是在STM32H743中的求
    發(fā)表于 08-08 07:24

    無線浸傳感器? 的完整解決方案設(shè)計

    在變電站電纜層室、機(jī)房等場所,會經(jīng)常出現(xiàn)因設(shè)備漏水或下雨而導(dǎo)致浸的情況,從而給設(shè)備的安全運行帶來了隱患。無線浸傳感器是又一安裝應(yīng)用,能夠?qū)崟r在線監(jiān)測傳感器安裝位置(場所)是否浸(積)
    的頭像 發(fā)表于 08-04 08:48 ?557次閱讀
    無線<b class='flag-5'>水</b>浸傳感器? 的完整解決方案設(shè)計

    人臉識別門禁一體機(jī),如何解決員工宿舍區(qū)安全混亂問題?

    不少制造型企業(yè)或工廠都會提供員工宿舍,作為企業(yè)福利之一。這本質(zhì)是企業(yè)對員工的關(guān)懷,但在實際管理過程中,還是容易出現(xiàn)各種混亂情況和安全隱患。例如員工宿舍區(qū)的安保不到位,無關(guān)人員隨意進(jìn)出園
    的頭像 發(fā)表于 07-11 10:13 ?317次閱讀
    人臉識別門禁一體機(jī),如何解決<b class='flag-5'>員工</b>宿舍區(qū)安全混亂問題?

    Google Fast Pair服務(wù)簡介

    Google Fast Pair 是一項利用低功耗藍(lán)牙(Bluetooth LE)技術(shù),實現(xiàn)設(shè)備間快速安全配對及提供多種服務(wù)的協(xié)議。其主要功能包括: 設(shè)備處于配對模式時,顯示半頁通知,便于用戶進(jìn)行
    發(fā)表于 06-29 19:28

    手動添加cubeMX的軟件自動生成代碼后,編譯出現(xiàn)’rtthread.elf’:No Such File 的錯誤怎么解決?

    手動添加cubeMX的軟件自動生成代碼后,編譯出現(xiàn)’rtthread.elf’:No Such File 的錯誤。
    發(fā)表于 06-12 07:46

    瑞薩RA單片機(jī)在e2 studio環(huán)境下printf編譯出錯的問題解析

    最近看到有一些網(wǎng)友在討論關(guān)于:瑞薩RA單片機(jī)在e2 studio環(huán)境下printf編譯出錯的問題。
    的頭像 發(fā)表于 05-24 15:51 ?1103次閱讀
    瑞薩RA單片機(jī)在e2 studio環(huán)境下printf編<b class='flag-5'>譯出</b>錯的問題解析

    數(shù)字電路—12、譯碼器

    譯碼器定義:把具有特定意義信息的二進(jìn)制代碼翻譯出來的過程稱為譯碼,實現(xiàn)譯碼操作的電路稱為譯碼器。 譯碼:編碼的過程,將編碼時賦予代碼的特定含義“翻譯”出來。 譯碼器:實現(xiàn)譯碼功能的電路。
    發(fā)表于 03-26 11:11

    如何開發(fā)一款Google Find My Tag?

    My 網(wǎng)絡(luò)的配件(如 AirTag)。通過結(jié)合 GPS、藍(lán)牙和眾包網(wǎng)絡(luò),F(xiàn)ind My 提供了高精度的定位功能,同時保護(hù)用戶隱私 Google Find My網(wǎng)絡(luò)同樣也是由數(shù)億臺運行較新版本
    發(fā)表于 03-05 17:39

    Google Colab筆記本電腦上導(dǎo)入OpenVINO?工具包2021中的 IEPlugin類出現(xiàn)報錯,怎么解決?

    Google* Colab Notebook 上OpenVINO?工具包 2021 中使用了 IEPlugin 。 遇到: ImportError: cannot import name \'IEPlugin\' from \'openvino.inference_engine\'
    發(fā)表于 03-05 10:31

    AI助力實時翻譯耳機(jī)

    你是否曾經(jīng)因為語言障礙而無法與外國人順暢交流?或者在旅行中因為語言不通而錯過了一些精彩的經(jīng)歷?現(xiàn)在,隨著AI技術(shù)的發(fā)展,實時翻譯耳機(jī)可以幫你輕松解決這些問題。 1 什么是實時翻譯耳機(jī) 實時翻譯耳機(jī)
    的頭像 發(fā)表于 01-24 11:14 ?2688次閱讀
    AI助力實時<b class='flag-5'>翻譯</b>耳機(jī)

    如何利用Google Play實現(xiàn)出海應(yīng)用增長

    本文內(nèi)容來自于活動演講內(nèi)容的整理和總結(jié),演講人分別: Google Play 應(yīng)用增長顧問 Tammy Taw,Google Play 商業(yè)拓展經(jīng)理 Christina Li,Google Play
    的頭像 發(fā)表于 01-22 11:52 ?986次閱讀
    如何利用<b class='flag-5'>Google</b> Play實現(xiàn)出海應(yīng)用增長

    Google Play如何幫助您的應(yīng)用變現(xiàn)

    本文內(nèi)容來自于活動演講內(nèi)容的整理和總結(jié),演講人分別為: Google Play 資深產(chǎn)品經(jīng)理 Kalpa Raj 和 Google Play 商業(yè)拓展經(jīng)理 Maya Ma ? 在 Google
    的頭像 發(fā)表于 01-21 11:21 ?999次閱讀
    <b class='flag-5'>Google</b> Play如何幫助您的應(yīng)用變現(xiàn)

    Google Cloud發(fā)布兩款針對企業(yè)客戶的全新解決方案

    Google Cloud 近期發(fā)布兩款專為企業(yè)客戶設(shè)計的全新解決方案——Google Agentspace與NotebookLM Plus,目的是通過 Gemini 先進(jìn)的推理能力、Google 高質(zhì)量的搜索功能,以及無論存儲在
    的頭像 發(fā)表于 12-27 16:31 ?1052次閱讀

    LLMWorld上線代碼翻譯新工具——問丫·碼語翻譯俠,快來體驗!

    01. 工具介紹 aicode.llmworld.net 問丫·碼語翻譯俠 是一款由LLMWorld新推出的代碼翻譯工具,支持各種語言之間的翻譯,包括計算機(jī)語言到自然語言。 02.
    的頭像 發(fā)表于 12-09 11:11 ?1510次閱讀
    LLMWorld上線代碼<b class='flag-5'>翻譯</b>新工具——問丫·碼語<b class='flag-5'>翻譯</b>俠,快來體驗!