chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

如何在沒有大量標記數(shù)據(jù)的情況下,讓計算機也學會翻譯?

電子工程師 ? 來源:未知 ? 作者:李倩 ? 2018-09-05 09:20 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

神經(jīng)機器翻譯(NMT)關(guān)注的是通過 AI 在不同人類語言之間進行翻譯的過程。2015 年,蒙特利爾學習算法研究所的研究人員開發(fā)出了一項新的算法模型,最終讓機器給出了對應(yīng)的翻譯。一夜之間,像谷歌翻譯這樣的翻譯軟件質(zhì)量得到了大幅度提升。

盡管此次改進非常顯著,但它仍需要兩種語言的句子對,例如:“I like to eat”和“me gusta comer”分別為英語和法語中的“我想要吃”。對于從烏爾都語到英語等沒有句子對的語言翻譯而言,翻譯系統(tǒng)則顯得無能為力。從那時起,研究人員就開始構(gòu)建無需句子對也能翻譯的系統(tǒng),無監(jiān)督神經(jīng)機器翻譯(UNMT)就是其一。

去年 10 月末,來自西班牙圣塞巴斯蒂安巴斯克大學(UPV)和互聯(lián)網(wǎng)科技公司 Facebook 人工智能研究院(FAIR)的兩支團隊,向2018ICLR分別遞交了各自的最新研究成果——無監(jiān)督神經(jīng)網(wǎng)絡(luò)翻譯模型。

當時,兩篇論文共同表明,神經(jīng)網(wǎng)絡(luò)可以在沒有平行文本的情況下學習翻譯。

這意味著該模型將突破原有的神經(jīng)機器翻譯(NMT)需要足夠大的平行語料庫的限制,創(chuàng)造了一種可以使用單語語料庫進行訓練的翻譯模型,并克服了平行語料庫不足的問題。從社會學的角度講,這將有助于我們翻譯一些語言已經(jīng)丟失了的文字,或者讓機器去實時翻譯一些稀有語言,如斯瓦西里語和白俄羅斯語。

過去一年間,不斷有研究人員試圖通過無監(jiān)督學習用大量無標記數(shù)據(jù)訓練以進一步提高系統(tǒng)的翻譯能力。Facebook、紐約大學、巴斯克大學、索邦大學的研究團隊成果顯著,成功讓機器在不知道“house”的西班牙對應(yīng)詞是“casa”的情況下翻譯出來。

近日,F(xiàn)acebook 人工智能實驗室再次公布了有關(guān)無監(jiān)督神經(jīng)網(wǎng)絡(luò)翻譯的最新模型,相當于用 10 萬個參考譯文訓練過的監(jiān)督模型。“在機器翻譯領(lǐng)域,這是一個重大的發(fā)現(xiàn),盡管世界上有超過 6500 種語言,但可利用的翻譯訓練資源池要么不存在、要么就是太小不足以運用在現(xiàn)有系統(tǒng)中?!?/p>

為了證明這一進步的價值,研究人員給出了以下陳述:“ 1 個 BLEU 點(判斷機器翻譯準確度的常用指標)的進步被視為該領(lǐng)域一項了不起的成就。我們的方法相當于有 10 個 BLEU 點的進步?!?實際上,該項研究使得很多沒有平行文本的語言翻譯變得更為容易,如從烏爾都語到英語的翻譯。

▌研究原理

1、字節(jié)對編碼:不像此前為系統(tǒng)提供完整單詞的方式,只給系統(tǒng)提供單詞的一部分。例如,單詞“hello”可拆分為四部分,分別是“he”“l(fā)”“l(fā)”“o”。這意味系統(tǒng)可以學習“he”的譯詞,盡管系統(tǒng)此前從來沒有見過該詞。

2、語言模型:訓練神經(jīng)網(wǎng)路學習生成在語言中“聽起來不錯”的句子。例如,這個神經(jīng)網(wǎng)絡(luò)可能會將句子“您好嘛”改為“您好嗎”。

3、反向翻譯:這是神經(jīng)網(wǎng)絡(luò)學習向后翻譯的另一個技巧。例如,如果想將西班牙語翻譯稱英語,就需要先教會神經(jīng)網(wǎng)絡(luò)從英語翻譯成西班牙語,然后用它來生成合成數(shù)據(jù),從而增加已有的數(shù)據(jù)量。

▌逐字翻譯

讓系統(tǒng)學習雙語詞典,將一個單詞與其他語言的合理翻譯聯(lián)系起來,即系統(tǒng)學習每種語言中的單詞嵌入。

訓練嵌入詞以預(yù)測跟給定上下文中單詞近似的單詞,可以發(fā)現(xiàn)很多有趣的語義結(jié)構(gòu)。例如,“kitty”的近義詞是“cat”,而“kitty”的嵌入詞與“animal”相近,卻與“rocket”相差很遠。

此外,不同語言的嵌入詞有相似的領(lǐng)域結(jié)構(gòu),這在于世界各地的人都擁有相同的物理環(huán)境。例如,英語中的單詞“cat”和“furry”之間的關(guān)系類似于它們在西班牙語中的相應(yīng)翻譯(“gato”和“peludo”),因為這些單詞的頻率和其上下文是相似的。

鑒于這些相似之處,研究人員建議使用對抗訓練,以推導出一個相當準確的雙語詞典,無需訪問任何平行文本,便可實現(xiàn)逐字翻譯。

▌句子修正

不過,研究人員還是建議無監(jiān)督的方式進行逐字翻譯,也有可能造成單詞丟失,或無序甚至是錯誤。所以,接下來,需要在已知大量單詞數(shù)據(jù)的基礎(chǔ)上進行編輯,對不流暢或不符合語法結(jié)構(gòu)的句子進行修正。

另外,研究人員還給出以下兩種方法,一個是基于神經(jīng)網(wǎng)絡(luò)的系統(tǒng)(NMT),一個是基于短語的系統(tǒng)(PBSMT)。雖然任何一種方法都可以提高翻譯質(zhì)量,但二者并用將產(chǎn)生更新的顯著效果。

據(jù)了解,PBSMT(Facebook統(tǒng)計機器翻譯)是 FAIR 此前的研究成果。該系統(tǒng)學習每種語言中短語的概率分布,并教會另一個系統(tǒng)旋轉(zhuǎn)第二組的數(shù)據(jù)點以匹配第一組的數(shù)據(jù)點。

以一個比較形象的方式展示:假設(shè)有兩個圖像,一個是杯子與蓋子彼此相鄰,另一個是蓋子在杯子上。該系統(tǒng)將學習如何在沒有蓋子的情況下,在圖像周圍移動像素以生成有蓋子的圖像。

目前,F(xiàn)acebook 人工智能實驗室將免費開放代碼,方便開發(fā)者獲取搭建系統(tǒng)。

▌寫在最后

要知道,多數(shù)現(xiàn)有的 AI 模型是通過“監(jiān)督學習”訓練而成的,這也意味著必須耗費大量的人力對樣本數(shù)據(jù)進行標記與分類。盡管強化學習與生成式對抗網(wǎng)絡(luò)的出現(xiàn)從一定程度上解決了這一問題,但數(shù)據(jù)標記仍是目前阻礙 AI 系統(tǒng)發(fā)展的最大障礙。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 神經(jīng)網(wǎng)絡(luò)

    關(guān)注

    42

    文章

    4831

    瀏覽量

    107296
  • 人工智能
    +關(guān)注

    關(guān)注

    1815

    文章

    49973

    瀏覽量

    263797
  • 機器翻譯
    +關(guān)注

    關(guān)注

    0

    文章

    141

    瀏覽量

    15498

原文標題:翻譯們又要失業(yè)?Facebook最新無監(jiān)督機器翻譯成果,BLEU提升10個點!

文章出處:【微信號:rgznai100,微信公眾號:rgznai100】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    龍芯主板工控計算機擁有安全可信的核心

    工控計算機,是工業(yè)自動化和智能制造領(lǐng)域的核心設(shè)備,負責數(shù)據(jù)采集、處理、存儲與傳輸,實現(xiàn)設(shè)備的監(jiān)控與控制,確保生產(chǎn)線的穩(wěn)定運行。在現(xiàn)代工業(yè)生產(chǎn)中,工控計算機的地位不可或缺,它如同智能制造的心臟,為整個生產(chǎn)系統(tǒng)提供源源不斷的動力。
    的頭像 發(fā)表于 01-21 09:02 ?303次閱讀

    上海計算機視覺企業(yè)行學術(shù)沙龍走進西井科技

    12月5日,由中國圖象圖形學學會青年工作委員會(簡稱“青工委”)、上海市計算機學會計算機視覺專委會(簡稱“專委會”)聯(lián)合主辦,上海西井科
    的頭像 發(fā)表于 12-16 15:39 ?472次閱讀

    龍芯中科斬獲2025中國工業(yè)計算機大會兩項殊榮

    近日,2025中國工業(yè)計算機大會(CCF ICCC 2025)在云南昆明召開。本次大會由中國計算機學會主辦,中國計算機學會工業(yè)控制
    的頭像 發(fā)表于 11-10 17:35 ?615次閱讀

    利爾達受邀出席第十九屆中國計算機學會物聯(lián)網(wǎng)大會(CWSN 2025)

    //9月6日至7日,第十九屆中國計算機學會物聯(lián)網(wǎng)大會(CWSN2025)在杭州成功召開。本屆大會由中國計算機學會主辦,匯聚了來自政府、企業(yè)、學術(shù)界及行業(yè)組織的專家與從業(yè)者代表,圍繞智能
    的頭像 發(fā)表于 09-11 18:02 ?938次閱讀
    利爾達受邀出席第十九屆中國<b class='flag-5'>計算機</b><b class='flag-5'>學會</b>物聯(lián)網(wǎng)大會(CWSN 2025)

    何在“SD 卡 NAND 閃存”的情況下使用 Non-OS NVTFAT?

    何在“SD 卡 NAND 閃存”的情況下使用 Non-OS NVTFAT
    發(fā)表于 09-01 07:58

    四維圖新榮獲陜西省計算機學會“科技進步一等獎”

    近日,陜西省計算機學會公布了2025年度計算機領(lǐng)域科學技術(shù)獎獲獎名單。其中,由西安電子科技大學牽頭,聯(lián)合四維圖新等單位共同申報的“面向安全駕駛的車路云協(xié)同環(huán)境感知技術(shù)及應(yīng)用”項目榮獲“科技進步獎一等獎”。
    的頭像 發(fā)表于 08-29 16:53 ?1349次閱讀

    當不同的數(shù)據(jù)放在同一個Flash頁面上時,請問如何在不影響其他數(shù)據(jù)情況下更改一些單獨的數(shù)據(jù)

    當不同的數(shù)據(jù)放在同一個Flash頁面上時,如何在不影響其他數(shù)據(jù)情況下更改一些單獨的數(shù)據(jù)
    發(fā)表于 08-22 06:25

    何在沒有 NuLink 編程器的情況下執(zhí)行 SWD 解鎖序列?

    我迫切需要知道如何在沒有 NuLink 編程器的情況下執(zhí)行 SWD 解鎖序列。
    發(fā)表于 08-18 07:04

    工業(yè)計算機的重要性

    于管理用于產(chǎn)品檢查、數(shù)據(jù)記錄和數(shù)據(jù)分析的運動控制系統(tǒng),以提高制造生產(chǎn)率。例如,汽車行業(yè)從工業(yè)邊緣計算機中受益匪淺,這些計算機用于自動化制造汽車所涉及的各種過程。工業(yè)邊
    的頭像 發(fā)表于 07-28 16:07 ?486次閱讀
    工業(yè)<b class='flag-5'>計算機</b>的重要性

    CYUSB3014在不關(guān)機的情況下用USB 2.0的線連接電腦,計算機無法識別FX3,這種情況正常嗎?

    我正在使用自供電模式的 CYUSB3014。我先用USB 3.0的線傳輸數(shù)據(jù),然后再不關(guān)機的情況下用USB 2.0的線連接電腦。計算機無法識別 FX3。這種情況正常嗎?和USB傳輸協(xié)議
    發(fā)表于 07-28 06:25

    自動化計算機經(jīng)過加固后有什么好處?

    讓我們討論一部署堅固的自動化計算機的一些好處。1.溫度范圍寬自動化計算機經(jīng)過工程設(shè)計,配備了支持寬溫度范圍的組件,使自動化計算解決方案能夠在各種不同的極端環(huán)境中運行。自動化
    的頭像 發(fā)表于 07-21 16:44 ?542次閱讀
    自動化<b class='flag-5'>計算機</b>經(jīng)過加固后有什么好處?

    工業(yè)計算機與商用計算機的區(qū)別有哪些

    工業(yè)計算機是一種專為工廠和工業(yè)環(huán)境設(shè)計的計算系統(tǒng),具有高可靠性和穩(wěn)定性,能夠應(yīng)對惡劣環(huán)境的自動化、制造和機器人操作。其特點包括無風扇散熱技術(shù)、無電纜連接和防塵防水設(shè)計,使其在各種工業(yè)自動化場景中
    的頭像 發(fā)表于 07-10 16:36 ?644次閱讀
    工業(yè)<b class='flag-5'>計算機</b>與商用<b class='flag-5'>計算機</b>的區(qū)別有哪些

    NVIDIA助力全球最大量子研究超級計算機

    NVIDIA 宣布將開設(shè)量子-AI 技術(shù)商業(yè)應(yīng)用全球研發(fā)中心(G-QuAT),該中心部署了全球最大量計算研究專用超級計算機 ABCI-Q。
    的頭像 發(fā)表于 05-22 09:44 ?804次閱讀

    LPC1227FBD48如何在沒有SDK的情況下配置FreeRTOS?

    我想在基于 LPC1227FBD48 系列的現(xiàn)有項目中使用 FreeRTOS,但我們沒有可用于控制器的 SDK。我們?nèi)?b class='flag-5'>何在沒有 SDK 的情況下配置 FreeRTOS。
    發(fā)表于 04-02 06:33

    杰和科技工業(yè)計算機AF208|防塵+靜音+全天候運行

    ,無懼塵埃杰和科技工業(yè)計算機AF208采用緊固耐用的外殼材質(zhì),無風扇設(shè)計,表殼為鰭型設(shè)計,能在無風扇設(shè)計的情況下最大程度散熱,營造出極致安靜的工作和使用環(huán)境,使設(shè)
    的頭像 發(fā)表于 03-03 11:04 ?684次閱讀
    杰和科技工業(yè)<b class='flag-5'>計算機</b>AF208|防塵+靜音+全天候運行