chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

機器翻譯系統(tǒng)實現(xiàn)了自然語言處理的又一里程碑突破

DPVg_AI_era ? 來源:未知 ? 作者:李倩 ? 2018-03-16 14:15 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

微軟昨天宣布其研發(fā)的機器翻譯系統(tǒng)首次在通用新聞的漢譯英上達到了人類專業(yè)水平,實現(xiàn)了自然語言處理的又一里程碑突破。

由微軟亞洲研究院與雷德蒙研究院的研究人員組成的團隊今天宣布,其研發(fā)的機器翻譯系統(tǒng)在通用新聞報道的中譯英測試集上,達到了人類專業(yè)譯者水平。這是首個在新聞報道的翻譯質(zhì)量和準確率上媲美人類專業(yè)譯者的翻譯系統(tǒng)。

微軟技術(shù)院士,負責微軟語音、自然語言和機器翻譯工作的黃學東博士表示,這是自然語言處理領(lǐng)域的一項里程碑式的成就?!斑@是我們的情懷,是非常有意義的工作,”黃學東告訴新智元:“消除語言障礙,讓人們能更好地溝通,非常有價值,值得我們多年來不斷為此付出努力?!?/p>

黃學東驕傲地說,2015年微軟率先在圖像識別ImageNet數(shù)據(jù)集達到人類水平,2016年在Switchboard對話語義識別達到人類水平,2017在斯坦福問答數(shù)據(jù)集SQuAD上達到人類水平,今天又在機器翻譯上達到人類水平,一路走來,微軟的進步激動人心,“這是我們共同的成就,我們是站在同行的肩膀上往上走”。

黃學東表示,微軟語音和NLP組在成立時,便立下了要在兩年后將機器翻譯做到人類專業(yè)水平的目標。如今,這一目標提前實現(xiàn),“除了計算力的大幅提高,深度學習方法的提高,我們還結(jié)合了以前在Switchboard上取得的經(jīng)驗,數(shù)據(jù)也做了很多整理,比如去除低質(zhì)量的訓練數(shù)據(jù),等等?!秉S學東說。

“這既是技術(shù)上的突破,也是工程上的突破,是技術(shù)和工程的完美結(jié)合,只有把過程中的每一件事情都做好,才能得到這樣的結(jié)果?!?/p>

NLP里程碑式突破:首個媲美人類專業(yè)譯者的機器翻譯系統(tǒng)

這次微軟的翻譯系統(tǒng)是在數(shù)據(jù)集WMT-17的新聞數(shù)據(jù)集newstest2017上取得了上述成果。WMT是機器翻譯領(lǐng)域的國際頂級評測比賽之一。WMT數(shù)據(jù)集也是機器翻譯領(lǐng)域一個公認的主流數(shù)據(jù)集。其中,newstest2017新聞報道測試集由產(chǎn)業(yè)界和學術(shù)界的合作伙伴共同開發(fā),包括來自新聞評論語料庫的約332K個句子對,來自聯(lián)合國平行語料庫的15.8M個句子對,以及來自CWMT語料庫的9M個句子對。

雖然研究人員只進行了漢譯英的測試,但黃學東表示,英譯漢結(jié)果也應(yīng)該并無不同?!皬募夹g(shù)上說,漢譯英和英譯漢是相同的,只要有足夠的數(shù)據(jù)?!?/p>

為了確保翻譯結(jié)果準確且達到人類的翻譯水平,微軟研究團隊還邀請了雙語語言顧問,將微軟的翻譯結(jié)果與兩個獨立的人工翻譯結(jié)果進行了比較評估(全部盲測)。黃學東告訴新智元:“當機器翻譯質(zhì)量很差的時候,使用BLEU評分還行,但是當機器翻譯質(zhì)量提高以后,就需要靠人類來評價?!?/p>

具體說,當100分是標準滿分時,微軟的系統(tǒng)得分69.9,專業(yè)譯者68.6,而眾包翻譯得分為67.6。

人類專家的評估結(jié)果(部分):其中,Reference-HT為純?nèi)斯しg;Reference-PE為使用Google Translate加人工后期編輯的翻譯;Reference-WMT是WMT原始翻譯,包含錯誤;Online-A-1710是2017年10月16日收集的Microsoft翻譯商用系統(tǒng)(production system);Online-B-1710是2017年10月16日收集的谷歌翻譯商用系統(tǒng);Sogou是搜狗NMT翻譯系統(tǒng),這是在2017年WMT中英機器翻譯競賽的冠軍。

機器翻譯提前7年超越業(yè)余譯者,人工智能再下一城

機器翻譯是科研人員攻堅了數(shù)十年的研究領(lǐng)域,曾經(jīng)很多人都認為機器翻譯根本不可能達到人類翻譯的水平。

2017年中旬,牛津大學面向機器學習研究人員做了一次大規(guī)模調(diào)查,調(diào)查的內(nèi)容是他們對 AI 進展的看法。這些研究人員預(yù)測,未來10年,AI 將在許多活動中超過人類,具體預(yù)測見下表:

微軟的這次突破,將機器翻譯超越人類業(yè)余譯者的時間,提前了整整7年,遠遠超出了眾多ML研究人員的預(yù)想。

雖然此次突破意義非凡,但微軟研究人員也提醒大家,這并不代表人類已經(jīng)完全解決了機器翻譯的問題,只能說明我們離終極目標又更近了一步。微軟亞洲研究院副院長、自然語言計算組負責人周明表示,在WMT17測試集上的翻譯結(jié)果達到人類水平很鼓舞人心,但仍有很多挑戰(zhàn)需要解決,比如在實時的新聞報道上測試系統(tǒng)等。

微軟機器翻譯團隊研究經(jīng)理Arul Menezes表示,團隊想要證明的是:當一種語言對(比如中-英)擁有較多的訓練數(shù)據(jù),且測試集中包含的是常見的大眾類新聞詞匯時,那么在人工智能技術(shù)的加持下,機器翻譯系統(tǒng)的表現(xiàn)可以與人類媲美。

突破當前神經(jīng)機器翻譯范式局限,性能再上一個數(shù)量級

為了能夠取得中-英翻譯的里程碑式突破,來自微軟亞洲研究院和雷德蒙研究院的三個研究組,進行了跨越中美時區(qū)、跨越研究領(lǐng)域的聯(lián)合創(chuàng)新。

在這篇有24位作者的論文《機器翻譯:中英新聞翻譯方面達到與人類媲美的水平》(Achieving Human Parity on Automatic Chinese to English News Translation )中,微軟研究團隊描述了他們?yōu)樾侣劃h英翻譯任務(wù)在規(guī)模數(shù)據(jù)集上實現(xiàn)人類水平所作的努力。

在論文中,作者表示他們解決了當前NMT范式的一些局限。 他們的研究主要貢獻包括:

利用翻譯問題的對偶性(duality),使模型能夠從源語言到目標語言(Source to Target)和從目標語言到源語言(Target to Source)這兩個方向的翻譯中學習。同時,這讓我們能同時從有監(jiān)督和無監(jiān)督的源數(shù)據(jù)和目標數(shù)據(jù)中學習。具體而言,我們利用通用的對偶學習(dual learning)方法,并引入聯(lián)合訓練(Joint Training)算法,通過在一個統(tǒng)一的框架中反復(fù)提高從源語言到目標語言翻譯和從目標語言到源語言翻譯的模型,從而增強單語源和目標數(shù)據(jù)的效果。

NMT系統(tǒng)從左到右自動回歸解碼,這意味著在按順序生成輸出期間,之前的錯誤將被放大,并可能誤導后續(xù)生成的結(jié)果。這只能部分通過波束搜索(beam search)進行補救。我們提出了兩種方法來緩解這個問題:推敲網(wǎng)絡(luò)(Deliberation Networks),這是一種基于雙路解碼來優(yōu)化翻譯的方法;以及在兩個Kullback-Leibler(KL)散度正則化項上的新訓練目標,鼓勵從左到右和從右到左的解碼結(jié)果變得一致。

由于NMT非常容易受到嘈雜訓練數(shù)據(jù)、數(shù)據(jù)中的罕見事件以及總體訓練數(shù)據(jù)質(zhì)量的影響,論文還討論了數(shù)據(jù)選擇和過濾的方法,包括跨語言句子表示。

最后,我們發(fā)現(xiàn)我們的系統(tǒng)是完全互補的,因此可以從系統(tǒng)組合中獲益很多,最終實現(xiàn)了機器翻譯達到人類水平的目標。

四大技術(shù)加持,神經(jīng)機器翻譯將成今后機器翻譯絕對主流

其中,微軟亞洲研究院機器學習組將他們的最新研究成果——對偶學習(Dual Learning)和推敲網(wǎng)絡(luò)(Deliberation Networks)應(yīng)用在了此次取得突破的機器翻譯系統(tǒng)中。其中,對偶學習利用的是人工智能任務(wù)的天然對稱性。當我們把訓練集中的一個中文句子翻譯成英文之后,系統(tǒng)會將相應(yīng)的英文結(jié)果再翻譯回中文,并與原始的中文句子進行比對,進而從這個比對結(jié)果中學習有用的反饋信息,對機器翻譯模型進行修正。

微軟亞洲研究院副院長、機器學習組負責人劉鐵巖

而推敲網(wǎng)絡(luò)則類似于人們寫文章時不斷推敲、修改的過程。通過多輪翻譯,不斷地檢查、完善翻譯的結(jié)果,從而使翻譯的質(zhì)量得到大幅提升?!拔覀冊谏疃葘W習和自然語言這兩者中間找到了一個平衡點,我們想通過對機器翻譯的研究,從自然語言的角度對機器學習做進一步的理解,找到一些直覺,再通過這個直覺反過來影響機器學習研究的路線,走出盲目嘗試的狀態(tài)。”微軟亞洲研究院副院長、機器學習組負責人劉鐵巖說。

那研究人員從推敲網(wǎng)絡(luò)中獲得的直覺是什么呢?他們發(fā)現(xiàn),人在做翻譯的時候,在看見或聽完源語言后,腦子里會形成一個觀點,這其實就是編碼的過程。但是,我們真正把這句話當成目標語言講出來,實際上是三思而后行的。我們不會一個字一個字往出蹦,我們會先醞釀一下要怎么講,如果是文字翻譯,還可能不斷地修改,讓語句更加通順或者優(yōu)美。

“我們常常說,人會做推敲的事情,是‘僧敲月下門’還是‘僧推月下門’,要琢磨琢磨,上下文關(guān)系用哪個字更好,如何在一個機器學習的模型中將這種推敲過程體現(xiàn)出來,就是推敲網(wǎng)絡(luò)所要去嘗試的一個點?!眲㈣F巖告訴新智元。

推敲,也就是在解碼器,或者說在文本生成的過程多做點文章,把人的一些直覺放進去?!霸谖覀兊腄eliberationNet里面,解碼器是有多層的,解碼器先做一遍,可能翻譯得不太好,但從頭到尾翻譯完了,這句翻譯會再扔給下一個解碼器再做一遍,這個過程可以不斷反復(fù),不停地去修改之前翻譯的完整結(jié)果,這其實就在做推敲。我們發(fā)現(xiàn),這樣推敲后的結(jié)果比只過一次要好很多,多過一次時間代價會增多,但是結(jié)果會更好?!?/p>

微軟亞洲研究院副院長、自然語言計算組負責人周明

周明帶領(lǐng)的自然語言計算組多年來一直致力于攻克機器翻譯,這一自然語言處理領(lǐng)域最具挑戰(zhàn)性的研究任務(wù)。周明表示,“由于翻譯沒有唯一的標準答案,它更像是一種藝術(shù),因此需要更加復(fù)雜的算法和系統(tǒng)去應(yīng)對。”

基于之前的研究積累,自然語言計算組在此次的系統(tǒng)模型中增加了另外兩項新技術(shù):聯(lián)合訓練(Joint Training)和一致性規(guī)范(Agreement Regularization),以提高翻譯的準確性。聯(lián)合訓練可以理解為用迭代的方式去改進翻譯系統(tǒng),用中英翻譯的句子對去補充反向翻譯系統(tǒng)的訓練數(shù)據(jù)集,同樣的過程也可以反向進行。一致性規(guī)范則讓翻譯可以從左到右進行,也可以從右到左進行,最終讓兩個過程生成一致的翻譯結(jié)果。

左邊是聯(lián)合訓練:從源語言到目標語言翻譯(Source to Target)P(y|x) 與從目標語言到源語言翻譯(Target to Source)P(x|y);右邊是一致性規(guī)范

這次使用的技術(shù),從對偶學習(Dual Learning)、推敲網(wǎng)絡(luò)(Deliberation Network)到一致性規(guī)范(Agreement Regularization),都屬于神經(jīng)機器翻譯(NMT)方法。而黃學東也認為,今后的機器翻譯領(lǐng)域,NMT也將成為絕對主流?!跋啾冉y(tǒng)計機器翻譯,神經(jīng)機器翻譯有一個很大的提高,而這次我們新的系統(tǒng),相比普通的神經(jīng)機器翻譯,又有一個很大的提高?!?/p>

黃學東說:“我們這次的系統(tǒng)是把很多不同的機器翻譯系統(tǒng)組合到一起,這些系統(tǒng)每一個都能獨立工作,輸出結(jié)果,最終,我們再將這些結(jié)果綜合起來,輸出一個最好的結(jié)果。”

深度學習NLP掌握著實現(xiàn)強人工智能的鑰匙

對于語音識別等其它人工智能任務(wù)來說,判斷系統(tǒng)的表現(xiàn)是否可與人類媲美相當簡單,因為理想結(jié)果對人和機器來說完全相同,研究人員也將這種任務(wù)稱為模式識別任務(wù)。

然而,機器翻譯卻是另一種類型的人工智能任務(wù),即使是兩位專業(yè)的翻譯人員對于完全相同的句子也會有略微不同的翻譯,而且兩個人的翻譯都不是錯的。那是因為表達同一個句子的“正確的”方法不止一種。 周明表示:“這也是為什么機器翻譯比純粹的模式識別任務(wù)復(fù)雜得多,人們可能用不同的詞語來表達完全相同的意思,但未必能準確判斷哪一個更好。”

復(fù)雜性讓機器翻譯成為一個極有挑戰(zhàn)性的問題,但也是一個極有意義的問題。劉鐵巖認為,我們不知道哪一天機器翻譯系統(tǒng)才能在翻譯任何語言、任何類型的文本時,都能在“信、達、雅”等多個維度上達到專業(yè)翻譯人員的水準。不過,他對技術(shù)的進展表示樂觀,因為每年微軟的研究團隊以及整個學術(shù)界都會發(fā)明大量的新技術(shù)、新模型和新算法,“我們可以預(yù)測的是,新技術(shù)的應(yīng)用一定會讓機器翻譯的結(jié)果日臻完善?!?/p>

研究團隊還表示,他們計劃將此次技術(shù)突破推廣到其他語言上面,同時應(yīng)用到微軟的商用多語言翻譯系統(tǒng)產(chǎn)品中。

黃學東認為,神經(jīng)機器翻譯,或者說深度學習,最激動人心的地方在于,它能夠?qū)W會自然語言內(nèi)部的embedded feature,把語言的結(jié)構(gòu),語義結(jié)構(gòu)和語義的表示學習出來,再反饋到系統(tǒng),從而實現(xiàn)自然語言理解的突破。

“機器學習需要很多數(shù)據(jù),NLP沒有很多標注的數(shù)據(jù),把表示學習出來,還能推廣到其他系統(tǒng)。”黃學東說:“NLP掌握著今后實現(xiàn)強人工智能的鑰匙。”

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • AI
    AI
    +關(guān)注

    關(guān)注

    89

    文章

    38032

    瀏覽量

    296116
  • 機器翻譯
    +關(guān)注

    關(guān)注

    0

    文章

    141

    瀏覽量

    15466
  • 自然語言
    +關(guān)注

    關(guān)注

    1

    文章

    292

    瀏覽量

    13914

原文標題:【AI再創(chuàng)紀錄】機器翻譯提前7年達到人類專業(yè)翻譯水平!

文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    云知聲論文入選自然語言處理頂會EMNLP 2025

    近日,自然語言處理(NLP)領(lǐng)域國際權(quán)威會議 ——2025 年計算語言學與自然語言處理國際會議(EMNLP 2025)公布論文錄用結(jié)果,云知
    的頭像 發(fā)表于 11-10 17:30 ?477次閱讀
    云知聲論文入選<b class='flag-5'>自然語言</b><b class='flag-5'>處理</b>頂會EMNLP 2025

    奧托立夫祝賀汽大眾達成3000萬輛里程碑

    2025年10月30日,我們重要的合作伙伴汽-大眾迎來第3000萬輛整車下線的歷史性時刻,標志著其成為國內(nèi)首家達成這一里程碑的乘用車企業(yè)!奧托立夫受邀出席下線儀式,共同見證這中國汽車工業(yè)發(fā)展的重大
    的頭像 發(fā)表于 11-03 09:56 ?312次閱讀

    里程碑!屹立芯創(chuàng)除泡系統(tǒng)落地馬來檳城,深耕 IoT 與先進封裝

    年中之際,屹立芯創(chuàng)迎來里程碑時刻 —— 公司自主研發(fā)生產(chǎn)的真空壓力除泡系統(tǒng),已正式交付頭部通信模組企業(yè),馬來西亞檳城研發(fā)中心。這成果不僅是對其在先進制造領(lǐng)域技術(shù)實力的硬核驗證,更標志著企業(yè)在 IoT 領(lǐng)域
    的頭像 發(fā)表于 07-15 10:07 ?453次閱讀
    <b class='flag-5'>里程碑</b>!屹立芯創(chuàng)除泡<b class='flag-5'>系統(tǒng)</b>落地馬來檳城,深耕 IoT 與先進封裝

    德力西電氣推出行業(yè)首款碳中和開關(guān)面板

    在“雙碳”目標驅(qū)動下,德力西電氣近日正式發(fā)布碳中和開關(guān)面板——免噴涂CD295初顏系列。這是繼今年3月公司推出行業(yè)首款碳中和智能電能表后的又一里程碑突破。
    的頭像 發(fā)表于 07-08 17:44 ?1142次閱讀

    里程碑!亞馬遜第 100 萬個機器人上崗!人類員工岌岌可危?

    電子發(fā)燒友網(wǎng)報道(文 / 吳子鵬)亞馬遜宣布在全球部署 100 萬臺機器人,這一里程碑標志著全球物流行業(yè)邁入智能化與自動化的新階段。第 100 萬個機器人被送往日本東京的運營中心,加入覆蓋全球
    的頭像 發(fā)表于 07-08 09:22 ?5651次閱讀

    比亞迪第五艘汽車運輸船“西安號”順利交付

    近日,比亞迪第五艘汽車運輸船“BYD XI’AN”在江蘇儀征順利交付,這是比亞迪全球化戰(zhàn)略布局中的又一里程碑。
    的頭像 發(fā)表于 06-23 18:10 ?880次閱讀

    仰望U8見證中國深空探測里程碑時刻

    近日,行星探測工程天問二號探測器在西昌衛(wèi)星發(fā)射中心發(fā)射,并已成功進入地球至小行星2016HO3轉(zhuǎn)移軌道,發(fā)射任務(wù)取得圓滿成功。仰望U8車隊赴發(fā)射現(xiàn)場,與航天專家、公眾共同見證中國深空探測又一里程碑
    的頭像 發(fā)表于 06-04 15:51 ?633次閱讀

    RISC-V生態(tài)又一里程碑!Debian官宣支持RV64

    電子發(fā)燒友綜合報道 RISC-V生態(tài)又一個里程碑!最近Debian社區(qū)宣布正式接收RISC-V 64成為官方支持的處理器架構(gòu),同時將MIPS64el架構(gòu)剔除出支持名單。 ? Debian
    的頭像 發(fā)表于 05-23 01:10 ?2776次閱讀

    王老吉藥業(yè)能源數(shù)字化管控系統(tǒng)項目順利驗收

    中設(shè)智控為王老吉藥業(yè)打造的能源數(shù)字化管控系統(tǒng)通過驗收,實現(xiàn)實時采集監(jiān)測、數(shù)據(jù)分析報表等功能,助力企業(yè)能源管理智能化升級,是中設(shè)智控在能源數(shù)字化領(lǐng)域的又一里程碑。
    的頭像 發(fā)表于 02-18 15:32 ?603次閱讀
    王老吉藥業(yè)能源數(shù)字化管控<b class='flag-5'>系統(tǒng)</b>項目順利驗收

    特斯拉上海超級工廠五周年里程碑

    近日,特斯拉公司副總裁陶琳在微博上回顧特斯拉上海超級工廠的個重要里程碑。五年前,正是在這天,特斯拉上海超級工廠生產(chǎn)的首批國產(chǎn)Model 3車型正式交付給
    的頭像 發(fā)表于 01-08 14:43 ?904次閱讀

    東風輕型車全新代V平臺正式發(fā)布

    東風輕型車在新能源領(lǐng)域達成又一里程碑,東風輕型車全新代V平臺暨睿立達品牌發(fā)布會在襄陽舉行。
    的頭像 發(fā)表于 12-23 14:45 ?878次閱讀

    破萬億!中國芯片出口迎來里程碑

    在全球科技競爭日益激烈的今天,中國芯片產(chǎn)業(yè)的發(fā)展備受矚目。根據(jù)海關(guān)總署最新公布的數(shù)據(jù),2023年前11個月,中國集成電路出口額首次突破1萬億元人民幣,同比增長20.3%,這一里程碑式的成就標志著中國
    的頭像 發(fā)表于 12-17 16:43 ?1591次閱讀
    破萬億!中國芯片出口迎來<b class='flag-5'>里程碑</b>

    如何優(yōu)化自然語言處理模型的性能

    優(yōu)化自然語言處理(NLP)模型的性能是個多方面的任務(wù),涉及數(shù)據(jù)預(yù)處理、特征工程、模型選擇、模型調(diào)參、模型集成與融合等多個環(huán)節(jié)。以下是些具
    的頭像 發(fā)表于 12-05 15:30 ?2372次閱讀

    自然語言處理在聊天機器人中的應(yīng)用

    上歸功于自然語言處理技術(shù)的進步。 聊天機器人的工作原理 聊天機器人的核心是個對話系統(tǒng),它能夠
    的頭像 發(fā)表于 12-05 15:24 ?1713次閱讀

    自然語言處理機器學習的關(guān)系 自然語言處理的基本概念及步驟

    Learning,簡稱ML)是人工智能的個核心領(lǐng)域,它使計算機能夠從數(shù)據(jù)中學習并做出預(yù)測或決策。自然語言處理機器學習之間有著密切的關(guān)系,因為
    的頭像 發(fā)表于 12-05 15:21 ?2532次閱讀