【概要】臉書公司開始使用無監(jiān)督機(jī)器學(xué)習(xí)來為其用戶提供翻譯服務(wù)。
由于缺少從一種語言到另一種語言的很多翻譯示例——例如從英語到烏爾都語(Urdu),F(xiàn)acebook(臉書)公司已經(jīng)開始使用無監(jiān)督的機(jī)器學(xué)習(xí)來翻譯其平臺上的內(nèi)容。
Facebook人工智能研究院(FacebookAI Research,F(xiàn)AIR)巴黎實驗室的主任Antoine Bordes表示:該方法由FAIR設(shè)計,并由FAIR和Facebook的應(yīng)用機(jī)器學(xué)習(xí)部門合作用于其平臺。在實驗中,該方法的表現(xiàn)與經(jīng)過10萬次翻譯訓(xùn)練的有監(jiān)督模型相當(dāng),并且在翻譯示例很少的情況下,其表現(xiàn)優(yōu)于Facebook的語言匹配系統(tǒng)。Bordes說:“當(dāng)你處理像英語到烏爾都語這樣的案例很少的翻譯任務(wù)時,我們系統(tǒng)的表現(xiàn)超過了有監(jiān)督的系統(tǒng)。因此,在沒有足夠數(shù)據(jù)的時候,訓(xùn)練無監(jiān)督系統(tǒng)比有監(jiān)督系統(tǒng)更好?!?/p>
由Facebook人工智能研究人員Guillaume Lample和Marc'Aurelio Ranzato領(lǐng)導(dǎo)的這項工作的成果將于今年秋季在EMNLP 2018上公布。作為FAIR的一名老員工,Bordes表示這項研究是他見過的最好的翻譯系統(tǒng)。Bordes說:“我們現(xiàn)在可以去一個使用未知語言的星球—或者說,跟外星人交談—你可以嘗試對他們所說的內(nèi)容進(jìn)行合理的翻譯。你也可以從一本古老的手稿上找到尚未破譯的語言,你可以真正了解它的含義,因此這項工作真的在這些方面取得了突破,而這就是我如此興奮的原因?!?/p>
與FAIR的其他項目一樣,該AI系統(tǒng)將是開源的,可以在GitHub上下載。今年早些時候,F(xiàn)acebook將Translate做了開源,這是目前Facebook用來輔助翻譯的人工智能系統(tǒng)。Translate等系統(tǒng)需要大量的標(biāo)記數(shù)據(jù)。例如,完成從法語到英語的翻譯需要數(shù)百萬個樣本句子來創(chuàng)建一個能夠理解這兩種語言的系統(tǒng)。因此,在缺少翻譯示例時,翻譯工作是非常困難的。
當(dāng)前用于處理這種案例的人工智能系統(tǒng)結(jié)合了三個要素:逐字翻譯、語言模型和反向翻譯。逐字翻譯的訓(xùn)練原理為:根據(jù)一個句子中某個字的前面五個單詞和后面五個單詞來推測其上下文含義,然后對該單詞進(jìn)行預(yù)測。這個嵌入詞語的方法是在2017年秋天Lample和Ranzato共同撰寫的一篇論文中提出的。然后,使用大量數(shù)據(jù)(如書籍或其他書面文本)訓(xùn)練的語言模型被用于按照英語或烏爾都語使用者能夠理解的結(jié)構(gòu)來安排句子。最后,使用反向翻譯來改進(jìn)通過逐字翻譯和語言模型獲得的翻譯結(jié)果。這些方法并不新鮮,但三者的結(jié)合的確是有效的。
Bordes稱:“使用這兩個系統(tǒng),并在兩種語言之間進(jìn)行雙向翻譯,我可以將它們進(jìn)行同時訓(xùn)練以獲得相互促進(jìn),所以真正核心思想是使用這些詞語(翻譯模型),利用該語言模型做第一次翻譯,然后用反向翻譯的方法嘗試進(jìn)行改進(jìn)?!?/p>
Facebook將在未來探索將這種人工智能系統(tǒng)用于其他形式的翻譯,但需要更多的數(shù)據(jù),并需要與專業(yè)翻譯人員合作來驗證結(jié)果。
-
Facebook
+關(guān)注
關(guān)注
3文章
1432瀏覽量
58355 -
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8541瀏覽量
136236
原文標(biāo)題:臉書采用無監(jiān)督機(jī)器學(xué)習(xí)提供翻譯服務(wù)
文章出處:【微信號:AI_News,微信公眾號:人工智能快報】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
【團(tuán)購】獨家全套珍藏!龍哥LabVIEW視覺深度學(xué)習(xí)實戰(zhàn)課(11大系列課程,共5000+分鐘)
【團(tuán)購】獨家全套珍藏!龍哥LabVIEW視覺深度學(xué)習(xí)實戰(zhàn)可(11大系列課程,共5000+分鐘)
傳音斬獲WMT 2025國際機(jī)器翻譯大賽四項冠軍
任正非說 AI已經(jīng)確定是第四次工業(yè)革命 那么如何從容地加入進(jìn)來呢?
無刷直流電機(jī)單神經(jīng)元自適應(yīng)智能控制系統(tǒng)
機(jī)器學(xué)習(xí)異常檢測實戰(zhàn):用Isolation Forest快速構(gòu)建無標(biāo)簽異常檢測系統(tǒng)
能在Meteor Lake平臺上使用SDK 3.5嗎?
使用MATLAB進(jìn)行無監(jiān)督學(xué)習(xí)
盤點#機(jī)器人開發(fā)平臺
在任何平臺上使用PetaLinux的先決條件
面向AI與機(jī)器學(xué)習(xí)應(yīng)用的開發(fā)平臺 AMD/Xilinx Versal? AI Edge VEK280

Facebook采用無監(jiān)督機(jī)器學(xué)習(xí)翻譯其平臺上內(nèi)容
評論