chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

仿真人類的微軟AI翻譯系統(tǒng)

傳感器技術 ? 來源:傳感器技術 ? 2023-10-11 15:27 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

微軟研究人員在利用深層神經(jīng)網(wǎng)絡人工智能AI)訓練技術翻譯文本方面發(fā)明了第一臺機器翻譯系統(tǒng),可以將中文新聞的句子翻譯成英文,準確率與人類不相上下。系統(tǒng)在一套常用的新聞報道測試集上實現(xiàn)了達到了人類水平,測試集名為newstest2017。

在前幾期的文章里,我們介紹了神經(jīng)網(wǎng)絡和深度學習的相關內容,微軟的這套翻譯系統(tǒng)就是使用深層神經(jīng)網(wǎng)絡,幫助生成更真實、更準確的翻譯。它還采用了多種不同的人工智能訓練方法,包括雙重學習、商議網(wǎng)絡和聯(lián)合訓練,試圖模仿人類的學習方式。

機器翻譯

機器翻譯系統(tǒng)是支持翻譯大量文本的應用程序或在線服務,將文本從“源”語言譯成另一種"目標"語言的過程。

自從2010年代早期,新的人工智能技術- 深度神經(jīng)網(wǎng)絡(又稱深度學習),已經(jīng)達到較高的精準度,微軟翻譯團隊將語音識別結合其核心文本翻譯技術,推出新的語音翻譯技術。

雖然機器翻譯技術和接口技術的概念相對簡單,但它背后的科技集成卻是極其復雜的,集成了多項尖端技術,特別是深度學習(人工智能)、 大數(shù)據(jù)、 語言學、 云計算和 web API

從歷史上看,曾經(jīng)主流的機器學習技術在行業(yè)中應用是統(tǒng)計機器翻譯 (SMT)。SMT 使用先進的統(tǒng)計分析,從一句話中上下文的幾個詞中來估計最佳可能的翻譯。SMT自20 世紀中期以來的為所有主要翻譯服務提供商所使用,其中包括微軟。

基于深度神經(jīng)網(wǎng)絡(NN) 的翻譯技術的出現(xiàn),帶動了機器翻譯技術的突變,顯著提高了翻譯質量。這種新的翻譯技術在2016年的下半年開始大規(guī)模部署使用。

這兩種技術共同之處有兩個方面︰

兩者都需要大量的人工翻譯的數(shù)據(jù)(高達數(shù)百萬的人工翻譯過的句子)用于培訓翻譯系統(tǒng)。

既不作為雙語詞典,也不是基于翻譯列表,是根據(jù)詞在句子中使用的上下文來翻譯。

Microsoft翻譯

微軟翻譯文本和語音 API,是微軟認知服務集合的一部分,是微軟云的機器翻譯服務。

1、微軟翻譯文本 API

微軟翻譯文本API 已自2006年以來用于微軟多個個業(yè)務部門的產(chǎn)品和服務中,并且自2011年向第三方客戶提供。微軟翻譯文本API已經(jīng)在微軟公司內部廣泛應用,它被用于產(chǎn)品本地化、客戶支持和在線交流(例如, Windows Blog)。還可以從熟悉的微軟產(chǎn)品( Bing、柯塔娜、 Internet Explorer、 Lync、 Cortana、 Office、SharePoint、 Skype 和 Yammer)訪問這一服務,且無需額外付費。

Microsoft Translator 可在任何硬件平臺上以Web方式或客戶端中使用,與任何操作系統(tǒng)結合來進行語言翻譯和其他語言相關操作,如文字語言檢測,文本到語音轉換,以及詞典。

利用行業(yè)標準的REST技術,開發(fā)人員向服務發(fā)送源文本以及標識目標語言的參數(shù),該服務經(jīng)翻譯后的文本發(fā)送回客戶端或 web 應用程序。

微軟翻譯服務部署在微軟數(shù)據(jù)中心,從安全性、 可伸縮性、 可靠性和不間斷的可用性等方面享受和其他微軟云服務同樣的好處。

2、微軟翻譯語音API

微軟語音翻譯技術首先在2014年底通過Skype Translator集成推出的,并且在2016年初是作為開放的API向客戶提供。它集成在Skype,Skype會議廣播和微軟翻譯app中(Android、 iOS 和 Windows版)。

文本翻譯的工作原理

有兩種主流的機器翻譯技術︰ 傳統(tǒng)的統(tǒng)計機器翻譯(SMT) 和新一代之神經(jīng)網(wǎng)絡 (NN) 翻譯。

1、統(tǒng)計機器翻譯

微軟翻譯使用的統(tǒng)計機器翻譯(SMT) 是建立在超過十年的微軟自然語言處理研究成果上?,F(xiàn)代翻譯系統(tǒng)不再手動編寫規(guī)則進行語言轉換,而是將翻譯當作基于所有語言現(xiàn)有的人工譯文及相互轉換的學習問題,并利用了應用統(tǒng)計學和機器學習方面的最新成果。

所謂的"平行語料庫"在很大程度上充當現(xiàn)代的羅塞塔石,基于語境為許多語言以及專門領域提供單詞、短語和習語翻譯。統(tǒng)計建模技術和高效算法幫助計算機解決解讀(檢測訓練數(shù)據(jù)中源語言和目標語言之間的對應關系)以及解碼 (為新輸入句子找到最好的翻譯)等問題。Microsoft Translator 將統(tǒng)計方法的力量與語言信息相結合,產(chǎn)生歸納更理想譯文和更易理解的輸出。

由于這種方法并不依賴于詞典或語法規(guī)則,它提供基于上下文的最佳翻譯的詞匯和短語。

2、神經(jīng)網(wǎng)絡翻譯

翻譯質量的不斷改善是十分重要的。然而,SMT 技術自2010年代中期性能改進有所停滯。通過大規(guī)模部署的微軟AI 超級計算機,特別是通過微軟認知工具包,微軟翻譯現(xiàn)在提供了基于神經(jīng)網(wǎng)絡 (LSTM) 的翻譯,使翻譯質量改進步入了新的十年。

這些神經(jīng)網(wǎng)絡模型已經(jīng)在所有微軟語音翻譯中部署,可以通過語音翻譯API調用,或者通過文本API 使用“generalnn“的Category ID參數(shù)調用。

神經(jīng)網(wǎng)絡翻譯從根本上的執(zhí)行方式相對于傳統(tǒng) SMT翻譯不同。

下面的動畫描述了神經(jīng)網(wǎng)絡翻譯的各個步驟。使用這種方法,翻譯將考慮到上下文完整的句子,而SMT技術只能考慮上下文的幾個詞語。所以,神經(jīng)網(wǎng)絡翻譯將會產(chǎn)生更流利和接近人工翻譯的結果。

基于神經(jīng)網(wǎng)絡的訓練,每個單詞被編碼沿500 維向量 (a) 表示其獨特的特征,針對特定的語言對(例如英語和中文)。將語言對用于訓練,神經(jīng)網(wǎng)絡將自定義這些維度應該是什么。他們可以對簡單的概念,如性別 (女性,男性,中性),禮貌水平(俚語,休閑,書面的正式的等等),類型的詞(動詞、 名詞等),以及任何其他非明顯的特征作為派生的訓練數(shù)據(jù)進行編碼。

神經(jīng)網(wǎng)絡翻譯運行的步驟如下︰

每個單詞或更具體地說 500-維向量表示它,穿過第一層的"神經(jīng)元",將編碼它在一個1000-維向量 (b) 代表這個詞在上下文句子中其他詞的范圍。

一旦所有單詞均已進行這些 1000- 維向量都編碼,過程被重復幾次,每一層都進行更好地微調這1000- 維度表現(xiàn)這個詞完整的句子(而SMT翻譯只考慮 3 到 5 個單詞的窗口)的范圍內。

翻譯注意層(即軟件算法)將使用此最終輸出矩陣和以前翻譯過的單詞來確定來自源句子的哪個詞,應該接下來到最終輸出矩陣。它還將使用這些計算在目標語言中刪除不必要的詞語。

解碼器(翻譯)層,在它最合適的目標語言等效轉換選定的詞(或更具體地說 1000-維向量代表這個詞的完整的句子范圍內)。這個輸出層(C)然后反饋到注意層計算源句子應該翻譯的下一個單詞。

在動畫的示例中,"the"的上下文感知的 1000- 維度模型將編碼的名詞 (house)是法語的女性詞 (la maison)。這將"the"適當?shù)姆g為"la" 而不是"le" (單數(shù),男性)或"les" (復數(shù)),當它達到解碼器(翻譯)層。

注意算法還將計算基于以前翻譯過的(在這個案例"the"),下一步這個詞被翻譯應該是主題("house") 而不是一個形容詞 ("blue")??梢宰龅竭@一點因為系統(tǒng)學過英語和法語轉換時這些句子中詞語的順序。假如形容詞是"大"而不是一種顏色的形容詞,那它應該不反轉 (“the big house” => “l(fā)a grande maison”)。

基于這種辦法最終的翻譯結果在大多數(shù)情況下,比基于SMT 的翻譯更流暢和更接近于人類的翻譯。

語音翻譯的工作原理

Microsoft Translator 還能夠翻譯語音。此功能最初僅通過Skype Translator,以及iOS 和 Android的Microsoft Translator 應用程序提供?,F(xiàn)在通過最新版的語音翻譯API 提供向開發(fā)人員提供。

雖然乍看上去是個簡單的過程,但這比僅僅將“傳統(tǒng)”人機語音識別引擎插入現(xiàn)有文本翻譯引擎的過程復雜得多。

若要正確從一種語言的"源"語音翻譯成不同的"目標"語言,系統(tǒng)經(jīng)過四步過程。

語音識別,將音頻轉換為文本。

TrueText算法: 微軟特有的技術將口語優(yōu)化成更標準的文本,使之更適合機器翻譯。

通過上述的文本翻譯引擎進行翻譯,利用專為現(xiàn)實生活口語會話開發(fā)的翻譯模型。

文本到語音轉換,必要時輸出譯文的音頻。

1、自動語音識別 (ASR)

使用經(jīng)過數(shù)千小時訓練的DNN 系統(tǒng)執(zhí)行自動語音識別(ASR)。此模型基于人和人交互數(shù)據(jù),而非人機指令訓練,可產(chǎn)生適合正常對話優(yōu)化的語音識別效果。為達此目的,DNN需要相比傳統(tǒng)人機交互ASR更多大量的生活口語數(shù)據(jù)訓練系統(tǒng)。

2、TrueText

我們日常的說話并不完美,常常不如自己認為的那樣清晰和流利。憑借 TrueText技術,可以刪除口語中不流利的部分(贅詞,如"嗯"、"啊"、"和"、"比如")、口吃和重復,使文本經(jīng)轉換更貼近地反映用戶意圖。還通過添加斷句、正確標點符號和大小寫,使文本更易讀和更易譯。為取得這些成果,我們將數(shù)十年的研究成果應用于開發(fā) Translator的語言技術,從而創(chuàng)建出 TrueText。下圖通過真實的示例演示 TrueText的執(zhí)行過程。

3、翻譯

然后,將相關文本翻譯成任何微軟翻譯支持的60 多種語言之一。

面向開發(fā)人員提供的語音翻譯API或在語音翻譯應用程序或服務中使用最新的神經(jīng)網(wǎng)絡翻譯,可以使用所有語音輸入支持的語言(請參閱這里的完整列表)。當前現(xiàn)有的翻譯模型大多是書面語文本訓練的,通過增加更多的口語文本語料庫,打造更好的為口語會話類型的翻譯建立了的模型。這些模型也可通過'Speech'標準類文本翻譯 API 提供。

對于任何其他非語音類支持語言,仍然使用傳統(tǒng)的SMT 翻譯,除非另有說明如這里。

4、文本到語音

目前我們支持18文本到語音轉換語言,如果需要音頻輸出,文本將以語音合成輸出。在語音轉文本的翻譯情景中將省略這一階段。

newstest2017系統(tǒng)的新技術

微軟官方博客中提到,新的翻譯系統(tǒng)中用到了四大技術:對偶學習、聯(lián)合訓練、推敲網(wǎng)絡和一致性正則化,對應的論文也已經(jīng)公開。

1、對偶學習臺(Dual Learning)

對偶學習利用的是人工智能任務的天然對稱性。其發(fā)現(xiàn)是由于現(xiàn)實中有意義、有實用價值的人工智能任務往往會成對出現(xiàn),兩個任務可以互相反饋,從而訓練出更好的深度學習模型。例如,在翻譯領域,我們關心從英文翻譯到中文,也同樣關心從中文翻譯回英文;在語音領域,我們既關心語音識別的問題,也關心語音合成的問題;在圖像領域,圖像識別與圖像生成也是成對出現(xiàn)。此外,在對話引擎、搜索引擎等場景中都有對偶任務。

一方面,由于存在特殊的對偶結構,兩個任務可以互相提供反饋信息,而這些反饋信息可以用來訓練深度學習模型。也就是說,即便沒有人為標注的數(shù)據(jù),有了對偶結構也可以做深度學習。另一方面,兩個對偶任務可以互相充當對方的環(huán)境,這樣就不必與真實的環(huán)境做交互,兩個對偶任務之間的交互就可以產(chǎn)生有效的反饋信號。因此,充分地利用對偶結構,就有望解決深度學習和增強學習的瓶頸,如“訓練數(shù)據(jù)從哪里來、與環(huán)境的交互怎么持續(xù)進行”等問題。

2、推敲網(wǎng)絡(Deliberation Network)

“推敲”二字可以認為是來源于人類閱讀、寫文章以及做其他任務時候的一種行為方式,即任務完成之后,并不當即終止,而是會反復推敲。微軟亞洲研究院機器學習組將這個過程沿用到了機器學習中。推敲網(wǎng)絡具有兩段解碼器,其中第一階段解碼器用于解碼生成原始序列,第二階段解碼器通過推敲的過程打磨和潤色原始語句。后者了解全局信息,在機器翻譯中看,它可以基于第一階段生成的語句,產(chǎn)生更好的翻譯結果。

3、腦聯(lián)合訓練(Joint Training)

這個方法可以認為是從源語言到目標語言翻譯(Source to Target)的學習與從目標語言到源語言翻譯(Target to Source)的學習的結合。中英翻譯和英中翻譯都使用初始并行數(shù)據(jù)來訓練,在每次訓練的迭代過程中,中英翻譯系統(tǒng)將中文句子翻譯成英文句子,從而獲得新的句對,而該句對又可以反過來補充到英中翻譯系統(tǒng)的數(shù)據(jù)集中。同理,這個過程也可以反向進行。這樣雙向融合不僅使得兩個系統(tǒng)的訓練數(shù)據(jù)集大大增加,而且準確率也大幅提高。

從源語言到目標語言翻譯(Source to Target)P(y|x) 與從目標語言到源語言翻譯(Target to Source)P(x|y)

4、一致性規(guī)范(Agreement Regularization)

翻譯結果可以從左到右按順序產(chǎn)生,也可以從右到左進行生成。該規(guī)范對從左到右和從右到左的翻譯結果進行約束。如果這兩個過程生成的翻譯結果一樣,一般而言比結果不一樣的翻譯更加可信。這個約束,應用于神經(jīng)機器翻譯訓練過程中,以鼓勵系統(tǒng)基于這兩個相反的過程生成一致的翻譯結果。

復雜性讓機器翻譯成為一個極有挑戰(zhàn)性的問題,但也是一個極有意義的問題。微軟亞洲研究院副院長、機器學習組負責人劉鐵巖認為,我們不知道哪一天機器翻譯系統(tǒng)才能在翻譯任何語言、任何類型的文本時,都能在“信、達、雅”等多個維度上達到專業(yè)翻譯人員的水準。不過,他對技術的進展表示樂觀,因為每年微軟的研究團隊以及整個學術界都會發(fā)明大量的新技術、新模型和新算法,“我們可以預測的是,新技術的應用一定會讓機器翻譯的結果日臻完善?!?/p>

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 微軟
    +關注

    關注

    4

    文章

    6705

    瀏覽量

    106967
  • 神經(jīng)網(wǎng)絡

    關注

    42

    文章

    4819

    瀏覽量

    106067
  • 人工智能
    +關注

    關注

    1811

    文章

    49498

    瀏覽量

    258209
  • 機器學習
    +關注

    關注

    66

    文章

    8528

    瀏覽量

    135873

原文標題:仿真人類的微軟AI翻譯系統(tǒng)

文章出處:【微信號:WW_CGQJS,微信公眾號:傳感器技術】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    【「AI芯片:科技探索與AGI愿景」閱讀體驗】+AI的科學應用

    配備科學發(fā)現(xiàn)仍需人類的直覺和靈感 ④正價可解釋性和透明性 ⑤解決倫理和道德問題六、AI芯片用于“AI科學家”系統(tǒng) AI芯片的作用:七、用量子
    發(fā)表于 09-17 11:45

    電驅動系統(tǒng)EMC測試整改:AI仿真技術如何提升效率

    深圳南柯電子|電驅動系統(tǒng)EMC測試整改:AI仿真技術如何提升效率
    的頭像 發(fā)表于 08-25 11:01 ?436次閱讀

    AI輸出“偏見”,人類能否信任它的“三觀”?

    人工智能(AI)已成為我們不可分割的“伙伴”。從聊天機器人、語音助手到自動翻譯,AI不斷介入人與人之間的交流和理解。然而,它能做到“客觀中立”嗎?據(jù)美國《麻省理工科技評論》官網(wǎng)報道,一項國際研究指出
    的頭像 發(fā)表于 08-04 13:43 ?1056次閱讀
    <b class='flag-5'>AI</b>輸出“偏見”,<b class='flag-5'>人類</b>能否信任它的“三觀”?

    日本航空攜手微軟率先將AI應用引入客艙管理

    日本航空(JAL)攜手微軟,率先將AI應用引I入客艙管理。通過基于微軟Phi-4小型語言模型(SLM)開發(fā)的JAL-AI報告系統(tǒng),空乘人員報
    的頭像 發(fā)表于 07-18 11:12 ?925次閱讀

    AI Agent 應用與項目實戰(zhàn)》閱讀心得2——客服機器人、AutoGen框架 、生成式代理

    繼續(xù)分享第2篇閱讀心得。 傳統(tǒng)客服系統(tǒng)在知識庫更新和多輪對話管理方面存在諸多技術瓶頸,本書第3章中提出的AI課程客服機器人架構巧妙地解決了這些問題。該架構采用Replit作為開發(fā)環(huán)境
    發(fā)表于 02-25 21:59

    AI助力實時翻譯耳機

    你是否曾經(jīng)因為語言障礙而無法與外國人順暢交流?或者在旅行中因為語言不通而錯過了一些精彩的經(jīng)歷?現(xiàn)在,隨著AI技術的發(fā)展,實時翻譯耳機可以幫你輕松解決這些問題。 1 什么是實時翻譯耳機 實時翻譯
    的頭像 發(fā)表于 01-24 11:14 ?2576次閱讀
    <b class='flag-5'>AI</b>助力實時<b class='flag-5'>翻譯</b>耳機

    時空壺亮相CES首發(fā)AI翻譯操作系統(tǒng)Bable OS,登場驚艷全球

    , and Telegram. 此前,應用Bable OS時空壺巴別系統(tǒng)的W4Pro AI同傳耳機憑借其創(chuàng)新性的雙向通話翻譯功能,為全球用戶帶來了高效、便
    的頭像 發(fā)表于 01-14 18:19 ?985次閱讀

    微軟起訴繞過云AI安全工具開發(fā)者

    微軟公司近期針對某組織提起了一宗法律訴訟,指控該組織故意開發(fā)并使用非法工具,以繞過微軟AI產(chǎn)品的安全防護措施。這一行為導致未經(jīng)授權的訪問,并生成了有害內容,對微軟
    的頭像 發(fā)表于 01-13 14:46 ?640次閱讀

    名單公布!【書籍評測活動NO.55】AI Agent應用與項目實戰(zhàn)

    use——AutoGLM,面向電腦的compute use——GLM PC,以及面向網(wǎng)頁的GLM-Web能力。 此前,微軟也宣布,已建立全球規(guī)模最大的企業(yè)級AI Agent生態(tài)系統(tǒng)。加之谷歌Jarvis
    發(fā)表于 01-13 11:04

    微軟與重要伙伴深化AI領域技術合作

    2025年1月9日,美國,拉斯維加斯——CES 2025國際消費類電子產(chǎn)品展覽會期間,微軟大中華區(qū)舉辦以 “AI在握,共拓全球Be AI Ready, Win Globally” 為主題的出?;锇?/div>
    的頭像 發(fā)表于 01-09 16:41 ?1000次閱讀

    物理仿真人形機器人的統(tǒng)一全身控制策略

    創(chuàng)建動作自然并對各種控制輸入做出智能響應的交互式仿真人形機器人仍是計算機動畫和機器人技術領域最具挑戰(zhàn)性的問題之一。NVIDIA Isaac Sim等高性能 GPU 加速仿真器以及使用NVIDIA Isaac Lab的機器人策略訓練,使交互式人形機器人的訓練取得了顯著的進展
    的頭像 發(fā)表于 01-06 12:31 ?1421次閱讀
    物理<b class='flag-5'>仿真人</b>形機器人的統(tǒng)一全身控制策略

    馬斯克預言:AI將全面超越人類智力

    近日,科技巨頭馬斯克作出了一個關于人工智能(AI)的大膽預測。他斷言,AI的發(fā)展速度將超乎人類的想象,并將在不久的將來全面超越人類的智力。 馬斯克在X平臺上明確表示,
    的頭像 發(fā)表于 12-28 14:23 ?996次閱讀

    微軟AI技術助力豐田汽車加快創(chuàng)新

    豐田汽車借助微軟 AI技術構建了生成式 AI系統(tǒng)“O-Beya”旨在存儲共享專業(yè)知識,應對工程師退休潮,確保新車型研發(fā)速度。該系統(tǒng)已擁有9個
    的頭像 發(fā)表于 12-12 14:24 ?1158次閱讀

    微軟發(fā)布Azure AI Foundry,推動云服務增長

    微軟近日發(fā)布了一款旨在協(xié)助云客戶構建和部署人工智能應用的新工具——Azure AI Foundry。此舉不僅體現(xiàn)了微軟在生成式人工智能領域的深入布局,更彰顯了其從AI應用中獲取更多收入
    的頭像 發(fā)表于 11-21 11:32 ?1084次閱讀