chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

介紹三個NLP領(lǐng)域的熱門詞匯

8g3K_AI_Thinker ? 來源:lp ? 2019-04-17 10:05 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

編者按:在過去的一段時間,自然語言處理領(lǐng)域取得了許多重要的進展,Transformer、BERT、無監(jiān)督機器翻譯,這些詞匯仿佛在一夜之間就進入了人們的視野。你知道它們具體都是什么意思嗎?今天,我們就將為大家介紹三個NLP領(lǐng)域的熱門詞匯。

Transformer

Transformer 在2017年由Google在題為《Attention Is All You Need》的論文中提出。Transformer 是一個完全基于注意力機制的編解碼器模型,它拋棄了之前其它模型引入注意力機制后仍然保留的循環(huán)與卷積結(jié)構(gòu),而采用了自注意力(Self-attention)機制,在任務(wù)表現(xiàn)、并行能力和易于訓(xùn)練性方面都有大幅的提高。

在 Transformer 出現(xiàn)之前,基于神經(jīng)網(wǎng)絡(luò)的機器翻譯模型多數(shù)都采用了 RNN 的模型架構(gòu),它們依靠循環(huán)功能進行有序的序列操作。雖然 RNN 架構(gòu)有較強的序列建模能力,但是存在訓(xùn)練速度慢,訓(xùn)練質(zhì)量低等問題。

與基于 RNN 的方法不同,Transformer 模型中沒有循環(huán)結(jié)構(gòu),而是把序列中的所有單詞或者符號并行處理,同時借助自注意力機制對句子中所有單詞之間的關(guān)系直接進行建模,而無需考慮各自的位置。

具體而言,如果要計算給定單詞的下一個表征,Transformer 會將該單詞與句子中的其它單詞一一對比,并得出這些單詞的注意力分數(shù)。注意力分數(shù)決定其它單詞對給定詞匯的語義影響。之后,注意力分數(shù)用作所有單詞表征的平均權(quán)重,這些表征輸入全連接網(wǎng)絡(luò),生成新表征。

由于 Transformer 并行處理所有的詞,以及每個單詞都可以在多個處理步驟內(nèi)與其它單詞之間產(chǎn)生聯(lián)系,它的訓(xùn)練速度比 RNN 模型更快,在翻譯任務(wù)中的表現(xiàn)也比 RNN 模型更好。

除了計算性能和更高的準確度,Transformer 另一個亮點是可以對網(wǎng)絡(luò)關(guān)注的句子部分進行可視化,尤其是在處理或翻譯一個給定詞時,因此可以深入了解信息是如何通過網(wǎng)絡(luò)傳播的。

之后,Google的研究人員們又對標準的 Transformer 模型進行了拓展,采用了一種新型的、注重效率的時間并行循環(huán)結(jié)構(gòu),讓它具有通用計算能力,并在更多任務(wù)中取得了更好的結(jié)果。

改進的模型(Universal Transformer)在保留Transformer 模型原有并行結(jié)構(gòu)的基礎(chǔ)上,把 Transformer 一組幾個各異的固定的變換函數(shù)替換成了一組由單個的、時間并行的循環(huán)變換函數(shù)構(gòu)成的結(jié)構(gòu)。

相比于 RNN一個符號接著一個符號從左至右依次處理序列,Universal Transformer 和 Transformer 能夠一次同時處理所有的符號,但 Universal Transformer 接下來會根據(jù)自注意力機制對每個符號的解釋做數(shù)次并行的循環(huán)處理修飾。

Universal Transformer 中時間并行的循環(huán)機制不僅比 RNN 中使用的串行循環(huán)速度更快,也讓 Universal Transformer 比標準的前饋 Transformer 更加強大。

預(yù)訓(xùn)練 Pre-train

目前神經(jīng)網(wǎng)絡(luò)在進行訓(xùn)練的時候基本都是基于后向傳播(Back Propagation,BP)算法,通過對網(wǎng)絡(luò)模型參數(shù)進行隨機初始化,然后利用優(yōu)化算法優(yōu)化模型參數(shù)。

但是在標注數(shù)據(jù)很少的情況下,通過神經(jīng)網(wǎng)絡(luò)訓(xùn)練出的模型往往精度有限,“預(yù)訓(xùn)練”則能夠很好地解決這個問題,并且對一詞多義進行建模。

預(yù)訓(xùn)練是通過大量無標注的語言文本進行語言模型的訓(xùn)練,得到一套模型參數(shù),利用這套參數(shù)對模型進行初始化,再根據(jù)具體任務(wù)在現(xiàn)有語言模型的基礎(chǔ)上進行精調(diào)。

預(yù)訓(xùn)練的方法在自然語言處理的分類和標記任務(wù)中,都被證明擁有更好的效果。目前,熱門的預(yù)訓(xùn)練方法主要有三個:ELMo,OpenAI GPT 和 BERT。

在2018年初,艾倫人工智能研究所和華盛頓大學的研究人員在題為《Deep contextualized word representations》一文中提出了ELMo。

相較于傳統(tǒng)的使用詞嵌入(Word embedding)對詞語進行表示,得到每個詞唯一固定的詞向量,ELMo 利用預(yù)訓(xùn)練好的雙向語言模型,根據(jù)具體輸入從該語言模型中可以得到在文本中該詞語的表示。在進行有監(jiān)督的 NLP 任務(wù)時,可以將 ELMo 直接當做特征拼接到具體任務(wù)模型的詞向量輸入或者是模型的最高層表示上。

在ELMo的基礎(chǔ)之上,OpenAI的研究人員在《Improving Language Understanding by Generative Pre-Training》提出了OpenAI GPT。

與ELMo為每一個詞語提供一個顯式的詞向量不同,OpenAI GPT能夠?qū)W習一個通用的表示,使其能夠在大量任務(wù)上進行應(yīng)用。

在處理具體任務(wù)時,OpenAI GPT 不需要再重新對任務(wù)構(gòu)建新的模型結(jié)構(gòu),而是直接在 Transformer 這個語言模型上的最后一層接上 softmax 作為任務(wù)輸出層,再對這整個模型進行微調(diào)。

ELMo和OpenAI GPT這兩種預(yù)訓(xùn)練語言表示方法都是使用單向的語言模型來學習語言表示,而Google在提出的BERT則實現(xiàn)了雙向?qū)W習,并得到了更好的訓(xùn)練效果。

具體而言,BERT使用Transformer的編碼器作為語言模型,并在語言模型訓(xùn)練時提出了兩個新的目標:MLM(Masked Language Model)和句子預(yù)測。

MLM是指在輸入的詞序列中,隨機的擋上 15% 的詞,并遮擋部分的詞語進行雙向預(yù)測。為了讓模型能夠?qū)W習到句子間關(guān)系,研究人員提出了讓模型對即將出現(xiàn)的句子進行預(yù)測:對連續(xù)句子的正誤進行二元分類,再對其取和求似然。

圖片來源:Google AI Blog

無監(jiān)督機器翻譯

Unsupervised Machine Translation

現(xiàn)有的機器翻譯需要大量的翻譯文本做訓(xùn)練樣本,這使得機器翻譯只在一小部分樣本數(shù)量充足的語言上表現(xiàn)良好,但如何在沒有源翻譯的情況下訓(xùn)練機器翻譯模型,即無監(jiān)督訓(xùn)練,成為了目前熱門的研究話題。

Facebook 在 EMNLP 2018 上的論文《Phrase-Based & Neural Unsupervised Machine Translation》利用跨字嵌入(Cross Word Embedding),提升了高達 11 BLEU,那么 Facebook 是如何實現(xiàn)的呢?

第一步是讓系統(tǒng)學習雙語詞典。系統(tǒng)首先為每種語言中的每個單詞訓(xùn)練詞嵌入,訓(xùn)練詞嵌入通過上下文來預(yù)測給定單詞周圍的單詞。

不同語言的詞嵌入具有相似的鄰域結(jié)構(gòu),因此可以通過對抗訓(xùn)練等方法讓系統(tǒng)學習旋轉(zhuǎn)變換一種語言的詞嵌入,以匹配另一種語言的詞嵌入。

基于這些信息,就可以得到一個相對準確的雙語詞典,并基本可以實現(xiàn)逐字翻譯。在得到語言模型和初始的逐字翻譯模型之后,就可以構(gòu)建翻譯系統(tǒng)的早期版本。

然后將系統(tǒng)翻譯出的語句作為標注過的真實數(shù)據(jù)進行處理,訓(xùn)練反向機器翻譯系統(tǒng),得到一個更加流暢和語法正確的語言模型,并將反向翻譯中人工生成的平行句子與該語言模型提供的校正相結(jié)合,以此來訓(xùn)練這個翻譯系統(tǒng)。

通過對系統(tǒng)的訓(xùn)練,形成了反向翻譯的數(shù)據(jù)集,從而改進原有的機器翻譯系統(tǒng)。隨著一個系統(tǒng)得到改進,可以使用它以迭代方式在相反方向上為系統(tǒng)生成訓(xùn)練數(shù)據(jù),并根據(jù)需要進行多次迭代。

逐字嵌入初始化、語言建模和反向翻譯是無監(jiān)督機器翻譯的三個重要原則。將基于這些原理得到的翻譯系統(tǒng)應(yīng)用于無監(jiān)督的神經(jīng)模型和基于計數(shù)的統(tǒng)計模型,從訓(xùn)練好的神經(jīng)模型開始,使用基于短語模型的其它反向翻譯句子對其進行訓(xùn)練,最終得到了一個既流暢,準確率又高的模型。

對于無監(jiān)督機器翻譯,微軟亞洲研究院自然語言計算組也進行了探索。研究人員利用后驗正則(Posterior Regularization)的方式將 SMT(統(tǒng)計機器翻譯)引入到無監(jiān)督NMT的訓(xùn)練過程中,并通過EM過程交替優(yōu)化 SMT 和 NMT 模型,使得無監(jiān)督 NMT 迭代過程中的噪音能夠被有效去除,同時 NMT 模型也彌補了 SMT 模型在句子流暢性方面的不足。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 神經(jīng)網(wǎng)絡(luò)

    關(guān)注

    42

    文章

    4819

    瀏覽量

    106040
  • 機器翻譯
    +關(guān)注

    關(guān)注

    0

    文章

    141

    瀏覽量

    15368
  • nlp
    nlp
    +關(guān)注

    關(guān)注

    1

    文章

    491

    瀏覽量

    23032

原文標題:請收下這份 NLP 熱門詞匯解讀

文章出處:【微信號:AI_Thinker,微信公眾號:人工智能頭條】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    怎么結(jié)合嵌入式,Linux,和FPGA三個方向達到一均衡發(fā)展?

    在嵌入式領(lǐng)域,不少人都懷揣著讓嵌入式、Linux 和 FPGA 三個方向?qū)崿F(xiàn)均衡發(fā)展的夢想,然而實踐中卻面臨諸多挑戰(zhàn)。就像備受矚目的全棧工程師稚暉君,他從大學玩單片機起步,憑借將智能算法融入嵌入式而
    的頭像 發(fā)表于 06-25 10:08 ?520次閱讀
    怎么結(jié)合嵌入式,Linux,和FPGA<b class='flag-5'>三個</b>方向達到一<b class='flag-5'>個</b>均衡發(fā)展?

    半導(dǎo)體制造過程中的三個主要階段

    前段工藝(Front-End)、中段工藝(Middle-End)和后段工藝(Back-End)是半導(dǎo)體制造過程中的三個主要階段,它們在制造過程中扮演著不同的角色。
    的頭像 發(fā)表于 03-28 09:47 ?4666次閱讀
    半導(dǎo)體制造過程中的<b class='flag-5'>三個</b>主要階段

    如何檢測極管的三個

    可以用萬用表來初步確定極管的好壞及類型 (NPN 型還是 PNP 型 ),并辨別出e(發(fā)射極)、b(基極)、c(集電極)三個電極。
    發(fā)表于 03-08 16:40

    如何區(qū)分場效應(yīng)管mos管三個引腳

    場效應(yīng)管mos管三個引腳怎么區(qū)分
    發(fā)表于 03-07 09:20 ?0次下載

    如何在三個三個或更多現(xiàn)場可編程門陣列* (FPGA) 設(shè)備上同時運行OpenVINO??

    無法同時使用三個FPGA卡在同一模型上進行推理
    發(fā)表于 03-06 07:15

    Linux系統(tǒng)中最重要的三個命令

    Linux劍客是Linux系統(tǒng)中最重要的三個命令,它們以其強大的功能和廣泛的應(yīng)用場景而聞名。這三個工具的組合使用幾乎可以完美應(yīng)對Shell中的數(shù)據(jù)分析場景,因此被統(tǒng)稱為Linux
    的頭像 發(fā)表于 03-03 10:37 ?653次閱讀

    使用DDS生成三個信號并在Vivado中實現(xiàn)低通濾波器

    本文使用 DDS 生成三個信號,并在 Vivado 中實現(xiàn)低通濾波器。低通濾波器將濾除相關(guān)信號。
    的頭像 發(fā)表于 03-01 14:31 ?2219次閱讀
    使用DDS生成<b class='flag-5'>三個</b>信號并在Vivado中實現(xiàn)低通濾波器

    150℃無壓燒結(jié)銀最簡單三個步驟

    的熱點。在材料科學與電子工程領(lǐng)域,燒結(jié)技術(shù)作為連接與成型的關(guān)鍵工藝之一,始終占據(jù)著舉足輕重的地位。接下來,我們將詳細介紹150℃無壓燒結(jié)銀AS9378TB的最簡單三個步驟,以便讀者和客戶能夠快速理解并
    發(fā)表于 02-23 16:31

    ADS828的GND引腳有三個,這三個引腳的接地是哪個接數(shù)字地,哪個接模擬地?

    在貴公司的這款A(yù)D轉(zhuǎn)換芯片ADS828的GND引腳有三個(1、16、26)想咨詢一下這三個引腳的接地是哪個接數(shù)字地,哪個接模擬地,還是不用考慮這方面;還有就是在輸出偏置電壓的時候,在為2.5V的時候,是用CM輸出端好,還是用REFT和REFB電阻分壓好?
    發(fā)表于 02-14 08:27

    相位測量儀三個燈都亮什么原因

    相位測量儀作為一種精密的電子測量設(shè)備,廣泛應(yīng)用于電力、通信、自動化控制等領(lǐng)域,用于測量電壓、電流之間的相位關(guān)系。然而,在使用過程中,有時會遇到相位測量儀三個燈同時亮起的情況,這往往意味著存在某種異?;蝈e誤。
    的頭像 發(fā)表于 01-29 15:05 ?1829次閱讀

    動態(tài)無功補償?shù)?b class='flag-5'>三個必要條件

    重要性愈發(fā)凸顯。本文將探討動態(tài)無功補償?shù)?b class='flag-5'>三個關(guān)鍵條件,以幫助電力系統(tǒng)運營者更好地應(yīng)對復(fù)雜的電力需求和供給問題。 動態(tài)無功補償?shù)?b class='flag-5'>三個必要條件包括: 實時監(jiān)測電網(wǎng)功率因數(shù)和電壓波動 :動態(tài)無功補償系統(tǒng)應(yīng)具備實時監(jiān)
    的頭像 發(fā)表于 11-12 14:05 ?868次閱讀
    動態(tài)無功補償?shù)?b class='flag-5'>三個</b>必要條件

    簡述光刻工藝的三個主要步驟

    “ 光刻作為半導(dǎo)體中的關(guān)鍵工藝,其中包括3大步驟的工藝:涂膠、曝光、顯影。三個步驟有一異常,整個光刻工藝都需要返工處理,因此現(xiàn)場異常的處理顯得尤為關(guān)鍵”
    的頭像 發(fā)表于 10-22 13:52 ?2899次閱讀

    可調(diào)電阻三個腳怎么接 可調(diào)電阻怎么測量好壞

    可調(diào)電阻,也稱為電位器,是一種可以調(diào)節(jié)電阻值的電子元件。它通常有三個引腳:兩固定端和一可動端(或稱為中間抽頭)。可調(diào)電阻的三個腳的連接方式和測量好壞的方法如下: 可調(diào)電阻
    的頭像 發(fā)表于 10-18 14:45 ?8720次閱讀

    可調(diào)電阻三個腳怎么焊接

    可調(diào)電阻,也被稱為電位器,是一種可以調(diào)節(jié)電阻值的電子元件。它通常有三個引腳:兩固定端和一可調(diào)端。在焊接可調(diào)電阻時,需要確保正確的引腳連接和良好的焊接質(zhì)量,以保證電路的正常工作。 準備工具 在開始
    的頭像 發(fā)表于 10-18 14:42 ?2234次閱讀

    plc控制系統(tǒng)由哪三個組成

    PLC控制系統(tǒng),即可編程邏輯控制器系統(tǒng),是一種廣泛應(yīng)用于工業(yè)自動化領(lǐng)域的控制技術(shù)。它通過編程來實現(xiàn)對工業(yè)設(shè)備的控制,具有高度的靈活性和可靠性。一典型的PLC控制系統(tǒng)通常由以下三個主要部分
    的頭像 發(fā)表于 10-18 09:46 ?3790次閱讀