chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

從語(yǔ)言學(xué)到深度學(xué)習(xí)NLP,一文概述自然語(yǔ)言處理

m3Fp_almosthuma ? 來(lái)源:未知 ? 作者:佚名 ? 2017-08-22 14:56 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

本文從兩篇論文出發(fā)先簡(jiǎn)要介紹了自然語(yǔ)言處理的基本分類和基本概念,再向讀者展示了深度學(xué)習(xí)中的NLP。這兩篇論文都是很好的綜述性入門(mén)論文,希望詳細(xì)了解自然語(yǔ)言處理的讀者可以進(jìn)一步閱讀這兩篇論文。

本文第一部分介紹了自然語(yǔ)言處理的基本概念,作者將NLP分為自然語(yǔ)言理解和自然語(yǔ)言生成,并解釋了NLP過(guò)程的各個(gè)層級(jí)和應(yīng)用,這一篇論文很適合讀者系統(tǒng)的了解NLP的基本概念。

第二部分描述的是基于深度學(xué)習(xí)的NLP,該論文首先描述了深度學(xué)習(xí)中的詞表征,即從one-hot編碼、詞袋模型到詞嵌入和word2vec等,我們首先需要數(shù)字表征詞匯才能進(jìn)一步做自然語(yǔ)言處理。隨后,本論文介紹了各種應(yīng)用于NLP的模型,包括卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)、長(zhǎng)短期記憶和門(mén)控循環(huán)神經(jīng)網(wǎng)絡(luò)等,這一些模型加上其它如注意力機(jī)制那樣的技巧就能實(shí)現(xiàn)十分強(qiáng)大的能力,如機(jī)器翻譯、問(wèn)答系統(tǒng)和情感分析等。

概念基礎(chǔ)

自然語(yǔ)言處理(NLP)近來(lái)因?yàn)槿祟愓Z(yǔ)言的計(jì)算表征和分析而獲得越來(lái)越多的關(guān)注。它已經(jīng)應(yīng)用于許多如機(jī)器翻譯、垃圾郵件檢測(cè)、信息提取、自動(dòng)摘要、醫(yī)療和問(wèn)答系統(tǒng)等領(lǐng)域。本論文從歷史和發(fā)展的角度討論不同層次的NLP和自然語(yǔ)言生成(NLG)的不同部分,以呈現(xiàn)NLP 應(yīng)用的各種最新技術(shù)和當(dāng)前的趨勢(shì)與挑戰(zhàn)。

1前言

自然語(yǔ)言處理(NLP)是人工智能和語(yǔ)言學(xué)的一部分,它致力于使用計(jì)算機(jī)理解人類語(yǔ)言中的句子或詞語(yǔ)。NLP以降低用戶工作量并滿足使用自然語(yǔ)言進(jìn)行人機(jī)交互的愿望為目的。因?yàn)橛脩艨赡懿皇煜C(jī)器語(yǔ)言,所以 NLP就能幫助這樣的用戶使用自然語(yǔ)言和機(jī)器交流。

語(yǔ)言可以被定義為一組規(guī)則或符號(hào)。我們會(huì)組合符號(hào)并用來(lái)傳遞信息或廣播信息。NLP基本上可以分為兩個(gè)部分,即自然語(yǔ)言理解和自然語(yǔ)言生成,它們演化為理解和生成文本的任務(wù)(圖1)。

圖1:NLP的粗分類

語(yǔ)言學(xué)是語(yǔ)言的科學(xué),它包括代表聲音的音系學(xué)(Phonology)、代表構(gòu)詞法的詞態(tài)學(xué)(Morphology)、代表語(yǔ)句結(jié)構(gòu)的句法學(xué)(Syntax)、代表理解的語(yǔ)義句法學(xué)(Semanticssyntax)和語(yǔ)用學(xué)(Pragmatics)。

NLP的研究任務(wù)如自動(dòng)摘要、指代消解(Co-ReferenceResolution)、語(yǔ)篇分析、機(jī)器翻譯、語(yǔ)素切分(MorphologicalSegmentation)、命名實(shí)體識(shí)別、光學(xué)字符識(shí)別和詞性標(biāo)注等。自動(dòng)摘要即對(duì)一組文本的詳細(xì)信息以一種特定的格式生成一個(gè)摘要。指代消解指的是用句子或更大的一組文本確定哪些詞指代的是相同對(duì)象。語(yǔ)篇分析指識(shí)別連接文本的語(yǔ)篇結(jié)構(gòu),而機(jī)器翻譯則指兩種或多種語(yǔ)言之間的自動(dòng)翻譯。詞素切分表示將詞匯分割為詞素,并識(shí)別詞素的類別。命名實(shí)體識(shí)別(NER)描述了一串文本,并確定哪一個(gè)名詞指代專有名詞。光學(xué)字符識(shí)別(OCR)給出了打印版文檔(如PDF)中間的文字信息。詞性標(biāo)注描述了一個(gè)句子及其每個(gè)單詞的詞性。雖然這些NLP任務(wù)看起來(lái)彼此不同,但實(shí)際上它們經(jīng)常多個(gè)任務(wù)協(xié)同處理。

2 NLP的層級(jí)

語(yǔ)言的層級(jí)是表達(dá)NLP的最具解釋性的方法,能通過(guò)實(shí)現(xiàn)內(nèi)容規(guī)劃(ContentPlanning)、語(yǔ)句規(guī)劃(SentencePlanning)與表層實(shí)現(xiàn)(SurfaceRealization)三個(gè)階段,幫助NLP生成文本(圖2)。

圖2:NLP架構(gòu)的階段

語(yǔ)言學(xué)是涉及到語(yǔ)言、語(yǔ)境和各種語(yǔ)言形式的學(xué)科。與NLP相關(guān)的重要術(shù)語(yǔ)包括:

  • 音系學(xué)

  • 形態(tài)學(xué)

  • 詞匯學(xué)

  • 句法學(xué)

  • 語(yǔ)義學(xué)

  • 語(yǔ)篇分析

  • 語(yǔ)用學(xué)

3 自然語(yǔ)言生成

NLG是從內(nèi)在表征生成有含義的短語(yǔ)、句子和段落的處理過(guò)程。它是NLP的一部分,包括四個(gè)階段:確定目標(biāo)、通過(guò)場(chǎng)景評(píng)估規(guī)劃如何實(shí)現(xiàn)目標(biāo)、可用的對(duì)話源、把規(guī)劃實(shí)現(xiàn)為文本,如下圖3。生成與理解是相反的過(guò)程。

圖3:NLG的組件

6 NLP的應(yīng)用

NLP可被他應(yīng)用于各種領(lǐng)域,例如機(jī)器翻譯、垃圾郵件檢測(cè)、信息提取等。在這一部分,該論文對(duì)以下NLP的應(yīng)用進(jìn)行了介紹:

  • 機(jī)器翻譯

  • 文本分類

  • 垃圾郵件過(guò)濾

  • 信息提取

  • 自動(dòng)摘要

  • 對(duì)話系統(tǒng)

  • 醫(yī)療

深度學(xué)習(xí)中的NLP

以上內(nèi)容對(duì)NLP進(jìn)行了基礎(chǔ)的介紹,但忽略了近年來(lái)深度學(xué)習(xí)在NLP領(lǐng)域的應(yīng)用,因此我們補(bǔ)充了北京理工大學(xué)的一篇論文。該論文回顧了NLP之中的深度學(xué)習(xí)重要模型與方法,比如卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)、遞歸神經(jīng)網(wǎng)絡(luò);同時(shí)還討論了記憶增強(qiáng)策略、注意力機(jī)制以及無(wú)監(jiān)督模型、強(qiáng)化學(xué)習(xí)模型、深度生成模型在語(yǔ)言相關(guān)任務(wù)上的應(yīng)用;最后還討論了深度學(xué)習(xí)的各種框架,以期從深度學(xué)習(xí)的角度全面概述NLP發(fā)展近況。

如今,深度學(xué)習(xí)架構(gòu)、算法計(jì)算機(jī)視覺(jué)、模式識(shí)別領(lǐng)域已經(jīng)取得驚人的進(jìn)展。在這種趨勢(shì)之下,近期基于深度學(xué)習(xí)新方法的NLP研究有了極大增長(zhǎng)。

圖4:2012年-2017年,在ACL、EMNLP、EACL、NAACL會(huì)議上呈現(xiàn)的深度學(xué)習(xí)論文數(shù)量增長(zhǎng)趨勢(shì)。

十幾年來(lái),解決NLP問(wèn)題的機(jī)器學(xué)習(xí)方法都是基于淺層模型,例如SVM和logistic回歸,其訓(xùn)練是在非常高維、稀疏的特征上進(jìn)行的。在過(guò)去幾年,基于密集向量表征的神經(jīng)網(wǎng)絡(luò)在多種NLP任務(wù)上都產(chǎn)生了優(yōu)秀成果。這一趨勢(shì)由詞嵌入與深度學(xué)習(xí)方法的成功所興起。深度學(xué)習(xí)使得多層級(jí)的自動(dòng)特征表征的學(xué)習(xí)成為了可能。傳統(tǒng)的基于機(jī)器學(xué)習(xí)方法的NLP系統(tǒng)極度依賴手寫(xiě)特征,既耗費(fèi)時(shí)間,又總是不完整。

在2011年,Collobert等人的論文證明簡(jiǎn)單的深度學(xué)習(xí)框架能夠在多種NLP任務(wù)上超越最頂尖的方法,比如在實(shí)體命名識(shí)別(NER)任務(wù)、語(yǔ)義角色標(biāo)注(SRL)任務(wù)、詞性標(biāo)注(POStagging)任務(wù)上。從此,各種基于深度學(xué)習(xí)的復(fù)雜算法被提出,來(lái)解決NLP難題。

這篇論文回顧了與深度學(xué)習(xí)相關(guān)的重要模型與方法,比如卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)、遞歸神經(jīng)網(wǎng)絡(luò)。此外,論文中還討論了記憶增強(qiáng)策略、注意機(jī)制以及無(wú)監(jiān)督模型、強(qiáng)化學(xué)習(xí)模型、深度生成模型在語(yǔ)言相關(guān)任務(wù)上的應(yīng)用。

在2016年,Goldberg也以教程方式介紹過(guò)NLP領(lǐng)域的深度學(xué)習(xí),主要對(duì)分布式語(yǔ)義(word2vec、CNN)進(jìn)行了技術(shù)概述,但沒(méi)有討論深度學(xué)習(xí)的各種架構(gòu)。這篇論文能提供更綜合的思考。

摘要:深度學(xué)習(xí)方法利用多個(gè)處理層來(lái)學(xué)習(xí)數(shù)據(jù)的層級(jí)表征,在許多領(lǐng)域獲得了頂級(jí)結(jié)果。近期,在自然語(yǔ)言處理領(lǐng)域出現(xiàn)了大量的模型設(shè)計(jì)和方法。在此論文中,我們回顧了應(yīng)用于NLP任務(wù)中,與深度學(xué)習(xí)相關(guān)的重要模型、方法,同時(shí)概覽了這種進(jìn)展。我們也總結(jié)、對(duì)比了各種模型,對(duì)NLP中深度學(xué)習(xí)的過(guò)去、現(xiàn)在與未來(lái)提供了詳細(xì)理解。

圖2:一個(gè)D維向量的分布式向量表達(dá),其中D<

圖3:Bengio等人2003年提出的神經(jīng)語(yǔ)言模型,C(i)是第i個(gè)詞嵌入。

圖4:CBOW(continuousbag-of-words)的模型

表1:框架提供嵌入工具和方法

圖5:Collobert等人使用的CNN框架,來(lái)做詞級(jí)別的類別預(yù)測(cè)

圖6:在文本上的CNN建模(ZhangandWallace,2015)

圖7:4個(gè) 7-gram核的Top7-grams,每個(gè)核對(duì)一種特定類型的7-gram敏感(Kim,2014)

圖8:DCNN子圖。有了動(dòng)態(tài)池化,一頂層只需要小寬度的過(guò)濾層能夠關(guān)聯(lián)輸入語(yǔ)句中離得很遠(yuǎn)的短語(yǔ)(Kalchbrenneretal.,2014)。

圖9:簡(jiǎn)單的RNN網(wǎng)絡(luò)

圖10:LSTM和GRU 的示圖(Chungetal.,2014)

圖11:不同單元類型關(guān)于迭代數(shù)量(上幅圖)和時(shí)鐘時(shí)間(下幅圖)的訓(xùn)練、驗(yàn)證集學(xué)習(xí)曲線。其中y軸為對(duì)數(shù)尺度描述的模型負(fù)對(duì)數(shù)似然度。

圖12:LSTM解碼器結(jié)合CNN圖像嵌入器生成圖像描述(Vinyalsetal.,2015a)

圖13:神經(jīng)圖像QA(Malinowskietal.,2015)

圖14:詞校準(zhǔn)矩陣(Bahdanauetal.,2014)

圖15:使用注意力進(jìn)行區(qū)域分級(jí)(Wangetal.,2016)

圖16:特定區(qū)域語(yǔ)句上的注意模塊專注點(diǎn)(Wangetal.,2016)

圖17:應(yīng)用于含有「but」語(yǔ)句的遞歸神經(jīng)網(wǎng)絡(luò)(Socheretal.,2013)

圖18:基于RNN的AVE進(jìn)行語(yǔ)句生成(Bowmanetal.,2015)


聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 人工智能
    +關(guān)注

    關(guān)注

    1811

    文章

    49504

    瀏覽量

    258266
  • nlp
    nlp
    +關(guān)注

    關(guān)注

    1

    文章

    491

    瀏覽量

    23049

原文標(biāo)題:從語(yǔ)言學(xué)到深度學(xué)習(xí)NLP,一文概述自然語(yǔ)言處理

文章出處:【微信號(hào):almosthuman2014,微信公眾號(hào):機(jī)器之心】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    python自然語(yǔ)言

    最近,python自然語(yǔ)言是越來(lái)越火了,那么什么是自然語(yǔ)言。自然語(yǔ)言(Natural Language )廣納了眾多技術(shù),對(duì)自然或人類語(yǔ)言進(jìn)
    發(fā)表于 05-02 13:50

    【推薦體驗(yàn)】騰訊云自然語(yǔ)言處理

    `相信大家對(duì)NLP自然語(yǔ)言處理的技術(shù)都不陌生,它是計(jì)算機(jī)科學(xué)領(lǐng)域和AI領(lǐng)域中的個(gè)分支,它與計(jì)算機(jī)和人類之間使用自然語(yǔ)言進(jìn)行交互密切相關(guān),而
    發(fā)表于 10-09 15:28

    自然語(yǔ)言處理的優(yōu)點(diǎn)有哪些_自然語(yǔ)言處理的5大優(yōu)勢(shì)

    自然語(yǔ)言處理領(lǐng)域,深度學(xué)習(xí)的承諾是:給新模型帶來(lái)更好的性能,這些新模型可能需要更多數(shù)據(jù),但不再需要那么多的語(yǔ)言學(xué)專業(yè)知識(shí)。
    發(fā)表于 12-29 13:52 ?3w次閱讀

    深入機(jī)器學(xué)習(xí)自然語(yǔ)言處理

    和方法。隨著深度學(xué)習(xí)在圖像識(shí)別、語(yǔ)音識(shí)別領(lǐng)域的大放異彩,人們對(duì)深度學(xué)習(xí)NLP的價(jià)值也寄予厚望。自然語(yǔ)言
    發(fā)表于 09-18 22:31 ?1041次閱讀

    采用深度學(xué)習(xí)對(duì)自然語(yǔ)言處理進(jìn)行分類

    深度學(xué)習(xí)對(duì)自然語(yǔ)言處理NLP)進(jìn)行分類
    的頭像 發(fā)表于 11-05 06:51 ?3806次閱讀

    如何學(xué)習(xí)自然語(yǔ)言處理NLP詳細(xì)學(xué)習(xí)方法說(shuō)明

    這篇文章是自然語(yǔ)言處理nlp)的初學(xué)者,在nlp里摸爬滾打了許久的些心得,推薦了
    的頭像 發(fā)表于 03-03 11:05 ?6170次閱讀

    斯坦福AI Lab主任、NLP大師Manning:將深度學(xué)習(xí)應(yīng)用于自然語(yǔ)言處理領(lǐng)域的領(lǐng)軍者

    像Alexa和Siri那樣的對(duì)話助手對(duì)自然語(yǔ)言處理產(chǎn)生了巨大的影響。最開(kāi)始這些變化跟深度學(xué)習(xí)自然語(yǔ)言
    的頭像 發(fā)表于 07-07 07:47 ?4729次閱讀

    自然語(yǔ)言處理NLP)的學(xué)習(xí)方向

    自然語(yǔ)言處理(Natural Language Processing,NLP)是計(jì)算機(jī)科學(xué)領(lǐng)域與人工智能領(lǐng)域中的個(gè)重要方向。它研究人與計(jì)算機(jī)之間用
    的頭像 發(fā)表于 07-06 16:30 ?1.4w次閱讀

    什么是自然語(yǔ)言處理 (NLP)

    自然語(yǔ)言處理(Natural Language Processing, NLP)是人工智能領(lǐng)域中的個(gè)重要分支,它專注于構(gòu)建能夠理解和生成人類語(yǔ)言
    的頭像 發(fā)表于 07-02 18:16 ?3030次閱讀

    自然語(yǔ)言處理包括哪些內(nèi)容

    自然語(yǔ)言處理(Natural Language Processing,簡(jiǎn)稱NLP)是人工智能領(lǐng)域的個(gè)重要分支,它涉及到計(jì)算機(jī)與人類語(yǔ)言之間
    的頭像 發(fā)表于 07-03 14:15 ?2185次閱讀

    自然語(yǔ)言處理是什么技術(shù)的種應(yīng)用

    自然語(yǔ)言處理(Natural Language Processing,簡(jiǎn)稱NLP)是人工智能和語(yǔ)言學(xué)領(lǐng)域的個(gè)分支,它涉及到使用計(jì)算機(jī)技術(shù)來(lái)
    的頭像 發(fā)表于 07-03 14:18 ?2392次閱讀

    nlp自然語(yǔ)言處理的主要任務(wù)及技術(shù)方法

    自然語(yǔ)言處理(Natural Language Processing,簡(jiǎn)稱NLP)是人工智能和語(yǔ)言學(xué)領(lǐng)域的個(gè)分支,它研究如何讓計(jì)算機(jī)能夠理
    的頭像 發(fā)表于 07-09 10:26 ?2633次閱讀

    使用LLM進(jìn)行自然語(yǔ)言處理的優(yōu)缺點(diǎn)

    自然語(yǔ)言處理NLP)是人工智能和語(yǔ)言學(xué)領(lǐng)域的個(gè)分支,它致力于使計(jì)算機(jī)能夠理解、解釋和生成人類語(yǔ)言
    的頭像 發(fā)表于 11-08 09:27 ?3401次閱讀

    自然語(yǔ)言處理與機(jī)器學(xué)習(xí)的區(qū)別

    在人工智能的快速發(fā)展中,自然語(yǔ)言處理NLP)和機(jī)器學(xué)習(xí)(ML)成為了兩個(gè)核心的研究領(lǐng)域。它們都致力于解決復(fù)雜的問(wèn)題,但側(cè)重點(diǎn)和應(yīng)用場(chǎng)景有所不同。 1.
    的頭像 發(fā)表于 11-11 10:35 ?1900次閱讀

    自然語(yǔ)言處理與機(jī)器學(xué)習(xí)的關(guān)系 自然語(yǔ)言處理的基本概念及步驟

    自然語(yǔ)言處理(Natural Language Processing,簡(jiǎn)稱NLP)是人工智能和語(yǔ)言學(xué)領(lǐng)域的個(gè)分支,它致力于研究如何讓計(jì)算機(jī)
    的頭像 發(fā)表于 12-05 15:21 ?2344次閱讀