在线看国产三级在线,欧美特黄一级,年轻人在线观看A片

CMU、華盛頓大學、南加州大學、MIT、MILA、密歇根大學、愛丁堡大學、DeepMind、伯克利、Apple…如果我說來自這些地方的dalao共同發(fā)表了一篇文章，你相信么？但別驚訝，在即將召開的EMNLP'20的長文列表里，我們就真找到了這樣一篇“奇文”。一篇論文引得眾星云集，那解決的必然不是小問題。這不，作者也很貼心地把他們所希望解決的問題斜體獨行地放在了論文的首欄里——Where is NLP going？

在未來的這幾分鐘里，讓我們暫時放下自己正在改的模型、正在寫的論文和正在追的SOTA，重拾自然語言處理的初心，跟隨大佬們的腳步，去暢想一下未來的NLP究竟是什么樣的吧。

NLP，到底該怎么搞？

這是每一個NLP人都希望探索的終極問題。在經(jīng)歷了21世紀初的神經(jīng)語言模型、2013年word2vec算法、2018年的預訓練模型等等的里程碑過后，當今的NLP已經(jīng)在許多任務(wù)上取得了令人欣喜的效果。但是，在欣喜于一個個子任務(wù)的突破之后，我們也該停下來思考我們每個人在初識NLP時的那個問題：如何才能讓機器真正地理解人類語言呢？

本文提出了未來NLP的發(fā)展方向：只靠文本，是學不會語言的；學會語言，需要的是“語言之外的事件”和“社會環(huán)境”。這樣虛無縹緲的兩個詞，隱含的卻是未來NLP所需要添加的潛在的新組件。

為了更加具象，作者引入了“世界范圍”的概念，英文名稱World Scope，簡稱WS（不覺得和作者王蘇有點關(guān)系么（逃））

那么這五個世界分別表示什么，又象征著NLP的發(fā)展到了哪個階段呢？現(xiàn)在，讓我們把NLP系統(tǒng)想象成自家孩子，看看咱家寶貝兒是怎么一步步從過去只會總結(jié)文本模式到未來能夠能動地改變世界的吧~（為了方便，我們就叫她N寶）

WS1：少量語料的世界——當系統(tǒng)學會表示

N寶終于拿到了她能接觸到的第一個語料！此時的她，看的多半是類似于Penn Treebank的經(jīng)典數(shù)據(jù)集，而她既沒有容量很大的大腦（指模型），又接觸不到其他東西（指感知和大量語料），于是研究者費盡心機地思考如何讓她用少量文本也能學到些什么。這時的發(fā)展，正是集中在文本表示上。

所謂的“含義”（meaning）到底在哪里呢？一個很直觀的想法是認為含義隱藏在文本的語法結(jié)構(gòu)中，于是早期的NLP方法大都采用了諸如語法的分析結(jié)構(gòu)。

但慢慢地，人們發(fā)現(xiàn)，文本的含義還有另外的表示方法。20世紀末-21世紀初，Elman和Bengio等人證明了向量表示可以捕獲語法和語義信息；21世紀初，利用基于互信息的層次聚類表示方法和隱馬爾科夫鏈生成詞類別的方法證明了一個詞的上下文隱含了這個詞的含義；同樣是21世紀初，以隱狄利克雷分布模型LDA為代表的主題生成模型證明了獲取含義需要大量的上下文信息。正是基于以上的觀察，才有了近年來諸如word2vec和GloVe的詞向量表示，以及ELMo、GPT和BERT等等的上下文預訓練表示。

然而，關(guān)于文本表示，有一個一直以來的矛盾，伴隨著符號主義和連接主義的爭論走到了今天——把詞表示為符號，我們就可以利用一個詞的字典釋義，從而用其他詞表示它，這種“以詞釋詞”的方法服從直覺，解釋性一流；然而，把詞表示為向量，我們就能夠利用諸如神經(jīng)網(wǎng)絡(luò)的“連接主義”系統(tǒng)進行處理，這種“以數(shù)釋詞”的方法難以解釋，但架不住它好用。

這樣的符號主義/連接主義爭論經(jīng)常會在當今的各大人工智能論壇見到，而在連接主義大行其道的當下，能在頂會論文見到這樣的爭論實在難得啊(=?ω?=)

WS2：文本的世界——當系統(tǒng)學會閱讀

不是N寶不愿意上網(wǎng)，是多年前她的小腦瓜實在是處理不了網(wǎng)絡(luò)上這么多紛繁復雜的信息。然而，多虧了專做N寶大腦的黃老板（黃仁勛：？）和革新了N寶大腦的Transformer結(jié)構(gòu)（谷歌：？），有了增強算力和模型加持的N寶終于開眼看到了更廣闊的的世界——非結(jié)構(gòu)的，多語言的，跨領(lǐng)域的，無標簽的，單拿出哪個都很讓人興奮吧，但BERT全都要！

以BERT為代表的基于Transformer的預訓練語言模型在眾多下游任務(wù)上的優(yōu)異表現(xiàn)，在寥寥兩三年時間里把NLP領(lǐng)域的排行榜屠了個遍。在我們?yōu)樾抡Q生的預訓練模型歡呼雀躍時，內(nèi)心也難免會為它們越來越龐大的體積和“飯量”感到觸目驚心。

從訓練語料來說，2013年的word2vec使用了16億個token，一年后的GloVe使用了8400億個token，而BERT直接吃下了整個維基百科+一萬多本書。從模型參數(shù)上來說，從2018年ELMo的到GPT-3的也不過只用了兩年時間。

更重要的是，這類預訓練模型的效果存在明顯的邊際效益遞減：對于16年提出的詞預測任務(wù)LAMBADA[1]，從15億參數(shù)的GPT-2，到170億參數(shù)的TuringNLG，提升甚微；到了1750億參數(shù)的GPT-3終于有了8個點的提升，但背后的多出來的算力開銷，它值嗎？

更重要的是，這類預訓練模型很難解決許多更難的NLP任務(wù)、例如較難的共指解析（“我把車停在了那個小停車場，因為它足夠[小/大]了?！保?。之所以稱之為“較難的”，是因為它們是經(jīng)過精心選擇的處于數(shù)據(jù)分布尾端的共指關(guān)系。如果N寶沒停過車，她怎么會知道這個問題的答案不是從前半句里簡單地提取出那個“小”字呢？解決這個問題的關(guān)鍵，在于經(jīng)驗。論文標題中的“Experience”，為未來可能的發(fā)展指明了方向。

這時，我們終于意識到，再怎么非結(jié)構(gòu)多語言跨領(lǐng)域無標簽的文本，也終究是文本；再往預訓練語言模型砸嘛尼，也不一定能換來真正智能的N寶。N寶不缺文本了，她只是需要更系統(tǒng)地感知這個世界而已。

WS3：視覺與聲覺的世界——當系統(tǒng)學會感知

N寶不再只是一頭扎進書海里的書呆子了，她終于擁有了能看到世界的眼睛、聽到世界的耳朵和觸摸世界的雙手，盡管眼睛耳朵和手也都是機器學習模型。但是，如果不看不聽不碰的話，她怎么能理解“動如脫兔”、“噤若寒蟬”的真意，怎么體會到打工人鋼鐵般的意志（不）

這多出來的感知究竟是什么？是人類在進行決策時的多重依據(jù)，也是人們在認識世界時達成的共識，同時也是語言學證明的人類在學習語言時必需的外部輸入。海倫·凱勒學習語言的故事膾炙人口，缺失視覺的輔助尚且如此，剝奪所有感官后，學到的語言還會是一樣的嗎？

文章引用了一種表示人類知識的方法：Frames and Scripts[2]。這種方法在上個世紀80年代被用來表示人類知識。通俗來講，這一方法將人類世界的靜態(tài)組成和動態(tài)動作流程利用類似于面向?qū)ο?a href="http://www.brongaenegriffin.com/v/tag/1315/" target="_blank">編程的方式進行建模：Frames利用類圖構(gòu)建事物之間的關(guān)聯(lián)關(guān)系，而Scripts利用流程圖構(gòu)建一系列動作的發(fā)生過程。但即使成功表示了類別之間的關(guān)聯(lián)關(guān)系，類別中的各個屬性、流程圖中的各個行為和條件依然沒有和現(xiàn)實產(chǎn)生對應(yīng)。大框架有了，細節(jié)卻面臨了同樣的問題，因此，這種建模依然很片面。這恰恰說明了多模態(tài)對于理解知識的重要性。

既然是多模態(tài)，那自然要提及其中涉及的每個領(lǐng)域向多模態(tài)發(fā)展的努力。這其中，計算機視覺（CV）和自然語言處理（NLP）的結(jié)合自然是發(fā)展最多的一個。

計算機視覺領(lǐng)域已經(jīng)提前意識到了與自然語言處理交互的重要性，并提出了一系列可以復用的模型，而計算機視覺領(lǐng)域也在近幾年來開始解決視覺問答VQA、視覺推理和視頻翻譯等等CV+NLP的交互任務(wù)。這些多模態(tài)任務(wù)的標準數(shù)據(jù)集可以支持大規(guī)模視覺+文本、甚至視覺+文本+語音Transformer模型的訓練。

NLP領(lǐng)域的發(fā)展同樣支撐了多模態(tài)的應(yīng)用，由于CV領(lǐng)域廣泛采用的ImageNet[3]分類采用了WordNet[4]描述上下位詞關(guān)系的層次分類，在加入了WordNet中每個概念的圖像信息后，我們甚至可以在概念的向量表示中學習到僅利用文本無法獲得的特征。比如，WordNet中“人”是一系列不同職業(yè)的上位詞，其中包括“消防員”，“醫(yī)生”等等；單純憑借文本難以捕捉這些類別的區(qū)別；但在加入了“人”、“消防員”、“醫(yī)生”的圖片進行多模態(tài)學習后，我們可以利用像素級的掩碼精確地獲得不同類別的具體差異，甚至可以將自然語言描述拓展到從未見過的類別中，學習到新類別的特征…

這正是零次學習（Zero-shot learning）的想法，利用一段對未知類別的描述，讓模型理解在訓練過程中沒有見過的類別的特征。對于文本的單一模態(tài)學習，用文本描述文本是WS1的想法；而多模態(tài)學習通過添加額外的感知方法，讓零次學習的效果得到了大幅提升。那么問題來了，多模態(tài)之后，N寶又要做些什么呢？

WS4：行為的世界——當系統(tǒng)學會試錯

N寶對世界觀察了許久，她能讀能看能聽，我們感覺她好像理解了這個世界。但實際上，她對這個世界似懂非懂。

在她眼中，詞語不過是一串數(shù)字或是像素組成的特征而已，每個名詞概念到底隱含著什么內(nèi)在屬性，每個動作到底會帶來什么影響，每個形容詞到底描述了些什么特點，N寶都不懂。被動的學習已經(jīng)滿足不了她了，她想用她的感知去主動地理解語言背后的含義。當N寶有了行動的能力，她就有了具身，有了和外界互動的條件。

試想一下，對于“橘子更像是棒球還是香蕉？”這樣的問題，你會作何回答？

WS1系統(tǒng)會認為橘子和香蕉經(jīng)常出現(xiàn)在類似的上下文里，所以橘子和香蕉更像；WS2系統(tǒng)會認為橘子和棒球都是圓形的，但說不上來棒球和橘子的質(zhì)地和大?。籛S3系統(tǒng)會了解到橘子、棒球和香蕉的外表，所以同樣會認為橘子和棒球更像，卻說不清楚棒球、橘子和香蕉的軟硬程度的重量。只有當系統(tǒng)能夠接觸到這些物體并產(chǎn)生互動時，它才會更加系統(tǒng)地回答，橘子和棒球具有相似的材質(zhì)和重量，但橘子和香蕉具有相同的軟硬程度和用途。

實際上，人類在學習知識時在不斷地與外界產(chǎn)生互動并獲得反饋，而這些持續(xù)的反饋構(gòu)成了我們學習這個世界時的監(jiān)督信號。這些信號甚至產(chǎn)生于我們學習語言之前，那么問題來了，這些嬰兒時期產(chǎn)生的反饋究竟形成了什么呢？

對于人來說，這些反饋形成了我們的直覺和常識，而這些內(nèi)容正是我們在日常交流時不會使用語言直接表述的隱含內(nèi)容。對于機器來說，這些試錯過程中得到的反饋形成的可能是“先于語言”的表示（pre-linguistic representations），它們可以被用來作為NLP系統(tǒng)泛化的基礎(chǔ)。在語言學上已經(jīng)證明，孩子從書本上學的東西很難被她們直接搬到現(xiàn)實生活中加以利用。我們利用大量的參數(shù)，希望用統(tǒng)計學的方法另辟蹊徑地實現(xiàn)生物進化的成果，但缺少了與真實世界的交互，或許我們離這個目標確實遙遠。

在WS4的世界，我們就需要借助機器人學領(lǐng)域的研究成果了。盡管從現(xiàn)在看，利用機器人學的成果遠比利用CV的成果困難，但為了實現(xiàn)真正理解語言的目標，NLP的研究者應(yīng)該同樣關(guān)注機器人學的發(fā)展。隨著動作空間的加大，NLP系統(tǒng)就能夠?qū)W會更多的指令，讓智能家居和智能機器人不再是現(xiàn)在這樣僅靠指令集操作的機器，而是成為真正能應(yīng)用在任何場景下真正的智能系統(tǒng)。

WS5：社會的世界——當系統(tǒng)學會能動

能動和能動并不是一個意思——WS4的能動是“會動”，而WS5的能動是“主觀能動性”的能動。N寶的成長目標是要造福社會的，而人類社會的可是很復雜的。她要在與人打交道的過程中體現(xiàn)出她行為的目的性，讓她真正能夠?qū)崿F(xiàn)人工智能系統(tǒng)的使命。到這個階段，N寶就已經(jīng)成為一個持久存在的，具有特定社會屬性和經(jīng)驗的智能代理了。

NLP系統(tǒng)一直以來都是人工智能領(lǐng)域里最受關(guān)注的領(lǐng)域之一，畢竟圖靈測試就是以對話系統(tǒng)為基礎(chǔ)的測試。但是，在進行圖靈測試時，人經(jīng)常會受到框架效應(yīng)（Frame effect）的影響：當聊天機器人表明自己以英語作為第二語言或是表現(xiàn)出弱勢時，人自然會大幅降低對對方的期望，讓原本真實性不高的回應(yīng)也看起來像是真人一樣。

那么，為什么說WS5對于語言學習至關(guān)重要呢？

首先，從說話者的角度，語言要產(chǎn)生作用。

從哲學上講，語言的功能（Function）是含義的來源；從語言學上講，基于使用的語言學習理論表明，有用的語言構(gòu)建是一切的基礎(chǔ)。這些理論在近年來開始關(guān)注語言在人類的起源和發(fā)展過程中起到的作用，表明了語言對于社會生活的重要性。

WS1-4逐步地擴展了語言含義的組成，逐漸地，語言可以由結(jié)果轉(zhuǎn)變?yōu)槠鹨?，從單純的?shù)據(jù)轉(zhuǎn)變?yōu)橛杏玫男畔ⅰ．斚?，NLP系統(tǒng)生成的語句只能以一種與社會隔離開的方式被被動的評價，而要做到衡量NLP系統(tǒng)對社會的影響，必須主動地讓NLP系統(tǒng)參與到諸如談判，合作，情感支持等等語言活動中來，讓NLP系統(tǒng)能夠推斷人的情感狀態(tài)和行為的社會效益。

當下的語言模型利用上下文構(gòu)建每個詞的釋義。但實際上，一個詞的含義需要被放在特定的語言和社會環(huán)境下進行綜合考量。正比如，“大失所望”的詞典意思是不令人滿意，可是，只有在孩子學習語言時說出過或是聽見過那句“你讓我大失所望”時，她才能真正懂得這個詞對人來說多么有分量。一個詞的含義遠不止詞本身的意思：它最豐富的表達蘊含在了它對外界產(chǎn)生的影響之中。

其次，從聆聽者的角度而言，語言要成為了解對方想法的工具。

“想法”并不局限于一句話本身的意思，而更多地指對方的需求，意圖，感情，知識和身份。對“想法”的研究被稱為“心智理論”（Theory of Mind）。這一理論被建模為講者-聽者模型（Speaker-listener model），從計算角度而言，又被進一步發(fā)展為“理性言語行為模型”[5]（Rational speech act model, RSA，一種基于貝葉斯推斷的有效溝通建模）。

對交流的理解只用靜態(tài)的數(shù)據(jù)集是遠遠不夠的。對于同一個樣本的標注，不同的標注者可能提供不同的標注方法，這就會引入偽關(guān)系和偏差。動態(tài)且靈活的評價可能會解決這個問題，但如何保持一個NLP系統(tǒng)的身份，如何面對外界可能帶來的變化依舊需要進一步研究。

那么，怎樣讓NLP系統(tǒng)擁有能夠在社會環(huán)境下理解語言的能力呢？

首先，如果單純利用一個諸如神經(jīng)網(wǎng)絡(luò)的通用的函數(shù)擬合器來給文本做分類，它可能單純利用了文本中的語法語義信息，卻永遠不會認為文本中出現(xiàn)的人、事物和因果關(guān)系是真實存在的。這需要我們向模型中引入足夠的歸納偏置（Inductive bias）來解決這一問題。其次，基于交叉熵的損失函數(shù)使得NLP系統(tǒng)不夠關(guān)注數(shù)據(jù)分布的尾端，導致出現(xiàn)較少的事件被忽視了。最后，由于現(xiàn)有的系統(tǒng)依然無法達成像人類一樣的歸納能力，NLP系統(tǒng)的零次學習能力依然有待提高。因此，WS1-4的數(shù)據(jù)無論再大，以目前的系統(tǒng)設(shè)計也難以讓NLP系統(tǒng)學到足夠豐富的知識來降低模型的困惑度。

最后，從社會環(huán)境的角度而言，語言是用在人際交流中的，所以語言本身就攜帶著地位、身份、意圖和其他一系列的變量，但我們當下所使用的基于眾包的數(shù)據(jù)標簽并沒有考慮這一系列對社會生活至關(guān)重要的信息。所以，對于生成模型而言，為了考量模型與社會之間的交互性，需要給予模型一個社會地位及身份，將其置身于特定場景中來進行評價。

但是，社會交流中存在那么多變量，該怎么進行標注呢？我們需要跳出這個圈子：訓練-驗證-測試集的劃分以及基于對比的評價方式限制了我們的想象力。我們的終極目標，是讓NLP系統(tǒng)通過參與到社會當中進行學習，讓用戶與系統(tǒng)自由交流，使得系統(tǒng)在探索與試錯中逐漸達成對其身份的社會語言學構(gòu)建。當模型能夠在測試過程中能夠與人進行交互，我們便可以窺視到模型的決策邊界，加深對模型的了解了。

那么，要怎么進入下一個WS中呢？

好問題~實際上，現(xiàn)在已經(jīng)有很多研究在探索WS3-5的需求了。作者在文章中給出了4個這樣的研究方向：

第二語言習得（Second language acquisition）：不同的國家雖然語言不同，卻有著類似的社會模型，其中包括類似的物體指代（例如動物，水果…）和人的內(nèi)在狀態(tài)（例如快樂，饑餓…）?，F(xiàn)有的研究已經(jīng)開始向神經(jīng)機器翻譯模型引入這種相似性了：ACL'20的一篇論文[6]利用了WS3的圖像信息作為增強雙語對應(yīng)關(guān)系的樞紐，未來會發(fā)展為利用WS4的模擬世界信息，以及最終走向WS5的真實世界信息。

指代消解（Coreference resolution）和詞義消歧（Word sense disambiguation）：無論是確定文本中代詞對應(yīng)的名詞還是探究一個詞在文本中的確切意思，都最終需要對心智理論的探索，通過對聽者需求和經(jīng)驗的建模綜合地完成任務(wù)，而非簡單地通過文本尋找到與代詞最接近的名詞，或是用局部的文本信息確定詞義。類似TextWorld[7]的WS4虛擬環(huán)境為進一步探索這兩個問題提供了新的可能。

新詞學習（Novel word learning）：人對于物體的描述可能不僅局限于語言，有時還會加入肢體語言配合形容物體的形狀或大小，這需要WS3系統(tǒng)進行多模態(tài)的感知；此外，在描述新的物體時，我們不僅會描述它的外觀，還會描述它的功能，這需要WS4系統(tǒng)對動作和功能的認識。例如，在描述手風琴時，我們會說它“背著像吉他，但彈著像鋼琴”。手風琴與吉他和鋼琴的相似性僅體現(xiàn)在使用動作上，這種動作上的描述只有更高級的系統(tǒng)才能夠認識。

冒犯性語言（Personally charged language）：每個人都有自己不愿意聽到的話。比如，“笨蛋”這個詞對于不同的人有著不同的理解：有些人可能認為這樣的說法是開玩笑，無傷大雅；但有些人會認為這是對自己努力的否定，從而受到傷害。只有當系統(tǒng)走向WS5，獲得了社會交往的知識，才能明白在不同環(huán)境和條件下人的情感究竟如何。

看了這么多，這篇文章究竟想說什么？

作者王蘇在閱讀這篇幾乎不包含任何數(shù)據(jù)和公式的文章時，體會到的吃力感完全不亞于任何一篇充斥著公式的文章。許多哲學和語言學概念在近年來很少被提及，甚至一部分概念根本查不到相關(guān)的中文翻譯，只好結(jié)合維基百科和一些查得到的講義來努力理解。這也難怪，畢竟這篇文章是眾多領(lǐng)域大佬從NLP、CV、語言學、哲學和機器人學等等不同的角度為NLP的未來規(guī)劃的前行路線。

然而，文中所說的許多東西雖然目前已經(jīng)有工作開始了相關(guān)的探索。雖然諸如“具身”、“社會屬性”等等名詞看起來和現(xiàn)在的NLP社區(qū)不怎么沾邊兒，而且這些名詞實在是過于虛無縹緲，這也恰好給予了研究者充分的想象空間，讓每一個目標得以用不同的方法實現(xiàn)。例如，WS4的“試錯”概念和強化學習有著千絲萬縷的聯(lián)系，而WS5的社會屬性又不由得讓我們想起了微軟亞研院致力于提升智商+情商的微軟小冰[8]（小冰的論文對于研究對話系統(tǒng)的同學非常值得一讀，大推薦）。

所以，在為越來越大的模型和計算開銷發(fā)愁之余，換個角度來看看我們所在的領(lǐng)域，以大局觀看看我們的發(fā)展階段，思考思考踏入未來需要學習和發(fā)展什么樣的技術(shù)，也許就能實現(xiàn)彎道超車呢~

要跟緊潮流鴨！加油吧，NLP人(= · ω ·=)

原文標題：NLP未來，路在何方？12位巨佬聯(lián)名指路！

文章出處：【微信公眾號：深度學習自然語言處理】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

責任編輯：haq

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

機器人

機器人

+關(guān)注

關(guān)注
213

文章
30243

瀏覽量
217748
人工智能

人工智能

+關(guān)注

關(guān)注
1811

文章
49492

瀏覽量
258127
nlp

nlp

+關(guān)注

關(guān)注
1

文章
491

瀏覽量
23035

原文標題：NLP未來，路在何方？12位巨佬聯(lián)名指路！

文章出處：【微信號：zenRRan，微信公眾號：深度學習自然語言處理】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛兴趣闲谈,欧美亚洲精品 8区,国产精品久久久久精品免费

搜索歷史

NLP到底該怎么搞？

評論

搜索歷史

NLP到底該怎么搞？

評論

NLP到底該怎么搞？