以下七種自然語(yǔ)言處理的常見(jiàn)應(yīng)用:
1. 文本分類
文本分類是指給定一個(gè)文本,預(yù)測(cè)其所屬的預(yù)定類別。
“文本分類的目的是對(duì)文檔的主題或主旨進(jìn)行分類?!?/p>
- p575, Foundations of Statistical Natural Language Processing(http://amzn.to/2ePBz9t), 1999
一種流行文本分類應(yīng)用是情感分析(https://en.wikipedia.org/wiki/Sentiment_analysis),其中的常用類別標(biāo)簽表示源文本的情緒色調(diào),例如“積極”或“消極”。
其他3類文本分類的應(yīng)用:
垃圾郵件過(guò)濾,依照文本分類電子郵件的垃圾郵件。
語(yǔ)言識(shí)別,對(duì)源文本的語(yǔ)言進(jìn)行分類。
題材分類,分類虛構(gòu)故事的體裁。
此外,還可以按需要給文本分配多個(gè)類別標(biāo)簽(即所謂的多標(biāo)簽分類)。 例如為tweet分配多個(gè)主題標(biāo)簽。
?
2. 語(yǔ)言建模
語(yǔ)言建模真的是一個(gè)很有趣的自然語(yǔ)言問(wèn)題的子任務(wù),特別是在其他一些任務(wù)的基礎(chǔ)上調(diào)節(jié)語(yǔ)言模型。
“問(wèn)題是預(yù)測(cè)出給定單詞的下一個(gè)單詞。 該任務(wù)是語(yǔ)音或光學(xué)字符識(shí)別的基礎(chǔ),也用于拼寫校正,手寫識(shí)別和統(tǒng)計(jì)學(xué)的機(jī)器翻譯。”
- p575, Foundations of Statistical Natural Language Processing (http://amzn.to/2ePBz9t), 1999.
除了關(guān)于學(xué)術(shù)研究的興趣,語(yǔ)言模型還是許多應(yīng)用深度學(xué)習(xí)的自然語(yǔ)言處理架構(gòu)的關(guān)鍵組成部分。
語(yǔ)言模型可以學(xué)習(xí)詞與詞之間的概率關(guān)系,然后生成與源文本統(tǒng)計(jì)上一致的詞匯新序列。
語(yǔ)言模型可以用于文本或語(yǔ)音生成,應(yīng)用如下:
生成新的文章標(biāo)題。
生成新的句子,段落或文檔。
生成后續(xù)句子建議。
3. 語(yǔ)音識(shí)別
語(yǔ)音識(shí)別是解決如何理解人類所說(shuō)的問(wèn)題。
“語(yǔ)音識(shí)別的任務(wù)是將包含口語(yǔ)在內(nèi)的自然語(yǔ)言的聲學(xué)信號(hào)轉(zhuǎn)換成符合說(shuō)話者預(yù)期的相應(yīng)的單詞序列?!?/p>
- p458, Deep Learning (http://amzn.to/2uE7WvS), 2016.
給定依據(jù)文本生成的音頻數(shù)據(jù),模型必須能生成人類可讀的文本。鑒于過(guò)程的自動(dòng)性,這個(gè)任務(wù)也可稱為自動(dòng)語(yǔ)音識(shí)別(Automatic Speech Recognition, ASR)。
語(yǔ)言模型用于創(chuàng)建以音頻數(shù)據(jù)為基礎(chǔ)的的輸出文本,應(yīng)用包括:
生成演講文本。
為電影或電視節(jié)目創(chuàng)建字幕。
開車時(shí)向收音機(jī)發(fā)出命令。
4. 說(shuō)明生成
說(shuō)明生成是解決如何描述圖像內(nèi)容的問(wèn)題,依照諸如照片等的數(shù)字圖像生成和圖像內(nèi)容相關(guān)的文本描述。
說(shuō)明生成的語(yǔ)言模型用于根據(jù)圖像生成標(biāo)題,一些具體的應(yīng)用包括:
描述場(chǎng)景的內(nèi)容
創(chuàng)建照片的標(biāo)題
描述視頻
5. 機(jī)器翻譯
機(jī)器翻譯是指將一種語(yǔ)言的源文本轉(zhuǎn)換為另一種語(yǔ)言。
“機(jī)器翻譯,從一種語(yǔ)言到另一種語(yǔ)言的文本或語(yǔ)音的自動(dòng)翻譯,是NLP最重要的應(yīng)用之一。”
- p463, Foundations of Statistical Natural Language Processing(http://amzn.to/2ePBz9t), 1999.
鑒于加入了深層神經(jīng)網(wǎng)絡(luò),該任務(wù)現(xiàn)在也被稱為神經(jīng)機(jī)器翻譯(neural machine translation)。
“在機(jī)器翻譯任務(wù)中,輸入是由某種語(yǔ)言的符號(hào)序列組成,而計(jì)算機(jī)程序必須將輸入轉(zhuǎn)換成其他語(yǔ)言的符號(hào)序列。 機(jī)器翻譯經(jīng)常應(yīng)用于自然語(yǔ)言,例如從英語(yǔ)翻譯成法語(yǔ)。 近來(lái),深度學(xué)習(xí)開始對(duì)該任務(wù)產(chǎn)生重要影響?!?/p>
- p98, Deep Learning (http://amzn.to/2uE7WvS), 2016
機(jī)器翻譯的語(yǔ)言模型用于依據(jù)源文本,輸出第二語(yǔ)言的目標(biāo)文本。
6.文檔總結(jié)
文檔總結(jié)是指根據(jù)文本創(chuàng)建對(duì)應(yīng)簡(jiǎn)短描述的任務(wù)。其語(yǔ)言模型用來(lái)輸出基于完整文檔的總結(jié)。
相關(guān)應(yīng)用如下:
·創(chuàng)建文檔標(biāo)題。
·生成文檔摘要。
·7. 問(wèn)題回答
問(wèn)題回答是指給出一個(gè)主題(如文本文檔)回答有關(guān)該主題的具體問(wèn)題。
“問(wèn)答系統(tǒng),它通過(guò)返回相應(yīng)的短語(yǔ)(例如位置,人物或日期)來(lái)嘗試回答以問(wèn)題形式提出的用戶查詢。 例如,問(wèn)題為什么殺死肯尼迪總統(tǒng)? 可能得到名詞短語(yǔ)奧斯瓦爾德作答案”
- p377, Foundations of Statistical Natural Language Processing(http://amzn.to/2ePBz9t), 1999.
常見(jiàn)應(yīng)用如下:
回答有關(guān)維基百科文章,回答有關(guān)新聞文章的問(wèn)題,回答關(guān)于醫(yī)療記錄的問(wèn)題。
?
大約90年代開始,自然語(yǔ)言處理技術(shù)領(lǐng)域發(fā)生了巨大的變化。這種變化的兩個(gè)明顯的特征是:
(1)對(duì)系統(tǒng)輸入,要求研制的自然語(yǔ)言處理系統(tǒng)能處理大規(guī)模的真實(shí)文本,而不是如以前的研究性系統(tǒng)那樣,只能處理很少的詞條和典型句子。只有這樣,研制的系統(tǒng)才有真正的實(shí)用價(jià)值。
?。?)對(duì)系統(tǒng)的輸出,鑒于真實(shí)地理解自然語(yǔ)言是十分困難的,對(duì)系統(tǒng)并不要求能對(duì)自然語(yǔ)言文本進(jìn)行深層的理解,但要能從中抽取有用的信息。例如,對(duì)自然語(yǔ)言文本進(jìn)行自動(dòng)地提取索引詞,過(guò)濾,檢索,自動(dòng)提取重要信息,進(jìn)行自動(dòng)摘要等等。
同時(shí),由于強(qiáng)調(diào)了“大規(guī)模”,強(qiáng)調(diào)了“真實(shí)文本”,下面兩方面的基礎(chǔ)性工作也得到了重視和加強(qiáng)。
?。?)大規(guī)模真實(shí)語(yǔ)料庫(kù)的研制。大規(guī)模的經(jīng)過(guò)不同深度加工的真實(shí)文本的語(yǔ)料庫(kù),是研究自然語(yǔ)言統(tǒng)計(jì)性質(zhì)的基礎(chǔ)。沒(méi)有它們,統(tǒng)計(jì)方法只能是無(wú)源之水。
(2)大規(guī)模、信息豐富的詞典的編制工作。規(guī)模為幾萬(wàn),十幾萬(wàn),甚至幾十萬(wàn)詞,含有豐富的信息(如包含詞的搭配信息)的計(jì)算機(jī)可用詞典對(duì)自然語(yǔ)言處理的重要性是很明顯的。
評(píng)論