數(shù)據(jù)分析師Seth Grimes曾指出“80%的商業(yè)信息來(lái)自非結(jié)構(gòu)化數(shù)據(jù),主要是文本數(shù)據(jù)”,這一表述可能夸大了文本數(shù)據(jù)在商業(yè)數(shù)據(jù)中的占比,但是文本數(shù)據(jù)的蘊(yùn)含的信息價(jià)值毋庸置疑。KDnuggets的編輯、機(jī)器學(xué)習(xí)研究者和數(shù)據(jù)科學(xué)家Matthew Mayo就在網(wǎng)站上寫了一個(gè)有關(guān)文本數(shù)據(jù)分析的文章系列。本文是該系列的第一篇,主要講述了文本數(shù)據(jù)分析的大致步驟和框架。以下是論智對(duì)原文的編譯。
雖然NLP和文本挖掘不是一回事兒,但它們?nèi)允蔷o密相關(guān)的:它們處理同樣的原始數(shù)據(jù)類型、在使用時(shí)還有很多交叉。下面我們就來(lái)描述一下這些任務(wù)的處理步驟。
如今的文本數(shù)據(jù)量非常之大,許多都是從日常生活中產(chǎn)生的,其中既有結(jié)構(gòu)化的,也有半結(jié)構(gòu)化甚至混亂的數(shù)據(jù)。我們對(duì)此能做什么?事實(shí)上,能做的有很多,這取決于你的目標(biāo)是什么。
文本挖掘還是自然語(yǔ)言處理?
自然語(yǔ)言處理(NLP)關(guān)注的是人類的自然語(yǔ)言與計(jì)算機(jī)設(shè)備之間的相互關(guān)系。NLP是計(jì)算機(jī)語(yǔ)言學(xué)的重要方面之一,它同樣也屬于計(jì)算機(jī)科學(xué)和人工智能領(lǐng)域。而文本挖掘和NLP的存在領(lǐng)域類似,它關(guān)注的是識(shí)別文本數(shù)據(jù)中有趣并且重要的模式。
但是,這二者仍有不同。首先,這兩個(gè)概念并沒有明確的界定(就像“數(shù)據(jù)挖掘”和“數(shù)據(jù)科學(xué)”一樣),并且在不同程度上二者相互交叉,具體要看與你交談的對(duì)象是誰(shuí)。我認(rèn)為通過(guò)洞見級(jí)別來(lái)區(qū)分是最容易的。如果原始文本是數(shù)據(jù),那么文本挖掘就是信息,NLP就是知識(shí),也就是語(yǔ)法和語(yǔ)義的關(guān)系。下面的金字塔表示了這種關(guān)系:

另一種區(qū)分這兩個(gè)概念的方法是用下方的韋恩圖區(qū)分,其中也涉及其他相關(guān)概念,從而能更好地表示它們之間重疊的關(guān)系。

我們的目的并不是二者絕對(duì)或相對(duì)的定義,重要的是要認(rèn)識(shí)到,這兩種任務(wù)下對(duì)數(shù)據(jù)的預(yù)處理是相同的。
努力消除歧義是文本預(yù)處理很重要的一個(gè)方面,我們希望保留原本的含義,同時(shí)消除噪音。為此,我們需要了解:
關(guān)于語(yǔ)言的知識(shí)
關(guān)于世界的知識(shí)
結(jié)合知識(shí)來(lái)源的方法
除此之外,下圖所示的六個(gè)因素也加大了文本數(shù)據(jù)處理的難度,包括非標(biāo)準(zhǔn)的語(yǔ)言表述、斷句問(wèn)題、習(xí)慣用語(yǔ)、新興詞匯、常識(shí)以及復(fù)雜的名詞等等。

文本數(shù)據(jù)科學(xué)任務(wù)框架
我們能否為文本數(shù)據(jù)的處理制作一個(gè)高效并且通用的框架呢?我們發(fā)現(xiàn),處理文本和處理其他非文本的任務(wù)很相似,可以查看我之前寫的KDD Process作為參考。
以下就是處理文本任務(wù)的幾大主要步驟:
1.數(shù)據(jù)收集
獲取或創(chuàng)建語(yǔ)料庫(kù),來(lái)源可以是郵箱、英文維基百科文章或者公司財(cái)報(bào),甚至是莎士比亞的作品等等任何資料。
2.數(shù)據(jù)預(yù)處理
在原始文本語(yǔ)料上進(jìn)行預(yù)處理,為文本挖掘或NLP任務(wù)做準(zhǔn)備
數(shù)據(jù)預(yù)處理分為好幾步,其中有些步驟可能適用于給定的任務(wù),也可能不適用。但通常都是標(biāo)記化、歸一化和替代的其中一種。
3.數(shù)據(jù)挖掘和可視化
無(wú)論我們的數(shù)據(jù)類型是什么,挖掘和可視化是探尋規(guī)律的重要步驟
常見任務(wù)可能包括可視化字?jǐn)?shù)和分布,生成wordclouds并進(jìn)行距離測(cè)量
4.模型搭建
這是文本挖掘和NLP任務(wù)進(jìn)行的主要部分,包括訓(xùn)練和測(cè)試
在適當(dāng)?shù)臅r(shí)候還會(huì)進(jìn)行特征選擇和工程設(shè)計(jì)
語(yǔ)言模型:有限狀態(tài)機(jī)、馬爾可夫模型、詞義的向量空間建模
機(jī)器學(xué)習(xí)分類器:樸素貝葉斯、邏輯回歸、決策樹、支持向量機(jī)、神經(jīng)網(wǎng)絡(luò)
序列模型:隱藏馬爾可夫模型、循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)、長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)(LSTMs)
5.模型評(píng)估
模型是否達(dá)到預(yù)期?
度量標(biāo)準(zhǔn)將隨文本挖掘或NLP任務(wù)的類型而變化
即使不做聊天機(jī)器人或生成模型,某種形式的評(píng)估也是必要的

在下篇連載中,我將為大家?guī)?lái)在文本數(shù)據(jù)任務(wù)中,對(duì)數(shù)據(jù)預(yù)處理的框架的進(jìn)一步探索,敬請(qǐng)關(guān)注。
-
數(shù)據(jù)處理
+關(guān)注
關(guān)注
0文章
637瀏覽量
29788 -
自然語(yǔ)言處理
+關(guān)注
關(guān)注
1文章
629瀏覽量
14557
原文標(biāo)題:文本數(shù)據(jù)分析(一):基本框架
文章出處:【微信號(hào):jqr_AI,微信公眾號(hào):論智】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
自然語(yǔ)言處理包括哪些內(nèi)容 自然語(yǔ)言處理技術(shù)包括哪些
NLPIR語(yǔ)義分析是對(duì)自然語(yǔ)言處理的完美理解
自然語(yǔ)言處理怎么最快入門?
【推薦體驗(yàn)】騰訊云自然語(yǔ)言處理
NLPIR平臺(tái)實(shí)現(xiàn)文本挖掘的一站式應(yīng)用
自然語(yǔ)言處理技術(shù)可助力機(jī)器學(xué)習(xí)加快挖掘數(shù)據(jù)
自然語(yǔ)言處理(NLP)的學(xué)習(xí)方向
自然語(yǔ)言處理的圖像文本建模相關(guān)研究及分析

文本數(shù)據(jù)分析:文本挖掘還是自然語(yǔ)言處理?
評(píng)論