chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

文本數(shù)據(jù)分析:文本挖掘還是自然語(yǔ)言處理?

zhKF_jqr_AI ? 來(lái)源:未知 ? 作者:李倩 ? 2018-04-10 14:58 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

數(shù)據(jù)分析師Seth Grimes曾指出“80%的商業(yè)信息來(lái)自非結(jié)構(gòu)化數(shù)據(jù),主要是文本數(shù)據(jù)”,這一表述可能夸大了文本數(shù)據(jù)在商業(yè)數(shù)據(jù)中的占比,但是文本數(shù)據(jù)的蘊(yùn)含的信息價(jià)值毋庸置疑。KDnuggets的編輯、機(jī)器學(xué)習(xí)研究者和數(shù)據(jù)科學(xué)家Matthew Mayo就在網(wǎng)站上寫了一個(gè)有關(guān)文本數(shù)據(jù)分析的文章系列。本文是該系列的第一篇,主要講述了文本數(shù)據(jù)分析的大致步驟和框架。以下是論智對(duì)原文的編譯。

雖然NLP和文本挖掘不是一回事兒,但它們?nèi)允蔷o密相關(guān)的:它們處理同樣的原始數(shù)據(jù)類型、在使用時(shí)還有很多交叉。下面我們就來(lái)描述一下這些任務(wù)的處理步驟。

如今的文本數(shù)據(jù)量非常之大,許多都是從日常生活中產(chǎn)生的,其中既有結(jié)構(gòu)化的,也有半結(jié)構(gòu)化甚至混亂的數(shù)據(jù)。我們對(duì)此能做什么?事實(shí)上,能做的有很多,這取決于你的目標(biāo)是什么。

文本挖掘還是自然語(yǔ)言處理?

自然語(yǔ)言處理(NLP)關(guān)注的是人類的自然語(yǔ)言與計(jì)算機(jī)設(shè)備之間的相互關(guān)系。NLP是計(jì)算機(jī)語(yǔ)言學(xué)的重要方面之一,它同樣也屬于計(jì)算機(jī)科學(xué)和人工智能領(lǐng)域。而文本挖掘和NLP的存在領(lǐng)域類似,它關(guān)注的是識(shí)別文本數(shù)據(jù)中有趣并且重要的模式。

但是,這二者仍有不同。首先,這兩個(gè)概念并沒有明確的界定(就像“數(shù)據(jù)挖掘”和“數(shù)據(jù)科學(xué)”一樣),并且在不同程度上二者相互交叉,具體要看與你交談的對(duì)象是誰(shuí)。我認(rèn)為通過(guò)洞見級(jí)別來(lái)區(qū)分是最容易的。如果原始文本是數(shù)據(jù),那么文本挖掘就是信息,NLP就是知識(shí),也就是語(yǔ)法和語(yǔ)義的關(guān)系。下面的金字塔表示了這種關(guān)系:

數(shù)據(jù)處理,自然語(yǔ)言

另一種區(qū)分這兩個(gè)概念的方法是用下方的韋恩圖區(qū)分,其中也涉及其他相關(guān)概念,從而能更好地表示它們之間重疊的關(guān)系。

數(shù)據(jù)處理,自然語(yǔ)言處理

我們的目的并不是二者絕對(duì)或相對(duì)的定義,重要的是要認(rèn)識(shí)到,這兩種任務(wù)下對(duì)數(shù)據(jù)的預(yù)處理是相同的。

努力消除歧義是文本預(yù)處理很重要的一個(gè)方面,我們希望保留原本的含義,同時(shí)消除噪音。為此,我們需要了解:

關(guān)于語(yǔ)言的知識(shí)

關(guān)于世界的知識(shí)

結(jié)合知識(shí)來(lái)源的方法

除此之外,下圖所示的六個(gè)因素也加大了文本數(shù)據(jù)處理的難度,包括非標(biāo)準(zhǔn)的語(yǔ)言表述、斷句問(wèn)題、習(xí)慣用語(yǔ)、新興詞匯、常識(shí)以及復(fù)雜的名詞等等。

數(shù)據(jù)處理,自然語(yǔ)言處理

文本數(shù)據(jù)科學(xué)任務(wù)框架

我們能否為文本數(shù)據(jù)的處理制作一個(gè)高效并且通用的框架呢?我們發(fā)現(xiàn),處理文本和處理其他非文本的任務(wù)很相似,可以查看我之前寫的KDD Process作為參考。

以下就是處理文本任務(wù)的幾大主要步驟:

1.數(shù)據(jù)收集

獲取或創(chuàng)建語(yǔ)料庫(kù),來(lái)源可以是郵箱、英文維基百科文章或者公司財(cái)報(bào),甚至是莎士比亞的作品等等任何資料。

2.數(shù)據(jù)預(yù)處理

在原始文本語(yǔ)料上進(jìn)行預(yù)處理,為文本挖掘或NLP任務(wù)做準(zhǔn)備

數(shù)據(jù)預(yù)處理分為好幾步,其中有些步驟可能適用于給定的任務(wù),也可能不適用。但通常都是標(biāo)記化、歸一化和替代的其中一種。

3.數(shù)據(jù)挖掘和可視化

無(wú)論我們的數(shù)據(jù)類型是什么,挖掘和可視化是探尋規(guī)律的重要步驟

常見任務(wù)可能包括可視化字?jǐn)?shù)和分布,生成wordclouds并進(jìn)行距離測(cè)量

4.模型搭建

這是文本挖掘和NLP任務(wù)進(jìn)行的主要部分,包括訓(xùn)練和測(cè)試

在適當(dāng)?shù)臅r(shí)候還會(huì)進(jìn)行特征選擇和工程設(shè)計(jì)

語(yǔ)言模型:有限狀態(tài)機(jī)、馬爾可夫模型、詞義的向量空間建模

機(jī)器學(xué)習(xí)分類器:樸素貝葉斯、邏輯回歸、決策樹、支持向量機(jī)、神經(jīng)網(wǎng)絡(luò)

序列模型:隱藏馬爾可夫模型、循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)、長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)(LSTMs)

5.模型評(píng)估

模型是否達(dá)到預(yù)期?

度量標(biāo)準(zhǔn)將隨文本挖掘或NLP任務(wù)的類型而變化

即使不做聊天機(jī)器人或生成模型,某種形式的評(píng)估也是必要的

在下篇連載中,我將為大家?guī)?lái)在文本數(shù)據(jù)任務(wù)中,對(duì)數(shù)據(jù)預(yù)處理的框架的進(jìn)一步探索,敬請(qǐng)關(guān)注。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴

原文標(biāo)題:文本數(shù)據(jù)分析(一):基本框架

文章出處:【微信號(hào):jqr_AI,微信公眾號(hào):論智】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    自然語(yǔ)言處理包括哪些內(nèi)容 自然語(yǔ)言處理技術(shù)包括哪些

    自然語(yǔ)言處理(Natural Language Processing, NLP)一般包括以下內(nèi)容: 語(yǔ)音識(shí)別(Speech Recognition):將人類語(yǔ)言轉(zhuǎn)換為計(jì)算機(jī)可以理解的形式。 語(yǔ)音合成
    的頭像 發(fā)表于 08-03 16:22 ?9391次閱讀

    NLPIR語(yǔ)義分析是對(duì)自然語(yǔ)言處理的完美理解

    ,融合了網(wǎng)絡(luò)精準(zhǔn)采集、自然語(yǔ)言理解、文本挖掘和語(yǔ)義搜索的研究成果,并針對(duì)互聯(lián)網(wǎng)內(nèi)容處理的全技術(shù)鏈條的共享開發(fā)平臺(tái)。包括大數(shù)據(jù)完整的技術(shù)鏈條:
    發(fā)表于 10-19 11:34

    自然語(yǔ)言處理怎么最快入門?

    `本文整理自知乎上的一個(gè)問(wèn)答,分享給正在學(xué)習(xí)自然語(yǔ)言處理的朋友們!一、自然語(yǔ)言處理是什么?自然語(yǔ)言
    發(fā)表于 11-28 10:02

    【推薦體驗(yàn)】騰訊云自然語(yǔ)言處理

    自然語(yǔ)言處理技術(shù)的功勞。可以說(shuō),只要有大量文本數(shù)據(jù)的應(yīng)用場(chǎng)景,幾乎都涉及到NLP技術(shù),也都可以使用相關(guān)自然語(yǔ)言處理產(chǎn)品的接口來(lái)做智能
    發(fā)表于 10-09 15:28

    NLPIR平臺(tái)實(shí)現(xiàn)文本挖掘的一站式應(yīng)用

    的工具。語(yǔ)義智能分析的全鏈條指的是從語(yǔ)料數(shù)據(jù)的采集預(yù)處理,經(jīng)過(guò)自然語(yǔ)言處理文本
    發(fā)表于 11-07 16:43

    自然語(yǔ)言處理技術(shù)可助力機(jī)器學(xué)習(xí)加快挖掘數(shù)據(jù)

    目前,產(chǎn)業(yè)界正發(fā)力鉆研人工智利用數(shù)據(jù)的高效方法。通過(guò)自然語(yǔ)言處理和主題建??梢允辜夹g(shù)優(yōu)化、競(jìng)爭(zhēng)分析和微弱信號(hào)檢測(cè)等流程得到改善,加快海量文本數(shù)據(jù)分析
    的頭像 發(fā)表于 04-11 15:06 ?2118次閱讀

    自然語(yǔ)言處理(NLP)的學(xué)習(xí)方向

    科學(xué)、數(shù)學(xué)等于一體的科學(xué)。旨在從文本數(shù)據(jù)中提取信息。目的是讓計(jì)算機(jī)處理或“理解”自然語(yǔ)言,以執(zhí)行自動(dòng)翻譯、文本分類和情感分析等。
    的頭像 發(fā)表于 07-06 16:30 ?1.4w次閱讀

    自然語(yǔ)言處理的圖像文本建模相關(guān)研究及分析

    近年來(lái),圖像文本建模研究已經(jīng)成為自然語(yǔ)言處理領(lǐng)域一個(gè)重要的硏究方向。圖像常被用于增強(qiáng)句子的語(yǔ)義理解與表示。然而也有硏究人員對(duì)圖像信息用于句子語(yǔ)義理解的必要性提岀質(zhì)疑,原因是文本本身就能
    發(fā)表于 03-24 11:33 ?27次下載
    <b class='flag-5'>自然語(yǔ)言</b><b class='flag-5'>處理</b>的圖像<b class='flag-5'>文本</b>建模相關(guān)研究及<b class='flag-5'>分析</b>

    NLA自然語(yǔ)言分析,助力解決數(shù)據(jù)分析的難題

    NLA自然語(yǔ)言分析便是順應(yīng)數(shù)據(jù)分析大環(huán)境而誕生的一項(xiàng)功能,為用戶提供更加智能便捷的數(shù)據(jù)分析。
    發(fā)表于 06-02 10:07 ?672次閱讀

    自然語(yǔ)言理解問(wèn)答對(duì)話文本數(shù)據(jù),賦予計(jì)算機(jī)智能交流的能力

    自然語(yǔ)言理解(Natural Language Understanding,簡(jiǎn)稱NLU)問(wèn)答對(duì)話文本數(shù)據(jù)是現(xiàn)代人工智能領(lǐng)域的一項(xiàng)重要資源。這些數(shù)據(jù)集涵蓋了用戶與計(jì)算機(jī)之間的自然語(yǔ)言交互
    的頭像 發(fā)表于 08-07 18:11 ?1147次閱讀

    自然語(yǔ)言處理是什么技術(shù)的一種應(yīng)用

    自然語(yǔ)言處理(Natural Language Processing,簡(jiǎn)稱NLP)是人工智能和語(yǔ)言學(xué)領(lǐng)域的一個(gè)分支,它涉及到使用計(jì)算機(jī)技術(shù)來(lái)處理、
    的頭像 發(fā)表于 07-03 14:18 ?2571次閱讀

    自然語(yǔ)言處理模式的優(yōu)點(diǎn)

    得到了廣泛的應(yīng)用,如搜索引擎、語(yǔ)音助手、機(jī)器翻譯、情感分析等。 1. 提高信息獲取效率 自然語(yǔ)言處理技術(shù)能夠快速地從大量文本數(shù)據(jù)中提取關(guān)鍵信息,幫助用戶節(jié)省查找和篩選信息的時(shí)間。例如,
    的頭像 發(fā)表于 07-03 14:24 ?1461次閱讀

    ASR與自然語(yǔ)言處理的結(jié)合

    。以下是對(duì)ASR與自然語(yǔ)言處理結(jié)合的分析: 一、ASR與NLP的基本概念 ASR(自動(dòng)語(yǔ)音識(shí)別) : 專注于將人類的語(yǔ)音轉(zhuǎn)換為文字。 涉及從聲音信號(hào)中提取特征,并將這些特征映射到文本。
    的頭像 發(fā)表于 11-18 15:19 ?1457次閱讀

    自然語(yǔ)言處理與機(jī)器學(xué)習(xí)的關(guān)系 自然語(yǔ)言處理的基本概念及步驟

    Learning,簡(jiǎn)稱ML)是人工智能的一個(gè)核心領(lǐng)域,它使計(jì)算機(jī)能夠從數(shù)據(jù)中學(xué)習(xí)并做出預(yù)測(cè)或決策。自然語(yǔ)言處理與機(jī)器學(xué)習(xí)之間有著密切的關(guān)系,因?yàn)闄C(jī)器學(xué)習(xí)提供了一種強(qiáng)大的工具,用于從大量文本數(shù)
    的頭像 發(fā)表于 12-05 15:21 ?2524次閱讀

    如何使用自然語(yǔ)言處理分析文本數(shù)據(jù)

    使用自然語(yǔ)言處理(NLP)分析文本數(shù)據(jù)是一個(gè)復(fù)雜但系統(tǒng)的過(guò)程,涉及多個(gè)步驟和技術(shù)。以下是一個(gè)基本的流程,幫助你理解如何使用NLP來(lái)分析
    的頭像 發(fā)表于 12-05 15:27 ?2369次閱讀