信息時(shí)代,科學(xué)技術(shù)的飛速發(fā)展帶動(dòng)人工智能化技術(shù)的更新進(jìn)步。機(jī)器人的應(yīng)用領(lǐng)域和范圍也越來(lái)越廣泛,在生產(chǎn)、建筑、旅游等各個(gè)行業(yè)都能夠看到人工智能機(jī)器人的身影。 旅游產(chǎn)業(yè)與互聯(lián)網(wǎng)的結(jié)合,要隨著信息技術(shù)的發(fā)展與時(shí)俱進(jìn)。物聯(lián)網(wǎng)、人工智能、虛擬現(xiàn)實(shí)等新興的互聯(lián)網(wǎng)技術(shù)讓旅游產(chǎn)業(yè)的未來(lái)充滿了挑戰(zhàn)與機(jī)遇,導(dǎo)游等依賴(lài)大數(shù)據(jù)的職業(yè)完全可能被人工智能機(jī)器人取代。
語(yǔ)音助手越來(lái)越像人類(lèi)了,與人類(lèi)之間的交流不再是簡(jiǎn)單的你問(wèn)我答,不少語(yǔ)音助手甚至能和人類(lèi)進(jìn)行深度交談。在交流的背后,離不開(kāi)自然語(yǔ)言處理(NLP)和自然語(yǔ)言生成(NLG)這兩種基礎(chǔ)技術(shù)。機(jī)器學(xué)習(xí)的這兩個(gè)分支使得語(yǔ)音助手能夠?qū)⑷祟?lèi)語(yǔ)言轉(zhuǎn)換為計(jì)算機(jī)命令,反之亦然。
這兩種技術(shù)有什么差異?工作原理是什么?
NLP vs NLG:了解基本差異
什么是NLP?
NLP指在計(jì)算機(jī)讀取語(yǔ)言時(shí)將文本轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù)的過(guò)程。簡(jiǎn)而言之,NLP是計(jì)算機(jī)的閱讀語(yǔ)言。可以粗略地說(shuō),在NLP中,系統(tǒng)攝取人語(yǔ),將其分解,分析,確定適當(dāng)?shù)牟僮?,并以人?lèi)理解的語(yǔ)言進(jìn)行響應(yīng)。
NLP結(jié)合了計(jì)算機(jī)科學(xué)、人工智能和計(jì)算語(yǔ)言學(xué),涵蓋了以人類(lèi)理解的方式解釋和生成人類(lèi)語(yǔ)言的所有機(jī)制:語(yǔ)言過(guò)濾、情感分析、主題分類(lèi)、位置檢測(cè)等。
什么是NLG?
自然語(yǔ)言處理由自然語(yǔ)言理解(NLU)和自然語(yǔ)言生成(NLG)構(gòu)成。NLG是計(jì)算機(jī)的“編寫(xiě)語(yǔ)言”,它將結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換為文本,以人類(lèi)語(yǔ)言表達(dá)。即能夠根據(jù)一些關(guān)鍵信息及其在機(jī)器內(nèi)部的表達(dá)形式,經(jīng)過(guò)一個(gè)規(guī)劃過(guò)程,來(lái)自動(dòng)生成一段高質(zhì)量的自然語(yǔ)言文本。
NLP vs NLG:聊天機(jī)器人的工作方式
人類(lèi)談話涉及雙向溝通的方式,聊天機(jī)器人也一樣,只是溝通渠道略有不同——您是與機(jī)器交談。當(dāng)給機(jī)器人發(fā)送消息時(shí),它會(huì)將其拾取并使用NLP,機(jī)器將文本轉(zhuǎn)換為自身的編碼命令。然后將該數(shù)據(jù)發(fā)送到?jīng)Q策引擎。
在整個(gè)過(guò)程中,計(jì)算機(jī)將自然語(yǔ)言轉(zhuǎn)換為計(jì)算機(jī)理解的語(yǔ)言,處理,識(shí)別語(yǔ)音。語(yǔ)音識(shí)別系統(tǒng)常用的是Hidden Markov模型(HMM),它將語(yǔ)音轉(zhuǎn)換為文本以確定用戶(hù)所說(shuō)的內(nèi)容。通過(guò)傾聽(tīng)您所說(shuō)的內(nèi)容,將其分解為小單元,并對(duì)其進(jìn)行分析以生成文本形式的輸出或信息。
此后的關(guān)鍵步驟是自然語(yǔ)言理解(NLU),如上文所說(shuō),它是NLP的另一個(gè)子集,試圖理解文本形式的含義。重要的是計(jì)算機(jī)要理解每個(gè)單詞是什么,這是由NLU執(zhí)行的部分。在對(duì)詞匯、語(yǔ)法和其他信息進(jìn)行篩選時(shí),NLP算法使用統(tǒng)計(jì)機(jī)器學(xué)習(xí)、應(yīng)用自然語(yǔ)言的語(yǔ)法規(guī)則,并確定所說(shuō)的最可能的含義。
另一方面,NLG是一種利用人工智能和計(jì)算語(yǔ)言學(xué)生成自然語(yǔ)言的系統(tǒng)。它還可以將該文本翻譯成語(yǔ)音。NLP系統(tǒng)首先確定要翻譯成文本的信息,然后組織表達(dá)結(jié)構(gòu),再使用一組語(yǔ)法規(guī)則,NLG就能系統(tǒng)形成完整的句子并讀出來(lái)。
應(yīng)用
語(yǔ)音助手只是NLP眾多應(yīng)用程序之一。它還可用于網(wǎng)絡(luò)安全文章、白皮書(shū)、科研等領(lǐng)域。例如,NLP對(duì)在線內(nèi)容進(jìn)行情緒分析,以改進(jìn)服務(wù)并為客戶(hù)提供更好的產(chǎn)品。
而NLG通常用于Gmail,它可以為您自動(dòng)創(chuàng)建答復(fù)。創(chuàng)建公司數(shù)據(jù)圖表的描述說(shuō)明時(shí),NLG也是很好的工具。
說(shuō)NLP和NLG完全不相關(guān),也不正確,因?yàn)镹LP和NLG相當(dāng)于學(xué)習(xí)中的閱讀、寫(xiě)作過(guò)程,還是有內(nèi)在關(guān)聯(lián)的。
一般智能語(yǔ)音助理或語(yǔ)音機(jī)器人工作原理大致如下:
第一階段:語(yǔ)音到文本的過(guò)程。信號(hào)源→設(shè)備(捕獲音頻輸入)→增強(qiáng)音頻輸入→檢測(cè)語(yǔ)音→轉(zhuǎn)換為其他形式(如文本)
第二階段:響應(yīng)過(guò)程。處理文本(如用NLP處理文本,識(shí)別意圖)→操作響應(yīng)。
在檢測(cè)語(yǔ)音過(guò)程中,就包括分辨是否為語(yǔ)音信號(hào),該過(guò)程會(huì)通過(guò)指定的頻率對(duì)模擬信號(hào)進(jìn)行采樣,將模擬聲波轉(zhuǎn)換為數(shù)字?jǐn)?shù)據(jù)。這一過(guò)程很重要,是否成功地識(shí)別語(yǔ)音。如果生成數(shù)字?jǐn)?shù)據(jù)都是錯(cuò)誤的,那么后期的處理響應(yīng)那肯定是錯(cuò)的。這也是影響智能語(yǔ)音助理或語(yǔ)音機(jī)器人識(shí)別率的重要因素。
在這個(gè)過(guò)程,用于語(yǔ)音處理的技術(shù)是語(yǔ)音活性檢測(cè) (Voice activity detection,VAD),目的是檢測(cè)語(yǔ)音信號(hào)是否存在。 VAD技術(shù)主要用于語(yǔ)音編碼和語(yǔ)音識(shí)別。它可以簡(jiǎn)化語(yǔ)音處理,也可用于在音頻會(huì)話期間去除非語(yǔ)音片段:可以在IP電話應(yīng)用中避免對(duì)靜音數(shù)據(jù)包的編碼和傳輸,節(jié)省計(jì)算時(shí)間和帶寬。
與大家分享VAD技術(shù),首先講兩個(gè)概念:
信噪比(縮寫(xiě)為SNR或S / N)是科學(xué)和工程中使用的一種度量,它將所需信號(hào)的電平與背景噪聲電平進(jìn)行比較。SNR定義為信號(hào)功率與噪聲功率之比,通常以分貝表示。比率高于1:1(大于0 dB)表示信號(hào)多于噪聲。
窗口,研究信號(hào)源,我們將其分成滑動(dòng)窗口或僅窗口。
能量檢測(cè)器
能量檢測(cè)器對(duì)于高SNR信號(hào)是有效的,但是當(dāng)SNR下降直到它在1以下變得無(wú)效時(shí)失去效率。它也不能將語(yǔ)音與諸如沖擊噪聲(將筆放在桌子上),打字,空調(diào)或任何噪聲之類(lèi)的噪聲區(qū)分開(kāi)來(lái)。比人聲更響亮或更響亮。
波形和頻譜分析
在波形和頻譜分析中,語(yǔ)音活動(dòng)檢測(cè)利用語(yǔ)音的已知特征。在該方法中應(yīng)用VAD比基于能量的解決方案更加計(jì)算密集,但是能夠更好地檢測(cè)非平穩(wěn)噪聲和低SNR場(chǎng)景中的噪聲。對(duì)于濁音音素,聲帶的振動(dòng)產(chǎn)生諧波豐富的聲音,具有50到250 Hz之間的明顯音調(diào)。所有元音,但也有一些輔音,表現(xiàn)出這種諧波結(jié)構(gòu),因此是語(yǔ)音的特征。代表諧波結(jié)構(gòu)的特征是語(yǔ)音的可靠指標(biāo)。然而,單獨(dú)使用基于諧度或基于音調(diào)的特征不能預(yù)期無(wú)聲語(yǔ)音部分(例如一些摩擦音)被檢測(cè)到。此外,音樂(lè)或其他諧波噪聲分量可能被誤解為語(yǔ)音??偟膩?lái)說(shuō),對(duì)信號(hào)的倒譜的分析可以揭示信號(hào)能量的來(lái)源。同樣的,基于該共振峰結(jié)構(gòu),也是語(yǔ)音識(shí)別系統(tǒng)的重要特征。人類(lèi)聲道中的可變腔允許揚(yáng)聲器形成不同的音素。強(qiáng)調(diào)諧振(或共振峰)頻率,導(dǎo)致頻譜包絡(luò)的特征形狀。平滑很重要,在一個(gè)對(duì)話中,一個(gè)人只有50%的時(shí)間在說(shuō)話,并且存在大量非活動(dòng)幀。諸如[p] [t] [k] [b]之類(lèi)的音是靜音,并且靜音部分可能不會(huì)被算法識(shí)別為語(yǔ)音,這將影響自動(dòng)語(yǔ)音識(shí)別系統(tǒng)的性能。解決方案如下:
要被視為語(yǔ)音,必須至少有3個(gè)連續(xù)的窗口標(biāo)記語(yǔ)音(192ms)。它可以防止短暫的噪音被視為語(yǔ)音。
要被認(rèn)為是沉默,必須至少連續(xù)3個(gè)窗口標(biāo)記為靜音。它可以防止過(guò)多的語(yǔ)音切入影響語(yǔ)音節(jié)奏。
如果窗口被認(rèn)為是語(yǔ)音,則前3個(gè)窗口和3個(gè)窗口被認(rèn)為是語(yǔ)音。它可以防止在句子開(kāi)頭和結(jié)尾丟失信息。
基于統(tǒng)計(jì)分析
MFCC,F(xiàn)BANK,PLP是最常用的語(yǔ)音識(shí)別功能。有數(shù)學(xué)運(yùn)算的連接,旨在通過(guò)保持最相關(guān)的數(shù)據(jù)來(lái)減少和壓縮信息的數(shù)量。
在“信號(hào)源→設(shè)備(捕獲音頻輸入)→增強(qiáng)音頻輸入→檢測(cè)語(yǔ)音”過(guò)程中,語(yǔ)音成功采樣識(shí)別為數(shù)字?jǐn)?shù)據(jù),是后期語(yǔ)言處理的前提,在檢測(cè)中文面臨更大挑戰(zhàn),斷句、語(yǔ)氣、語(yǔ)調(diào)等因素直接影響識(shí)別率。
-
機(jī)器人
+關(guān)注
關(guān)注
213文章
29726瀏覽量
212793 -
智能語(yǔ)音
+關(guān)注
關(guān)注
11文章
804瀏覽量
49518 -
自然語(yǔ)言處理
+關(guān)注
關(guān)注
1文章
628瀏覽量
14150
發(fā)布評(píng)論請(qǐng)先 登錄
評(píng)論