電子發(fā)燒友網(wǎng)報(bào)道(文/黃山明)多種交互方式已經(jīng)成為當(dāng)下智能家居的一大特點(diǎn),許多產(chǎn)品已經(jīng)不再需要手動(dòng)調(diào)整和控制,更常用的是語音喚醒及操控,這也是最符合人類所習(xí)慣的交互方式。有研究表明,人類大腦皮層每天處理的信息中心,聲音信息占20%,是溝通最重要的紐帶。
但想要讓機(jī)器理解人聲,就需要在前端把聲音信號(hào)進(jìn)行處理,轉(zhuǎn)化為文字或代碼的形式供機(jī)器理解,在機(jī)器生成語言之后,再用語言合成技術(shù)將這些信息轉(zhuǎn)化為聲波,從而使用人聲來進(jìn)行回應(yīng)。
語音系統(tǒng)的發(fā)展
語音技術(shù)的發(fā)明最早可以追溯到半個(gè)世紀(jì)之前,1952年,貝爾實(shí)驗(yàn)室制作了一臺(tái)高6英尺的自動(dòng)數(shù)字識(shí)別機(jī)“Audrey”,能夠識(shí)別數(shù)字0-9的發(fā)音,準(zhǔn)確率達(dá)到90%以上。
不過這一系統(tǒng)主要基于簡(jiǎn)單的模板匹配方法識(shí)別個(gè)體說出的孤立數(shù)字,也導(dǎo)致作為模板的熟人說出的語音識(shí)別會(huì)更精準(zhǔn),而陌生人識(shí)別率會(huì)低一些。在此之后,連續(xù)語音識(shí)別系統(tǒng)開始出現(xiàn),語音合成的參數(shù)合成法能夠生成比較自然的語音。
到二十世紀(jì)八十年代中期,IBM創(chuàng)造了一臺(tái)可以用語音控制的打字機(jī)“Tangora”,基于隱形馬爾科夫鏈模型(HMM),在信號(hào)處理技術(shù)中加入了統(tǒng)計(jì)信息,可以讓機(jī)器在聽到第一個(gè)音節(jié)時(shí),便能夠預(yù)測(cè)單詞。到了1984年,這一系統(tǒng)在5000個(gè)詞匯量級(jí)上達(dá)到了95%的識(shí)別率。
時(shí)間來到2011年,微軟研究院將DNN技術(shù)應(yīng)用在大詞匯量連續(xù)語音識(shí)別任務(wù)上,極大地降低了語音識(shí)別錯(cuò)誤率。
2016年,微軟團(tuán)隊(duì)已經(jīng)將語音識(shí)別的詞錯(cuò)率(WER)降低至了5.9%,這一數(shù)據(jù)已經(jīng)相當(dāng)于專業(yè)速錄員速記同樣一段話的水平。這標(biāo)志著機(jī)器的語音識(shí)別準(zhǔn)確率第一次達(dá)到人類水平,智能語音語言技術(shù)開始逐步落地。
到了這一階段,端到端的語音識(shí)別開始被廣泛應(yīng)用,智能語音助手、智能音箱等多款應(yīng)用智能語音識(shí)別的產(chǎn)品相繼落地。發(fā)展到近期,語音識(shí)別的準(zhǔn)確率進(jìn)一步提升,且針對(duì)遠(yuǎn)場(chǎng)的語音識(shí)別和喚醒得到進(jìn)一步發(fā)展,全雙工語音交互開始出現(xiàn)。語音識(shí)別準(zhǔn)確率已經(jīng)達(dá)到98%以上,并且能根據(jù)實(shí)際應(yīng)用痛點(diǎn)針對(duì)性強(qiáng)化。
從2011年第一款手機(jī)語音助手Siri伴隨著iPhone 4S的亮相,讓全球各大廠商紛紛入局,也標(biāo)志著正式開啟智能語音應(yīng)用元年,到2017年下半年開始通過開放語音生態(tài)系統(tǒng)進(jìn)行產(chǎn)業(yè)內(nèi)合作,語音識(shí)別系統(tǒng)也開始向可穿戴、智能家居、車載等領(lǐng)域延伸。
據(jù)ReportLinker的預(yù)測(cè):到2024年全球智能語音市場(chǎng)規(guī)模將達(dá)到215億美元,其中智慧醫(yī)療健康、智慧金融以及各類智能終端智能語音技術(shù)需求將成為主要的驅(qū)動(dòng)因素。目前國內(nèi)主要智能語音服務(wù)商如百度、科大訊飛、思必馳、樂言科技、聲揚(yáng)科技、竹間智能等。
智能家居語音系統(tǒng)
從整個(gè)智能家居語音系統(tǒng)來看,主要構(gòu)成為語音采集模塊、語音前級(jí)處理模塊、語音訓(xùn)練模塊、語音識(shí)別模塊、語音提示模塊和輸出控制模塊等。
語音采集模塊主要起到完成信號(hào)調(diào)理和信號(hào)采集的功能,通過將語音信號(hào)轉(zhuǎn)換為語音脈沖序列,模塊中主要包括聲音與電信號(hào)的轉(zhuǎn)換、信號(hào)調(diào)理和采樣等信號(hào)處理過程。
其中采樣位數(shù)與采樣率對(duì)音頻接口而言是最重要的兩個(gè)指標(biāo),也是選擇聲音模塊的重要標(biāo)準(zhǔn)。每增加一個(gè)采樣位數(shù)相當(dāng)于力度范圍增加了6dB,采樣位數(shù)越多則捕捉到的信號(hào)越精準(zhǔn)。
而采樣頻率是指計(jì)算機(jī)每秒鐘采集多少個(gè)聲音樣本,是描述聲音文件的音質(zhì)、音調(diào),衡量聲卡、聲音文件的質(zhì)量標(biāo)準(zhǔn)。采樣率越高,計(jì)算機(jī)攝取的圖片越多,對(duì)于原始音頻的還原也越加精確。
語音前級(jí)處理模塊主要用于濾除干擾信號(hào)、提取語音特征矢量,并將提取的語音特征矢量量化為標(biāo)準(zhǔn)語音特征矢量。
而語音訓(xùn)練模塊主要功能是將多次采集、提取到的語音特征標(biāo)準(zhǔn)矢量進(jìn)行概率統(tǒng)計(jì),避免語音受到人自身情緒、環(huán)境等因素引起的干擾。簡(jiǎn)而言之,這一模塊是幫助進(jìn)行語音校準(zhǔn),減少誤差。
語音識(shí)別模塊,顧名思義,主要通過將新采集到的語音特征矢量與語音模板庫中的語音模型進(jìn)行比較,然后再判斷當(dāng)前語音命令功能。而語音模板庫中,主要存儲(chǔ)訓(xùn)練后的最佳標(biāo)準(zhǔn)語音特征矢量。
其他如語音提示模塊的主要功能為提示用戶進(jìn)行相關(guān)操作的進(jìn)度,以及前往完成的情況;而輸出控制模塊便是針對(duì)智能語音識(shí)別的結(jié)果來輸出相應(yīng)的控制信號(hào),比如開關(guān)、音量調(diào)節(jié)、溫度大小等。
通過這些模塊的加入,便能夠讓語音識(shí)別人機(jī)交互成為現(xiàn)實(shí)。并依照這個(gè)框架,語音識(shí)別技術(shù)已經(jīng)開始有了長(zhǎng)遠(yuǎn)的發(fā)展。
在近幾年的研究中,端到端的語音識(shí)別仍然是ASR( Automatic Speech Recognition)研究的熱點(diǎn),同時(shí)基于Attention機(jī)制的識(shí)別系統(tǒng)已經(jīng)成為語音技術(shù)研究的主流。此外,遠(yuǎn)場(chǎng)語音識(shí)別、模型結(jié)構(gòu)、模型訓(xùn)練、跨語種或者多語種語音識(shí)別都成為了研究的熱門選項(xiàng)。
小結(jié)
到今年,語音識(shí)別技術(shù)已經(jīng)發(fā)展了71年,從最初只能識(shí)別特定單詞,到慢慢實(shí)現(xiàn)理解人的語音、語義,并參與到智能家居等落地應(yīng)用中來,為人們實(shí)現(xiàn)更好的生活體驗(yàn)。相比智能視覺只是針對(duì)人臉這一個(gè)變量而言,智能語音技術(shù)需要解決的是更復(fù)雜的語義、繁雜的環(huán)境、精準(zhǔn)關(guān)鍵詞的檢測(cè)等來提升輸入效率,而這些都需要時(shí)間來完成。
但想要讓機(jī)器理解人聲,就需要在前端把聲音信號(hào)進(jìn)行處理,轉(zhuǎn)化為文字或代碼的形式供機(jī)器理解,在機(jī)器生成語言之后,再用語言合成技術(shù)將這些信息轉(zhuǎn)化為聲波,從而使用人聲來進(jìn)行回應(yīng)。
語音系統(tǒng)的發(fā)展
語音技術(shù)的發(fā)明最早可以追溯到半個(gè)世紀(jì)之前,1952年,貝爾實(shí)驗(yàn)室制作了一臺(tái)高6英尺的自動(dòng)數(shù)字識(shí)別機(jī)“Audrey”,能夠識(shí)別數(shù)字0-9的發(fā)音,準(zhǔn)確率達(dá)到90%以上。
不過這一系統(tǒng)主要基于簡(jiǎn)單的模板匹配方法識(shí)別個(gè)體說出的孤立數(shù)字,也導(dǎo)致作為模板的熟人說出的語音識(shí)別會(huì)更精準(zhǔn),而陌生人識(shí)別率會(huì)低一些。在此之后,連續(xù)語音識(shí)別系統(tǒng)開始出現(xiàn),語音合成的參數(shù)合成法能夠生成比較自然的語音。
到二十世紀(jì)八十年代中期,IBM創(chuàng)造了一臺(tái)可以用語音控制的打字機(jī)“Tangora”,基于隱形馬爾科夫鏈模型(HMM),在信號(hào)處理技術(shù)中加入了統(tǒng)計(jì)信息,可以讓機(jī)器在聽到第一個(gè)音節(jié)時(shí),便能夠預(yù)測(cè)單詞。到了1984年,這一系統(tǒng)在5000個(gè)詞匯量級(jí)上達(dá)到了95%的識(shí)別率。
時(shí)間來到2011年,微軟研究院將DNN技術(shù)應(yīng)用在大詞匯量連續(xù)語音識(shí)別任務(wù)上,極大地降低了語音識(shí)別錯(cuò)誤率。
2016年,微軟團(tuán)隊(duì)已經(jīng)將語音識(shí)別的詞錯(cuò)率(WER)降低至了5.9%,這一數(shù)據(jù)已經(jīng)相當(dāng)于專業(yè)速錄員速記同樣一段話的水平。這標(biāo)志著機(jī)器的語音識(shí)別準(zhǔn)確率第一次達(dá)到人類水平,智能語音語言技術(shù)開始逐步落地。
到了這一階段,端到端的語音識(shí)別開始被廣泛應(yīng)用,智能語音助手、智能音箱等多款應(yīng)用智能語音識(shí)別的產(chǎn)品相繼落地。發(fā)展到近期,語音識(shí)別的準(zhǔn)確率進(jìn)一步提升,且針對(duì)遠(yuǎn)場(chǎng)的語音識(shí)別和喚醒得到進(jìn)一步發(fā)展,全雙工語音交互開始出現(xiàn)。語音識(shí)別準(zhǔn)確率已經(jīng)達(dá)到98%以上,并且能根據(jù)實(shí)際應(yīng)用痛點(diǎn)針對(duì)性強(qiáng)化。
從2011年第一款手機(jī)語音助手Siri伴隨著iPhone 4S的亮相,讓全球各大廠商紛紛入局,也標(biāo)志著正式開啟智能語音應(yīng)用元年,到2017年下半年開始通過開放語音生態(tài)系統(tǒng)進(jìn)行產(chǎn)業(yè)內(nèi)合作,語音識(shí)別系統(tǒng)也開始向可穿戴、智能家居、車載等領(lǐng)域延伸。
據(jù)ReportLinker的預(yù)測(cè):到2024年全球智能語音市場(chǎng)規(guī)模將達(dá)到215億美元,其中智慧醫(yī)療健康、智慧金融以及各類智能終端智能語音技術(shù)需求將成為主要的驅(qū)動(dòng)因素。目前國內(nèi)主要智能語音服務(wù)商如百度、科大訊飛、思必馳、樂言科技、聲揚(yáng)科技、竹間智能等。
智能家居語音系統(tǒng)
從整個(gè)智能家居語音系統(tǒng)來看,主要構(gòu)成為語音采集模塊、語音前級(jí)處理模塊、語音訓(xùn)練模塊、語音識(shí)別模塊、語音提示模塊和輸出控制模塊等。
語音采集模塊主要起到完成信號(hào)調(diào)理和信號(hào)采集的功能,通過將語音信號(hào)轉(zhuǎn)換為語音脈沖序列,模塊中主要包括聲音與電信號(hào)的轉(zhuǎn)換、信號(hào)調(diào)理和采樣等信號(hào)處理過程。
其中采樣位數(shù)與采樣率對(duì)音頻接口而言是最重要的兩個(gè)指標(biāo),也是選擇聲音模塊的重要標(biāo)準(zhǔn)。每增加一個(gè)采樣位數(shù)相當(dāng)于力度范圍增加了6dB,采樣位數(shù)越多則捕捉到的信號(hào)越精準(zhǔn)。
而采樣頻率是指計(jì)算機(jī)每秒鐘采集多少個(gè)聲音樣本,是描述聲音文件的音質(zhì)、音調(diào),衡量聲卡、聲音文件的質(zhì)量標(biāo)準(zhǔn)。采樣率越高,計(jì)算機(jī)攝取的圖片越多,對(duì)于原始音頻的還原也越加精確。
語音前級(jí)處理模塊主要用于濾除干擾信號(hào)、提取語音特征矢量,并將提取的語音特征矢量量化為標(biāo)準(zhǔn)語音特征矢量。
而語音訓(xùn)練模塊主要功能是將多次采集、提取到的語音特征標(biāo)準(zhǔn)矢量進(jìn)行概率統(tǒng)計(jì),避免語音受到人自身情緒、環(huán)境等因素引起的干擾。簡(jiǎn)而言之,這一模塊是幫助進(jìn)行語音校準(zhǔn),減少誤差。
語音識(shí)別模塊,顧名思義,主要通過將新采集到的語音特征矢量與語音模板庫中的語音模型進(jìn)行比較,然后再判斷當(dāng)前語音命令功能。而語音模板庫中,主要存儲(chǔ)訓(xùn)練后的最佳標(biāo)準(zhǔn)語音特征矢量。
其他如語音提示模塊的主要功能為提示用戶進(jìn)行相關(guān)操作的進(jìn)度,以及前往完成的情況;而輸出控制模塊便是針對(duì)智能語音識(shí)別的結(jié)果來輸出相應(yīng)的控制信號(hào),比如開關(guān)、音量調(diào)節(jié)、溫度大小等。
通過這些模塊的加入,便能夠讓語音識(shí)別人機(jī)交互成為現(xiàn)實(shí)。并依照這個(gè)框架,語音識(shí)別技術(shù)已經(jīng)開始有了長(zhǎng)遠(yuǎn)的發(fā)展。
在近幾年的研究中,端到端的語音識(shí)別仍然是ASR( Automatic Speech Recognition)研究的熱點(diǎn),同時(shí)基于Attention機(jī)制的識(shí)別系統(tǒng)已經(jīng)成為語音技術(shù)研究的主流。此外,遠(yuǎn)場(chǎng)語音識(shí)別、模型結(jié)構(gòu)、模型訓(xùn)練、跨語種或者多語種語音識(shí)別都成為了研究的熱門選項(xiàng)。
小結(jié)
到今年,語音識(shí)別技術(shù)已經(jīng)發(fā)展了71年,從最初只能識(shí)別特定單詞,到慢慢實(shí)現(xiàn)理解人的語音、語義,并參與到智能家居等落地應(yīng)用中來,為人們實(shí)現(xiàn)更好的生活體驗(yàn)。相比智能視覺只是針對(duì)人臉這一個(gè)變量而言,智能語音技術(shù)需要解決的是更復(fù)雜的語義、繁雜的環(huán)境、精準(zhǔn)關(guān)鍵詞的檢測(cè)等來提升輸入效率,而這些都需要時(shí)間來完成。
聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。
舉報(bào)投訴
-
智能家居
+關(guān)注
關(guān)注
1932文章
9720瀏覽量
188862 -
語音系統(tǒng)
+關(guān)注
關(guān)注
1文章
27瀏覽量
13127
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
熱點(diǎn)推薦
明遠(yuǎn)智睿SSD2351開發(fā)板:智能家居的智能核心
數(shù)據(jù),如溫度、濕度、光照強(qiáng)度等,為智能家居系統(tǒng)的自動(dòng)化控制提供準(zhǔn)確的數(shù)據(jù)支持。全開源的開發(fā)資料和一對(duì)一的技術(shù)支持,讓開發(fā)者可以根據(jù)用戶的需求定制個(gè)性化的智能家居解決方案,不斷提升
發(fā)表于 05-07 18:59
智能家居Mesh組網(wǎng)方案:實(shí)現(xiàn)智能化生活的無縫連接NRF52832
互聯(lián)成為了一個(gè)迫切的問題。
為了解決這一問題,迅通科技研發(fā)了智能家居 Mesh 組網(wǎng)方案,為傳統(tǒng)智能家居產(chǎn)品商提供了智能化解決方案,以實(shí)現(xiàn)全
發(fā)表于 04-15 14:07
智能家居系統(tǒng)技術(shù)解析
一、基本概念與技術(shù)構(gòu)成 智能家居系統(tǒng)是由物聯(lián)網(wǎng)技術(shù)支持的家居設(shè)備集群,依托Wi-Fi、藍(lán)牙、ZigBee等通信協(xié)議實(shí)現(xiàn)設(shè)備互聯(lián),具備遠(yuǎn)程操控與自動(dòng)化執(zhí)行能力,致力于提高居家安全水平、操

智能家居物聯(lián)網(wǎng):數(shù)字化生活模式
的核心在于“智能”二字,利用物聯(lián)網(wǎng)技術(shù)將家中的各種設(shè)備連接起來,形成一個(gè)統(tǒng)一的管理系統(tǒng)。讓家居設(shè)備的管理再云平臺(tái)進(jìn)行,通過
語音報(bào)警器應(yīng)用智能家居的技巧
在科技日新月異的時(shí)代,智能家居安全系統(tǒng)已成為許多家庭和企業(yè)不可或缺的一部分。其中,語音報(bào)警器作為智能安防的重要組成,旨在提升安全報(bào)警的即時(shí)性
語音識(shí)別在智能家居中的應(yīng)用
隨著科技的飛速發(fā)展,智能家居逐漸成為人們生活中不可或缺的一部分。智能家居系統(tǒng)通過物聯(lián)網(wǎng)技術(shù)將家中的各種設(shè)備連接起來,實(shí)現(xiàn)遠(yuǎn)程控制和自動(dòng)化管理。在眾多的控制方式中,
基于語音識(shí)別技術(shù)的智能家居控制系統(tǒng)
于語音識(shí)別的智能控制系統(tǒng)是智能家居的重要組成部分,相比傳統(tǒng)的遙控或觸控方式,基于語音識(shí)別控制的智能家居

語音識(shí)別芯片:塑造智能家居控制新時(shí)代
語音識(shí)別芯片技術(shù)革新智能家居控制,用戶語音指令可輕松管理家電,實(shí)現(xiàn)一鍵切換場(chǎng)景,提高效率和響應(yīng)速度,保障隱私安全,市場(chǎng)應(yīng)用廣泛,將創(chuàng)造更多智能
PWM在智能家居系統(tǒng)中的應(yīng)用
隨著科技的發(fā)展,智能家居系統(tǒng)逐漸成為現(xiàn)代家庭生活的一部分。脈沖寬度調(diào)制(PWM)作為一種電子技術(shù),其在智能家居
ASR在智能家居中的應(yīng)用
ASR技術(shù)簡(jiǎn)介 自動(dòng)語音識(shí)別技術(shù),即ASR,是一種將人類語音轉(zhuǎn)換成文本的技術(shù)。它通過模擬人腦處理語言的方式,對(duì)語音信號(hào)進(jìn)行分析和識(shí)別,從而實(shí)現(xiàn)對(duì)語
離線語音:實(shí)現(xiàn)智能家居的無縫互操作
版,自然而然地成為了智能家居領(lǐng)域新的增長(zhǎng)點(diǎn),引領(lǐng)著行業(yè)邁向新的高度。智能語音,作為智能家居的啟明星,早已吸引了國內(nèi)外眾多IT巨頭的目光。谷歌以NEST為跳板,強(qiáng)勢(shì)

離線語音:實(shí)現(xiàn)智能家居的無縫互操作
智能語音成智能家居新增長(zhǎng)點(diǎn),離線語音技術(shù)解決網(wǎng)絡(luò)等問題,廣泛應(yīng)用于家居、TOB領(lǐng)域。NRK系列芯片高性能低成本,推動(dòng)

智能家居系統(tǒng)設(shè)計(jì)方案
、安全的生活體驗(yàn)。本案例將詳細(xì)介紹一套智能家居系統(tǒng)的設(shè)計(jì)方案,包括系統(tǒng)架構(gòu)、功能模塊、設(shè)備選型、應(yīng)用場(chǎng)景以及實(shí)施步驟等方面。
智能家居控制系統(tǒng)如何設(shè)計(jì)
智能家居的控制系統(tǒng)設(shè)計(jì)是一個(gè)復(fù)雜而細(xì)致的過程,它涉及到多個(gè)方面的考慮,包括需求分析、設(shè)備選型、系統(tǒng)架構(gòu)設(shè)計(jì)、網(wǎng)絡(luò)安全、用戶交互以及后期維護(hù)等。以下是對(duì)
繼電器在智能家居中的應(yīng)用
隨著科技的飛速發(fā)展,智能家居已經(jīng)成為現(xiàn)代家庭不可或缺的一部分。在智能家居系統(tǒng)中,繼電器作為一種重要的電子控制元件,發(fā)揮著至關(guān)重要的作用。本文
評(píng)論