語音助手和集成已在投放市場的大多數(shù)產(chǎn)品,設備和技術(shù)中實現(xiàn)。話雖這么說,這些有用的語音助手始終會監(jiān)聽激活/喚醒單詞(例如“ okay Google”或“ Alexa”),這通常會消耗大量電量,這已不是什么秘密。在當今技術(shù)日新月異的世界中,必須考慮其對能源消耗的影響。
本文提供了使用語音活動檢測(VAD)的低功耗,始終在線語音命令系統(tǒng)的設計注意事項。在選擇創(chuàng)建易于使用,節(jié)能的語音用戶界面(VUI)所需的組件時,它探討了取舍和注意事項。
VAD功能可在聆聽喚醒詞之前檢測環(huán)境中的人聲,這意味著當沒人在家時,您的語音助手將不會浪費不必要的能量。據(jù)估計,全球使用的數(shù)字語音助手有42億,到2024年,這個數(shù)字有望翻一番。將該技術(shù)應用于語音助手軟件和其他依賴語音集成的產(chǎn)品,將大大降低其能耗。使用語音助手的人。
有幾種用于實現(xiàn)VUI系統(tǒng)的硬件體系結(jié)構(gòu)。通常,典型的語音用戶界面實現(xiàn)由麥克風組成,麥克風可以是單個麥克風,也可以是與音頻處理器相連的麥克風陣列,用于捕獲和處理語音。
可以在邊緣音頻邊緣處理器,具有內(nèi)置音頻邊緣處理器的智能麥克風或標準應用處理器(AP)上處理輸入的音頻流。邊緣音頻處理器針對音頻信號的低功耗和低延遲處理進行了優(yōu)化。除了提供對輸入音頻的專門處理之外,邊緣音頻處理器還可以用于后處理音頻輸出信號。如果VUI系統(tǒng)是云連接的,則音頻邊緣處理器還可以通過具有無線連接性的主單芯片系統(tǒng)(SoC)與云VUI接口進行通信。本文介紹了VUI系統(tǒng)的兩種不同實現(xiàn),以及它們各自的權(quán)衡。
超低功耗VAD(語音活動檢測)
圖1所示的體系結(jié)構(gòu)使用模擬信號路徑支持超低功耗VUI,該路徑包括模擬麥克風和模擬比較器以提供喚醒觸發(fā)。當檢測到聲音活動時,模擬信號鏈會產(chǎn)生一個中斷,以喚醒音頻處理器以進行語音捕獲。該設備還可以包括“一鍵通”功能,從而用戶按下按鈕即可喚醒音頻處理器。

圖1.超低功耗,始終在線的VUI硬件信號鏈,無需進行前滾動緩沖即可進行遠程控制。
模擬喚醒麥克風必須始終在聆聽環(huán)境,因此該麥克風以及比較器必須消耗很少的功率。Knowles IA8201是高效音頻處理器的一個示例,在最簡單的喚醒觸發(fā)模式下其功耗小于1mW,并且具有1MB的存儲器用于高級音頻處理。盡管圖1中所示的方法為設備(例如,遙控器和可穿戴設備)中始終在線的VUI提供了一種簡單的低功耗AAD(聲學活動檢測)方法,但它具有局限性。這種實現(xiàn)方式會喚醒音頻處理器的任何聲音信號,并且在嘈雜的情況下會導致總體系統(tǒng)功耗過高。還,與云連接的語音用戶界面系統(tǒng)要求在捕獲喚醒字之前的一段時間內(nèi)獲取音頻數(shù)據(jù),以提高喚醒字檢測的準確性。這通常稱為預滾動,是支持Alexa的設備和其他智能揚聲器設備的必備條件。

圖2.支持諸如智能揚聲器之類的設備的前置滾動緩沖的架構(gòu)。
圖2顯示了一種支持針對智能揚聲器等設備的前置滾動緩沖的體系結(jié)構(gòu)。這些設備通常具有更大的電池,并且/或者一次充電可能不需要多個月的電池壽命。VUI系統(tǒng)始終處于打開狀態(tài),可以收聽環(huán)境并在循環(huán)緩沖區(qū)中記錄預滾動。預卷的長度通常約為500毫秒的音頻數(shù)據(jù),用于校準環(huán)境噪聲水平。
有幾種不同的方法可以設計永遠在線的前端體系結(jié)構(gòu)。音頻處理器的選擇取決于所用麥克風的數(shù)量,以及它們是模擬還是數(shù)字。
上面顯示的體系結(jié)構(gòu)使用Knowles IA611進行語音活動檢測,使用SPH0655LM4H-1 Cornell II數(shù)字麥克風進行波束成形,并使用Knowles IA8201進行音頻處理。Knowles IA611是一款智能麥克風,可為系統(tǒng)設計人員帶來好處,如以下部分所述。
麥克風選擇
對于圖1所示的體系結(jié)構(gòu),當檢測到聲音活動時,將單個模擬麥克風和比較器用作觸發(fā)輸入,以喚醒音頻處理器。喚醒麥克風應為低功率模擬麥克風,其信噪比(SNR)最好高于62 dB。Knowles SiSonic MEMS麥克風產(chǎn)品組合為喚醒麥克風提供了多種選擇。例如,SPV1840LR5H-B Kaskade模擬麥克風是一個不錯的選擇,當打開時僅消耗45μA。包括麥克風,放大器和比較器在內(nèi)的始終在線的模擬路徑消耗的電流小于67μA。市場上有一些壓電麥克風,它們的始終接通功率很低(10μA),但是它們通常具有低SNR,這會影響系統(tǒng)性能。
對于圖2所示的具有預卷緩沖功能的體系結(jié)構(gòu),具有嵌入式音頻處理器和足夠內(nèi)存以在2秒的循環(huán)緩沖區(qū)中連續(xù)捕獲語音數(shù)據(jù)的麥克風(例如Knowles IA611)是始終在線語音活動的可行選擇。檢測。它還帶有移植語音觸發(fā)器和命令的生態(tài)系統(tǒng),例如亞馬遜的Alexa。當檢測到關鍵字時,預滾動緩沖區(qū)和發(fā)出的語音音頻都會發(fā)送到云自動語音識別(ASR)引擎。IA611的始終開啟的語音喚醒功率為0.39 mA(電池1.8V,效率為90%),使其成為電池供電設備(如藍牙揚聲器)中語音用戶界面的理想選擇。該設備還接受來自數(shù)字麥克風的PDM輸入,
雖然這種始終接通的功率對于預卷式應用是可以接受的,但對于圖1所示的非預卷式架構(gòu),也值得考慮。如前所述,模擬喚醒麥克風將觸發(fā)任何傳入聲音并打開揚聲器。音頻處理器。在嘈雜的環(huán)境中(例如在電視開機時),這可能會成問題,因為那里會有許多虛假的喚醒,導致功率的大量浪費。如果使用語音活動檢測而不是低功率模擬喚醒麥克風,則系統(tǒng)僅在檢測到關鍵字時才打開。從邏輯上看,為什么在嘈雜的環(huán)境中使用語音活動檢測麥克風可能比簡單的模擬喚醒麥克風更有效。
圖3顯示了模擬數(shù)據(jù),該數(shù)據(jù)比較了使用IA611上的VAD的典型電視遙控器與競爭性的壓電低功率AAD麥克風和音頻處理器在不同聲活動開啟時間下的電池壽命天數(shù)。當電視或其他家用電器打開時,或在其他情況下,如鼓鼓聲等時,可能會出現(xiàn)聲音活動。如圖3所示,在大約3小時處有一個交叉點,因此使用模擬AAD的功率優(yōu)勢競爭對手的麥克風上的IA611上的語音活動檢測消失了。
在聲音活動開啟時間為五個小時的情況下,語音活動檢測解決方案比基于競爭的基于AAD的解決方案多了八天的電池壽命。為了充分發(fā)揮這一優(yōu)勢,根據(jù)尼爾森(Nielsen)在2017年發(fā)布的一項研究,美國成年人每天看電視的時間將近八小時。隨著對聯(lián)網(wǎng)設備(例如智能電視,游戲機和其他多媒體設備)的需求不斷增加,在典型的美國家庭中,聲音活動的小時數(shù)也可能會繼續(xù)增加。使用基于智能VAD的喚醒將幫助系統(tǒng)設計人員開發(fā)更節(jié)能的VUI系統(tǒng)。

圖3. VAD與AAD的遠程控制電池壽命。
結(jié)論
從智能家居,酒店,數(shù)字工作場所,語音支付,智能能源管理,邊緣語音和醫(yī)療保健,一直到改變廠房的工業(yè)物聯(lián)網(wǎng)應用,語音都為新技術(shù)增加了靈活性,效率,可持續(xù)性和采用接受性。
用于語音用戶界面設計的各種硬件體系結(jié)構(gòu)以及麥克風部分,根據(jù)最終設備的應用程序和設計人員的喜好,各自滿足的需求略有不同。例如,支持Alexa的設備和智能揚聲器需要具有預卷緩沖功能的體系結(jié)構(gòu)。
電子工程師和設計師必須仔細評估終端設備將如何利用語音,他們希望訪問的功能,并據(jù)此確定正確的架構(gòu)和麥克風組件,這一點很重要。
Raj Senguttuvan 在面向消費者和工業(yè)應用的新技術(shù)開發(fā),早期業(yè)務開發(fā)以及為Analog Devices和Texas Instruments等公司提供的項目管理方面擁有超過15年的經(jīng)驗。在擔任Knowles戰(zhàn)略營銷總監(jiān)期間,他指導系統(tǒng)級開發(fā),推動風險投資和合作伙伴關系以及IoT和消費者技術(shù)(包括音頻處理器,算法,麥克風,傳感器和接收器)的營銷策略。Raj擁有康奈爾大學(Cornell University)的MBA學位和佐治亞理工學院(Georgia Institute of Technology)的電氣工程博士學位。
編輯“hfy”
-
麥克風
+關注
關注
16文章
688瀏覽量
57350 -
模擬信號
+關注
關注
8文章
1225瀏覽量
54435 -
智能家居
+關注
關注
1942文章
9948瀏覽量
196241 -
語音系統(tǒng)
+關注
關注
1文章
28瀏覽量
13276 -
智能揚聲器
+關注
關注
0文章
32瀏覽量
6484
發(fā)布評論請先 登錄
高性能超低功耗藍牙電子價簽方案 OM6626 NRF52832
AT6811-超低功耗離線智能語音識別 SoC
【新品發(fā)布】超低功耗超小尺寸AW88083數(shù)字功放系列強勢來襲
AT6803是一款超低功耗的離線智能語音識別芯片
智芯科超低功耗離線語音喚醒芯片的應用場景
AT6802-超低功耗離線智能語音識別芯片
超低功耗語音芯片有哪些?
DA16600MOD超低功耗Wi-Fi低功耗藍牙組合模塊數(shù)據(jù)手冊
電機溫度監(jiān)測系統(tǒng)低功耗無線節(jié)點模塊設計
Nordic nRF52840 | Dialog DA14695 等可穿戴平臺超低功耗振蕩器芯片應用方案
超低功耗MCU軟件設計技巧與選型
蜂窩物聯(lián)網(wǎng)的超低功耗特性
DA14531-00000FX2 超低功耗藍牙5.1 SOC芯片介紹
恒玄科技超低功耗藍牙可穿戴平臺BES2700iBP系列概述

超低功耗VAD的語音命令系統(tǒng)的設計方案
評論