在過去十年,視頻通話和語音設(shè)備的參與度大幅增加,主要是通過大流行造成的在家工作趨勢(shì)。但是,我們對(duì)視頻通話的使用不僅限于工作 Zoom 會(huì)議。我們現(xiàn)在正在使用視頻通話進(jìn)行教學(xué)、鍛煉課程、體驗(yàn)現(xiàn)場音樂、作為在會(huì)議上進(jìn)行互動(dòng)的工具等等。這種虛擬參與通過筆記本電腦、智能手機(jī)、平板電腦、家庭助理和其他物聯(lián)網(wǎng)設(shè)備(如 Amazon Echo Show、Facebook Portal、Peloton、Tempo Studio 等)進(jìn)行。
限制令人愉快和引人入勝的交互式音頻、視頻通話或家庭助理體驗(yàn)的一個(gè)因素是在存在噪音和其他干擾物的情況下保持一致的音質(zhì)。設(shè)備智能管理聲音的能力決定了您的溝通能力。?
提高音頻和語音的復(fù)雜性需要新技術(shù)
被產(chǎn)品制造商稱為“智能聲音”的音頻智能是設(shè)備處理聲音以提供最佳用戶體驗(yàn)的能力。隨著用于通信、娛樂和健康管理的語音優(yōu)先設(shè)備的增加,對(duì)具有更多功能的無縫、低障礙體驗(yàn)的需求也在增加。
用戶現(xiàn)在希望設(shè)備能夠理解的不僅僅是簡單的喚醒或關(guān)鍵字(例如 Alexa),并尋求能夠以卓越的音質(zhì)在設(shè)備和應(yīng)用程序之間移動(dòng),以實(shí)現(xiàn)身臨其境的無縫體驗(yàn),無論是用于專業(yè)會(huì)議還是個(gè)人娛樂。設(shè)備應(yīng)該能夠?qū)⒛恼Z音和/或語音命令與您的個(gè)人偏好和環(huán)境數(shù)據(jù)相結(jié)合,以使聲音處理適應(yīng)您的特定環(huán)境。這被稱為情境意識(shí)。
情境意識(shí)解釋
上下文感知設(shè)備結(jié)合用戶特定信息,例如位置、偏好和環(huán)境傳感器數(shù)據(jù),以更好地了解用戶的要求并更準(zhǔn)確地執(zhí)行功能以響應(yīng)特定命令或觸發(fā)器。
常聽設(shè)備使用信號(hào)處理技術(shù)結(jié)合?機(jī)器學(xué)習(xí)?(ML) 來區(qū)分聲音類型,例如自然聲音、聲音、背景干擾等。這些聲音通常分為“場景”和“事件”。場景是用戶設(shè)置,例如嘈雜的機(jī)場航站樓或安靜的工作空間,而事件包括有人說話、玻璃破碎或狗吠。情境感知設(shè)備可以處理這些聲音組,以確保行動(dòng)的意圖,無論是視頻通話還是語音命令,以獲得最佳體驗(yàn)。
?

上下文感知系統(tǒng)示意圖(圖片:Knowles Corp.)
為什么要使用專用音頻邊緣處理器?
具有 ML 優(yōu)化內(nèi)核和專注于音頻保真度的專用音頻邊緣處理器是支持上下文感知和高質(zhì)量音頻通信設(shè)備的關(guān)鍵。這些處理器可以提供足夠的計(jì)算能力來使用傳統(tǒng)和 ML 算法處理音頻,同時(shí)使用通用數(shù)字信號(hào)處理 (DSP) 實(shí)現(xiàn)的一小部分能量。
雖然云可能提供一些巨大的好處,但邊緣處理允許用戶隨時(shí)利用其設(shè)備的全部功能,而無需高帶寬的互聯(lián)網(wǎng)連接。例如,邊緣音頻處理器通過對(duì)具有上下文數(shù)據(jù)的音頻進(jìn)行低延遲處理,同時(shí)保持上下文數(shù)據(jù)的本地和安全,從而在虛擬通信中實(shí)現(xiàn)卓越的用戶體驗(yàn)。
了解專業(yè)的音頻邊緣處理器
音頻邊緣處理器必須具備多項(xiàng)功能才能提供卓越的音頻和語音命令體驗(yàn)。
噪音和距離
波束成形,使用信號(hào)處理算法,將聲音集中或引導(dǎo)到特定方向,以提高音質(zhì),而噪聲抑制使日常場景中的對(duì)話成為可能。聽音設(shè)備確定語音和噪聲源的方向。ML 分類技術(shù)用于確定哪些波束中有語音或噪聲。
然后,DSP 將注意力集中在具有語音內(nèi)容的波束上,僅用于進(jìn)一步的語音 UI 處理。例如,在會(huì)議系統(tǒng)中,設(shè)備必須識(shí)別聲音的方向,并且必須始終以 360 度的方式跟蹤多個(gè)揚(yáng)聲器。噪聲源還可以分類用于音頻事件檢測,如玻璃破碎、火災(zāi)警報(bào)等,進(jìn)一步將其作用擴(kuò)展到音頻感知智能家居系統(tǒng)。
接近檢測對(duì)于動(dòng)態(tài)的聽力和口語體驗(yàn)也是必不可少的。該設(shè)備檢測用戶靠近麥克風(fēng)并調(diào)整麥克風(fēng)的增益。此功能支持用于演示、鍛煉和學(xué)習(xí)環(huán)境的活動(dòng)視頻會(huì)議。這些功能是高級(jí)視頻會(huì)議設(shè)備設(shè)計(jì)的核心,例如亞馬遜的新 Echo Show,它的屏幕隨著用戶的移動(dòng)而旋轉(zhuǎn),因此屏幕始終面向用戶。
潛伏
在我們開始互相交談之前,人類?通??梢匀萑?長達(dá) 200 毫秒的端到端延遲。因此,邊緣處理器中的低延遲處理是確保高質(zhì)量語音通信的關(guān)鍵要求。
能量消耗
采用專有架構(gòu)、硬件加速器和特殊指令集設(shè)計(jì)的音頻邊緣處理器可以優(yōu)化運(yùn)行音頻和機(jī)器學(xué)習(xí)算法。這些優(yōu)化有助于降低音頻密集型用例(如視頻會(huì)議)的功耗。
一體化
開放其架構(gòu)和開發(fā)環(huán)境的音頻邊緣處理器通過為音頻應(yīng)用程序開發(fā)人員提供創(chuàng)建新設(shè)備和應(yīng)用程序的工具和支持來加速創(chuàng)新。未來的音頻設(shè)備將是協(xié)作的成果。
安全
邊緣處理可以最大限度地減少對(duì)云連接的需求,并提供許多好處,包括提高數(shù)據(jù)安全性。例如,大多數(shù)消費(fèi)者對(duì)來自個(gè)人智能家居設(shè)備的數(shù)據(jù)不斷傳輸?shù)皆贫诉M(jìn)行處理感到不舒服。?過去幾年領(lǐng)先設(shè)備制造商的幾起重大違規(guī)事件已證明這些擔(dān)憂是真實(shí)?的。
在設(shè)備上處理個(gè)人數(shù)據(jù)以進(jìn)行分析或推理時(shí),可以讓您高枕無憂。一個(gè)很好的例子是智能家居安全設(shè)備,它經(jīng)過訓(xùn)練可以聽到某些事件的聲音,例如玻璃破碎,作為提醒房主的觸發(fā)器。由于聲音和警報(bào)的處理發(fā)生在邊緣處理器上,它不需要持續(xù)連接到云端,從而增強(qiáng)了系統(tǒng)的安全性。
結(jié)論
專用的音頻邊緣處理器將定義下一代音頻和語音設(shè)備,創(chuàng)造更多的情境感知、身臨其境和無縫的音頻通信體驗(yàn)。它們能夠?qū)崿F(xiàn)低功耗和低延遲語音通信的高效處理、降噪、上下文感知和傳感器輸入的加速 ML 推理,這為人機(jī)界面新用戶體驗(yàn)的爆炸式增長提供了可能性。
關(guān)于作者:
Raj Senguttuvan 是一位具有電氣工程背景的成功創(chuàng)新和商業(yè)領(lǐng)袖。Raj 在消費(fèi)和工業(yè)應(yīng)用的新技術(shù)開發(fā)、早期業(yè)務(wù)開發(fā)以及多家半導(dǎo)體公司的項(xiàng)目管理方面擁有超過 15 年的經(jīng)驗(yàn)。
作為 Knowles 戰(zhàn)略營銷總監(jiān),Raj 負(fù)責(zé)指導(dǎo)音頻解決方案戰(zhàn)略、推動(dòng)風(fēng)險(xiǎn)投資和合作伙伴關(guān)系以及物聯(lián)網(wǎng)和消費(fèi)技術(shù)(包括音頻處理器、算法、麥克風(fēng)、傳感器和接收器)的營銷。
Raj 擁有康奈爾大學(xué)的 MBA 學(xué)位和佐治亞理工學(xué)院的電氣工程博士學(xué)位。
Vikram Shrivastava 在半導(dǎo)體和技術(shù)行業(yè)的產(chǎn)品營銷、戰(zhàn)略和管理方面擁有近 30 年的經(jīng)驗(yàn)。Vikram 在電氣工程方面的教育背景,特別是在控制系統(tǒng)和硅設(shè)計(jì)方面,使他能夠理解、執(zhí)行和傳達(dá)適合工程師、開發(fā)人員和 OEM 的技術(shù)需求的營銷策略。
Vikram 目前擔(dān)任 Knowles 物聯(lián)網(wǎng)營銷高級(jí)總監(jiān)一職,他開發(fā)戰(zhàn)略和產(chǎn)品,以使物聯(lián)網(wǎng)平臺(tái)具有智能語音功能。
Vikram 擁有加州大學(xué)伯克利分校哈斯商學(xué)院的 MBA 學(xué)位。
審核編輯 黃昊宇
電子發(fā)燒友App


























































評(píng)論