語音控制技術(shù)讓家中的每一件電器都能說話和傾聽
這是一個場景:你下班或放學回家,你告訴電視你想看什么節(jié)目,它會自動打開并切換到你喜歡的頻道?;蛘?,也許您告訴爐子準備低火和慢火烹飪,以便晚餐在合適的時間以合適的溫度烹飪。今天,家用電器能夠執(zhí)行這些功能。通過語音控制,在工作或?qū)W習了一天的勞累之后,你可以躺在沙發(fā)上放松一下,并向這些乖乖聽從你指揮的電器發(fā)出指令。
復(fù)雜的架構(gòu)和廣泛的連接是物聯(lián)網(wǎng)的標志。越來越多的公司選擇云托管物聯(lián)網(wǎng)系統(tǒng),因為云架構(gòu)安全、快速、方便。通過使用多層加密和身份驗證,系統(tǒng)變得更加安全。一鍵完成自然語言處理等基于AI的模型訓練和部署。物聯(lián)網(wǎng)云通常包括嵌入家用電器中的傳感器,通過 Wi-Fi 連接到互聯(lián)網(wǎng)。用于接收數(shù)據(jù)并將其傳輸?shù)皆茢?shù)據(jù)庫中,以便在云環(huán)境中進行分析和處理。本文以云架構(gòu)為框架,講解語音控制技術(shù)如何讓家電服從口頭指令并做出響應(yīng)。
家電中的語音控制技術(shù)
隨著人工智能和物聯(lián)網(wǎng)的不斷發(fā)展,人機交互(HMI)已經(jīng)出現(xiàn)了更高端的體驗。語音控制技術(shù)是當今應(yīng)用最為廣泛和熱門的研究課題之一。語音控制在家用電器中的應(yīng)用,消除了對熟悉的遙控器的需要,并使電器僅使用口頭命令即可運行,這對大多數(shù)人來說是新的。人工智能、機器學習、語音識別、物聯(lián)網(wǎng)和云計算使語音控制的家用電器成為可能。
Azure 云語音控制和語音識別技術(shù)
語音控制系統(tǒng)包括:
語音識別
自然語言理解
對話管理
自然語言生成
語音合成
語音識別是指信息從語音到文本的轉(zhuǎn)換。Azure平臺的TTS(text-to-speech)是使用微軟現(xiàn)有數(shù)據(jù)訓練的通用語言模型,部署在云端。該模型可用于創(chuàng)建和訓練自定義語言模型。它可以選擇一個特定的詞典,并根據(jù)需要將其添加到訓練數(shù)據(jù)中。
自然語言分析/自然語言處理是機器學習的一部分,設(shè)計模型并進行訓練。
對話管理的任務(wù)包括三個要點:
用戶意圖預(yù)測
根據(jù)對話內(nèi)容進行分析,機器學習模型預(yù)測并確認下一步要做什么。
提供與后端/任務(wù)模型
交互的接口作為應(yīng)用接口,實現(xiàn)與服務(wù)器或模型的請求交互,獲取反饋結(jié)果,生成文本結(jié)果。
為語義分析的結(jié)果提供期望值。
它根據(jù)用戶的問題通過語義解析來響應(yīng)以滿足用戶的期望。
響應(yīng)文本是根據(jù)模型對用戶命令的分析生成的。語音合成技術(shù)的主要作用是將文本轉(zhuǎn)化為人性化的語音。基本的 Azure 云語音合成使用語音 SDK 或 REST 應(yīng)用程序編程接口 (API) 協(xié)議(請參閱下面的詳細信息)來實現(xiàn)具有神經(jīng)或自定義語音的文本到語音。
在家用電器中,對話模型的情感要求較低,因為大多數(shù)用戶命令只是功能性請求,例如打開設(shè)備和請求溫度或濕度。
云語音控制技術(shù)基本解決方案步驟
云語音控制技術(shù)的基本解決方案包括:
對話模式:對話模式是人機語言交互的中心樞紐;所有其他模式都源于此。只要用戶發(fā)出命令,系統(tǒng)就會切換到對話模式。Azure 使用 UWP 應(yīng)用程序平臺開發(fā)了一個接口,用于監(jiān)控是否成功接收到人聲觸發(fā)(例如對平臺說:“嗨,云!”)。
聽寫模式:用戶說出較長的短語或句子,等待語音識別結(jié)果。在說出初始觸發(fā)器“'嗨,云!”之后,用戶可以向機器發(fā)出實際命令。語音內(nèi)容傳輸?shù)秸Z義分析系統(tǒng) (Azure LUIS),實時語音轉(zhuǎn)文本服務(wù)初始化通用語言模型。通過REST API/語音軟件開發(fā)包(SDK)完成操作。
交互模式:當用戶發(fā)出簡短請求并希望應(yīng)用程序做出響應(yīng)時,使用交互模式,由于應(yīng)用程序中嵌入了語音識別和文本到語音轉(zhuǎn)換功能,該過程才有效。在本文的示例中,部署在 Azure 云中的語音控制系統(tǒng)的交互模式使用用戶交互通用 Windows 平臺 (UWB) 應(yīng)用程序發(fā)揮作用。UWP上提供了一個簡單的接口供用戶操作,或者供開發(fā)者測試使用。
通用 Windows 平臺 (UWP)
借助通用 Windows 平臺,相同的 API 可以普遍應(yīng)用于計算機、智能手機或其他 Windows 10 設(shè)備。換句話說,相同的代碼可以在不同的終端上運行,而無需為不同的平臺編寫不同版本的代碼。
認知服務(wù)語音識別 SDK 和 REST API
語音 SDK 軟件允許制造商通過對汽車免提應(yīng)用(例如駕駛艙設(shè)備中的語音識別)使用語音頻帶音頻處理來提高免提應(yīng)用中的語音質(zhì)量。
官方文檔指出:“作為語音 SDK 的替代方法,語音服務(wù)允許使用 REST API 將語音轉(zhuǎn)換為文本。每個可訪問的端點都連接到特定區(qū)域。應(yīng)用程序需要使用的端點的訂閱密鑰. REST API 非常有限,因為它們只能在語音 SDK 不可用的情況下使用?!?/p>
以語音識別為例:在向服務(wù)器發(fā)送 HTTP 請求之前,必須獲取 REST API 的密鑰。認證通過后,服務(wù)器將轉(zhuǎn)換后的音頻返回本地。此圖是在應(yīng)用程序中創(chuàng)建和使用 REST 客戶端然后調(diào)用它的示例(圖 1)。調(diào)用 REST 客戶端時,輸入會轉(zhuǎn)換為 HTTP 請求并發(fā)送到 REST API。來自通信端點的響應(yīng)是 HTTP 響應(yīng)。REST 客戶端將其轉(zhuǎn)換為應(yīng)用程序可以識別的類型并將其返回給應(yīng)用程序。

圖 1:在應(yīng)用程序中創(chuàng)建和使用 REST 客戶端。(來源:gunnarpeipman.com)
我們選擇不公開披露我們應(yīng)用程序的 REST 客戶端的詳細信息,因此可以添加一個用于與外部服務(wù)器通信的適配器。適配器從應(yīng)用程序接收已知類型的參數(shù),適配器將相同的數(shù)據(jù)返回給外部服務(wù)器。
語言理解智能服務(wù)(LUIS)
Azure 的 LUIS 是一種基于云的對話 AI 服務(wù),可以讓機器理解人類語言。操作模式可以概括如下:客戶端通過應(yīng)用程序直接向 LUIS 發(fā)送語音請求。LUIS 中的自然語言處理功能將命令轉(zhuǎn)換為 JSON 格式。分析后,答案也以JSON格式返回。LUIS平臺為用戶提供訓練模型服務(wù)。該模型具有“持續(xù)學習”功能,可以響應(yīng)客戶的要求,通過持續(xù)自動修正來提高準確性。
現(xiàn)在,讓我們以住宅濕度監(jiān)控系統(tǒng)為例了解 LUIS 的工作原理。如果您希望用戶發(fā)出“檢查濕度”命令怎么辦?LUIS 包含自然語言處理的基本組件:
目的(動詞):在這里,“檢查”是動詞。LUIS 模型最多接受 80 個客觀詞。
完整的語言內(nèi)容:這是用戶給出的完整命令。LUIS 模型最多接受 500 個單詞的語音請求。
實體(名詞):在這里,“濕度”是名詞。LUIS 模型最多可以接受 30 個實體名詞。
用戶可以根據(jù)自己的需要自定義 LUIS 特征,這意味著當你的模型不能輕易識別一個或幾個單詞時,它可以自動添加新數(shù)據(jù)進行再訓練。
在 Windows 10 IoT Core 上運行 Raspberry Pi 3
Raspberry Pi 是一塊可以連接不同類型傳感器的開發(fā)板。Raspberry Pi 可以與 Web 服務(wù)器一起使用。這樣的服務(wù)器接收不同的解釋命令并發(fā)送電信號來控制安裝在智能家居中的家電。
語音控制技術(shù)如何應(yīng)用于家電
語音控制讓家居環(huán)境更加智能,帶來家電自動化(圖2)。我們可以這樣定義它:通過使用提供與健康、多媒體、娛樂和能源領(lǐng)域相關(guān)的不同服務(wù)的技術(shù)來改善房主的生活質(zhì)量。
圖 2:語音控制技術(shù)識別音頻命令以操作連接的家用電器。(來源:Andrey Suslov/Shutterstock.com)
示例應(yīng)用程序:具有云服務(wù)的智能濕度監(jiān)測器
下面我們以云架構(gòu)為例,看看家電語音控制技術(shù)如何與智能聲控濕度監(jiān)測器協(xié)同工作。
核心技術(shù)
在 Raspberry Pi 3 上運行通用 Windows 平臺 (UWP) 時,語音識別 API 和傳感器會與用戶交互。在 LUIS 中進行語義分析,Raspberry Pi 3 輸入用戶的問題。答案最終來自認知服務(wù)的語音識別API。
建筑學
云計算已成為數(shù)據(jù)架構(gòu)的首選,以確保數(shù)據(jù)傳輸安全、數(shù)據(jù)處理快速、模型預(yù)測準確。云部署還可以顯著減少設(shè)備操作,提升設(shè)備性能,同時提升用戶體驗,實現(xiàn)雙贏。這里選擇的云架構(gòu)是最近在人工智能和物聯(lián)網(wǎng)領(lǐng)域引起重大發(fā)展和創(chuàng)新的微軟 Azure 云平臺。
職能
數(shù)據(jù)存儲:通過傳感器收集的數(shù)據(jù)存儲在云端。
語音轉(zhuǎn)文本和文本轉(zhuǎn)語音 API 用于識別用戶的問題并使用語音進行回答。
LUIS 語音識別和語義分析可以使用先前訓練的模型預(yù)測對用戶命令的正確響應(yīng)。
家電可以通過Raspberry Pi 3的語音輸入和認知服務(wù)的語音識別來回答用戶的問題。
解決方案
有關(guān)創(chuàng)建此類解決方案的示例,請參閱以下 GitHub 鏈接。
數(shù)據(jù)發(fā)送到云端
使用當今的數(shù)據(jù)架構(gòu)已經(jīng)可以完成從傳感器到云數(shù)據(jù)庫的數(shù)據(jù)傳輸??蛻艨梢灾苯邮褂貌煌愋偷臄?shù)據(jù)庫來滿足不同的需求。
進行語音對話:UWP 應(yīng)用程序
例子:用戶想知道他們家里的濕度是多少,所以他們說,“嘿,云!房間里現(xiàn)在的濕度是多少?” 問題的文本是使用在設(shè)備上的 Raspberry Pi 3 中運行的 UWP 提供的。該應(yīng)用程序?qū)⑴c所有傳感器和執(zhí)行器通信,然后觸發(fā)系統(tǒng)將問題發(fā)送到 LUIS 進行語義分析。
通過連接 LUIS 分析問題
LUIS 用于理解從 Raspberry Pi 3 收到的命令。通過模型訓練,應(yīng)用程序可以識別命令的意圖是檢測室內(nèi)濕度。之后,將 LUIS API 添加到 UWP 應(yīng)用程序中。當用戶說出觸發(fā)命令“嘿,云!”時,所有內(nèi)容都會通過 API 發(fā)送到 LUIS 并進行分析。在 UWP 中調(diào)用 LUIS,它接收輸入并分析意圖。根據(jù)預(yù)測意圖的置信度,向用戶提供正確答案。然后向物聯(lián)網(wǎng)中心發(fā)送命令以從傳感器獲取溫度。
開發(fā)網(wǎng)絡(luò)應(yīng)用程序
可以開發(fā)用于設(shè)備管理的網(wǎng)絡(luò)應(yīng)用程序。該應(yīng)用程序可以顯示物聯(lián)網(wǎng)中心接收到的所有傳感器數(shù)據(jù),使設(shè)備的管理更容易,并實現(xiàn)重啟和固件更新的功能。
人機交互
UWP 應(yīng)用程序和 Web 應(yīng)用程序相互交互,給客戶端一個響應(yīng),Web 應(yīng)用程序負責將命令發(fā)送到指定的傳感器,檢測特定傳感器當前的室內(nèi)濕度,并回答用戶的問題。最后,通過文本轉(zhuǎn)語音 API 向用戶提供當前室內(nèi)濕度。
結(jié)論
物聯(lián)網(wǎng)時代,擁有語音控制和響應(yīng)能力的家電,讓人類實現(xiàn)高品質(zhì)便捷生活的夢想成為可能。家電的語音控制功能是結(jié)合人工智能、機器學習、自然語言處理、物聯(lián)網(wǎng)、云計算、數(shù)據(jù)傳輸和傳感器等技術(shù)設(shè)計的。
語音控制技術(shù)在家電中的應(yīng)用是一個非常具有前瞻性的應(yīng)用。未來的家肯定會是一個充滿可以與用戶交談的智能設(shè)備的地方。希望這項技術(shù)能夠吸引更多的科學家投入到這一研究領(lǐng)域,不斷創(chuàng)新發(fā)展。
審核編輯:湯梓紅
-
wi-fi
+關(guān)注
關(guān)注
15文章
2382瀏覽量
128912 -
語音控制
+關(guān)注
關(guān)注
5文章
510瀏覽量
29563 -
Azure
+關(guān)注
關(guān)注
1文章
129瀏覽量
13621
發(fā)布評論請先 登錄
智能語音識別控制器是什么?圖形中文編程,多路設(shè)備控制
廣州唯創(chuàng)電子WT2003H語音芯片:為人體感應(yīng)提示器注入“會說話的靈魂”
廣州唯創(chuàng)電子WTN6系列語音芯片:四維控制模式重塑智能設(shè)備交互體驗
語音播報芯片:讓產(chǎn)品“開口說話”的秘密
增加語音控制功能關(guān)注這幾顆芯片輕松搞定
哪些離線語音芯片適用于家電設(shè)備
語音控制模塊工作原理

語音控制使設(shè)備能夠說話和傾聽
評論