chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

有關設計對語音用戶界面的一些挑戰(zhàn)和最佳做法

星星科技指導員 ? 來源:嵌入式計算設計 ? 作者:Jeff LeBlanc ? 2022-12-02 11:47 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

語音交互是21世紀最具顛覆性的技術之一。每天都有越來越多的設備通過語音用戶界面(VUI)組件進入市場。雖然語音支持設備的許多技術挑戰(zhàn)已經(jīng)得到解決,但讓最終用戶滿意地使用設備的體驗仍然是一個懸而未決的問題。本文介紹了有關設計對用戶有效、自然且引人入勝的 VUI 的一些挑戰(zhàn)和最佳做法,包括設計置信度閾值、適應插入、使用 n 最佳列表,以及如何在實際對話中與用戶交談(而不是在用戶處)。

雖然語音用戶界面(VUI)自1968年以來一直處于公眾心態(tài)的邊緣,當時HAL和Dave Bowman存在分歧,但直到Tony Stark在2008年開始與J.A.R.V.I.S.開玩笑,有用的語音控制“智能家居”的概念才開始成為焦點。

這款大獲成功的Amazon Echo設備于2014年發(fā)布,將最新的語音識別技術與強大的基于云的計算相結合,提供幾乎可與電影中描繪的相媲美的家庭體驗。打開燈或音響系統(tǒng)從未如此簡單。

從那以后,谷歌、蘋果和其他科技公司加入了這場爭斗,并相互絆倒,為您的家庭、工作場所和汽車提供最佳的交互式語音體驗。

這項技術已經(jīng)有很長一段時間了。貝爾實驗室和IBM早在1950年代就致力于語音系統(tǒng)。但是,直到 1990 年代后期,Dragon‘s NaturalSpeak 軟件才獲得了足夠的吸引力,將語音識別帶入了消費者的集體意識。雖然在當時是革命性的,但NaturalPeaks需要最終用戶進行相當多的“培訓”才能達到90%的準確率,這使得語音識別作為一種人機交互形式可行。因此,這項技術并不像它可能的那樣自然。

多年來,開發(fā)人員、設計師和技術人員一直在努力工作,試圖“解決語音問題”。然而,我們在識別準確率方面只增加了5%。

那么,為什么設計更準確、更像人類的語音界面如此困難呢?

在設計VUI時,必須解決兩個關鍵方面。首先是確保界面能夠將聲音識別為人類語音。這被稱為自動語音識別 (ASR),是語音轉文本軟件引擎的核心。ASR 可以在現(xiàn)代消費類硬件上以合理的處理速度執(zhí)行。但是,ASR 通常在云中完成。像Amazon Echo這樣的設備只做足夠的本地處理來找到它們的“喚醒詞”,而其余的工作則由遠程計算資源完成。所以,是的,Alexa正在聽你說的一切。但她只在乎你說她的名字。

語音體驗的第二個也是更困難的方面是確保設備在識別語音后知道如何處理語音。自然語言理解(NLU)結合了包括語言學,認知科學和人工智能在內(nèi)的各種學科,多年來一直挑戰(zhàn)著計算機科學家。盡管一些專家認為ASR是開發(fā)VUI的“困難部分”,但我不同意。多年來,我們一直保持穩(wěn)定在95%左右的準確率 - 可與人與人之間的交流相媲美。是的,即使是人與人之間的交流也不是100%準確的。想想你在和另一個人說話時說多少次“嗯?”或“什么?”。然而,這些對話很容易理解。

作為UX設計師,我們面臨的挑戰(zhàn)是弄清楚如何創(chuàng)建卓越的交互式語音體驗,盡可能接近模仿人與人之間的體驗。

這稱為自然用戶界面或 NUI。讓簡單的命令正常工作很簡單 - 主要是從話語中提取正確的關鍵字。例如,讓您的智能家居正確響應“打開餐廳燈”并不太復雜。它只涉及創(chuàng)建一個界面,該界面可以識別所需的操作(“打開”)以及執(zhí)行該操作的內(nèi)容(“餐廳燈”)。

但仍然存在挑戰(zhàn)。由于我們的語音識別準確度略低于 100%,因此設備可能無法理解你的確切話語。也許語音助手聽到你說“打開餐廳的燈”。雖然人類可以輕松地從餐廳跳到餐廳,但在計算機的二進制世界中并非如此?!坝貌汀辈坏扔凇坝貌汀?,因此您的語音助手無法理解您在問什么。你最終會感到沮喪,在黑暗中進食。

幸運的是,我們可以圍繞這一點進行設計。解決方案在于超越簡單的話語和命令,讓我們的用戶參與對話。

在我們的例子中,智能家居理解你的意圖——你想打開餐廳的燈——但它沒有得到足夠的信息來執(zhí)行任務。因此,我們對VUI進行編程,以執(zhí)行人與人交互中的典型操作:要求澄清。我們的智能家居可以回應“對不起,我沒有完全理解。你想打開什么?

這種互動建立在置信度的概念之上——你的智能家居有多確定它真的理解了你的要求?如果智能家居非常確定它理解你的請求 - 比如說超過75%的準確率 - 它可以執(zhí)行它。如果只是有點確定,設備可以要求澄清。通過利用置信度和參與對話,您可以澄清您的請求,而無需從喚醒詞重新啟動整個命令交互。

N-最佳名單

下一個設計技術建立在這種對話方法的基礎上,試圖根據(jù)先前對話的預期響應來預測你可能會說什么。您的智能家居聽到“用餐”而不是“用餐”并非不合理。甚至是其他聽起來相似的詞,如“潛水”。

通過將這些險些失誤收集到稱為N-best列表中的東西中,您的智能家居可以捕獲可能的可能性?,F(xiàn)在,您家的VUI可以要求您確認列表中的單詞,或者繼續(xù)執(zhí)行該命令。讓你的家回答說:“我想你讓我打開餐廳的燈。是嗎?“表明你的家足夠聰明,(很可能)弄清楚你說了什么,但又足夠禮貌地仔細檢查,以防萬一它不能100%完全理解這個要求。

流程圖

流程圖允許VUI設計人員繪制出在簡單交互中發(fā)現(xiàn)的可能分支。繼續(xù)關于餐廳燈光的對話,為了確保流暢、自然的對話,VUI 設計師必須考慮您可能的反應。您可以用簡單的“是”來回答有關開燈的澄清請求。在這種情況下,智能家居應該打開燈。

但是,如果你聽人與人對話的錄音,它們通常不會那么干涸。如果你回答“是”而不是“是”怎么辦?或者“沒錯”或“讓它這樣”或任何數(shù)量的肯定?如果你的回答是否定的怎么辦?不。不。呃。你的智能房子知道該怎么做嗎?

這種情況正是為什么檢查列表而不是簡單的關鍵字匹配至關重要的原因。這是實現(xiàn)最自然交互的最佳方式。

駁船

人與人交流的另一個值得一提的方面是中斷。有時我們是不禮貌的——我們不會等談話中的對方說完才開始說話。其他時候,打斷是及時推進對話的唯一方法。在這兩種情況下,中斷的能力使對話更加自然。

下面是一個示例。您進入了擋泥板彎曲機并致電您的保險公司提出索賠。在公司的自動電話系統(tǒng)上收聽一長串選項時,只要聽到“按 3 到達理賠部門”,您就會打斷。你急切地點擊“3”鍵,不要費心去聽列表的其余部分。

這種闖入和中斷對話的能力是VUI設計人員需要結合的東西,以便創(chuàng)建類似人類的語音交互。(如果你的服務員正在閱讀沙拉醬清單,而你說“停下,我想要那個,油醋汁”,而他繼續(xù)列出沙拉醬,事情會變得有點尷尬。亞馬遜Echo在支持闖入方面做得很好,讓用戶隨時說“Alexa,取消”。

外賣

設計一個引人注目的、聽起來像人類的語音助手當然是可能的。例如,谷歌的新Duplex電話機器人配備了大多數(shù)人常見的會話抽搐,包括貫穿整個對話的“ahs”和“ums”。有些人甚至對人工智能和人類語音之間的界限變得越來越模糊表示擔憂。

審核編輯:郭婷

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 語音識別
    +關注

    關注

    39

    文章

    1812

    瀏覽量

    116067
  • 語音交互
    +關注

    關注

    3

    文章

    352

    瀏覽量

    29175
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    基于Arm平臺的端到端int8 Conformer模型部署

    在邊緣側運行高質量的語音與音頻模型頗具挑戰(zhàn),需滿足時延、內(nèi)存、功耗和模型大小等多方面的嚴苛約束。不同于云端部署,邊緣側系統(tǒng)通常離線運行,需兼顧用戶隱私與可預測的實時性能。這些落地場景涵
    的頭像 發(fā)表于 02-24 10:23 ?264次閱讀
    基于Arm平臺的端到端int8 Conformer模型部署

    C語言中一些令人震驚的結構介紹

    C語言同意一些令人震驚的結構,下面的結構是合法的嗎,如果是它做些什么? int a = 5, b = 7, c; c = a+++b; 考察點: 這個問題將作為這個測驗的個愉快的結尾
    發(fā)表于 12-23 08:15

    貼片電容精度J±5%的一些詳細知識

    貼片電容精度J±5%表示電容的實際值與標稱值之間的偏差范圍在±5%以內(nèi) ,以下是關于貼片電容精度J±5%的一些詳細知識: 、精度等級含義 J±5% :字母“J”在貼片電容的標識中通常表示標稱精度
    的頭像 發(fā)表于 11-20 14:38 ?663次閱讀
    貼片電容精度J±5%的<b class='flag-5'>一些</b>詳細知識

    瑞薩電子高級語音用戶界面解決方案

    語音用戶界面(VUI)正在徹底改變我們與技術交互的方式,實現(xiàn)免提、無縫的通信。通過整合先進語音命令識別功能,再加上語音反欺騙和說話人識別功能
    的頭像 發(fā)表于 08-27 09:41 ?793次閱讀
    瑞薩電子高級<b class='flag-5'>語音</b><b class='flag-5'>用戶</b><b class='flag-5'>界面</b>解決方案

    分享---簡單快速實現(xiàn)烘烤設備UI界面的方法

    是800x480 編寫簡單腳本,在屏幕上運行一些控制邏輯 注意:HMT070DTA-D直接LUA腳本,一些簡單的控制邏輯,我直接通過屏幕支持lua腳本,讓屏幕自己控制了。 通過SGTools自帶的仿真功能,查看效果
    發(fā)表于 08-26 11:58

    顆TTS語音芯給產(chǎn)品增加智能語音播報能力

    顆TTS語音芯片給產(chǎn)品增加智能語音播報能力 傳統(tǒng)語音播報芯片可以設置一些固定的語音片段或者內(nèi)容
    的頭像 發(fā)表于 08-14 16:33 ?751次閱讀

    語音識別---大家怎么看呢?

    語音識別是門交叉學科。近二十年來,語音識別技術取得顯著進步,開始從實驗室走向市場。人們預計,未來10年內(nèi),語音識別技術將進入工業(yè)、家電、通信、汽車電子、醫(yī)療、家庭服務、消費電子產(chǎn)品等
    發(fā)表于 08-09 10:54

    A-59P 多功能語音處理模組:性能卓越,便捷易用?

    使用普通 USB 設備樣實現(xiàn)語音輸入輸出功能,無需復雜的驅動安裝過程。不僅如此,通過 USB 接口還可方便地對 A-59P 進行固件升級,確保其始終保持最佳性能狀態(tài),為用戶帶來便捷
    發(fā)表于 07-26 10:53

    關于芯片設計的一些基本知識

    芯片的設計理念眾所周知,芯片擁有極為復雜的結構。以英偉達的B200芯片為例,在巴掌大的面積上,塞入了2080億個晶體管。里面的布局,堪稱個異次元空間級的迷宮。英偉達B200芯片如此復雜的架構
    的頭像 發(fā)表于 06-11 12:16 ?1248次閱讀
    關于芯片設計的<b class='flag-5'>一些</b>基本知識

    微小泄漏零容忍:結束線連接器氣密性檢測的挑戰(zhàn)與對策

    我們在使用結束線連接器氣密檢測的時候會遇到很多問題,那在氣密檢測中遇到這些挑戰(zhàn),我們該如何去解決呢,下面是一些挑戰(zhàn)和解決對策:
    的頭像 發(fā)表于 06-04 14:17 ?513次閱讀
    微小泄漏零容忍:結束線連接器氣密性檢測的<b class='flag-5'>挑戰(zhàn)</b>與對策

    使用基于GaN的OBC應對電動汽車EMI傳導發(fā)射挑戰(zhàn)

    本期,為大家?guī)淼氖恰妒褂没?GaN 的 OBC 應對電動汽車 EMI 傳導發(fā)射挑戰(zhàn)》,將深入回顧 CISPR 32 對 OBC 的 EMI 要求,同時詳細探討可靠數(shù)據(jù)測量的最佳做法、GaN 對 EMI 頻譜的影響,以及解決傳
    的頭像 發(fā)表于 05-24 15:46 ?4590次閱讀
    使用基于GaN的OBC應對電動汽車EMI傳導發(fā)射<b class='flag-5'>挑戰(zhàn)</b>

    Debian和Ubuntu哪個好一些

    兼容性對比Debian和Ubuntu哪個好一些,并為您揭示如何通過RAKsmart服務器釋放Linux系統(tǒng)的最大潛能。
    的頭像 發(fā)表于 05-07 10:58 ?1162次閱讀

    如何添加一些網(wǎng)絡上的庫到mpy固件的說明或手冊教程?

    于如何添加一些網(wǎng)絡上的庫到mpy固件的說明或手冊教程? 問題2: 關于mpy的image庫在哪里能了解學習內(nèi)部代碼,只了解一些python,想知道怎么從c轉換成mpy能調(diào)用的,自己寫的c也能轉成py調(diào)用
    發(fā)表于 04-29 08:16

    明遠智睿SSD2351核心板在語音對講與HMI領域的創(chuàng)新應用

    提升了用戶與設備之間的交互效率。 在一些高端智能設備的HMI設計中,還會涉及到3D圖形渲染、動畫效果展示等功能。SSD2351核心板支持浮點運算的特性,使其在處理這些復雜圖形運算時表現(xiàn)出色。例如在智能車載中
    發(fā)表于 04-16 10:46

    樹莓派在自動化控制項目中的一些潛在應用

    自動化控制項目中的一些潛在應用。之前,我們已經(jīng)為Arduino平臺探討了相同的話題。我們確定Arduino是個出色的教育工具,但由于一些限制,它無法在工業(yè)環(huán)境中完全
    的頭像 發(fā)表于 03-25 09:45 ?626次閱讀
    樹莓派在自動化控制項目中的<b class='flag-5'>一些</b>潛在應用