chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

針對(duì)設(shè)備上使用的Voice Filter的更新

LiveVideoStack ? 來(lái)源:LiveVideoStack ? 作者:LiveVideoStack ? 2020-12-07 13:48 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

語(yǔ)音輔助技術(shù)使用戶能夠使用語(yǔ)音命令與他們的設(shè)備進(jìn)行交互,并且依靠準(zhǔn)確的語(yǔ)音識(shí)別來(lái)確保對(duì)特定用戶的響應(yīng)。但是在許多實(shí)際的使用案例中,這類技術(shù)的輸入一般由重疊的語(yǔ)音組成,這給許多語(yǔ)音識(shí)別算法帶來(lái)了巨大的挑戰(zhàn)。

2018年,我們推出了VoiceFilter系統(tǒng),該系統(tǒng)利用了谷歌的Voice Match,通過(guò)允許用戶注冊(cè)和登記自己的語(yǔ)音,實(shí)現(xiàn)與輔助技術(shù)的個(gè)性化交互。

雖然VoiceFiltr的方法很成功,并且實(shí)現(xiàn)了比傳統(tǒng)方法更好的信噪比(SDR),但高效的設(shè)備上流媒體語(yǔ)音識(shí)別需要解決模型大小、CPU、內(nèi)存限制和電池使用注意事項(xiàng)和延遲最小化等的限制。

在“Voice Filter-lite方面:針對(duì)面向設(shè)備上語(yǔ)音識(shí)別的流媒體目標(biāo)語(yǔ)音分離”中,我們推出了針對(duì)設(shè)備上使用的Voice Filter的更新,該更新可以通過(guò)利用選定發(fā)言人的注冊(cè)語(yǔ)音來(lái)達(dá)到顯著提高和改善重疊語(yǔ)音的語(yǔ)音識(shí)別。重要的是,該模型可以很容易地與現(xiàn)有的設(shè)備語(yǔ)音識(shí)別應(yīng)用程序集成,允許用戶在極其嘈雜的條件下訪問(wèn)語(yǔ)音輔助功能,即使互聯(lián)網(wǎng)連接不可用。我們的實(shí)驗(yàn)表明,一個(gè)2.2MB的voice filer-lite模型在重疊語(yǔ)音上可以使誤詞率(WER) 改善25.1% 。

改進(jìn)設(shè)備上的語(yǔ)音識(shí)別

雖然最初的VoiceFilter系統(tǒng)非常成功地將目標(biāo)發(fā)言人的語(yǔ)音信號(hào)從其他重疊的信號(hào)源中分離出來(lái),但它的模型大小、計(jì)算成本和延遲,對(duì)于移動(dòng)設(shè)備上的語(yǔ)音識(shí)別是不可行的。

新的Voice Filter-Lite系統(tǒng)經(jīng)過(guò)精心設(shè)計(jì),與設(shè)備上的應(yīng)用程序相適應(yīng)。Voice Filter-Lite不需要處理音頻波形,而是采用與語(yǔ)音識(shí)別模型完全相同的輸入特征功能(stacked log Mel-filterbanks堆疊的對(duì)數(shù)Mel濾波器組) , 并通過(guò)實(shí)時(shí)過(guò)濾掉不屬于目標(biāo)說(shuō)話者的組成部分來(lái)直接增強(qiáng)這些特征。加上對(duì)網(wǎng)絡(luò)拓?fù)涞亩囗?xiàng)優(yōu)化,運(yùn)行時(shí)操作的數(shù)量大大減少。在使用Tensor Flow Lite庫(kù)對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行量化后,模型大小只有2.2MB,適合大多數(shù)設(shè)備上的應(yīng)用程序。

為了訓(xùn)練Voice Filter-Lite模型,將帶噪聲語(yǔ)音的濾波器組與代表目標(biāo)發(fā)言人身份的嵌入向量(i.e.ad-vector d矢量)一起被輸進(jìn)網(wǎng)絡(luò)。該網(wǎng)絡(luò)預(yù)測(cè)了一個(gè)掩碼,將其與輸入逐元素相乘,從而產(chǎn)生增強(qiáng)的過(guò)濾庫(kù)。在訓(xùn)練過(guò)程中,我們定義了一個(gè)損失函數(shù)來(lái)最小化增強(qiáng)濾波器組和干凈語(yǔ)音的濾波器組之間的差異。

Voice Fliter-Lite系統(tǒng)的模型架構(gòu)

Voice Filter-Lite是一種即插即用的模型,它允許實(shí)如果說(shuō)話者沒(méi)有登記他們的聲音,那么實(shí)現(xiàn)它的應(yīng)用程序可以輕松地繞過(guò)它。這也意味著語(yǔ)音識(shí)別模型和Voice Filer-Lite模型可以分別進(jìn)行訓(xùn)練和更新,這在很大程度上降低了部署過(guò)程中的工程復(fù)雜性。

作為即插即用模型,如果發(fā)言人沒(méi)有注冊(cè)他們的聲音,Voice Fliter-Lite可以很輕易地被忽略。

應(yīng)對(duì)過(guò)度抑制的挑戰(zhàn)

當(dāng)使用語(yǔ)音分離模型來(lái)改進(jìn)語(yǔ)音識(shí)別時(shí),可能會(huì)出現(xiàn)兩種類型的錯(cuò)誤:抑制不足,即模型無(wú)法濾除信號(hào)中的噪聲成分;以及過(guò)度抑制,當(dāng)模型不能保留有用的信號(hào)時(shí),導(dǎo)致一些單詞從識(shí)別的文本中丟失。過(guò)度抑制問(wèn)題尤其嚴(yán)重,因?yàn)楝F(xiàn)代語(yǔ)音識(shí)別模型通常已經(jīng)使用大量的增強(qiáng)數(shù)據(jù)(如房間模擬和SpecAugment) 進(jìn)行訓(xùn)練,因此對(duì)抑制不足更有魯棒性。

Voice Filter-Lite通過(guò)兩種新方法解決了過(guò)度抑制的問(wèn)題。首先,它在訓(xùn)練過(guò)程中使用了非對(duì)稱性損失,使得模型對(duì)過(guò)度抑制的容忍度低于抑制不足的。其次,它對(duì)運(yùn)行時(shí)的噪聲類型進(jìn)行預(yù)測(cè),并根據(jù)預(yù)測(cè)結(jié)果自適應(yīng)地調(diào)整抑制強(qiáng)度。

當(dāng)檢測(cè)重疊語(yǔ)音時(shí),Voice Filter-Lite自適應(yīng)地應(yīng)用更強(qiáng)的抑制強(qiáng)度。

通過(guò)這兩種解決方案,Voice Filter-Lite模型在其他場(chǎng)景(如安靜或各種噪聲條件下的單揚(yáng)聲器語(yǔ)音)的流媒體語(yǔ)音識(shí)別方面保持了出色的性能,同時(shí)在重疊語(yǔ)音方面仍然提供了顯著的改進(jìn)。從我們的實(shí)驗(yàn)中,我們觀察到將2.2MB Voice Filter-Lite模型應(yīng)用于附加性重疊語(yǔ)音后,單詞錯(cuò)誤率改善了25.1%。對(duì)于混響重疊語(yǔ)音,模擬遠(yuǎn)場(chǎng)設(shè)備(如智能家庭揚(yáng)聲器)是一項(xiàng)更具挑戰(zhàn)性的任務(wù), 我們還觀察到使用Voice Filter-Lite可以改善14.7%的單詞錯(cuò)誤率。

未來(lái)的工作

雖然Voice-Filter Lite在各種設(shè)備語(yǔ)音應(yīng)用程序中顯示出了巨大的潛力,但我們也在探索其他幾個(gè)方向,以使Voice-Filter Lite更有用。首先,我們目前的模型只用英語(yǔ)語(yǔ)音進(jìn)行訓(xùn)練和評(píng)估。我們很高興能夠采用同樣的技術(shù)來(lái)改進(jìn)更多語(yǔ)言的語(yǔ)音識(shí)別。其次,我們想在訓(xùn)練Voice Filter-Lite的過(guò)程中直接優(yōu)化語(yǔ)音識(shí)別損失,這可能會(huì)進(jìn)一步提高語(yǔ)音識(shí)別,而不僅僅是重疊語(yǔ)音。

感謝

本文所描述的研究代表了谷歌中多個(gè)團(tuán)隊(duì)的共同努力。貢獻(xiàn)者包括Quan Wang, Ignacio Lopez Moreno, Mert Saglam, Kevin Wilson, Alan Chiao, Renjie Liu, Yanzhang He, Wei Li, Jason Pelecanos, Philip Chao, Sinan Akay, John Han, Stephen Wu, Hannah Muckenhirn, Ye Jia, Zelin Wu, Yiteng Huang, Marily Nika, Jaclyn Konzelmann, Nino Tasca, and Alexander Gruenstein.Share on Twitter Share on Facebook在Twitter上的分享,在Facebook上的分享。

責(zé)任編輯:lq

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 流媒體
    +關(guān)注

    關(guān)注

    1

    文章

    200

    瀏覽量

    17150
  • 語(yǔ)音識(shí)別
    +關(guān)注

    關(guān)注

    39

    文章

    1802

    瀏覽量

    115523
  • 應(yīng)用程序
    +關(guān)注

    關(guān)注

    38

    文章

    3342

    瀏覽量

    59900

原文標(biāo)題:使用VoiceFliter-Lite改進(jìn)設(shè)備上的語(yǔ)音識(shí)別

文章出處:【微信號(hào):livevideostack,微信公眾號(hào):LiveVideoStack】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    如何更新 NuMaker IoT 板的 Wi-Fi 模塊固件?

    更新 NuMaker IoT 板的 Wi-Fi 模塊固件
    發(fā)表于 09-04 08:28

    HOLTEK發(fā)布HT68RV036 Voice OTP MCU

    在智能家庭的應(yīng)用場(chǎng)景中,聲音能賦予產(chǎn)品更多價(jià)值。Holtek針對(duì)Voice MCU HT68RV032、033/034/035語(yǔ)音應(yīng)用系列推出更大容量的HT68RV036,最大特點(diǎn)為內(nèi)建32Mbit
    的頭像 發(fā)表于 07-28 18:15 ?925次閱讀

    Android 16更新亮點(diǎn)介紹

    Android 近期在整個(gè)平臺(tái)上推出了一系列更新,包括:發(fā)布 Android 16 并為開(kāi)發(fā)者和用戶提供詳細(xì)信息,推出改進(jìn)外接顯示設(shè)備 Android 桌面體驗(yàn)的開(kāi)發(fā)者預(yù)覽版,為 Google
    的頭像 發(fā)表于 07-05 11:37 ?2859次閱讀

    請(qǐng)問(wèn)刪除“wiced_voice_path.a”并繼續(xù)開(kāi)發(fā) HFP 和 A2DP 功能可以接受嗎?

    在藍(lán)牙產(chǎn)品的軟件開(kāi)發(fā)中,是否可以刪除“wiced_voice_path.a”并繼續(xù)進(jìn)行HFP和A2DP功能的開(kāi)發(fā)? 我們正在開(kāi)發(fā)軟件以使用 CYBT-353027 實(shí)現(xiàn) HFP(AG/HF
    發(fā)表于 06-30 06:43

    工廠設(shè)備更新時(shí)會(huì)遇到哪些問(wèn)題?如何解決?

    2024年,國(guó)務(wù)院印發(fā)了《推動(dòng)大規(guī)模設(shè)備更新和消費(fèi)品以舊換新行動(dòng)方案》,明確提出推動(dòng)工業(yè)設(shè)備更新和技術(shù)改造,以促進(jìn)產(chǎn)業(yè)升級(jí)和經(jīng)濟(jì)高質(zhì)量發(fā)展。其中重點(diǎn)支持智能制造、數(shù)字化轉(zhuǎn)型、綠色生產(chǎn)等
    的頭像 發(fā)表于 06-04 11:09 ?563次閱讀
    工廠<b class='flag-5'>設(shè)備</b><b class='flag-5'>更新</b>時(shí)會(huì)遇到哪些問(wèn)題?如何解決?

    DevEco重大更新快來(lái)體驗(yàn)吧

    2in1設(shè)備,app可以限制窗口大小,避免用戶托動(dòng)窗口時(shí),窗口過(guò)小或過(guò)大,導(dǎo)致界面顯示異常。 AR Engine新增深度估計(jì) AR Engine提供的深度估計(jì)功能通過(guò)算法輸出深度圖數(shù)據(jù)(物體表面離相機(jī)
    發(fā)表于 05-17 20:59

    CY7113的Uart DFU閃爍使用DFU工具更新不起作用怎么解決?

    我在通過(guò) dfu 主機(jī)工具通過(guò) uart、i2c 更新 dfu blinky 程序時(shí)遇到問(wèn)題, 我已經(jīng)完成的配置 1. makefile 修改TRANSPORT_OPT --&gt
    發(fā)表于 05-14 07:13

    FX3作為從屬設(shè)備中是否有針對(duì)每個(gè)GPIF設(shè)置進(jìn)行API調(diào)用?

    我想知道 FX3 作為從屬設(shè)備中是否有針對(duì)每個(gè) GPIF 設(shè)置進(jìn)行 API 調(diào)用? 喜歡使用 API 調(diào)用而不是使用設(shè)計(jì)器。
    發(fā)表于 05-12 08:00

    如何將CCG3的“啟用固件更新”部分設(shè)置為“是”?

    /Common-Errors-while-Programming-CCG3PA-usi... 如果我遇到這種情況,我應(yīng)該將“啟用固件更新”部分設(shè)置為“是”。 但是 CCG3 配置表沒(méi)有“啟用固件更新”部分。 我應(yīng)該如何將 CCG3
    發(fā)表于 05-12 07:52

    和晟儀器助力惠州學(xué)院熱分析儀設(shè)備更新換代

    在追求卓越教育與科研的道路上,教學(xué)設(shè)備的先進(jìn)性至關(guān)重要。近日,惠州學(xué)院與和晟儀器攜手,完成了八臺(tái)設(shè)備更新換代,為學(xué)院的科研與教學(xué)注入了新的活力。和晟儀器助力惠州學(xué)院熱分析儀設(shè)備
    的頭像 發(fā)表于 02-27 09:39 ?593次閱讀
    和晟儀器助力惠州學(xué)院熱分析儀<b class='flag-5'>設(shè)備</b><b class='flag-5'>更新</b>換代

    微軟Copilot Voice升級(jí),積極拓展多語(yǔ)言支持

    近日,據(jù)報(bào)道,微軟近期在人工智能領(lǐng)域取得了新的進(jìn)展,正積極拓展其Copilot Voice的多語(yǔ)言支持功能。這一舉措標(biāo)志著微軟在語(yǔ)音識(shí)別和自然語(yǔ)言處理技術(shù)又邁出了重要一步。 此次Copilot
    的頭像 發(fā)表于 02-06 14:10 ?694次閱讀

    蘋果軟件更新默認(rèn)啟用人工智能

    蘋果公司近期發(fā)布了針對(duì)iPhone、iPad和Mac的最新軟件更新,這一更新舉措標(biāo)志著蘋果在全面推廣其人工智能服務(wù)方面邁出了重要一步。 據(jù)悉,此次更新包括iOS 18.3、iPadOS
    的頭像 發(fā)表于 02-05 14:04 ?639次閱讀

    工業(yè)設(shè)備更新“智改數(shù)轉(zhuǎn)”如何實(shí)現(xiàn)

    工業(yè)和信息化部辦公廳發(fā)布《關(guān)于印發(fā)工業(yè)重點(diǎn)行業(yè)領(lǐng)域設(shè)備更新和技術(shù)改造指南的通知》中指出,將在石化化工行業(yè)、鋼鐵行業(yè)、有色金屬行業(yè)、建材行業(yè)、汽車行業(yè)等27個(gè)工業(yè)重點(diǎn)行業(yè)和工業(yè)軟件領(lǐng)域、工業(yè)網(wǎng)絡(luò)設(shè)備
    的頭像 發(fā)表于 01-23 15:26 ?725次閱讀
    工業(yè)<b class='flag-5'>設(shè)備</b><b class='flag-5'>更新</b>“智改數(shù)轉(zhuǎn)”如何實(shí)現(xiàn)

    ADMV8505: 225 MHz to 520 MHz, Digitally Tunable, Band-Pass Filter Data Sheet adi

    電子發(fā)燒友網(wǎng)為你提供ADI(ADI)ADMV8505: 225 MHz to 520 MHz, Digitally Tunable, Band-Pass Filter Data Sheet相關(guān)產(chǎn)品
    發(fā)表于 01-15 18:54
    ADMV8505: 225 MHz to 520 MHz, Digitally Tunable, Band-Pass <b class='flag-5'>Filter</b> Data Sheet adi

    AirPods如何進(jìn)行固件更新

    AirPods的固件更新通常是通過(guò)與iPhone、iPad或Mac等蘋果設(shè)備連接時(shí)自動(dòng)進(jìn)行的。以下是更新AirPods固件的介紹: 一、準(zhǔn)備工作 確保設(shè)備連接 : 將AirPods放入
    的頭像 發(fā)表于 12-05 14:59 ?2768次閱讀