chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

來自語障人士的語音數(shù)據(jù)集合

Tensorflowers ? 來源:TensorFlow ? 作者:TensorFlow ? 2021-10-12 17:09 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

語言障礙癥狀影響著數(shù)百萬人的生活,其產(chǎn)生原因很多,包括神經(jīng)或遺傳疾病、身體缺陷、腦損傷或聽力喪失等,而由此導(dǎo)致的癥狀也各不相同,如口吃、構(gòu)音障礙 (Dysarthria)、失用癥 (Apraxia) 等,這些癥狀對(duì)患者的自我表達(dá)、社會(huì)生活參與,以及使用語音技術(shù),都會(huì)產(chǎn)生不利影響。

自動(dòng)語音識(shí)別 (ASR, Automatic Speech Recognition) 技術(shù)可以通過提升設(shè)備的聽寫和家居自動(dòng)化能力以及溝通能力,來幫助語言障礙人士克服上述問題。然而,盡管隨著深度學(xué)習(xí)系統(tǒng)計(jì)算能力的提升,以及有大型訓(xùn)練數(shù)據(jù)集可供使用,ASR 系統(tǒng)在準(zhǔn)確率方面有所提升,但是對(duì)于許多具有語言障礙的人而言,系統(tǒng)的性能仍有所欠缺,導(dǎo)致許多本應(yīng)受益良多的患者無法有效利用這項(xiàng)技術(shù)。

2019 年,我們推出了 Euphonia 項(xiàng)目,探討如何通過個(gè)性化的識(shí)別語言障礙 ASR 模型,實(shí)現(xiàn)在典型語音上與通用 ASR 模型相同水平的準(zhǔn)確率。今天我們?yōu)榇蠹曳窒韮身?xiàng)在 Interspeech 2021 上發(fā)布的研究成果,這兩項(xiàng)研究目的在于讓更多用戶群體可以利用個(gè)性化 ASR 模型。在“無序語音數(shù)據(jù)集合:從 Euphonia 項(xiàng)目 100 萬條語音中總結(jié)的經(jīng)驗(yàn) (Disordered Speech Data Collection: Lessons Learned at 1 Million Utterances from Project Euphonia)”中,我們介紹了一個(gè)涵蓋范圍廣泛的無序語音數(shù)據(jù)集合,其中包含的語音數(shù)據(jù)超過 100 萬條。在“自動(dòng)識(shí)別無序語音:在短語方面?zhèn)€性化模型較人類表現(xiàn)更佳 (Automatic Speech Recognition of Disordered Speech: Personalized models outperforming human listeners on short phrases) ”中,我們討論了在基于該語料庫生成個(gè)性化 ASR 模型上所開展的工作。與利用典型語音訓(xùn)練的開箱即用的語音模型相比,這種方法可以產(chǎn)生準(zhǔn)確率更高的模型,在特定的語境中,字錯(cuò)誤率 (WER, Word error rate) 可降低高達(dá) 85% 。

Euphonia

https://blog.google/outreach-initiatives/accessibility/impaired-speech-recognition/

無序語音數(shù)據(jù)集合:從 Euphonia 項(xiàng)目 100 萬條語音中總結(jié)的經(jīng)驗(yàn)

https://www.isca-speech.org/archive/interspeech_2021/macdonald21_interspeech.html

自動(dòng)識(shí)別無序語音:在短語方面?zhèn)€性化模型較人類表現(xiàn)更佳

https://www.isca-speech.org/archive/interspeech_2021/green21_interspeech.html

來自語障人士的語音數(shù)據(jù)集合

自 2019 年起,不少語障人士為支持 Euphonia 項(xiàng)目的研究工作提供了語音樣本。他們的嚴(yán)重程度不同,癥狀也不一樣。這項(xiàng)工作將 Euphonia 項(xiàng)目的語料庫擴(kuò)展至超過 100 萬條語音,包括了來自 1330 名說話者的 1400 多小時(shí)語音記錄(截至 2021 年 8 月)。

基于超過 300 條錄制的語音數(shù)據(jù),繪制出的所有說話者的語言障礙嚴(yán)重程度和所患病癥分布圖。在病癥方面,僅顯示患病人數(shù)超過 5 人的病癥,否則統(tǒng)一記入“其他”以滿足 k 匿名性 (k-anonymity)

ALS 代表肌萎縮性脊髓側(cè)索硬化癥;DS 代表唐氏綜合癥;PD 代表帕金森病;CP 代表腦癱;HI 代表聽力障礙;MD 代表肌肉萎縮癥;MS 代表多發(fā)性硬化癥

Euphonia 項(xiàng)目的研究工作

https://sites.research.google/euphonia/about/

為簡化數(shù)據(jù)收集流程,參與者在筆記本電腦或者手機(jī)等個(gè)人硬件上(使用或者不使用頭戴式耳機(jī))通過家用錄音系統(tǒng)收集語音,而不是在類似實(shí)驗(yàn)室這樣的理想環(huán)境中收集錄音棚品質(zhì)的語音。

為降低轉(zhuǎn)錄成本,同時(shí)保持較高的轉(zhuǎn)錄一致性,我們優(yōu)先采取了按照文本朗讀的方式。參與者根據(jù)瀏覽器端錄音工具上顯示的提示語進(jìn)行朗讀。這些提示語涵蓋家居自動(dòng)化(“打開電視。”)、與看護(hù)者對(duì)話(“我餓了?!保┮约胺钦綄?duì)話(“你好嗎?你今天過得愉快嗎?”)等語境。大部分參與者會(huì)朗讀 1500 條提示語,其中包含 1100 個(gè)只出現(xiàn)一次的短語以及 100 個(gè)重復(fù)出現(xiàn) 4 次的短語。

語音專家在傾聽每位說話者部分語音的同時(shí),進(jìn)行了全面的聽覺感知和語音評(píng)估,以便根據(jù)多種為說話者分級(jí)的元數(shù)據(jù),來判定語言障礙類型(例如口吃、構(gòu)音障礙、失用癥等),對(duì)如鼻音過重(Hypernasal speech)、發(fā)音失準(zhǔn)和言語聲律障礙(Dysprosody)等 24 種異常語音特征進(jìn)行評(píng)定,同時(shí)對(duì)技術(shù)問題(例如信號(hào)丟失、分割問題)和聲學(xué)問題(例如環(huán)境噪音、次級(jí)揚(yáng)聲器串?dāng)_)進(jìn)行錄音質(zhì)量評(píng)估。

個(gè)性化 ASR 模型

這個(gè)擴(kuò)展的語音障礙數(shù)據(jù)集也是我們生成無序語音個(gè)性化 ASR 模型新方法的基礎(chǔ)。每個(gè)定制模型都使用標(biāo)準(zhǔn)的端對(duì)端 RNN-傳感器 (RNN-T) ASR 模型,該模型僅對(duì)目標(biāo)說話者的數(shù)據(jù)進(jìn)行微調(diào)。

RNN-傳感器架構(gòu)。在示例中,編碼器網(wǎng)絡(luò)由 8 層組成,而預(yù)測(cè)器網(wǎng)絡(luò)由 2 層單向 LSTM (Long short-term memory) 單元組成

為此,我們重點(diǎn)調(diào)整了編碼器網(wǎng)絡(luò),也就是模型中處理說話者特定聲學(xué)數(shù)據(jù)的部分,因?yàn)檎Z音障礙是我們語料庫中最常見的現(xiàn)象。我們發(fā)現(xiàn),只更新 8 個(gè)編碼器層中最底層的 5 個(gè),而凍結(jié)最上面的 3 個(gè)編碼器層(以及連接層和解碼器層),可以得到最好的結(jié)果,并能夠有效避免過度擬合。為了讓這些模型在處理背景噪聲和其他聲學(xué)效應(yīng)方面更具魯棒性,我們采用了專門針對(duì)無序語音為主要特征進(jìn)行調(diào)整的 SpecAugment 配置。

SpecAugment

https://ai.googleblog.com/2019/04/specaugment-new-data-augmentation.html

結(jié)果

我們訓(xùn)練了約 430 名說話者的個(gè)性化 ASR 模型,他們每人至少錄制了 300 條語音。我們把其中 10% 的語音作為測(cè)試集(訓(xùn)練和測(cè)試間沒有短語重疊),在此基礎(chǔ)上,計(jì)算了個(gè)性化模型以及未調(diào)適的基礎(chǔ)模型的 WER。

總的來說,無論是何種嚴(yán)重程度還是病癥,我們提供的個(gè)性化方法都取得了顯著效果。即便是存在嚴(yán)重語言障礙的語音,家居自動(dòng)化語境短語的 WER 中位數(shù)從 89% 左右降到了 13%。在如與看護(hù)者對(duì)話等其他語境中,準(zhǔn)確率也有顯著提高。

在未調(diào)適與個(gè)性化 ASR 模型中使用居家自動(dòng)化短語的 WER

為了解個(gè)性化模型何時(shí)不適用,我們對(duì)以下幾個(gè)子組進(jìn)行了分析:

HighWER 與 LowWER:將說話者按照具有基于 WER 分布的第 1 和第 5 個(gè)五分位數(shù)的高和低劃分個(gè)性化模型。

SurpHighWER:具有超高 WER 的說話者(在 HighWER 組中典型或具有輕度語言障礙的參與者)。

不同的病癥以及語言障礙表現(xiàn)形式對(duì) ASR 產(chǎn)生的影響是不一致的。根據(jù) HighWER 組中語言障礙類型的分布表明,由于腦癱(Cerebral palsy)引起的構(gòu)音障礙特別難以建模。不出意外,該組中語言障礙嚴(yán)重程度的中位數(shù)也更高。

為了識(shí)別影響 ASR 準(zhǔn)確率的特定說話者以及技術(shù)因素,我們檢查了 ASR 表現(xiàn)較差 (HighWER) 和優(yōu)秀 (LowWER) 的參與者之間元數(shù)據(jù)的差異 (Cohen‘s D)。和預(yù)期一樣,LowWER 組中整體語言受損程度顯著低于HighWER組 (p 《 0.01)。HighWER 組中最突出的非典型語音特征是清晰度以及受損程度,同時(shí)包含其他較為突出的語音特征,如異常的韻律(Prosody )、發(fā)音及發(fā)聲(Phonation)。眾所周知,這些語音特征也會(huì)降低語音的整體清晰度。

與 LowWER 組 (p 《 0.01) 相比,SurpHighWER 組中的訓(xùn)練語音更少,且 SNR 更低,進(jìn)而導(dǎo)致較大(負(fù))的效應(yīng)量,而其他因素的效應(yīng)量則較小(快速性除外)。相比之下,HighWER 組在所有因素中都表現(xiàn)出了較大差異。

語音障礙和技術(shù)元數(shù)據(jù)效應(yīng)量對(duì)比結(jié)果:HighWER 組與 LowWER 組對(duì)比;SurpHighWER 組和 LowWER 組對(duì)比。正值結(jié)果表明 HighWER 組的組值大于 LowWER 組的組值

之后,我們將個(gè)性化 ASR 模型和人類聽眾進(jìn)行了比較。三位語音專家分別為每位說話者轉(zhuǎn)錄了 30 條語音。我們發(fā)現(xiàn),與人類聽眾的 WER 相比,個(gè)性化 ASR 模型的 WER 平均而言更低,并且隨語言受損嚴(yán)重程度的增加而表現(xiàn)的更好。

個(gè)性化 ASR 模型 WER 與人類聽眾 WER 之間的增量。負(fù)值表明個(gè)性化 ASR 模型的表現(xiàn)優(yōu)于人類(專家)聽眾

結(jié)論

Euphonia 語料庫擁有超過 100 萬條語音,是最大、最多樣的無序語音語料庫之一(就無序類型與受損程度而言),這一語料庫大大提升了非典型語音類型中的 ASR 準(zhǔn)確率。我們的研究結(jié)果證明,個(gè)性化 ASR 模型在識(shí)別各種語言障礙以及受損程度方面十分有效,而且具備了讓更多用戶使用 ASR 的潛力。

責(zé)任編輯:haq

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • AI
    AI
    +關(guān)注

    關(guān)注

    88

    文章

    35164

    瀏覽量

    280055
  • 語音識(shí)別
    +關(guān)注

    關(guān)注

    39

    文章

    1782

    瀏覽量

    114249

原文標(biāo)題:個(gè)性化語音識(shí)別模型,幫助語言障礙人士正常交流

文章出處:【微信號(hào):tensorflowers,微信公眾號(hào):Tensorflowers】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    也能預(yù)判?視覺黑科技讓掃地機(jī)器人開啟“先知”模式

    從被動(dòng)避到主動(dòng)預(yù)判,視覺避技術(shù)比預(yù)想的更快實(shí)現(xiàn)。
    的頭像 發(fā)表于 06-18 14:09 ?250次閱讀

    智能語音賦能健康監(jiān)測(cè):NV128H芯片重塑血壓管理新范式

    智能血壓計(jì)語音芯片開發(fā)在人口老齡化加劇和慢性病高發(fā)的雙重壓力下,血壓,作為反映人體健康狀態(tài)的重要指標(biāo)之一,更是需要我們時(shí)刻關(guān)注。傳統(tǒng)血壓測(cè)量設(shè)備存在操作復(fù)雜、讀數(shù)不便等痛點(diǎn),尤其對(duì)老年群體和視人士
    的頭像 發(fā)表于 05-06 11:49 ?283次閱讀
    智能<b class='flag-5'>語音</b>賦能健康監(jiān)測(cè):NV128H芯片重塑血壓管理新范式

    藍(lán)牙語音遙控國產(chǎn)適用芯片HS6621

    長亮,用戶開始錄音同時(shí)將語音數(shù)據(jù)上傳給智能電視或者機(jī)頂盒。而智能電視或者機(jī)頂盒,接收到 HID 編碼后,打開語音識(shí)別軟件,開始識(shí)音并把語音數(shù)據(jù)
    發(fā)表于 04-30 16:21

    大模型時(shí)代的新燃料:大規(guī)模擬真多風(fēng)格語音合成數(shù)據(jù)

    以大模型技術(shù)為核心驅(qū)動(dòng)力的人工智能變革浪潮中,語音交互領(lǐng)域正迎來廣闊的成長空間,應(yīng)用場(chǎng)景持續(xù)拓寬與延伸。 其中,數(shù)據(jù)作為驅(qū)動(dòng)語音大模型進(jìn)化的關(guān)鍵要素,重要性愈發(fā)凸顯。豐富多樣的高質(zhì)量數(shù)據(jù)
    的頭像 發(fā)表于 04-30 16:17 ?273次閱讀

    RDK加持的導(dǎo)盲眼鏡:視人士的“眼睛外掛”

    我國有超1700萬視人士,如何讓他們更安全、自主地出行?別擔(dān)心,智能瞳行來啦!這是一款“自帶外掛”的導(dǎo)航神器,集成了高精度視覺傳感和YOLO算法,實(shí)時(shí)識(shí)別障礙物、行人、交通標(biāo)志,并通過語音播報(bào)精準(zhǔn)
    的頭像 發(fā)表于 03-14 19:43 ?642次閱讀
    RDK加持的導(dǎo)盲眼鏡:視<b class='flag-5'>障</b><b class='flag-5'>人士</b>的“眼睛外掛”

    AN42-基準(zhǔn)電壓源電路集合

    電子發(fā)燒友網(wǎng)站提供《AN42-基準(zhǔn)電壓源電路集合.pdf》資料免費(fèi)下載
    發(fā)表于 01-08 14:33 ?15次下載
    AN42-基準(zhǔn)電壓源電路<b class='flag-5'>集合</b>

    標(biāo)貝數(shù)據(jù)標(biāo)注案例分享:車載語音系統(tǒng)數(shù)據(jù)標(biāo)注

    的作用。一般來說,車載語音識(shí)別系統(tǒng)主要分為前端和后端兩個(gè)部分,本文將針對(duì)前端語音信號(hào)數(shù)據(jù)采集標(biāo)注進(jìn)行實(shí)例講解。
    的頭像 發(fā)表于 12-24 14:24 ?579次閱讀
    標(biāo)貝<b class='flag-5'>數(shù)據(jù)</b>標(biāo)注案例分享:車載<b class='flag-5'>語音</b>系統(tǒng)<b class='flag-5'>數(shù)據(jù)</b>標(biāo)注

    Flash語音芯片相比OTP語音芯片的優(yōu)勢(shì)

    ?。 1?.可重復(fù)擦寫?:Flash語音芯片的最大特點(diǎn)是支持多次編程和擦除,這意味著用戶可以根據(jù)需要隨時(shí)更新語音內(nèi)容,實(shí)現(xiàn)定制化和靈活的語音交互。相比之下,OTP語音芯片只能編程一次,
    的頭像 發(fā)表于 12-16 15:44 ?509次閱讀

    Java集合API的改進(jìn)介紹

    簡介 本文我們將探討不同 jdk 版本中各類的起源,以及新引入的類和接口背后的目的。我們將分析之前版本存在的問題,以及為何需要引入新的類或接口。此外,我們還將介紹集合類和接口中的新特性。文章將逐一
    的頭像 發(fā)表于 11-22 11:12 ?565次閱讀
    Java<b class='flag-5'>集合</b>API的改進(jìn)介紹

    助盲環(huán)境感知裝置設(shè)計(jì)方案

    今天為大家?guī)淼氖?b class='flag-5'>來自創(chuàng)作者X同學(xué)的作品:助盲環(huán)境感知裝置. 這個(gè)裝置主要利用Grove Vision AI V2-Camera module識(shí)別環(huán)境中的物體,并利用XIAO ESP32S3和樹莓派進(jìn)行語音輸出,結(jié)合了物體檢測(cè)和文本轉(zhuǎn)
    的頭像 發(fā)表于 11-05 11:42 ?697次閱讀
    助盲環(huán)境感知裝置設(shè)計(jì)方案

    請(qǐng)問VOLIB語音庫不能用來處理實(shí)時(shí)語音嗎?

    我下載了TI的VOLIB語音庫,移植了里面的VEU語音增強(qiáng)程序,說明文檔說這個(gè)程序里面帶的有降噪功能,數(shù)據(jù)手冊(cè)也是看的云里霧里的,感覺VOLIB是用來處理網(wǎng)絡(luò)中的語音
    發(fā)表于 10-25 08:24

    九芯電子革新健康檢測(cè)!語音播報(bào)血壓計(jì)ic芯片解決方案

    血壓計(jì),可測(cè)量血壓并將讀數(shù)顯示在屏幕上。為了提高老年人和視人士的可用性,現(xiàn)代電子語音血壓計(jì)已經(jīng)開發(fā)出來,可提供當(dāng)前血壓讀數(shù)的聽覺反饋。這是通過集成語音芯片來實(shí)現(xiàn)的,該芯片將測(cè)量結(jié)果發(fā)
    的頭像 發(fā)表于 09-22 08:00 ?525次閱讀
    九芯電子革新健康檢測(cè)!<b class='flag-5'>語音</b>播報(bào)血壓計(jì)ic芯片解決方案

    AN-31放大器電路集合

    電子發(fā)燒友網(wǎng)站提供《AN-31放大器電路集合.pdf》資料免費(fèi)下載
    發(fā)表于 09-21 10:33 ?3次下載
    AN-31放大器電路<b class='flag-5'>集合</b>

    機(jī)器人紅外避

    機(jī)器人紅外避
    發(fā)表于 09-19 12:57 ?0次下載

    輸入文字轉(zhuǎn)化語音

    一、介紹 基于鴻蒙Next模擬一個(gè)輸入用戶文字,轉(zhuǎn)化成語音播報(bào)效果二、場(chǎng)景需求 輔助功能:為視人士提供幫助:將文字內(nèi)容轉(zhuǎn)化為語音,使視覺障礙用戶能夠獲取信息。 教育與學(xué)習(xí):語言學(xué)習(xí):
    發(fā)表于 08-28 10:54