加州大學(xué)伯克利分校的研究人員已經(jīng)開發(fā)出一種能夠檢測“無聲語音”的AI模型。該模型基于數(shù)字語音預(yù)測單詞并生成合成語音。肌電圖(EMG)的電極位于臉部和喉嚨,用于檢測無聲語音。
研究人員斷言,該模型可以為無法發(fā)出可聽語音的人們啟用許多應(yīng)用程序,并可以幫助AI工具和其他響應(yīng)語音命令的設(shè)備進(jìn)行語音檢測。
該小組指出,以數(shù)字方式為無聲語音發(fā)聲具有廣泛的應(yīng)用。例如,它可以生成類似于藍(lán)牙耳機(jī)的工具,該工具可以使個人繼續(xù)通話,而不會打擾周圍的人。當(dāng)環(huán)境聲音太大而無法捕獲可聽見的語音或必須保持安靜時,這種設(shè)備將非常有用。
口頭閱讀AI是可以從靜音語音中捕獲單詞的AI的另一個示例。它可以為監(jiān)視設(shè)備供電,并支持聾人的用例。
研究人員使用了一種方法,其中將所需語句的音頻輸出目標(biāo)從發(fā)聲錄音轉(zhuǎn)換為無聲錄音。然后,使用WaveNet解碼器生成音頻語音預(yù)測。
通過比較發(fā)聲的EMG數(shù)據(jù)和基線訓(xùn)練的數(shù)據(jù),發(fā)現(xiàn)發(fā)聲的EMG方法在從書中轉(zhuǎn)錄句子時,單詞錯誤率降低了64%至4%,而基線降低了95%。研究人員開源了約20小時的面部EMG數(shù)據(jù)集,以鼓勵對該領(lǐng)域進(jìn)行進(jìn)一步研究。
在其他工作中,中國的研究人員建立了諷刺檢測模型,該模型在多模式Twitter數(shù)據(jù)集上提供SOTA性能。Masakhane開放源代碼非洲語言翻譯項目的成員已發(fā)布了 有關(guān)低資源機(jī)器翻譯的 案例研究。
責(zé)任編輯:lq
-
解碼器
+關(guān)注
關(guān)注
9文章
1176瀏覽量
41991 -
藍(lán)牙耳機(jī)
+關(guān)注
關(guān)注
20文章
5675瀏覽量
61759 -
AI
+關(guān)注
關(guān)注
88文章
35164瀏覽量
279998
發(fā)布評論請先 登錄
無刷直流電機(jī)雙閉環(huán)串級控制系統(tǒng)仿真研究
最新人工智能硬件培訓(xùn)AI基礎(chǔ)入門學(xué)習(xí)課程參考2025版(離線AI語音視覺識別篇)
芯知識|語音芯片“無聲之謎”:當(dāng)DACL波形正常,功放開啟卻無聲音時……

研究人員開發(fā)出基于NVIDIA技術(shù)的AI模型用于檢測瘧疾
首創(chuàng)開源架構(gòu),天璣AI開發(fā)套件讓端側(cè)AI模型接入得心應(yīng)手
《AI Agent 應(yīng)用與項目實戰(zhàn)》----- 學(xué)習(xí)如何開發(fā)視頻應(yīng)用
NVIDIA助力初創(chuàng)公司BioTuring發(fā)布新型AI模型
Qwen大模型助力開發(fā)低成本AI推理方案
一種高靈敏的化學(xué)檢測系統(tǒng)

AI模型部署邊緣設(shè)備的奇妙之旅:目標(biāo)檢測模型
研究人員利用激光束開創(chuàng)量子計算新局面

評論