谷歌今天詳細介紹了一個名為WaveNetEQ的AI系統(tǒng),該系統(tǒng)最近已部署到該公司的跨平臺語音和視頻聊天應用Duo中。
二重奏組可以現(xiàn)實地合成簡短的語音片段,以替代因互聯(lián)網(wǎng)連接不穩(wěn)定而導致的亂碼。它的速度足夠快,可以在智能手機上運行,??同時提供最先進的,聽起來自然的音頻質量,為將來針對帶寬受限的環(huán)境進行了優(yōu)化的聊天應用程序奠定了基礎。
正如Google解釋的那樣,為了確??煽康膶崟r通信,有必要處理接收方需要時丟失的數(shù)據(jù)包(即,格式化的數(shù)據(jù)單元)。(該公司表示,由于網(wǎng)絡問題,有99%的Duo呼叫需要處理網(wǎng)絡問題,而有10%的呼叫損失的音頻持續(xù)時間超過總音頻持續(xù)時間的8%。)
如果不連續(xù)傳送新音頻,則會出現(xiàn)可聽到的小故障和縫隙。會發(fā)生,但是重復相同的音頻并不理想,因為它會產(chǎn)生偽像并降低總體通話質量。
Google的解決方案WaveNetEQ是所謂的丟包遏制模塊,該模塊負責創(chuàng)建數(shù)據(jù)以填補由丟包,過度抖動和其他事故造成的空白。
在結構上,WaveNetEQ是DeepMind的WaveRNN的修改版本,WaveRNN是一種用于語音合成的機器學習模型,由自回歸和條件調節(jié)網(wǎng)絡組成。
自回歸網(wǎng)絡通過使每個生成的樣本取決于網(wǎng)絡的先前輸出來提供短期和中期語音結構,而調節(jié)網(wǎng)絡會影響自回歸網(wǎng)絡以產(chǎn)生與移動速度較慢的輸入特征一致的音頻。
-
Google
+關注
關注
5文章
1789瀏覽量
59038 -
音頻
+關注
關注
30文章
3042瀏覽量
83447 -
互聯(lián)網(wǎng)
+關注
關注
55文章
11251瀏覽量
106434
發(fā)布評論請先 登錄
大家都在用什么AI軟件?有沒有好用的免費的AI軟件推薦一下?

使用EZ-USB? SUITE構建img文件并決定將示例程序下載到開發(fā)板時,遇到一個名為“Bootloader未運行”的錯誤,怎么解決?
Deepseek海思SD3403邊緣計算AI產(chǎn)品系統(tǒng)
首創(chuàng)開源架構,天璣AI開發(fā)套件讓端側AI模型接入得心應手
Banana Pi 發(fā)布 BPI-AI2N & BPI-AI2N Carrier,助力 AI 計算與嵌入式開發(fā)
《AI Agent 應用與項目實戰(zhàn)》----- 學習如何開發(fā)視頻應用
《AI Agent應用與項目實戰(zhàn)》閱讀體驗--跟著迪哥學Agent
AI助力,機構近一個月扎堆調研半導體行業(yè)
定制本地的ChatFile的AI問答系統(tǒng)

BitEnergy AI公司開發(fā)出一種新AI處理方法
下一代高功能新一代AI加速器(DRP-AI3):10x在高級AI系統(tǒng)高級AI中更快的嵌入處理

評論