chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

一款比特率極低的高質(zhì)量語音編解碼器

Tensorflowers ? 來源:TensorFlow ? 作者:TensorFlow ? 2021-03-30 14:03 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

通過語音和視頻通話與他人在線聯(lián)系逐漸成為日常生活的一部分,這得益于 WebRTC 等實(shí)時(shí)通信框架,而后者依靠高效的壓縮技術(shù)和編解碼器,解碼或編碼傳輸和存儲(chǔ)的信號(hào)。數(shù)十年來,編解碼器一直是媒體應(yīng)用的重要組成部分,可使需要占用大量帶寬的應(yīng)用高效傳輸數(shù)據(jù),支持用戶隨時(shí)隨地進(jìn)行高質(zhì)量通信。

因此,在開發(fā)視頻和音頻編解碼器時(shí),一項(xiàng)長期目標(biāo)就是提高信號(hào)質(zhì)量,減少數(shù)據(jù)使用,以及最大程度降低實(shí)時(shí)通信延遲。雖然與音頻相比,視頻貌似會(huì)占用更多帶寬,但現(xiàn)代視頻編解碼器能夠?qū)崿F(xiàn)比較低的比特率,甚至可能低于目前某些高質(zhì)量語音編解碼器所能達(dá)到的值。將低比特率視頻和語音編解碼器相結(jié)合,即使在低帶寬網(wǎng)絡(luò)中也能實(shí)現(xiàn)高質(zhì)量的視頻通話體驗(yàn)。但是根據(jù)過往經(jīng)驗(yàn),音頻編解碼器的比特率越低,語音信號(hào)的清晰度就越差,聲音也越像機(jī)器人。此外,盡管部分人可以訪問穩(wěn)定的高質(zhì)量、高速網(wǎng)絡(luò),但這種網(wǎng)絡(luò)連接水平并不普遍,即便在網(wǎng)絡(luò)良好的地區(qū),有時(shí)也會(huì)遇到質(zhì)量差、帶寬低和網(wǎng)絡(luò)擁堵的情況。

為解決這一問題,我們構(gòu)建了 Lyra。這是一款比特率極低的高質(zhì)量語音編解碼器,即使在最慢的網(wǎng)絡(luò)上也可以實(shí)現(xiàn)語音通信。為此,我們采用傳統(tǒng)編解碼器技術(shù),同時(shí)利用機(jī)器學(xué)習(xí) (ML) 的優(yōu)勢,使用基于數(shù)千小時(shí)數(shù)據(jù)進(jìn)行訓(xùn)練的模型,創(chuàng)造出一種全新的語音信號(hào)壓縮與傳輸方法。

Lyra 概覽

Lyra 編解碼器的基礎(chǔ)架構(gòu)非常簡單。每隔 40 毫秒,該編解碼器都會(huì)從語音中提取特征或獨(dú)特的語音屬性,將其壓縮后傳輸。這些特征本身為對數(shù)梅爾聲譜圖,是一系列代表不同頻段語音能量的數(shù)字,因其根據(jù)人類的聽覺反應(yīng)建模,具有感知相關(guān)性,所以一直以來得以應(yīng)用于相關(guān)領(lǐng)域。在另一端,生成模型使用這些特征重建語音信號(hào)。就這一點(diǎn)來說,Lyra 與其他傳統(tǒng)參數(shù)編解碼器非常相似,如 MELP。

但是,傳統(tǒng)參數(shù)編解碼器只是簡單地從語音中提取關(guān)鍵參數(shù),然后在接收端用參數(shù)重建信號(hào),雖然可以實(shí)現(xiàn)低比特率,但聲音往往聽起來像機(jī)器人一樣,并不自然。這些缺點(diǎn)促使相關(guān)人員開發(fā)新一代高質(zhì)量音頻生成模型,這些模型不僅能夠區(qū)分信號(hào),還可以生成全新的信號(hào),為這一領(lǐng)域帶來了巨大變革。DeepMind WaveNet 為首個(gè)生成模型,為之后的模型鋪平了道路。此外,WaveNetEQ,即目前 Duo 中使用的基于生成模型的丟包隱藏系統(tǒng),就是將此技術(shù)用于真實(shí)場景的成果。

Lyra 壓縮的全新方法

以這些模型為基準(zhǔn),我們開發(fā)了一個(gè)全新的模型,能夠使用少量數(shù)據(jù)重建語音。Lyra 利用這些強(qiáng)大的新型自然語音生成模型,確保將參數(shù)編解碼器的比特率維持在較低水平,同時(shí)實(shí)現(xiàn)較高質(zhì)量,達(dá)到與當(dāng)今大多數(shù)直播和通信平臺(tái)所用頂尖波形編解碼器相當(dāng)?shù)谋憩F(xiàn)。波形編解碼器的缺點(diǎn)在于,要達(dá)到這種高質(zhì)量水平,必需逐一壓縮和發(fā)送信號(hào)樣本,這需要更高的比特率,并且在大多數(shù)情況下,并不是實(shí)現(xiàn)自然語音的必要條件。

生成模型的一個(gè)問題在于其計(jì)算復(fù)雜度。Lyra 使用成本更低的遞歸生成模型,即 WaveRNN 變體,從而避免了這一問題。該模型以較低的比特率運(yùn)行,但可并行生成頻率范圍不同的多個(gè)信號(hào),然后以所需采樣率將其組合為單個(gè)輸出信號(hào)。得益于這一設(shè)計(jì),Lyra 不僅可以在云服務(wù)器上運(yùn)行,還可以在中檔手機(jī)設(shè)備上實(shí)時(shí)運(yùn)行(處理延遲為 90 毫秒,與其他傳統(tǒng)語音編解碼器相當(dāng))。與 WaveNet 類似,此生成模型基于數(shù)千小時(shí)的語音數(shù)據(jù)訓(xùn)練,可準(zhǔn)確重建輸入的音頻。

與現(xiàn)有編解碼器對比

自 Lyra 問世以來,我們一直致力于以遠(yuǎn)低于現(xiàn)有編解碼器的比特率實(shí)現(xiàn)最高的音頻質(zhì)量。目前,免版稅的開源編解碼器 Opus 是 WebRTC 型 VOIP 應(yīng)用中使用最廣泛的編解碼器,在音頻為 32 Kbps 時(shí),通??梢詫?shí)現(xiàn)與原始語音幾無差別的語音質(zhì)量。然而,盡管 Opus 可以在帶寬受限的環(huán)境中運(yùn)行,且比特率最低可達(dá) 6 Kbps,但聲音質(zhì)量會(huì)明顯下降。Speex、MELP、AMR 等其他編解碼器雖然也能夠?qū)崿F(xiàn)與 Lyra 相當(dāng)?shù)谋忍芈?,但聲音皆?huì)失真,聽起來像機(jī)器人一樣。

根據(jù)目前的設(shè)計(jì),Lyra 會(huì)以 3 Kbps 的比特率運(yùn)行。聽音測試表明,Lyra 在該比特率下的性能優(yōu)于其他所有編解碼器,并且與 Opus 在 8 Kbps 比特率下的表現(xiàn)相當(dāng),因此可節(jié)省 60% 以上的帶寬。在帶寬條件不足以滿足較高比特率,且現(xiàn)有低比特率編解碼器無法實(shí)現(xiàn)所需質(zhì)量時(shí),可以使用 Lyra。

確保公平

與所有基于 ML 的系統(tǒng)一樣,必須對模型進(jìn)行訓(xùn)練,確保其滿足所有人的需求。我們利用開源音頻庫對 Lyra 進(jìn)行訓(xùn)練,音頻數(shù)據(jù)長達(dá)數(shù)千個(gè)小時(shí),涵蓋 70 余種語言,然后與專家和眾包聽眾一同驗(yàn)證音頻質(zhì)量。

我們設(shè)計(jì) Lyra 的一個(gè)目標(biāo)在于確保人人都能獲得高質(zhì)量的音頻體驗(yàn)。用于訓(xùn)練 Lyra 的數(shù)據(jù)集范圍廣泛,涵蓋多種語言,可確保編解碼器能夠穩(wěn)健應(yīng)對可能遇到的任何情況。

社會(huì)影響和我們未來的發(fā)展方向

無論從短期還是長期來看,Lyra 等技術(shù)都具有重要而廣泛的影響。有了 Lyra,數(shù)十億新興市場的用戶就能使用高效的低比特率編解碼器,獲得遠(yuǎn)高于以往的音頻質(zhì)量。此外,Lyra 也可用于云環(huán)境,幫助使用不同網(wǎng)絡(luò)和設(shè)備的用戶順暢地聊天。將 Lyra 與 AV1 等全新視頻壓縮技術(shù)相結(jié)合,可為較差網(wǎng)絡(luò)環(huán)境中的視頻聊天提供支持。用戶即使通過調(diào)制解調(diào)器撥號(hào)上網(wǎng),網(wǎng)速只有 56 Kbps,也可以進(jìn)行視頻聊天。

Duo 已使用 ML 來減少音頻中斷,目前正推出 Lyra,以求在連接帶寬極低時(shí),提高語音通話的質(zhì)量和可靠性。我們將繼續(xù)優(yōu)化 Lyra 的性能和質(zhì)量,以盡可能地提高技術(shù)的可用性,同時(shí)還會(huì)開展 GPU 加速和 TPU 加速的相關(guān)研究。我們還將著手研究如何基于這些技術(shù)開發(fā)比特率較低的通用音頻編解碼器,即音樂和其他非語音用例。

原文標(biāo)題:推出 Lyra:用于語音壓縮的新型極低比特率編解碼器

文章出處:【微信公眾號(hào):TensorFlow】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

責(zé)任編輯:haq

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 編碼器
    +關(guān)注

    關(guān)注

    45

    文章

    3929

    瀏覽量

    142005
  • 機(jī)器學(xué)習(xí)

    關(guān)注

    66

    文章

    8546

    瀏覽量

    136534

原文標(biāo)題:推出 Lyra:用于語音壓縮的新型極低比特率編解碼器

文章出處:【微信號(hào):tensorflowers,微信公眾號(hào):Tensorflowers】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    德州儀器PCM2900C/2902C立體聲音頻編解碼器深度解析

    的首選。今天,我們就來深入探討這兩編解碼器的特點(diǎn)、應(yīng)用及設(shè)計(jì)要點(diǎn)。 文件下載: PCM2900CDBR.pdf 產(chǎn)品概述 PCM2900C和PCM2902C是TI推出的單芯片USB立體聲音頻編解碼器
    的頭像 發(fā)表于 01-13 17:45 ?1056次閱讀

    IDT821024:四通道非可編程PCM編解碼器的技術(shù)剖析

    IDT821024:四通道非可編程PCM編解碼器的技術(shù)剖析 在數(shù)字通信領(lǐng)域,PCM編解碼器是實(shí)現(xiàn)模擬信號(hào)與數(shù)字信號(hào)相互轉(zhuǎn)換的關(guān)鍵部件。今天我們要深入探討的IDT821024,就是一款功能強(qiáng)大的四通
    的頭像 發(fā)表于 01-13 17:00 ?426次閱讀

    德州儀器PCM2904/PCM2906立體聲音頻編解碼器:特性、應(yīng)用與設(shè)計(jì)指南

    德州儀器PCM2904/PCM2906立體聲音頻編解碼器:特性、應(yīng)用與設(shè)計(jì)指南 在當(dāng)今數(shù)字化音頻的時(shí)代,高質(zhì)量的音頻編解碼器對于各種音頻設(shè)備至關(guān)重要。德州儀器(Texas Instruments
    的頭像 發(fā)表于 12-23 15:05 ?312次閱讀

    TLV320AIC12KIDBTR 低功耗單聲道語音編解碼器

    TLV320AIC12KIDBTR特征是一款低功耗單聲道語音頻帶編解碼器。它具有1個(gè)16位的ADC(模擬數(shù)字轉(zhuǎn)換)和1個(gè)16位的DAC(數(shù)字模擬轉(zhuǎn)換
    的頭像 發(fā)表于 12-20 11:30 ?255次閱讀
    TLV320AIC12KIDBTR   低功耗單聲道<b class='flag-5'>語音</b>頻<b class='flag-5'>編解碼器</b>

    基于E203 RISC-V的音頻信號(hào)處理系統(tǒng) -CODEC(音頻編解碼器)配置

    CODEC介紹 本設(shè)計(jì)采用的音頻編解碼器是WM8731,該編解碼器可以通過I2C進(jìn)行寄存配置,可以調(diào)節(jié)主從模式、數(shù)據(jù)位數(shù)可設(shè)置為16bit、24bit、32bit??梢栽O(shè)置的傳輸模式為I2S、DSP等模式。 寄存
    發(fā)表于 10-28 06:29

    增強(qiáng)T-BOX設(shè)計(jì),新唐編解碼器的重要作用

    。 T-BOX音頻架構(gòu): T-BOX 音頻架構(gòu)的主要特點(diǎn)包括: 獨(dú)立電源管理系統(tǒng) 雙麥克風(fēng)音頻處理 編解碼器、D類音頻放大器和車載信息娛樂系統(tǒng)(IVI)的分離 新唐科技推出兩專為車規(guī)級(jí)應(yīng)用設(shè)計(jì)的低功耗、高
    發(fā)表于 09-05 06:26

    視耀T1 MINI-4路4K編解碼器丨端到端超低延時(shí)賦能4K超清視界

    富視智通推出的視耀T1 MINI編解碼器一款具備低延時(shí)、高密度集成及全場景兼容性等優(yōu)質(zhì)特性的明星產(chǎn)品。該設(shè)備支持4路獨(dú)立4Kp60 H.265/HEVC編解碼,1路AVC 1080p編解碼
    發(fā)表于 08-28 13:43

    一款低功耗、高質(zhì)量的24位立體聲編解碼器-CJC8972

    24位立體聲編解碼器通過數(shù)字信號(hào)處理實(shí)現(xiàn)高精度音頻編碼與解碼,核心在于對立體聲信號(hào)的數(shù)字化處理及還原。
    的頭像 發(fā)表于 08-07 09:22 ?1148次閱讀
    <b class='flag-5'>一款</b>低功耗、<b class='flag-5'>高質(zhì)量</b>的24位立體聲<b class='flag-5'>編解碼器</b>-CJC8972

    Texas Instruments TAC5x42接口編解碼器數(shù)據(jù)手冊

    Texas Instruments TAC5x42接口編解碼器包括低功耗立體聲音頻模數(shù)轉(zhuǎn)換 (ADC) 和音頻數(shù)模轉(zhuǎn)換 (DAC),集成了豐富的功能。這些支持時(shí)分復(fù)用 (TDM)、左對齊 (LJ
    的頭像 發(fā)表于 07-14 14:43 ?686次閱讀
    Texas Instruments TAC5x42接口<b class='flag-5'>編解碼器</b>數(shù)據(jù)手冊

    Texas Instruments TAC5311-Q1汽車單聲道音頻編解碼器數(shù)據(jù)手冊

    Texas Instruments TAC5311-Q1汽車單聲道音頻編解碼器一款低功耗單聲道編解碼器,具有10V~RMS ~差分輸入、104dB ADC和2V~RMS~ 差分輸出、114dB
    的頭像 發(fā)表于 07-09 15:35 ?848次閱讀
    Texas Instruments TAC5311-Q1汽車單聲道音頻<b class='flag-5'>編解碼器</b>數(shù)據(jù)手冊

    CYW20721內(nèi)置的所有編解碼器類型有哪些?

    您能告訴我們 CYW20721 內(nèi)置的所有編解碼器類型嗎? LDAC、LC3(LE 音頻)、AAC、SBC 等。
    發(fā)表于 06-27 08:03

    AI玩具爆發(fā),音頻編解碼器如何滿足語音交互需求

    電子發(fā)燒友網(wǎng)綜合報(bào)道,在AI玩具已經(jīng)開始逐漸爆發(fā)的當(dāng)下,人機(jī)交互已經(jīng)成為標(biāo)配功能,而最重要的便是語音控制。而語音控制的第步,便需要讓AI玩具聽懂你在說什么這就需要用到音頻編解碼器。
    的頭像 發(fā)表于 06-20 01:07 ?7109次閱讀

    TWL6040 用于便攜式應(yīng)用的 8 通道高質(zhì)量低功耗音頻編解碼器數(shù)據(jù)手冊

    TWL6040 設(shè)備是具有高集成度的音頻編碼/解碼器編解碼器),可為便攜式應(yīng)用程序提供模擬音頻編解碼器功能,如 所示。該設(shè)備包含多個(gè)音頻模擬輸入和輸出,以及麥克風(fēng)偏置和附件檢測。該
    的頭像 發(fā)表于 04-27 17:52 ?929次閱讀
    TWL6040 用于便攜式應(yīng)用的 8 通道<b class='flag-5'>高質(zhì)量</b>低功耗音頻<b class='flag-5'>編解碼器</b>數(shù)據(jù)手冊

    TWL6041 用于便攜式應(yīng)用的 8 通道高質(zhì)量低功耗音頻編解碼器數(shù)據(jù)手冊

    TWL6041 是種具有高集成度的音頻編解碼器,為便攜式應(yīng)用程序提供模擬音頻編解碼器功能,如 所示。該設(shè)備包含多個(gè)音頻模擬輸入和輸出,以及麥克風(fēng)偏置和附件檢測。該設(shè)備通過專有的 PDM 接口連接
    的頭像 發(fā)表于 04-27 14:55 ?927次閱讀
    TWL6041 用于便攜式應(yīng)用的 8 通道<b class='flag-5'>高質(zhì)量</b>低功耗音頻<b class='flag-5'>編解碼器</b>數(shù)據(jù)手冊

    一款專為便攜式數(shù)字音頻應(yīng)用而設(shè)計(jì)的單聲道編解碼器-CJC8911

    Codec芯片 - CJC8911是個(gè)低功率,高質(zhì)量的單聲道編解碼器,設(shè)計(jì)用于便攜式數(shù)字音頻應(yīng)用程序。該設(shè)備集成了完整的接口到個(gè)出線端口的接口。片上數(shù)字信號(hào)處理執(zhí)行圖形均衡器,三維
    的頭像 發(fā)表于 04-22 09:28 ?730次閱讀
    <b class='flag-5'>一款</b>專為便攜式數(shù)字音頻應(yīng)用而設(shè)計(jì)的單聲道<b class='flag-5'>編解碼器</b>-CJC8911