本文介紹了壓擴(kuò)主題——跨電話系統(tǒng)的人類語音的數(shù)字化、傳輸和轉(zhuǎn)換。
簡要背景
電話系統(tǒng)自發(fā)明以來一直處于高需求狀態(tài),并且已經(jīng)從公共交換電話網(wǎng)絡(luò) (PSTN) 發(fā)展為現(xiàn)代無線數(shù)字移動系統(tǒng)。基于模數(shù)轉(zhuǎn)換的脈沖編碼調(diào)制 (PCM) 系統(tǒng)已經(jīng)使用了六年。應(yīng)該注意的是,無論使用哪種編碼,所有電話系統(tǒng)都是通過利用人類語音和聽覺機(jī)制背后的基本事實(shí)來工作的。
人類言語和聽覺機(jī)制
語音是人類之間的自然交流機(jī)制。單詞由不同的音素、幅度不同的單個(gè)聲音組成,安靜的音素比響亮的音素出現(xiàn)的頻率更高。一般來說,人類產(chǎn)生的語音信號的頻率范圍為 70Hz~400Hz,而人類聽覺的頻率范圍為20Hz~20kHz。我們的聽力具有選擇性,對300 Hz 至 10 kHz范圍內(nèi)產(chǎn)生的聲音提供最高靈敏度。
這些以實(shí)驗(yàn)為依據(jù)的事實(shí)得出的結(jié)論是,當(dāng)在 0.3 到 3.4 kHz 范圍內(nèi)記錄語音信號時(shí),聽者很容易理解說話者所傳達(dá)的信息。
圖 1. “語音香蕉”顯示了音素及其在識別所需的各種幅度下的頻率。圖片由Clear Value Hearing提供。
當(dāng)聽力能力以分貝等級表示時(shí),它的范圍從 0 dB SPL(聽力閾值)到 130 dB SPL(疼痛閾值)。
較低幅度和較高幅度之間的 比率很大。在一般意義上,較低幅度的聲音被認(rèn)為是耳語,而較高幅度的聲音被認(rèn)為是喊叫。然而,即使是正常的會話語音也有相當(dāng)大的幅度變化,因?yàn)樗怯刹煌囊羲亟M成的。此外,可以看出,更安靜的音素比響亮的音素?cái)y帶更多的信息并且具有更多的熵。
無壓擴(kuò)的基于 PCM 的電話系統(tǒng)
電話系統(tǒng)最初是作為模擬系統(tǒng)出現(xiàn)的,現(xiàn)在已經(jīng)變成了數(shù)字系統(tǒng)。因此,無論我們說什么都需要數(shù)字化然后傳輸——因此實(shí)際的模擬語音信號需要在接收端進(jìn)行恢復(fù)。任何模擬信號到其數(shù)字形式的轉(zhuǎn)換都包括三個(gè)重要階段:采樣、量化和編碼。
語音信號的采樣
采樣是一個(gè)過程,通過該過程,我們可以將在所有時(shí)刻定義的原始信號轉(zhuǎn)換為僅在特定時(shí)刻定義的離散信號。
我們?nèi)绾螞Q定在哪些點(diǎn)定義信號?
我們首先考慮一個(gè)基本但非常重要的事實(shí),即我們不僅對從發(fā)送方傳輸信號感興趣,而且對在接收方恢復(fù)信號感興趣。
與該過程相關(guān)的定理是著名的奈奎斯特定理,該定理指出,只有在至少以其中包含的最高頻率兩倍的速率對其進(jìn)行采樣時(shí),才能忠實(shí)地恢復(fù)傳輸信號。
因此,如果最高頻率是f,那么我們需要對信號進(jìn)行采樣的頻率應(yīng)該大于或等于 2 f。反過來,這意味著我們需要在距離小于或等于 1/2 f的時(shí)刻定義我們的信號 (由于頻率和時(shí)間彼此成反比)。
從上一節(jié)的討論中,我們知道我們對電話交談的興趣跨越了 0.3 到 3.4 kHz 的頻率范圍。并且任何成功的信號傳輸都需要存在保護(hù)頻帶,因此整個(gè)范圍變?yōu)? 到 4 kHz。因此,在我們的例子中,8 kHz (= 2 x 4 KHz) 的采樣率是一個(gè)不錯(cuò)的選擇。
這表明,在采樣之后,我們的語音信號沿時(shí)間軸離散化,其中相鄰樣本之間的間距將為 18KHz=125微秒18KHz=125微秒。
語音信號的量化與編碼
請注意,采樣僅對時(shí)間軸上的信號進(jìn)行數(shù)字化(參見圖 2 所示的典型示例,其中紅色正弦信號通過采樣轉(zhuǎn)換為藍(lán)色離散值信號)。然而,為了使語音信號在本質(zhì)上完全數(shù)字化,我們需要沿其幅度軸對其進(jìn)行離散化,這被視為量化。
圖 2.正弦波采樣
現(xiàn)在,我們的下一個(gè)問題將與采樣的情況非常相似——我們?nèi)绾螞Q定何時(shí)沿其幅度軸定義我們的信號?換句話說,我們定義信號幅度的點(diǎn)之間的間距應(yīng)該是多少(這在技術(shù)上稱為步長)?
即使在這種情況下,我們也需要選擇步長,記住我們需要在接收端有最小的失真信號。這么想,讓我們假設(shè)我們選擇一個(gè)非常小的步長來量化低幅度信號(正弦波在值 +1 和 -1 之間變化,在圖 3a 中以粉紅色顯示)。較小的步長意味著我們將沿其幅度軸以非常接近的間隔定義我們的信號(圖 3a),因此定義我們的信號所需的步數(shù)將非常大,這需要大量的比特來對其進(jìn)行編碼,這需要很大的帶寬。
圖 3. (a) 小步長 (b) 大步長的低幅度正弦波量化
考慮到帶寬,讓我們假設(shè)我們使用太少的步驟來定義我們的信號。較少的步數(shù)意味著我們沿其幅度軸定義信號的點(diǎn)之間的間距較大。這使我們能夠非常粗略地定義我們的信號(圖 3b),當(dāng)我們在接收端重構(gòu)信號時(shí),這會導(dǎo)致問題,因?yàn)樵诹炕^程中會丟失很多存在的信息。
接下來,我們分析在大振幅信號的情況下改變步長的影響。這在目前的情況下很重要,因?yàn)槲覀儚年P(guān)于人類言語和聽力機(jī)制部分的討論中知道,我們感興趣的信號(言語)包含廣泛的幅度。
圖 4 使用與圖 3 相同的步長來檢查量化的效果,當(dāng)幅度增加四倍時(shí)(圖 4 中的原始正弦波的峰峰值幅度在 +4 到 -4 之間變化)。在這里,圖 4a 再次強(qiáng)調(diào)了這樣一個(gè)事實(shí),即當(dāng)我們需要復(fù)制原始信號時(shí),較小的步長總是更好。
圖 4. (a) 小步長 (b) 大步長的大振幅正弦波量化
另一個(gè)需要注意的重點(diǎn)是,圖 4b 中的量化信號不像圖 3b 中所示的量化信號那樣失真。也就是說,當(dāng)信號幅度較高時(shí),使用大步長的量化仍然會產(chǎn)生可接受的結(jié)果。這意味著當(dāng)涉及到大幅度信號時(shí),被證明對于低幅度信號“非常大”的步長并不是“那么大”。換句話說,可以說信號的幅度越高,量化它的步長就越大,而不會產(chǎn)生太大的失真。
壓擴(kuò):簡介
每個(gè)研究人員都相信,任何系統(tǒng),無論多么好,都可以以某種方式進(jìn)行改進(jìn)。然而,為了找出最有效(或更好)的方法,必須仔細(xì)審查目前采用的概念和方法,并且必須從不同的角度進(jìn)行審查。
為了在我們的案例中實(shí)現(xiàn)這一點(diǎn),讓我們回顧文章的路徑,同時(shí)思考兩個(gè)重要點(diǎn)。
首先,請回想一下,就其中包含的信息而言,人類語言不是各向同性的。語音中較安靜的音素比大聲的音素出現(xiàn)得更頻繁并且包含更多的信息。其次,請注意,與較低幅度的信號相比,對于較高幅度的信號,選擇用于量化信號的步長可以更大(而不影響其質(zhì)量)。
如果是這樣,為什么我們不能使用較小的步長量化低幅度的語音信號,而對幅度較大的語音信號使用較大的步長呢?可以辦到。事實(shí)上,這種使用非均勻電平量化語音信號的技術(shù)被稱為“壓縮擴(kuò)展”,是壓縮和擴(kuò)展的組合。
壓縮擴(kuò)展是使用不等量化級別對信號進(jìn)行編碼的過程。在該技術(shù)中,大量的小電平用于對低幅度信號進(jìn)行編碼,而較高幅度的信號使用少量的大電平進(jìn)行編碼。這意味著通過使用壓擴(kuò),我們可以用更少的電平量化我們的語音信號,同時(shí)保持所需的保真度。此外,級別數(shù)越少意味著要編碼的比特越少,這意味著帶寬要求降低。
結(jié)論
本文介紹了與人類語音相關(guān)的概念及其在基于 PCM 的電話系統(tǒng)中的特征。我希望您已經(jīng)獲得了關(guān)于壓擴(kuò)及其在電信領(lǐng)域的重要性的膚淺知識。
-
PCM
+關(guān)注
關(guān)注
1文章
204瀏覽量
55071 -
模數(shù)轉(zhuǎn)換
+關(guān)注
關(guān)注
1文章
220瀏覽量
37797
發(fā)布評論請先 登錄
基于TMS320C6201的視頻圖像語音傳輸系統(tǒng)設(shè)計(jì)
基于模擬語音處理技術(shù)的電話遙控系統(tǒng)應(yīng)用
Nios II語音加密傳輸系統(tǒng)有什么作用?
基于UDP協(xié)議的語音傳輸系統(tǒng)設(shè)計(jì)及實(shí)現(xiàn)
基于DSP網(wǎng)絡(luò)電話終端語音傳輸的研究
IP網(wǎng)絡(luò)電話中常用的語音壓縮編碼技術(shù)的性能分析
語音壓縮技術(shù),語音壓縮技術(shù)是什么意思
基于DSP的圖像壓縮無線傳輸系統(tǒng)設(shè)計(jì)

基于DSP芯片TMS320C5402的數(shù)字壓縮語音錄放系統(tǒng)

一種語音壓縮處理通用DSP系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
DSP在數(shù)字語音壓縮系統(tǒng)中的應(yīng)用

如何使用UDP協(xié)議設(shè)計(jì)及實(shí)現(xiàn)語音傳輸系統(tǒng)的方法詳細(xì)說明

基于DSP技術(shù)模數(shù)兼容的多通道數(shù)字電話設(shè)計(jì)

基于DTW算法的語音識別電話系統(tǒng)

評論