MP3壓縮比例為何那麼高還可以接近原音重現呢?
音樂CD的流量是每秒44100*16*2 =1411200bps =1411.2kbps=,常用的MP3流量只有128kbps,壓縮後的容量小於原先的十分之一。
MP3壓縮時運用到五個重要方法:
(1)最小聽覺門檻判定(The minimal audition threshold),(2)遮蔽效應(The Masking effect),(3)位元儲存槽(The reservoir of bytes),(4)The Joint Stereo,(5)Huffman編碼。
(1)最小聽覺門檻判定可以減少資料量,因為人耳對不同頻率的聲音聽到的音量反應(response)並非線性,所以我們可以把大部分的紀錄資訊集中在人耳最靈敏的
2kHz到5kHz,其餘頻率分配比較少的容量紀錄。
(2)遮蔽效應是聽覺心理學模型(Psychoacoustic models)的一種,以視覺來比喻的效果是像在大太陽下比較難看到天空中飛翔的鳥。聽覺上的涵義就是當有
一個音量或音色特別突出的聲音出現時,其他細小的聲音會比較難被察覺,就像是管絃樂團齊奏時不易發現觀眾的咳嗽聲,儘管咳嗽的音量與沒有其他聲音時其實是相同的。
因此在編碼時我們不需要把所有的聲音細節都編進去,而可以把資料拿去紀錄比較突出容易引起注意的聲音。
(3)位元儲存槽在解釋之前必須要先說明MP3的流量屬性,CBR和VBR。CBR是Constant Bit Rate的縮寫,也就是說該MP3每秒鐘的資料流量是固定的,常見的MP3都是以CBR編碼,好處是壓縮速度快。相對的VBR是Variable Bit Rate的縮寫,每秒鐘的流量是可以變化的,好處是在訊號複雜時用比較多的容量去紀錄,波型簡單時就用比較低的流量,以有效利用空間。CBR的缺點就是每秒鐘的流量都相同,很容易造成空間的浪費,因此有reservoir of bytes的出現,用途是當波型簡單時不要用那麼大的流量,把多餘的空間保留下來儲存將來比較複雜的波性資料,維持流量的大小,達到類似VBR的效果。VBR的MP3並不需要reservoir of bytes。
(4)Joint Stereo聯合立體聲是一種
立體聲編碼技巧,主要分為Intensity Stereo(IS)和Mid/Side (M/S) stereo兩種。
IS的是在比較低流量時使用,利用了人耳對於高頻訊號相位分辨能力的不足,將音訊資料中的低頻分解出來合成單聲道資料,剩餘的高頻資料則合成另一個單聲道資料,並另外紀錄高頻資料的位置資訊,來重建立體聲的效果。例如鋼琴獨奏的錄音就可以利用這種方法在有限的資料流量中減少音場資訊但大幅增加音色資訊。
Mid/Side (M/S) stereo在左右聲道資料相似度大時常被用到,紀錄方式是將左右聲道音訊合併(L+R)得到新的一軌,再將左右聲道音訊相減(L-R)得到另外一軌,然後再將這兩軌資料用上面提到聽覺心理學模型與濾波器處理。Mid/Side (M/S) stereo與IS一樣的是
利用部分相位(phase)資訊的損失來換得較高的音色紀錄資訊。一般的MP3是Mid/Side stereo和Intensity Stereo交替使用的,視資料內容與流量而定。如果是更高流量如160kbps以上的MP3,則可以單獨將立體聲的兩個聲道獨立編碼,以保存相位資訊。
(5)Huffman編碼(coding)是一種常見的無失真壓縮方案。當PCM訊號被分成好幾個頻段並經過以上的處理之後,最後經過MDCT(Modified Discrete Cosine Transform)(類似FFT(Fast Fourier Transforms)),將波型轉換為一連串的系數。這些系數最後經過Huffman編碼來做最後的壓縮。Huffman編碼的原理是將比較常出現的字串用特定的符號表示,壓縮後就得到一個紀錄每個符號代表的字串的編碼表以及一連串由各符號組成的資料內容。Huffman編碼可以節省約20%的空間,而也因為經過了Huffman編碼,我們可以發現用WinZip、WinRAR之類的壓縮軟體並沒有辦法把MP3檔縮小多少,理由就是因為這些壓縮軟體也是利用類似Huffman編碼的技巧,因此壓縮程度有限。