MP3壓縮比例為何那麼高還可以接近原音重現呢?
音樂CD的流量是每秒44100*16*2 =1411200bps =1411.2kbps=,常用的MP3流量只有128kbps,壓縮後的容量小於原先的十分之一。
MP3壓縮時運用到五個重要方法:
(1)最小聽覺門檻判定(The minimal audition threshold),(2)遮蔽效應(The Masking effect),(3)位元儲存槽(The reservoir of bytes),(4)The Joint Stereo,(5)Huffman編碼。
(1)最小聽覺門檻判定可以減少資料量,因為人耳對不同頻率的聲音聽到的音量反應(response)並非線性,所以我們可以把大部分的紀錄資訊集中在人耳最靈敏的2kHz到5kHz,其餘頻率分配比較少的容量紀錄。
(2)遮蔽效應是聽覺心理學模型(Psychoacoustic models)的一種,以視覺來比喻的效果是像在大太陽下比較難看到天空中飛翔的鳥。聽覺上的涵義就是當有一個音量或音色特別突出的聲音出現時,其他細小的聲音會比較難被察覺,就像是管絃樂團齊奏時不易發現觀眾的咳嗽聲,儘管咳嗽的音量與沒有其他聲音時其實是相同的。因此在編碼時我們不需要把所有的聲音細節都編進去,而可以把資料拿去紀錄比較突出容易引起注意的聲音。
(3)位元儲存槽在解釋之前必須要先說明MP3的流量屬性,CBR和VBR。CBR是Constant Bit Rate的縮寫,也就是說該MP3每秒鐘的資料流量是固定的,常見的MP3都是以CBR編碼,好處是壓縮速度快。相對的VBR是Variable Bit Rate的縮寫,每秒鐘的流量是可以變化的,好處是在訊號複雜時用比較多的容量去紀錄,波型簡單時就用比較低的流量,以有效利用空間。CBR的缺點就是每秒鐘的流量都相同,很容易造成空間的浪費,因此有reservoir of bytes的出現,用途是當波型簡單時不要用那麼大的流量,把多餘的空間保留下來儲存將來比較複雜的波性資料,維持流量的大小,達到類似VBR的效果。VBR的MP3並不需要reservoir of bytes。
(4)Joint Stereo聯合立體聲是一種立體聲編碼技巧,主要分為Intensity Stereo(IS)和Mid/Side (M/S) stereo兩種。
IS的是在比較低流量時使用,利用了人耳對於高頻訊號相位分辨能力的不足,將音訊資料中的低頻分解出來合成單聲道資料,剩餘的高頻資料則合成另一個單聲道資料,並另外紀錄高頻資料的位置資訊,來重建立體聲的效果。例如鋼琴獨奏的錄音就可以利用這種方法在有限的資料流量中減少音場資訊但大幅增加音色資訊。
Mid/Side (M/S) stereo在左右聲道資料相似度大時常被用到,紀錄方式是將左右聲道音訊合併(L+R)得到新的一軌,再將左右聲道音訊相減(L-R)得到另外一軌,然後再將這兩軌資料用上面提到聽覺心理學模型與濾波器處理。Mid/Side (M/S) stereo與IS一樣的是利用部分相位(phase)資訊的損失來換得較高的音色紀錄資訊。一般的MP3是Mid/Side stereo和Intensity Stereo交替使用的,視資料內容與流量而定。如果是更高流量如160kbps以上的MP3,則可以單獨將立體聲的兩個聲道獨立編碼,以保存相位資訊。
(5)Huffman編碼(coding)是一種常見的無失真壓縮方案。當PCM訊號被分成好幾個頻段並經過以上的處理之後,最後經過MDCT(Modified Discrete Cosine Transform)(類似FFT(Fast Fourier Transforms)),將波型轉換為一連串的系數。這些系數最後經過Huffman編碼來做最後的壓縮。Huffman編碼的原理是將比較常出現的字串用特定的符號表示,壓縮後就得到一個紀錄每個符號代表的字串的編碼表以及一連串由各符號組成的資料內容。Huffman編碼可以節省約20%的空間,而也因為經過了Huffman編碼,我們可以發現用WinZip、WinRAR之類的壓縮軟體並沒有辦法把MP3檔縮小多少,理由就是因為這些壓縮軟體也是利用類似Huffman編碼的技巧,因此壓縮程度有限。
【參考資料】:
MP3壓縮原理 http://diary.blog.yam.com/ace1974/article/957577
MP3格式 http://www.twwiki.com/wiki/MP3%E6%A0%BC%E5%BC%8F
-------------------------------------------------
MP3的定義(MPEG audio layer 3)
MP3的全名是「MPEG audio layer 3」,是由動畫專家組織(MPEG:Moving Pictures Experts Group)所製定的影音壓縮技術裏用來規範聲音的壓縮技術,由於電影包含聲音,而聲音又可以分為三層:
>MP1(MPEG audio layer 1)壓縮比約為1:4。
>MP2(MPEG audio layer 2)壓縮比約為1:6~1:8。
>MP3(MPEG audio layer 3)壓縮比約為1:10~1:12。
壓縮比愈高則運算愈複雜,但是檔案愈小,由於MP3的壓縮比最高,壓縮以後的檔案大約只有原始檔案的1/10,而且音質差異不大,所以目前廣泛地應用在音樂市場。一般的音樂CD內儲存一首歌曲大約40MB(使用WAV格式),壓縮成MP3格式只剩下大約4MB,可見MP3壓縮技術可以將聲音檔案變成原始檔案的1/10左右。
MP3壓縮技術
MP3壓縮技術的壓縮步驟主要包括:脈碼調變(PCM)、時域/頻域轉換、聲音心理學模型、訊號包裝等:
脈碼調變(PCM)
先將類比的聲音訊號經由取樣、量化、編碼轉換為數位訊號,如<圖9-7(a)>所示,圖中的虛線代表脈碼調變取出的數位訊號,可以看出如果X軸為時間,則低頻的聲音振動較慢,高頻的聲音振動較快。
時域/頻域轉換(Time/Frequency mapping)
將原本X軸為「時間」的數位訊號,轉換成X軸為「頻率」的數位訊號,如<圖9-7(b)>所示,圖中的虛線代表脈碼調變取出的數位訊號,可以看出如果轉換成X軸為頻率,則訊號的形狀改變,而且低頻的聲音在X軸的左邊,高頻的聲音在X軸的右邊。要將X軸由時間轉換為頻率最簡單的方法是使用「傅利葉轉換(Fourier transform)」,這是屬於工程數學的一種運算,在此不再詳細描述。
聲音心理學量化
實驗發現人類的耳朵對極高頻與極低頻的聲音並不敏感,就算將它去除也不會被聽出來,所以我們依照聲音心理學模型將高頻(>5KHz)與低頻(<3KHz)的數位訊號除以較大的分母(讓不重要的訊號變小),濾掉部分高頻與低頻的聲音訊號,可以減少不重要的數位訊號,才能節省記憶體空間,但是人類的耳朵聽不太出來。
訊號包裝(Frame packing)
將處理好的數位訊號依序排列。
【參考資料】:
http://hightech.nccu.edu.tw/index.php/2012-06-06-14-12-38/24-multimedia-system/282-audio-compressing
