MP3と音声圧縮(simple)

なぜMP3か?
2
音声信号処理で脳波に適用できそうなことはないのでは
「信号処理やってます」というとよく聞かれる質問!
「MP3ってどいう仕組み?」に答えられるようにしよう
じゃあいっそのこと

音声データ形式の比較
PCM(Pulse Code Modulation)
音声波形をインパルスで表現
44100Hz × 16bit ×2(Stereo) = 172KB/sec
CDの場合:
MP3(MPEG-1 Audio Layer 3)
3
4分の曲 - 40MB
音響心理学に基づいた音声圧縮方式
PCMの1/10程度の容量に圧縮可能
非可逆圧縮(Lossy compression)

MP3のフィロソフィー
人間に聞こえにくい音を消してしまおう
4

MP3で用いる聴覚モデルの概要
5
高周波音は聞こえづらい
時間/周波数マスキング効果
A特性によると12kHz以上は1kHzの1/4の音量
周波数域で高周波成分を消してしまおう
周波数成分を集中させるDCTを使用
大きな音が鳴るとその前後と周辺周波数帯の音が聞こえづらくなる
…などの音響知覚モデルを用いる
量子化と組み合わせて情報量削減
様々な聴覚モデルがありMP3で使用されているパラメータは
カツカツにチューニングされている
A特性

MP3エンコードのフロー
6
人間に気づかれないような
音の違いになるように量子化
MP3の128kbpsというような
設定はここで反映
聴覚心理モデルは
MDCTの窓関数に影響

MDCT(修正離散コサイン変換)
7
DCT(離散コサイン変換)
cos(nk)を基底とした任意の数列の変換
入力が実数であれば出力も実数
DFTは入力が実数で通常複素数を返す
特定の成分にパワーが集中
単純な応用例にJPEG
MP3はtype-IV DCTを使用

MDCT(修正離散コサイン変換), 続き
8
MDCTのM
信号に2フレーム長の窓をかけるという要素
窓幅 = 1フレーム = 1152サンプル
窓関数は聴覚心理モデルに基づいてフィルタバンク
で分けられた帯域ごとに異なる
2フレームの入力で1フレームを出力
DCTによるブロックノイズは聴覚心理に大きく影響
JPEGにおけるブロックノイズ
フィルタバンク, 量子化, ハフマン符号化は省略…

音の比較
9
PCM(1411.2kbps)
MP3(128kbps)
MP3(32kbps)MP3(32kbps)
MP3(16kbps)
CD音質
比較しないと聞かないとわからない
シンバルなどの高音に違い
モノラルに近づけることで情報量削減
音がこもっている(高周波成分を大幅カット
エリアシングが激しく起きている
何を聞いているかはわかる

音の比較, 続き, スペクトル
10
PCM(1411.2kbps) MP3(128kbps)

音の比較, 続き, MP3で失われた情報
11
PCM
PCM-MP3(128kbps)

まとめ
12
人間に聞こえにくい音を消してしまおう
DCTによる情報の集中
人間の聴覚特性をうまくつかった”気づかれにくい”情報削減
後継のAAC, HE-AACなども上記のフィロソフィーに基づく

結論
13
MP3は想像以上に複雑だった

Appendix
14
なぜ非可逆圧縮か
音声データはデータの偏りが無いのでハフマン符号化ができない
なぜDCTで低周波に成分が集中するか
高周波はエネルギーが
窓関数の種類や適用時の条件など多くある

Appendix
15
MP3は単純なLRステレオでなくジョイントステレオを使用
Mid+Sideを用いると更に圧縮効率があがるらしい
Mid = Left + Right, Side = Left -Right
VBR(可変ビットレート)でさらに圧縮効率を改善可能

iTunesで変更できるMP3エンコードのパラメータ
16

MP3と音声圧縮(simple)

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

MP3と音声圧縮(simple)