SlideShare a Scribd company logo
MP3と音声圧縮
なぜMP3か?
2
音声信号処理で脳波に適用できそうなことはないのでは
「信号処理やってます」というとよく聞かれる質問!
「MP3ってどいう仕組み?」に答えられるようにしよう
じゃあいっそのこと
音声データ形式の比較
PCM(Pulse Code Modulation)
音声波形をインパルスで表現
44100Hz × 16bit ×2(Stereo) = 172KB/sec
CDの場合:
MP3(MPEG-1 Audio Layer 3)
3
4分の曲 - 40MB
音響心理学に基づいた音声圧縮方式
PCMの1/10程度の容量に圧縮可能
非可逆圧縮(Lossy compression)
MP3のフィロソフィー
人間に聞こえにくい音を消してしまおう
4
MP3で用いる聴覚モデルの概要
5
高周波音は聞こえづらい
時間/周波数マスキング効果
A特性によると12kHz以上は1kHzの1/4の音量
周波数域で高周波成分を消してしまおう
周波数成分を集中させるDCTを使用
大きな音が鳴るとその前後と周辺周波数帯の音が聞こえづらくなる
…などの音響知覚モデルを用いる
量子化と組み合わせて情報量削減
様々な聴覚モデルがありMP3で使用されているパラメータは
カツカツにチューニングされている
A特性
MP3エンコードのフロー
6
人間に気づかれないような
音の違いになるように量子化
MP3の128kbpsというような
設定はここで反映
聴覚心理モデルは
MDCTの窓関数に影響
MDCT(修正離散コサイン変換)
7
DCT(離散コサイン変換)
cos(nk)を基底とした任意の数列の変換
入力が実数であれば出力も実数
DFTは入力が実数で通常複素数を返す
特定の成分にパワーが集中
単純な応用例にJPEG
MP3はtype-IV DCTを使用
MDCT(修正離散コサイン変換), 続き
8
MDCTのM
信号に2フレーム長の窓をかけるという要素
窓幅 = 1フレーム = 1152サンプル
窓関数は聴覚心理モデルに基づいてフィルタバンク
で分けられた帯域ごとに異なる
2フレームの入力で1フレームを出力
DCTによるブロックノイズは聴覚心理に大きく影響
JPEGにおけるブロックノイズ
フィルタバンク, 量子化, ハフマン符号化は省略…
音の比較
9
PCM(1411.2kbps)
MP3(128kbps)
MP3(32kbps)MP3(32kbps)
MP3(16kbps)
CD音質
比較しないと聞かないとわからない
シンバルなどの高音に違い
モノラルに近づけることで情報量削減
音がこもっている(高周波成分を大幅カット
エリアシングが激しく起きている
何を聞いているかはわかる
音の比較, 続き, スペクトル
10
PCM(1411.2kbps) MP3(128kbps)
音の比較, 続き, MP3で失われた情報
11
PCM
PCM-MP3(128kbps)
まとめ
12
人間に聞こえにくい音を消してしまおう
DCTによる情報の集中
人間の聴覚特性をうまくつかった”気づかれにくい”情報削減
後継のAAC, HE-AACなども上記のフィロソフィーに基づく
結論
13
MP3は想像以上に複雑だった
Appendix
14
なぜ非可逆圧縮か
音声データはデータの偏りが無いのでハフマン符号化ができない
なぜDCTで低周波に成分が集中するか
高周波はエネルギーが
窓関数の種類や適用時の条件など多くある
Appendix
15
MP3は単純なLRステレオでなくジョイントステレオを使用
Mid+Sideを用いると更に圧縮効率があがるらしい
Mid = Left + Right, Side = Left -Right
VBR(可変ビットレート)でさらに圧縮効率を改善可能
iTunesで変更できるMP3エンコードのパラメータ
16

More Related Content

What's hot

z変換をやさしく教えて下さい (音響学入門ペディア)
z変換をやさしく教えて下さい (音響学入門ペディア)z変換をやさしく教えて下さい (音響学入門ペディア)
z変換をやさしく教えて下さい (音響学入門ペディア)
Shinnosuke Takamichi
 
複素ラプラス分布に基づく非負値行列因子分解
複素ラプラス分布に基づく非負値行列因子分解複素ラプラス分布に基づく非負値行列因子分解
複素ラプラス分布に基づく非負値行列因子分解
Hiroki_Tanji
 
Asj2017 3invited
Asj2017 3invitedAsj2017 3invited
Asj2017 3invited
SaruwatariLabUTokyo
 
調波打撃音分離の時間周波数マスクを用いた線形ブラインド音源分離
調波打撃音分離の時間周波数マスクを用いた線形ブラインド音源分離調波打撃音分離の時間周波数マスクを用いた線形ブラインド音源分離
調波打撃音分離の時間周波数マスクを用いた線形ブラインド音源分離
Kitamura Laboratory
 
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
Naoya Takahashi
 
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
Shinnosuke Takamichi
 
Autoencoderの実装と愉快な仲間との比較
Autoencoderの実装と愉快な仲間との比較Autoencoderの実装と愉快な仲間との比較
Autoencoderの実装と愉快な仲間との比較
YumaMatsuoka
 
【宝くじ仮説】The Lottery Ticket Hypothesis: Finding Small, Trainable Neural Networks
【宝くじ仮説】The Lottery Ticket Hypothesis: Finding Small, Trainable Neural Networks【宝くじ仮説】The Lottery Ticket Hypothesis: Finding Small, Trainable Neural Networks
【宝くじ仮説】The Lottery Ticket Hypothesis: Finding Small, Trainable Neural Networks
Yosuke Shinya
 
Hessian free
Hessian freeHessian free
Hessian free
Jiro Nishitoba
 
変分推論と Normalizing Flow
変分推論と Normalizing Flow変分推論と Normalizing Flow
変分推論と Normalizing FlowAkihiro Nitta
 
Sliced Wasserstein Distance for Learning Gaussian Mixture Models
Sliced Wasserstein Distance for Learning Gaussian Mixture ModelsSliced Wasserstein Distance for Learning Gaussian Mixture Models
Sliced Wasserstein Distance for Learning Gaussian Mixture Models
Fujimoto Keisuke
 
LBFGSの実装
LBFGSの実装LBFGSの実装
LBFGSの実装
Kotaro Tanahashi
 
MIRU2016 チュートリアル
MIRU2016 チュートリアルMIRU2016 チュートリアル
MIRU2016 チュートリアル
Shunsuke Ono
 
NIPS2017報告 SPEECH & AUDIO
NIPS2017報告 SPEECH & AUDIONIPS2017報告 SPEECH & AUDIO
NIPS2017報告 SPEECH & AUDIO
Koichiro Mori
 
Optimizer入門&最新動向
Optimizer入門&最新動向Optimizer入門&最新動向
Optimizer入門&最新動向
Motokawa Tetsuya
 
2 3.GLMの基礎
2 3.GLMの基礎2 3.GLMの基礎
2 3.GLMの基礎
logics-of-blue
 
深層生成モデルに基づく音声合成技術
深層生成モデルに基づく音声合成技術深層生成モデルに基づく音声合成技術
深層生成モデルに基づく音声合成技術
NU_I_TODALAB
 
音声認識における言語モデル
音声認識における言語モデル音声認識における言語モデル
音声認識における言語モデル
KOTARO SETOYAMA
 
独立性基準を用いた非負値行列因子分解の効果的な初期値決定法(Statistical-independence-based efficient initia...
独立性基準を用いた非負値行列因子分解の効果的な初期値決定法(Statistical-independence-based efficient initia...独立性基準を用いた非負値行列因子分解の効果的な初期値決定法(Statistical-independence-based efficient initia...
独立性基準を用いた非負値行列因子分解の効果的な初期値決定法(Statistical-independence-based efficient initia...
Daichi Kitamura
 
機械学習の理論と実践
機械学習の理論と実践機械学習の理論と実践
機械学習の理論と実践
Preferred Networks
 

What's hot (20)

z変換をやさしく教えて下さい (音響学入門ペディア)
z変換をやさしく教えて下さい (音響学入門ペディア)z変換をやさしく教えて下さい (音響学入門ペディア)
z変換をやさしく教えて下さい (音響学入門ペディア)
 
複素ラプラス分布に基づく非負値行列因子分解
複素ラプラス分布に基づく非負値行列因子分解複素ラプラス分布に基づく非負値行列因子分解
複素ラプラス分布に基づく非負値行列因子分解
 
Asj2017 3invited
Asj2017 3invitedAsj2017 3invited
Asj2017 3invited
 
調波打撃音分離の時間周波数マスクを用いた線形ブラインド音源分離
調波打撃音分離の時間周波数マスクを用いた線形ブラインド音源分離調波打撃音分離の時間周波数マスクを用いた線形ブラインド音源分離
調波打撃音分離の時間周波数マスクを用いた線形ブラインド音源分離
 
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
 
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
 
Autoencoderの実装と愉快な仲間との比較
Autoencoderの実装と愉快な仲間との比較Autoencoderの実装と愉快な仲間との比較
Autoencoderの実装と愉快な仲間との比較
 
【宝くじ仮説】The Lottery Ticket Hypothesis: Finding Small, Trainable Neural Networks
【宝くじ仮説】The Lottery Ticket Hypothesis: Finding Small, Trainable Neural Networks【宝くじ仮説】The Lottery Ticket Hypothesis: Finding Small, Trainable Neural Networks
【宝くじ仮説】The Lottery Ticket Hypothesis: Finding Small, Trainable Neural Networks
 
Hessian free
Hessian freeHessian free
Hessian free
 
変分推論と Normalizing Flow
変分推論と Normalizing Flow変分推論と Normalizing Flow
変分推論と Normalizing Flow
 
Sliced Wasserstein Distance for Learning Gaussian Mixture Models
Sliced Wasserstein Distance for Learning Gaussian Mixture ModelsSliced Wasserstein Distance for Learning Gaussian Mixture Models
Sliced Wasserstein Distance for Learning Gaussian Mixture Models
 
LBFGSの実装
LBFGSの実装LBFGSの実装
LBFGSの実装
 
MIRU2016 チュートリアル
MIRU2016 チュートリアルMIRU2016 チュートリアル
MIRU2016 チュートリアル
 
NIPS2017報告 SPEECH & AUDIO
NIPS2017報告 SPEECH & AUDIONIPS2017報告 SPEECH & AUDIO
NIPS2017報告 SPEECH & AUDIO
 
Optimizer入門&最新動向
Optimizer入門&最新動向Optimizer入門&最新動向
Optimizer入門&最新動向
 
2 3.GLMの基礎
2 3.GLMの基礎2 3.GLMの基礎
2 3.GLMの基礎
 
深層生成モデルに基づく音声合成技術
深層生成モデルに基づく音声合成技術深層生成モデルに基づく音声合成技術
深層生成モデルに基づく音声合成技術
 
音声認識における言語モデル
音声認識における言語モデル音声認識における言語モデル
音声認識における言語モデル
 
独立性基準を用いた非負値行列因子分解の効果的な初期値決定法(Statistical-independence-based efficient initia...
独立性基準を用いた非負値行列因子分解の効果的な初期値決定法(Statistical-independence-based efficient initia...独立性基準を用いた非負値行列因子分解の効果的な初期値決定法(Statistical-independence-based efficient initia...
独立性基準を用いた非負値行列因子分解の効果的な初期値決定法(Statistical-independence-based efficient initia...
 
機械学習の理論と実践
機械学習の理論と実践機械学習の理論と実践
機械学習の理論と実践
 

MP3と音声圧縮(simple)