やさしく音声分析法を学ぶ：ケプストラム分析とLPC分析

高道慎之介
ケプストラム分析＆ LPC分析

/34
スライドについて
 音声の特徴とは？
– 基本周波数、声道の特性など
 何故そんなことをするのか？
– 少ないパラメータで音声波形を表現できる
– 音声を効率的・直感的に扱える
– 複数の特徴を分離できる
– など
2
音声の特徴を分析する手法を理解しよう！
スライドの目的

復習
～音声の生成過程～
3

/34
音声の生成
4
音色の付与
口や舌を動かして，
音色をつける！
声帯を開閉させて，
空気を振動させる！
音源の生成
音声波形
時間
混ぜる

/34
音源・声道伝達関数の周波数特性
5
周波数
パワー
周波数
パワー
基本周波数（F0）
音響管の共振周波数
周波数
パワー
音声の
周波数特性
微細構造
包絡

分析法①
～ケプストラム分析～
6

/34
ケプストラム分析のモチベーション
7
周波数
パワー
音声から、声道の特性と音源の特性を
抽出（分離）できないかな？
（でも、混ざっちゃってるんだよな・・・）
声道の特性と音源の特性の形に違いはないかな・・・？
よく見ると、声道の特性は緩やかに変動して、
逆に、音源の特性は激しく変動しているな。
じゃあ、上図の信号を、緩やかに振動する低周波数成分と
激しく振動する高周波数成分に分ければいいんだ！

/34
ケプストラム（Cepstrum）
 定義：時間波形のパワースペクトルの対数のフーリエ変換
 特徴：
– 複数の信号が畳み込まれた信号を分離可能
– 対数パワースペクトルを波として考える方法
 手順：
8
定義によっては
逆DFTを使用
板橋他，音声工学，図4.6から引用

/34
ケプストラムの計算
9
時間
振幅
周波数
パワー
周波数
対数パワー
音声波形から
切り出した時間波形パワースペクトル対数パワースペクトル
離散フーリエ変換（DFT）対数の計算
対数パワースペクトルを時間波形だと思って（逆）DFT
=> ケプストラムが計算される！
声道特性（包絡）と音源特性（微細構造）が
分離されて現れる（はず）！

/34
ケプストラムの例
10
ケフレンシー
ケプストラム
低次のケプストラムは
声道特性（スペクトル包絡）に対応
高次のケプストラムは
音源特性（スペクトル微細構造）に対応
リフタ：ケプストラムに対するフィルタ
リフタを掛けることで低次/高次の情報を分離できる！

/34
包絡成分・基本周波数の抽出
11
低次だけを取り出すと
包絡を抽出
高次のピークでF0を抽出
10次
20次
包絡抽出
次数が上がると
より複雑に表現可能

分析法②
～線形予測分析～
12

/34
線形予測分析のモチベーション
13
周波数
パワー
音声の特徴（声道伝達関数など）を
効率よくモデル化できないかな？
じゃあ、声道を音響管だと思って、
その特性を抽出できればいいんじゃない？
人間の声道って、確か、音響管の
連接でモデル化できるんだよな・・・
そして、音響管の共振で音色が付くんだよね・・・

/34
線形予測法（Linear Prediction Coding：LPC）
 定義：声道を音響管に見立てた時の特徴量
 特徴：声道の特徴を効率よくモデル化できる
14
口からの放射
)(zE )(zA )(zX
音源信号音声信号
Z変換
音響管の特性A(z)は共振特性を持つと仮定
)(
1
1
)()()( 1
1
zE
zaza
zEzAzX p
p




線形予測係数

/34
LPCのパラメータと、その計算
15
周波数
パワー
)(
1
1
)()()( 1
1
zE
zaza
zEzAzX P
P




係数の値によって共振の特性
（スペクトルのピーク：フォルマント）が決定
全極モデルと呼ばれる
線形予測係数を求める方法
tx
切り取られた
時間 t の信号


P
p
ptp xa
0
線形予測係数で求められる
時間 t の信号
この二乗誤差を最小にするように、apを求める！（詳細は省略）
観測信号と、モデルから
生成される信号の差

/34
LPC分析によって求められたスペクトル包絡
16
ケプストラム分析よりもピークを重視した包絡を抽出
＝より効率的な特徴量

/34
スペクトル包絡と、LPCの発展
17
http://hil.t.u-tokyo.ac.jp/~sagayama/applied-acoustics/2009/C1-LPC.pdf より引用
2次
4次
10次
18次
ケプストラムと同じように、次数が増えるほど細かくモデル化できる
 上図のように、LPCは特徴を効率よくモデル化できる
– しかし、ノイズ（誤差）に弱いなどの欠点がある
– ノイズに対する頑健性向上や更なる効率化のために、
PARCORやLSPと呼ばれる手法がある

やさしく音声分析法を学ぶ： ケプストラム分析とLPC分析

More Related Content

What's hot

More from Shinnosuke Takamichi