More Related Content More from Junya Saito (6) Acoustic Modeling using Deep Belief Networks1. Acoustic Modeling using
Deep Belief Networks
[IEEE TRANS. ON AUDIO, SPEECH,
AND LANGUAGE PROCESSING 2010]
Abdel-rahman Mohamed, George E. Dahl,
and Geoffrey Hinton (University of Toronto)
斎藤 淳哉
間違い等ありましたらご連絡ください
junya【あっと】fugaga.info
論文紹介
2013/06/01
3. 目次
• 音素認識
– 推定
– 学習
• 隠れマルコフモデル
• Deep Belief Net
– 構造
– 学習
– 音素認識へ適用
• 実験
• まとめ 2/10
4. 音素認識 推定
音声信号 𝑠1 𝑠2 𝑠3
𝑠4 𝑠5 𝑠6
𝑠7 𝑠8 𝑠9
HMM 「あ」
HMM 「い」
HMM 「う」学習しておいた
確率分布モデル(HMM)
から最尤の音素を探索
特徴量抽出
(MFCC )
フレーム分割
※本筋でないので説明略。
ここでは、FFTなどを使って計算される特徴量と理解してください。
※
MFCCの列
0.6
0.1
⋮
,
0.7
0.2
⋮
,
0.3
0.1
⋮
,
0.5
0.3
⋮
3/10
5. 音素認識 学習
音声信号「い」 MFCC「い」の列
𝑠4 𝑠5 𝑠6
HMM
特徴量抽出
(MFCC)
フレーム分割
学習
(Baum-Welch
アルゴリズム)
MFCC「い」の列が
出力されそうに
なるように学習
・・・・・・
※本筋でないので説明略。動的計画法を使う。
※
0.7
0.3
⋮
,
0.7
0.2
⋮
,
0.5
0.3
⋮
,
0.3
0.2
⋮
,
0.2
0.1
⋮
0.5
0.1
⋮
,
0.3
0.1
⋮
,
0.3
0.1
⋮
,
0.5
0.3
⋮
0.7
0.2
⋮
,
0.7
0.1
⋮
,
0.4
0.2
⋮
4/10
6. 隠れマルコフモデル(Hidden Markov Model, HMM)
• HMM
【定義】(状態,状態遷移確率,出力確率分布モデル)
【特徴】一定でない長さの出力系列に対応した生成モデル
音声認識において一般的な出力確率分布モデル:GMM
(MFCCの列)
𝑠4 𝑠5 𝑠6
0.8
1.0 0.2 0.5 0.4
0.60.5
状態遷移確率
出力確率分布モデル
状態
0.6,0.1, … ⊤
0.5,0.3, … ⊤0.7,0.2, … ⊤
0.3,0.1, … ⊤
本論文のポイント:GMM→DBN
MFCCの列
5/10
7. Deep Belief Net(DBN) 構造
• DBN
– Restricted Boltzmann Machine(RBM)を多層化したもの
𝑣𝑖
ℎ𝑗
※通常のRBM:
可視素子:2値{0,1},隠れ素子:2値{0,1}
Gaussian-Bernoulli RBM(本論文で採用):
可視素子:連続値, 隠れ素子:2値{0,1}
RBM
𝑣
ℎ(1)
ℎ(2)
ℎ(𝐾)
DBN
𝑤𝑖𝑗
可視素子
隠れ素子
・・・
重み
可視層
隠れ層
隠れ層
隠れ層
8. DBN 学習
1. Pre-training(教師なし学習)
– 第n層で重み𝑤𝑖𝑗をSGD with mini-batch
– 十分に学習できたら第n+1層へ
2. Fine-tuning(教師あり学習)
– ラベルをもとに
Back Propagation
𝑣
ℎ(1)
ℎ(2)
ℎ(𝐾)
・・・
1 2 𝑚𝑙・・・ ・・・
ラベル𝑙 : 0,0, … , 1, … 0 ⊤
𝑙番目
∆𝑤𝑖𝑗 ∝ ℎ𝑖
𝑛 𝑎
ℎ𝑗
𝑛+1
− ℎ𝑖
𝑛 𝑎
ℎ𝑗
𝑛+1
Contrastive Divergence:
データから
求めた値
サンプリングして
求めた値
9. DBN 音素認識へ適用
𝑠4 𝑠5 𝑠6
0.8
1.0 0.2 0.5 0.4
0.60.5
HMM+GMM
MFCCにラベル付け
0.7
0.3
⋮
0.7
0.1
⋮
0.5
0.3
⋮
,
0.3
0.2
⋮
0.2
0.1
⋮
0.3
0.1
⋮
0.5
0.1
⋮
,
0.3
0.1
⋮
0.7
0.2
⋮
,
0.7
0.1
⋮
0.4
0.2
⋮
0.7
0.2
⋮
MFCC「𝑠4」 MFCC「𝑠5」 MFCC「𝑠6」
𝑠4 𝑠5 𝑠6
0.8
1.0 0.2 0.5 0.4
0.60.5
HMM+DBN
𝑣
ℎ(1)
ℎ(𝐾)
・・・
1 2 𝑚𝑙・・・ ・・・
nフレームまとめて
可視素子とする
(ラベルは中央の
フレームのもの)
0.7
0.3
⋮
0.7
0.2
⋮
0.7
0.1
⋮
0.5
0.3
⋮
,
0.3
0.2
⋮
MFCCの列
各状態の尤度を
ソフトマックス関数で定義DBN学習
・Pre-traning
・Fine-tuning
引き継ぐ
10. 実験
• 条件
– 実験データ:TIMIT corpus
• 学習用:50話者,テスト用:24話者
– パラメータ
• 可視素子に割り当てるフレーム数n:11フレーム
(1フレームあたり12次MFCC+パワー)
• 隠れ層数K:5層(1層あたり2048素子)
• ラベル数(HMM状態数)m:183(61音素×3状態)
• 結果 音素認識誤り率
9/10
11. まとめ
• テーマ
– 音素認識+Deep Belief Net(DBN)
• ポイント
– HMMの出力確率分布モデル:GMM→DBN
• DBN
– Restricted Boltzmann Machine(RBM)を多層化したもの
– Contrastive Divergenceを使って学習
• 実験結果
– 音素認識誤り率20%で既存手法より高精度
10/10