Acoustic Modeling using Deep Belief Networks

Acoustic Modeling using
Deep Belief Networks
[IEEE TRANS. ON AUDIO, SPEECH,
AND LANGUAGE PROCESSING 2010]
Abdel-rahman Mohamed, George E. Dahl,
and Geoffrey Hinton （University of Toronto）
斎藤淳哉
間違い等ありましたらご連絡ください
junya【あっと】fugaga.info
論文紹介
2013/06/01

テーマ
音声認識＋Deep Learning
（音素認識）（Deep Belief Net）
1/10

目次
• 音素認識
– 推定
– 学習
• 隠れマルコフモデル
• Deep Belief Net
– 構造
– 学習
– 音素認識へ適用
• 実験
• まとめ 2/10

音素認識推定
音声信号 𝑠1 𝑠2 𝑠3
𝑠4 𝑠5 𝑠6
𝑠7 𝑠8 𝑠9
HMM 「あ」
HMM 「い」
HMM 「う」学習しておいた
確率分布モデル（HMM）
から最尤の音素を探索
特徴量抽出
（MFCC ）
フレーム分割
※本筋でないので説明略。
ここでは、FFTなどを使って計算される特徴量と理解してください。
※
MFCCの列
0.6
0.1
⋮
,
0.7
0.2
⋮
,
0.3
0.1
⋮
,
0.5
0.3
⋮
3/10

音素認識学習
音声信号「い」 MFCC「い」の列
𝑠4 𝑠5 𝑠6
HMM
特徴量抽出
（MFCC）
フレーム分割
学習
（Baum-Welch
アルゴリズム）
MFCC「い」の列が
出力されそうに
なるように学習
・・・・・・
※本筋でないので説明略。動的計画法を使う。
※
0.7
0.3
⋮
,
0.7
0.2
⋮
,
0.5
0.3
⋮
,
0.3
0.2
⋮
,
0.2
0.1
⋮
0.5
0.1
⋮
,
0.3
0.1
⋮
,
0.3
0.1
⋮
,
0.5
0.3
⋮
0.7
0.2
⋮
,
0.7
0.1
⋮
,
0.4
0.2
⋮
4/10

隠れマルコフモデル（Hidden Markov Model, HMM）
• HMM
【定義】（状態，状態遷移確率，出力確率分布モデル）
【特徴】一定でない長さの出力系列に対応した生成モデル
音声認識において一般的な出力確率分布モデル：GMM
（MFCCの列）
𝑠4 𝑠5 𝑠6
0.8
1.0 0.2 0.5 0.4
0.60.5
状態遷移確率
出力確率分布モデル
状態
0.6,0.1, … ⊤
0.5,0.3, … ⊤0.7,0.2, … ⊤
0.3,0.1, … ⊤
本論文のポイント：GMM→DBN
MFCCの列
5/10

Deep Belief Net（DBN）構造
• DBN
– Restricted Boltzmann Machine（RBM）を多層化したもの
𝑣𝑖
ℎ𝑗
※通常のRBM：
可視素子：2値{0,1}，隠れ素子：2値{0,1}
Gaussian-Bernoulli RBM（本論文で採用）：
可視素子：連続値，隠れ素子：2値{0,1}
RBM
𝑣
ℎ(1)
ℎ(2)
ℎ(𝐾)
DBN
𝑤𝑖𝑗
可視素子
隠れ素子
・・・
重み
可視層
隠れ層
隠れ層
隠れ層

DBN 学習
1. Pre-training（教師なし学習）
– 第n層で重み𝑤𝑖𝑗をSGD with mini-batch
– 十分に学習できたら第n+1層へ
2. Fine-tuning（教師あり学習）
– ラベルをもとに
Back Propagation
𝑣
ℎ(1)
ℎ(2)
ℎ(𝐾)
・・・
1 2 𝑚𝑙・・・・・・
ラベル𝑙 ： 0,0, … , 1, … 0 ⊤
𝑙番目
∆𝑤𝑖𝑗 ∝ ℎ𝑖
𝑛 𝑎
ℎ𝑗
𝑛+1
− ℎ𝑖
𝑛 𝑎
ℎ𝑗
𝑛+1
Contrastive Divergence：
データから
求めた値
サンプリングして
求めた値

DBN 音素認識へ適用
𝑠4 𝑠5 𝑠6
0.8
1.0 0.2 0.5 0.4
0.60.5
HMM＋GMM
MFCCにラベル付け
0.7
0.3
⋮
0.7
0.1
⋮
0.5
0.3
⋮
,
0.3
0.2
⋮
0.2
0.1
⋮
0.3
0.1
⋮
0.5
0.1
⋮
,
0.3
0.1
⋮
0.7
0.2
⋮
,
0.7
0.1
⋮
0.4
0.2
⋮
0.7
0.2
⋮
MFCC「𝑠4」 MFCC「𝑠5」 MFCC「𝑠6」
𝑠4 𝑠5 𝑠6
0.8
1.0 0.2 0.5 0.4
0.60.5
HMM＋DBN
𝑣
ℎ(1)
ℎ(𝐾)
・・・
1 2 𝑚𝑙・・・・・・
nフレームまとめて
可視素子とする
（ラベルは中央の
フレームのもの）
0.7
0.3
⋮
0.7
0.2
⋮
0.7
0.1
⋮
0.5
0.3
⋮
,
0.3
0.2
⋮
MFCCの列
各状態の尤度を
ソフトマックス関数で定義DBN学習
・Pre-traning
・Fine-tuning
引き継ぐ

実験
• 条件
– 実験データ：TIMIT corpus
• 学習用：50話者，テスト用：24話者
– パラメータ
• 可視素子に割り当てるフレーム数n：11フレーム
（1フレームあたり12次MFCC＋パワー）
• 隠れ層数K：5層（1層あたり2048素子）
• ラベル数（HMM状態数）m：183（61音素×3状態）
• 結果音素認識誤り率
9/10

まとめ
• テーマ
– 音素認識＋Deep Belief Net（DBN）
• ポイント
– HMMの出力確率分布モデル：GMM→DBN
• DBN
– Restricted Boltzmann Machine（RBM）を多層化したもの
– Contrastive Divergenceを使って学習
• 実験結果
– 音素認識誤り率20%で既存手法より高精度
10/10

Acoustic Modeling using Deep Belief Networks

Recommended

Recommended

More Related Content

What's hot

What's hot (19)

Viewers also liked

Viewers also liked (13)

More from Junya Saito

More from Junya Saito (6)

Acoustic Modeling using Deep Belief Networks