SlideShare a Scribd company logo
1 of 11
Acoustic Modeling using
Deep Belief Networks
[IEEE TRANS. ON AUDIO, SPEECH,
AND LANGUAGE PROCESSING 2010]
Abdel-rahman Mohamed, George E. Dahl,
and Geoffrey Hinton (University of Toronto)
斎藤 淳哉
間違い等ありましたらご連絡ください
junya【あっと】fugaga.info
論文紹介
2013/06/01
テーマ
音声認識+Deep Learning
(音素認識) (Deep Belief Net)
1/10
目次
• 音素認識
– 推定
– 学習
• 隠れマルコフモデル
• Deep Belief Net
– 構造
– 学習
– 音素認識へ適用
• 実験
• まとめ 2/10
音素認識 推定
音声信号 𝑠1 𝑠2 𝑠3
𝑠4 𝑠5 𝑠6
𝑠7 𝑠8 𝑠9
HMM 「あ」
HMM 「い」
HMM 「う」学習しておいた
確率分布モデル(HMM)
から最尤の音素を探索
特徴量抽出
(MFCC )
フレーム分割
※本筋でないので説明略。
ここでは、FFTなどを使って計算される特徴量と理解してください。
※
MFCCの列
0.6
0.1
⋮
,
0.7
0.2
⋮
,
0.3
0.1
⋮
,
0.5
0.3
⋮
3/10
音素認識 学習
音声信号「い」 MFCC「い」の列
𝑠4 𝑠5 𝑠6
HMM
特徴量抽出
(MFCC)
フレーム分割
学習
(Baum-Welch
アルゴリズム)
MFCC「い」の列が
出力されそうに
なるように学習
・・・・・・
※本筋でないので説明略。動的計画法を使う。
※
0.7
0.3
⋮
,
0.7
0.2
⋮
,
0.5
0.3
⋮
,
0.3
0.2
⋮
,
0.2
0.1
⋮
0.5
0.1
⋮
,
0.3
0.1
⋮
,
0.3
0.1
⋮
,
0.5
0.3
⋮
0.7
0.2
⋮
,
0.7
0.1
⋮
,
0.4
0.2
⋮
4/10
隠れマルコフモデル(Hidden Markov Model, HMM)
• HMM
【定義】(状態,状態遷移確率,出力確率分布モデル)
【特徴】一定でない長さの出力系列に対応した生成モデル
音声認識において一般的な出力確率分布モデル:GMM
(MFCCの列)
𝑠4 𝑠5 𝑠6
0.8
1.0 0.2 0.5 0.4
0.60.5
状態遷移確率
出力確率分布モデル
状態
0.6,0.1, … ⊤
0.5,0.3, … ⊤0.7,0.2, … ⊤
0.3,0.1, … ⊤
本論文のポイント:GMM→DBN
MFCCの列
5/10
Deep Belief Net(DBN) 構造
• DBN
– Restricted Boltzmann Machine(RBM)を多層化したもの
𝑣𝑖
ℎ𝑗
※通常のRBM:
可視素子:2値{0,1},隠れ素子:2値{0,1}
Gaussian-Bernoulli RBM(本論文で採用):
可視素子:連続値, 隠れ素子:2値{0,1}
RBM
𝑣
ℎ(1)
ℎ(2)
ℎ(𝐾)
DBN
𝑤𝑖𝑗
可視素子
隠れ素子
・・・
重み
可視層
隠れ層
隠れ層
隠れ層
DBN 学習
1. Pre-training(教師なし学習)
– 第n層で重み𝑤𝑖𝑗をSGD with mini-batch
– 十分に学習できたら第n+1層へ
2. Fine-tuning(教師あり学習)
– ラベルをもとに
Back Propagation
𝑣
ℎ(1)
ℎ(2)
ℎ(𝐾)
・・・
1 2 𝑚𝑙・・・ ・・・
ラベル𝑙 : 0,0, … , 1, … 0 ⊤
𝑙番目
∆𝑤𝑖𝑗 ∝ ℎ𝑖
𝑛 𝑎
ℎ𝑗
𝑛+1
− ℎ𝑖
𝑛 𝑎
ℎ𝑗
𝑛+1
Contrastive Divergence:
データから
求めた値
サンプリングして
求めた値
DBN 音素認識へ適用
𝑠4 𝑠5 𝑠6
0.8
1.0 0.2 0.5 0.4
0.60.5
HMM+GMM
MFCCにラベル付け
0.7
0.3
⋮
0.7
0.1
⋮
0.5
0.3
⋮
,
0.3
0.2
⋮
0.2
0.1
⋮
0.3
0.1
⋮
0.5
0.1
⋮
,
0.3
0.1
⋮
0.7
0.2
⋮
,
0.7
0.1
⋮
0.4
0.2
⋮
0.7
0.2
⋮
MFCC「𝑠4」 MFCC「𝑠5」 MFCC「𝑠6」
𝑠4 𝑠5 𝑠6
0.8
1.0 0.2 0.5 0.4
0.60.5
HMM+DBN
𝑣
ℎ(1)
ℎ(𝐾)
・・・
1 2 𝑚𝑙・・・ ・・・
nフレームまとめて
可視素子とする
(ラベルは中央の
フレームのもの)
0.7
0.3
⋮
0.7
0.2
⋮
0.7
0.1
⋮
0.5
0.3
⋮
,
0.3
0.2
⋮
MFCCの列
各状態の尤度を
ソフトマックス関数で定義DBN学習
・Pre-traning
・Fine-tuning
引き継ぐ
実験
• 条件
– 実験データ:TIMIT corpus
• 学習用:50話者,テスト用:24話者
– パラメータ
• 可視素子に割り当てるフレーム数n:11フレーム
(1フレームあたり12次MFCC+パワー)
• 隠れ層数K:5層(1層あたり2048素子)
• ラベル数(HMM状態数)m:183(61音素×3状態)
• 結果 音素認識誤り率
9/10
まとめ
• テーマ
– 音素認識+Deep Belief Net(DBN)
• ポイント
– HMMの出力確率分布モデル:GMM→DBN
• DBN
– Restricted Boltzmann Machine(RBM)を多層化したもの
– Contrastive Divergenceを使って学習
• 実験結果
– 音素認識誤り率20%で既存手法より高精度
10/10

More Related Content

What's hot

ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)Shinnosuke Takamichi
 
人狼知能合宿 自然言語部門 2016/10/10
人狼知能合宿 自然言語部門 2016/10/10人狼知能合宿 自然言語部門 2016/10/10
人狼知能合宿 自然言語部門 2016/10/10Hiroaki Sugiyama
 
音声合成・変換の国際コンペティションへの 参加を振り返って
音声合成・変換の国際コンペティションへの  参加を振り返って音声合成・変換の国際コンペティションへの  参加を振り返って
音声合成・変換の国際コンペティションへの 参加を振り返ってShinnosuke Takamichi
 
Phonetic Posteriorgrams for Many-to-One Voice Conversion without Parallel Dat...
Phonetic Posteriorgrams for Many-to-One Voice Conversion without Parallel Dat...Phonetic Posteriorgrams for Many-to-One Voice Conversion without Parallel Dat...
Phonetic Posteriorgrams for Many-to-One Voice Conversion without Parallel Dat...KCS Keio Computer Society
 
音声合成研究を加速させるためのコーパスデザイン
音声合成研究を加速させるためのコーパスデザイン音声合成研究を加速させるためのコーパスデザイン
音声合成研究を加速させるためのコーパスデザインShinnosuke Takamichi
 
20210828 ポリモーフィズムってなに?【lt用】
20210828 ポリモーフィズムってなに?【lt用】20210828 ポリモーフィズムってなに?【lt用】
20210828 ポリモーフィズムってなに?【lt用】RyuzoYamate
 
音声コーパス設計と次世代音声研究に向けた提言
音声コーパス設計と次世代音声研究に向けた提言音声コーパス設計と次世代音声研究に向けた提言
音声コーパス設計と次世代音声研究に向けた提言Shinnosuke Takamichi
 
ごあいさつ 或いはMATLAB教徒がPythonistaに改宗した話 (関東CV勉強会)
ごあいさつ 或いはMATLAB教徒がPythonistaに改宗した話 (関東CV勉強会)ごあいさつ 或いはMATLAB教徒がPythonistaに改宗した話 (関東CV勉強会)
ごあいさつ 或いはMATLAB教徒がPythonistaに改宗した話 (関東CV勉強会)Yoshitaka Ushiku
 
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析Shinnosuke Takamichi
 
TensorFlowをざっくりLTしてみた
TensorFlowをざっくりLTしてみたTensorFlowをざっくりLTしてみた
TensorFlowをざっくりLTしてみたMitsuki Ogasahara
 
聾者向け文章読解支援における構文的言い換えの効果について
聾者向け文章読解支援における構文的言い換えの効果について聾者向け文章読解支援における構文的言い換えの効果について
聾者向け文章読解支援における構文的言い換えの効果についてKodaira Tomonori
 
音声の声質を変換する技術とその応用
音声の声質を変換する技術とその応用音声の声質を変換する技術とその応用
音声の声質を変換する技術とその応用NU_I_TODALAB
 
コンピュータに「最長しりとり」「最短距離でのJR線全線乗り尽くし」を解いてもらった方法
コンピュータに「最長しりとり」「最短距離でのJR線全線乗り尽くし」を解いてもらった方法コンピュータに「最長しりとり」「最短距離でのJR線全線乗り尽くし」を解いてもらった方法
コンピュータに「最長しりとり」「最短距離でのJR線全線乗り尽くし」を解いてもらった方法Hiro H.
 
ニューラルチューリングマシン入門
ニューラルチューリングマシン入門ニューラルチューリングマシン入門
ニューラルチューリングマシン入門naoto moriyama
 
ピーFIの研究開発現場
ピーFIの研究開発現場ピーFIの研究開発現場
ピーFIの研究開発現場Yuya Unno
 

What's hot (19)

ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
 
人狼知能合宿 自然言語部門 2016/10/10
人狼知能合宿 自然言語部門 2016/10/10人狼知能合宿 自然言語部門 2016/10/10
人狼知能合宿 自然言語部門 2016/10/10
 
音声合成・変換の国際コンペティションへの 参加を振り返って
音声合成・変換の国際コンペティションへの  参加を振り返って音声合成・変換の国際コンペティションへの  参加を振り返って
音声合成・変換の国際コンペティションへの 参加を振り返って
 
Phonetic Posteriorgrams for Many-to-One Voice Conversion without Parallel Dat...
Phonetic Posteriorgrams for Many-to-One Voice Conversion without Parallel Dat...Phonetic Posteriorgrams for Many-to-One Voice Conversion without Parallel Dat...
Phonetic Posteriorgrams for Many-to-One Voice Conversion without Parallel Dat...
 
次元の呪い
次元の呪い次元の呪い
次元の呪い
 
音声合成研究を加速させるためのコーパスデザイン
音声合成研究を加速させるためのコーパスデザイン音声合成研究を加速させるためのコーパスデザイン
音声合成研究を加速させるためのコーパスデザイン
 
20210828 ポリモーフィズムってなに?【lt用】
20210828 ポリモーフィズムってなに?【lt用】20210828 ポリモーフィズムってなに?【lt用】
20210828 ポリモーフィズムってなに?【lt用】
 
音声コーパス設計と次世代音声研究に向けた提言
音声コーパス設計と次世代音声研究に向けた提言音声コーパス設計と次世代音声研究に向けた提言
音声コーパス設計と次世代音声研究に向けた提言
 
Emnlp読み会資料
Emnlp読み会資料Emnlp読み会資料
Emnlp読み会資料
 
ごあいさつ 或いはMATLAB教徒がPythonistaに改宗した話 (関東CV勉強会)
ごあいさつ 或いはMATLAB教徒がPythonistaに改宗した話 (関東CV勉強会)ごあいさつ 或いはMATLAB教徒がPythonistaに改宗した話 (関東CV勉強会)
ごあいさつ 或いはMATLAB教徒がPythonistaに改宗した話 (関東CV勉強会)
 
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
 
TensorFlowをざっくりLTしてみた
TensorFlowをざっくりLTしてみたTensorFlowをざっくりLTしてみた
TensorFlowをざっくりLTしてみた
 
聾者向け文章読解支援における構文的言い換えの効果について
聾者向け文章読解支援における構文的言い換えの効果について聾者向け文章読解支援における構文的言い換えの効果について
聾者向け文章読解支援における構文的言い換えの効果について
 
音声の声質を変換する技術とその応用
音声の声質を変換する技術とその応用音声の声質を変換する技術とその応用
音声の声質を変換する技術とその応用
 
コンピュータに「最長しりとり」「最短距離でのJR線全線乗り尽くし」を解いてもらった方法
コンピュータに「最長しりとり」「最短距離でのJR線全線乗り尽くし」を解いてもらった方法コンピュータに「最長しりとり」「最短距離でのJR線全線乗り尽くし」を解いてもらった方法
コンピュータに「最長しりとり」「最短距離でのJR線全線乗り尽くし」を解いてもらった方法
 
Deeplearining1
Deeplearining1Deeplearining1
Deeplearining1
 
ニューラルチューリングマシン入門
ニューラルチューリングマシン入門ニューラルチューリングマシン入門
ニューラルチューリングマシン入門
 
Deep forest
Deep forestDeep forest
Deep forest
 
ピーFIの研究開発現場
ピーFIの研究開発現場ピーFIの研究開発現場
ピーFIの研究開発現場
 

Viewers also liked

心臓超音波
心臓超音波心臓超音波
心臓超音波s1180197
 
フィルタの世界観
フィルタの世界観フィルタの世界観
フィルタの世界観Takayuki Hoshi
 
立体音響とインタラクション
立体音響とインタラクション立体音響とインタラクション
立体音響とインタラクションRyohei Suzuki
 
馬;一次診療における超音波画像診断
馬;一次診療における超音波画像診断馬;一次診療における超音波画像診断
馬;一次診療における超音波画像診断Tsuda Tomonori
 
[CM2015] Chapter 3 - AGCM
[CM2015] Chapter 3 - AGCM[CM2015] Chapter 3 - AGCM
[CM2015] Chapter 3 - AGCMXinyu Wen
 
馬のお産 自然なお産と助産の方法 
馬のお産 自然なお産と助産の方法 馬のお産 自然なお産と助産の方法 
馬のお産 自然なお産と助産の方法 Tsuda Tomonori
 
超音波通信という怪しい技術 In html5minutes 7 #tritonjs
超音波通信という怪しい技術 In html5minutes 7 #tritonjs超音波通信という怪しい技術 In html5minutes 7 #tritonjs
超音波通信という怪しい技術 In html5minutes 7 #tritonjsK Kinzal
 
[CM2015] Chapter 2 - Numerical Method
[CM2015] Chapter 2 - Numerical Method[CM2015] Chapter 2 - Numerical Method
[CM2015] Chapter 2 - Numerical MethodXinyu Wen
 
iOS7アプリ同士の近距離通信どれがいい?
iOS7アプリ同士の近距離通信どれがいい?iOS7アプリ同士の近距離通信どれがいい?
iOS7アプリ同士の近距離通信どれがいい?Norihiro Arita
 
機器人齊步走 V5 m_bot_mblock
機器人齊步走 V5 m_bot_mblock機器人齊步走 V5 m_bot_mblock
機器人齊步走 V5 m_bot_mblock信仁 邱
 
集束超音波でできること
集束超音波でできること集束超音波でできること
集束超音波でできることTakayuki Hoshi
 
超音波を利用した先端研究 ~集束超音波による非接触作用力の応用展開について~
超音波を利用した先端研究 ~集束超音波による非接触作用力の応用展開について~超音波を利用した先端研究 ~集束超音波による非接触作用力の応用展開について~
超音波を利用した先端研究 ~集束超音波による非接触作用力の応用展開について~Takayuki Hoshi
 

Viewers also liked (13)

心臓超音波
心臓超音波心臓超音波
心臓超音波
 
フィルタの世界観
フィルタの世界観フィルタの世界観
フィルタの世界観
 
立体音響とインタラクション
立体音響とインタラクション立体音響とインタラクション
立体音響とインタラクション
 
Jsum87ki016(abus)
Jsum87ki016(abus)Jsum87ki016(abus)
Jsum87ki016(abus)
 
馬;一次診療における超音波画像診断
馬;一次診療における超音波画像診断馬;一次診療における超音波画像診断
馬;一次診療における超音波画像診断
 
[CM2015] Chapter 3 - AGCM
[CM2015] Chapter 3 - AGCM[CM2015] Chapter 3 - AGCM
[CM2015] Chapter 3 - AGCM
 
馬のお産 自然なお産と助産の方法 
馬のお産 自然なお産と助産の方法 馬のお産 自然なお産と助産の方法 
馬のお産 自然なお産と助産の方法 
 
超音波通信という怪しい技術 In html5minutes 7 #tritonjs
超音波通信という怪しい技術 In html5minutes 7 #tritonjs超音波通信という怪しい技術 In html5minutes 7 #tritonjs
超音波通信という怪しい技術 In html5minutes 7 #tritonjs
 
[CM2015] Chapter 2 - Numerical Method
[CM2015] Chapter 2 - Numerical Method[CM2015] Chapter 2 - Numerical Method
[CM2015] Chapter 2 - Numerical Method
 
iOS7アプリ同士の近距離通信どれがいい?
iOS7アプリ同士の近距離通信どれがいい?iOS7アプリ同士の近距離通信どれがいい?
iOS7アプリ同士の近距離通信どれがいい?
 
機器人齊步走 V5 m_bot_mblock
機器人齊步走 V5 m_bot_mblock機器人齊步走 V5 m_bot_mblock
機器人齊步走 V5 m_bot_mblock
 
集束超音波でできること
集束超音波でできること集束超音波でできること
集束超音波でできること
 
超音波を利用した先端研究 ~集束超音波による非接触作用力の応用展開について~
超音波を利用した先端研究 ~集束超音波による非接触作用力の応用展開について~超音波を利用した先端研究 ~集束超音波による非接触作用力の応用展開について~
超音波を利用した先端研究 ~集束超音波による非接触作用力の応用展開について~
 

More from Junya Saito

Large-Scale Bandit Problems and KWIK Learning
Large-Scale Bandit Problems and KWIK LearningLarge-Scale Bandit Problems and KWIK Learning
Large-Scale Bandit Problems and KWIK LearningJunya Saito
 
3分でわかる多項分布とディリクレ分布
3分でわかる多項分布とディリクレ分布3分でわかる多項分布とディリクレ分布
3分でわかる多項分布とディリクレ分布Junya Saito
 
Improving neural networks by preventing co adaptation of feature detectors
Improving neural networks by preventing co adaptation of feature detectorsImproving neural networks by preventing co adaptation of feature detectors
Improving neural networks by preventing co adaptation of feature detectorsJunya Saito
 
Deep Mixtures of Factor Analysers
Deep Mixtures of Factor AnalysersDeep Mixtures of Factor Analysers
Deep Mixtures of Factor AnalysersJunya Saito
 
Bayesian Efficient Multiple Kernel Learning
Bayesian Efficient Multiple Kernel LearningBayesian Efficient Multiple Kernel Learning
Bayesian Efficient Multiple Kernel LearningJunya Saito
 

More from Junya Saito (6)

Large-Scale Bandit Problems and KWIK Learning
Large-Scale Bandit Problems and KWIK LearningLarge-Scale Bandit Problems and KWIK Learning
Large-Scale Bandit Problems and KWIK Learning
 
3分でわかる多項分布とディリクレ分布
3分でわかる多項分布とディリクレ分布3分でわかる多項分布とディリクレ分布
3分でわかる多項分布とディリクレ分布
 
Improving neural networks by preventing co adaptation of feature detectors
Improving neural networks by preventing co adaptation of feature detectorsImproving neural networks by preventing co adaptation of feature detectors
Improving neural networks by preventing co adaptation of feature detectors
 
Maxout networks
Maxout networksMaxout networks
Maxout networks
 
Deep Mixtures of Factor Analysers
Deep Mixtures of Factor AnalysersDeep Mixtures of Factor Analysers
Deep Mixtures of Factor Analysers
 
Bayesian Efficient Multiple Kernel Learning
Bayesian Efficient Multiple Kernel LearningBayesian Efficient Multiple Kernel Learning
Bayesian Efficient Multiple Kernel Learning
 

Acoustic Modeling using Deep Belief Networks

  • 1. Acoustic Modeling using Deep Belief Networks [IEEE TRANS. ON AUDIO, SPEECH, AND LANGUAGE PROCESSING 2010] Abdel-rahman Mohamed, George E. Dahl, and Geoffrey Hinton (University of Toronto) 斎藤 淳哉 間違い等ありましたらご連絡ください junya【あっと】fugaga.info 論文紹介 2013/06/01
  • 3. 目次 • 音素認識 – 推定 – 学習 • 隠れマルコフモデル • Deep Belief Net – 構造 – 学習 – 音素認識へ適用 • 実験 • まとめ 2/10
  • 4. 音素認識 推定 音声信号 𝑠1 𝑠2 𝑠3 𝑠4 𝑠5 𝑠6 𝑠7 𝑠8 𝑠9 HMM 「あ」 HMM 「い」 HMM 「う」学習しておいた 確率分布モデル(HMM) から最尤の音素を探索 特徴量抽出 (MFCC ) フレーム分割 ※本筋でないので説明略。 ここでは、FFTなどを使って計算される特徴量と理解してください。 ※ MFCCの列 0.6 0.1 ⋮ , 0.7 0.2 ⋮ , 0.3 0.1 ⋮ , 0.5 0.3 ⋮ 3/10
  • 5. 音素認識 学習 音声信号「い」 MFCC「い」の列 𝑠4 𝑠5 𝑠6 HMM 特徴量抽出 (MFCC) フレーム分割 学習 (Baum-Welch アルゴリズム) MFCC「い」の列が 出力されそうに なるように学習 ・・・・・・ ※本筋でないので説明略。動的計画法を使う。 ※ 0.7 0.3 ⋮ , 0.7 0.2 ⋮ , 0.5 0.3 ⋮ , 0.3 0.2 ⋮ , 0.2 0.1 ⋮ 0.5 0.1 ⋮ , 0.3 0.1 ⋮ , 0.3 0.1 ⋮ , 0.5 0.3 ⋮ 0.7 0.2 ⋮ , 0.7 0.1 ⋮ , 0.4 0.2 ⋮ 4/10
  • 6. 隠れマルコフモデル(Hidden Markov Model, HMM) • HMM 【定義】(状態,状態遷移確率,出力確率分布モデル) 【特徴】一定でない長さの出力系列に対応した生成モデル 音声認識において一般的な出力確率分布モデル:GMM (MFCCの列) 𝑠4 𝑠5 𝑠6 0.8 1.0 0.2 0.5 0.4 0.60.5 状態遷移確率 出力確率分布モデル 状態 0.6,0.1, … ⊤ 0.5,0.3, … ⊤0.7,0.2, … ⊤ 0.3,0.1, … ⊤ 本論文のポイント:GMM→DBN MFCCの列 5/10
  • 7. Deep Belief Net(DBN) 構造 • DBN – Restricted Boltzmann Machine(RBM)を多層化したもの 𝑣𝑖 ℎ𝑗 ※通常のRBM: 可視素子:2値{0,1},隠れ素子:2値{0,1} Gaussian-Bernoulli RBM(本論文で採用): 可視素子:連続値, 隠れ素子:2値{0,1} RBM 𝑣 ℎ(1) ℎ(2) ℎ(𝐾) DBN 𝑤𝑖𝑗 可視素子 隠れ素子 ・・・ 重み 可視層 隠れ層 隠れ層 隠れ層
  • 8. DBN 学習 1. Pre-training(教師なし学習) – 第n層で重み𝑤𝑖𝑗をSGD with mini-batch – 十分に学習できたら第n+1層へ 2. Fine-tuning(教師あり学習) – ラベルをもとに Back Propagation 𝑣 ℎ(1) ℎ(2) ℎ(𝐾) ・・・ 1 2 𝑚𝑙・・・ ・・・ ラベル𝑙 : 0,0, … , 1, … 0 ⊤ 𝑙番目 ∆𝑤𝑖𝑗 ∝ ℎ𝑖 𝑛 𝑎 ℎ𝑗 𝑛+1 − ℎ𝑖 𝑛 𝑎 ℎ𝑗 𝑛+1 Contrastive Divergence: データから 求めた値 サンプリングして 求めた値
  • 9. DBN 音素認識へ適用 𝑠4 𝑠5 𝑠6 0.8 1.0 0.2 0.5 0.4 0.60.5 HMM+GMM MFCCにラベル付け 0.7 0.3 ⋮ 0.7 0.1 ⋮ 0.5 0.3 ⋮ , 0.3 0.2 ⋮ 0.2 0.1 ⋮ 0.3 0.1 ⋮ 0.5 0.1 ⋮ , 0.3 0.1 ⋮ 0.7 0.2 ⋮ , 0.7 0.1 ⋮ 0.4 0.2 ⋮ 0.7 0.2 ⋮ MFCC「𝑠4」 MFCC「𝑠5」 MFCC「𝑠6」 𝑠4 𝑠5 𝑠6 0.8 1.0 0.2 0.5 0.4 0.60.5 HMM+DBN 𝑣 ℎ(1) ℎ(𝐾) ・・・ 1 2 𝑚𝑙・・・ ・・・ nフレームまとめて 可視素子とする (ラベルは中央の フレームのもの) 0.7 0.3 ⋮ 0.7 0.2 ⋮ 0.7 0.1 ⋮ 0.5 0.3 ⋮ , 0.3 0.2 ⋮ MFCCの列 各状態の尤度を ソフトマックス関数で定義DBN学習 ・Pre-traning ・Fine-tuning 引き継ぐ
  • 10. 実験 • 条件 – 実験データ:TIMIT corpus • 学習用:50話者,テスト用:24話者 – パラメータ • 可視素子に割り当てるフレーム数n:11フレーム (1フレームあたり12次MFCC+パワー) • 隠れ層数K:5層(1層あたり2048素子) • ラベル数(HMM状態数)m:183(61音素×3状態) • 結果 音素認識誤り率 9/10
  • 11. まとめ • テーマ – 音素認識+Deep Belief Net(DBN) • ポイント – HMMの出力確率分布モデル:GMM→DBN • DBN – Restricted Boltzmann Machine(RBM)を多層化したもの – Contrastive Divergenceを使って学習 • 実験結果 – 音素認識誤り率20%で既存手法より高精度 10/10