やるおがtriphone HMMを作るようです

やるおが
Triphone HMMを
作るようです

June 7, 2011, Shinya Shimizu
(@kakenman)
2011年6月7日火曜日

|┃三ガラッ
|┃ ＿＿＿_
|┃／͡ ͡＼
|┃（●）（●）＼
̶̶‐.|┃:͡（__人__）͡:::::＼えへへっ
|┃ |r┬-| |͡) HTKの使い方教えてくれだお！
|┃ `ー'ｫ／/
（͡ヽ・・￣／
|┃ノ /
|┃ つ <
|┃ (::)(::) ヽ
|┃／ > ）
|┃ (＿＿)

|┃
|┃ ＿＿＿_
|┃／͡ ͡＼
|┃ （̶）（̶）＼
̶̶‐.|┃:͡（__人__）͡:::::＼
|┃ |
|┃ ／
|┃ヽ・・￣／
|┃ ＼ ,.:∴~・:,゜・~・:,゜・ ,
|┃ヽ＿）つ ∴・゜゜・・∴~・:,゜・・∴
|┃ (::)(::) ヽ・゜゜・∴~゜
|┃／ > ）゜゜・∴:,゜・~
|┃ (＿＿) :,゜・~:,゜・゜゜・~


／￣￣＼
／ﾉ( _ノ＼
| ͡(（ ●）（●） < HTKBook読んで勝手にやってろ！
.| （__人__） /͡l
| ｀ ͡´ﾉ |`'''|
／ ͡ヽ } | | ＿＿＿_ ぐぇあ
／へ＼ }__/ / ／─ ̶＼
／／ | ノノ／●））（（●＼ . , ･
( _ ノ | ＼´ ＿／（__人__） ,∴＼ ,
| ＼＿,, -‐ ''" ￣￣ﾞ''̶---└'´￣｀ヽ/ > て
.| ＿＿ノ／（
ヽ＿,, -‐ ''"￣ヽ､￣ `ー'´ ／ｒ'"￣
＼ , '´ / .|
＼ ( / |
＼＼ / |


＿＿＿_
／＼
／ _ノヽ､_ ＼
／ oﾟ(（●）) (（●）)ﾟo ＼でもHTKBookは英語だお・・・
| （__人__） | そもそもBaum-WelchどころかHMMもよくわかってないお
＼｀ ͡´ ／でもHTKが使えるようにしてくれだお

／￣￣＼
／ _ノ＼ HMMわかってなくてHTKが理解できるわけないだろ・・・
| （ ●）（●）
. | （__人__）まぁ，だが一応だいたいの説明をしながら演習をすることはできる
| ｀ ͡´ﾉ就職も決まったし教えてやるよ・・・
. | }
. ヽ }
ヽノ＼
/ く＼＼
| ＼＼＼
| |ヽ、二͡)､＼


／￣￣＼
／ _ノ＼まず，HMMだが，HMMについてちゃんと説明し出すと結構な手間だ．
| （ ●）（●）全く分かってないんなら，「(時間的に)変化する特徴量の系列を記述したもの」
. | （__人__）と思っておけばいい．音素の数だけHMMを作って，入力音声に対して，
| ｀ ͡´ﾉ /a/のHMMはどうか？/i/のHMMはどうか・・・と順番にあてはめていって，
. | } 一番それっぽいものを認識結果とするわけだな．
. ヽ }
ヽノ＼
/ く＼＼
| ＼＼＼
| |ヽ、二͡)､＼

※ HMMは「(時間的に)変化する特徴量のモデル化」というのがポイント。時間的に定常なもの、例えば画像がリン
ゴかナシかの分類をしたいのであれば、単に画素について、「りんごの画素の分布」と「ナシの画素の分布」を学
習すればよい。ところが、音声の場合は時間的に変化するので、時間的に分布が変化していくようなモデルを用い
る必要がある。


／￣￣＼
／ _ノ＼で，/a/のHMM，/i/のHMM...を作成してやる必要がある．
| （ ●）（●）そこで用いられるHMMの学習アルゴリズムがBaum-Welchアルゴリズムだ．
. | （__人__）これも詳細は説明しないが，このアルゴリズムはHMMを0から作ることは
| ｀ ͡´ﾉできない．既にあるHMMのパラメータをアップデートし改良することだけだ．
. | }
. ヽ }
ヽノ＼
/ く＼＼
| ＼＼＼
| |ヽ、二͡)､＼

＿＿＿_
／ノ＼＼
／（●） (●）＼ HMMの作成にHMMが必要とか，意味不明だお・・・
／ ∪ （__人__）＼頭がおかしくなったのかお・・・
| ｀ ͡´ |
＼ /͡)͡)͡) ／/͡)͡)͡)
ノ | / / / (͡) / / / /
／´ | :::::::::::(͡) ゝ :::::::::::/
| ｌ | ノ / ） /
ヽヽ_ヽ /' / ／
ヽ＿＿／ / ／


／￣￣＼
／＼
|:::::: ｜まだ説明は途中だろ，常識的に考えて・・・
. |::::::::::: ｜
|:::::::::::::: ｜ ....,:::´, .
. |:::::::::::::: } ....:::,, ..
. ヽ:::::::::::::: } ,）:::::::ノ .
ヽ:::::::::: ノ（:::::ソ: .
/:::::::::::: く ,ふ´..
-̶̶̶̶̶|:::::::::::::::: ＼ -̶,̶̶ノ::ノ̶̶
|:::::::::::::::|ヽ、二͡)━~~'´


／￣￣＼
／ _ノ＼ Baum-Welchは0からHMMを作ることはできないから，初期HMMがいる．
| （ ●）（●）そして初期HMMの作り方には二種類ある．
. | （__人__）ひとつは，自分で必死で音声を切り出して，ここからここまでが/a/ですよ，
| ｀ ͡´ﾉと教えてやって初期モデルを作る方法だ．HInitコマンドを使ってやる．
. | } だが，音声を切り出すのが面倒だし，今回はやらん．
. ヽ }
ヽノ＼
/ く＼＼
| ＼＼＼
| |ヽ、二͡)､＼

※ Baum-WelchとEM: 一般的に，隠れ変数を持つモデルのパラメータ推定を，隠れ変数の期待値(Expectation)を求める
のと，パラメータの最尤推定解を求める(Maximization)のを繰り返すアルゴリズムをEMアルゴリズム(Expectation
Maximization algorithm)と呼ぶ．HMMに対しEMの考え方を用いてパラメータ推定を行うアルゴリズムをBaum-Welch
アルゴリズムという．つまり，EMは一般名，Baum-WelchはHMMに固有な名前と考えればよい．
ちなみに，Baum-Welchの考え方は，(E)「どこがどの音素っぽいか求める」(M)「じゃあ音素の特徴がわかる」(E)
「それを用いてどこがどの音素っぽいか再推定する」(M)「音素の特徴を再推定する」(E)「どこがどの音素っぽい
か（ｒｙとなる．


／￣￣＼
／ _ノ＼もう一つの方法は，「どこからどこまでが/a/とかわかんないから，全部同じ
| （ ●）（●）初期値でいいや」という方法だ．ﬂat startと呼ばれる．今回はこれを使う．
. | （__人__）
| ｀ ͡´ﾉコマンドとしては，HCompVを使う．これを使って，全部ひっくるめた平均の
. | } 初期モデルを作成しているのがtutorialの2だ．
. ヽ } 3では，それを全音素にコピーして初期値としている．
ヽノ＼
/ く＼＼
| ＼＼＼
| |ヽ、二͡)､＼

※ 前ページのEMでも触れたが，「音素の特徴を推定するには，どこがどの音素か見極める必要がある．」「どこが
どの音素か見極めるには，音素の特徴が分かっていなければならない」という「服を買いに行く服がない」問題を
どう解くかがポイントになる。


／￣￣＼
／ _ノ＼
| （ ●）（●）
. | （__人__）
| ｀ ͡´ﾉこれで初期HMMができた．あとはラベル（どの音声ファイルがどの音素列で
. | } 構成されているか）と音声ファイルを使ってHMMをアップデートしていくだろ，
. ヽ } 常識的に考えて．
ヽノ＼
/ く＼＼
| ＼＼＼
| |ヽ、二͡)､＼


／￣￣￣＼
／ ─ ─ ＼
／（●）（●）＼. ラベルはあるけど，spが書き起こされていないお
| （__人__） | このままだと，spは一回も登場していないから学習されないお
＼｀ ͡´ ／それでいいのかお
／＼

／￣￣＼
／ _ノ＼
| （ ●）（●）そこに気付くとはなかなか鋭いな．
. | （__人__） spはどこで発声されるか分かりづらく，書き起こされていないことが多いんだ．
| ｀ ͡´ﾉ普通，音声を聞いて書き起こすのではなく，セリフを予め用意して読んでもらう
. | } わけだしな．
. ヽ }
ヽノだがとりあえずあんまり気にしなくていい．無視して学習しろ．コマンドは
/ く＼ HERest (Embedded Re-estimation) だ．tutorialの4がこれに当たるな．
| ＼＼＼
| |ヽ、二͡)､＼

※ sp: short pause. 文の間ではなく，文中に任意に現れる休止区間．息継ぎとか．文の読み方によってどこで現れる
かが異なるので，どこにあるか分からない．


＿＿＿_
／＼
／ _ノヽ､_ ＼
／ oﾟ(（●）) (（●）)ﾟo ＼ほんとはちゃんとしたラベルで学習したいんだお・・・
| （__人__）' |
＼｀͡´ ／

＿＿＿_
／＼
／ _ノヽ､_ ＼
／ oﾟ͡ ͡ﾟo ＼でもどこにspが入っているかまでラベルに書いていないお・・・
| （__人__） |
＼｀ ͡´ ／

＿＿＿_
／͡ ͡＼
／（ ●）（●）＼
／::::::͡（__人__）͡::::: ＼だからspはなかったことにして学習するお！
| |r┬-| |
＼ `ー'´ ／


＿＿＿_
／＼（ ;;;;(
／＿ノヽ__＼) ;;;;)
／（─）（─ /;;／
| （__人__） l;;,´ spを無視してとりあえずsp以外を学習したものの，
/ ∩ ノ)━・'／ spの学習はどうするんだお・・・
( ＼／＿ノ´.| |
.＼ " ／＿＿| |
＼／＿＿＿／

／￣￣＼
／ _ノ＼
| （ ●）（●）
. | （__人__）大丈夫だ．spは要はポーズだ．
| ｀ ͡´ﾉ長さなど多少は違うものの，silE, silBとかなり似ているんだ．
. | } とりあえず，silEをコピーしてspにしておけばいいだろう．
. ヽ } これがtutorialの5だな。
ヽノ＼
/ く＼＼
| ＼＼＼
| |ヽ、二͡)､＼


|王| ┴ ソ十/ | | | | ＿丿
ﾆ|ﾆ|ﾆ二王 /ﾚ､ﾚ | | | ＼
ノヽ口我Ｖンノ･･）いくらなんでもsilEをコピーしてspってのはひどいお
ヽそれだったらそもそもspを作る必要がないお！
／＼丿＼ `ｖ'͡ヽ／͡ヽ／ ,. ‐- .. _
／（ ●）（●）／ __ ｀` ｰ- 、
／ ::::::͡（＿人__）͡ヽ , ｨ／ゝヽ￣ヽｰ- '
| |r┬-| | _ ／ { {ヽ、_ ヽ' ﾉ_,.〉
＼ `ー'´ ／ｧー- ､＿ ... -‐ ' ヽヽ、｀＞､..ﾉ=┘
／j >-‐ ' ´／ / / ／ _ノ＼ `ｰ '!
, -‐ 7´/{͡| ／ _/ ｊ＞‐'
/ / /／| 〉‐ｆ／＼' ! , ' ´
/ ,' > .|/ ﾚﾟﾉ | ,.. -‐ '"
/ { ヽ | 〉／＿＿ｔ ,. -‐ ' ´
| ヽ| / ／ ' ` ヽ、／
| ｀!/／／

／￣￣＼
／＼ spを含めてそれらしい音響モデルができたんだ，
|:::::: ｜それを使ってspの場所をdetectして
. |::::::::::: ｜ラベルを書き直して学習し直すだろ，常識的に考えて・・・
|:::::::::::::: ｜ ....,:::´, .
. |:::::::::::::: } ....:::,, ..
. ヽ:::::::::::::: } ,）:::::::ノ .
ヽ:::::::::: ノ（:::::ソ: .
/:::::::::::: く ,ふ´..
-̶̶̶̶̶|:::::::::::::::: ＼ -̶,̶̶ノ::ノ̶̶
|:::::::::::::::|ヽ、二͡)━~~'´

／￣￣￣＼
／ ─ ─ ＼
／（●）（●）＼. よくわからないお．
| （__人__） | spを無視して学習するのは必要だったのかお？
＼｀ ͡´ ／
／＼

／￣￣＼
／ _ノ＼本当はsp入りのラベルが欲しいが，どこにspが入っているか分からない．
| （ ●）（●）そこでどこにspが入っているか自動推定したいんだが，そのためには
. | （__人__）どこがどの音っぽい，という情報，HMMが必要になる．
| ｀ ͡´ﾉ HMMを作るのにHMMが必要になるわけだ．そこで，まずspを無視して
. | } 粗いHMMを作成しておいて，それを使ってspの位置を推定して，改めて
. ヽ } 学習し直すんだ．
ヽノ spの位置を推定しているのがtutorialの6，それを用いて学習し直して
/ く＼いるのがtutorialの7だ．
| ＼＼＼
| |ヽ、二͡)､＼


＿＿＿_
／＼（ ;;;;(
／＿ノヽ__＼) ;;;;)
／（─）（─ /;;／
| （__人__） l;;,´ なんか面倒だお・・・
/ ∩ ノ)━・'／
( ＼／＿ノ´.| |
.＼ " ／＿＿| |
＼／＿＿＿／

／￣￣＼
／ _ノ＼
| （ ●）（●）面倒なようだが，これはBaum-Welchを使う上での宿命だな．
. | （__人__） Baum-Welchは，HMMのパラメータを更新するんだが，更新前のパラメータ
| ｀ ͡´ﾉから近い局所最適解に近づくだけ，という特徴がある．
. | } つまり，初期値を適切に設定してやる必要があるわけだ．
. ヽ } そのため，初期値を更新してBaum-Welch・・・初期値を更新して
ヽノ Baum-Welch・・・という手順を踏むことになる．
/ く＼
| ＼＼＼
| |ヽ、二͡)､＼

※実際にはBaum-Welchの問題というよりはもっと大きな「服を買いに行く服がない」問題


／￣￣＼
／ _ノ＼
| （ ●）（●）
. | （__人__）
| ｀ ͡´ﾉこれでようやく，monophone音響モデルの完成だ．
. | }
. ヽ }
ヽノ＼
/ く＼＼
| ＼＼＼
| |ヽ、二͡)､＼


／￣￣￣＼
／ ─ ─ ＼
／（●）（●）＼.
| （__人__） | monophone音響モデル？
＼｀ ͡´ ／
／＼

／￣￣＼
／ _ノ＼
| （ ●）（●）
. | （__人__）
| ｀ ͡´ﾉ
. | } ああ，monophoneだ．
. ヽ }
ヽノ
/ く＼
| ＼＼＼
| |ヽ、二͡)､＼


γ ͡͡ヽやるおはtriphoneの作り方を聞いたんだお！！
／￣￣＼（ ( ヽ ) ﾉ monophoneなんて要らないんだお！
／_ノ＼ (͡) 三ﾉ从ゝ
（ ●）（ ●）ヽ三/ | ニ＿＿＿_ (͡)
. | （__人__） u } | | ／＼／ ) し / | ミ
| ｀ ͡´ ﾉ ! ､／(○ ）::（○ ）͡＼/ | ミ
. | } ＼.／:::::::（_人＿）:::::::: i' |
. ヽ } | ）ww） | |
ヽノヘ＼ `ー" ﾉ
/ く､＿／っ/ ＼．．＼
| ＼--一'' ＼
| |ヽ、二͡)､＼

まぁまて，落ち着け・・・


／￣￣＼
／ _ノ＼さっきもいった通り，Baum-WelchによるHMMの更新には初期値が重要になる
| （ ●）（●）突然triphoneを作ると，初期値が適当でないから変な値になってしまうんだ．
. | （__人__） triphoneは，monophoneの種類の三乗の種類があるんだからな．※
| ｀ ͡´ﾉここまでで作ったmonophoneのHMMを初期値として，triphoneのHMMを
. | } 学習するんだ．
. ヽ }
ヽノここらがtutorialの10,11,12に当たるな．
/ く＼言い忘れていたが，monophone->triphoneなど，HMMの変更には
| ＼＼ HHEd(HMM Edit)を用いる
| |ヽ、二͡)､＼

※一般論として，求めるべきパラメータに対して学習サンプルが少なすぎると，たまたま出てきたサンプルに適合
するように学習されてしまって汎用性がなくなる．これを過学習（Overﬁtting)という．
これを防ぐため，今回のように，だいたいこういう値だよ，という事前知識を与えてやる方法がよく用いられる
ちなみに，triphoneはmonophoneの三乗あるってのは実は嘘．t t t とかいうtriphoneが存在しないように，言語的
に存在し得ない音素列は多い．


／￣￣＼
／ _ノ＼
| （ ●）（●）
. | （__人__）
| ｀ ͡´ﾉこれで，基本的にtriphoneHMMは完成だ．
. | }
. ヽ }
ヽノ＼
/ く＼＼
| ＼＼＼
| |ヽ、二͡)､＼

／￣￣￣＼
／ ─ ─ ＼
／（●）（●）＼. まだtutorialには13,14,15,16,17があるお
| （__人__） | こいつらは不要なのかお
＼｀ ͡´ ／
／＼


／￣￣＼それは，triphoneの過学習を緩和するために状態共有を行ったり，
／＼ HMMの出力分布をSingle GaussianからGaussian Mixtureに
|:::::: ｜変更したりしている部分だな．GMM(Gaussian Mixture Model)は
. |::::::::::: ｜はSingle Gaussianより記述力が高く，より自由なモデル化ができる
|:::::::::::::: ｜
. |:::::::::::::: } ....:::,, ..
. ヽ:::::::::::::: } ,）:::::::ノ .
ヽ:::::::::: ノ（:::::ソ: .
/:::::::::::: く ,ふ´..
-̶̶̶̶̶|:::::::::::::::: ＼ -̶,̶̶ノ::ノ̶̶
|:::::::::::::::|ヽ、二͡)━~~'´

／￣￣￣＼
／ ─ ─ ＼
／（●）（●）＼. 日本語でおｋだお
| （__人__） |
＼｀ ͡´ ／
／＼


／￣￣＼
／ _ノ＼
| （ ●）（●）
. | （__人__）
| ｀ ͡´ﾉまぁ，この辺は別に本質じゃない．説明しようと思えばできるが・・・
. | } 今日はとりあえずここまででいいだろう．ちゃんとtriphoneHMMはできたしな．
. ヽ }
ヽノ＼
/ く＼＼
| ＼＼＼
| |ヽ、二͡)､＼


／￣￣＼
／ヽ_ .＼というわけで，これで終了だ．
（ ●）（ ●）｜あとはHTKBookを読んで頑張ってくれ．
（__人__） |
ｌ｀ ͡´ ｜
{ ｜やるおがTriphone HMMを作るようです
{ / 完
ヽノ
▼／￣￣￣）＿＿__
〃(⊥) ´/ /￣￣/ / 〃 ͡i
＿＿＿i /͡＼./ /∧ ∧し' ＿＿|;;;;;;;;;;i


使ったコマンドまとめ１
• HCopy
• 特徴量抽出コマンド．今回はwavからMFCCを作った．

• HCompV
• データ全ての平均と分散をとる．ﬂat startのHMMの初期化に使う

• HInit & HRest
• bootstrapped startの時に使う．手動で音声を切り分けてHMMを初期
化

• HERest ( Embedded Re-estimation)
• 音声データとその音素ラベルを用いて，Baum-WelchによりHMMのパ
ラメータ更新を行う．

• HERestとHRestの違い

• HERestはEmbedded．手動で音声を切り分けずに，「こことここが同
じ音」という条件だけをもとに自動切り分けをしつつ学習する．
HRestは手動切り分けが必要．


使ったコマンドまとめ２

• HParse
• 手動で作成した認識用文法をコンパイルして認識に使える形式に
する．

• HVite (Viterbi)
• 文法による音声認識を行う．（大語彙連続音声認識は無理）

• 認識結果を与えて音素のアラインメントに用いることもできる．

• 結果を与えた音素アラインメントを強制アラインメントという

• HLEd (Label Edit)
• ラベルファイルを編集する．今回はmonophoneラベルからtriphone
ラベルへの変更に用いた．

• HHEd (HMM Edit)
• HMMを編集する．今回はMixture数の変更などに用いた．


やるおがtriphone HMMを作るようです

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to やるおがtriphone HMMを作るようです

Similar to やるおがtriphone HMMを作るようです (13)

やるおがtriphone HMMを作るようです