SlideShare a Scribd company logo
1 of 21
Download to read offline
音声認識ツールキットKaldiを用いた
大語彙日本語音声認識
篠崎隆宏
東京工業大学
工学院 情報通信系
www.ts.ip.titech.ac.jp
1FIT 2016
自己紹介
• これまでの経歴
– 大学院時代は日本語話し言葉コーパスプロジェクト
に参加。音響モデルの作成などを担当
– アメリカUniversity of Washington (UW)、京都大学、
東工大、千葉大学を経て2013年より東工大准教授
– 音響モデルを中心とした音声認識の研究に従事
2
音声認識技術
3
音声
テキスト
テキスト
音声
音声認識
音声合成
音声アシスタント、音声自動翻訳、議事録作成、
字幕作成、対話ロボット、etc.
音声認識器の基本構成
4
A/D変換
特徴量抽出
デコーダ
(パターン認識・
探索)
音響
モデル
言語
モデル
Hello!
マイク
Kaldiツールキットの対象範囲
特徴量抽出
5
周波数分析
(G・H)
Time
デコーダへ
発話内容を表す特徴(H)
話者や抑揚等を表す特徴(G)
Time
廃棄
Gの付替・再合成実験
    HG
 'G
    HG'
元音声
Gを置換
(ブザー音より抽出)
音響モデルと言語モデル
6
 
    WPWOP
OWP
W
W
|maxarg
|maxarg

音響モデル 言語モデル
N-gram
LSTM Neural Network
GMM-HMM
DNN-HMM
デコーディング
7
HMM
音響モデル
発音辞書
N-gram
言語モデル
• 各種モデルを統合して巨大な探索空間を構成
• 最小コストパス探索問題を解くことで認識単語列を求める
モデル学習
• 音響モデルや言語モデルは、予め大量の学習
データから学習
テキスト
データ
ラベル付き
音声データ
言語
モデル
音響
モデル
学習
認識システ
ム
入力音声
認識結果
認識
Kaldi 音声認識ツールキット
• 歴史:
– 2009年のJohns Hopkins University workshopが起源
– 国際的な開発チームにより非常に活発に開発が継続
されている
– 最新の音声認識技術が多く取り入れられている
• 入手
– Githubから無料で配布
– http://kaldi-asr.org/doc/index.html
– Apache license, version 2.0
9
git clone https://github.com/kaldi-asr/kaldi.git kaldi --origin upstream
Kaldi実行に必要な計算機のスペック
• 大語彙認識システムを構築する場合の例
10
CPU
Core i7
メモリ
32GByte
GPU*
GeForce
GTX 970
*ゲーム用のGPUを科学
技術計算に用いるのは
メーカーの保証外(自己
責任)。動作保証が必要な
場合はTesla K20Xなど
*ディープニューラルネットワーク(DNN)の学習を行うのにGPUはほぼ必須
*Kaldiのインストールの前にCUDAをインストール
*コマンドの動作を試してみるだけならノートパソコンでも可
Kaldiツールキットの構成
11
Kaldi
独自コマンド
(src)
外部ツールキット
Openfst, IRSLM, etc.
(tools)
各種認識システム用スクリプト群(レシピ)
英語、日本語、耐雑音、etc.
(egs)
Kaldiのインストール
pikaia1 $ cd kaldi/
pikaia1 $ ls
COPYING INSTALL README.md egs misc src tools windows
pikaia1 $ less INSTALL # インストール手順の説明を読む
pikaia1 $ cd tools/ # 外部ツールキットの自動ダウンロードとコンパイル
pikaia1 $ make -j 4
pikaia1 $ cd ../src/ # kaldiコマンドのコンパイル
pikaia1 $ ./configure
pikaia1 $ make depend –j 4
pikaia1 $ make –j 4
12
CSJレシピを用いた日本語音声認識システムの構築
• KaldiがインストールされたLinuxマシン
• 日本語話し言葉コーパス(CSJ)
– 音声データはKaldiに含まれていないので別途入手
– CSJは国立国語研究所より購入可能
http://pj.ninjal.ac.jp/corpus_center/csj/
• モデル学習に必要な時間
– フルの学習を行う場合、先のスペックのPCで
3-4週間
13
用意するもの
CSJレシピについて
• 東工大篠崎研究室メンバーとアメリカMERL
研究所渡部により共同開発
• DNN構造や学習条件などのシステム
パラメタは東工大のスーパーコンピュータ
TSUBAME2.5を用い、進化計算により最適化
• CSJ標準評価セットで91%の認識精度を実現
14
CSJレシピのディレクトリ構成
15
egs
csj
conf
local
steps
utils
# 独自の処理を行うためのスクリプト
# 他のレシピと共通のスクリプト
# 他のレシピと共通のスクリプト
# 設定ファイル
s5 cmd.sh path.sh run.sh
メイン実行
スクリプト
ジョブ投入設定
スクリプト
パス設定
スクリプト
事前設定
• cmd.sh
– バッチジョブシステム実行かローカル実行かを指定する
(PCでローカル実行の場合はrun.plの使用を指定)
• path.sh
– Kaldiパッケージをインストールした場所等の設定
• run.sh
– CSJデータのパス(CSJDATATOP)
– CSJのバージョン(CSJVER)
16
DNN音声認識システムの構築と認識実験
17
pikaia1 $
pikaia1 $
pikaia1 $
pikaia1 $ nohup ./run.sh >& run.log &
# Wait 3-4 weeks …………………………………………………….
………………………………………………………………………………..
………………………………………………………………..………………
…….
CSJレシピにおけるシステム構築プロセス
18
CSJ
特徴量ファイル
ラベルファイル
GMM-HMM
最尤学習
GMM-HMM
話者適応学習
DNN-HMM
(RBM-pre-
training &
fine tuning)
DNN-HMM
系列学習
認識結果の確認
• GMM-HMM, DNN-HMMの各学習ステージ毎
に認識評価が自動で行われている
– GMM-HMM (tri-phone)の単語誤り率の確認
less exp/tri3/decode_eval1_csj/wer_10
– DNN-HMM(系列学習)の単語誤り率の確認
less exp/dnn5b_pretrain-
dbn_dnn_smbr_i1lats/decode_eval1_csj/wer_10
19
正解単語数
削除誤り挿入誤り置換誤り
正解単語数
誤認識単語数
単語誤り率


)(WER
CSJ以外のレシピについて
• データの入手先
– 多くのデータは有料
入手先:LDC等
https://www.ldc.upenn.edu/
– 一部無料のデータあり
tedlium, voxforge, etc.
• 実行時の注意
– SWB等レシピ開発がクラスタマシン上で行われてい
るものがあり、デフォルトの並列実行数のままPC上
で実行すると過負荷でマシンが落ちる。。。
20
参考資料
• Kaldiホームページ
– http://kaldi-asr.org/
• Povey先生スライド
– http://www.danielpovey.com/kaldi-lectures.html
• CSJレシピチュートリアル
– http://www.ts.ip.titech.ac.jp/demos/csjkaldi/index.
html
21

More Related Content

What's hot

Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討
Shinnosuke Takamichi
 

What's hot (20)

短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討
 
JVS:フリーの日本語多数話者音声コーパス
JVS:フリーの日本語多数話者音声コーパス JVS:フリーの日本語多数話者音声コーパス
JVS:フリーの日本語多数話者音声コーパス
 
Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討
 
形態素解析も辞書も言語モデルもいらないend-to-end音声認識
形態素解析も辞書も言語モデルもいらないend-to-end音声認識形態素解析も辞書も言語モデルもいらないend-to-end音声認識
形態素解析も辞書も言語モデルもいらないend-to-end音声認識
 
自称・世界一わかりやすい音声認識入門
自称・世界一わかりやすい音声認識入門自称・世界一わかりやすい音声認識入門
自称・世界一わかりやすい音声認識入門
 
音情報処理における特徴表現
音情報処理における特徴表現音情報処理における特徴表現
音情報処理における特徴表現
 
音声認識における言語モデル
音声認識における言語モデル音声認識における言語モデル
音声認識における言語モデル
 
非負値行列分解の確率的生成モデルと 多チャネル音源分離への応用 (Generative model in nonnegative matrix facto...
非負値行列分解の確率的生成モデルと多チャネル音源分離への応用 (Generative model in nonnegative matrix facto...非負値行列分解の確率的生成モデルと多チャネル音源分離への応用 (Generative model in nonnegative matrix facto...
非負値行列分解の確率的生成モデルと 多チャネル音源分離への応用 (Generative model in nonnegative matrix facto...
 
統計的ボイチェン研究事情
統計的ボイチェン研究事情統計的ボイチェン研究事情
統計的ボイチェン研究事情
 
高効率音声符号化―MP3詳解―
高効率音声符号化―MP3詳解―高効率音声符号化―MP3詳解―
高効率音声符号化―MP3詳解―
 
深層学習を利用した音声強調
深層学習を利用した音声強調深層学習を利用した音声強調
深層学習を利用した音声強調
 
深層生成モデルに基づく音声合成技術
深層生成モデルに基づく音声合成技術深層生成モデルに基づく音声合成技術
深層生成モデルに基づく音声合成技術
 
Asj2017 3invited
Asj2017 3invitedAsj2017 3invited
Asj2017 3invited
 
論文紹介 Unsupervised training of neural mask-based beamforming
論文紹介 Unsupervised training of neural  mask-based beamforming論文紹介 Unsupervised training of neural  mask-based beamforming
論文紹介 Unsupervised training of neural mask-based beamforming
 
Icml読み会 deep speech2
Icml読み会 deep speech2Icml読み会 deep speech2
Icml読み会 deep speech2
 
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech:  音声認識と話者照合のために YouTube から構築される日本語音声コーパスJTubeSpeech:  音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
 
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...
 
複数話者WaveNetボコーダに関する調査
複数話者WaveNetボコーダに関する調査複数話者WaveNetボコーダに関する調査
複数話者WaveNetボコーダに関する調査
 
ILRMA 20170227 danwakai
ILRMA 20170227 danwakaiILRMA 20170227 danwakai
ILRMA 20170227 danwakai
 
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパスJ-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
 

Viewers also liked

Statistical Semantic入門 ~分布仮説からword2vecまで~
Statistical Semantic入門 ~分布仮説からword2vecまで~Statistical Semantic入門 ~分布仮説からword2vecまで~
Statistical Semantic入門 ~分布仮説からword2vecまで~
Yuya Unno
 

Viewers also liked (20)

【FIT2016チュートリアル】ここから始める情報処理 ~機械学習編~
【FIT2016チュートリアル】ここから始める情報処理  ~機械学習編~【FIT2016チュートリアル】ここから始める情報処理  ~機械学習編~
【FIT2016チュートリアル】ここから始める情報処理 ~機械学習編~
 
検索評価ツールキットNTCIREVALを用いた様々な情報アクセス技術の評価方法
検索評価ツールキットNTCIREVALを用いた様々な情報アクセス技術の評価方法検索評価ツールキットNTCIREVALを用いた様々な情報アクセス技術の評価方法
検索評価ツールキットNTCIREVALを用いた様々な情報アクセス技術の評価方法
 
ディープラーニングでおそ松さんの6つ子は見分けられるのか? FIT2016
ディープラーニングでおそ松さんの6つ子は見分けられるのか? FIT2016ディープラーニングでおそ松さんの6つ子は見分けられるのか? FIT2016
ディープラーニングでおそ松さんの6つ子は見分けられるのか? FIT2016
 
ゼロから始める自然言語処理 【FIT2016チュートリアル】
ゼロから始める自然言語処理 【FIT2016チュートリアル】ゼロから始める自然言語処理 【FIT2016チュートリアル】
ゼロから始める自然言語処理 【FIT2016チュートリアル】
 
音声認識と深層学習
音声認識と深層学習音声認識と深層学習
音声認識と深層学習
 
30th コンピュータビジョン勉強会@関東 DynamicFusion
30th コンピュータビジョン勉強会@関東 DynamicFusion30th コンピュータビジョン勉強会@関東 DynamicFusion
30th コンピュータビジョン勉強会@関東 DynamicFusion
 
UIST2016の舞台裏 (UIST勉強会講演1/2)
UIST2016の舞台裏 (UIST勉強会講演1/2)UIST2016の舞台裏 (UIST勉強会講演1/2)
UIST2016の舞台裏 (UIST勉強会講演1/2)
 
論文紹介"DynamicFusion: Reconstruction and Tracking of Non-­‐rigid Scenes in Real...
論文紹介"DynamicFusion: Reconstruction and Tracking of Non-­‐rigid Scenes in Real...論文紹介"DynamicFusion: Reconstruction and Tracking of Non-­‐rigid Scenes in Real...
論文紹介"DynamicFusion: Reconstruction and Tracking of Non-­‐rigid Scenes in Real...
 
20160717 dikf
20160717 dikf20160717 dikf
20160717 dikf
 
CVPR2016を自分なりにまとめてみた
CVPR2016を自分なりにまとめてみたCVPR2016を自分なりにまとめてみた
CVPR2016を自分なりにまとめてみた
 
【慶應大学講演】なぜ、博士課程に進学したか?
【慶應大学講演】なぜ、博士課程に進学したか?【慶應大学講演】なぜ、博士課程に進学したか?
【慶應大学講演】なぜ、博士課程に進学したか?
 
PythonによるCVアルゴリズム実装
PythonによるCVアルゴリズム実装PythonによるCVアルゴリズム実装
PythonによるCVアルゴリズム実装
 
NIPS2015読み会: Ladder Networks
NIPS2015読み会: Ladder NetworksNIPS2015読み会: Ladder Networks
NIPS2015読み会: Ladder Networks
 
20170211クレジットカード認識
20170211クレジットカード認識20170211クレジットカード認識
20170211クレジットカード認識
 
Statistical Semantic入門 ~分布仮説からword2vecまで~
Statistical Semantic入門 ~分布仮説からword2vecまで~Statistical Semantic入門 ~分布仮説からword2vecまで~
Statistical Semantic入門 ~分布仮説からword2vecまで~
 
GPU上でのNLP向け深層学習の実装について
GPU上でのNLP向け深層学習の実装についてGPU上でのNLP向け深層学習の実装について
GPU上でのNLP向け深層学習の実装について
 
「深層学習」第6章 畳込みニューラルネット
「深層学習」第6章 畳込みニューラルネット「深層学習」第6章 畳込みニューラルネット
「深層学習」第6章 畳込みニューラルネット
 
Deep Learningと自然言語処理
Deep Learningと自然言語処理Deep Learningと自然言語処理
Deep Learningと自然言語処理
 
Watson API トレーニング 20160716 rev02
Watson API トレーニング 20160716 rev02Watson API トレーニング 20160716 rev02
Watson API トレーニング 20160716 rev02
 
自然言語処理
自然言語処理自然言語処理
自然言語処理
 

Similar to 【FIT2016チュートリアル】ここから始める情報処理 ~音声編~ by 東工大・篠崎先生

#VRSionUp!6 特集「先端ボイチェン研究」Slideshare公開版
#VRSionUp!6 特集「先端ボイチェン研究」Slideshare公開版#VRSionUp!6 特集「先端ボイチェン研究」Slideshare公開版
#VRSionUp!6 特集「先端ボイチェン研究」Slideshare公開版
GREE VR Studio Lab
 
20120731 ALC Eijiro User Meeting
20120731 ALC Eijiro User Meeting20120731 ALC Eijiro User Meeting
20120731 ALC Eijiro User Meeting
akikom0819
 

Similar to 【FIT2016チュートリアル】ここから始める情報処理 ~音声編~ by 東工大・篠崎先生 (20)

#VRSionUp!6 特集「先端ボイチェン研究」Slideshare公開版
#VRSionUp!6 特集「先端ボイチェン研究」Slideshare公開版#VRSionUp!6 特集「先端ボイチェン研究」Slideshare公開版
#VRSionUp!6 特集「先端ボイチェン研究」Slideshare公開版
 
日本語スピーキングテストSJ-CATの開発
日本語スピーキングテストSJ-CATの開発日本語スピーキングテストSJ-CATの開発
日本語スピーキングテストSJ-CATの開発
 
学会・研究会の情報保障におけるソーシャルネットワークの役割
学会・研究会の情報保障におけるソーシャルネットワークの役割学会・研究会の情報保障におけるソーシャルネットワークの役割
学会・研究会の情報保障におけるソーシャルネットワークの役割
 
講演音声におけるフィラーの出現傾向と個人性に関する分析 (日本音声学会第35回研究大会)
講演音声におけるフィラーの出現傾向と個人性に関する分析 (日本音声学会第35回研究大会)講演音声におけるフィラーの出現傾向と個人性に関する分析 (日本音声学会第35回研究大会)
講演音声におけるフィラーの出現傾向と個人性に関する分析 (日本音声学会第35回研究大会)
 
Dic 1707 ai_人工知能概論_鈴木悠一
Dic 1707 ai_人工知能概論_鈴木悠一Dic 1707 ai_人工知能概論_鈴木悠一
Dic 1707 ai_人工知能概論_鈴木悠一
 
ヤフー音声認識のご紹介#yjdsw1
ヤフー音声認識のご紹介#yjdsw1ヤフー音声認識のご紹介#yjdsw1
ヤフー音声認識のご紹介#yjdsw1
 
AI GIRLS COLLECTION_0929
AI GIRLS COLLECTION_0929AI GIRLS COLLECTION_0929
AI GIRLS COLLECTION_0929
 
音声の声質を変換する技術とその応用
音声の声質を変換する技術とその応用音声の声質を変換する技術とその応用
音声の声質を変換する技術とその応用
 
Interspeech2022 参加報告
Interspeech2022 参加報告Interspeech2022 参加報告
Interspeech2022 参加報告
 
音声認識の仕組みを知ろう
音声認識の仕組みを知ろう音声認識の仕組みを知ろう
音声認識の仕組みを知ろう
 
統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展
 
元銀座No1ホステス:藤田 尚弓先生に、生放送で「話し方・伝え方」のことを質問しよう! 先生:藤田 尚弓
元銀座No1ホステス:藤田 尚弓先生に、生放送で「話し方・伝え方」のことを質問しよう! 先生:藤田 尚弓元銀座No1ホステス:藤田 尚弓先生に、生放送で「話し方・伝え方」のことを質問しよう! 先生:藤田 尚弓
元銀座No1ホステス:藤田 尚弓先生に、生放送で「話し方・伝え方」のことを質問しよう! 先生:藤田 尚弓
 
音声合成研究を加速させるためのコーパスデザイン
音声合成研究を加速させるためのコーパスデザイン音声合成研究を加速させるためのコーパスデザイン
音声合成研究を加速させるためのコーパスデザイン
 
言語と知識の深層学習@認知科学会サマースクール
言語と知識の深層学習@認知科学会サマースクール言語と知識の深層学習@認知科学会サマースクール
言語と知識の深層学習@認知科学会サマースクール
 
Jacet2014ykondo_final
Jacet2014ykondo_finalJacet2014ykondo_final
Jacet2014ykondo_final
 
人間と機械と音のコミュニケーション
人間と機械と音のコミュニケーション人間と機械と音のコミュニケーション
人間と機械と音のコミュニケーション
 
文章読解支援のための語彙平易化@第1回NLP東京Dの会
文章読解支援のための語彙平易化@第1回NLP東京Dの会文章読解支援のための語彙平易化@第1回NLP東京Dの会
文章読解支援のための語彙平易化@第1回NLP東京Dの会
 
日中Ocr
日中Ocr日中Ocr
日中Ocr
 
深層学習に基づくテキスト音声合成の技術動向_言語音声ナイト
深層学習に基づくテキスト音声合成の技術動向_言語音声ナイト深層学習に基づくテキスト音声合成の技術動向_言語音声ナイト
深層学習に基づくテキスト音声合成の技術動向_言語音声ナイト
 
20120731 ALC Eijiro User Meeting
20120731 ALC Eijiro User Meeting20120731 ALC Eijiro User Meeting
20120731 ALC Eijiro User Meeting
 

【FIT2016チュートリアル】ここから始める情報処理 ~音声編~ by 東工大・篠崎先生