SlideShare a Scribd company logo
音声認識ツールキットKaldiを用いた
大語彙日本語音声認識
篠崎隆宏
東京工業大学
工学院 情報通信系
www.ts.ip.titech.ac.jp
1FIT 2016
自己紹介
• これまでの経歴
– 大学院時代は日本語話し言葉コーパスプロジェクト
に参加。音響モデルの作成などを担当
– アメリカUniversity of Washington (UW)、京都大学、
東工大、千葉大学を経て2013年より東工大准教授
– 音響モデルを中心とした音声認識の研究に従事
2
音声認識技術
3
音声
テキスト
テキスト
音声
音声認識
音声合成
音声アシスタント、音声自動翻訳、議事録作成、
字幕作成、対話ロボット、etc.
音声認識器の基本構成
4
A/D変換
特徴量抽出
デコーダ
(パターン認識・
探索)
音響
モデル
言語
モデル
Hello!
マイク
Kaldiツールキットの対象範囲
特徴量抽出
5
周波数分析
(G・H)
Time
デコーダへ
発話内容を表す特徴(H)
話者や抑揚等を表す特徴(G)
Time
廃棄
Gの付替・再合成実験
    HG
 'G
    HG'
元音声
Gを置換
(ブザー音より抽出)
音響モデルと言語モデル
6
 
    WPWOP
OWP
W
W
|maxarg
|maxarg

音響モデル 言語モデル
N-gram
LSTM Neural Network
GMM-HMM
DNN-HMM
デコーディング
7
HMM
音響モデル
発音辞書
N-gram
言語モデル
• 各種モデルを統合して巨大な探索空間を構成
• 最小コストパス探索問題を解くことで認識単語列を求める
モデル学習
• 音響モデルや言語モデルは、予め大量の学習
データから学習
テキスト
データ
ラベル付き
音声データ
言語
モデル
音響
モデル
学習
認識システ
ム
入力音声
認識結果
認識
Kaldi 音声認識ツールキット
• 歴史:
– 2009年のJohns Hopkins University workshopが起源
– 国際的な開発チームにより非常に活発に開発が継続
されている
– 最新の音声認識技術が多く取り入れられている
• 入手
– Githubから無料で配布
– http://kaldi-asr.org/doc/index.html
– Apache license, version 2.0
9
git clone https://github.com/kaldi-asr/kaldi.git kaldi --origin upstream
Kaldi実行に必要な計算機のスペック
• 大語彙認識システムを構築する場合の例
10
CPU
Core i7
メモリ
32GByte
GPU*
GeForce
GTX 970
*ゲーム用のGPUを科学
技術計算に用いるのは
メーカーの保証外(自己
責任)。動作保証が必要な
場合はTesla K20Xなど
*ディープニューラルネットワーク(DNN)の学習を行うのにGPUはほぼ必須
*Kaldiのインストールの前にCUDAをインストール
*コマンドの動作を試してみるだけならノートパソコンでも可
Kaldiツールキットの構成
11
Kaldi
独自コマンド
(src)
外部ツールキット
Openfst, IRSLM, etc.
(tools)
各種認識システム用スクリプト群(レシピ)
英語、日本語、耐雑音、etc.
(egs)
Kaldiのインストール
pikaia1 $ cd kaldi/
pikaia1 $ ls
COPYING INSTALL README.md egs misc src tools windows
pikaia1 $ less INSTALL # インストール手順の説明を読む
pikaia1 $ cd tools/ # 外部ツールキットの自動ダウンロードとコンパイル
pikaia1 $ make -j 4
pikaia1 $ cd ../src/ # kaldiコマンドのコンパイル
pikaia1 $ ./configure
pikaia1 $ make depend –j 4
pikaia1 $ make –j 4
12
CSJレシピを用いた日本語音声認識システムの構築
• KaldiがインストールされたLinuxマシン
• 日本語話し言葉コーパス(CSJ)
– 音声データはKaldiに含まれていないので別途入手
– CSJは国立国語研究所より購入可能
http://pj.ninjal.ac.jp/corpus_center/csj/
• モデル学習に必要な時間
– フルの学習を行う場合、先のスペックのPCで
3-4週間
13
用意するもの
CSJレシピについて
• 東工大篠崎研究室メンバーとアメリカMERL
研究所渡部により共同開発
• DNN構造や学習条件などのシステム
パラメタは東工大のスーパーコンピュータ
TSUBAME2.5を用い、進化計算により最適化
• CSJ標準評価セットで91%の認識精度を実現
14
CSJレシピのディレクトリ構成
15
egs
csj
conf
local
steps
utils
# 独自の処理を行うためのスクリプト
# 他のレシピと共通のスクリプト
# 他のレシピと共通のスクリプト
# 設定ファイル
s5 cmd.sh path.sh run.sh
メイン実行
スクリプト
ジョブ投入設定
スクリプト
パス設定
スクリプト
事前設定
• cmd.sh
– バッチジョブシステム実行かローカル実行かを指定する
(PCでローカル実行の場合はrun.plの使用を指定)
• path.sh
– Kaldiパッケージをインストールした場所等の設定
• run.sh
– CSJデータのパス(CSJDATATOP)
– CSJのバージョン(CSJVER)
16
DNN音声認識システムの構築と認識実験
17
pikaia1 $
pikaia1 $
pikaia1 $
pikaia1 $ nohup ./run.sh >& run.log &
# Wait 3-4 weeks …………………………………………………….
………………………………………………………………………………..
………………………………………………………………..………………
…….
CSJレシピにおけるシステム構築プロセス
18
CSJ
特徴量ファイル
ラベルファイル
GMM-HMM
最尤学習
GMM-HMM
話者適応学習
DNN-HMM
(RBM-pre-
training &
fine tuning)
DNN-HMM
系列学習
認識結果の確認
• GMM-HMM, DNN-HMMの各学習ステージ毎
に認識評価が自動で行われている
– GMM-HMM (tri-phone)の単語誤り率の確認
less exp/tri3/decode_eval1_csj/wer_10
– DNN-HMM(系列学習)の単語誤り率の確認
less exp/dnn5b_pretrain-
dbn_dnn_smbr_i1lats/decode_eval1_csj/wer_10
19
正解単語数
削除誤り挿入誤り置換誤り
正解単語数
誤認識単語数
単語誤り率


)(WER
CSJ以外のレシピについて
• データの入手先
– 多くのデータは有料
入手先:LDC等
https://www.ldc.upenn.edu/
– 一部無料のデータあり
tedlium, voxforge, etc.
• 実行時の注意
– SWB等レシピ開発がクラスタマシン上で行われてい
るものがあり、デフォルトの並列実行数のままPC上
で実行すると過負荷でマシンが落ちる。。。
20
参考資料
• Kaldiホームページ
– http://kaldi-asr.org/
• Povey先生スライド
– http://www.danielpovey.com/kaldi-lectures.html
• CSJレシピチュートリアル
– http://www.ts.ip.titech.ac.jp/demos/csjkaldi/index.
html
21

More Related Content

What's hot

DNN音響モデルにおける特徴量抽出の諸相
DNN音響モデルにおける特徴量抽出の諸相DNN音響モデルにおける特徴量抽出の諸相
DNN音響モデルにおける特徴量抽出の諸相
Takuya Yoshioka
 
それでも私が研究を続ける理由
それでも私が研究を続ける理由それでも私が研究を続ける理由
それでも私が研究を続ける理由
Hitomi Yanaka
 
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech:  音声認識と話者照合のために YouTube から構築される日本語音声コーパスJTubeSpeech:  音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
Shinnosuke Takamichi
 
機械学習研究の現状とこれから
機械学習研究の現状とこれから機械学習研究の現状とこれから
機械学習研究の現状とこれから
MLSE
 
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
Naoya Takahashi
 
Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)
Yoshitaka Ushiku
 
Asj2017 3invited
Asj2017 3invitedAsj2017 3invited
Asj2017 3invited
SaruwatariLabUTokyo
 
ICASSP 2019での音響信号処理分野の世界動向
ICASSP 2019での音響信号処理分野の世界動向ICASSP 2019での音響信号処理分野の世界動向
ICASSP 2019での音響信号処理分野の世界動向
Yuma Koizumi
 
Neural text-to-speech and voice conversion
Neural text-to-speech and voice conversionNeural text-to-speech and voice conversion
Neural text-to-speech and voice conversion
Yuki Saito
 
畳み込みLstm
畳み込みLstm畳み込みLstm
畳み込みLstm
tak9029
 
2019年度チュートリアルBPE
2019年度チュートリアルBPE2019年度チュートリアルBPE
2019年度チュートリアルBPE
広樹 本間
 
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
Shinnosuke Takamichi
 
[DL輪読会]画像を使ったSim2Realの現況
[DL輪読会]画像を使ったSim2Realの現況[DL輪読会]画像を使ったSim2Realの現況
[DL輪読会]画像を使ったSim2Realの現況
Deep Learning JP
 
Generative Adversarial Imitation Learningの紹介(RLアーキテクチャ勉強会)
Generative Adversarial Imitation Learningの紹介(RLアーキテクチャ勉強会)Generative Adversarial Imitation Learningの紹介(RLアーキテクチャ勉強会)
Generative Adversarial Imitation Learningの紹介(RLアーキテクチャ勉強会)
Yusuke Nakata
 
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
Shinnosuke Takamichi
 
東京大学2020年度深層学習(Deep learning基礎講座) 第9回「深層学習と自然言語処理」
東京大学2020年度深層学習(Deep learning基礎講座) 第9回「深層学習と自然言語処理」東京大学2020年度深層学習(Deep learning基礎講座) 第9回「深層学習と自然言語処理」
東京大学2020年度深層学習(Deep learning基礎講座) 第9回「深層学習と自然言語処理」
Hitomi Yanaka
 
ルールベースから機械学習への道 公開用
ルールベースから機械学習への道 公開用ルールベースから機械学習への道 公開用
ルールベースから機械学習への道 公開用
nishio
 
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
joisino
 
音声の声質を変換する技術とその応用
音声の声質を変換する技術とその応用音声の声質を変換する技術とその応用
音声の声質を変換する技術とその応用
NU_I_TODALAB
 
【DL輪読会】Semi-Parametric Neural Image Synthesis
【DL輪読会】Semi-Parametric Neural Image Synthesis【DL輪読会】Semi-Parametric Neural Image Synthesis
【DL輪読会】Semi-Parametric Neural Image Synthesis
Deep Learning JP
 

What's hot (20)

DNN音響モデルにおける特徴量抽出の諸相
DNN音響モデルにおける特徴量抽出の諸相DNN音響モデルにおける特徴量抽出の諸相
DNN音響モデルにおける特徴量抽出の諸相
 
それでも私が研究を続ける理由
それでも私が研究を続ける理由それでも私が研究を続ける理由
それでも私が研究を続ける理由
 
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech:  音声認識と話者照合のために YouTube から構築される日本語音声コーパスJTubeSpeech:  音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
 
機械学習研究の現状とこれから
機械学習研究の現状とこれから機械学習研究の現状とこれから
機械学習研究の現状とこれから
 
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
 
Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)
 
Asj2017 3invited
Asj2017 3invitedAsj2017 3invited
Asj2017 3invited
 
ICASSP 2019での音響信号処理分野の世界動向
ICASSP 2019での音響信号処理分野の世界動向ICASSP 2019での音響信号処理分野の世界動向
ICASSP 2019での音響信号処理分野の世界動向
 
Neural text-to-speech and voice conversion
Neural text-to-speech and voice conversionNeural text-to-speech and voice conversion
Neural text-to-speech and voice conversion
 
畳み込みLstm
畳み込みLstm畳み込みLstm
畳み込みLstm
 
2019年度チュートリアルBPE
2019年度チュートリアルBPE2019年度チュートリアルBPE
2019年度チュートリアルBPE
 
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
 
[DL輪読会]画像を使ったSim2Realの現況
[DL輪読会]画像を使ったSim2Realの現況[DL輪読会]画像を使ったSim2Realの現況
[DL輪読会]画像を使ったSim2Realの現況
 
Generative Adversarial Imitation Learningの紹介(RLアーキテクチャ勉強会)
Generative Adversarial Imitation Learningの紹介(RLアーキテクチャ勉強会)Generative Adversarial Imitation Learningの紹介(RLアーキテクチャ勉強会)
Generative Adversarial Imitation Learningの紹介(RLアーキテクチャ勉強会)
 
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
 
東京大学2020年度深層学習(Deep learning基礎講座) 第9回「深層学習と自然言語処理」
東京大学2020年度深層学習(Deep learning基礎講座) 第9回「深層学習と自然言語処理」東京大学2020年度深層学習(Deep learning基礎講座) 第9回「深層学習と自然言語処理」
東京大学2020年度深層学習(Deep learning基礎講座) 第9回「深層学習と自然言語処理」
 
ルールベースから機械学習への道 公開用
ルールベースから機械学習への道 公開用ルールベースから機械学習への道 公開用
ルールベースから機械学習への道 公開用
 
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
 
音声の声質を変換する技術とその応用
音声の声質を変換する技術とその応用音声の声質を変換する技術とその応用
音声の声質を変換する技術とその応用
 
【DL輪読会】Semi-Parametric Neural Image Synthesis
【DL輪読会】Semi-Parametric Neural Image Synthesis【DL輪読会】Semi-Parametric Neural Image Synthesis
【DL輪読会】Semi-Parametric Neural Image Synthesis
 

Viewers also liked

【FIT2016チュートリアル】ここから始める情報処理 ~機械学習編~
【FIT2016チュートリアル】ここから始める情報処理  ~機械学習編~【FIT2016チュートリアル】ここから始める情報処理  ~機械学習編~
【FIT2016チュートリアル】ここから始める情報処理 ~機械学習編~
Toshihiko Yamasaki
 
検索評価ツールキットNTCIREVALを用いた様々な情報アクセス技術の評価方法
検索評価ツールキットNTCIREVALを用いた様々な情報アクセス技術の評価方法検索評価ツールキットNTCIREVALを用いた様々な情報アクセス技術の評価方法
検索評価ツールキットNTCIREVALを用いた様々な情報アクセス技術の評価方法
kt.mako
 
ディープラーニングでおそ松さんの6つ子は見分けられるのか? FIT2016
ディープラーニングでおそ松さんの6つ子は見分けられるのか? FIT2016ディープラーニングでおそ松さんの6つ子は見分けられるのか? FIT2016
ディープラーニングでおそ松さんの6つ子は見分けられるのか? FIT2016
Yota Ishida
 
ゼロから始める自然言語処理 【FIT2016チュートリアル】
ゼロから始める自然言語処理 【FIT2016チュートリアル】ゼロから始める自然言語処理 【FIT2016チュートリアル】
ゼロから始める自然言語処理 【FIT2016チュートリアル】
Yuki Arase
 
音声認識と深層学習
音声認識と深層学習音声認識と深層学習
音声認識と深層学習
Preferred Networks
 
30th コンピュータビジョン勉強会@関東 DynamicFusion
30th コンピュータビジョン勉強会@関東 DynamicFusion30th コンピュータビジョン勉強会@関東 DynamicFusion
30th コンピュータビジョン勉強会@関東 DynamicFusion
Hiroki Mizuno
 
UIST2016の舞台裏 (UIST勉強会講演1/2)
UIST2016の舞台裏 (UIST勉強会講演1/2)UIST2016の舞台裏 (UIST勉強会講演1/2)
UIST2016の舞台裏 (UIST勉強会講演1/2)
Masa Ogata
 
論文紹介"DynamicFusion: Reconstruction and Tracking of Non-­‐rigid Scenes in Real...
論文紹介"DynamicFusion: Reconstruction and Tracking of Non-­‐rigid Scenes in Real...論文紹介"DynamicFusion: Reconstruction and Tracking of Non-­‐rigid Scenes in Real...
論文紹介"DynamicFusion: Reconstruction and Tracking of Non-­‐rigid Scenes in Real...
Ken Sakurada
 
音声認識における言語モデル
音声認識における言語モデル音声認識における言語モデル
音声認識における言語モデル
KOTARO SETOYAMA
 
20160717 dikf
20160717 dikf20160717 dikf
20160717 dikf
Takuya Minagawa
 
CVPR2016を自分なりにまとめてみた
CVPR2016を自分なりにまとめてみたCVPR2016を自分なりにまとめてみた
CVPR2016を自分なりにまとめてみた
Hiroshi Fukui
 
【慶應大学講演】なぜ、博士課程に進学したか?
【慶應大学講演】なぜ、博士課程に進学したか?【慶應大学講演】なぜ、博士課程に進学したか?
【慶應大学講演】なぜ、博士課程に進学したか?
Hirokatsu Kataoka
 
PythonによるCVアルゴリズム実装
PythonによるCVアルゴリズム実装PythonによるCVアルゴリズム実装
PythonによるCVアルゴリズム実装
Hirokatsu Kataoka
 
NIPS2015読み会: Ladder Networks
NIPS2015読み会: Ladder NetworksNIPS2015読み会: Ladder Networks
NIPS2015読み会: Ladder Networks
Eiichi Matsumoto
 
20170211クレジットカード認識
20170211クレジットカード認識20170211クレジットカード認識
20170211クレジットカード認識
Takuya Minagawa
 
Statistical Semantic入門 ~分布仮説からword2vecまで~
Statistical Semantic入門 ~分布仮説からword2vecまで~Statistical Semantic入門 ~分布仮説からword2vecまで~
Statistical Semantic入門 ~分布仮説からword2vecまで~
Yuya Unno
 
GPU上でのNLP向け深層学習の実装について
GPU上でのNLP向け深層学習の実装についてGPU上でのNLP向け深層学習の実装について
GPU上でのNLP向け深層学習の実装について
Yuya Unno
 
「深層学習」第6章 畳込みニューラルネット
「深層学習」第6章 畳込みニューラルネット「深層学習」第6章 畳込みニューラルネット
「深層学習」第6章 畳込みニューラルネット
Ken'ichi Matsui
 
Deep Learningと自然言語処理
Deep Learningと自然言語処理Deep Learningと自然言語処理
Deep Learningと自然言語処理
Preferred Networks
 
Watson API トレーニング 20160716 rev02
Watson API トレーニング 20160716 rev02Watson API トレーニング 20160716 rev02
Watson API トレーニング 20160716 rev02
Hiroaki Komine
 

Viewers also liked (20)

【FIT2016チュートリアル】ここから始める情報処理 ~機械学習編~
【FIT2016チュートリアル】ここから始める情報処理  ~機械学習編~【FIT2016チュートリアル】ここから始める情報処理  ~機械学習編~
【FIT2016チュートリアル】ここから始める情報処理 ~機械学習編~
 
検索評価ツールキットNTCIREVALを用いた様々な情報アクセス技術の評価方法
検索評価ツールキットNTCIREVALを用いた様々な情報アクセス技術の評価方法検索評価ツールキットNTCIREVALを用いた様々な情報アクセス技術の評価方法
検索評価ツールキットNTCIREVALを用いた様々な情報アクセス技術の評価方法
 
ディープラーニングでおそ松さんの6つ子は見分けられるのか? FIT2016
ディープラーニングでおそ松さんの6つ子は見分けられるのか? FIT2016ディープラーニングでおそ松さんの6つ子は見分けられるのか? FIT2016
ディープラーニングでおそ松さんの6つ子は見分けられるのか? FIT2016
 
ゼロから始める自然言語処理 【FIT2016チュートリアル】
ゼロから始める自然言語処理 【FIT2016チュートリアル】ゼロから始める自然言語処理 【FIT2016チュートリアル】
ゼロから始める自然言語処理 【FIT2016チュートリアル】
 
音声認識と深層学習
音声認識と深層学習音声認識と深層学習
音声認識と深層学習
 
30th コンピュータビジョン勉強会@関東 DynamicFusion
30th コンピュータビジョン勉強会@関東 DynamicFusion30th コンピュータビジョン勉強会@関東 DynamicFusion
30th コンピュータビジョン勉強会@関東 DynamicFusion
 
UIST2016の舞台裏 (UIST勉強会講演1/2)
UIST2016の舞台裏 (UIST勉強会講演1/2)UIST2016の舞台裏 (UIST勉強会講演1/2)
UIST2016の舞台裏 (UIST勉強会講演1/2)
 
論文紹介"DynamicFusion: Reconstruction and Tracking of Non-­‐rigid Scenes in Real...
論文紹介"DynamicFusion: Reconstruction and Tracking of Non-­‐rigid Scenes in Real...論文紹介"DynamicFusion: Reconstruction and Tracking of Non-­‐rigid Scenes in Real...
論文紹介"DynamicFusion: Reconstruction and Tracking of Non-­‐rigid Scenes in Real...
 
音声認識における言語モデル
音声認識における言語モデル音声認識における言語モデル
音声認識における言語モデル
 
20160717 dikf
20160717 dikf20160717 dikf
20160717 dikf
 
CVPR2016を自分なりにまとめてみた
CVPR2016を自分なりにまとめてみたCVPR2016を自分なりにまとめてみた
CVPR2016を自分なりにまとめてみた
 
【慶應大学講演】なぜ、博士課程に進学したか?
【慶應大学講演】なぜ、博士課程に進学したか?【慶應大学講演】なぜ、博士課程に進学したか?
【慶應大学講演】なぜ、博士課程に進学したか?
 
PythonによるCVアルゴリズム実装
PythonによるCVアルゴリズム実装PythonによるCVアルゴリズム実装
PythonによるCVアルゴリズム実装
 
NIPS2015読み会: Ladder Networks
NIPS2015読み会: Ladder NetworksNIPS2015読み会: Ladder Networks
NIPS2015読み会: Ladder Networks
 
20170211クレジットカード認識
20170211クレジットカード認識20170211クレジットカード認識
20170211クレジットカード認識
 
Statistical Semantic入門 ~分布仮説からword2vecまで~
Statistical Semantic入門 ~分布仮説からword2vecまで~Statistical Semantic入門 ~分布仮説からword2vecまで~
Statistical Semantic入門 ~分布仮説からword2vecまで~
 
GPU上でのNLP向け深層学習の実装について
GPU上でのNLP向け深層学習の実装についてGPU上でのNLP向け深層学習の実装について
GPU上でのNLP向け深層学習の実装について
 
「深層学習」第6章 畳込みニューラルネット
「深層学習」第6章 畳込みニューラルネット「深層学習」第6章 畳込みニューラルネット
「深層学習」第6章 畳込みニューラルネット
 
Deep Learningと自然言語処理
Deep Learningと自然言語処理Deep Learningと自然言語処理
Deep Learningと自然言語処理
 
Watson API トレーニング 20160716 rev02
Watson API トレーニング 20160716 rev02Watson API トレーニング 20160716 rev02
Watson API トレーニング 20160716 rev02
 

Similar to 【FIT2016チュートリアル】ここから始める情報処理 ~音声編~ by 東工大・篠崎先生

#VRSionUp!6 特集「先端ボイチェン研究」Slideshare公開版
#VRSionUp!6 特集「先端ボイチェン研究」Slideshare公開版#VRSionUp!6 特集「先端ボイチェン研究」Slideshare公開版
#VRSionUp!6 特集「先端ボイチェン研究」Slideshare公開版
GREE VR Studio Lab
 
日本語スピーキングテストSJ-CATの開発
日本語スピーキングテストSJ-CATの開発日本語スピーキングテストSJ-CATの開発
日本語スピーキングテストSJ-CATの開発
Ken IshiKen
 
学会・研究会の情報保障におけるソーシャルネットワークの役割
学会・研究会の情報保障におけるソーシャルネットワークの役割学会・研究会の情報保障におけるソーシャルネットワークの役割
学会・研究会の情報保障におけるソーシャルネットワークの役割
Takuya Nishimoto
 
講演音声におけるフィラーの出現傾向と個人性に関する分析 (日本音声学会第35回研究大会)
講演音声におけるフィラーの出現傾向と個人性に関する分析 (日本音声学会第35回研究大会)講演音声におけるフィラーの出現傾向と個人性に関する分析 (日本音声学会第35回研究大会)
講演音声におけるフィラーの出現傾向と個人性に関する分析 (日本音声学会第35回研究大会)
Yuta Matsunaga
 
Dic 1707 ai_人工知能概論_鈴木悠一
Dic 1707 ai_人工知能概論_鈴木悠一Dic 1707 ai_人工知能概論_鈴木悠一
Dic 1707 ai_人工知能概論_鈴木悠一
悠一 鈴木
 
ヤフー音声認識のご紹介#yjdsw1
ヤフー音声認識のご紹介#yjdsw1ヤフー音声認識のご紹介#yjdsw1
ヤフー音声認識のご紹介#yjdsw1
Yahoo!デベロッパーネットワーク
 
AI GIRLS COLLECTION_0929
AI GIRLS COLLECTION_0929AI GIRLS COLLECTION_0929
AI GIRLS COLLECTION_0929
EikoHoshino
 
Interspeech2022 参加報告
Interspeech2022 参加報告Interspeech2022 参加報告
Interspeech2022 参加報告
Yuki Saito
 
音声認識の仕組みを知ろう
音声認識の仕組みを知ろう音声認識の仕組みを知ろう
音声認識の仕組みを知ろう
kthrlab
 
統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展
Shinnosuke Takamichi
 
元銀座No1ホステス:藤田 尚弓先生に、生放送で「話し方・伝え方」のことを質問しよう! 先生:藤田 尚弓
元銀座No1ホステス:藤田 尚弓先生に、生放送で「話し方・伝え方」のことを質問しよう! 先生:藤田 尚弓元銀座No1ホステス:藤田 尚弓先生に、生放送で「話し方・伝え方」のことを質問しよう! 先生:藤田 尚弓
元銀座No1ホステス:藤田 尚弓先生に、生放送で「話し方・伝え方」のことを質問しよう! 先生:藤田 尚弓
schoowebcampus
 
音声合成研究を加速させるためのコーパスデザイン
音声合成研究を加速させるためのコーパスデザイン音声合成研究を加速させるためのコーパスデザイン
音声合成研究を加速させるためのコーパスデザイン
Shinnosuke Takamichi
 
言語と知識の深層学習@認知科学会サマースクール
言語と知識の深層学習@認知科学会サマースクール言語と知識の深層学習@認知科学会サマースクール
言語と知識の深層学習@認知科学会サマースクール
Yuya Unno
 
JVS:フリーの日本語多数話者音声コーパス
JVS:フリーの日本語多数話者音声コーパス JVS:フリーの日本語多数話者音声コーパス
JVS:フリーの日本語多数話者音声コーパス
Shinnosuke Takamichi
 
Jacet2014ykondo_final
Jacet2014ykondo_finalJacet2014ykondo_final
Jacet2014ykondo_final
早稲田大学
 
人間と機械と音のコミュニケーション
人間と機械と音のコミュニケーション人間と機械と音のコミュニケーション
人間と機械と音のコミュニケーション
Akinori Ito
 
文章読解支援のための語彙平易化@第1回NLP東京Dの会
文章読解支援のための語彙平易化@第1回NLP東京Dの会文章読解支援のための語彙平易化@第1回NLP東京Dの会
文章読解支援のための語彙平易化@第1回NLP東京Dの会
Tomoyuki Kajiwara
 
日中Ocr
日中Ocr日中Ocr
深層学習に基づくテキスト音声合成の技術動向_言語音声ナイト
深層学習に基づくテキスト音声合成の技術動向_言語音声ナイト深層学習に基づくテキスト音声合成の技術動向_言語音声ナイト
深層学習に基づくテキスト音声合成の技術動向_言語音声ナイト
Deep Learning Lab(ディープラーニング・ラボ)
 
20120731 ALC Eijiro User Meeting
20120731 ALC Eijiro User Meeting20120731 ALC Eijiro User Meeting
20120731 ALC Eijiro User Meetingakikom0819
 

Similar to 【FIT2016チュートリアル】ここから始める情報処理 ~音声編~ by 東工大・篠崎先生 (20)

#VRSionUp!6 特集「先端ボイチェン研究」Slideshare公開版
#VRSionUp!6 特集「先端ボイチェン研究」Slideshare公開版#VRSionUp!6 特集「先端ボイチェン研究」Slideshare公開版
#VRSionUp!6 特集「先端ボイチェン研究」Slideshare公開版
 
日本語スピーキングテストSJ-CATの開発
日本語スピーキングテストSJ-CATの開発日本語スピーキングテストSJ-CATの開発
日本語スピーキングテストSJ-CATの開発
 
学会・研究会の情報保障におけるソーシャルネットワークの役割
学会・研究会の情報保障におけるソーシャルネットワークの役割学会・研究会の情報保障におけるソーシャルネットワークの役割
学会・研究会の情報保障におけるソーシャルネットワークの役割
 
講演音声におけるフィラーの出現傾向と個人性に関する分析 (日本音声学会第35回研究大会)
講演音声におけるフィラーの出現傾向と個人性に関する分析 (日本音声学会第35回研究大会)講演音声におけるフィラーの出現傾向と個人性に関する分析 (日本音声学会第35回研究大会)
講演音声におけるフィラーの出現傾向と個人性に関する分析 (日本音声学会第35回研究大会)
 
Dic 1707 ai_人工知能概論_鈴木悠一
Dic 1707 ai_人工知能概論_鈴木悠一Dic 1707 ai_人工知能概論_鈴木悠一
Dic 1707 ai_人工知能概論_鈴木悠一
 
ヤフー音声認識のご紹介#yjdsw1
ヤフー音声認識のご紹介#yjdsw1ヤフー音声認識のご紹介#yjdsw1
ヤフー音声認識のご紹介#yjdsw1
 
AI GIRLS COLLECTION_0929
AI GIRLS COLLECTION_0929AI GIRLS COLLECTION_0929
AI GIRLS COLLECTION_0929
 
Interspeech2022 参加報告
Interspeech2022 参加報告Interspeech2022 参加報告
Interspeech2022 参加報告
 
音声認識の仕組みを知ろう
音声認識の仕組みを知ろう音声認識の仕組みを知ろう
音声認識の仕組みを知ろう
 
統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展
 
元銀座No1ホステス:藤田 尚弓先生に、生放送で「話し方・伝え方」のことを質問しよう! 先生:藤田 尚弓
元銀座No1ホステス:藤田 尚弓先生に、生放送で「話し方・伝え方」のことを質問しよう! 先生:藤田 尚弓元銀座No1ホステス:藤田 尚弓先生に、生放送で「話し方・伝え方」のことを質問しよう! 先生:藤田 尚弓
元銀座No1ホステス:藤田 尚弓先生に、生放送で「話し方・伝え方」のことを質問しよう! 先生:藤田 尚弓
 
音声合成研究を加速させるためのコーパスデザイン
音声合成研究を加速させるためのコーパスデザイン音声合成研究を加速させるためのコーパスデザイン
音声合成研究を加速させるためのコーパスデザイン
 
言語と知識の深層学習@認知科学会サマースクール
言語と知識の深層学習@認知科学会サマースクール言語と知識の深層学習@認知科学会サマースクール
言語と知識の深層学習@認知科学会サマースクール
 
JVS:フリーの日本語多数話者音声コーパス
JVS:フリーの日本語多数話者音声コーパス JVS:フリーの日本語多数話者音声コーパス
JVS:フリーの日本語多数話者音声コーパス
 
Jacet2014ykondo_final
Jacet2014ykondo_finalJacet2014ykondo_final
Jacet2014ykondo_final
 
人間と機械と音のコミュニケーション
人間と機械と音のコミュニケーション人間と機械と音のコミュニケーション
人間と機械と音のコミュニケーション
 
文章読解支援のための語彙平易化@第1回NLP東京Dの会
文章読解支援のための語彙平易化@第1回NLP東京Dの会文章読解支援のための語彙平易化@第1回NLP東京Dの会
文章読解支援のための語彙平易化@第1回NLP東京Dの会
 
日中Ocr
日中Ocr日中Ocr
日中Ocr
 
深層学習に基づくテキスト音声合成の技術動向_言語音声ナイト
深層学習に基づくテキスト音声合成の技術動向_言語音声ナイト深層学習に基づくテキスト音声合成の技術動向_言語音声ナイト
深層学習に基づくテキスト音声合成の技術動向_言語音声ナイト
 
20120731 ALC Eijiro User Meeting
20120731 ALC Eijiro User Meeting20120731 ALC Eijiro User Meeting
20120731 ALC Eijiro User Meeting
 

【FIT2016チュートリアル】ここから始める情報処理 ~音声編~ by 東工大・篠崎先生