音声認識におけるサーバサイド開発_Shuta Ichimura

Engineering
音声認識におけるサーバサイド開発
Shuta Ichimura
Clova Developer Team @ Kyoto, LINE Corp.

Engineering
• 市村収太（イチムラシュウタ）
• Clova開発チーム＠京都
• 音声認識エンジニア Since Sep. 2018
音声認識要素技術開発担当
Decoder開発
音響モデル開発
• 趣味：神社 hopping (京都、奈良、九州、出雲 etc..)
SELF-INTRO

Engineering
Server
SCOPE OF TODAY
NSpeech

(Decoder)
NLU
Models

(AM,LM)
NVoice

(Speech Synthesis)
Clova Developer Team @ Kyoto
Today’s scope is
the ASR

Engineering
CONTENTS
1. Overview of the ASR

2. Developing Models(AM, LM)

3. Developing Decoder

4. Q & A

Engineering
OVERVIEW OF THE ASR
p(W|X) ≈ argmax p(X|W) p(W)
AM
Recog. Result
LM
Decoding
Xfeatures = x1, x2 . . xk
Wwords = w1, w2 . . wn
Building in advance
Decoding online

Engineering
Extract Feature
Features to Phone
Word to Sentence
Features (FBank, MFCC ,etc.)
Phone Seq. to Word
Phone Sequence
Word
Speech:
FLOW OF THE ASR PROCESS
Text:今日は雨です
AM

(DNN)
Lexicon

(L.fst)
HMM

(HC.fst)Grammar

(G.fst)
LM

(HCLG.fst)
AM

(*.nnet)
use
use
use
Training AM on
Hadoop and GPU
Training LM on Hadoop
Developing Decoder
Developing Server Side In ASR

Engineering
DEVELOPING MODELS
開発スパン

Acoustics Model(AM)

基本的に定期的なモデル学習は行わない

音響的な要因（マイク、背景雑音etc）が変われば再学習を行う

Language Model(LM)

基本的に毎週作成しアップデートしている

新語など世の中の流行に対応しないといけないため

Engineering
Developing An Acoustic Model

Engineering
On Hadoop
Training Mono-Phone
Training Tri-Phone
Force Alignment
Feat. And Transcript
On GPUs
Feat. And Tri-Phone
Training Neural Net.(NN)
NN based AM
Pre-Process
MapReduce
Training On GPUsTens of Millions
ML
Infer An
Alignment
Tri-Phone
Feat.
G2P etc..
Data
A Couple of Days
A Couple of Weeks
Developing AM
a m e
sil-a+m a-m+e e+sil

Engineering
Developing A Language Model

Engineering
On Hadoop
Counting Words
Building N-Gram
Transcripts(Corpuses)
On CPU(Can’t Use Hadoop)
Lex And N-Gram
Building WFST
WFST based LM
Pre-Process
Tens of Millions
Lots of Processes
Fixed prob. WFST
Lex And N-Gram.
Filtering,G2P etc..
A Day
A day and Using A
Couple of Hundred
GB Memory
Not suitable for
distributed processing

cuz of graph structure
Developing LM

Engineering
Developing Decoder

Engineering
低レイテンシが求められる（TAT:数百msec以内）

認識パラメータチューニング（速度と性能のトレードオフ）

性能改善（基本的にモデル再学習では副作用が大きくなりそうな課題に対して対応）

ドメイン対応

ドメインモデルをベース（大語彙）に対してマージ

→専門用語などの一般的でない単語が認識できるように

Corner-Case対応

現状のAM、LMで間違えやすい発話に対して処置を行う

→ AM scoreによる、reranking や pruning

e.g.) 間違えやすいケース

24 -> 24回

発話してないが、「回」が出力される

ねーずーみー → メール12

間延びした発話スタイルでデタラメな結果となる

Text Normalization

乃木坂フォーティーエイト → 乃木坂46

Head line new → ヘッドラインニュース

誤認識分析

音響的な要因か言語的な要因かを分析する為のツール開発

モデル学習およびDecoder開発へフィードバック

Engineering
LANGUAGE ETC..
• C/C++, python, scala etc..

• Kaldi, Hadoop

Engineering
Thank you for your attention

Questions ?
END OF DOCUMENT
Developers

音声認識におけるサーバサイド開発_Shuta Ichimura

Recommended

Recommended

More Related Content

Similar to 音声認識におけるサーバサイド開発_Shuta Ichimura

Similar to 音声認識におけるサーバサイド開発_Shuta Ichimura (20)

Recently uploaded

Recently uploaded (11)

音声認識におけるサーバサイド開発_Shuta Ichimura