SlideShare a Scribd company logo
1 of 15
Download to read offline
Engineering
音声認識におけるサーバサイド開発
Shuta Ichimura
Clova Developer Team @ Kyoto, LINE Corp.
Engineering
• 市村 収太 (イチムラ シュウタ)
• Clova開発チーム@京都
• 音声認識エンジニア Since Sep. 2018
音声認識要素技術開発担当
Decoder開発
音響モデル開発
• 趣味:神社 hopping (京都、奈良、九州、出雲 etc..)
SELF-INTRO
Engineering
Server
SCOPE OF TODAY
NSpeech

(Decoder)
NLU
Models

(AM,LM)
NVoice

(Speech Synthesis)
Clova Developer Team @ Kyoto
Today’s scope is
the ASR
Engineering
CONTENTS 
1. Overview of the ASR

2. Developing Models(AM, LM)

3. Developing Decoder

4. Q & A
Engineering
OVERVIEW OF THE ASR
p(W|X) ≈ argmax p(X|W) p(W)
AM
Recog. Result
LM
Decoding
Xfeatures = x1, x2 . . xk
Wwords = w1, w2 . . wn
Building in advance
Decoding online
Engineering
Extract Feature
Features to Phone
Word to Sentence
Features (FBank, MFCC ,etc.)
Phone Seq. to Word
Phone Sequence
Word
Speech:
FLOW OF THE ASR PROCESS 
Text:今日は雨です
AM

(DNN)
Lexicon

(L.fst)
HMM

(HC.fst)Grammar

(G.fst)
LM

(HCLG.fst)
AM

(*.nnet)
use
use
use
Training AM on
Hadoop and GPU
Training LM on Hadoop
Developing Decoder
Developing Server Side In ASR
Engineering
DEVELOPING MODELS
開発スパン

Acoustics Model(AM)

基本的に定期的なモデル学習は行わない

音響的な要因(マイク、背景雑音etc)が変われば再学習を行う

Language Model(LM)

基本的に毎週作成しアップデートしている

新語など世の中の流行に対応しないといけないため
Engineering
Developing An Acoustic Model
Engineering
On Hadoop
Training Mono-Phone
Training Tri-Phone
Force Alignment
Feat. And Transcript
On GPUs
Feat. And Tri-Phone
Training Neural Net.(NN)
NN based AM
Pre-Process
MapReduce
Training On GPUsTens of Millions
ML
Infer An
Alignment
Tri-Phone
Feat.
G2P etc..
Data
A Couple of Days
A Couple of Weeks
Developing AM
a m e
sil-a+m a-m+e e+sil
Engineering
Developing A Language Model
Engineering
On Hadoop
Counting Words
Building N-Gram
Transcripts(Corpuses)
On CPU(Can’t Use Hadoop)
Lex And N-Gram
Building WFST
WFST based LM
Pre-Process
Tens of Millions
Lots of Processes
Fixed prob. WFST
Lex And N-Gram.
Filtering,G2P etc..
A Day
A day and Using A
Couple of Hundred
GB Memory
Not suitable for
distributed processing

cuz of graph structure
Developing LM
Engineering
Developing Decoder
Engineering
低レイテンシが求められる(TAT:数百msec以内)

認識パラメータチューニング(速度と性能のトレードオフ)

性能改善(基本的にモデル再学習では副作用が大きくなりそうな課題に対して対応)

ドメイン対応

ドメインモデルをベース(大語彙)に対してマージ

→専門用語などの一般的でない単語が認識できるように

Corner-Case対応

現状のAM、LMで間違えやすい発話に対して処置を行う

→ AM scoreによる、reranking や pruning

e.g.) 間違えやすいケース

24 -> 24回

発話してないが、「回」が出力される

ねーずーみー → メール12

間延びした発話スタイルでデタラメな結果となる

Text Normalization

乃木坂フォーティーエイト → 乃木坂46

Head line new → ヘッドラインニュース

誤認識分析

音響的な要因か言語的な要因かを分析する為のツール開発

モデル学習およびDecoder開発へフィードバック
Engineering
LANGUAGE ETC..
• C/C++, python, scala etc..

• Kaldi, Hadoop
Engineering
Thank you for your attention

Questions ?
END OF DOCUMENT
Developers

More Related Content

Similar to 音声認識におけるサーバサイド開発_Shuta Ichimura

新技術で未来の扉を開け! - Node-REDの環境構築と社内導入 -
新技術で未来の扉を開け! - Node-REDの環境構築と社内導入 - 新技術で未来の扉を開け! - Node-REDの環境構築と社内導入 -
新技術で未来の扉を開け! - Node-REDの環境構築と社内導入 -
Makoto SAKAI
 
20100520 【qpstudy01】 チームでトライ!インフラ構築のススメ
20100520 【qpstudy01】 チームでトライ!インフラ構築のススメ20100520 【qpstudy01】 チームでトライ!インフラ構築のススメ
20100520 【qpstudy01】 チームでトライ!インフラ構築のススメ
Yukitaka Ohmura
 
第3回SEMAT勉強会 SEMATエッセンス解説
第3回SEMAT勉強会 SEMATエッセンス解説第3回SEMAT勉強会 SEMATエッセンス解説
第3回SEMAT勉強会 SEMATエッセンス解説
Hironori Washizaki
 

Similar to 音声認識におけるサーバサイド開発_Shuta Ichimura (20)

ソフトウェア工学2023 04 開発プロセスモデル
ソフトウェア工学2023 04 開発プロセスモデルソフトウェア工学2023 04 開発プロセスモデル
ソフトウェア工学2023 04 開発プロセスモデル
 
The beginners guide of real-time audio processing (Part 1:Equalizer)
The beginners guide of real-time audio processing (Part 1:Equalizer)The beginners guide of real-time audio processing (Part 1:Equalizer)
The beginners guide of real-time audio processing (Part 1:Equalizer)
 
ドメイン駆動設計入門
ドメイン駆動設計入門ドメイン駆動設計入門
ドメイン駆動設計入門
 
20230105_TITECH_lecture_ishizaki_public.pdf
20230105_TITECH_lecture_ishizaki_public.pdf20230105_TITECH_lecture_ishizaki_public.pdf
20230105_TITECH_lecture_ishizaki_public.pdf
 
新技術で未来の扉を開け! - Node-REDの環境構築と社内導入 -
新技術で未来の扉を開け! - Node-REDの環境構築と社内導入 - 新技術で未来の扉を開け! - Node-REDの環境構築と社内導入 -
新技術で未来の扉を開け! - Node-REDの環境構築と社内導入 -
 
Storm×couchbase serverで作るリアルタイム解析基盤
Storm×couchbase serverで作るリアルタイム解析基盤Storm×couchbase serverで作るリアルタイム解析基盤
Storm×couchbase serverで作るリアルタイム解析基盤
 
No nosql20130424
No nosql20130424No nosql20130424
No nosql20130424
 
人工知能のコードをハックする会 #2
人工知能のコードをハックする会 #2人工知能のコードをハックする会 #2
人工知能のコードをハックする会 #2
 
HUGTokyo202201_NamedPython.pdf
HUGTokyo202201_NamedPython.pdfHUGTokyo202201_NamedPython.pdf
HUGTokyo202201_NamedPython.pdf
 
20100520 【qpstudy01】 チームでトライ!インフラ構築のススメ
20100520 【qpstudy01】 チームでトライ!インフラ構築のススメ20100520 【qpstudy01】 チームでトライ!インフラ構築のススメ
20100520 【qpstudy01】 チームでトライ!インフラ構築のススメ
 
AWS Black Belt Techシリーズ Amazon CloudSearch
AWS Black Belt Techシリーズ Amazon CloudSearchAWS Black Belt Techシリーズ Amazon CloudSearch
AWS Black Belt Techシリーズ Amazon CloudSearch
 
企業システムにアジャイルは必要か
企業システムにアジャイルは必要か企業システムにアジャイルは必要か
企業システムにアジャイルは必要か
 
第3回SEMAT勉強会 SEMATエッセンス解説
第3回SEMAT勉強会 SEMATエッセンス解説第3回SEMAT勉強会 SEMATエッセンス解説
第3回SEMAT勉強会 SEMATエッセンス解説
 
設計ビギナーが語るソフトウェア設計
設計ビギナーが語るソフトウェア設計設計ビギナーが語るソフトウェア設計
設計ビギナーが語るソフトウェア設計
 
マイクロソフトが考えるAI活用のロードマップ
マイクロソフトが考えるAI活用のロードマップマイクロソフトが考えるAI活用のロードマップ
マイクロソフトが考えるAI活用のロードマップ
 
【de:code 2020】 Azure Kinect DK テクニカル Tips
【de:code 2020】 Azure Kinect DK テクニカル Tips【de:code 2020】 Azure Kinect DK テクニカル Tips
【de:code 2020】 Azure Kinect DK テクニカル Tips
 
Addressables で大量のリソース管理・困りどころと解消法
Addressables で大量のリソース管理・困りどころと解消法Addressables で大量のリソース管理・困りどころと解消法
Addressables で大量のリソース管理・困りどころと解消法
 
RDRA DDD Agile
RDRA DDD AgileRDRA DDD Agile
RDRA DDD Agile
 
Dockerコミュニティ近況
Dockerコミュニティ近況Dockerコミュニティ近況
Dockerコミュニティ近況
 
Web Component Framework Urushiのご紹介(OSC2017 Tokyo/Spring)
Web Component Framework Urushiのご紹介(OSC2017 Tokyo/Spring)Web Component Framework Urushiのご紹介(OSC2017 Tokyo/Spring)
Web Component Framework Urushiのご紹介(OSC2017 Tokyo/Spring)
 

Recently uploaded

Recently uploaded (11)

新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
 
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
 
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
 
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
 
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
 

音声認識におけるサーバサイド開発_Shuta Ichimura