LT@Chainer  Meetup
株式会社プリファードインフラストラクチャー  
⻄西⿃鳥⽻羽  ⼆二郎郎
⾃自⼰己紹介
l  ⻄西⿃鳥⽻羽  ⼆二郎郎(にしとば  じろう)
l  ID: jnishi
l  所属: Preferred Infrastructure 製品事業部
-  エンジニア
l  プリセールス
l  製品導⼊入⽀支援
l  サポート
l  研究開発
PFI Confidential	
 2
⾳音声認識識:  Deep  Speech
Once we have computed a prediction for P(ct|x), we compute the CTC loss [13] L(ˆy, y) to measure
the error in prediction. During training, we can evaluate the gradient rˆyL(ˆy, y) with respect to
the network outputs given the ground-truth character sequence y. From this point, computing the
gradient with respect to all of the model parameters may be done via back-propagation through the
rest of the network. We use Nesterov’s Accelerated gradient method for training [41].3
Figure 1: Structure of our RNN model and notation.
3
MLP with clipped
ReLU
Bidirectional RNN
with clipped ReLU
Softmax
CTC 損失関数
Log filterbank
Chainerの使⽤用⽤用途:  ⾳音声認識識
l  ⽇日本語の⾳音声認識識の精度度を試すためにDeep Learning
系のアルゴリズムを幾つか実装して実験
l  Clipped ReLU: PR作成、取り込み済み #245
l  Connectionist Temporal Classification: PR作成 #280
l  (Nesterovの加速勾配: PR作成予定)
4PFI Confidential
Chainerの良良い所
l  RNNのサポートが強い
-  Bidirectionalなもの(+GPU)をサポートしていたのはChainerの他
はBlocksだけ
-  コンポーネントがシンプルでわかりやすい(Blocksは⾼高度度に抽
象化していてわかりにくかった)
PFI Confidential	
 5
Chainerの改善点
l  前提: ⾳音声認識識の場合系列列要素が⼤大きいため⾼高速化及
び⼤大量量のメモリが必要
-  10ms毎に特徴ベクトルを⽣生成する → 数千〜~数万程度度の⻑⾧長さ
l  欲しい機能
-  multi-nodeのサポート
-  Hessian-Free
-  シグナルにより中断されないシリアライゼーション cf. Blocks
-  書き込みが終了了してからプログラム終了了
-  学習のepochが終了了してからプログラム終了了
PFI Confidential	
 6
Copyright  ©  2006-‐‑‒2015
Preferred  Infrastructure  All  Right  Reserved.

Chainer meetup20151014