9. デモ動画
(この論文の技術が使われているはず...)
Google (YouTube)
Next Generation Google Assistant: Demo 2 at Google I/O 2019
https://youtube.com/watch?v=QsX7uEEKCDE
(accessed 2019/06/05)
Danny Winget @superscientific (Twitter)
Google Assistant directly on the device is NO JOKE! 😱 #io19
https://twitter.com/superscientific/status/1125815561500315648?s=21
(accessed 2019/06/05)
10. End-to-End 音声認識の実用に向けた課題
① 性能改善
﹘ 少なくとも従来と同等の性能
② レスポンスの改善
﹘ 話し終わってから結果が得られるまでの時間が短いこと
③ ユーザの状況に合わせた認識
﹘ 好みの曲名,連絡先名,アプリ名などを認識できること
④ 数字表記の正規化
﹘ 電話番号や住所などの数字の表記を正しく出力できること
論文中の例:call two double four triple six five → call 244-6665
11. 課題解決へのアプローチ
Recurrent neural network transducer (RNN-T) ①②
Layer normalization ①
Large batch size with tensor processing units (TPUs) ①
Word-piece model (WPM) ①
Low frame rate ②
Time reduction layer ②
RNN の State caching ②
Inference 計算の thread 分割 ②
Contextual biasing by shallow-fusion ③
教師なしの固有名詞発声を用いた学習 ③
合成音声を用いた学習 ④
① 性能改善
② レスポンスの改善
③ ユーザの状況に合わせた認識
④ 数字表記の正規化
21. Parameter Quantization
32 bit 浮動小数点のパラメータを 8 bit 符号付固定小数点に量子化
﹘ メモリ削減と計算高速化
﹘ 量子化係数 𝜃 =
127
max 𝒙min , 𝒙max
(論文中では 𝜃 =
127
max 𝒙min,𝒙max
と記載)
﹘ 量子化ベクトル 𝒙 𝑞 = int 𝜃𝒙 ← 値の範囲は ± 27
− 1
﹘ 2つの乗算の積の和は 16 bit 以下 (論文中では 15-bits と記載)
→ 32-bit accumulator で複数の multiply-accumulate operation を実行可能
8 bit signed 8 bit signed 8 bit signed 8 bit signed
15 bit signed 15 bit signed
16 bit signed
この演算を2つ同時に実行可能
27. Text Normalization
住所や電話番号などの数字表記の正規化
﹘ 論文中の例:
call two double four triple six five → call 244-6665
navigate to two twenty one b baker street → navigate to 221b baker street
正規化された数字表記を出力するように End-to-End モデルを学習
﹘ 課題:
・数字発声を含む学習データ (audio-text pairs) の量が不十分
・学習データに存在しない組み合わせは正しく出力できない
﹘ 数字を含む5 million 発声を音声合成で生成
各バッチの 10% を合成音声に
31. 参考文献
[He et al., 2019] Y. He, et al., ''Streaming End-to-end Speech Recognition
for Mobile Devices,'' Proc. ICASSP2019, pp.6381-6385, 2019.
[Chan et al., 2015] W. Chan, et al., "Listen, Attend and Spell,"
arXiv:1508.01211, 2015.