Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
Jelinek workshop参加記
2018年 8月22日 全体セミナー
西鳥羽 二郎
自己紹介: 西鳥羽 二郎
• レトリバの取締役副社長及びChief Research Officer
• 自然言語処理、音声認識など
• 研究開発にまつわるetc.
• 最近の目標
• 旅行で全都道府県めぐる
• 旅行で日本の全世界遺産をめぐる
旅行で全都道府県回る
前回セミナー時
全県制覇!
旅行で日本の全世界遺産を回る
長崎と天草地方の潜伏
キリシタン関連遺産
「神宿る島」宗像・沖ノ島と関連遺産群
ル・コルビュジエの建築作品
-近代建築運動への顕著な貢献-
石見銀山
残り4つ
Wikipediaによると: Jelinek Workshop
ホームページによると
専門家、大学院生、学部生によるドリームチーム
6週間に及ぶ音声、言語、画像における
機械学習の研究ワークショップ
Jelinek Workshopの詳細
• Johns Hopkins University(JHU)で行われているWorkshop
• 自然言語処理、音声処理、画像処理に関するソフトウェアの開発
• 2週間のサマースクール + 6週間の研究開...
Workshopの同じチームの人達
リモート及び部分
参加含めて
30人弱
Johns Hopkins University(JHU)
メリーランド州
ボルチモア
(ワシントンD.C.の
近く)
Johns Hopkins University(JHU)
Workshop会場の近く
毎日作業していた
建物
(Malone Hall)
Closing session及
び講演会場
(Hackerman Hall)
Closing Session及び講演会場
Closing Session
https://www.youtube.com/watch?v=7TUjyWmTm30
今年のテーマ
• Grounded Sequence to Sequence Transduction
• General-Purpose Sentence Representation Learning
• Multilingual End-...
音声認識におけるデータサイズと精度
エラー率[%]
100
言語に存在する学習データの量(時間)
0
0
学習データのほぼない言語
学習データの不足している言語
50
リソースの多い言語
1000
5 languages in BABEL
• ...
Imcomplete data
• 他言語の巨大データセット
• 日本語
• 英語
• 対象言語のunpaired data
• テキストのみ
• 音データのみ
• 発音辞書
• ただしこれは量も質も期待できない
Multilingual End-to-end ASR for Incomplete Data
エラー率[%]
100
言語に存在する学習データの量(時間)
0
0
学習データのほぼない言語
学習データの不足している言語
50
リソースの多い言...
Exploring Better Units for End-to-end Speech Recognition
08/02/18
Takaaki Hori
(MERL)
Shinji Watanabe
(JHU)
Jaejin Cho (JH...
認識の単位
• 音声認識における認識単位には選択肢がある
…
h’T’
…
x1 x2 x3 x4 x5 x6 x7 x8
… xT
hTh2 h3 h4 h5 h6 h7 h8
h’1 h’2 h’3 h’4
H
_ _ _
y1 y2
z2...
認識単位の性質
文字単位 単語単位
音声と単語の対応の学習
少量のデータでも
学習できる
必要とする
データ量が多い
(単語単位の認識精度を上回るために12
万時間必要な例もある)
未知語がでてしまう
言語的な性質の用いやすさ
系列が長くなりす...
subword
• 文字の組み合わせをユニットとして含める
• a cat eats -> a_ ca t_ ea ts_
• どの文字列をユニットとするかは工夫が必要
• 未知語に対しても単語が構成できなければならない
• 数が多すぎてはいけ...
subwordを構築する代表的な手法
• Subword segmentation with unigram language model [Kudo’18]
• 極大部分文字列を求め、subwordの候補とする
• 部分文字列を用いて言語モデ...
実験結果(英語)
6.6
18.3
6.7
19.2
5.2
15.1
5.1
15.6
DEV CLEAN DEV OTHER EVAL CLEAN EVAL OTHER
Librispeech, WER
character 2000 unit
実験結果(日本語)
7.7
5.7
6.2
8.2
5.9
6.5
E1 E2 E3
CSJ, CER
character 5000 unit
subwordまとめ
• subwordによる音声認識の機能を実装
• 英語: 精度向上
• 日本語: パラメータ探索中
• 日本語の文字自身がsubwordのような性質を持っている?
• 多言語(18言語)
学習時間の高速化
• 音声認識の学習データは大きいので必要に応じてディスクから
読み込む事によってメモリ消費を抑えている
学習の計算
学習データの
ロード
学習の計算
学習データの
ロード
学習の計算
学習データの
ロード
プリフェッチによる高速化
• データの読み込みを学習の裏で実行
学習の計算
学習データの
ロード
学習の計算
学習データの
ロード
学習の計算
学習データの
ロード
学習の計算
学習データの
ロード
学習の計算
学習データの
ロード
学習の計算...
学習の高速化結果
77
41
学習時間
Librispeech, 学習時間
baseline improved
プリフェッチによる高速化
subwordによる系列長の短縮
(+ディスクキャッシュ)
47%の学習時間短縮
開発状況
• Chainerのmultiprocessiteratorを利用
• そのまま使うとメモリリークするので修正PR中
• ESPnet(後述)のdevブランチにはマージ済み
ESPnet https://github.com/espnet/espnet
30
• Actively developed by
researchers in the world
• 15データセット
• 25言語対応
• Chainer ...
その他 チーム発表からの抜粋
※ こちらに全発表があります
https://www.youtube.com/watch?v=7TUjyWmTm30
Multilingual Training
⬜Convolutive Stacked bottle-neck architecture
Convolutive Stacked bottle-neck architectureの結果
• Significant improvement from multilingual
features – 1.6%-5% on 50h (ful...
Multilingual 音響モデル
• Encoder及びDecoderを共有した学習
• Fine-tuning: 多言語にて学習したあと、認識したい対象言語での学習
をより強く行う
• Language transfer: decoder...
多言語同時学習の結果
Model Features Swahili
%CER
Amharic
%CER
Tok Pisin
%CER
Georgian
%CER
Monoling FBANK
28.6 45.3 32.2 34.8
Monoli...
Text-to-Speech
• Conventional TTS system
• E2E-TTS system
Text 音声
ニューラル
ネットワーク
ニューラル
vocoder
Deep Network
特徴
ベクトル
 多数のモジュ...
Tacotron2
• Fully neural TTS system with human-level quality
• Generates mel spec. by spectrogram pred. net
• Generates wa...
Text-to-Speechの応用: 不完全なデータでの学習
• テキストデータ及び音声データだけでも学習可能
音声 テキスト
音声認識
音声合成
音声 テキスト 音声
音声認識 音声合成
テキスト 音声 テキスト
音声学習 音声認識
一致する...
Text-to-Speechの応用: 音声翻訳
TTS: Tacotron
Encode Decode ASR: ESPNet
Encode Decode
Encode Decode
Major accomplishments (1/2)
(1) Built multi-lingual end-to-end ASR systems for 17 languages
(2) Significant improvement wi...
Major accomplishments (2/2)
08/02/18JSALT2018 closing session
41
(3) Built end-to-end ASR-TTS chain and unpaired data trai...
Upcoming SlideShare
Loading in …5
×

Retrieva seminar jelinek_20180822

875 views

Published on

2018年08月22日のレトリバセミナーの資料です。
Jelinek Workshopの参加記です。

Published in: Technology
  • Be the first to comment

Retrieva seminar jelinek_20180822

  1. 1. Jelinek workshop参加記 2018年 8月22日 全体セミナー 西鳥羽 二郎
  2. 2. 自己紹介: 西鳥羽 二郎 • レトリバの取締役副社長及びChief Research Officer • 自然言語処理、音声認識など • 研究開発にまつわるetc. • 最近の目標 • 旅行で全都道府県めぐる • 旅行で日本の全世界遺産をめぐる
  3. 3. 旅行で全都道府県回る 前回セミナー時 全県制覇!
  4. 4. 旅行で日本の全世界遺産を回る 長崎と天草地方の潜伏 キリシタン関連遺産 「神宿る島」宗像・沖ノ島と関連遺産群 ル・コルビュジエの建築作品 -近代建築運動への顕著な貢献- 石見銀山 残り4つ
  5. 5. Wikipediaによると: Jelinek Workshop
  6. 6. ホームページによると 専門家、大学院生、学部生によるドリームチーム 6週間に及ぶ音声、言語、画像における 機械学習の研究ワークショップ
  7. 7. Jelinek Workshopの詳細 • Johns Hopkins University(JHU)で行われているWorkshop • 自然言語処理、音声処理、画像処理に関するソフトウェアの開発 • 2週間のサマースクール + 6週間の研究開発 • 2018年は6/11~8/3で開催 • 1995年から毎年夏に開催されている • 95, 96, 97, 2002年 SRILM: 言語モデル • 2006年 moses: 機械翻訳 • 2009年 Kaldi: 音声認識
  8. 8. Workshopの同じチームの人達 リモート及び部分 参加含めて 30人弱
  9. 9. Johns Hopkins University(JHU) メリーランド州 ボルチモア (ワシントンD.C.の 近く)
  10. 10. Johns Hopkins University(JHU)
  11. 11. Workshop会場の近く 毎日作業していた 建物 (Malone Hall) Closing session及 び講演会場 (Hackerman Hall)
  12. 12. Closing Session及び講演会場
  13. 13. Closing Session https://www.youtube.com/watch?v=7TUjyWmTm30
  14. 14. 今年のテーマ • Grounded Sequence to Sequence Transduction • General-Purpose Sentence Representation Learning • Multilingual End-to-end ASR for Incomplete Data
  15. 15. 音声認識におけるデータサイズと精度 エラー率[%] 100 言語に存在する学習データの量(時間) 0 0 学習データのほぼない言語 学習データの不足している言語 50 リソースの多い言語 1000 5 languages in BABEL • アッサム語 • ラオ語 • タガログ語 • スワヒリ語 • ズールー語 2 major languages • 英語(Librispeech) • 日本語 (CSJ)
  16. 16. Imcomplete data • 他言語の巨大データセット • 日本語 • 英語 • 対象言語のunpaired data • テキストのみ • 音データのみ • 発音辞書 • ただしこれは量も質も期待できない
  17. 17. Multilingual End-to-end ASR for Incomplete Data エラー率[%] 100 言語に存在する学習データの量(時間) 0 0 学習データのほぼない言語 学習データの不足している言語 50 リソースの多い言語 1000 エラー削減! Incomplete data テキスト データ 音 データ Other languages Unpaired data Paired data Lexicon, etc. (optional) Extra Knowl edge Multi-lingual training and adaptation Learning algorithms for unpaired data New architecture and training methods 担当
  18. 18. Exploring Better Units for End-to-end Speech Recognition 08/02/18 Takaaki Hori (MERL) Shinji Watanabe (JHU) Jaejin Cho (JHU)Jiro Nishitoba (Retrieva) • Incorporation of word-based RNN language model (Takaaki) • Exploring subword-based end-to-end ASR (Jiro)
  19. 19. 認識の単位 • 音声認識における認識単位には選択肢がある … h’T’ … x1 x2 x3 x4 x5 x6 x7 x8 … xT hTh2 h3 h4 h5 h6 h7 h8 h’1 h’2 h’3 h’4 H _ _ _ y1 y2 z2 z4 … … CTC Shared Encoder q0 eossos y1 y2 qL-1 r0 r1 … … … rL Attention Decoder h1 q1 r2 y1 y2 … Single Deep Network Character a _ c a t _ e a t s _ ... Word a cat eats ... A cat eats …
  20. 20. 認識単位の性質 文字単位 単語単位 音声と単語の対応の学習 少量のデータでも 学習できる 必要とする データ量が多い (単語単位の認識精度を上回るために12 万時間必要な例もある) 未知語がでてしまう 言語的な性質の用いやすさ 系列が長くなりすぎてし まい難しい 言語モデルと組み合わせ やすく精度を上げやすい トレードオフ
  21. 21. subword • 文字の組み合わせをユニットとして含める • a cat eats -> a_ ca t_ ea ts_ • どの文字列をユニットとするかは工夫が必要 • 未知語に対しても単語が構成できなければならない • 数が多すぎてはいけない • 文字列に比べて系列長が短くならなければいけない
  22. 22. subwordを構築する代表的な手法 • Subword segmentation with unigram language model [Kudo’18] • 極大部分文字列を求め、subwordの候補とする • 部分文字列を用いて言語モデルのスコアを算出し、良さに寄与しない ものを削除する • Based on data compression technique(Byte Pair Encoding) [Sennrich+’16] • 文字をsubwordの初期値とする • subwordの組み合わせの出現回数を数える • 出現回数が多いものをsubwordとする • 求めたいsubwordの個数になるまで上記の処理を繰り返す
  23. 23. 実験結果(英語) 6.6 18.3 6.7 19.2 5.2 15.1 5.1 15.6 DEV CLEAN DEV OTHER EVAL CLEAN EVAL OTHER Librispeech, WER character 2000 unit
  24. 24. 実験結果(日本語) 7.7 5.7 6.2 8.2 5.9 6.5 E1 E2 E3 CSJ, CER character 5000 unit
  25. 25. subwordまとめ • subwordによる音声認識の機能を実装 • 英語: 精度向上 • 日本語: パラメータ探索中 • 日本語の文字自身がsubwordのような性質を持っている? • 多言語(18言語)
  26. 26. 学習時間の高速化 • 音声認識の学習データは大きいので必要に応じてディスクから 読み込む事によってメモリ消費を抑えている 学習の計算 学習データの ロード 学習の計算 学習データの ロード 学習の計算 学習データの ロード
  27. 27. プリフェッチによる高速化 • データの読み込みを学習の裏で実行 学習の計算 学習データの ロード 学習の計算 学習データの ロード 学習の計算 学習データの ロード 学習の計算 学習データの ロード 学習の計算 学習データの ロード 学習の計算 学習データの ロード 学習の計算 学習データの ロード 学習の計算 学習データの ロード
  28. 28. 学習の高速化結果 77 41 学習時間 Librispeech, 学習時間 baseline improved プリフェッチによる高速化 subwordによる系列長の短縮 (+ディスクキャッシュ) 47%の学習時間短縮
  29. 29. 開発状況 • Chainerのmultiprocessiteratorを利用 • そのまま使うとメモリリークするので修正PR中 • ESPnet(後述)のdevブランチにはマージ済み
  30. 30. ESPnet https://github.com/espnet/espnet 30 • Actively developed by researchers in the world • 15データセット • 25言語対応 • Chainer or Pytorch backend • Kaldi styleを踏襲 Open source (Apache2.0) end-to-end ASR toolkit
  31. 31. その他 チーム発表からの抜粋 ※ こちらに全発表があります https://www.youtube.com/watch?v=7TUjyWmTm30
  32. 32. Multilingual Training ⬜Convolutive Stacked bottle-neck architecture
  33. 33. Convolutive Stacked bottle-neck architectureの結果 • Significant improvement from multilingual features – 1.6%-5% on 50h (full sets) • Lower performance degradation (higher improvement) on lower amount of data. • No dependence on having target language as part of feature training data (TokPisin, Georgian)
  34. 34. Multilingual 音響モデル • Encoder及びDecoderを共有した学習 • Fine-tuning: 多言語にて学習したあと、認識したい対象言語での学習 をより強く行う • Language transfer: decoderの最終出力レイヤーを対象言語専用に変 える Encoder Decoder 言語 LSTM Linear 言語 このレイヤーを共通 ではなく言語ごとに 用意する
  35. 35. 多言語同時学習の結果 Model Features Swahili %CER Amharic %CER Tok Pisin %CER Georgian %CER Monoling FBANK 28.6 45.3 32.2 34.8 Monoling Multiling 26.4 40.4 26.8 33.2 Multiling (LT-Out) FBANK 27.4 41.2 27.7 33.6 Multiling (f. tune) FBANK 27.8 - 27.5 33.3 Multiling (f.tune) Multiling - - - -
  36. 36. Text-to-Speech • Conventional TTS system • E2E-TTS system Text 音声 ニューラル ネットワーク ニューラル vocoder Deep Network 特徴 ベクトル  多数のモジュールを必要とする  モジュールを個別に最適化する必要がある  ニューラルネットワーク単体で構成することができる  モジュール全体を通して最適化できる テキスト F0 model SP-based Vocoder 特徴抽出 Spectrum model Duration model 音声 前処理
  37. 37. Tacotron2 • Fully neural TTS system with human-level quality • Generates mel spec. by spectrogram pred. net • Generates waveform by WaveNet vocoder ESPnetに搭載
  38. 38. Text-to-Speechの応用: 不完全なデータでの学習 • テキストデータ及び音声データだけでも学習可能 音声 テキスト 音声認識 音声合成 音声 テキスト 音声 音声認識 音声合成 テキスト 音声 テキスト 音声学習 音声認識 一致するように学習 一致するように学習
  39. 39. Text-to-Speechの応用: 音声翻訳 TTS: Tacotron Encode Decode ASR: ESPNet Encode Decode Encode Decode
  40. 40. Major accomplishments (1/2) (1) Built multi-lingual end-to-end ASR systems for 17 languages (2) Significant improvement with novel architecture and training methods (submitted 3 papers to SLT’18) 08/02/18JSALT2018 closing session 40 … h’T’ … x1 x2 x3 x4 x5 x6 x7 x8 … xT hTh2 h3 h4 h5 h6 h7 h8 h’1 h’2 h’3 h’4 H _ _ _ y1 y2 z2 z4 … … CTC Shared Encoder q0 eossos y1 y2 qL-1 r0 r1 … … … rL Attention Decoder h1 q1 r2 y1 y2 …
  41. 41. Major accomplishments (2/2) 08/02/18JSALT2018 closing session 41 (3) Built end-to-end ASR-TTS chain and unpaired data training X Y ASR TTS speech ஹம் text (4) ESPnet: an open-source end-to-end speech processing toolkit  Developed for this workshop (github stars increased 196 to 330 during workshop)  Support state-of-the-art seq-to-seq models and ASR and TTS recipes  Follow Kaldi-style recipes, that we can port Kaldi experiments easily

×