Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
1
⽇日本⾳音響学会 2017年年春季研究発表会
講演番号:  1-‐‑‒6-‐‑‒15
コンテキスト事後確率率率の
Sequence-‐‑‒to-‐‑‒Sequence学習を⽤用いた
⾳音声変換
2017/3/15
☆ 三好 裕之(東⼤大),...
本発表の概要
1/12⽇日本⾳音響学会 春季研究発表会 2017/3/15
Ø テキスト⾮非依存⾳音声変換:テキストを必要とせず,⾳音声特徴量量を変換
⾼高精度度な変換が可能 だが ⾳音声の同⼀一発話内容のパラレルデータが必要
n ⾳音声変...
従来の⾳音響モデル学習:
コンテキスト事後確率率率の複写に基づく⾳音声変換 [Sun  et  al.,  2016]
2/12⽇日本⾳音響学会 春季研究発表会 2017/3/15
n 学習時
n 変換時
あ
ら
ゆ
る LSTM
time...
従来の⾳音響モデル学習の問題点
(コンテキスト事後確率率率の違い)
3/12⽇日本⾳音響学会 春季研究発表会 2017/3/15
コンテキスト事後確率率率を複写するため,
⾳音韻性,話速の変換に対応できない
⾳音韻性が異異なる
話速が異異なる
解決⽅方法:コンテキスト事後確率率率の可変⻑⾧長変換
4/12⽇日本⾳音響学会 春季研究発表会 2017/3/15
⼊入⼒力力コンテキスト事後確率率率から出⼒力力コンテキスト事後確率率率への可変⻑⾧長変換を⾏行行う.
→ 従来法の問題点である⾳...
提案する⼿手法
5/12⽇日本⾳音響学会 春季研究発表会 2017/3/15
コンテキスト事後確率率率の
Sequence-‐‑‒to-‐‑‒Sequence  学習を⽤用いた⾳音声変換
制約
Sequence-‐‑‒to-‐‑‒Sequence  変換
6/12⽇日本⾳音響学会 春季研究発表会 2017/3/15
Ø コンテキスト事後確率率率の Sequence-‐‑‒to-‐‑‒Sequence 変換
ー ⼊入⼒力力コンテ...
提案⼿手法:コンテキスト事後確率率率の
Sequence-‐‑‒to-‐‑‒Sequence  学習に基づく⾳音声変換
7/12⽇日本⾳音響学会 春季研究発表会 2017/3/15
⾳音声のパラレルデータが部分的に含まれると想定し,その事後確率...
コンテキスト事後確率率率変換の例例
8/12⽇日本⾳音響学会 春季研究発表会 2017/3/15
変換を
学習
0
1
コンテキスト事後確率率率の
可変⻑⾧長変換が可能
⼊入⼒力力
コンテキスト事後確率率率
出⼒力力
コンテキスト事後確率率率
...
実験条件
9/12⽇日本⾳音響学会 春季研究発表会 2017/3/15
⼊入出⼒力力話者 ⼊入⼒力力:⽇日本⼈人⼥女女性,出⼒力力:⽇日本⼈人男性
(話速の⼤大きく異異なる話者を選択)
データセット ATR  ⾳音素バランス503⽂文 (16 ...
実験的評価:客観的指標
10/12⽇日本⾳音響学会 春季研究発表会 2017/3/15
客観的指標
改善
実験的評価:主観的指標
11/12⽇日本⾳音響学会 春季研究発表会 2017/3/15
改善
劣劣化
主観的指標
⾳音質劣劣化の原因
事後確率率率変換の際に
⾳音素誤りを散⾒見見
変換元 変換先
結論論
12/12⽇日本⾳音響学会 春季研究発表会 2017/3/15
Ø コンテキスト事後確率率率に Sequence-‐‑‒to-‐‑‒Sequence  変換を
⽤用いることで,事後確率率率に含まれる話者性の変換を可能にした.
Ø コ...
Upcoming SlideShare
Loading in …5
×

miyoshi2017asj

203 views

Published on

ASJ 2017 seq2seq vc

Published in: Science
  • Be the first to comment

  • Be the first to like this

miyoshi2017asj

  1. 1. 1 ⽇日本⾳音響学会 2017年年春季研究発表会 講演番号:  1-‐‑‒6-‐‑‒15 コンテキスト事後確率率率の Sequence-‐‑‒to-‐‑‒Sequence学習を⽤用いた ⾳音声変換 2017/3/15 ☆ 三好 裕之(東⼤大),齋藤 佑樹, ⾼高道 慎之介,猿渡 洋(東⼤大院・情報理理⼯工)
  2. 2. 本発表の概要 1/12⽇日本⾳音響学会 春季研究発表会 2017/3/15 Ø テキスト⾮非依存⾳音声変換:テキストを必要とせず,⾳音声特徴量量を変換 ⾼高精度度な変換が可能 だが ⾳音声の同⼀一発話内容のパラレルデータが必要 n ⾳音声変換の⼿手法 Ø テキスト依存⾳音声変換:テキストを経由し変換(⾳音声認識識と⾳音声合成) パラレルデータが不不要 だが 時間の量量⼦子化などにより変換精度度は低い ⾳音声から推定されるテキストの事後確率率率を経由して⾳音声変換を⾏行行う⼿手法 パラレルデータが不不要かつ時間の量量⼦子化を緩和 だが コンテキスト事後確率率率を複写するため,話速や⾳音韻性の変換は困難 n 従来法:コンテキスト事後確率率率の複写に基づく⾳音声変換 [Sun  et  al.,  2016] n 提案法:コンテキスト事後確率率率の Sequence-‐‑‒to-‐‑‒Sequence  変換 部分的に含まれるパラレルデータを利利⽤用することで,事後確率率率を変換 → 話速や⾳音韻性の変換が可能 [Kain et  al.,  1998] [Toda  et  al.,  2007]
  3. 3. 従来の⾳音響モデル学習: コンテキスト事後確率率率の複写に基づく⾳音声変換 [Sun  et  al.,  2016] 2/12⽇日本⾳音響学会 春季研究発表会 2017/3/15 n 学習時 n 変換時 あ ら ゆ る LSTM time ⼊入⼒力力 ⾳音声特徴量量 ⾳音声認識識 コンテキスト 事後確率率率 す べ て 出⼒力力 ⾳音声特徴量量 LSTM ⾳音声合成 コンテキスト事後確率率率 各時間の事後確率率率を 濃淡で表現 0 1 LSTM time ⼊入⼒力力 ⾳音声特徴量量 コンテキスト 事後確率率率 予測 ⾳音声特徴量量 LSTM copy げ ん じ つ あ ら ゆ る time
  4. 4. 従来の⾳音響モデル学習の問題点 (コンテキスト事後確率率率の違い) 3/12⽇日本⾳音響学会 春季研究発表会 2017/3/15 コンテキスト事後確率率率を複写するため, ⾳音韻性,話速の変換に対応できない ⾳音韻性が異異なる 話速が異異なる
  5. 5. 解決⽅方法:コンテキスト事後確率率率の可変⻑⾧長変換 4/12⽇日本⾳音響学会 春季研究発表会 2017/3/15 ⼊入⼒力力コンテキスト事後確率率率から出⼒力力コンテキスト事後確率率率への可変⻑⾧長変換を⾏行行う. → 従来法の問題点である⾳音韻性や話速の問題点を解決 ?? LSTM LSTM ⼊入⼒力力 ⾳音声特徴量量 コンテキスト 事後確率率率 出⼒力力 ⾳音声特徴量量
  6. 6. 提案する⼿手法 5/12⽇日本⾳音響学会 春季研究発表会 2017/3/15 コンテキスト事後確率率率の Sequence-‐‑‒to-‐‑‒Sequence  学習を⽤用いた⾳音声変換
  7. 7. 制約 Sequence-‐‑‒to-‐‑‒Sequence  変換 6/12⽇日本⾳音響学会 春季研究発表会 2017/3/15 Ø コンテキスト事後確率率率の Sequence-‐‑‒to-‐‑‒Sequence 変換 ー ⼊入⼒力力コンテキスト事後確率率率から出⼒力力コンテキスト事後確率率率への変換の問題点 ・⽣生成するフレーム数が⼤大きい場合,変換の失敗が伝播 [Wang  et  al.,  2016] ・継続⻑⾧長(フレーム数)の決定が困難 n コンテキスト事後確率率率の変換単位は⾳音素ごと n コンテキスト事後確率率率の継続⻑⾧長は 既知(出⼒力力系列列の⻑⾧長さを決めておく) ⾬雨 が 降降る It rains⼊入⼒力力系列列 出⼒力力系列列 Ø Sequence-‐‑‒to-‐‑‒Sequence   変換:可変⻑⾧長変換を可能にする変換⼿手法 Ø 系列列変換の中で最も単純な encoder-‐‑‒decoder モデル[Ilya et  al.,  2014]:
  8. 8. 提案⼿手法:コンテキスト事後確率率率の Sequence-‐‑‒to-‐‑‒Sequence  学習に基づく⾳音声変換 7/12⽇日本⾳音響学会 春季研究発表会 2017/3/15 ⾳音声のパラレルデータが部分的に含まれると想定し,その事後確率率率を可変⻑⾧長変換 LSTM LSTM ⼊入⼒力力 ⾳音声特徴量量 コンテキスト 事後確率率率 出⼒力力 ⾳音声特徴量量 ⾳音声認識識 Sequence-‐‑‒to-‐‑‒Sequence  変換 ⾳音声合成 (学習のコスト関数) =  (変換誤差)  +  (⽬目標⾳音素との分類誤差)
  9. 9. コンテキスト事後確率率率変換の例例 8/12⽇日本⾳音響学会 春季研究発表会 2017/3/15 変換を 学習 0 1 コンテキスト事後確率率率の 可変⻑⾧長変換が可能 ⼊入⼒力力 コンテキスト事後確率率率 出⼒力力 コンテキスト事後確率率率 フレーム Sequence-‐‑‒to-‐‑‒Sequence後の コンテキスト事後確率率率
  10. 10. 実験条件 9/12⽇日本⾳音響学会 春季研究発表会 2017/3/15 ⼊入出⼒力力話者 ⼊入⼒力力:⽇日本⼈人⼥女女性,出⼒力力:⽇日本⼈人男性 (話速の⼤大きく異異なる話者を選択) データセット ATR  ⾳音素バランス503⽂文 (16  kHz  サンプリング) 学習 /  評価データ AーI  セット 450⽂文 ×  8⼈人 /  Jセット 53⽂文 スペクトル特徴量量 24次元のメルケプストラムと動的特徴量量(合計72次元) コンテキスト 224次元 (quin-‐‑‒phone) ⾳音声認識識のコスト関数は先⾏行行・当該・後続⾳音素グループ毎の cross-‐‑‒entropy  の和 ⾳音声認識識モデル Bidirectional  LSTM  ,出⼒力力層の活性化関数は softmax ⾳音声合成モデル Bidirectional  LSTM  ,出⼒力力層の活性化関数は線形関数 事後確率率率変換モデル Bidirectional  LSTM  (encoder),  LSTM  (decoder)  
  11. 11. 実験的評価:客観的指標 10/12⽇日本⾳音響学会 春季研究発表会 2017/3/15 客観的指標 改善
  12. 12. 実験的評価:主観的指標 11/12⽇日本⾳音響学会 春季研究発表会 2017/3/15 改善 劣劣化 主観的指標 ⾳音質劣劣化の原因 事後確率率率変換の際に ⾳音素誤りを散⾒見見 変換元 変換先
  13. 13. 結論論 12/12⽇日本⾳音響学会 春季研究発表会 2017/3/15 Ø コンテキスト事後確率率率に Sequence-‐‑‒to-‐‑‒Sequence  変換を ⽤用いることで,事後確率率率に含まれる話者性の変換を可能にした. Ø コンテキスト事後確率率率の変換により,話者性は向上したが, ⾳音素誤りによる⾳音質の劣劣化に改善の余地がみられた. Ø 事後確率率率変換と,⾳音声認識識・合成の同時最適化を検討して, 上記の問題を解決する.

×