More Related Content
More from Yuki Saito (20)
miyoshi2017asj
- 2. 本発表の概要
1/12⽇日本⾳音響学会 春季研究発表会 2017/3/15
Ø テキスト⾮非依存⾳音声変換:テキストを必要とせず,⾳音声特徴量量を変換
⾼高精度度な変換が可能 だが ⾳音声の同⼀一発話内容のパラレルデータが必要
n ⾳音声変換の⼿手法
Ø テキスト依存⾳音声変換:テキストを経由し変換(⾳音声認識識と⾳音声合成)
パラレルデータが不不要 だが 時間の量量⼦子化などにより変換精度度は低い
⾳音声から推定されるテキストの事後確率率率を経由して⾳音声変換を⾏行行う⼿手法
パラレルデータが不不要かつ時間の量量⼦子化を緩和 だが
コンテキスト事後確率率率を複写するため,話速や⾳音韻性の変換は困難
n 従来法:コンテキスト事後確率率率の複写に基づく⾳音声変換 [Sun et al., 2016]
n 提案法:コンテキスト事後確率率率の Sequence-‐‑‒to-‐‑‒Sequence 変換
部分的に含まれるパラレルデータを利利⽤用することで,事後確率率率を変換
→ 話速や⾳音韻性の変換が可能
[Kain et al., 1998]
[Toda et al., 2007]
- 3. 従来の⾳音響モデル学習:
コンテキスト事後確率率率の複写に基づく⾳音声変換 [Sun et al., 2016]
2/12⽇日本⾳音響学会 春季研究発表会 2017/3/15
n 学習時
n 変換時
あ
ら
ゆ
る LSTM
time
⼊入⼒力力
⾳音声特徴量量
⾳音声認識識
コンテキスト
事後確率率率
す
べ
て
出⼒力力
⾳音声特徴量量
LSTM
⾳音声合成
コンテキスト事後確率率率
各時間の事後確率率率を
濃淡で表現
0
1
LSTM
time
⼊入⼒力力
⾳音声特徴量量
コンテキスト
事後確率率率
予測
⾳音声特徴量量
LSTM
copy
げ
ん
じ
つ
あ ら ゆ る
time
- 7. 制約
Sequence-‐‑‒to-‐‑‒Sequence 変換
6/12⽇日本⾳音響学会 春季研究発表会 2017/3/15
Ø コンテキスト事後確率率率の Sequence-‐‑‒to-‐‑‒Sequence 変換
ー ⼊入⼒力力コンテキスト事後確率率率から出⼒力力コンテキスト事後確率率率への変換の問題点
・⽣生成するフレーム数が⼤大きい場合,変換の失敗が伝播 [Wang et al., 2016]
・継続⻑⾧長(フレーム数)の決定が困難
n コンテキスト事後確率率率の変換単位は⾳音素ごと
n コンテキスト事後確率率率の継続⻑⾧長は 既知(出⼒力力系列列の⻑⾧長さを決めておく)
⾬雨 が 降降る
It rains⼊入⼒力力系列列
出⼒力力系列列
Ø Sequence-‐‑‒to-‐‑‒Sequence 変換:可変⻑⾧長変換を可能にする変換⼿手法
Ø 系列列変換の中で最も単純な encoder-‐‑‒decoder モデル[Ilya et al., 2014]:
- 10. 実験条件
9/12⽇日本⾳音響学会 春季研究発表会 2017/3/15
⼊入出⼒力力話者 ⼊入⼒力力:⽇日本⼈人⼥女女性,出⼒力力:⽇日本⼈人男性
(話速の⼤大きく異異なる話者を選択)
データセット ATR ⾳音素バランス503⽂文 (16 kHz サンプリング)
学習 / 評価データ AーI セット 450⽂文 ×
8⼈人 / Jセット 53⽂文
スペクトル特徴量量 24次元のメルケプストラムと動的特徴量量(合計72次元)
コンテキスト 224次元 (quin-‐‑‒phone)
⾳音声認識識のコスト関数は先⾏行行・当該・後続⾳音素グループ毎の
cross-‐‑‒entropy の和
⾳音声認識識モデル Bidirectional LSTM ,出⼒力力層の活性化関数は softmax
⾳音声合成モデル Bidirectional LSTM ,出⼒力力層の活性化関数は線形関数
事後確率率率変換モデル Bidirectional LSTM (encoder), LSTM (decoder)
- 13. 結論論
12/12⽇日本⾳音響学会 春季研究発表会 2017/3/15
Ø コンテキスト事後確率率率に Sequence-‐‑‒to-‐‑‒Sequence 変換を
⽤用いることで,事後確率率率に含まれる話者性の変換を可能にした.
Ø コンテキスト事後確率率率の変換により,話者性は向上したが,
⾳音素誤りによる⾳音質の劣劣化に改善の余地がみられた.
Ø 事後確率率率変換と,⾳音声認識識・合成の同時最適化を検討して,
上記の問題を解決する.