miyoshi2017asj

1
⽇日本⾳音響学会 2017年年春季研究発表会
講演番号: 1-‐‑‒6-‐‑‒15
コンテキスト事後確率率率の
Sequence-‐‑‒to-‐‑‒Sequence学習を⽤用いた
⾳音声変換
2017/3/15
☆ 三好裕之（東⼤大），齋藤佑樹，
⾼高道慎之介，猿渡洋（東⼤大院・情報理理⼯工）

本発表の概要
1/12⽇日本⾳音響学会春季研究発表会 2017/3/15
Ø テキスト⾮非依存⾳音声変換：テキストを必要とせず，⾳音声特徴量量を変換
⾼高精度度な変換が可能だが⾳音声の同⼀一発話内容のパラレルデータが必要
n ⾳音声変換の⼿手法
Ø テキスト依存⾳音声変換：テキストを経由し変換（⾳音声認識識と⾳音声合成）
パラレルデータが不不要だが時間の量量⼦子化などにより変換精度度は低い
⾳音声から推定されるテキストの事後確率率率を経由して⾳音声変換を⾏行行う⼿手法
パラレルデータが不不要かつ時間の量量⼦子化を緩和だが
コンテキスト事後確率率率を複写するため，話速や⾳音韻性の変換は困難
n 従来法：コンテキスト事後確率率率の複写に基づく⾳音声変換 [Sun et al., 2016]
n 提案法：コンテキスト事後確率率率の Sequence-‐‑‒to-‐‑‒Sequence 変換
部分的に含まれるパラレルデータを利利⽤用することで，事後確率率率を変換
→ 話速や⾳音韻性の変換が可能
[Kain et al., 1998]
[Toda et al., 2007]

従来の⾳音響モデル学習：
コンテキスト事後確率率率の複写に基づく⾳音声変換 [Sun et al., 2016]
n 学習時
n 変換時
あ
ら
ゆ
る LSTM
time
⼊入⼒力力
⾳音声特徴量量
⾳音声認識識
コンテキスト
事後確率率率
す
べ
て
出⼒力力
LSTM
⾳音声合成
コンテキスト事後確率率率
各時間の事後確率率率を
濃淡で表現
0
1
LSTM
time
⼊入⼒力力
コンテキスト
事後確率率率
予測
LSTM
copy
げ
ん
じ
つ
あらゆる
time

従来の⾳音響モデル学習の問題点
（コンテキスト事後確率率率の違い）
コンテキスト事後確率率率を複写するため，
⾳音韻性，話速の変換に対応できない
⾳音韻性が異異なる
話速が異異なる

解決⽅方法：コンテキスト事後確率率率の可変⻑⾧長変換
⼊入⼒力力コンテキスト事後確率率率から出⼒力力コンテキスト事後確率率率への可変⻑⾧長変換を⾏行行う．
→ 従来法の問題点である⾳音韻性や話速の問題点を解決
？？
LSTM
LSTM
⼊入⼒力力
コンテキスト
事後確率率率
出⼒力力

提案する⼿手法
Sequence-‐‑‒to-‐‑‒Sequence 学習を⽤用いた⾳音声変換

制約
Sequence-‐‑‒to-‐‑‒Sequence 変換
Ø コンテキスト事後確率率率の Sequence-‐‑‒to-‐‑‒Sequence 変換
ー⼊入⼒力力コンテキスト事後確率率率から出⼒力力コンテキスト事後確率率率への変換の問題点
・⽣生成するフレーム数が⼤大きい場合，変換の失敗が伝播 [Wang et al., 2016]
・継続⻑⾧長（フレーム数）の決定が困難
n コンテキスト事後確率率率の変換単位は⾳音素ごと
n コンテキスト事後確率率率の継続⻑⾧長は既知（出⼒力力系列列の⻑⾧長さを決めておく）
⾬雨が降降る
It rains⼊入⼒力力系列列
出⼒力力系列列
Ø Sequence-‐‑‒to-‐‑‒Sequence 変換：可変⻑⾧長変換を可能にする変換⼿手法
Ø 系列列変換の中で最も単純な encoder-‐‑‒decoder モデル[Ilya et al., 2014]：

提案⼿手法：コンテキスト事後確率率率の
Sequence-‐‑‒to-‐‑‒Sequence 学習に基づく⾳音声変換
⾳音声のパラレルデータが部分的に含まれると想定し，その事後確率率率を可変⻑⾧長変換
LSTM
LSTM
⼊入⼒力力
コンテキスト
事後確率率率
出⼒力力
⾳音声認識識
Sequence-‐‑‒to-‐‑‒Sequence 変換
⾳音声合成
（学習のコスト関数） = (変換誤差) + (⽬目標⾳音素との分類誤差）

コンテキスト事後確率率率変換の例例
変換を
学習
0
1
可変⻑⾧長変換が可能
⼊入⼒力力
出⼒力力
フレーム
Sequence-‐‑‒to-‐‑‒Sequence後の

実験条件
⼊入出⼒力力話者⼊入⼒力力：⽇日本⼈人⼥女女性，出⼒力力：⽇日本⼈人男性
（話速の⼤大きく異異なる話者を選択）
データセット ATR ⾳音素バランス503⽂文 (16 kHz サンプリング）
学習 / 評価データ AーI セット 450⽂文 ×
8⼈人 / Jセット 53⽂文
スペクトル特徴量量 24次元のメルケプストラムと動的特徴量量（合計72次元）
コンテキスト 224次元 (quin-‐‑‒phone)
⾳音声認識識のコスト関数は先⾏行行・当該・後続⾳音素グループ毎の
cross-‐‑‒entropy の和
⾳音声認識識モデル Bidirectional LSTM ，出⼒力力層の活性化関数は softmax
⾳音声合成モデル Bidirectional LSTM ，出⼒力力層の活性化関数は線形関数
事後確率率率変換モデル Bidirectional LSTM (encoder), LSTM (decoder)

実験的評価：客観的指標
客観的指標
改善

実験的評価：主観的指標
改善
劣劣化
主観的指標
⾳音質劣劣化の原因
事後確率率率変換の際に
⾳音素誤りを散⾒見見
変換元変換先

結論論
Ø コンテキスト事後確率率率に Sequence-‐‑‒to-‐‑‒Sequence 変換を
⽤用いることで，事後確率率率に含まれる話者性の変換を可能にした．
Ø コンテキスト事後確率率率の変換により，話者性は向上したが，
⾳音素誤りによる⾳音質の劣劣化に改善の余地がみられた．
Ø 事後確率率率変換と，⾳音声認識識・合成の同時最適化を検討して，
上記の問題を解決する．

miyoshi2017asj

Recommended

Recommended

More Related Content

What's hot

What's hot (19)

More from Yuki Saito

More from Yuki Saito (20)

miyoshi2017asj