SlideShare a Scribd company logo
1 of 13
Download to read offline
1
⽇日本⾳音響学会 2017年年春季研究発表会
講演番号:  1-‐‑‒6-‐‑‒15
コンテキスト事後確率率率の
Sequence-‐‑‒to-‐‑‒Sequence学習を⽤用いた
⾳音声変換
2017/3/15
☆ 三好 裕之(東⼤大),齋藤 佑樹,
⾼高道 慎之介,猿渡 洋(東⼤大院・情報理理⼯工)
本発表の概要
1/12⽇日本⾳音響学会 春季研究発表会 2017/3/15
Ø テキスト⾮非依存⾳音声変換:テキストを必要とせず,⾳音声特徴量量を変換
⾼高精度度な変換が可能 だが ⾳音声の同⼀一発話内容のパラレルデータが必要
n ⾳音声変換の⼿手法
Ø テキスト依存⾳音声変換:テキストを経由し変換(⾳音声認識識と⾳音声合成)
パラレルデータが不不要 だが 時間の量量⼦子化などにより変換精度度は低い
⾳音声から推定されるテキストの事後確率率率を経由して⾳音声変換を⾏行行う⼿手法
パラレルデータが不不要かつ時間の量量⼦子化を緩和 だが
コンテキスト事後確率率率を複写するため,話速や⾳音韻性の変換は困難
n 従来法:コンテキスト事後確率率率の複写に基づく⾳音声変換 [Sun  et  al.,  2016]
n 提案法:コンテキスト事後確率率率の Sequence-‐‑‒to-‐‑‒Sequence  変換
部分的に含まれるパラレルデータを利利⽤用することで,事後確率率率を変換
→ 話速や⾳音韻性の変換が可能
[Kain et  al.,  1998]
[Toda  et  al.,  2007]
従来の⾳音響モデル学習:
コンテキスト事後確率率率の複写に基づく⾳音声変換 [Sun  et  al.,  2016]
2/12⽇日本⾳音響学会 春季研究発表会 2017/3/15
n 学習時
n 変換時
あ
ら
ゆ
る LSTM
time
⼊入⼒力力
⾳音声特徴量量
⾳音声認識識
コンテキスト
事後確率率率
す
べ
て
出⼒力力
⾳音声特徴量量
LSTM
⾳音声合成
コンテキスト事後確率率率
各時間の事後確率率率を
濃淡で表現
0
1
LSTM
time
⼊入⼒力力
⾳音声特徴量量
コンテキスト
事後確率率率
予測
⾳音声特徴量量
LSTM
copy
げ
ん
じ
つ
あ ら ゆ る
time
従来の⾳音響モデル学習の問題点
(コンテキスト事後確率率率の違い)
3/12⽇日本⾳音響学会 春季研究発表会 2017/3/15
コンテキスト事後確率率率を複写するため,
⾳音韻性,話速の変換に対応できない
⾳音韻性が異異なる
話速が異異なる
解決⽅方法:コンテキスト事後確率率率の可変⻑⾧長変換
4/12⽇日本⾳音響学会 春季研究発表会 2017/3/15
⼊入⼒力力コンテキスト事後確率率率から出⼒力力コンテキスト事後確率率率への可変⻑⾧長変換を⾏行行う.
→ 従来法の問題点である⾳音韻性や話速の問題点を解決
??
LSTM
LSTM
⼊入⼒力力
⾳音声特徴量量
コンテキスト
事後確率率率
出⼒力力
⾳音声特徴量量
提案する⼿手法
5/12⽇日本⾳音響学会 春季研究発表会 2017/3/15
コンテキスト事後確率率率の
Sequence-‐‑‒to-‐‑‒Sequence  学習を⽤用いた⾳音声変換
制約
Sequence-‐‑‒to-‐‑‒Sequence  変換
6/12⽇日本⾳音響学会 春季研究発表会 2017/3/15
Ø コンテキスト事後確率率率の Sequence-‐‑‒to-‐‑‒Sequence 変換
ー ⼊入⼒力力コンテキスト事後確率率率から出⼒力力コンテキスト事後確率率率への変換の問題点
・⽣生成するフレーム数が⼤大きい場合,変換の失敗が伝播 [Wang  et  al.,  2016]
・継続⻑⾧長(フレーム数)の決定が困難
n コンテキスト事後確率率率の変換単位は⾳音素ごと
n コンテキスト事後確率率率の継続⻑⾧長は 既知(出⼒力力系列列の⻑⾧長さを決めておく)
⾬雨 が 降降る
It rains⼊入⼒力力系列列
出⼒力力系列列
Ø Sequence-‐‑‒to-‐‑‒Sequence   変換:可変⻑⾧長変換を可能にする変換⼿手法
Ø 系列列変換の中で最も単純な encoder-‐‑‒decoder モデル[Ilya et  al.,  2014]:
提案⼿手法:コンテキスト事後確率率率の
Sequence-‐‑‒to-‐‑‒Sequence  学習に基づく⾳音声変換
7/12⽇日本⾳音響学会 春季研究発表会 2017/3/15
⾳音声のパラレルデータが部分的に含まれると想定し,その事後確率率率を可変⻑⾧長変換
LSTM
LSTM
⼊入⼒力力
⾳音声特徴量量
コンテキスト
事後確率率率
出⼒力力
⾳音声特徴量量
⾳音声認識識
Sequence-‐‑‒to-‐‑‒Sequence  変換
⾳音声合成
(学習のコスト関数) =  (変換誤差)  +  (⽬目標⾳音素との分類誤差)
コンテキスト事後確率率率変換の例例
8/12⽇日本⾳音響学会 春季研究発表会 2017/3/15
変換を
学習
0
1
コンテキスト事後確率率率の
可変⻑⾧長変換が可能
⼊入⼒力力
コンテキスト事後確率率率
出⼒力力
コンテキスト事後確率率率
フレーム
Sequence-‐‑‒to-‐‑‒Sequence後の
コンテキスト事後確率率率
実験条件
9/12⽇日本⾳音響学会 春季研究発表会 2017/3/15
⼊入出⼒力力話者 ⼊入⼒力力:⽇日本⼈人⼥女女性,出⼒力力:⽇日本⼈人男性
(話速の⼤大きく異異なる話者を選択)
データセット ATR  ⾳音素バランス503⽂文 (16  kHz  サンプリング)
学習 /  評価データ AーI  セット 450⽂文 ×	
  8⼈人 /  Jセット 53⽂文
スペクトル特徴量量 24次元のメルケプストラムと動的特徴量量(合計72次元)
コンテキスト 224次元 (quin-‐‑‒phone)
⾳音声認識識のコスト関数は先⾏行行・当該・後続⾳音素グループ毎の
cross-‐‑‒entropy  の和
⾳音声認識識モデル Bidirectional  LSTM  ,出⼒力力層の活性化関数は softmax
⾳音声合成モデル Bidirectional  LSTM  ,出⼒力力層の活性化関数は線形関数
事後確率率率変換モデル Bidirectional  LSTM  (encoder),  LSTM  (decoder)  
実験的評価:客観的指標
10/12⽇日本⾳音響学会 春季研究発表会 2017/3/15
客観的指標
改善
実験的評価:主観的指標
11/12⽇日本⾳音響学会 春季研究発表会 2017/3/15
改善
劣劣化
主観的指標
⾳音質劣劣化の原因
事後確率率率変換の際に
⾳音素誤りを散⾒見見
変換元 変換先
結論論
12/12⽇日本⾳音響学会 春季研究発表会 2017/3/15
Ø コンテキスト事後確率率率に Sequence-‐‑‒to-‐‑‒Sequence  変換を
⽤用いることで,事後確率率率に含まれる話者性の変換を可能にした.
Ø コンテキスト事後確率率率の変換により,話者性は向上したが,
⾳音素誤りによる⾳音質の劣劣化に改善の余地がみられた.
Ø 事後確率率率変換と,⾳音声認識識・合成の同時最適化を検討して,
上記の問題を解決する.

More Related Content

What's hot

DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズムDNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム
Shinnosuke Takamichi
 
差分スペクトル法に基づくDNN声質変換のためのリフタ学習およびサブバンド処理
差分スペクトル法に基づくDNN声質変換のためのリフタ学習およびサブバンド処理差分スペクトル法に基づくDNN声質変換のためのリフタ学習およびサブバンド処理
差分スペクトル法に基づくDNN声質変換のためのリフタ学習およびサブバンド処理
Takaaki Saeki
 

What's hot (19)

DNN音声合成のための Anti-spoofing を考慮した学習アルゴリズム
DNN音声合成のための Anti-spoofing を考慮した学習アルゴリズムDNN音声合成のための Anti-spoofing を考慮した学習アルゴリズム
DNN音声合成のための Anti-spoofing を考慮した学習アルゴリズム
 
Phonetic Posteriorgrams for Many-to-One Voice Conversion without Parallel Dat...
Phonetic Posteriorgrams for Many-to-One Voice Conversion without Parallel Dat...Phonetic Posteriorgrams for Many-to-One Voice Conversion without Parallel Dat...
Phonetic Posteriorgrams for Many-to-One Voice Conversion without Parallel Dat...
 
ICASSP2019音声&音響論文読み会 論文紹介(認識系)
ICASSP2019音声&音響論文読み会 論文紹介(認識系)ICASSP2019音声&音響論文読み会 論文紹介(認識系)
ICASSP2019音声&音響論文読み会 論文紹介(認識系)
 
音声認識の基礎
音声認識の基礎音声認識の基礎
音声認識の基礎
 
ICASSP2019 音声&音響論文読み会 著者紹介2 (信号処理系2)
ICASSP2019 音声&音響論文読み会 著者紹介2 (信号処理系2)ICASSP2019 音声&音響論文読み会 著者紹介2 (信号処理系2)
ICASSP2019 音声&音響論文読み会 著者紹介2 (信号処理系2)
 
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元
 
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズムDNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム
 
論文紹介: Direct-Path Signal Cross-Correlation Estimation for Sound Source Locali...
論文紹介: Direct-Path Signal Cross-Correlation Estimation for Sound Source Locali...論文紹介: Direct-Path Signal Cross-Correlation Estimation for Sound Source Locali...
論文紹介: Direct-Path Signal Cross-Correlation Estimation for Sound Source Locali...
 
日本語スピーキングテストSJ-CATの開発
日本語スピーキングテストSJ-CATの開発日本語スピーキングテストSJ-CATの開発
日本語スピーキングテストSJ-CATの開発
 
音声の声質を変換する技術とその応用
音声の声質を変換する技術とその応用音声の声質を変換する技術とその応用
音声の声質を変換する技術とその応用
 
音声合成の基礎
音声合成の基礎音声合成の基礎
音声合成の基礎
 
Saito21asj Autumn Meeting
Saito21asj Autumn MeetingSaito21asj Autumn Meeting
Saito21asj Autumn Meeting
 
[DL輪読会]Wavenet a generative model for raw audio
[DL輪読会]Wavenet a generative model for raw audio[DL輪読会]Wavenet a generative model for raw audio
[DL輪読会]Wavenet a generative model for raw audio
 
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
 
短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討
 
Nakai22sp03 presentation
Nakai22sp03 presentationNakai22sp03 presentation
Nakai22sp03 presentation
 
音声信号の分析と加工 - 音声を自在に変換するには?
音声信号の分析と加工 - 音声を自在に変換するには?音声信号の分析と加工 - 音声を自在に変換するには?
音声信号の分析と加工 - 音声を自在に変換するには?
 
Saito19asj_s
Saito19asj_sSaito19asj_s
Saito19asj_s
 
差分スペクトル法に基づくDNN声質変換のためのリフタ学習およびサブバンド処理
差分スペクトル法に基づくDNN声質変換のためのリフタ学習およびサブバンド処理差分スペクトル法に基づくDNN声質変換のためのリフタ学習およびサブバンド処理
差分スペクトル法に基づくDNN声質変換のためのリフタ学習およびサブバンド処理
 

More from Yuki Saito

More from Yuki Saito (20)

hirai23slp03.pdf
hirai23slp03.pdfhirai23slp03.pdf
hirai23slp03.pdf
 
Interspeech2022 参加報告
Interspeech2022 参加報告Interspeech2022 参加報告
Interspeech2022 参加報告
 
fujii22apsipa_asc
fujii22apsipa_ascfujii22apsipa_asc
fujii22apsipa_asc
 
nakai22apsipa_presentation.pdf
nakai22apsipa_presentation.pdfnakai22apsipa_presentation.pdf
nakai22apsipa_presentation.pdf
 
saito22research_talk_at_NUS
saito22research_talk_at_NUSsaito22research_talk_at_NUS
saito22research_talk_at_NUS
 
Neural text-to-speech and voice conversion
Neural text-to-speech and voice conversionNeural text-to-speech and voice conversion
Neural text-to-speech and voice conversion
 
Nishimura22slp03 presentation
Nishimura22slp03 presentationNishimura22slp03 presentation
Nishimura22slp03 presentation
 
GAN-based statistical speech synthesis (in Japanese)
GAN-based statistical speech synthesis (in Japanese)GAN-based statistical speech synthesis (in Japanese)
GAN-based statistical speech synthesis (in Japanese)
 
Saito2103slp
Saito2103slpSaito2103slp
Saito2103slp
 
Interspeech2020 reading
Interspeech2020 readingInterspeech2020 reading
Interspeech2020 reading
 
Saito20asj_autumn
Saito20asj_autumnSaito20asj_autumn
Saito20asj_autumn
 
ICASSP読み会2020
ICASSP読み会2020ICASSP読み会2020
ICASSP読み会2020
 
Saito20asj s slide_published
Saito20asj s slide_publishedSaito20asj s slide_published
Saito20asj s slide_published
 
Saito19asjAutumn_DeNA
Saito19asjAutumn_DeNASaito19asjAutumn_DeNA
Saito19asjAutumn_DeNA
 
Deep learning for acoustic modeling in parametric speech generation
Deep learning for acoustic modeling in parametric speech generationDeep learning for acoustic modeling in parametric speech generation
Deep learning for acoustic modeling in parametric speech generation
 
Une18apsipa
Une18apsipaUne18apsipa
Une18apsipa
 
Saito18sp03
Saito18sp03Saito18sp03
Saito18sp03
 
Saito18asj_s
Saito18asj_sSaito18asj_s
Saito18asj_s
 
Saito17asjA
Saito17asjASaito17asjA
Saito17asjA
 
釧路高専情報工学科向け進学説明会
釧路高専情報工学科向け進学説明会釧路高専情報工学科向け進学説明会
釧路高専情報工学科向け進学説明会
 

miyoshi2017asj