SlideShare a Scribd company logo
Submit Search
Upload
saito2017asj_vc
Report
Share
Y
Yuki Saito
Follow
•
2 likes
•
698 views
1
of
13
saito2017asj_vc
•
2 likes
•
698 views
Report
Share
Download Now
Download to read offline
Science
ASJ 2017 Voice Conversion
Read more
Y
Yuki Saito
Follow
Recommended
DNN音声合成のための Anti-spoofing を考慮した学習アルゴリズム by
DNN音声合成のための Anti-spoofing を考慮した学習アルゴリズム
Yuki Saito
2.1K views
•
15 slides
Saito17asjA by
Saito17asjA
Yuki Saito
576 views
•
20 slides
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム by
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム
Shinnosuke Takamichi
1.6K views
•
22 slides
saito2017asj_tts by
saito2017asj_tts
Yuki Saito
519 views
•
17 slides
Moment matching networkを用いた音声パラメータのランダム生成の検討 by
Moment matching networkを用いた音声パラメータのランダム生成の検討
Shinnosuke Takamichi
16.1K views
•
13 slides
日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価” by
日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”
Shinnosuke Takamichi
1.2K views
•
12 slides
More Related Content
What's hot
Saito19asjAutumn_DeNA by
Saito19asjAutumn_DeNA
Yuki Saito
1.2K views
•
21 slides
SLP201805: 日本語韻律構造を考慮した prosody-aware subword embedding とDNN多方言音声合成への適用 by
SLP201805: 日本語韻律構造を考慮した prosody-aware subword embedding とDNN多方言音声合成への適用
Shinnosuke Takamichi
1.3K views
•
25 slides
Saito19asj_s by
Saito19asj_s
Yuki Saito
500 views
•
16 slides
Saito20asj_autumn by
Saito20asj_autumn
Yuki Saito
386 views
•
14 slides
miyoshi17sp07 by
miyoshi17sp07
Yuki Saito
1.1K views
•
23 slides
Saito18sp03 by
Saito18sp03
Yuki Saito
1.1K views
•
25 slides
What's hot
(20)
Saito19asjAutumn_DeNA by Yuki Saito
Saito19asjAutumn_DeNA
Yuki Saito
•
1.2K views
SLP201805: 日本語韻律構造を考慮した prosody-aware subword embedding とDNN多方言音声合成への適用 by Shinnosuke Takamichi
SLP201805: 日本語韻律構造を考慮した prosody-aware subword embedding とDNN多方言音声合成への適用
Shinnosuke Takamichi
•
1.3K views
Saito19asj_s by Yuki Saito
Saito19asj_s
Yuki Saito
•
500 views
Saito20asj_autumn by Yuki Saito
Saito20asj_autumn
Yuki Saito
•
386 views
miyoshi17sp07 by Yuki Saito
miyoshi17sp07
Yuki Saito
•
1.1K views
Saito18sp03 by Yuki Saito
Saito18sp03
Yuki Saito
•
1.1K views
音情報処理における特徴表現 by NU_I_TODALAB
音情報処理における特徴表現
NU_I_TODALAB
•
6.2K views
短時間発話を用いた話者照合のための音声加工の効果に関する検討 by Shinnosuke Takamichi
短時間発話を用いた話者照合のための音声加工の効果に関する検討
Shinnosuke Takamichi
•
1K views
論文紹介: Direct-Path Signal Cross-Correlation Estimation for Sound Source Locali... by KoueiYamaoka
論文紹介: Direct-Path Signal Cross-Correlation Estimation for Sound Source Locali...
KoueiYamaoka
•
552 views
ICASSP2019音声&音響論文読み会 論文紹介(認識系) by 貴史 益子
ICASSP2019音声&音響論文読み会 論文紹介(認識系)
貴史 益子
•
2.6K views
ICASSP2019 音声&音響論文読み会 著者紹介2 (信号処理系2) by KoueiYamaoka
ICASSP2019 音声&音響論文読み会 著者紹介2 (信号処理系2)
KoueiYamaoka
•
1.4K views
ICASSP読み会2020 by Yuki Saito
ICASSP読み会2020
Yuki Saito
•
697 views
雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習 by Shinnosuke Takamichi
雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習
Shinnosuke Takamichi
•
2.9K views
miyoshi2017asj by Yuki Saito
miyoshi2017asj
Yuki Saito
•
556 views
日本語音声合成のためのsubword内モーラを考慮したProsody-aware subword embedding by Shinnosuke Takamichi
日本語音声合成のためのsubword内モーラを考慮したProsody-aware subword embedding
Shinnosuke Takamichi
•
1.1K views
音声認識の基礎 by Akinori Ito
音声認識の基礎
Akinori Ito
•
35.9K views
日本音響学会2017秋 ”クラウドソーシングを利用した対訳方言音声コーパスの構築” by Shinnosuke Takamichi
日本音響学会2017秋 ”クラウドソーシングを利用した対訳方言音声コーパスの構築”
Shinnosuke Takamichi
•
1.6K views
Divergence optimization based on trade-off between separation and extrapolati... by Daichi Kitamura
Divergence optimization based on trade-off between separation and extrapolati...
Daichi Kitamura
•
917 views
分布あるいはモーメント間距離最小化に基づく統計的音声合成 by Shinnosuke Takamichi
分布あるいはモーメント間距離最小化に基づく統計的音声合成
Shinnosuke Takamichi
•
1.9K views
DNN音響モデルにおける特徴量抽出の諸相 by Takuya Yoshioka
DNN音響モデルにおける特徴量抽出の諸相
Takuya Yoshioka
•
15.3K views
Similar to saito2017asj_vc
Slp201702 by
Slp201702
Yuki Saito
14.9K views
•
22 slides
複数話者WaveNetボコーダに関する調査 by
複数話者WaveNetボコーダに関する調査
Tomoki Hayashi
4.4K views
•
55 slides
Onoma-to-wave: オノマトペを利用した環境音合成手法の提案 by
Onoma-to-wave: オノマトペを利用した環境音合成手法の提案
Keisuke Imoto
4.2K views
•
13 slides
Onoma-to-wave: オノマトペを利用した環境音合成手法の提案 by
Onoma-to-wave: オノマトペを利用した環境音合成手法の提案
Yuki Okamoto
69 views
•
13 slides
Interspeech2022 参加報告 by
Interspeech2022 参加報告
Yuki Saito
660 views
•
52 slides
半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法 by
半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法
Daichi Kitamura
4.3K views
•
28 slides
Similar to saito2017asj_vc
(7)
Slp201702 by Yuki Saito
Slp201702
Yuki Saito
•
14.9K views
複数話者WaveNetボコーダに関する調査 by Tomoki Hayashi
複数話者WaveNetボコーダに関する調査
Tomoki Hayashi
•
4.4K views
Onoma-to-wave: オノマトペを利用した環境音合成手法の提案 by Keisuke Imoto
Onoma-to-wave: オノマトペを利用した環境音合成手法の提案
Keisuke Imoto
•
4.2K views
Onoma-to-wave: オノマトペを利用した環境音合成手法の提案 by Yuki Okamoto
Onoma-to-wave: オノマトペを利用した環境音合成手法の提案
Yuki Okamoto
•
69 views
Interspeech2022 参加報告 by Yuki Saito
Interspeech2022 参加報告
Yuki Saito
•
660 views
半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法 by Daichi Kitamura
半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法
Daichi Kitamura
•
4.3K views
モーメントマッチングに基づくDNN 合成歌声のランダム変調ポストフィルタとニューラルダブルトラッキングへの応用 by Shinnosuke Takamichi
モーメントマッチングに基づくDNN 合成歌声のランダム変調ポストフィルタとニューラルダブルトラッキングへの応用
Shinnosuke Takamichi
•
983 views
More from Yuki Saito
hirai23slp03.pdf by
hirai23slp03.pdf
Yuki Saito
56 views
•
21 slides
fujii22apsipa_asc by
fujii22apsipa_asc
Yuki Saito
45 views
•
25 slides
nakai22apsipa_presentation.pdf by
nakai22apsipa_presentation.pdf
Yuki Saito
51 views
•
20 slides
saito22research_talk_at_NUS by
saito22research_talk_at_NUS
Yuki Saito
65 views
•
52 slides
Neural text-to-speech and voice conversion by
Neural text-to-speech and voice conversion
Yuki Saito
1.2K views
•
70 slides
Nishimura22slp03 presentation by
Nishimura22slp03 presentation
Yuki Saito
299 views
•
26 slides
More from Yuki Saito
(15)
hirai23slp03.pdf by Yuki Saito
hirai23slp03.pdf
Yuki Saito
•
56 views
fujii22apsipa_asc by Yuki Saito
fujii22apsipa_asc
Yuki Saito
•
45 views
nakai22apsipa_presentation.pdf by Yuki Saito
nakai22apsipa_presentation.pdf
Yuki Saito
•
51 views
saito22research_talk_at_NUS by Yuki Saito
saito22research_talk_at_NUS
Yuki Saito
•
65 views
Neural text-to-speech and voice conversion by Yuki Saito
Neural text-to-speech and voice conversion
Yuki Saito
•
1.2K views
Nishimura22slp03 presentation by Yuki Saito
Nishimura22slp03 presentation
Yuki Saito
•
299 views
GAN-based statistical speech synthesis (in Japanese) by Yuki Saito
GAN-based statistical speech synthesis (in Japanese)
Yuki Saito
•
952 views
Saito2103slp by Yuki Saito
Saito2103slp
Yuki Saito
•
250 views
Interspeech2020 reading by Yuki Saito
Interspeech2020 reading
Yuki Saito
•
172 views
Saito20asj s slide_published by Yuki Saito
Saito20asj s slide_published
Yuki Saito
•
606 views
Deep learning for acoustic modeling in parametric speech generation by Yuki Saito
Deep learning for acoustic modeling in parametric speech generation
Yuki Saito
•
761 views
Une18apsipa by Yuki Saito
Une18apsipa
Yuki Saito
•
427 views
Saito18asj_s by Yuki Saito
Saito18asj_s
Yuki Saito
•
345 views
釧路高専情報工学科向け進学説明会 by Yuki Saito
釧路高専情報工学科向け進学説明会
Yuki Saito
•
948 views
Saito2017icassp by Yuki Saito
Saito2017icassp
Yuki Saito
•
1.3K views
saito2017asj_vc
1.
©Yuki Saito, 2017/03/15 Highway
network を用いた 差分スペクトル法に基づく敵対的DNN音声変換 ◎ 齋藤 佑樹, 高道 慎之介, 猿渡 洋 (東大院・情報理工) 日本音響学会 2017年春季研究発表会 講演番号 1-6-14
2.
/12 ➢ 問題点: 統計的パラメトリック音声変換の音質劣化 •
生成される音声特徴量系列の過剰な平滑化が一因 ➢ 改善案: – (1) 入力音声特徴量の直接的な利用 • 入出力のドメインが同じ → 入力音声特徴量の自然性を利用可能 – (2) Anti-spoofing に敵対する音響モデル学習 自然 / 合成音声特徴量の分布の違いを補償 テキスト音声合成において有効性を確認 ➢ 本発表: – (1) Input-to-output highway net を用いた差分スペクトル推定 – (2) 音声変換のための anti-spoofing に敵対する音響モデル学習 ➢ 結果: 提案手法による品質改善効果を確認 1 本発表の概要 [Saito et al., 2017.]
3.
/12 従来の枠組み: 特徴量変換に基づくDNN音声変換 2 𝒙, 𝒚,
ෝ𝒚: { input, output, converted } speech features 𝑿, 𝒀: { input, converted } static-dynamic speech features Delta calculation 𝑾 ⋯ 𝑿 ⋯ ⋯ 𝒀 ML-based parameter gen. ⋯ ⋯ ⋯ ⋯ Acoustic models 𝑮 ⋅ ⋯ ⋯ ⋯ ⋯ 𝒙1 𝒙 𝑇 𝒙 ⋯ 𝐿G 𝒚, ෝ𝒚 = 1 𝑇 ෝ𝒚 − 𝒚 ⊤ ෝ𝒚 − 𝒚 → Minimize Minimum Generation Error (MGE) 学習 [Wu et al., 2016.] Generation error 𝐿G 𝒚, ෝ𝒚 𝒚1 𝒚 𝑇 𝒚 ⋯ ෝ𝒚 ⋯
4.
/123 従来手法の問題点: 自然音声と異なる特徴量分布 分布の違いを緩和・補償する DNNアーキテクチャと音響モデル学習法を提案 分布が縮小 Natural Feed-Forward w/ MGE 11th
mel-cepstral coefficient 13thmel-cepstral coefficient 分布が縮小
5.
/124 提案手法: 重み付き差分スペクトルを推定する Input-to-Output Highway Net + Anti-spoofing
に敵対する音響モデル学習 (敵対的DNN音声変換)
6.
/125 重み付き差分スペクトルを推定する Input-to-Output Highway Net Spectral differentials estimation Transform gate 𝑻
⋅ 𝑮 ⋅𝒙 ⋯ 𝑮 𝒙 ⋯ 𝒙1 𝒙 𝑇 𝒙 ⋯ ෝ𝒚 ෝ𝒚1 ෝ𝒚 𝑇 ⋯ 𝒙 ⋯ 𝑻 𝒙 ⋯ ෝ𝒚 = 𝒙 + 𝑻 𝒙 ∘ 𝑮 𝒙 入力特徴量に応じて 推定結果を重み付け (0 ~ 1) 入力特徴量を 直接的に利用 [Srivastava et al., 2015.]
7.
/126 Transform Gate の値の例 (男性話者
→ 男性話者への変換) 入力特徴量に応じた柔軟な特徴量変換を実現! Frame index Indexofmel-cepstral coefficient Indexofmel-filterbank 100 200 300 400 10 20 30 40 50 100 200 300 400 10 20 30 40 50 0.0 0.2 0.4 0.6 0.8 1.0
8.
/12 Anti-spoofing に敵対する音響モデル学習 (敵対的DNN音声変換) 7 𝜔D: 重み,
𝐸 𝐿G , 𝐸 𝐿D : 𝐿G 𝒚, ෝ𝒚 , 𝐿D,1 ෝ𝒚 の期待値 Anti-spoofing に 自然音声と識別させる損失 𝐿 𝒚, ෝ𝒚 = 𝐿G 𝒚, ෝ𝒚 + 𝜔D 𝐸 𝐿G 𝐸 𝐿D 𝐿D,1 ෝ𝒚 → Minimize 入力音声特徴量に基づき 自然音声と合成音声を識別 𝐿G 𝒚, ෝ𝒚 𝒚 Acoustic models & parameter generation ෝ𝒚𝒙 ⋯ 𝒙1 𝒙 𝑇 1: natural 0: generated Anti-spoofing Cross-entropy or 𝑮 ⋅
9.
/12 HW w/ MGE 8 合成音声特徴量の分布 Natural 11th
mel-cepstral coefficient 13thmel-cepstral coefficient 分布の縮小を緩和し, 自然音声との違いも補償! HW w/ ADVFF w/ MGE FF: Feed-Forward, HW: Input-to-output highway net MGE: Minimum Generation Error, ADV: Adversarial training
10.
/129 実験的評価
11.
/12 実験条件 データセット ATR 音素バランス503文
(16 kHz サンプリング) 入出力話者 男性 → 男性 学習 / 評価データ A-I セット 450文 / Jセット 53文 波形生成 差分スペクトル法 [Kobayashi et al., 2014.] 音声パラメータ 60次元のメルケプストラム (0次のメルケプストラムは入力話者のものを利用) 最適化アルゴリズム AdaGrad [Duchi et al., 2011.] (学習率 0.01) 音響モデル Feed-Forward 118 – 3x512 (ReLU) – 118 (linear) Anti-spoofing Feed-Forward 59 – 3x256 (ReLU) – 1 (sigmoid) 重み 𝜔D 1.0 比較手法 MGE: 提案アーキテクチャ w/ MGE学習 ADV: 提案アーキテクチャ w/ 敵対的DNN音声変換 10
12.
/12 音質・話者性に関する主観評価結果 ➢ プリファレンススコア (評価者数8名) 11 敵対的DNN音声変換による音質・話者性の改善を確認 MGE ADV 0.0
0.2 0.4 0.6 1.00.8 エラーバーは95%信頼区間 (a) 音質 (b) 話者性 MGE ADV 改善 改善 0.0 0.2 0.4 0.6 1.00.8
13.
/12 まとめ ➢ 目的: 統計的パラメトリック音声変換の品質改善 ➢
提案手法: – (1) Input-to-output highway net による差分スペクトル推定 • 入力特徴量の直接的な利用 & 柔軟な特徴量変換 – (2) 敵対的DNN音声変換 • 自然 / 合成音声特徴量の分布の違いを補償 ➢ 今後の予定: • Input-to-output highway net の話者対への依存性の調査 12