SlideShare a Scribd company logo
Submit Search
Upload
Saito18asj_s
Report
Share
Y
Yuki Saito
Follow
•
1 like
•
345 views
1
of
14
Saito18asj_s
•
1 like
•
345 views
Report
Share
Download Now
Download to read offline
Science
Talk at ASJ 2018 (spring meeting)
Read more
Y
Yuki Saito
Follow
Recommended
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3 by
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
Naoya Takahashi
1K views
•
22 slides
Moment matching networkを用いた音声パラメータのランダム生成の検討 by
Moment matching networkを用いた音声パラメータのランダム生成の検討
Shinnosuke Takamichi
16.1K views
•
13 slides
DNN音声合成のための Anti-spoofing を考慮した学習アルゴリズム by
DNN音声合成のための Anti-spoofing を考慮した学習アルゴリズム
Yuki Saito
2.1K views
•
15 slides
saito2017asj_vc by
saito2017asj_vc
Yuki Saito
698 views
•
13 slides
saito2017asj_tts by
saito2017asj_tts
Yuki Saito
519 views
•
17 slides
Evaluation of separation accuracy for various real instruments based on super... by
Evaluation of separation accuracy for various real instruments based on super...
Daichi Kitamura
676 views
•
29 slides
More Related Content
What's hot
ICASSP2019論文読み会_PHASEBOOK by
ICASSP2019論文読み会_PHASEBOOK
Atsushi_Ando
2.1K views
•
28 slides
Divergence optimization based on trade-off between separation and extrapolati... by
Divergence optimization based on trade-off between separation and extrapolati...
Daichi Kitamura
917 views
•
19 slides
Optimal divergence diversity for superresolution-based nonnegative matrix fac... by
Optimal divergence diversity for superresolution-based nonnegative matrix fac...
Daichi Kitamura
566 views
•
23 slides
Saito17asjA by
Saito17asjA
Yuki Saito
576 views
•
20 slides
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム by
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム
Shinnosuke Takamichi
1.6K views
•
22 slides
Efficient multichannel nonnegative matrix factorization with rank-1 spatial m... by
Efficient multichannel nonnegative matrix factorization with rank-1 spatial m...
Daichi Kitamura
1.2K views
•
19 slides
What's hot
(20)
ICASSP2019論文読み会_PHASEBOOK by Atsushi_Ando
ICASSP2019論文読み会_PHASEBOOK
Atsushi_Ando
•
2.1K views
Divergence optimization based on trade-off between separation and extrapolati... by Daichi Kitamura
Divergence optimization based on trade-off between separation and extrapolati...
Daichi Kitamura
•
917 views
Optimal divergence diversity for superresolution-based nonnegative matrix fac... by Daichi Kitamura
Optimal divergence diversity for superresolution-based nonnegative matrix fac...
Daichi Kitamura
•
566 views
Saito17asjA by Yuki Saito
Saito17asjA
Yuki Saito
•
576 views
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム by Shinnosuke Takamichi
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム
Shinnosuke Takamichi
•
1.6K views
Efficient multichannel nonnegative matrix factorization with rank-1 spatial m... by Daichi Kitamura
Efficient multichannel nonnegative matrix factorization with rank-1 spatial m...
Daichi Kitamura
•
1.2K views
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~ by Yui Sudo
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
Yui Sudo
•
1.5K views
Kameoka2016 miru08 by kame_hirokazu
Kameoka2016 miru08
kame_hirokazu
•
2K views
非負値行列因子分解を用いた被り音の抑圧 by Kitamura Laboratory
非負値行列因子分解を用いた被り音の抑圧
Kitamura Laboratory
•
135 views
日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価” by Shinnosuke Takamichi
日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”
Shinnosuke Takamichi
•
1.2K views
基底変形型教師ありNMFによる実楽器信号分離 (in Japanese) by Daichi Kitamura
基底変形型教師ありNMFによる実楽器信号分離 (in Japanese)
Daichi Kitamura
•
5.9K views
深層学習に基づく間引きインジケータ付き周波数帯域補間手法による音源分離処理の高速化 by Kitamura Laboratory
深層学習に基づく間引きインジケータ付き周波数帯域補間手法による音源分離処理の高速化
Kitamura Laboratory
•
74 views
半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法 by Daichi Kitamura
半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法
Daichi Kitamura
•
4.3K views
モーメントマッチングに基づくDNN 合成歌声のランダム変調ポストフィルタとニューラルダブルトラッキングへの応用 by Shinnosuke Takamichi
モーメントマッチングに基づくDNN 合成歌声のランダム変調ポストフィルタとニューラルダブルトラッキングへの応用
Shinnosuke Takamichi
•
983 views
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元 by NU_I_TODALAB
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元
NU_I_TODALAB
•
919 views
過決定条件BSSにおけるランク1空間制約の緩和 Relaxation of rank-1 spatial model in overdetermined... by Daichi Kitamura
過決定条件BSSにおけるランク1空間制約の緩和 Relaxation of rank-1 spatial model in overdetermined...
Daichi Kitamura
•
1.7K views
音情報処理における特徴表現 by NU_I_TODALAB
音情報処理における特徴表現
NU_I_TODALAB
•
6.2K views
Interspeech2020 paper reading workshop "Similarity-and-Independence-Aware-Bea... by ssuserf54db1
Interspeech2020 paper reading workshop "Similarity-and-Independence-Aware-Bea...
ssuserf54db1
•
861 views
Study on optimal divergence for superresolution-based supervised nonnegative ... by Daichi Kitamura
Study on optimal divergence for superresolution-based supervised nonnegative ...
Daichi Kitamura
•
1K views
Saito21asj Autumn Meeting by Yuki Saito
Saito21asj Autumn Meeting
Yuki Saito
•
242 views
More from Yuki Saito
hirai23slp03.pdf by
hirai23slp03.pdf
Yuki Saito
56 views
•
21 slides
Interspeech2022 参加報告 by
Interspeech2022 参加報告
Yuki Saito
667 views
•
52 slides
fujii22apsipa_asc by
fujii22apsipa_asc
Yuki Saito
45 views
•
25 slides
nakai22apsipa_presentation.pdf by
nakai22apsipa_presentation.pdf
Yuki Saito
51 views
•
20 slides
saito22research_talk_at_NUS by
saito22research_talk_at_NUS
Yuki Saito
66 views
•
52 slides
Neural text-to-speech and voice conversion by
Neural text-to-speech and voice conversion
Yuki Saito
1.2K views
•
70 slides
More from Yuki Saito
(20)
hirai23slp03.pdf by Yuki Saito
hirai23slp03.pdf
Yuki Saito
•
56 views
Interspeech2022 参加報告 by Yuki Saito
Interspeech2022 参加報告
Yuki Saito
•
667 views
fujii22apsipa_asc by Yuki Saito
fujii22apsipa_asc
Yuki Saito
•
45 views
nakai22apsipa_presentation.pdf by Yuki Saito
nakai22apsipa_presentation.pdf
Yuki Saito
•
51 views
saito22research_talk_at_NUS by Yuki Saito
saito22research_talk_at_NUS
Yuki Saito
•
66 views
Neural text-to-speech and voice conversion by Yuki Saito
Neural text-to-speech and voice conversion
Yuki Saito
•
1.2K views
Nishimura22slp03 presentation by Yuki Saito
Nishimura22slp03 presentation
Yuki Saito
•
301 views
Nakai22sp03 presentation by Yuki Saito
Nakai22sp03 presentation
Yuki Saito
•
259 views
GAN-based statistical speech synthesis (in Japanese) by Yuki Saito
GAN-based statistical speech synthesis (in Japanese)
Yuki Saito
•
954 views
Saito2103slp by Yuki Saito
Saito2103slp
Yuki Saito
•
250 views
Interspeech2020 reading by Yuki Saito
Interspeech2020 reading
Yuki Saito
•
172 views
Saito20asj_autumn by Yuki Saito
Saito20asj_autumn
Yuki Saito
•
386 views
ICASSP読み会2020 by Yuki Saito
ICASSP読み会2020
Yuki Saito
•
697 views
Saito20asj s slide_published by Yuki Saito
Saito20asj s slide_published
Yuki Saito
•
606 views
Saito19asjAutumn_DeNA by Yuki Saito
Saito19asjAutumn_DeNA
Yuki Saito
•
1.2K views
Deep learning for acoustic modeling in parametric speech generation by Yuki Saito
Deep learning for acoustic modeling in parametric speech generation
Yuki Saito
•
761 views
Saito19asj_s by Yuki Saito
Saito19asj_s
Yuki Saito
•
500 views
Une18apsipa by Yuki Saito
Une18apsipa
Yuki Saito
•
427 views
Saito18sp03 by Yuki Saito
Saito18sp03
Yuki Saito
•
1.1K views
釧路高専情報工学科向け進学説明会 by Yuki Saito
釧路高専情報工学科向け進学説明会
Yuki Saito
•
949 views
Saito18asj_s
1.
©Yuki Saito, 2018/03/15 多重周波数解像度のSTFTスペクトルを用いた 敵対的DNN音声合成 ◎
齋藤 佑樹, 高道 慎之介, 猿渡 洋 (東大院・情報理工) 日本音響学会 2018年春季研究発表会 3-8-14
2.
/13 従来法1: ボコーダを用いた敵対的DNN音声合成
[Saito et al., 2018] – GAN* に基づく音響モデル学習により,過剰な平滑化を緩和 – ボコーダ由来の音声パラメータ化により音質が劣化 従来法2: STFTスペクトルを用いた音声合成 [Takaki et al., 2017] – 振幅スペクトルを直接生成し,ボコーダ処理を回避 – 過剰な平滑化 & 音響モデル学習の困難性により音質が劣化 本発表: STFTスペクトルを用いた敵対的DNN音声合成 – 多重周波数解像度のスペクトルを用いた学習 • 元解像度での二乗誤差最小化: スペクトル全体の平均的な違いを補償 • 低解像度での分布間距離最小化: スペクトル包絡成分の違いを補償 結果: 提案法による合成音声の音質改善 1 本発表の概要 *Generative Adversarial Network [Goodfellow et al., 2014]
3.
/13 敵対的DNN音声合成の音響モデル学習 [Saito et
al., 2018] 2 STFTスペクトルを用いた音声合成 [Takaki et al., 2017] にも適用可能 音声パラメータの 分布間距離を最小化 𝐿MSE 𝒚, 𝒚 Linguistic feats. Natural speech params. 𝒚 ML-based parameter generation Generated speech params. 𝒚 Acoustic models 𝒙 ⋯ 𝒀 ⋯ ⋯ 𝐿ADV 𝒚 1: natural Discriminative models 音声パラメータの 二乗誤差を最小化 𝐿G 𝒚, 𝒚 = 𝐿MSE 𝒚, 𝒚 +𝜔D 𝐸𝐿MSE 𝐸𝐿ADV 𝐿ADV 𝒚
4.
/133 STFTスペクトルを用いたDNN音声合成の問題点: スペクトルの過剰な平滑化 & 音響モデル学習の困難性 Frequencybin(e.g.,513dim.) Frame Natural (highly
random) MSE (over-smoothing) ADV* (discontinuous) 振幅スペクトルの音響モデルのための効率的な学習法を提案 *元周波数解像度の振幅スペクトルを用いた敵対的DNN音声合成
5.
/134 本発表: 多重周波数解像度のSTFTスペクトルを用いた 敵対的DNN音声合成
6.
/135 提案法の動機: スペクトル包絡成分を補償する学習 振幅スペクトル:
複雑な分布を持つ高次元特徴量 – スペクトル微細構造と包絡成分の両方によって構成 – 従来法 [Saito et al., 2018] は,包絡成分の補償で有効 本研究の仮定: 低周波数解像度のスペクトル ≒ 包絡成分 – スペクトルを低周波数解像度に圧縮し,分布間距離を補償 Average pooling Average pooling Natural Generated 分布間距離 最小化
7.
/13 多重周波数解像度のSTFTスペクトルを用いた 敵対的DNN音声合成の音響モデル学習 6 𝐿MSE 𝒚, 𝒚 Linguistic feats. + Log
F0 Natural amplitude spectra 𝒚 ML-based parameter generation Generated amplitude spectra 𝒚 Acoustic models 𝒙 ⋯ 𝒀 ⋯ ⋯ 𝐿ADV 𝒚 L 1: natural Low-res. discriminative models 𝐿G (Low) 𝒚, 𝒚 = 𝐿MSE 𝒚, 𝒚 +𝜔D L 𝐸𝐿MSE 𝐸𝐿ADV 𝐿ADV 𝒚 L Average pooling 𝝓 ⋅ 𝝓 ⋅𝒚 𝒚 L 𝒚 L Average pooling 幅の変更 → 低解像度スペクトルの次元数の変更
8.
/137 考察 提案法の損失関数: 元解像度のMSE
+ 低解像度のGAN – 元解像度のMSE: スペクトル全体の平均的な違いを補償 – 低解像度のGAN: スペクトル包絡成分の分布の違いを補償 Average pooling 幅: フィルタバンク抽出時の窓幅に対応 – Pooling 幅をより広く設定 → スペクトルをより低次元に圧縮 敵対的DNN音声合成の将来展望 – ボコーダ特徴量の音響モデル学習 [Saito et al., 2018] – STFT振幅スペクトルの音響モデル学習 (本発表) – 音声波形の音響モデル学習
9.
/138 提案法の効果: スペクトル包絡成分の違いを補償 Natural MSE
ADV ADV-Low (Proposed) スペクトル全体の構造を保持しつつ,ピークでの違いを補償!
10.
/139 実験的評価
11.
/13 実験条件 10 データセット 女性話者の日本語音声4,007文 (JSUTコーパス*の一部, 16 kHz
サンプリング) 学習/評価データ 3,808文/199文 STFT分析条件 フレーム長: 400 (25 ms) シフト長: 80 (5 ms) FFT長: 1,024 分析窓: Hamming Average pooling の パラメータ Zero-padding サイズ: 6 Pooling 幅 𝑤: 14/30/70 ストライド幅: pooling 幅の半分 敵対損失の重み 1.0 音響モデルへの入力 444次元 (コンテキストラベル, 継続長, 対数𝐹0, U/V) 識別モデルへの入力 元周波数解像度: 513次元 低周波数解像度: 74/34/14次元 DNNアーキテクチャ 全て Feed-Forward (詳細は原稿参照) *[Sonobe et al., 2017]
12.
/1311 元周波数解像度を用いた敵対的DNN音声合成の評価 (合成音声の音質に関するプリファレンスABテスト) 比較手法 – MSE:
二乗誤差最小化に基づく学習 [Takaki et al., 2017] – ADV: 元解像度を用いた敵対的DNN音声合成 [Saito et al., 2018] 元周波数解像度を用いた敵対的DNN音声合成による音質劣化を確認 ADVMSE 0.720 vs. 0.280 (𝑝 = 1.2 × 10−3 ) 評価者数25 (各評価者につき10サンプルを評価)
13.
/1312 低周波数解像度を用いた敵対的DNN音声合成の評価 (合成音声の音質に関するプリファレンスABテスト) 比較手法 – MSE:
二乗誤差最小化に基づく学習 [Takaki et al., 2017] – ADV-Low: 低解像度を用いた敵対的DNN音声合成 (提案法) 低周波数解像度を用いた敵対的DNN音声合成による音質改善を確認 ADV-Low (𝑤 = 14) ADV-Low (𝑤 = 30) ADV-Low (𝑤 = 70) MSE 0.432 vs. 0.568 (𝑝 = 2.3 × 10−3) 0.428 vs. 0.572 (𝑝 = 1.2 × 10−3 ) 0.472 vs. 0.528 (𝑝 = 2.1 × 10−1) 評価者数25 (各評価者につき10サンプルを評価)
14.
/1313 まとめ 従来法 – ボコーダを用いた敵対的DNN音声合成 •
音声パラメータの過剰な平滑化による音質劣化を改善 • ボコーダ由来のパラメータ化に起因して音質が劣化 – STFTスペクトルを用いたDNN音声合成 • ボコーダ由来のパラメータ化に起因する音質劣化を改善 • 過剰な平滑化 & 学習の困難性に起因して音質が劣化 本発表: STFTスペクトルを用いた敵対的DNN音声合成 – 多重周波数解像度の利用による効率的な学習法 – 低周波数解像度 (≒スペクトル包絡成分) での分布の違いを補償 結果: 従来法と比較して合成音声の音質を改善 今後: 元周波数解像度の効果的な利用法を検討