Recommended
PPTX
EMNLP 2015 読み会 @ 小町研 "Morphological Analysis for Unsegmented Languages using ...
PPTX
ICASSP2019音声&音響論文読み会 論文紹介(認識系)
PPTX
論文紹介: Direct-Path Signal Cross-Correlation Estimation for Sound Source Locali...
PPTX
ICASSP2019 音声&音響論文読み会 著者紹介2 (信号処理系2)
PPTX
半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法
PPTX
ICASSP2017読み会(関東編)・AASP_L3(北村担当分)
PPTX
基底変形型教師ありNMFによる実楽器信号分離 (in Japanese)
PPT
PPTX
ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS wi...
PPTX
[DL輪読会]BERT: Pre-training of Deep Bidirectional Transformers for Language Und...
PPTX
非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法
PPTX
Evaluation of separation accuracy for various real instruments based on super...
PPTX
過決定条件BSSにおけるランク1空間制約の緩和 Relaxation of rank-1 spatial model in overdetermined...
PPTX
Optimal divergence diversity for superresolution-based nonnegative matrix fac...
PPTX
音源分離における音響モデリング(Acoustic modeling in audio source separation)
PPTX
PPTX
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...
PDF
PDF
PPTX
独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...
PPTX
Study on optimal divergence for superresolution-based supervised nonnegative ...
PDF
文献紹介:Recursive Deep Models for Semantic Compositionality Over a Sentiment Tre...
PPTX
Efficient multichannel nonnegative matrix factorization with rank-1 spatial m...
PPTX
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
PDF
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム
PPTX
統計的独立性と低ランク行列分解理論に基づくブラインド音源分離 –独立低ランク行列分析– Blind source separation based on...
PDF
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
PDF
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
PDF
微分可能な信号処理に基づく音声合成器を用いた DNN 音声パラメータ推定の検討
PDF
More Related Content
PPTX
EMNLP 2015 読み会 @ 小町研 "Morphological Analysis for Unsegmented Languages using ...
PPTX
ICASSP2019音声&音響論文読み会 論文紹介(認識系)
PPTX
論文紹介: Direct-Path Signal Cross-Correlation Estimation for Sound Source Locali...
PPTX
ICASSP2019 音声&音響論文読み会 著者紹介2 (信号処理系2)
PPTX
半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法
PPTX
ICASSP2017読み会(関東編)・AASP_L3(北村担当分)
PPTX
基底変形型教師ありNMFによる実楽器信号分離 (in Japanese)
PPT
What's hot
PPTX
ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS wi...
PPTX
[DL輪読会]BERT: Pre-training of Deep Bidirectional Transformers for Language Und...
PPTX
非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法
PPTX
Evaluation of separation accuracy for various real instruments based on super...
PPTX
過決定条件BSSにおけるランク1空間制約の緩和 Relaxation of rank-1 spatial model in overdetermined...
PPTX
Optimal divergence diversity for superresolution-based nonnegative matrix fac...
PPTX
音源分離における音響モデリング(Acoustic modeling in audio source separation)
PPTX
PPTX
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...
PDF
PDF
PPTX
独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...
PPTX
Study on optimal divergence for superresolution-based supervised nonnegative ...
PDF
文献紹介:Recursive Deep Models for Semantic Compositionality Over a Sentiment Tre...
PPTX
Efficient multichannel nonnegative matrix factorization with rank-1 spatial m...
PPTX
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
PDF
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム
PPTX
統計的独立性と低ランク行列分解理論に基づくブラインド音源分離 –独立低ランク行列分析– Blind source separation based on...
Similar to 差分スペクトル法に基づくDNN声質変換のためのリフタ学習およびサブバンド処理
PDF
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
PDF
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
PDF
微分可能な信号処理に基づく音声合成器を用いた DNN 音声パラメータ推定の検討
PDF
PDF
[DL輪読会]Discriminative Learning for Monaural Speech Separation Using Deep Embe...
PDF
PDF
Neural text-to-speech and voice conversion
PDF
Interspeech2020 paper reading workshop "Similarity-and-Independence-Aware-Bea...
PDF
Deep learning for acoustic modeling in parametric speech generation
PDF
DNN音声合成のための Anti-spoofing を考慮した学習アルゴリズム
PDF
PDF
分布あるいはモーメント間距離最小化に基づく統計的音声合成
PDF
PDF
音学シンポジウム2025「音声研究の知見がニューラルボコーダの発展にもたらす効果」
PPTX
周波数双方向再帰に基づく深層パーミュテーション解決法
PDF
PDF
PDF
PDF
[DL輪読会]Diffusion-based Voice Conversion with Fast Maximum Likelihood Samplin...
PDF
差分スペクトル法に基づくDNN声質変換のためのリフタ学習およびサブバンド処理 1. 2. 3. 4. 5. /31
本発表の概要
Ø 従来法: 最⼩位相フィルタを⽤いた差分スペクトル法 [Suda18]
– ⾼品質だが,変換時の畳み込みの計算コストが増⼤
– 帯域拡張した際に変換⾳声の品質が劣化
Ø 提案法1: フィルタ打ち切りを考慮したリフタ学習
– DNNのパラメータとヒルベルト変換のリフタ係数を同時に学習
Ø 提案法2: サブバンド処理による帯域ごとの変換
– 変換元話者の⾳声波形を帯域ごとに別々に変換
Ø 実験的評価:
– リフタ学習により,品質を劣化させずに計算量を削減
– サブバンド処理により,広帯域変換⾳声の品質を⼤幅に向上
5
6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 16. 17. 18. 19. 20. 21. 22. 23. 24. 25. /31
実験条件
25
データ データセット 男性話者: JVS corpus [Takamichi19]
⼥性話者: JSUT corpus [Sonobe17]
声優統計 corpus [y_benjo17]
Train / Valid / Test 80⽂ / 10⽂ / 10⽂
サンプリングレート 16 kHzと48 kHzの2条件
STFT条件 FFT⻑ 16 kHz: 512点, 48 kHz: 2048点
低次ケプストラム次数 16 kHz: 40次, 48 kHz: 120次
窓⻑ 25 ms
フレームシフト 5 ms
学習条件 DNNアーキテクチャ 隠れ層2層のfeedforward型
Ø 男性から男性 (m2m)・⼥性から⼥性 (f2f)の変換を評価
Ø 16 kHz・48 kHzサンプリングの⾳声を⽤いて評価
26. /31
実験的評価の概要
Ø 提案法1: フィルタ打ち切りを考慮したリフタ学習の評価
–16 kHzサンプリング⾳声に対する客観評価
• Testデータに対するRoot Mean Squared Error (RMSE)
–16 kHzサンプリング⾳声に対する主観評価
• 話者性に関するXABテスト・⾳質に関するABテスト
• 各ケースにつき30⼈の評価者が10個の⾳声を評価
Ø 提案法2: サブバンド処理による変換の評価
–48 kHzサンプリング⾳声に対する主観評価
• 話者性に関するXABテスト・⾳質に関するABテスト
• 各ケースにつき30⼈の評価者が10個の⾳声を評価
26
27. 28. /31
リフタ学習法の主観評価結果 (16 kHz)
28
リフタ学習法 Score 従来法
𝑙 = 32 (f2f) 0.642 0.358 𝑙 = 32 (f2f)
𝑙 = 32 (f2f) 0.543 0.457 𝑙 = 512 (f2f)
𝑙 = 48 (f2f) 0.613 0.387 𝑙 = 48 (f2f)
𝑙 = 48 (f2f) 0.548 0.452 𝑙 = 512 (f2f)
Ø 話者性に関するpreference score
Ø - リフタ学習法で打ち切り > 従来法で打ち切り
Ø - リフタ学習法で打ち切り >= 従来法で打ち切らない
Ø リフタ学習により,話者性を損なわずに計算量削減
29. /31
リフタ学習法の主観評価結果 (16 kHz)
29
Ø ⾳質に関するPreference score
Ø - リフタ学習法で打ち切り > 従来法で打ち切り
Ø - リフタ学習法で打ち切り >= 従来法で打ち切らない
Ø リフタ学習により,⾳質を損なわずに計算量削減
リフタ学習法 Score 従来法
𝑙 = 32 (f2f) 0.807 0.193 𝑙 = 32 (f2f)
𝑙 = 32 (f2f) 0.742 0.258 𝑙 = 512 (f2f)
𝑙 = 48 (f2f) 0.581 0.419 𝑙 = 48 (f2f)
𝑙 = 48 (f2f) 0.513 0.487 𝑙 = 512 (f2f)
30. /31
サブバンド処理の主観評価結果 (48 kHz)
30
サブバンド処理 Score 従来法
m2m 0.519 0.481 m2m
f2f 0.603 0.397 f2f
サブバンド処理 Score 従来法
m2m 0.721 0.279 m2m
f2f 0.700 0.300 f2f
Ø 話者性に関するPreference score
Ø ⾳質に関するPreference score
Ø サブバンド処理により変換⾳声の品質が向上
Ø 特に⾳質に対する効果が顕著
31. /31
まとめ
Ø 研究⽬的:
– 広帯域リアルタイム声質変換に向けた品質・計算効率の向上
Ø 提案法:
– フィルタ打ち切りを考慮したリフタ学習
– サブバンド処理による帯域ごとの変換
Ø 実験結果:
– リフタ学習により,品質を劣化させずにタップ⻑を1/16まで削減可能
– サブバンド処理により,広帯域変換⾳声の品質を⼤幅に向上
Ø 今後の課題:
– リフタ学習とサブバンド処理を組み合わせた⼿法の評価
– 提案法に基づく,広帯域リアルタイム声質変換の実装・評価
31