差分スペクトル法に基づくDNN声質変換のためのリフタ学習およびサブバンド処理

Takaaki Saeki
Takaaki SaekiM.S. student @ UTokyo at The University of Tokyo
差分スペクトル法に基づくDNN声質変換の
ためのリフタ学習及びサブバンド処理
佐伯⾼明, 齋藤佑樹, ⾼道慎之介, 猿渡洋
東⼤院・情報理⼯
SLP研究会 2020/02/13
2020/02/13©Takaaki Saeki
The University of Tokyo
/31
研究背景: 統計的声質変換
統計的声質変換
– ある⼈の声を,別の⼈の声に⾔語情報を変えずに変換
– 変換元話者と変換先話者のデータから,変換の統計モデルを学習
2
Iʼm a university student.
I study physics.
You are an engineer.
I study physics.
Iʼm a university student.
You are an engineer.
データから変換の関数を推定
パラ・⾮⾔語情報のみ変換
/31
研究背景: 声質変換の実応⽤先
Ø 物理的制約を超えた⾳声コミュニケーションの実現
– エンタメ⽤途や医療福祉⽤途など,様々な応⽤先
– 実応⽤上は,品質だけでなくリアルタイム性が必要
3
バーチャル配信 歌声変換 発話・発声補助
/31
研究背景: リアルタイム声質変換
従来のリアルタイム声質変換
– ボコーダベースのリアルタイム声質変換 [Toda12][Arakawa19]
• 16 kHzサンプリング⾳声を遅延50 ms程度で変換可能
• ボコーダによる品質劣化・計算コストが⾼いなどの問題
本研究でのアプローチ
–差分スペクトル法に基づく⾼品質・計算効率の⾼い声質変換
• 波形ドメインでのフィルタリングに基づく⼿法
• Deep Neural Network (DNN)により⾳響特徴量を変換
• フィルタリングの計算量を削減し,広帯域⾳声に適⽤
4
/31
本発表の概要
Ø 従来法: 最⼩位相フィルタを⽤いた差分スペクトル法 [Suda18]
– ⾼品質だが,変換時の畳み込みの計算コストが増⼤
– 帯域拡張した際に変換⾳声の品質が劣化
Ø 提案法1: フィルタ打ち切りを考慮したリフタ学習
– DNNのパラメータとヒルベルト変換のリフタ係数を同時に学習
Ø 提案法2: サブバンド処理による帯域ごとの変換
– 変換元話者の⾳声波形を帯域ごとに別々に変換
Ø 実験的評価:
– リフタ学習により,品質を劣化させずに計算量を削減
– サブバンド処理により,広帯域変換⾳声の品質を⼤幅に向上
5
/31
差分スペクトル法による声質変換 [Kobayashi14][Suda18]
Ø 差分フィルタを推定し,変換元話者の⾳声波形に直接適⽤
– ボコーダによる⾳質劣化を回避
– 最⼩位相フィルタによる⼿法はMLSAフィルタ [Imai83]より⾼品質
6
X
Filter
⊗
話者X 話者Y
Y-X
/31
差分スペクトル法による声質変換 [Kobayashi14][Suda18]
Ø 差分フィルタを推定し,変換元話者の⾳声波形に直接適⽤
– ボコーダによる⾳質劣化を回避
– 最⼩位相フィルタによる⼿法はMLSAフィルタ [Imai83]より⾼品質
7
X
Filter
⊗
実ケプストラムを変換
位相復元話者X 話者Y
Y-X
/31
従来法の学習プロセス
8
𝐹($)
⊕
𝐿
Ø DNNで差分フィルタの低次実ケプストラムを推定
Ø と との⼆乗誤差を最⼩化するようにDNNを学習
変換⾳声の低次
実ケプストラム
STFT*
(𝐶(*)
𝐶(*)
DNN
𝐶($)
𝐶(+)
(𝐶(*)
𝐶(*)
変換元話者の低次
実ケプストラム
差分フィルタの低次
実ケプストラム
変換先話者の低次
実ケプストラム
変換元話者の
複素スペクトル
* Short time Fourier transform
/31
従来法の学習プロセス
9
𝐹($)
⊕
𝐿
𝐶($)
𝐶(+)
(𝐶(*)
𝐶(*)
⼆乗誤差Lを最⼩化
Ø DNNで差分フィルタの低次実ケプストラムを推定
Ø と との⼆乗誤差を最⼩化するようにDNNを学習(𝐶(*)
𝐶(*)
DNN
/31
従来法の変換プロセス
10
学習したDNNと最⼩位相復元により差分フィルタを構成
計算量削減のためにタップ⻑𝑙で打ち切り,畳み込み演算を⾏う
STFT
ヒルベルト変換
𝒖./0
畳み込み
最⼩位相化のための
リフタ係数 (定数) [Pei2006]
タップ⻑𝑙で
打ち切り
𝐹($)
𝐶($)
𝐶(+)
𝐹(+)
𝑓(+)
⊗
逆フーリエ
変換
𝑓(2)
DNN
/31
従来法の変換プロセスの詳細
11
𝐶(+)
𝒖./0
𝐹(+)
DNN
𝒖./0 = 4
1 (𝑛 = 0, 𝑛 = 𝑁/2)
2 (0 < 𝑛 < 𝑁/2)
0 (𝑛 > 𝑁/2)
𝑓(+)
𝑓(2)
⊗
ヒルベルト変換
打ち切り
タップ⻑𝑙 逆フーリエ変換
最⼩位相化のための
リフタ係数 (定数) [Pei2006]
/31
提案法
12
/31
提案する2⼿法の概要
13
最⼩位相
16 kHz
品質 (話者類似性,⾳質)
計
算
効
率
最⼩位相
48 kHz
帯域拡張
広帯域化で品質は上がるが
⾼域のランダム性により
変換⾳声の品質は低下
リフタ学習
16 kHz
サブバンド
48 kHz
提案法1
リフタ学習
提案法2
サブバンド処理
Better
/31
提案する2⼿法の概要
14
最⼩位相
16 kHz
品質 (話者類似性,⾳質)
計
算
効
率
リフタ学習
16 kHz
提案法1
リフタ学習 Better
/31
Ø 最⼩位相フィルタは,⾼品質な反⾯,計算量が⼤きい
Ø フィルタをあるタップ⻑で打ち切ることで,計算量削減
– 単に打ち切っただけでは,品質が劣化してしまう
Ø 提案法1:
フィルタの打ち切り過程を学習に含め,DNNの
パラメータとヒルベルト変換のリフタを同時に学習
提案法1: フィルタ打ち切りを考慮したリフタ学習
15
打ち切り
タップ⻑𝑙
𝑓(+)
𝑓(2)
/31
提案法1: リフタ学習法の学習プロセス
16
フィルタ打ち切りを学習に含め,DNNとリフタ係数を同時に学習
全過程で微分可能であり,誤差逆伝播によりパラメータ更新可能
逆フーリエ変換𝒖
学習により更新する
リフタ係数
ヒルベルト変換
タップ⻑𝑙で
打ち切り
フーリエ変換
⨀
𝐿
𝐹($)
𝐶($)
𝐹(+) 𝑓(+)
𝑓(2)
𝐹(2)
?𝐹(*) (𝐶(*)
𝐶(*)
𝐶(+)
DNN
/31
提案法1: リフタ学習法の学習プロセス
17
フィルタ打ち切りを学習に含め,DNNとリフタ係数を同時に学習
全過程で微分可能であり,誤差逆伝播によりパラメータ更新可能
逆フーリエ変換𝒖
学習により更新する
リフタ係数
ヒルベルト変換
タップ⻑𝑙で
打ち切り
フーリエ変換
⨀
𝐿
𝐹($)
𝐶($)
𝐹(+) 𝑓(+)
𝑓(2)
𝐹(2)
?𝐹(*) (𝐶(*)
𝐶(*)
𝐶(+)
DNN 打ち切り過程
/31
提案法1: リフタ学習法の学習プロセス
18
フィルタ打ち切りを学習に含め,DNNとリフタ係数を同時に学習
全過程で微分可能であり,誤差逆伝播によりパラメータ更新可能
逆フーリエ変換𝒖
ヒルベルト変換
タップ⻑𝑙で
打ち切り
フーリエ変換
⨀
𝐿
𝐹($)
𝐶($)
𝐹(+) 𝑓(+)
𝑓(2)
𝐹(2)
?𝐹(*) (𝐶(*)
𝐶(*)
𝐶(+)
DNN ⼆乗誤差Lを最⼩化
/31
提案法1: リフタ学習法の変換プロセス
19
学習したDNNとリフタ係数により差分フィルタを求める
フィルタを時間領域で畳み込むことにより変換
逆フーリエ変換𝒖
𝐹($)
𝐶($)
𝐹(+) 𝑓(+)
𝑓(2)
畳み込み
⊗
𝐶(+)
DNN
学習済みリフタ係数
ヒルベルト変換
タップ⻑𝑙で
打ち切り
/31
提案する2⼿法の概要
20
最⼩位相
16 kHz
品質 (話者類似性,⾳質)
計
算
効
率
最⼩位相
48 kHz
帯域拡張
広帯域化で品質は上がるが
⾼域のランダム性により
変換⾳声の品質は低下 サブバンド
48 kHz
提案法2
サブバンド処理
Better
/31
従来法を帯域拡張した時の問題点
Ø 差分スペクトル法を48 kHz⾳声の変換に適⽤
– 帯域拡張しても⼤きく品質が上がらない
– ランダムな⾼域成分を変換することにより品質劣化が⽣じる
21
Time
Source speech Filter Converted speech⊗
𝐹(+) ?𝐹(*)𝐹($)
Frequency
(log amp.)
/31
提案法2: サブバンド処理による変換
Ø サブバンド処理による帯域ごとの変換
– 低域のみに差分フィルタを適⽤し,⾼域は⼊⼒をそのまま通す
– ⾼域の変換を回避し,変換⾳声の品質を向上させる
22
Time
Frequency
Source speech Filter Converted speech⊗
Frequency
(log amp.)
𝐹@(+) ?𝐹(*)𝐹($)
/31
提案法2: サブバンド処理による変換
23
8 kHz未満の低域成分のみに差分フィルタを適⽤する
8 kHz以上の⾼域成分は⼊⼒をそのまま通す
23
𝒖./0
𝐹($)
𝐶($)
𝐶(+)
𝐹(+)
𝑓(+)
⊗
𝑓(2)
𝐹@(+)
⾼域をそのまま通すための処理
DNN
/31
実験的評価
24
/31
実験条件
25
データ データセット 男性話者: JVS corpus [Takamichi19]
⼥性話者: JSUT corpus [Sonobe17]
声優統計 corpus [y_benjo17]
Train / Valid / Test 80⽂ / 10⽂ / 10⽂
サンプリングレート 16 kHzと48 kHzの2条件
STFT条件 FFT⻑ 16 kHz: 512点, 48 kHz: 2048点
低次ケプストラム次数 16 kHz: 40次, 48 kHz: 120次
窓⻑ 25 ms
フレームシフト 5 ms
学習条件 DNNアーキテクチャ 隠れ層2層のfeedforward型
Ø 男性から男性 (m2m)・⼥性から⼥性 (f2f)の変換を評価
Ø 16 kHz・48 kHzサンプリングの⾳声を⽤いて評価
/31
実験的評価の概要
Ø 提案法1: フィルタ打ち切りを考慮したリフタ学習の評価
–16 kHzサンプリング⾳声に対する客観評価
• Testデータに対するRoot Mean Squared Error (RMSE)
–16 kHzサンプリング⾳声に対する主観評価
• 話者性に関するXABテスト・⾳質に関するABテスト
• 各ケースにつき30⼈の評価者が10個の⾳声を評価
Ø 提案法2: サブバンド処理による変換の評価
–48 kHzサンプリング⾳声に対する主観評価
• 話者性に関するXABテスト・⾳質に関するABテスト
• 各ケースにつき30⼈の評価者が10個の⾳声を評価
26
/31
リフタ学習法の客観評価結果 (16 kHz)
27
Ø 全ケースでリフタ学習法のRMSE < 従来法のRMSE
– リフタ学習法は従来法よりも,フィルタ打ち切りの影響を低減
/31
リフタ学習法の主観評価結果 (16 kHz)
28
リフタ学習法 Score 従来法
𝑙 = 32 (f2f) 0.642 0.358 𝑙 = 32 (f2f)
𝑙 = 32 (f2f) 0.543 0.457 𝑙 = 512 (f2f)
𝑙 = 48 (f2f) 0.613 0.387 𝑙 = 48 (f2f)
𝑙 = 48 (f2f) 0.548 0.452 𝑙 = 512 (f2f)
Ø 話者性に関するpreference score
Ø - リフタ学習法で打ち切り > 従来法で打ち切り
Ø - リフタ学習法で打ち切り >= 従来法で打ち切らない
Ø リフタ学習により,話者性を損なわずに計算量削減
/31
リフタ学習法の主観評価結果 (16 kHz)
29
Ø ⾳質に関するPreference score
Ø - リフタ学習法で打ち切り > 従来法で打ち切り
Ø - リフタ学習法で打ち切り >= 従来法で打ち切らない
Ø リフタ学習により,⾳質を損なわずに計算量削減
リフタ学習法 Score 従来法
𝑙 = 32 (f2f) 0.807 0.193 𝑙 = 32 (f2f)
𝑙 = 32 (f2f) 0.742 0.258 𝑙 = 512 (f2f)
𝑙 = 48 (f2f) 0.581 0.419 𝑙 = 48 (f2f)
𝑙 = 48 (f2f) 0.513 0.487 𝑙 = 512 (f2f)
/31
サブバンド処理の主観評価結果 (48 kHz)
30
サブバンド処理 Score 従来法
m2m 0.519 0.481 m2m
f2f 0.603 0.397 f2f
サブバンド処理 Score 従来法
m2m 0.721 0.279 m2m
f2f 0.700 0.300 f2f
Ø 話者性に関するPreference score
Ø ⾳質に関するPreference score
Ø サブバンド処理により変換⾳声の品質が向上
Ø 特に⾳質に対する効果が顕著
/31
まとめ
Ø 研究⽬的:
– 広帯域リアルタイム声質変換に向けた品質・計算効率の向上
Ø 提案法:
– フィルタ打ち切りを考慮したリフタ学習
– サブバンド処理による帯域ごとの変換
Ø 実験結果:
– リフタ学習により,品質を劣化させずにタップ⻑を1/16まで削減可能
– サブバンド処理により,広帯域変換⾳声の品質を⼤幅に向上
Ø 今後の課題:
– リフタ学習とサブバンド処理を組み合わせた⼿法の評価
– 提案法に基づく,広帯域リアルタイム声質変換の実装・評価
31
1 of 31

Recommended

EMNLP 2015 読み会 @ 小町研 "Morphological Analysis for Unsegmented Languages using ... by
EMNLP 2015 読み会 @ 小町研 "Morphological Analysis for Unsegmented Languages using ...EMNLP 2015 読み会 @ 小町研 "Morphological Analysis for Unsegmented Languages using ...
EMNLP 2015 読み会 @ 小町研 "Morphological Analysis for Unsegmented Languages using ...Yuki Tomo
1K views18 slides
ICASSP2019音声&音響論文読み会 論文紹介(認識系) by
ICASSP2019音声&音響論文読み会 論文紹介(認識系)ICASSP2019音声&音響論文読み会 論文紹介(認識系)
ICASSP2019音声&音響論文読み会 論文紹介(認識系)貴史 益子
2.6K views32 slides
論文紹介: Direct-Path Signal Cross-Correlation Estimation for Sound Source Locali... by
論文紹介: Direct-Path Signal Cross-Correlation Estimation for Sound Source Locali...論文紹介: Direct-Path Signal Cross-Correlation Estimation for Sound Source Locali...
論文紹介: Direct-Path Signal Cross-Correlation Estimation for Sound Source Locali...KoueiYamaoka
552 views17 slides
ICASSP2019 音声&音響論文読み会 著者紹介2 (信号処理系2) by
ICASSP2019 音声&音響論文読み会 著者紹介2 (信号処理系2)ICASSP2019 音声&音響論文読み会 著者紹介2 (信号処理系2)
ICASSP2019 音声&音響論文読み会 著者紹介2 (信号処理系2)KoueiYamaoka
1.4K views25 slides
半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法 by
半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法
半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法Daichi Kitamura
4.3K views28 slides
ICASSP2017読み会(関東編)・AASP_L3(北村担当分) by
ICASSP2017読み会(関東編)・AASP_L3(北村担当分)ICASSP2017読み会(関東編)・AASP_L3(北村担当分)
ICASSP2017読み会(関東編)・AASP_L3(北村担当分)Daichi Kitamura
4K views39 slides

More Related Content

What's hot

ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS wi... by
ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS wi...ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS wi...
ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS wi...Daichi Kitamura
1.8K views24 slides
[DL輪読会]BERT: Pre-training of Deep Bidirectional Transformers for Language Und... by
[DL輪読会]BERT: Pre-training of Deep Bidirectional Transformers for Language Und...[DL輪読会]BERT: Pre-training of Deep Bidirectional Transformers for Language Und...
[DL輪読会]BERT: Pre-training of Deep Bidirectional Transformers for Language Und...Deep Learning JP
20.7K views29 slides
非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法 by
非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法
非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法Daichi Kitamura
3.5K views23 slides
Evaluation of separation accuracy for various real instruments based on super... by
Evaluation of separation accuracy for various real instruments based on super...Evaluation of separation accuracy for various real instruments based on super...
Evaluation of separation accuracy for various real instruments based on super...Daichi Kitamura
676 views29 slides
過決定条件BSSにおけるランク1空間制約の緩和 Relaxation of rank-1 spatial model in overdetermined... by
過決定条件BSSにおけるランク1空間制約の緩和 Relaxation of rank-1 spatial model in overdetermined...過決定条件BSSにおけるランク1空間制約の緩和 Relaxation of rank-1 spatial model in overdetermined...
過決定条件BSSにおけるランク1空間制約の緩和 Relaxation of rank-1 spatial model in overdetermined...Daichi Kitamura
1.7K views22 slides
Optimal divergence diversity for superresolution-based nonnegative matrix fac... by
Optimal divergence diversity for superresolution-based nonnegative matrix fac...Optimal divergence diversity for superresolution-based nonnegative matrix fac...
Optimal divergence diversity for superresolution-based nonnegative matrix fac...Daichi Kitamura
566 views23 slides

What's hot(18)

ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS wi... by Daichi Kitamura
ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS wi...ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS wi...
ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS wi...
Daichi Kitamura1.8K views
[DL輪読会]BERT: Pre-training of Deep Bidirectional Transformers for Language Und... by Deep Learning JP
[DL輪読会]BERT: Pre-training of Deep Bidirectional Transformers for Language Und...[DL輪読会]BERT: Pre-training of Deep Bidirectional Transformers for Language Und...
[DL輪読会]BERT: Pre-training of Deep Bidirectional Transformers for Language Und...
Deep Learning JP20.7K views
非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法 by Daichi Kitamura
非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法
非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法
Daichi Kitamura3.5K views
Evaluation of separation accuracy for various real instruments based on super... by Daichi Kitamura
Evaluation of separation accuracy for various real instruments based on super...Evaluation of separation accuracy for various real instruments based on super...
Evaluation of separation accuracy for various real instruments based on super...
Daichi Kitamura676 views
過決定条件BSSにおけるランク1空間制約の緩和 Relaxation of rank-1 spatial model in overdetermined... by Daichi Kitamura
過決定条件BSSにおけるランク1空間制約の緩和 Relaxation of rank-1 spatial model in overdetermined...過決定条件BSSにおけるランク1空間制約の緩和 Relaxation of rank-1 spatial model in overdetermined...
過決定条件BSSにおけるランク1空間制約の緩和 Relaxation of rank-1 spatial model in overdetermined...
Daichi Kitamura1.7K views
Optimal divergence diversity for superresolution-based nonnegative matrix fac... by Daichi Kitamura
Optimal divergence diversity for superresolution-based nonnegative matrix fac...Optimal divergence diversity for superresolution-based nonnegative matrix fac...
Optimal divergence diversity for superresolution-based nonnegative matrix fac...
Daichi Kitamura566 views
音源分離における音響モデリング(Acoustic modeling in audio source separation) by Daichi Kitamura
音源分離における音響モデリング(Acoustic modeling in audio source separation)音源分離における音響モデリング(Acoustic modeling in audio source separation)
音源分離における音響モデリング(Acoustic modeling in audio source separation)
Daichi Kitamura22.6K views
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep... by Daichi Kitamura
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...
Daichi Kitamura5.9K views
音情報処理における特徴表現 by NU_I_TODALAB
音情報処理における特徴表現音情報処理における特徴表現
音情報処理における特徴表現
NU_I_TODALAB6.2K views
saito2017asj_tts by Yuki Saito
saito2017asj_ttssaito2017asj_tts
saito2017asj_tts
Yuki Saito519 views
独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s... by Daichi Kitamura
独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...
独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...
Daichi Kitamura4.1K views
Study on optimal divergence for superresolution-based supervised nonnegative ... by Daichi Kitamura
Study on optimal divergence for superresolution-based supervised nonnegative ...Study on optimal divergence for superresolution-based supervised nonnegative ...
Study on optimal divergence for superresolution-based supervised nonnegative ...
Daichi Kitamura1K views
文献紹介:Recursive Deep Models for Semantic Compositionality Over a Sentiment Tre... by Shohei Okada
文献紹介:Recursive Deep Models for Semantic Compositionality Over a Sentiment Tre...文献紹介:Recursive Deep Models for Semantic Compositionality Over a Sentiment Tre...
文献紹介:Recursive Deep Models for Semantic Compositionality Over a Sentiment Tre...
Shohei Okada1.1K views
Efficient multichannel nonnegative matrix factorization with rank-1 spatial m... by Daichi Kitamura
Efficient multichannel nonnegative matrix factorization with rank-1 spatial m...Efficient multichannel nonnegative matrix factorization with rank-1 spatial m...
Efficient multichannel nonnegative matrix factorization with rank-1 spatial m...
Daichi Kitamura1.2K views
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank... by Daichi Kitamura
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
Daichi Kitamura1.5K views
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム by Shinnosuke Takamichi
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズムDNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム
統計的独立性と低ランク行列分解理論に基づく ブラインド音源分離 –独立低ランク行列分析– Blind source separation based on... by Daichi Kitamura
統計的独立性と低ランク行列分解理論に基づくブラインド音源分離 –独立低ランク行列分析– Blind source separation based on...統計的独立性と低ランク行列分解理論に基づくブラインド音源分離 –独立低ランク行列分析– Blind source separation based on...
統計的独立性と低ランク行列分解理論に基づく ブラインド音源分離 –独立低ランク行列分析– Blind source separation based on...
Daichi Kitamura2.9K views

Similar to 差分スペクトル法に基づくDNN声質変換のためのリフタ学習およびサブバンド処理

複数話者WaveNetボコーダに関する調査 by
複数話者WaveNetボコーダに関する調査複数話者WaveNetボコーダに関する調査
複数話者WaveNetボコーダに関する調査Tomoki Hayashi
4.4K views55 slides
短時間発話を用いた話者照合のための音声加工の効果に関する検討 by
短時間発話を用いた話者照合のための音声加工の効果に関する検討短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討Shinnosuke Takamichi
1K views37 slides
Generative moment matching net に基づく歌声のランダム変調ポストフィルタと double-tracking への応用 by
Generative moment matching net に基づく歌声のランダム変調ポストフィルタと double-tracking への応用Generative moment matching net に基づく歌声のランダム変調ポストフィルタと double-tracking への応用
Generative moment matching net に基づく歌声のランダム変調ポストフィルタと double-tracking への応用Shinnosuke Takamichi
296 views23 slides
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定 by
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定Shinnosuke Takamichi
1.3K views17 slides
Onoma-to-wave: オノマトペを利用した環境音合成手法の提案 by
Onoma-to-wave: オノマトペを利用した環境音合成手法の提案Onoma-to-wave: オノマトペを利用した環境音合成手法の提案
Onoma-to-wave: オノマトペを利用した環境音合成手法の提案Keisuke Imoto
4.2K views13 slides
Onoma-to-wave: オノマトペを利用した環境音合成手法の提案 by
Onoma-to-wave: オノマトペを利用した環境音合成手法の提案Onoma-to-wave: オノマトペを利用した環境音合成手法の提案
Onoma-to-wave: オノマトペを利用した環境音合成手法の提案Yuki Okamoto
69 views13 slides

Similar to 差分スペクトル法に基づくDNN声質変換のためのリフタ学習およびサブバンド処理(11)

複数話者WaveNetボコーダに関する調査 by Tomoki Hayashi
複数話者WaveNetボコーダに関する調査複数話者WaveNetボコーダに関する調査
複数話者WaveNetボコーダに関する調査
Tomoki Hayashi4.4K views
短時間発話を用いた話者照合のための音声加工の効果に関する検討 by Shinnosuke Takamichi
短時間発話を用いた話者照合のための音声加工の効果に関する検討短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討
Generative moment matching net に基づく歌声のランダム変調ポストフィルタと double-tracking への応用 by Shinnosuke Takamichi
Generative moment matching net に基づく歌声のランダム変調ポストフィルタと double-tracking への応用Generative moment matching net に基づく歌声のランダム変調ポストフィルタと double-tracking への応用
Generative moment matching net に基づく歌声のランダム変調ポストフィルタと double-tracking への応用
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定 by Shinnosuke Takamichi
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
Onoma-to-wave: オノマトペを利用した環境音合成手法の提案 by Keisuke Imoto
Onoma-to-wave: オノマトペを利用した環境音合成手法の提案Onoma-to-wave: オノマトペを利用した環境音合成手法の提案
Onoma-to-wave: オノマトペを利用した環境音合成手法の提案
Keisuke Imoto4.2K views
Onoma-to-wave: オノマトペを利用した環境音合成手法の提案 by Yuki Okamoto
Onoma-to-wave: オノマトペを利用した環境音合成手法の提案Onoma-to-wave: オノマトペを利用した環境音合成手法の提案
Onoma-to-wave: オノマトペを利用した環境音合成手法の提案
Yuki Okamoto69 views
ICASSP読み会2020 by Yuki Saito
ICASSP読み会2020ICASSP読み会2020
ICASSP読み会2020
Yuki Saito697 views
[DL輪読会]VOICEFILTER: Targeted Voice Separation by Speaker-Conditioned Spectrog... by Deep Learning JP
[DL輪読会]VOICEFILTER: Targeted Voice Separation by Speaker-Conditioned Spectrog...[DL輪読会]VOICEFILTER: Targeted Voice Separation by Speaker-Conditioned Spectrog...
[DL輪読会]VOICEFILTER: Targeted Voice Separation by Speaker-Conditioned Spectrog...
Deep Learning JP1.1K views
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価 by Shinnosuke Takamichi
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
Nakai22sp03 presentation by Yuki Saito
Nakai22sp03 presentationNakai22sp03 presentation
Nakai22sp03 presentation
Yuki Saito259 views
英語リスニング研究最前線:実験音声学からのアプローチ by Kosuke Sugai
英語リスニング研究最前線:実験音声学からのアプローチ英語リスニング研究最前線:実験音声学からのアプローチ
英語リスニング研究最前線:実験音声学からのアプローチ
Kosuke Sugai2K views

Recently uploaded

ウォーターフォール開発で生 産性を測る指標 by
ウォーターフォール開発で生 産性を測る指標ウォーターフォール開発で生 産性を測る指標
ウォーターフォール開発で生 産性を測る指標Kouhei Aoyagi
55 views13 slides
SSH超入門 by
SSH超入門SSH超入門
SSH超入門Toru Miyahara
490 views21 slides
JISTA月例会2023年12月 書籍『3カ月で改善!システム障害対応実践ガイド』ご紹介+失敗学と障害対応と私 by
JISTA月例会2023年12月 書籍『3カ月で改善!システム障害対応実践ガイド』ご紹介+失敗学と障害対応と私JISTA月例会2023年12月 書籍『3カ月で改善!システム障害対応実践ガイド』ご紹介+失敗学と障害対応と私
JISTA月例会2023年12月 書籍『3カ月で改善!システム障害対応実践ガイド』ご紹介+失敗学と障害対応と私修治 松浦
208 views36 slides
Najah Matsuo Self Introduction by
Najah Matsuo Self IntroductionNajah Matsuo Self Introduction
Najah Matsuo Self IntroductionNajahMatsuo
10 views29 slides
概要.pdf by
概要.pdf概要.pdf
概要.pdfTaira Shimizu
6 views1 slide
システム概要.pdf by
システム概要.pdfシステム概要.pdf
システム概要.pdfTaira Shimizu
44 views1 slide

Recently uploaded(7)

ウォーターフォール開発で生 産性を測る指標 by Kouhei Aoyagi
ウォーターフォール開発で生 産性を測る指標ウォーターフォール開発で生 産性を測る指標
ウォーターフォール開発で生 産性を測る指標
Kouhei Aoyagi55 views
JISTA月例会2023年12月 書籍『3カ月で改善!システム障害対応実践ガイド』ご紹介+失敗学と障害対応と私 by 修治 松浦
JISTA月例会2023年12月 書籍『3カ月で改善!システム障害対応実践ガイド』ご紹介+失敗学と障害対応と私JISTA月例会2023年12月 書籍『3カ月で改善!システム障害対応実践ガイド』ご紹介+失敗学と障害対応と私
JISTA月例会2023年12月 書籍『3カ月で改善!システム障害対応実践ガイド』ご紹介+失敗学と障害対応と私
修治 松浦208 views
Najah Matsuo Self Introduction by NajahMatsuo
Najah Matsuo Self IntroductionNajah Matsuo Self Introduction
Najah Matsuo Self Introduction
NajahMatsuo10 views
onewedge_companyguide1 by ONEWEDGE1
onewedge_companyguide1onewedge_companyguide1
onewedge_companyguide1
ONEWEDGE166 views

差分スペクトル法に基づくDNN声質変換のためのリフタ学習およびサブバンド処理