SlideShare a Scribd company logo
1 of 25
Download to read offline
©Yuki Saito, 2018/03/19
2018年3月 音声 (SP) 研究会 3月19日 (月) SP-4
○ 齋藤 佑樹 (NTT/東大),
井島 勇祐, 西田 京介 (NTT), 高道 慎之介 (東大)
音素事後確率と 𝑑-vector を用いた
Variational Autoencoder による
ノンパラレル多対多音声変換
/24
 音声変換: 音声の言語情報を保持しつつ, 非言語情報を変換
 統計的パラメトリックVC [Stylianou et al., 1988]
– 音声パラメータを統計モデルによりモデル化 (学習) & 変換
– パラレルVC: 学習に変換元/変換先話者の同一発話音声を使用
• 高品質な変換が可能だが, 学習データの収集は困難
– ノンパラレルVC: 同一発話以外の音声の利用が可能
• 学習データの収集が容易だが, 変換音声の品質は劣化
1
研究分野: 音声変換 (Voice Conversion: VC)
音声変換:
Voice Conversion (VC)
Target
speech
Source
speech
/242
本発表の概要
 従来法: VAE*を用いた一対一VC (VAE-VC)
– 話者表現で条件付けされたVAEを用いて音声パラメータを変換
– 音韻を表す潜在変数の過剰な正則化により, 音声の品質が劣化
– 特定話者対の変換のみが可能 (未知話者の変換は困難)
 提案法
– (1) 音素事後確率を用いたVAE-VC
• 音韻情報を潜在変数として扱うのではなく, 学習/変換時に付与
– (2) ノンパラレル多対多VAE-VC
• 未知話者から未知話者への変換が可能
• 未知話者にも対応する話者表現法 (話者コード適応, 𝑑-vector)
 結果: VAE-VCの大幅な品質改善 & 多対多VAE-VCを実現
[Hsu et al., 2016]
*Variational AutoEncoder [Kingma et al., 2013]
/243
目次
 研究背景
 従来のVAE音声変換
 提案法
– 音素事後確率を用いたVAE音声変換
– 多対多VAE音声変換への拡張
 実験的評価
 まとめ
/244
Variational AutoEncoder (VAE)
ℒ 𝜽, 𝝓; 𝒙 = −𝐷KL 𝑞 𝝓 𝒛|𝒙 || 𝒩 𝒛; 𝟎, 𝑰 + 𝔼 𝑞 𝝓 𝒛|𝒙
log 𝑝 𝜽 𝒙|𝒛
[Kingma et al., 2013]
潜在変数 𝒛 に対する正則化項
Latent
variables
Encoder
𝑞 𝜙 𝒛|𝒙
Decoder
𝑝 𝜃 𝒙|𝒛
𝒙 𝒙
𝒛
𝒩 𝒛; 𝟎, 𝑰
特徴量 𝒙 の再構築誤差
Input
features
Generated
features
/245
話者コードを用いた従来のVAE-VCの学習フェーズ
(一対一VC)
ℒ 𝜽, 𝝓; 𝒙, 𝒚s = −𝐷KL 𝑞 𝝓 𝒛|𝒙 || 𝒩 𝒛; 𝟎, 𝑰 + 𝔼 𝑞 𝝓 𝒛|𝒙
log 𝑝 𝜽 𝒙|𝒛, 𝒚s
潜在変数 𝒛 に対する正則化項
VAE-VC [Hsu et al., 2016], speaker codes [Hojo et al., 2016]
音声パラメータ 𝒙 の再構築誤差
Input
speech
params.
Generated
speech
params.
Encoder
𝑞 𝜙 𝒛|𝒙
Decoder
𝑝 𝜃 𝒙|𝒛, 𝒚s
Latent
variables
𝒙 𝒙
𝒛
𝒩 𝒛; 𝟎, 𝑰
𝒚s
Speaker
codes
/246
話者コードを用いた従来のVAE-VCの変換フェーズ
(一対一VC)
 潜在変数 𝒛 は話者表現 𝒚s に対して独立であると仮定
– 話者に依存しない音韻の情報を表現することを期待
Encoder
𝑞 𝜙 𝒛|𝒙
Decoder
𝑝 𝜃 𝒙|𝒛, 𝒚s
VAE-VC [Hsu et al., 2016], speaker codes [Hojo et al., 2016]
Latent
variables
𝒙 𝒙
𝒛
𝒩 𝒛; 𝟎, 𝑰
Input
speech
params.
Generated
speech
params.
𝒚s
Speaker
codes
/247
従来のVAE-VCにおける問題点
 問題点1: 𝒛 の分布の過剰な正則化
– 音韻の消失により品質が劣化
Encoder
𝑞 𝜙 𝒛|𝒙
Decoder
𝑝 𝜃 𝒙|𝒛, 𝒚s
Latent
variables
𝒙 𝒙
𝒛
𝒩 𝒛; 𝟎, 𝑰
Input
speech
params.
Generated
speech
params.
 問題点2: 変換可能な話者対の制約
– 離散的な話者コードの利用に起因
[Bowman et al., 2016]
𝒚s
Speaker
codes
/248
目次
 研究背景
 従来のVAE音声変換
 提案法
– 音素事後確率を用いたVAE音声変換
– 多対多VAE音声変換への拡張
 実験的評価
 まとめ
/249
提案法の概要
 前提: 不特定多数話者音声を含む大規模コーパスが利用可能
– 音声認識/話者認証モデル構築用 (e.g., 男女200名以上)
 提案法
– (1) 音素事後確率を用いたVAE-VC
• 音素事後確率 (PPG*): 音声認識モデルの予測結果
• 音韻情報を潜在変数として扱うのではなく, 学習/変換時に付与
– (2) 未知話者対の変換も可能なVAE-VC
• 未知話者にも対応する話者表現法を提案
– 話者コード適応: 離散的な話者コードを未知話者に適応
– 𝑑-vector: 話者認証モデルのボトルネック特徴量 (連続値)
[Variani et al., 2014]
[Luong et al., 2017]
*Phonetic PosteriorGrams [Sun et al., 2016]
/2410
音素事後確率 (PPG) を用いたVAE-VC
𝒙 𝒙
𝒛
Encoder Decoder
𝒚s
Pre-trained
speech
recognition
あ
a
i
u
𝒛p
PPGs
Speaker
codes
/2411
ノンパラレル多対多VAE-VCへの拡張
𝒙 𝒙
𝒛
Encoder Decoder
𝒚s
Pre-trained
speech
recognition
あ
a
i
u
𝒛p
PPGs
Speaker
codes
未知話者に対する
話者表現推定法を提案
/2412
𝒙 𝒙
𝒛
Encoder
𝒚s
Pre-trained
speech
recognition
あ
a
i
u
𝒛p
PPGs
Speaker
codes
(1) 未知話者に対する話者コードの適応*
𝐿MSE = 𝒙 − 𝒙 ⊤ 𝒙 − 𝒙
𝜕𝐿MSE 𝜕𝒚s
Decoder
*テキスト音声合成で提案 [Luong et al., 2017]
0.7
0.3
/2413
𝒙 𝒙
𝒛
Encoder Decoder
Pre-trained
speaker
verification
Pre-trained
speech
recognition
あ
a
i
u
𝒛p
PPGs
(2) 音素事後確率 (PPG) と 𝑑-vector を用いたVAE-VC
𝑑-vectors
𝒛s𝒙∗
未知話者の 𝑑-vector も
同様に利用可能
/2414
考察
 音声認識/話者認証モデル学習時のラベリング
– 音声認識: 音素ラベルの付与,話者認証: 話者コードの付与
• → Conditional VAEの枠組みに基づく半教師あり学習が可能
 音声変換/音声認識/話者認証の統合
– 提案法における音声認識/話者認証モデル: 事前学習後は固定
• → End-to-End 学習による同時最適化も可能
 言語非依存の音声変換への拡張
– 提案法におけるPPGの単位: 日本語音素
• → 識別単位の変更により言語非依存の音声変換も実現可能
[Kingma et al., 2014]
[Zhang et al., 2017] [Heigold et al., 2016]
/2415
目次
 研究背景
 従来のVAE音声変換
 提案法
– 音素事後確率を用いたVAE音声変換
– 多対多VAE音声変換への拡張
 実験的評価
 まとめ
/24
実験条件
音声コーパス
音声認識/話者認証モデル構築用
260名 (男性130, 女性130, 約31時間)
音声変換モデル (男性 → 男性, 男性 → 女性) 構築用
同一発話内容の425データを3分割
(1—200: 変換元, 201—400: 変換先, 401—425: 評価)
音声特徴量
(動的特徴量も含む)
スペクトル特徴量
40次元のメルケプストラム (0次は変換せず)
音源特徴量
対数F0, U/V, 10帯域の非周期成分
DNNアーキテクチャ
すべて Feed-Forward 型ネットワーク
(アーキテクチャの詳細は原稿を参照)
PPGの音素数 56 (当該フレームの音素のみ予測)
𝑑-vector 16次元
VAEの潜在変数 64次元
16
/2417
客観評価
 比較手法
– リファレンス: Feed-Forward DNN [Desai et al., 2009]
• DNNの学習データ: 同一発話音声
– 従来法: 話者コードのみを用いたVAE [Hsu et al., 2016]
– 提案法 (話者コード): 話者コードとPPGを用いたVAE
– 提案法 (𝑑-vector): 𝑑-vector とPPGを用いたVAE
• VAEの学習データ: 非同一発話音声
• 提案法は多対多VCでも評価
– 音声認識/話者認証用コーパスで音声変換モデルを学習
– 評価用の話者対は学習データから除外
 評価基準: 変換音声の mel-cepstral distortion
– 学習/適応 (話者推定) 時に用いるデータ量の影響を調査
/2418
客観評価結果 (一対一VC)
(a) Male-to-male (b) Male-to-female
Mel-cepstraldistortion[dB]
6.0
7.0
8.0
9.0
5 10 25 50 100 200 5 10 25 50 100 200
Number of training data
良
悪
従来法と比較して歪みを大幅に改善
リファレンス
従来法
提案法 (話者コード)
提案法 (𝑑-vector)
リファレンス
従来法
提案法 (話者コード)
提案法 (𝑑-vector)
/2419
客観評価結果 (多対多VC)
(a) Male-to-male (b) Male-to-female
Mel-cepstraldistortion[dB]
6.0
7.0
8.0
9.0
5 10 25 50 100 200 5 10 25 50 100 200
Number of adaptation data
良
悪
話者表現としての 𝑑-vector の有効性を確認
提案法 (話者コード)
提案法 (𝑑-vector)
提案法 (話者コード)
提案法 (𝑑-vector)
/2420
主観評価
 比較手法
– リファレンス: Feed-Forward DNN [Desai et al., 2009]
• DNNの学習データ数: 400 (同一発話音声)
– 従来法: 話者コードのみを用いたVAE [Hsu et al., 2016]
– 提案法 (話者コード): 話者コードとPPGを用いたVAE
– 提案法 (𝑑-vector): 𝑑-vector とPPGを用いたVAE
• VAEの学習データ数: 200 (非同一発話音声)
• 提案法は一対一と多対多の両方で音声サンプルを生成
– 多対多VCの適応データ数: 100
 評価基準
– 変換音声の自然性 (MOSスコア) & 話者類似性 (DMOSスコア)
/2421
主観評価結果
(変換音声の自然性に関するMOSスコア)
エラーバーは95%信頼区間, 評価者数8名
リファレンス
従来法
提案法
(話者コード)
提案法
(𝑑-vector)
提案法
(話者コード)
提案法
(𝑑-vector)
M2M
M2F
悪
変換音声の自然性に関するMOSスコア
良
1.0 2.0 3.0 4.0 5.0
大きく改善
一対一
多対多
/2422
主観評価結果
(変換音声の話者類似性に関するDMOSスコア)
エラーバーは95%信頼区間, 評価者数8名
リファレンス
従来法
提案法
(話者コード)
提案法
(𝑑-vector)
提案法
(話者コード)
提案法
(𝑑-vector)
M2M
M2F
悪
変換音声の話者類似性に関するDMOSスコア
良
1.0 2.0 3.0 4.0 5.0
大きく改善
提案法による品質改善 & ノンパラレル多対多VAE-VCを実現
一対一
多対多
/2423
目次
 研究背景
 従来のVAE音声変換
 提案法
– 音素事後確率を用いたVAE音声変換
– 多対多VAE音声変換への拡張
 実験的評価
 まとめ
/24
まとめ
24
 目的
– VAEを用いたノンパラレルVCの品質改善 & 多対多VCへの拡張
 提案
– (1) 音素事後確率を用いたVAE-VCの学習/変換法
• 音韻の消失に起因する品質劣化を緩和
– (2) 多対多VAE-VCのための話者表現
• (a) 話者コードの適応, (b) 𝑑-vector の利用
 結果
– (1) 音素事後確率の導入による大幅な品質改善
– (2) ノンパラレル多対多VAE-VCの実現
• 𝑑-vector は同性間のVCにおける品質改善に有効
 今後
– 𝑑-vector の次元数への依存性に関する調査

More Related Content

What's hot

Interspeech2020 reading
Interspeech2020 readingInterspeech2020 reading
Interspeech2020 readingYuki Saito
 
ICASSP2020 論文読み会 資料 上乃聖
ICASSP2020 論文読み会 資料 上乃聖ICASSP2020 論文読み会 資料 上乃聖
ICASSP2020 論文読み会 資料 上乃聖SeiUeno
 
DNN音響モデルにおける特徴量抽出の諸相
DNN音響モデルにおける特徴量抽出の諸相DNN音響モデルにおける特徴量抽出の諸相
DNN音響モデルにおける特徴量抽出の諸相Takuya Yoshioka
 
Deep learning for acoustic modeling in parametric speech generation
Deep learning for acoustic modeling in parametric speech generationDeep learning for acoustic modeling in parametric speech generation
Deep learning for acoustic modeling in parametric speech generationYuki Saito
 
DNN音声合成のための Anti-spoofing を考慮した学習アルゴリズム
DNN音声合成のための Anti-spoofing を考慮した学習アルゴリズムDNN音声合成のための Anti-spoofing を考慮した学習アルゴリズム
DNN音声合成のための Anti-spoofing を考慮した学習アルゴリズムYuki Saito
 
音情報処理における特徴表現
音情報処理における特徴表現音情報処理における特徴表現
音情報処理における特徴表現NU_I_TODALAB
 
複数話者WaveNetボコーダに関する調査
複数話者WaveNetボコーダに関する調査複数話者WaveNetボコーダに関する調査
複数話者WaveNetボコーダに関する調査Tomoki Hayashi
 
WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響NU_I_TODALAB
 
分布あるいはモーメント間距離最小化に基づく統計的音声合成
分布あるいはモーメント間距離最小化に基づく統計的音声合成分布あるいはモーメント間距離最小化に基づく統計的音声合成
分布あるいはモーメント間距離最小化に基づく統計的音声合成Shinnosuke Takamichi
 
論文紹介: Direct-Path Signal Cross-Correlation Estimation for Sound Source Locali...
論文紹介: Direct-Path Signal Cross-Correlation Estimation for Sound Source Locali...論文紹介: Direct-Path Signal Cross-Correlation Estimation for Sound Source Locali...
論文紹介: Direct-Path Signal Cross-Correlation Estimation for Sound Source Locali...KoueiYamaoka
 
音声認識の基礎
音声認識の基礎音声認識の基礎
音声認識の基礎Akinori Ito
 
SLP201805: 日本語韻律構造を考慮した prosody-aware subword embedding とDNN多方言音声合成への適用
SLP201805: 日本語韻律構造を考慮した prosody-aware subword embedding とDNN多方言音声合成への適用SLP201805: 日本語韻律構造を考慮した prosody-aware subword embedding とDNN多方言音声合成への適用
SLP201805: 日本語韻律構造を考慮した prosody-aware subword embedding とDNN多方言音声合成への適用Shinnosuke Takamichi
 
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズムDNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズムShinnosuke Takamichi
 
日本語音声合成のためのsubword内モーラを考慮したProsody-aware subword embedding
日本語音声合成のためのsubword内モーラを考慮したProsody-aware subword embedding日本語音声合成のためのsubword内モーラを考慮したProsody-aware subword embedding
日本語音声合成のためのsubword内モーラを考慮したProsody-aware subword embeddingShinnosuke Takamichi
 
ICASSP2019 音声&音響論文読み会 著者紹介2 (信号処理系2)
ICASSP2019 音声&音響論文読み会 著者紹介2 (信号処理系2)ICASSP2019 音声&音響論文読み会 著者紹介2 (信号処理系2)
ICASSP2019 音声&音響論文読み会 著者紹介2 (信号処理系2)KoueiYamaoka
 
日本音響学会2017秋 ”クラウドソーシングを利用した対訳方言音声コーパスの構築”
日本音響学会2017秋 ”クラウドソーシングを利用した対訳方言音声コーパスの構築”日本音響学会2017秋 ”クラウドソーシングを利用した対訳方言音声コーパスの構築”
日本音響学会2017秋 ”クラウドソーシングを利用した対訳方言音声コーパスの構築”Shinnosuke Takamichi
 
音声認識における言語モデル
音声認識における言語モデル音声認識における言語モデル
音声認識における言語モデルKOTARO SETOYAMA
 
ICASSP2019音声&音響論文読み会 論文紹介(認識系)
ICASSP2019音声&音響論文読み会 論文紹介(認識系)ICASSP2019音声&音響論文読み会 論文紹介(認識系)
ICASSP2019音声&音響論文読み会 論文紹介(認識系)貴史 益子
 
saito2017asj_tts
saito2017asj_ttssaito2017asj_tts
saito2017asj_ttsYuki Saito
 

What's hot (20)

Interspeech2020 reading
Interspeech2020 readingInterspeech2020 reading
Interspeech2020 reading
 
ICASSP2020 論文読み会 資料 上乃聖
ICASSP2020 論文読み会 資料 上乃聖ICASSP2020 論文読み会 資料 上乃聖
ICASSP2020 論文読み会 資料 上乃聖
 
DNN音響モデルにおける特徴量抽出の諸相
DNN音響モデルにおける特徴量抽出の諸相DNN音響モデルにおける特徴量抽出の諸相
DNN音響モデルにおける特徴量抽出の諸相
 
Deep learning for acoustic modeling in parametric speech generation
Deep learning for acoustic modeling in parametric speech generationDeep learning for acoustic modeling in parametric speech generation
Deep learning for acoustic modeling in parametric speech generation
 
DNN音声合成のための Anti-spoofing を考慮した学習アルゴリズム
DNN音声合成のための Anti-spoofing を考慮した学習アルゴリズムDNN音声合成のための Anti-spoofing を考慮した学習アルゴリズム
DNN音声合成のための Anti-spoofing を考慮した学習アルゴリズム
 
音情報処理における特徴表現
音情報処理における特徴表現音情報処理における特徴表現
音情報処理における特徴表現
 
複数話者WaveNetボコーダに関する調査
複数話者WaveNetボコーダに関する調査複数話者WaveNetボコーダに関する調査
複数話者WaveNetボコーダに関する調査
 
WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響
 
分布あるいはモーメント間距離最小化に基づく統計的音声合成
分布あるいはモーメント間距離最小化に基づく統計的音声合成分布あるいはモーメント間距離最小化に基づく統計的音声合成
分布あるいはモーメント間距離最小化に基づく統計的音声合成
 
miyoshi17sp07
miyoshi17sp07miyoshi17sp07
miyoshi17sp07
 
論文紹介: Direct-Path Signal Cross-Correlation Estimation for Sound Source Locali...
論文紹介: Direct-Path Signal Cross-Correlation Estimation for Sound Source Locali...論文紹介: Direct-Path Signal Cross-Correlation Estimation for Sound Source Locali...
論文紹介: Direct-Path Signal Cross-Correlation Estimation for Sound Source Locali...
 
音声認識の基礎
音声認識の基礎音声認識の基礎
音声認識の基礎
 
SLP201805: 日本語韻律構造を考慮した prosody-aware subword embedding とDNN多方言音声合成への適用
SLP201805: 日本語韻律構造を考慮した prosody-aware subword embedding とDNN多方言音声合成への適用SLP201805: 日本語韻律構造を考慮した prosody-aware subword embedding とDNN多方言音声合成への適用
SLP201805: 日本語韻律構造を考慮した prosody-aware subword embedding とDNN多方言音声合成への適用
 
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズムDNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム
 
日本語音声合成のためのsubword内モーラを考慮したProsody-aware subword embedding
日本語音声合成のためのsubword内モーラを考慮したProsody-aware subword embedding日本語音声合成のためのsubword内モーラを考慮したProsody-aware subword embedding
日本語音声合成のためのsubword内モーラを考慮したProsody-aware subword embedding
 
ICASSP2019 音声&音響論文読み会 著者紹介2 (信号処理系2)
ICASSP2019 音声&音響論文読み会 著者紹介2 (信号処理系2)ICASSP2019 音声&音響論文読み会 著者紹介2 (信号処理系2)
ICASSP2019 音声&音響論文読み会 著者紹介2 (信号処理系2)
 
日本音響学会2017秋 ”クラウドソーシングを利用した対訳方言音声コーパスの構築”
日本音響学会2017秋 ”クラウドソーシングを利用した対訳方言音声コーパスの構築”日本音響学会2017秋 ”クラウドソーシングを利用した対訳方言音声コーパスの構築”
日本音響学会2017秋 ”クラウドソーシングを利用した対訳方言音声コーパスの構築”
 
音声認識における言語モデル
音声認識における言語モデル音声認識における言語モデル
音声認識における言語モデル
 
ICASSP2019音声&音響論文読み会 論文紹介(認識系)
ICASSP2019音声&音響論文読み会 論文紹介(認識系)ICASSP2019音声&音響論文読み会 論文紹介(認識系)
ICASSP2019音声&音響論文読み会 論文紹介(認識系)
 
saito2017asj_tts
saito2017asj_ttssaito2017asj_tts
saito2017asj_tts
 

Similar to Saito18sp03

Interspeech2022 参加報告
Interspeech2022 参加報告Interspeech2022 参加報告
Interspeech2022 参加報告Yuki Saito
 
ICASSP2020 論文読み会 柏木陽佑
ICASSP2020 論文読み会 柏木陽佑ICASSP2020 論文読み会 柏木陽佑
ICASSP2020 論文読み会 柏木陽佑YosukeKashiwagi1
 
ICASSP2019 音声&音響読み会 テーマ発表音声生成
ICASSP2019 音声&音響読み会 テーマ発表音声生成ICASSP2019 音声&音響読み会 テーマ発表音声生成
ICASSP2019 音声&音響読み会 テーマ発表音声生成Kentaro Tachibana
 
音声コード技術比較 Voiceye and Uni-voice (in Japanese)
音声コード技術比較 Voiceye and Uni-voice (in Japanese)音声コード技術比較 Voiceye and Uni-voice (in Japanese)
音声コード技術比較 Voiceye and Uni-voice (in Japanese)yoshiharu sato
 
音声の声質を変換する技術とその応用
音声の声質を変換する技術とその応用音声の声質を変換する技術とその応用
音声の声質を変換する技術とその応用NU_I_TODALAB
 
Pythonを含む多くのプログラミング言語を扱う処理フレームワークとパターン、鷲崎弘宜、PyConJP 2016 招待講演
Pythonを含む多くのプログラミング言語を扱う処理フレームワークとパターン、鷲崎弘宜、PyConJP 2016 招待講演Pythonを含む多くのプログラミング言語を扱う処理フレームワークとパターン、鷲崎弘宜、PyConJP 2016 招待講演
Pythonを含む多くのプログラミング言語を扱う処理フレームワークとパターン、鷲崎弘宜、PyConJP 2016 招待講演Hironori Washizaki
 

Similar to Saito18sp03 (6)

Interspeech2022 参加報告
Interspeech2022 参加報告Interspeech2022 参加報告
Interspeech2022 参加報告
 
ICASSP2020 論文読み会 柏木陽佑
ICASSP2020 論文読み会 柏木陽佑ICASSP2020 論文読み会 柏木陽佑
ICASSP2020 論文読み会 柏木陽佑
 
ICASSP2019 音声&音響読み会 テーマ発表音声生成
ICASSP2019 音声&音響読み会 テーマ発表音声生成ICASSP2019 音声&音響読み会 テーマ発表音声生成
ICASSP2019 音声&音響読み会 テーマ発表音声生成
 
音声コード技術比較 Voiceye and Uni-voice (in Japanese)
音声コード技術比較 Voiceye and Uni-voice (in Japanese)音声コード技術比較 Voiceye and Uni-voice (in Japanese)
音声コード技術比較 Voiceye and Uni-voice (in Japanese)
 
音声の声質を変換する技術とその応用
音声の声質を変換する技術とその応用音声の声質を変換する技術とその応用
音声の声質を変換する技術とその応用
 
Pythonを含む多くのプログラミング言語を扱う処理フレームワークとパターン、鷲崎弘宜、PyConJP 2016 招待講演
Pythonを含む多くのプログラミング言語を扱う処理フレームワークとパターン、鷲崎弘宜、PyConJP 2016 招待講演Pythonを含む多くのプログラミング言語を扱う処理フレームワークとパターン、鷲崎弘宜、PyConJP 2016 招待講演
Pythonを含む多くのプログラミング言語を扱う処理フレームワークとパターン、鷲崎弘宜、PyConJP 2016 招待講演
 

More from Yuki Saito

hirai23slp03.pdf
hirai23slp03.pdfhirai23slp03.pdf
hirai23slp03.pdfYuki Saito
 
fujii22apsipa_asc
fujii22apsipa_ascfujii22apsipa_asc
fujii22apsipa_ascYuki Saito
 
nakai22apsipa_presentation.pdf
nakai22apsipa_presentation.pdfnakai22apsipa_presentation.pdf
nakai22apsipa_presentation.pdfYuki Saito
 
saito22research_talk_at_NUS
saito22research_talk_at_NUSsaito22research_talk_at_NUS
saito22research_talk_at_NUSYuki Saito
 
Neural text-to-speech and voice conversion
Neural text-to-speech and voice conversionNeural text-to-speech and voice conversion
Neural text-to-speech and voice conversionYuki Saito
 
Nishimura22slp03 presentation
Nishimura22slp03 presentationNishimura22slp03 presentation
Nishimura22slp03 presentationYuki Saito
 
GAN-based statistical speech synthesis (in Japanese)
GAN-based statistical speech synthesis (in Japanese)GAN-based statistical speech synthesis (in Japanese)
GAN-based statistical speech synthesis (in Japanese)Yuki Saito
 
Saito21asj Autumn Meeting
Saito21asj Autumn MeetingSaito21asj Autumn Meeting
Saito21asj Autumn MeetingYuki Saito
 
Saito20asj s slide_published
Saito20asj s slide_publishedSaito20asj s slide_published
Saito20asj s slide_publishedYuki Saito
 
釧路高専情報工学科向け進学説明会
釧路高専情報工学科向け進学説明会釧路高専情報工学科向け進学説明会
釧路高専情報工学科向け進学説明会Yuki Saito
 
miyoshi2017asj
miyoshi2017asjmiyoshi2017asj
miyoshi2017asjYuki Saito
 
Saito2017icassp
Saito2017icasspSaito2017icassp
Saito2017icasspYuki Saito
 

More from Yuki Saito (16)

hirai23slp03.pdf
hirai23slp03.pdfhirai23slp03.pdf
hirai23slp03.pdf
 
fujii22apsipa_asc
fujii22apsipa_ascfujii22apsipa_asc
fujii22apsipa_asc
 
nakai22apsipa_presentation.pdf
nakai22apsipa_presentation.pdfnakai22apsipa_presentation.pdf
nakai22apsipa_presentation.pdf
 
saito22research_talk_at_NUS
saito22research_talk_at_NUSsaito22research_talk_at_NUS
saito22research_talk_at_NUS
 
Neural text-to-speech and voice conversion
Neural text-to-speech and voice conversionNeural text-to-speech and voice conversion
Neural text-to-speech and voice conversion
 
Nishimura22slp03 presentation
Nishimura22slp03 presentationNishimura22slp03 presentation
Nishimura22slp03 presentation
 
GAN-based statistical speech synthesis (in Japanese)
GAN-based statistical speech synthesis (in Japanese)GAN-based statistical speech synthesis (in Japanese)
GAN-based statistical speech synthesis (in Japanese)
 
Saito21asj Autumn Meeting
Saito21asj Autumn MeetingSaito21asj Autumn Meeting
Saito21asj Autumn Meeting
 
Saito2103slp
Saito2103slpSaito2103slp
Saito2103slp
 
Saito20asj s slide_published
Saito20asj s slide_publishedSaito20asj s slide_published
Saito20asj s slide_published
 
Une18apsipa
Une18apsipaUne18apsipa
Une18apsipa
 
Saito18asj_s
Saito18asj_sSaito18asj_s
Saito18asj_s
 
釧路高専情報工学科向け進学説明会
釧路高専情報工学科向け進学説明会釧路高専情報工学科向け進学説明会
釧路高専情報工学科向け進学説明会
 
miyoshi2017asj
miyoshi2017asjmiyoshi2017asj
miyoshi2017asj
 
Saito2017icassp
Saito2017icasspSaito2017icassp
Saito2017icassp
 
Slp201702
Slp201702Slp201702
Slp201702
 

Saito18sp03