SlideShare a Scribd company logo
Submit Search
Upload
日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”
Report
Share
Shinnosuke Takamichi
The University of Tokyo - Project Research Associate
Follow
•
1 like
•
1,236 views
1
of
12
日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”
•
1 like
•
1,236 views
Report
Share
Download Now
Download to read offline
Technology
日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”
Read more
Shinnosuke Takamichi
The University of Tokyo - Project Research Associate
Follow
Recommended
音声の声質を変換する技術とその応用 by
音声の声質を変換する技術とその応用
NU_I_TODALAB
8.9K views
•
28 slides
音源分離における音響モデリング(Acoustic modeling in audio source separation) by
音源分離における音響モデリング(Acoustic modeling in audio source separation)
Daichi Kitamura
22.5K views
•
114 slides
雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習 by
雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習
Shinnosuke Takamichi
2.9K views
•
24 slides
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元 by
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元
NU_I_TODALAB
919 views
•
17 slides
論文紹介 Unsupervised training of neural mask-based beamforming by
論文紹介 Unsupervised training of neural mask-based beamforming
Shinnosuke Takamichi
1.7K views
•
26 slides
CTCに基づく音響イベントからの擬音語表現への変換 by
CTCに基づく音響イベントからの擬音語表現への変換
NU_I_TODALAB
1.5K views
•
19 slides
More Related Content
What's hot
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス by
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
Shinnosuke Takamichi
1.4K views
•
15 slides
Deep Neural Networkに基づく日常生活行動認識における適応手法 by
Deep Neural Networkに基づく日常生活行動認識における適応手法
NU_I_TODALAB
2K views
•
74 slides
ケプストラム正則化NTFによるステレオチャネル楽曲音源分離 by
ケプストラム正則化NTFによるステレオチャネル楽曲音源分離
NU_I_TODALAB
1.2K views
•
16 slides
分布あるいはモーメント間距離最小化に基づく統計的音声合成 by
分布あるいはモーメント間距離最小化に基づく統計的音声合成
Shinnosuke Takamichi
1.9K views
•
47 slides
楽曲中歌声加工における声質変換精度向上のための歌声・伴奏分離法 by
楽曲中歌声加工における声質変換精度向上のための歌声・伴奏分離法
NU_I_TODALAB
1.6K views
•
14 slides
Asj2017 3invited by
Asj2017 3invited
SaruwatariLabUTokyo
15.5K views
•
36 slides
What's hot
(20)
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス by Shinnosuke Takamichi
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
Shinnosuke Takamichi
•
1.4K views
Deep Neural Networkに基づく日常生活行動認識における適応手法 by NU_I_TODALAB
Deep Neural Networkに基づく日常生活行動認識における適応手法
NU_I_TODALAB
•
2K views
ケプストラム正則化NTFによるステレオチャネル楽曲音源分離 by NU_I_TODALAB
ケプストラム正則化NTFによるステレオチャネル楽曲音源分離
NU_I_TODALAB
•
1.2K views
分布あるいはモーメント間距離最小化に基づく統計的音声合成 by Shinnosuke Takamichi
分布あるいはモーメント間距離最小化に基づく統計的音声合成
Shinnosuke Takamichi
•
1.9K views
楽曲中歌声加工における声質変換精度向上のための歌声・伴奏分離法 by NU_I_TODALAB
楽曲中歌声加工における声質変換精度向上のための歌声・伴奏分離法
NU_I_TODALAB
•
1.6K views
Asj2017 3invited by SaruwatariLabUTokyo
Asj2017 3invited
SaruwatariLabUTokyo
•
15.5K views
深層学習と音響信号処理 by Yuma Koizumi
深層学習と音響信号処理
Yuma Koizumi
•
6K views
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価 by Shinnosuke Takamichi
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
Shinnosuke Takamichi
•
1.4K views
非負値行列分解の確率的生成モデルと多チャネル音源分離への応用 (Generative model in nonnegative matrix facto... by Daichi Kitamura
非負値行列分解の確率的生成モデルと多チャネル音源分離への応用 (Generative model in nonnegative matrix facto...
Daichi Kitamura
•
5.9K views
深層学習を利用した音声強調 by Yuma Koizumi
深層学習を利用した音声強調
Yuma Koizumi
•
2K views
Moment matching networkを用いた音声パラメータのランダム生成の検討 by Shinnosuke Takamichi
Moment matching networkを用いた音声パラメータのランダム生成の検討
Shinnosuke Takamichi
•
16.1K views
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム) by Shinnosuke Takamichi
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
Shinnosuke Takamichi
•
1.6K views
独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s... by Daichi Kitamura
独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...
Daichi Kitamura
•
4.1K views
GAN-based statistical speech synthesis (in Japanese) by Yuki Saito
GAN-based statistical speech synthesis (in Japanese)
Yuki Saito
•
952 views
WaveNetが音声合成研究に与える影響 by NU_I_TODALAB
WaveNetが音声合成研究に与える影響
NU_I_TODALAB
•
14.1K views
複数話者WaveNetボコーダに関する調査 by Tomoki Hayashi
複数話者WaveNetボコーダに関する調査
Tomoki Hayashi
•
4.4K views
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論) by Shinnosuke Takamichi
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)
Shinnosuke Takamichi
•
2K views
統計的独立性と低ランク行列分解理論に基づくブラインド音源分離 –独立低ランク行列分析– Blind source separation based on... by Daichi Kitamura
統計的独立性と低ランク行列分解理論に基づくブラインド音源分離 –独立低ランク行列分析– Blind source separation based on...
Daichi Kitamura
•
2.9K views
Saito2103slp by Yuki Saito
Saito2103slp
Yuki Saito
•
250 views
音響メディア信号処理における独立成分分析の発展と応用, History of independent component analysis for sou... by Daichi Kitamura
音響メディア信号処理における独立成分分析の発展と応用, History of independent component analysis for sou...
Daichi Kitamura
•
12.2K views
Viewers also liked
ICASSP2017読み会 (Deep Learning III) [電通大 中鹿先生] by
ICASSP2017読み会 (Deep Learning III) [電通大 中鹿先生]
Shinnosuke Takamichi
1.2K views
•
40 slides
ICASSP2017読み会 (acoustic modeling and adaptation) by
ICASSP2017読み会 (acoustic modeling and adaptation)
Shinnosuke Takamichi
1.7K views
•
22 slides
日本音響学会2017秋 ”クラウドソーシングを利用した対訳方言音声コーパスの構築” by
日本音響学会2017秋 ”クラウドソーシングを利用した対訳方言音声コーパスの構築”
Shinnosuke Takamichi
1.6K views
•
14 slides
Prosody-Controllable HMM-Based Speech Synthesis Using Speech Input by
Prosody-Controllable HMM-Based Speech Synthesis Using Speech Input
Shinnosuke Takamichi
1.4K views
•
17 slides
日本音響学会2017秋 ビギナーズセミナー "深層学習を深く学習するための基礎" by
日本音響学会2017秋 ビギナーズセミナー "深層学習を深く学習するための基礎"
Shinnosuke Takamichi
1.7K views
•
22 slides
DNN音響モデルにおける特徴量抽出の諸相 by
DNN音響モデルにおける特徴量抽出の諸相
Takuya Yoshioka
15.3K views
•
74 slides
Viewers also liked
(14)
ICASSP2017読み会 (Deep Learning III) [電通大 中鹿先生] by Shinnosuke Takamichi
ICASSP2017読み会 (Deep Learning III) [電通大 中鹿先生]
Shinnosuke Takamichi
•
1.2K views
ICASSP2017読み会 (acoustic modeling and adaptation) by Shinnosuke Takamichi
ICASSP2017読み会 (acoustic modeling and adaptation)
Shinnosuke Takamichi
•
1.7K views
日本音響学会2017秋 ”クラウドソーシングを利用した対訳方言音声コーパスの構築” by Shinnosuke Takamichi
日本音響学会2017秋 ”クラウドソーシングを利用した対訳方言音声コーパスの構築”
Shinnosuke Takamichi
•
1.6K views
Prosody-Controllable HMM-Based Speech Synthesis Using Speech Input by Shinnosuke Takamichi
Prosody-Controllable HMM-Based Speech Synthesis Using Speech Input
Shinnosuke Takamichi
•
1.4K views
日本音響学会2017秋 ビギナーズセミナー "深層学習を深く学習するための基礎" by Shinnosuke Takamichi
日本音響学会2017秋 ビギナーズセミナー "深層学習を深く学習するための基礎"
Shinnosuke Takamichi
•
1.7K views
DNN音響モデルにおける特徴量抽出の諸相 by Takuya Yoshioka
DNN音響モデルにおける特徴量抽出の諸相
Takuya Yoshioka
•
15.3K views
GMMに基づく固有声変換のための変調スペクトル制約付きトラジェクトリ学習・適応 by Shinnosuke Takamichi
GMMに基づく固有声変換のための変調スペクトル制約付きトラジェクトリ学習・適応
Shinnosuke Takamichi
•
1.2K views
Multimodal Deep Learning (D4L4 Deep Learning for Speech and Language UPC 2017) by Universitat Politècnica de Catalunya
Multimodal Deep Learning (D4L4 Deep Learning for Speech and Language UPC 2017)
Universitat Politècnica de Catalunya
•
3.2K views
Ph.D defence (Shinnosuke Takamichi) by Shinnosuke Takamichi
Ph.D defence (Shinnosuke Takamichi)
Shinnosuke Takamichi
•
951 views
Saito2017icassp by Yuki Saito
Saito2017icassp
Yuki Saito
•
1.3K views
MIRU2016 チュートリアル by Shunsuke Ono
MIRU2016 チュートリアル
Shunsuke Ono
•
25.5K views
信号処理・画像処理における凸最適化 by Shunsuke Ono
信号処理・画像処理における凸最適化
Shunsuke Ono
•
11.3K views
ICASSP2017読み会(関東編)・AASP_L3(北村担当分) by Daichi Kitamura
ICASSP2017読み会(関東編)・AASP_L3(北村担当分)
Daichi Kitamura
•
4K views
ヤフー音声認識サービスでのディープラーニングとGPU利用事例 by Yahoo!デベロッパーネットワーク
ヤフー音声認識サービスでのディープラーニングとGPU利用事例
Yahoo!デベロッパーネットワーク
•
53K views
Similar to 日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”
saito2017asj_tts by
saito2017asj_tts
Yuki Saito
519 views
•
17 slides
モーメントマッチングに基づくDNN 合成歌声のランダム変調ポストフィルタとニューラルダブルトラッキングへの応用 by
モーメントマッチングに基づくDNN 合成歌声のランダム変調ポストフィルタとニューラルダブルトラッキングへの応用
Shinnosuke Takamichi
983 views
•
24 slides
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム by
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム
Shinnosuke Takamichi
1.6K views
•
22 slides
Slp201702 by
Slp201702
Yuki Saito
14.9K views
•
22 slides
miyoshi2017asj by
miyoshi2017asj
Yuki Saito
556 views
•
13 slides
日本音響学会春季発表会2017 「コンテキスト事後確率のSequence-to-Sequence学習を用いた音声変換」 by
日本音響学会春季発表会2017 「コンテキスト事後確率のSequence-to-Sequence学習を用いた音声変換」
Hiroyuki Miyoshi
260 views
•
13 slides
Similar to 日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”
(8)
saito2017asj_tts by Yuki Saito
saito2017asj_tts
Yuki Saito
•
519 views
モーメントマッチングに基づくDNN 合成歌声のランダム変調ポストフィルタとニューラルダブルトラッキングへの応用 by Shinnosuke Takamichi
モーメントマッチングに基づくDNN 合成歌声のランダム変調ポストフィルタとニューラルダブルトラッキングへの応用
Shinnosuke Takamichi
•
983 views
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム by Shinnosuke Takamichi
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム
Shinnosuke Takamichi
•
1.6K views
Slp201702 by Yuki Saito
Slp201702
Yuki Saito
•
14.9K views
miyoshi2017asj by Yuki Saito
miyoshi2017asj
Yuki Saito
•
556 views
日本音響学会春季発表会2017 「コンテキスト事後確率のSequence-to-Sequence学習を用いた音声変換」 by Hiroyuki Miyoshi
日本音響学会春季発表会2017 「コンテキスト事後確率のSequence-to-Sequence学習を用いた音声変換」
Hiroyuki Miyoshi
•
260 views
Generative moment matching net に基づく歌声のランダム変調ポストフィルタと double-tracking への応用 by Shinnosuke Takamichi
Generative moment matching net に基づく歌声のランダム変調ポストフィルタと double-tracking への応用
Shinnosuke Takamichi
•
296 views
SLP201805: 日本語韻律構造を考慮した prosody-aware subword embedding とDNN多方言音声合成への適用 by Shinnosuke Takamichi
SLP201805: 日本語韻律構造を考慮した prosody-aware subword embedding とDNN多方言音声合成への適用
Shinnosuke Takamichi
•
1.3K views
More from Shinnosuke Takamichi
音声合成のコーパスをつくろう by
音声合成のコーパスをつくろう
Shinnosuke Takamichi
8.9K views
•
20 slides
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス by
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
Shinnosuke Takamichi
743 views
•
4 slides
短時間発話を用いた話者照合のための音声加工の効果に関する検討 by
短時間発話を用いた話者照合のための音声加工の効果に関する検討
Shinnosuke Takamichi
1K views
•
37 slides
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法 by
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
Shinnosuke Takamichi
1.2K views
•
44 slides
国際会議 interspeech 2020 報告 by
国際会議 interspeech 2020 報告
Shinnosuke Takamichi
1.2K views
•
32 slides
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ... by
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
Shinnosuke Takamichi
416 views
•
20 slides
More from Shinnosuke Takamichi
(20)
音声合成のコーパスをつくろう by Shinnosuke Takamichi
音声合成のコーパスをつくろう
Shinnosuke Takamichi
•
8.9K views
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス by Shinnosuke Takamichi
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
Shinnosuke Takamichi
•
743 views
短時間発話を用いた話者照合のための音声加工の効果に関する検討 by Shinnosuke Takamichi
短時間発話を用いた話者照合のための音声加工の効果に関する検討
Shinnosuke Takamichi
•
1K views
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法 by Shinnosuke Takamichi
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
Shinnosuke Takamichi
•
1.2K views
国際会議 interspeech 2020 報告 by Shinnosuke Takamichi
国際会議 interspeech 2020 報告
Shinnosuke Takamichi
•
1.2K views
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ... by Shinnosuke Takamichi
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
Shinnosuke Takamichi
•
416 views
P J S: 音素バランスを考慮した日本語歌声コーパス by Shinnosuke Takamichi
P J S: 音素バランスを考慮した日本語歌声コーパス
Shinnosuke Takamichi
•
3.8K views
音響モデル尤度に基づくsubword分割の韻律推定精度における評価 by Shinnosuke Takamichi
音響モデル尤度に基づくsubword分割の韻律推定精度における評価
Shinnosuke Takamichi
•
1.2K views
音声合成研究を加速させるためのコーパスデザイン by Shinnosuke Takamichi
音声合成研究を加速させるためのコーパスデザイン
Shinnosuke Takamichi
•
612 views
論文紹介 Building the Singapore English National Speech Corpus by Shinnosuke Takamichi
論文紹介 Building the Singapore English National Speech Corpus
Shinnosuke Takamichi
•
988 views
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages by Shinnosuke Takamichi
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
Shinnosuke Takamichi
•
931 views
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価 by Shinnosuke Takamichi
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
Shinnosuke Takamichi
•
1.1K views
JVS:フリーの日本語多数話者音声コーパス by Shinnosuke Takamichi
JVS:フリーの日本語多数話者音声コーパス
Shinnosuke Takamichi
•
4K views
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定 by Shinnosuke Takamichi
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
Shinnosuke Takamichi
•
1.3K views
音声合成・変換の国際コンペティションへの 参加を振り返って by Shinnosuke Takamichi
音声合成・変換の国際コンペティションへの 参加を振り返って
Shinnosuke Takamichi
•
842 views
ユーザ歌唱のための generative moment matching network に基づく neural double-tracking by Shinnosuke Takamichi
ユーザ歌唱のための generative moment matching network に基づく neural double-tracking
Shinnosuke Takamichi
•
437 views
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割 by Shinnosuke Takamichi
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
Shinnosuke Takamichi
•
712 views
統計的ボイチェン研究事情 by Shinnosuke Takamichi
統計的ボイチェン研究事情
Shinnosuke Takamichi
•
2.1K views
統計的音声合成変換と近年の発展 by Shinnosuke Takamichi
統計的音声合成変換と近年の発展
Shinnosuke Takamichi
•
2.1K views
音声コーパス設計と次世代音声研究に向けた提言 by Shinnosuke Takamichi
音声コーパス設計と次世代音声研究に向けた提言
Shinnosuke Takamichi
•
1.6K views
Recently uploaded
今、改めて考えるPostgreSQLプラットフォーム - マルチクラウドとポータビリティ -(PostgreSQL Conference Japan 20... by
今、改めて考えるPostgreSQLプラットフォーム - マルチクラウドとポータビリティ -(PostgreSQL Conference Japan 20...
NTT DATA Technology & Innovation
101 views
•
42 slides
「概念モデリング自動化に向けた第一歩」 ~ ChatGPT・Open AI 活用による開発対象のモデル化 by
「概念モデリング自動化に向けた第一歩」 ~ ChatGPT・Open AI 活用による開発対象のモデル化
Knowledge & Experience
12 views
•
34 slides
01Booster Studio ご紹介資料 by
01Booster Studio ご紹介資料
ssusere7a2172
345 views
•
19 slides
SSH応用編_20231129.pdf by
SSH応用編_20231129.pdf
icebreaker4
184 views
•
13 slides
さくらのひやおろし2023 by
さくらのひやおろし2023
法林浩之
94 views
•
58 slides
Windows 11 information that can be used at the development site by
Windows 11 information that can be used at the development site
Atomu Hidaka
76 views
•
41 slides
Recently uploaded
(11)
今、改めて考えるPostgreSQLプラットフォーム - マルチクラウドとポータビリティ -(PostgreSQL Conference Japan 20... by NTT DATA Technology & Innovation
今、改めて考えるPostgreSQLプラットフォーム - マルチクラウドとポータビリティ -(PostgreSQL Conference Japan 20...
NTT DATA Technology & Innovation
•
101 views
「概念モデリング自動化に向けた第一歩」 ~ ChatGPT・Open AI 活用による開発対象のモデル化 by Knowledge & Experience
「概念モデリング自動化に向けた第一歩」 ~ ChatGPT・Open AI 活用による開発対象のモデル化
Knowledge & Experience
•
12 views
01Booster Studio ご紹介資料 by ssusere7a2172
01Booster Studio ご紹介資料
ssusere7a2172
•
345 views
SSH応用編_20231129.pdf by icebreaker4
SSH応用編_20231129.pdf
icebreaker4
•
184 views
さくらのひやおろし2023 by 法林浩之
さくらのひやおろし2023
法林浩之
•
94 views
Windows 11 information that can be used at the development site by Atomu Hidaka
Windows 11 information that can be used at the development site
Atomu Hidaka
•
76 views
速習! PostgreSQL専用HAソフトウェア: Patroni(PostgreSQL Conference Japan 2023 発表資料) by NTT DATA Technology & Innovation
速習! PostgreSQL専用HAソフトウェア: Patroni(PostgreSQL Conference Japan 2023 発表資料)
NTT DATA Technology & Innovation
•
17 views
Web3 Career_クレデン資料 .pdf by nanamatsuo
Web3 Career_クレデン資料 .pdf
nanamatsuo
•
14 views
The Things Stack説明資料 by The Things Industries by CRI Japan, Inc.
The Things Stack説明資料 by The Things Industries
CRI Japan, Inc.
•
50 views
SNMPセキュリティ超入門 by mkoda
SNMPセキュリティ超入門
mkoda
•
188 views
JJUG CCC.pptx by Kanta Sasaki
JJUG CCC.pptx
Kanta Sasaki
•
6 views
日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”
1.
Moment-matching networkに基づく 一期一会音声合成における発話間変動の評価 ○高道 慎之介†1,郡山
知樹†2,齋藤 佑樹†1,猿渡 洋†1 日本音響学会 2017年 秋季研究発表会 1-8-9 (†1:東大院・情報理工,†2:東工大)
2.
/12 概要 発話間変動 – 同一コンテキストに対する音声の変動
一期一会音声合成 [Takamichi et al., INTERSPEECH2017.] – Moment-matching networkに基づく音響モデリング – 音質を劣化させずに,音声パラメータをランダム生成可能 本報告:一期一会音声合成の発話間変動を定量的に評価 – 繰り返し発話された自然音声と比較 2 “Hello” “Hello”
3.
/12 通常のDNN音声合成 (Mean squared errorの最小化) 3 Mean
squared error Linguistic feats. Static-delta mean vectors ⋯ ⋯ ⋯ ⋯ time 𝑡 = 1 ⋯ ⋯ ⋯ ⋯ ⋯ time 𝑡 = 𝑇 ⋯ Generated speech params. Natural speech params. Parameter generation ⋯ [Wu et al., 2016.] 𝒚𝒚 𝒙 条件付き分布𝑃 𝒚|𝒙 として正規分布を仮定した最尤推定
4.
/12 一期一会音声合成 (条件付きMMDの最小化) 4 Conditional MMD Linguistic feats. 𝒚 Static-delta mean vectors 𝒚 ⋯ Generated speech params. Natural speech params. Parameter generation ⋯ 𝑁 𝟎,
𝑰 Frame-wise noise generator time 𝑡 = 1 time 𝑡 = 𝑇 𝒙 ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ モーメントマッチングによる経験分布表現に基づくサンプリング
5.
/12 MMD (Maximum Mean
Discrepancy) 5 2つのデータセットの統計量の不一致指標 Moment-matching network [Li et al., 2015.] – MMDを最小化するように、ノイズ入力のDNNを学習 𝑁 𝟎, 𝑰 𝒚 𝒚 MMD = Tr 𝟏 ⋅ 𝑲 𝒚,𝒚 + Tr 𝟏 ⋅ 𝑲 𝒚,𝒚 − 2Tr 𝟏 ⋅ 𝑲 𝒚,𝒚 𝒚, 𝒚 のグラム行列 𝒚, 𝒚 𝒚, 𝒚 ⋯ ⋯ ⋯ ⋯
6.
/12 条件付きMMD (CMMD: Conditional
MMD) 条件付き分布の統計量の不一致を計算 [Ren et al., 2016.] Conditional moment-matching network [Ren et al., 2016.] – CMMDを最小化するように、 𝒙 &ノイズを入力とするDNNを学習 6 𝒙, 𝒙 のグラム行列の逆行列を含む行列 𝑁 𝟎, 𝑰 𝒚 𝒙 ⋯ ⋯ ⋯ ⋯ 𝒚 CMMD = Tr 𝑳 𝒙 ⋅ 𝑲 𝒚,𝒚 + Tr 𝑳 𝒙 ⋅ 𝑲 𝒚,𝒚 − 2Tr 𝑳 𝒙 ⋅ 𝑲 𝒚,𝒚 𝒙
7.
/12 前回までの報告と今回の報告 前回までの報告:音質評価 – 1.
通常のDNN音声合成より,一期一会音声合成は高品質 – 2. スペクトルのランダム生成は,最尤生成と同程度の音質 今回の報告 – そのランダム性 (発話間変動) を定量評価 – 繰り返し音声を新たに収録 7
8.
実験的評価 8
9.
/12 実験条件 9 項目 値・設定 学習データ 女性1名,日本語4000文 評価データ
ATR音素バランスJセット53文 (後述) 入力特徴量 442次元コンテキスト 出力特徴量 40次元メルケプストラム,連続対数F0,有声/無声 ラベル,5帯域非周期性指標 入力ノイズ 5次元/フレーム.正規分布からランダム生成 ネットワーク構造 Feed-Forward グラム行列の カーネル ガウスカーネル (予備実験で線形カーネル・多項式 カーネルも使用したが,大きな変化はなし)
10.
/12 発話間変動の評価法 評価用データセットの作成 – 自然音声:評価データ
(Jセット53文) を5回ずつ繰り返し収録 – 合成音声:各文に対して100回ランダム生成 評価対象手法 – 動的特徴量を考慮したパラメータ生成 [Tokuda et al., 2000.] あり/なし • なしの場合は,静的特徴量を直接推定 – スペクトル,連続対数F0,有声/無声ラベル,音素継続長生成 評価法 – 自然音声同士,合成音声同士で発話間変動を計算 • スペクトル:メルケプストラム歪み • 連続対数F0・継続長:二乗誤差 • 有声/無声ラベル:誤りフレーム数 10
11.
/12 評価結果 11 パラメータ パラメータ生成 発話間変動 自然音声の発話 間変動との比 スペクトル あり
0.095 1.6 [%] なし 0.202 3.4 [%] 連続対数F0 あり 0.60e-5 0.014 [%] なし 1.85e-5 0.042 [%] 有声/無声 - 4.02e-3 2.7 [%] 音素継続長 - 0.557 17.3 [%] ・生成した音素継続長は,自然音声と比較して17%程度の発話間変動 - 他のパラメータは数%程度 ・パラメータ生成を入れない方が,発話間変動は改善
12.
/12 まとめ 一期一会音声合成 – 合成するごとに異なる音声パラメータを生成 –
→ 発話間変動を有する合成音声 実験的評価・結果 – 合成音声パラメータの発話間変動を定量的に評価 – → 自然音声と比較して,音素継続長は17%程度の変動 – → それ以外の特徴量は数%程度 今後の予定 – 発話間変動の主観評価 – 発話間変動の改善 12