SlideShare a Scribd company logo
05/13/2018©Shinnosuke Takamichi,
The University of Tokyo
日本語韻律構造を考慮した
prosody-aware subword embeddingと
DNN多方言音声合成への適用
高道 慎之介,秋山 貴則,猿渡 洋 (東京大学)
SLP研究会 (2018/05/13)
/25
研究背景
 統計的音声合成 (e.g., DNN音声合成)
– 機械学習により,音声合成の(半)自動構築
– 主要言語において高品質な音声読み上げを可能に [Oord et al., 2017]
• 言語知識に基づくコンテキスト,超大規模音声コーパスを利用
– 次世代音声合成に向けた研究へ
• 音声なりすまし [Saito et al., 2018],発話間変動 [Takamichi et al., 2017]
 方言音声合成
– 方言の地域性による語彙・発音・韻律の変化
– 地域性を考慮した,合成音声のキャラクタ性の付与
– 話者性と地域性を分離した多方言音声合成
2
*DNN: Deep Neural Network
/25
多方言音声合成
3
Dialect
text
Multi-dialect
speech
synthesis
Dialect speech
言語知識の乏しい方言においてコンテキストをどう設計するか?
→本稿では韻律コンテキストの教師なし自動抽出法を提案
Miyazaki-ben
/25
発表概要
 従来法:prosody-aware word embedding [Ijima et al., 2017]
– 音声コーパスから韻律コンテキストを自動抽出
– 未知語に対して頑健でない & 使用する韻律情報に過不足あり
 提案法1:日本語韻律構造を考慮した subword embedding
– アクセント句境界を考慮した subword 分割
– Subword 内モーラ数を考慮した変調フィルタリング
 提案法2:DNN多方言音声合成への適用
– 方言混合 subword 分割 & 多方言 subword embedding
 実験結果
– 日本共通語及び複数方言において,合成音声の韻律の自然性を改善
4
/25
目次
 研究背景・発表概要
 DNN音声合成と prosody-aware word embedding
 提案法1:日本語韻律構造を考慮した subword embedding
 提案法2:DNN多方言音声合成への適用
 実験的評価 (日本共通語 & 多方言音声合成)
 まとめと今後の予定
5
/25
DNN音声合成
6
[Zen et al., 2013.]
コンテキスト 音声特徴量
t=1
t=2
t=T
音韻
コンテキスト
韻律
コンテキスト
継続長
コンテキスト
などなど
スペクトル
連続F0
有声/無声
Text
…
…
…
韻律コンテキストを教師なしに抽出したい!
(主要言語の場合は言語知識や辞書を利用可能)
DNN
/25
Prosody-aware word embedding
7
[Ijima et al., 2017.]
テキスト あ ら ゆ る 現 実 …
単語列 あらゆる 現実
Bi-directional LSTM
Bi-directional LSTM
Embedding Embedding
連続F0系列
“あらゆる”の韻律 “現実”の韻律ターゲット
Embedding
モデル
単語分割
韻律情報抽出
韻律コンテキスト
離散表現を
連続表現に
*LSTM: Long Short-Term memory
/25
韻律情報抽出
8
[Ijima et al., 2017.]
単語列 <s>
連続F0系列
単語ーF0
アライメント
部屋 を 出る とき に
固定長になるよう
リサンプリング
リサンプリング後の
連続F0系列
DCT低次成分で
包絡抽出
DCT成分
*DCT: Discrete Cosine Transform
Time
Freq.“部屋”の韻律情報
/25
従来法の問題点
9
あ ら ゆ る 現 実 …
あらゆる 現実
Bi-directional LSTM
Bi-directional LSTM
Embedding Embedding
“あらゆる”の韻律 “現実”の韻律
1. 未知単語に対して頑健でない
-適切なコンテキストを生成できない
-語彙数爆発で学習が困難に
2. 韻律情報に過不足がある
-単語のシラブル数に関係せず固定
次元の韻律情報を抽出
/25
目次
 研究背景・発表概要
 DNN音声合成と prosody-aware word embedding
 提案法1:日本語韻律構造を考慮した subword embedding
 提案法2:DNN多方言音声合成への適用
 実験的評価 (日本共通語 & 多方言音声合成)
 まとめと今後の予定
10
/25
日本語韻律構造を考慮した
prosody-aware subword embedding
11
テキスト 出 る と き に…
subword列 出ると きに
Bi-directional LSTM
Bi-directional LSTM
Embedding Embedding
連続F0系列
“出ると”の韻律 “きに”の韻律ターゲット
Embedding
モデル
アクセント句境界を
考慮した
subword 分割
Subword内モーラを
考慮した
変調フィルタリング
韻律コンテキスト
/25
日本語アクセント句境界を考慮した
subword 分割
 Subword 分割 [Senrich et al., 2016][Kudo, 2017]
– 言語モデル尤度 (or BPE) に基づいて低頻出語を部分文字列に分割
• 東京オリンピック → 東京/オリ/ン/ピッ/ク
• 本発表では,生文に対する教師なし分割法を利用
– 未知語も既知 subword に分割されるため,コンテキスト抽出可能
 日本語アクセント句境界を考慮した subword 分割
– 言語モデルのみでは,アクセント句をまたぐsubword列を生成し,
embedding 性能を低下させる
– 学習時に,アクセント句をまたぐ文字列を言語モデル計算から除外
• アクセント句をまたぐ文字列を積極的に分割
12
*BPE: Byte Pair Encoding
生文 (‘.’がアクセント句境界) 本当な.のかも.しれない
Subword (言語モデルのみ) 本当/なの/かもしれない
Subword (アクセント句を考慮) 本当/な/の/かも/しれない
/25
Subword 内モーラ数を考慮した
変調フィルタリング
 Subword embedding に必要な韻律情報とは
– 日本語はモーラ等時性言語,モーラ毎に変化する高低アクセント
• すなわち,subword 内モーラ数 𝑁 で決まる高低以外は不要
 Subword 内モーラ数を考慮した変調フィルタリング
– 変調スペクトル [Takamichi et al., 2016] に対するフィルタ処理
– 𝑁/2 次以上の変調周波数成分をカット
13
DFT
IDFT
連続F0
韻律情報
へ や
変調スペクトル
へ や
高次成分を
カット
*DFT: Discrete Fourier Transform
/25
目次
 研究背景・発表概要
 DNN音声合成と prosody-aware word embedding
 提案法1:日本語韻律構造を考慮した subword embedding
 提案法2:DNN多方言音声合成への適用
 実験的評価 (日本共通語 & 多方言音声合成)
 まとめと今後の予定
14
/25
DNN多方言音声合成のための
韻律コンテキスト抽出
15
方言
テキスト 多方言
音声合成
方言音声
韻律
音声
特徴量
コンテ
キスト
方言情報
Prosody-aware
subword
embedding
方言音声コーパス・方言情報を活用した
方言混合 subword 分割と多方言 subword embedding を提案
/25
方言混合 subword 分割
 日本共通語 (or 単方言)コーパスで学習した subword 分割
– 日本共通語で学習:方言の頻出フレーズを分割してしまう
– 単方言で学習:方言コーパス収集が大変
 方言混合 subword 分割
– 日本共通語・多方言コーパスで学習
– 言語間のコーパス量の違いによる重みづけは無し
16
Subword その subword を含む方言
どす 京言葉
ずら 遠州弁
だば 津軽弁・秋田弁
やけん 土佐弁・阿波弁・伊予弁など
日本共通語 subword 分割では表れない subword の例
/25
多方言 subword embedding
17
subword列 出ると きに
Bi-directional LSTM
Bi-directional LSTM
Embedding Embedding
“出ると”の韻律 “きに”の韻律ターゲット
方言情報ベクトル
 Embedding model を方言情報で条件付け
– One-hot ベクトル (離散表現):各方言がベクトルの各要素に対応
– 地理情報 (連続表現):各方言の中心地域の地理緯度・経度
• “Geographic embedding model”
/25
目次
 研究背景・発表概要
 DNN音声合成と prosody-aware word embedding
 提案法1:日本語韻律構造を考慮した subword embedding
 提案法2:DNN多方言音声合成への適用
 実験的評価 (日本共通語 & 多方言音声合成)
 まとめと今後の予定
18
/25
実験条件
(日本共通語音声合成)
19
Embeddingの学習データ JNAS 15,676文, JSUT [Sonobe et al., 2017]
5,390文
音響モデルの学習データ JSUT 5,390文
テストデータ JSUT 600文
Subword 語彙数 4,000
リサンプリング系列長 64
Subword-F0アライメント Fast_align [Dyer et al., 2013] & Julius
韻律コンテキスト次元数 64
音響モデル Feed-Forward, 394 – 512×3 – 94
コンテキスト 音素,音素内継続長,subword 内継続長,
前後及び当該 subword の韻律コンテキスト
音声合成の音声特徴量 連続F0,有声/無声,40次元のメルケプスト
ラム,5帯域の平均非周期成分
/25
合成音声のF0推定精度
(日本共通語音声合成)
 比較手法
– Conventional [Ijima et al., 2017]:1次~10次のDCT係数
– Proposed:変調フィルタリングのみ
– Proposed (acc):変調フィルタリング+アクセント句の考慮
20
変調フィルタリング
Conventional
Proposed
Proposed (acc)
Root mean squared error between predicted/target F0
0.71 0.72 0.73 0.74 0.75 0.76
アクセント句の考慮
/25
合成音声の自然性に関する主観評価
(日本共通語音声合成)
21
 評価法
– 音声品質に関するプリファレンスABテスト (評価人数:50人)
– クラウドソーシング評価システム上で実施
Conventional
Proposed
Proposed (acc)
Proposed
*エラーバーは95%信頼区間
アクセント句の考慮による音質改善を確認
Preference score on speech quality
0.0 0.2 0.4 0.6 0.8 1.0
/25
実験条件
(多方言音声合成)
22
Embeddingの学習データ JNAS・JSUT 21,066文, CPJD (20方言) 5,344文
音響モデルの学習データ JSUT 5,390文
テストデータ 各方言で CPJD 20文
伊予・阿波・土佐
いわき,埼玉
出雲・広島・岡山
福岡・宮崎・諸県
金沢・福井・大阪・
奈良・京都・京言葉
北海道・津軽・秋田
CPJDコーパス [Takamichi et al., 2018] に含まれる方言及びその地域
/25
合成音声の自然性に関する主観評価
(多方言音声合成)
 評価法
– 音声品質に関するプリファレンスABテスト (評価人数:1人/方言)
– 当該地域に3年以上住んでいた人を縁故法で募集 (方言数:12方言)
23
Method A
#dialects
(A is better)
#dialects
(B is better)
Method B
共通語モデル 8 4
方言モデル
(one-hot)
共通語モデル 7 5
方言モデル
(geographic)
方言モデル
(one-hot)
5 6
方言モデル
(geographic)
*共通語モデルは,JNAS/JUSTコーパスで学習した
/25
目次
 研究背景・発表概要
 DNN音声合成と prosody-aware word embedding
 提案法1:日本語韻律構造を考慮した subword embedding
 提案法2:DNN多方言音声合成への適用
 実験的評価 (日本共通語 & 多方言音声合成)
 まとめと今後の予定
24
/25
まとめと今後の予定
 背景
– 多方言音声合成に向けた教師なし韻律コンテキスト抽出
 提案法
– 日本語韻律構造を考慮した prosody-aware subword embedding
– DNN多方言音声合成への拡張
 評価結果
– 日本共通語といくつかの方言で,合成音声の韻律の自然性を改善
 今後の予定
– End-to-End方式や音響モデル再学習
– 新たな方言へのモデル適応
25

More Related Content

What's hot

saito2017asj_vc
saito2017asj_vcsaito2017asj_vc
saito2017asj_vc
Yuki Saito
 
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズムDNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム
Shinnosuke Takamichi
 
音声認識の基礎
音声認識の基礎音声認識の基礎
音声認識の基礎
Akinori Ito
 
miyoshi2017asj
miyoshi2017asjmiyoshi2017asj
miyoshi2017asj
Yuki Saito
 
Nakai22sp03 presentation
Nakai22sp03 presentationNakai22sp03 presentation
Nakai22sp03 presentation
Yuki Saito
 
短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討
Shinnosuke Takamichi
 
Saito17asjA
Saito17asjASaito17asjA
Saito17asjA
Yuki Saito
 
Saito21asj Autumn Meeting
Saito21asj Autumn MeetingSaito21asj Autumn Meeting
Saito21asj Autumn Meeting
Yuki Saito
 
音声の声質を変換する技術とその応用
音声の声質を変換する技術とその応用音声の声質を変換する技術とその応用
音声の声質を変換する技術とその応用
NU_I_TODALAB
 
論文紹介: Direct-Path Signal Cross-Correlation Estimation for Sound Source Locali...
論文紹介: Direct-Path Signal Cross-Correlation Estimation for Sound Source Locali...論文紹介: Direct-Path Signal Cross-Correlation Estimation for Sound Source Locali...
論文紹介: Direct-Path Signal Cross-Correlation Estimation for Sound Source Locali...
KoueiYamaoka
 
Saito19asjAutumn_DeNA
Saito19asjAutumn_DeNASaito19asjAutumn_DeNA
Saito19asjAutumn_DeNA
Yuki Saito
 
ICASSP2019 音声&音響論文読み会 著者紹介2 (信号処理系2)
ICASSP2019 音声&音響論文読み会 著者紹介2 (信号処理系2)ICASSP2019 音声&音響論文読み会 著者紹介2 (信号処理系2)
ICASSP2019 音声&音響論文読み会 著者紹介2 (信号処理系2)
KoueiYamaoka
 
ICASSP2019音声&音響論文読み会 論文紹介(認識系)
ICASSP2019音声&音響論文読み会 論文紹介(認識系)ICASSP2019音声&音響論文読み会 論文紹介(認識系)
ICASSP2019音声&音響論文読み会 論文紹介(認識系)
貴史 益子
 
Saito20asj_autumn
Saito20asj_autumnSaito20asj_autumn
Saito20asj_autumn
Yuki Saito
 
Saito19asj_s
Saito19asj_sSaito19asj_s
Saito19asj_s
Yuki Saito
 
音声の認識と合成
音声の認識と合成音声の認識と合成
音声の認識と合成
Akinori Ito
 
Saito18sp03
Saito18sp03Saito18sp03
Saito18sp03
Yuki Saito
 
雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習
雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習
雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習
Shinnosuke Takamichi
 
Phonetic Posteriorgrams for Many-to-One Voice Conversion without Parallel Dat...
Phonetic Posteriorgrams for Many-to-One Voice Conversion without Parallel Dat...Phonetic Posteriorgrams for Many-to-One Voice Conversion without Parallel Dat...
Phonetic Posteriorgrams for Many-to-One Voice Conversion without Parallel Dat...
KCS Keio Computer Society
 
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
Shinnosuke Takamichi
 

What's hot (20)

saito2017asj_vc
saito2017asj_vcsaito2017asj_vc
saito2017asj_vc
 
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズムDNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム
 
音声認識の基礎
音声認識の基礎音声認識の基礎
音声認識の基礎
 
miyoshi2017asj
miyoshi2017asjmiyoshi2017asj
miyoshi2017asj
 
Nakai22sp03 presentation
Nakai22sp03 presentationNakai22sp03 presentation
Nakai22sp03 presentation
 
短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討
 
Saito17asjA
Saito17asjASaito17asjA
Saito17asjA
 
Saito21asj Autumn Meeting
Saito21asj Autumn MeetingSaito21asj Autumn Meeting
Saito21asj Autumn Meeting
 
音声の声質を変換する技術とその応用
音声の声質を変換する技術とその応用音声の声質を変換する技術とその応用
音声の声質を変換する技術とその応用
 
論文紹介: Direct-Path Signal Cross-Correlation Estimation for Sound Source Locali...
論文紹介: Direct-Path Signal Cross-Correlation Estimation for Sound Source Locali...論文紹介: Direct-Path Signal Cross-Correlation Estimation for Sound Source Locali...
論文紹介: Direct-Path Signal Cross-Correlation Estimation for Sound Source Locali...
 
Saito19asjAutumn_DeNA
Saito19asjAutumn_DeNASaito19asjAutumn_DeNA
Saito19asjAutumn_DeNA
 
ICASSP2019 音声&音響論文読み会 著者紹介2 (信号処理系2)
ICASSP2019 音声&音響論文読み会 著者紹介2 (信号処理系2)ICASSP2019 音声&音響論文読み会 著者紹介2 (信号処理系2)
ICASSP2019 音声&音響論文読み会 著者紹介2 (信号処理系2)
 
ICASSP2019音声&音響論文読み会 論文紹介(認識系)
ICASSP2019音声&音響論文読み会 論文紹介(認識系)ICASSP2019音声&音響論文読み会 論文紹介(認識系)
ICASSP2019音声&音響論文読み会 論文紹介(認識系)
 
Saito20asj_autumn
Saito20asj_autumnSaito20asj_autumn
Saito20asj_autumn
 
Saito19asj_s
Saito19asj_sSaito19asj_s
Saito19asj_s
 
音声の認識と合成
音声の認識と合成音声の認識と合成
音声の認識と合成
 
Saito18sp03
Saito18sp03Saito18sp03
Saito18sp03
 
雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習
雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習
雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習
 
Phonetic Posteriorgrams for Many-to-One Voice Conversion without Parallel Dat...
Phonetic Posteriorgrams for Many-to-One Voice Conversion without Parallel Dat...Phonetic Posteriorgrams for Many-to-One Voice Conversion without Parallel Dat...
Phonetic Posteriorgrams for Many-to-One Voice Conversion without Parallel Dat...
 
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
 

Similar to SLP201805: 日本語韻律構造を考慮した prosody-aware subword embedding とDNN多方言音声合成への適用

End-to-end 韻律推定に向けた subword lattice 構造を考慮した DNN 音響モデル学習
End-to-end 韻律推定に向けた subword lattice 構造を考慮した DNN 音響モデル学習End-to-end 韻律推定に向けた subword lattice 構造を考慮した DNN 音響モデル学習
End-to-end 韻律推定に向けた subword lattice 構造を考慮した DNN 音響モデル学習
Shinnosuke Takamichi
 
統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展
Shinnosuke Takamichi
 
音響モデル尤度に基づくsubword分割の韻律推定精度における評価
音響モデル尤度に基づくsubword分割の韻律推定精度における評価音響モデル尤度に基づくsubword分割の韻律推定精度における評価
音響モデル尤度に基づくsubword分割の韻律推定精度における評価
Shinnosuke Takamichi
 
日本語学習者属性別の言語行為の対話自動生成への適用に関する 一考察 太田博三
日本語学習者属性別の言語行為の対話自動生成への適用に関する 一考察 太田博三日本語学習者属性別の言語行為の対話自動生成への適用に関する 一考察 太田博三
日本語学習者属性別の言語行為の対話自動生成への適用に関する 一考察 太田博三
博三 太田
 
Generative moment matching net に基づく歌声のランダム変調ポストフィルタと double-tracking への応用
Generative moment matching net に基づく歌声のランダム変調ポストフィルタと double-tracking への応用Generative moment matching net に基づく歌声のランダム変調ポストフィルタと double-tracking への応用
Generative moment matching net に基づく歌声のランダム変調ポストフィルタと double-tracking への応用
Shinnosuke Takamichi
 
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
Shinnosuke Takamichi
 
外国人留学生日本語の音声合成における 話者性を保持した韻律補正
外国人留学生日本語の音声合成における話者性を保持した韻律補正外国人留学生日本語の音声合成における話者性を保持した韻律補正
外国人留学生日本語の音声合成における 話者性を保持した韻律補正
Shinnosuke Takamichi
 
Slp201702
Slp201702Slp201702
Slp201702
Yuki Saito
 
分布あるいはモーメント間距離最小化に基づく統計的音声合成
分布あるいはモーメント間距離最小化に基づく統計的音声合成分布あるいはモーメント間距離最小化に基づく統計的音声合成
分布あるいはモーメント間距離最小化に基づく統計的音声合成
Shinnosuke Takamichi
 
Saito18asj_s
Saito18asj_sSaito18asj_s
Saito18asj_s
Yuki Saito
 
TEACHER-STUDENT DEEP CLUSTERING FOR LOW-DELAY SINGLE CHANNEL SPEECH SEPARATION
TEACHER-STUDENT DEEP CLUSTERING FOR LOW-DELAY SINGLE CHANNEL SPEECH SEPARATIONTEACHER-STUDENT DEEP CLUSTERING FOR LOW-DELAY SINGLE CHANNEL SPEECH SEPARATION
TEACHER-STUDENT DEEP CLUSTERING FOR LOW-DELAY SINGLE CHANNEL SPEECH SEPARATION
RyoAIHARA1
 
日本語母語話者の音韻知覚単位について: モーラ数と持続時間長の関係
日本語母語話者の音韻知覚単位について: モーラ数と持続時間長の関係日本語母語話者の音韻知覚単位について: モーラ数と持続時間長の関係
日本語母語話者の音韻知覚単位について: モーラ数と持続時間長の関係
Kosuke Sugai
 
音声合成研究を加速させるためのコーパスデザイン
音声合成研究を加速させるためのコーパスデザイン音声合成研究を加速させるためのコーパスデザイン
音声合成研究を加速させるためのコーパスデザイン
Shinnosuke Takamichi
 
Interspeech2022 参加報告
Interspeech2022 参加報告Interspeech2022 参加報告
Interspeech2022 参加報告
Yuki Saito
 
日本音響学会春季発表会2017 「コンテキスト事後確率のSequence-to-Sequence学習を用いた音声変換」
日本音響学会春季発表会2017 「コンテキスト事後確率のSequence-to-Sequence学習を用いた音声変換」日本音響学会春季発表会2017 「コンテキスト事後確率のSequence-to-Sequence学習を用いた音声変換」
日本音響学会春季発表会2017 「コンテキスト事後確率のSequence-to-Sequence学習を用いた音声変換」
Hiroyuki Miyoshi
 
JVS:フリーの日本語多数話者音声コーパス
JVS:フリーの日本語多数話者音声コーパス JVS:フリーの日本語多数話者音声コーパス
JVS:フリーの日本語多数話者音声コーパス
Shinnosuke Takamichi
 

Similar to SLP201805: 日本語韻律構造を考慮した prosody-aware subword embedding とDNN多方言音声合成への適用 (16)

End-to-end 韻律推定に向けた subword lattice 構造を考慮した DNN 音響モデル学習
End-to-end 韻律推定に向けた subword lattice 構造を考慮した DNN 音響モデル学習End-to-end 韻律推定に向けた subword lattice 構造を考慮した DNN 音響モデル学習
End-to-end 韻律推定に向けた subword lattice 構造を考慮した DNN 音響モデル学習
 
統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展
 
音響モデル尤度に基づくsubword分割の韻律推定精度における評価
音響モデル尤度に基づくsubword分割の韻律推定精度における評価音響モデル尤度に基づくsubword分割の韻律推定精度における評価
音響モデル尤度に基づくsubword分割の韻律推定精度における評価
 
日本語学習者属性別の言語行為の対話自動生成への適用に関する 一考察 太田博三
日本語学習者属性別の言語行為の対話自動生成への適用に関する 一考察 太田博三日本語学習者属性別の言語行為の対話自動生成への適用に関する 一考察 太田博三
日本語学習者属性別の言語行為の対話自動生成への適用に関する 一考察 太田博三
 
Generative moment matching net に基づく歌声のランダム変調ポストフィルタと double-tracking への応用
Generative moment matching net に基づく歌声のランダム変調ポストフィルタと double-tracking への応用Generative moment matching net に基づく歌声のランダム変調ポストフィルタと double-tracking への応用
Generative moment matching net に基づく歌声のランダム変調ポストフィルタと double-tracking への応用
 
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
 
外国人留学生日本語の音声合成における 話者性を保持した韻律補正
外国人留学生日本語の音声合成における話者性を保持した韻律補正外国人留学生日本語の音声合成における話者性を保持した韻律補正
外国人留学生日本語の音声合成における 話者性を保持した韻律補正
 
Slp201702
Slp201702Slp201702
Slp201702
 
分布あるいはモーメント間距離最小化に基づく統計的音声合成
分布あるいはモーメント間距離最小化に基づく統計的音声合成分布あるいはモーメント間距離最小化に基づく統計的音声合成
分布あるいはモーメント間距離最小化に基づく統計的音声合成
 
Saito18asj_s
Saito18asj_sSaito18asj_s
Saito18asj_s
 
TEACHER-STUDENT DEEP CLUSTERING FOR LOW-DELAY SINGLE CHANNEL SPEECH SEPARATION
TEACHER-STUDENT DEEP CLUSTERING FOR LOW-DELAY SINGLE CHANNEL SPEECH SEPARATIONTEACHER-STUDENT DEEP CLUSTERING FOR LOW-DELAY SINGLE CHANNEL SPEECH SEPARATION
TEACHER-STUDENT DEEP CLUSTERING FOR LOW-DELAY SINGLE CHANNEL SPEECH SEPARATION
 
日本語母語話者の音韻知覚単位について: モーラ数と持続時間長の関係
日本語母語話者の音韻知覚単位について: モーラ数と持続時間長の関係日本語母語話者の音韻知覚単位について: モーラ数と持続時間長の関係
日本語母語話者の音韻知覚単位について: モーラ数と持続時間長の関係
 
音声合成研究を加速させるためのコーパスデザイン
音声合成研究を加速させるためのコーパスデザイン音声合成研究を加速させるためのコーパスデザイン
音声合成研究を加速させるためのコーパスデザイン
 
Interspeech2022 参加報告
Interspeech2022 参加報告Interspeech2022 参加報告
Interspeech2022 参加報告
 
日本音響学会春季発表会2017 「コンテキスト事後確率のSequence-to-Sequence学習を用いた音声変換」
日本音響学会春季発表会2017 「コンテキスト事後確率のSequence-to-Sequence学習を用いた音声変換」日本音響学会春季発表会2017 「コンテキスト事後確率のSequence-to-Sequence学習を用いた音声変換」
日本音響学会春季発表会2017 「コンテキスト事後確率のSequence-to-Sequence学習を用いた音声変換」
 
JVS:フリーの日本語多数話者音声コーパス
JVS:フリーの日本語多数話者音声コーパス JVS:フリーの日本語多数話者音声コーパス
JVS:フリーの日本語多数話者音声コーパス
 

More from Shinnosuke Takamichi

JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech:  音声認識と話者照合のために YouTube から構築される日本語音声コーパスJTubeSpeech:  音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
Shinnosuke Takamichi
 
音声合成のコーパスをつくろう
音声合成のコーパスをつくろう音声合成のコーパスをつくろう
音声合成のコーパスをつくろう
Shinnosuke Takamichi
 
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパスJ-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
Shinnosuke Takamichi
 
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
Shinnosuke Takamichi
 
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
Shinnosuke Takamichi
 
国際会議 interspeech 2020 報告
国際会議 interspeech 2020 報告国際会議 interspeech 2020 報告
国際会議 interspeech 2020 報告
Shinnosuke Takamichi
 
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
Interspeech 2020 読み会 "Incremental Text to Speech for Neural  Sequence-to-Sequ...Interspeech 2020 読み会 "Incremental Text to Speech for Neural  Sequence-to-Sequ...
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
Shinnosuke Takamichi
 
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
Shinnosuke Takamichi
 
P J S: 音素バランスを考慮した日本語歌声コーパス
P J S: 音素バランスを考慮した日本語歌声コーパスP J S: 音素バランスを考慮した日本語歌声コーパス
P J S: 音素バランスを考慮した日本語歌声コーパス
Shinnosuke Takamichi
 
論文紹介 Unsupervised training of neural mask-based beamforming
論文紹介 Unsupervised training of neural  mask-based beamforming論文紹介 Unsupervised training of neural  mask-based beamforming
論文紹介 Unsupervised training of neural mask-based beamforming
Shinnosuke Takamichi
 
論文紹介 Building the Singapore English National Speech Corpus
論文紹介 Building the Singapore English National Speech Corpus論文紹介 Building the Singapore English National Speech Corpus
論文紹介 Building the Singapore English National Speech Corpus
Shinnosuke Takamichi
 
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
Shinnosuke Takamichi
 
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
Shinnosuke Takamichi
 
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
Shinnosuke Takamichi
 
音声合成・変換の国際コンペティションへの 参加を振り返って
音声合成・変換の国際コンペティションへの  参加を振り返って音声合成・変換の国際コンペティションへの  参加を振り返って
音声合成・変換の国際コンペティションへの 参加を振り返って
Shinnosuke Takamichi
 
ユーザ歌唱のための generative moment matching network に基づく neural double-tracking
ユーザ歌唱のための generative moment matching network に基づく neural double-trackingユーザ歌唱のための generative moment matching network に基づく neural double-tracking
ユーザ歌唱のための generative moment matching network に基づく neural double-tracking
Shinnosuke Takamichi
 
統計的ボイチェン研究事情
統計的ボイチェン研究事情統計的ボイチェン研究事情
統計的ボイチェン研究事情
Shinnosuke Takamichi
 
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)
Shinnosuke Takamichi
 
音声コーパス設計と次世代音声研究に向けた提言
音声コーパス設計と次世代音声研究に向けた提言音声コーパス設計と次世代音声研究に向けた提言
音声コーパス設計と次世代音声研究に向けた提言
Shinnosuke Takamichi
 
多様なカートシスを持つ雑音に対応した低ミュージカルノイズ DNN 音声強調
多様なカートシスを持つ雑音に対応した低ミュージカルノイズ DNN 音声強調多様なカートシスを持つ雑音に対応した低ミュージカルノイズ DNN 音声強調
多様なカートシスを持つ雑音に対応した低ミュージカルノイズ DNN 音声強調
Shinnosuke Takamichi
 

More from Shinnosuke Takamichi (20)

JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech:  音声認識と話者照合のために YouTube から構築される日本語音声コーパスJTubeSpeech:  音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
 
音声合成のコーパスをつくろう
音声合成のコーパスをつくろう音声合成のコーパスをつくろう
音声合成のコーパスをつくろう
 
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパスJ-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
 
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
 
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
 
国際会議 interspeech 2020 報告
国際会議 interspeech 2020 報告国際会議 interspeech 2020 報告
国際会議 interspeech 2020 報告
 
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
Interspeech 2020 読み会 "Incremental Text to Speech for Neural  Sequence-to-Sequ...Interspeech 2020 読み会 "Incremental Text to Speech for Neural  Sequence-to-Sequ...
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
 
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
 
P J S: 音素バランスを考慮した日本語歌声コーパス
P J S: 音素バランスを考慮した日本語歌声コーパスP J S: 音素バランスを考慮した日本語歌声コーパス
P J S: 音素バランスを考慮した日本語歌声コーパス
 
論文紹介 Unsupervised training of neural mask-based beamforming
論文紹介 Unsupervised training of neural  mask-based beamforming論文紹介 Unsupervised training of neural  mask-based beamforming
論文紹介 Unsupervised training of neural mask-based beamforming
 
論文紹介 Building the Singapore English National Speech Corpus
論文紹介 Building the Singapore English National Speech Corpus論文紹介 Building the Singapore English National Speech Corpus
論文紹介 Building the Singapore English National Speech Corpus
 
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
 
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
 
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
 
音声合成・変換の国際コンペティションへの 参加を振り返って
音声合成・変換の国際コンペティションへの  参加を振り返って音声合成・変換の国際コンペティションへの  参加を振り返って
音声合成・変換の国際コンペティションへの 参加を振り返って
 
ユーザ歌唱のための generative moment matching network に基づく neural double-tracking
ユーザ歌唱のための generative moment matching network に基づく neural double-trackingユーザ歌唱のための generative moment matching network に基づく neural double-tracking
ユーザ歌唱のための generative moment matching network に基づく neural double-tracking
 
統計的ボイチェン研究事情
統計的ボイチェン研究事情統計的ボイチェン研究事情
統計的ボイチェン研究事情
 
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)
 
音声コーパス設計と次世代音声研究に向けた提言
音声コーパス設計と次世代音声研究に向けた提言音声コーパス設計と次世代音声研究に向けた提言
音声コーパス設計と次世代音声研究に向けた提言
 
多様なカートシスを持つ雑音に対応した低ミュージカルノイズ DNN 音声強調
多様なカートシスを持つ雑音に対応した低ミュージカルノイズ DNN 音声強調多様なカートシスを持つ雑音に対応した低ミュージカルノイズ DNN 音声強調
多様なカートシスを持つ雑音に対応した低ミュージカルノイズ DNN 音声強調
 

SLP201805: 日本語韻律構造を考慮した prosody-aware subword embedding とDNN多方言音声合成への適用

  • 1. 05/13/2018©Shinnosuke Takamichi, The University of Tokyo 日本語韻律構造を考慮した prosody-aware subword embeddingと DNN多方言音声合成への適用 高道 慎之介,秋山 貴則,猿渡 洋 (東京大学) SLP研究会 (2018/05/13)
  • 2. /25 研究背景  統計的音声合成 (e.g., DNN音声合成) – 機械学習により,音声合成の(半)自動構築 – 主要言語において高品質な音声読み上げを可能に [Oord et al., 2017] • 言語知識に基づくコンテキスト,超大規模音声コーパスを利用 – 次世代音声合成に向けた研究へ • 音声なりすまし [Saito et al., 2018],発話間変動 [Takamichi et al., 2017]  方言音声合成 – 方言の地域性による語彙・発音・韻律の変化 – 地域性を考慮した,合成音声のキャラクタ性の付与 – 話者性と地域性を分離した多方言音声合成 2 *DNN: Deep Neural Network
  • 4. /25 発表概要  従来法:prosody-aware word embedding [Ijima et al., 2017] – 音声コーパスから韻律コンテキストを自動抽出 – 未知語に対して頑健でない & 使用する韻律情報に過不足あり  提案法1:日本語韻律構造を考慮した subword embedding – アクセント句境界を考慮した subword 分割 – Subword 内モーラ数を考慮した変調フィルタリング  提案法2:DNN多方言音声合成への適用 – 方言混合 subword 分割 & 多方言 subword embedding  実験結果 – 日本共通語及び複数方言において,合成音声の韻律の自然性を改善 4
  • 5. /25 目次  研究背景・発表概要  DNN音声合成と prosody-aware word embedding  提案法1:日本語韻律構造を考慮した subword embedding  提案法2:DNN多方言音声合成への適用  実験的評価 (日本共通語 & 多方言音声合成)  まとめと今後の予定 5
  • 6. /25 DNN音声合成 6 [Zen et al., 2013.] コンテキスト 音声特徴量 t=1 t=2 t=T 音韻 コンテキスト 韻律 コンテキスト 継続長 コンテキスト などなど スペクトル 連続F0 有声/無声 Text … … … 韻律コンテキストを教師なしに抽出したい! (主要言語の場合は言語知識や辞書を利用可能) DNN
  • 7. /25 Prosody-aware word embedding 7 [Ijima et al., 2017.] テキスト あ ら ゆ る 現 実 … 単語列 あらゆる 現実 Bi-directional LSTM Bi-directional LSTM Embedding Embedding 連続F0系列 “あらゆる”の韻律 “現実”の韻律ターゲット Embedding モデル 単語分割 韻律情報抽出 韻律コンテキスト 離散表現を 連続表現に *LSTM: Long Short-Term memory
  • 8. /25 韻律情報抽出 8 [Ijima et al., 2017.] 単語列 <s> 連続F0系列 単語ーF0 アライメント 部屋 を 出る とき に 固定長になるよう リサンプリング リサンプリング後の 連続F0系列 DCT低次成分で 包絡抽出 DCT成分 *DCT: Discrete Cosine Transform Time Freq.“部屋”の韻律情報
  • 9. /25 従来法の問題点 9 あ ら ゆ る 現 実 … あらゆる 現実 Bi-directional LSTM Bi-directional LSTM Embedding Embedding “あらゆる”の韻律 “現実”の韻律 1. 未知単語に対して頑健でない -適切なコンテキストを生成できない -語彙数爆発で学習が困難に 2. 韻律情報に過不足がある -単語のシラブル数に関係せず固定 次元の韻律情報を抽出
  • 10. /25 目次  研究背景・発表概要  DNN音声合成と prosody-aware word embedding  提案法1:日本語韻律構造を考慮した subword embedding  提案法2:DNN多方言音声合成への適用  実験的評価 (日本共通語 & 多方言音声合成)  まとめと今後の予定 10
  • 11. /25 日本語韻律構造を考慮した prosody-aware subword embedding 11 テキスト 出 る と き に… subword列 出ると きに Bi-directional LSTM Bi-directional LSTM Embedding Embedding 連続F0系列 “出ると”の韻律 “きに”の韻律ターゲット Embedding モデル アクセント句境界を 考慮した subword 分割 Subword内モーラを 考慮した 変調フィルタリング 韻律コンテキスト
  • 12. /25 日本語アクセント句境界を考慮した subword 分割  Subword 分割 [Senrich et al., 2016][Kudo, 2017] – 言語モデル尤度 (or BPE) に基づいて低頻出語を部分文字列に分割 • 東京オリンピック → 東京/オリ/ン/ピッ/ク • 本発表では,生文に対する教師なし分割法を利用 – 未知語も既知 subword に分割されるため,コンテキスト抽出可能  日本語アクセント句境界を考慮した subword 分割 – 言語モデルのみでは,アクセント句をまたぐsubword列を生成し, embedding 性能を低下させる – 学習時に,アクセント句をまたぐ文字列を言語モデル計算から除外 • アクセント句をまたぐ文字列を積極的に分割 12 *BPE: Byte Pair Encoding 生文 (‘.’がアクセント句境界) 本当な.のかも.しれない Subword (言語モデルのみ) 本当/なの/かもしれない Subword (アクセント句を考慮) 本当/な/の/かも/しれない
  • 13. /25 Subword 内モーラ数を考慮した 変調フィルタリング  Subword embedding に必要な韻律情報とは – 日本語はモーラ等時性言語,モーラ毎に変化する高低アクセント • すなわち,subword 内モーラ数 𝑁 で決まる高低以外は不要  Subword 内モーラ数を考慮した変調フィルタリング – 変調スペクトル [Takamichi et al., 2016] に対するフィルタ処理 – 𝑁/2 次以上の変調周波数成分をカット 13 DFT IDFT 連続F0 韻律情報 へ や 変調スペクトル へ や 高次成分を カット *DFT: Discrete Fourier Transform
  • 14. /25 目次  研究背景・発表概要  DNN音声合成と prosody-aware word embedding  提案法1:日本語韻律構造を考慮した subword embedding  提案法2:DNN多方言音声合成への適用  実験的評価 (日本共通語 & 多方言音声合成)  まとめと今後の予定 14
  • 16. /25 方言混合 subword 分割  日本共通語 (or 単方言)コーパスで学習した subword 分割 – 日本共通語で学習:方言の頻出フレーズを分割してしまう – 単方言で学習:方言コーパス収集が大変  方言混合 subword 分割 – 日本共通語・多方言コーパスで学習 – 言語間のコーパス量の違いによる重みづけは無し 16 Subword その subword を含む方言 どす 京言葉 ずら 遠州弁 だば 津軽弁・秋田弁 やけん 土佐弁・阿波弁・伊予弁など 日本共通語 subword 分割では表れない subword の例
  • 17. /25 多方言 subword embedding 17 subword列 出ると きに Bi-directional LSTM Bi-directional LSTM Embedding Embedding “出ると”の韻律 “きに”の韻律ターゲット 方言情報ベクトル  Embedding model を方言情報で条件付け – One-hot ベクトル (離散表現):各方言がベクトルの各要素に対応 – 地理情報 (連続表現):各方言の中心地域の地理緯度・経度 • “Geographic embedding model”
  • 18. /25 目次  研究背景・発表概要  DNN音声合成と prosody-aware word embedding  提案法1:日本語韻律構造を考慮した subword embedding  提案法2:DNN多方言音声合成への適用  実験的評価 (日本共通語 & 多方言音声合成)  まとめと今後の予定 18
  • 19. /25 実験条件 (日本共通語音声合成) 19 Embeddingの学習データ JNAS 15,676文, JSUT [Sonobe et al., 2017] 5,390文 音響モデルの学習データ JSUT 5,390文 テストデータ JSUT 600文 Subword 語彙数 4,000 リサンプリング系列長 64 Subword-F0アライメント Fast_align [Dyer et al., 2013] & Julius 韻律コンテキスト次元数 64 音響モデル Feed-Forward, 394 – 512×3 – 94 コンテキスト 音素,音素内継続長,subword 内継続長, 前後及び当該 subword の韻律コンテキスト 音声合成の音声特徴量 連続F0,有声/無声,40次元のメルケプスト ラム,5帯域の平均非周期成分
  • 20. /25 合成音声のF0推定精度 (日本共通語音声合成)  比較手法 – Conventional [Ijima et al., 2017]:1次~10次のDCT係数 – Proposed:変調フィルタリングのみ – Proposed (acc):変調フィルタリング+アクセント句の考慮 20 変調フィルタリング Conventional Proposed Proposed (acc) Root mean squared error between predicted/target F0 0.71 0.72 0.73 0.74 0.75 0.76 アクセント句の考慮
  • 21. /25 合成音声の自然性に関する主観評価 (日本共通語音声合成) 21  評価法 – 音声品質に関するプリファレンスABテスト (評価人数:50人) – クラウドソーシング評価システム上で実施 Conventional Proposed Proposed (acc) Proposed *エラーバーは95%信頼区間 アクセント句の考慮による音質改善を確認 Preference score on speech quality 0.0 0.2 0.4 0.6 0.8 1.0
  • 22. /25 実験条件 (多方言音声合成) 22 Embeddingの学習データ JNAS・JSUT 21,066文, CPJD (20方言) 5,344文 音響モデルの学習データ JSUT 5,390文 テストデータ 各方言で CPJD 20文 伊予・阿波・土佐 いわき,埼玉 出雲・広島・岡山 福岡・宮崎・諸県 金沢・福井・大阪・ 奈良・京都・京言葉 北海道・津軽・秋田 CPJDコーパス [Takamichi et al., 2018] に含まれる方言及びその地域
  • 23. /25 合成音声の自然性に関する主観評価 (多方言音声合成)  評価法 – 音声品質に関するプリファレンスABテスト (評価人数:1人/方言) – 当該地域に3年以上住んでいた人を縁故法で募集 (方言数:12方言) 23 Method A #dialects (A is better) #dialects (B is better) Method B 共通語モデル 8 4 方言モデル (one-hot) 共通語モデル 7 5 方言モデル (geographic) 方言モデル (one-hot) 5 6 方言モデル (geographic) *共通語モデルは,JNAS/JUSTコーパスで学習した
  • 24. /25 目次  研究背景・発表概要  DNN音声合成と prosody-aware word embedding  提案法1:日本語韻律構造を考慮した subword embedding  提案法2:DNN多方言音声合成への適用  実験的評価 (日本共通語 & 多方言音声合成)  まとめと今後の予定 24
  • 25. /25 まとめと今後の予定  背景 – 多方言音声合成に向けた教師なし韻律コンテキスト抽出  提案法 – 日本語韻律構造を考慮した prosody-aware subword embedding – DNN多方言音声合成への拡張  評価結果 – 日本共通語といくつかの方言で,合成音声の韻律の自然性を改善  今後の予定 – End-to-End方式や音響モデル再学習 – 新たな方言へのモデル適応 25