SlideShare a Scribd company logo
1 of 13
End-to-end 韻律推定に向けた
subword lattice 構造を考慮した
DNN音響モデル学習
東京大学大学院情報理工学系研究科
☆阿曽 真至 高道 慎之介 高宗 典玄 猿渡 洋
日本音響学会
2019年 春季研究発表会 2-10-1
/132
研究背景・従来法
 タスク: テキスト音声合成のための end-to-end 韻律推定
– 中間表現を用いずにテキストから直接的にF0系列を推定
– アクセントラベル等の言語知識を使わず音声合成が可能
 従来法: subword lattice の Viterbi 近似による音響モデル学習
– Subword: 言語モデルに基づく文分割で得られる部分文字列 [Kudo18]
– 文を単一の subword に分割し, その subword 系列に対し
DNN音響モデル尤度を最大化
[Akiyama+18]
東京都に住むText
F0 seq.
従来の音声合成
中間表現 都 に東京 住む
Subword
seq.
東京都に住むText
F0 seq.
Akiyama et al.
東京都に住むText
F0 seq.
End-to-end 韻律推定
/13
発表概要
 従来法の問題点
– 文に対して複数候補のある subword 系列の中から単一のsubword
系列のみを考慮し音響モデル尤度最大化
(=文に対する音響モデル尤度を最大化していない)
 提案法: subword lattice 構造を考慮したDNN音響モデル学習
– 全ての subword 系列について周辺化し, 音響モデル尤度を最大化
– DNN音響モデル学習のためのEMアルゴリズムの導出
 実験結果:
– 学習曲線の収束性を実験的に確認
– 文に対する音響モデル尤度の改善を確認
3
/134
従来法[Akiyama+18]
事前に文字-連続F0間の
アラインメントをとる
言語モデル尤度により
subword 分割
Subword単位で
F0包絡成分を抽出
東 京 都 に 住 む
東 京 都 に 住 む
東京
京都
住む
都 に
東京 住む
Continuous
F0 seq.
Sentence
Segmentation
Candidate
Viterbi path
DNN
F0 envelope
Vocab.
/13
従来法 (定式化)
5
標準偏差
東 京 都 に 住 む
東 京 都 に 住 む
東京
京都
住む
都 に
東京 住む
Continuous
F0 seq.
Sentence
Segmentation
Candidate
Viterbi path
DNN
F0 envelope
Vocab.
単一の
subword 分割 に対する
音響モデル尤度を最大化
尤度最大化問題は
二乗誤差最小化に帰着でき
DNN学習可能
/136
従来法の問題点と提案法のアプローチ
東 京 都 に 住 む
東 京 都 に 住 む
東京
京都
住む
Proposed
Maximize都 に
東京 住む
Conventional
Maximize
Vocab.
Sentence
Segmentation
Candidate
Continuous F0 seq.
 従来法の問題点
– 単一の subword 分割に対する尤度 を最大化
 提案法のアプローチ
– 全ての subword 分割について周辺化された尤度 を最大化
Continuous F0 seq.
提案法
Subword lattice 構造を考慮した
DNN音響モデル学習
/13
提案法(モデル)
 提案モデルを隠れマルコフモデル(HMM) として定式化
– 遷移確率は等確率
8
東 京 都 に 住 む
東京
京都
住む
𝑧1 𝑧2 𝑧3 𝑧4 𝑧5 𝑧6
𝑿
𝑧56
𝑧23
出力確率
遷移確率(等確率)
東 京 都 に 住 む
𝑧12
𝒀
/13
提案法 (定式化)
9
 提案法では, 以下の周辺化された尤度を最大化
 EM アルゴリズムを用いて最大化可能
– E-step: forward-backwardアルゴリズム [Baum72, Rabiner89]
ノード を通る確率 を計算
– M-step: 以下の 関数を最大化するよう を更新
– 関数の最大化は重み付き最小二乗誤差最小化に帰着可能
/1310
実験 (実験条件)
項目 値/設定
コーパス
JSUT [Sonobe17] (4,948文),
JNAS [Itou99] (16,058文)
学習/テストデータ 18,905文/2,101文
サンプリング周波数 16 kHz
DNNの構成
入力層: word embedding
中間層: gated linear unit (3×512)
出力層: 線形層
Subword vocabulary
Sentencepiece [Kudo18] で学習データ
から作成された4,000語のvocabulary
EMアルゴリズムの
反復回数
30 回
DNN学習の反復回数 30 回 / 1 EM iteration
ミニバッチサイズ 100 文
/13
実験 (学習の収束性)
 学習の収束性を調べるために文に対する音響モデル尤度を計算
– 学習データに対する負の対数尤度
– DNNを用いているため, 学習が収束するとは限らない
11
better
4
2
0
-2
10 20 30
Number of EM iterations
Logarithmof
negativelog-likelihood
実験的に学習の収束性を確認
0
/13
実験 (音響モデル尤度を比較)
 文に対する音響モデル尤度を用いて比較
– 一文あたりの対数尤度
– 提案法では, 文に対する音響モデル尤度を近似せずに最大化
12
従来法
[Akiyama+18]
提案法
学習
データ
-19,325 -19,074
テスト
データ
-19,507 -19,305
>
音響モデル尤度の改善を確認
>
better
better
/1313
まとめと今後の予定
 背景
– End-to-end 韻律推定において, subword 系列推定も含めて,
統一的な推定方法を構築したい
 提案法
– 文に対する音響モデル尤度を最大化するアルゴリズムの提案
 結果
– DNN学習の収束性を確認
– 文に対する音響モデル尤度の改善を確認
 今後の予定
– 音響モデル尤度に基づく subword vocabulary 作成
– 音声合成における評価

More Related Content

What's hot

Interspeech2020 paper reading workshop "Similarity-and-Independence-Aware-Bea...
Interspeech2020 paper reading workshop "Similarity-and-Independence-Aware-Bea...Interspeech2020 paper reading workshop "Similarity-and-Independence-Aware-Bea...
Interspeech2020 paper reading workshop "Similarity-and-Independence-Aware-Bea...ssuserf54db1
 
ICASSP2017読み会 (acoustic modeling and adaptation)
ICASSP2017読み会 (acoustic modeling and adaptation)ICASSP2017読み会 (acoustic modeling and adaptation)
ICASSP2017読み会 (acoustic modeling and adaptation)Shinnosuke Takamichi
 
日本音響学会2017秋 ”クラウドソーシングを利用した対訳方言音声コーパスの構築”
日本音響学会2017秋 ”クラウドソーシングを利用した対訳方言音声コーパスの構築”日本音響学会2017秋 ”クラウドソーシングを利用した対訳方言音声コーパスの構築”
日本音響学会2017秋 ”クラウドソーシングを利用した対訳方言音声コーパスの構築”Shinnosuke Takamichi
 
日本語音声合成のためのsubword内モーラを考慮したProsody-aware subword embedding
日本語音声合成のためのsubword内モーラを考慮したProsody-aware subword embedding日本語音声合成のためのsubword内モーラを考慮したProsody-aware subword embedding
日本語音声合成のためのsubword内モーラを考慮したProsody-aware subword embeddingShinnosuke Takamichi
 
音源分離における音響モデリング(Acoustic modeling in audio source separation)
音源分離における音響モデリング(Acoustic modeling in audio source separation)音源分離における音響モデリング(Acoustic modeling in audio source separation)
音源分離における音響モデリング(Acoustic modeling in audio source separation)Daichi Kitamura
 
Distributed Representations of Sentences and Documents
Distributed Representations of Sentences and DocumentsDistributed Representations of Sentences and Documents
Distributed Representations of Sentences and Documentssakaizawa
 
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...Daichi Kitamura
 
Character word lstm language models
Character word lstm language modelsCharacter word lstm language models
Character word lstm language models浩気 西山
 
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3Naoya Takahashi
 
国際会議 interspeech 2020 報告
国際会議 interspeech 2020 報告国際会議 interspeech 2020 報告
国際会議 interspeech 2020 報告Shinnosuke Takamichi
 
非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法
非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法
非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法Daichi Kitamura
 

What's hot (13)

Interspeech2020 paper reading workshop "Similarity-and-Independence-Aware-Bea...
Interspeech2020 paper reading workshop "Similarity-and-Independence-Aware-Bea...Interspeech2020 paper reading workshop "Similarity-and-Independence-Aware-Bea...
Interspeech2020 paper reading workshop "Similarity-and-Independence-Aware-Bea...
 
ICASSP2017読み会 (acoustic modeling and adaptation)
ICASSP2017読み会 (acoustic modeling and adaptation)ICASSP2017読み会 (acoustic modeling and adaptation)
ICASSP2017読み会 (acoustic modeling and adaptation)
 
日本音響学会2017秋 ”クラウドソーシングを利用した対訳方言音声コーパスの構築”
日本音響学会2017秋 ”クラウドソーシングを利用した対訳方言音声コーパスの構築”日本音響学会2017秋 ”クラウドソーシングを利用した対訳方言音声コーパスの構築”
日本音響学会2017秋 ”クラウドソーシングを利用した対訳方言音声コーパスの構築”
 
日本語音声合成のためのsubword内モーラを考慮したProsody-aware subword embedding
日本語音声合成のためのsubword内モーラを考慮したProsody-aware subword embedding日本語音声合成のためのsubword内モーラを考慮したProsody-aware subword embedding
日本語音声合成のためのsubword内モーラを考慮したProsody-aware subword embedding
 
Saito18asj_s
Saito18asj_sSaito18asj_s
Saito18asj_s
 
音源分離における音響モデリング(Acoustic modeling in audio source separation)
音源分離における音響モデリング(Acoustic modeling in audio source separation)音源分離における音響モデリング(Acoustic modeling in audio source separation)
音源分離における音響モデリング(Acoustic modeling in audio source separation)
 
Distributed Representations of Sentences and Documents
Distributed Representations of Sentences and DocumentsDistributed Representations of Sentences and Documents
Distributed Representations of Sentences and Documents
 
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...
 
Character word lstm language models
Character word lstm language modelsCharacter word lstm language models
Character word lstm language models
 
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
 
Asj2017 3invited
Asj2017 3invitedAsj2017 3invited
Asj2017 3invited
 
国際会議 interspeech 2020 報告
国際会議 interspeech 2020 報告国際会議 interspeech 2020 報告
国際会議 interspeech 2020 報告
 
非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法
非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法
非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法
 

More from Shinnosuke Takamichi

JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech:  音声認識と話者照合のために YouTube から構築される日本語音声コーパスJTubeSpeech:  音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパスShinnosuke Takamichi
 
音声合成のコーパスをつくろう
音声合成のコーパスをつくろう音声合成のコーパスをつくろう
音声合成のコーパスをつくろうShinnosuke Takamichi
 
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパスJ-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパスShinnosuke Takamichi
 
短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討Shinnosuke Takamichi
 
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法Shinnosuke Takamichi
 
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)Shinnosuke Takamichi
 
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
Interspeech 2020 読み会 "Incremental Text to Speech for Neural  Sequence-to-Sequ...Interspeech 2020 読み会 "Incremental Text to Speech for Neural  Sequence-to-Sequ...
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...Shinnosuke Takamichi
 
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価Shinnosuke Takamichi
 
P J S: 音素バランスを考慮した日本語歌声コーパス
P J S: 音素バランスを考慮した日本語歌声コーパスP J S: 音素バランスを考慮した日本語歌声コーパス
P J S: 音素バランスを考慮した日本語歌声コーパスShinnosuke Takamichi
 
音声合成研究を加速させるためのコーパスデザイン
音声合成研究を加速させるためのコーパスデザイン音声合成研究を加速させるためのコーパスデザイン
音声合成研究を加速させるためのコーパスデザインShinnosuke Takamichi
 
論文紹介 Unsupervised training of neural mask-based beamforming
論文紹介 Unsupervised training of neural  mask-based beamforming論文紹介 Unsupervised training of neural  mask-based beamforming
論文紹介 Unsupervised training of neural mask-based beamformingShinnosuke Takamichi
 
論文紹介 Building the Singapore English National Speech Corpus
論文紹介 Building the Singapore English National Speech Corpus論文紹介 Building the Singapore English National Speech Corpus
論文紹介 Building the Singapore English National Speech CorpusShinnosuke Takamichi
 
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource LanguagesShinnosuke Takamichi
 
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価Shinnosuke Takamichi
 
JVS:フリーの日本語多数話者音声コーパス
JVS:フリーの日本語多数話者音声コーパス JVS:フリーの日本語多数話者音声コーパス
JVS:フリーの日本語多数話者音声コーパス Shinnosuke Takamichi
 
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定Shinnosuke Takamichi
 
音声合成・変換の国際コンペティションへの 参加を振り返って
音声合成・変換の国際コンペティションへの  参加を振り返って音声合成・変換の国際コンペティションへの  参加を振り返って
音声合成・変換の国際コンペティションへの 参加を振り返ってShinnosuke Takamichi
 
ユーザ歌唱のための generative moment matching network に基づく neural double-tracking
ユーザ歌唱のための generative moment matching network に基づく neural double-trackingユーザ歌唱のための generative moment matching network に基づく neural double-tracking
ユーザ歌唱のための generative moment matching network に基づく neural double-trackingShinnosuke Takamichi
 
統計的ボイチェン研究事情
統計的ボイチェン研究事情統計的ボイチェン研究事情
統計的ボイチェン研究事情Shinnosuke Takamichi
 
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)Shinnosuke Takamichi
 

More from Shinnosuke Takamichi (20)

JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech:  音声認識と話者照合のために YouTube から構築される日本語音声コーパスJTubeSpeech:  音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
 
音声合成のコーパスをつくろう
音声合成のコーパスをつくろう音声合成のコーパスをつくろう
音声合成のコーパスをつくろう
 
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパスJ-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
 
短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討
 
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
 
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
 
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
Interspeech 2020 読み会 "Incremental Text to Speech for Neural  Sequence-to-Sequ...Interspeech 2020 読み会 "Incremental Text to Speech for Neural  Sequence-to-Sequ...
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
 
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
 
P J S: 音素バランスを考慮した日本語歌声コーパス
P J S: 音素バランスを考慮した日本語歌声コーパスP J S: 音素バランスを考慮した日本語歌声コーパス
P J S: 音素バランスを考慮した日本語歌声コーパス
 
音声合成研究を加速させるためのコーパスデザイン
音声合成研究を加速させるためのコーパスデザイン音声合成研究を加速させるためのコーパスデザイン
音声合成研究を加速させるためのコーパスデザイン
 
論文紹介 Unsupervised training of neural mask-based beamforming
論文紹介 Unsupervised training of neural  mask-based beamforming論文紹介 Unsupervised training of neural  mask-based beamforming
論文紹介 Unsupervised training of neural mask-based beamforming
 
論文紹介 Building the Singapore English National Speech Corpus
論文紹介 Building the Singapore English National Speech Corpus論文紹介 Building the Singapore English National Speech Corpus
論文紹介 Building the Singapore English National Speech Corpus
 
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
 
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
 
JVS:フリーの日本語多数話者音声コーパス
JVS:フリーの日本語多数話者音声コーパス JVS:フリーの日本語多数話者音声コーパス
JVS:フリーの日本語多数話者音声コーパス
 
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
 
音声合成・変換の国際コンペティションへの 参加を振り返って
音声合成・変換の国際コンペティションへの  参加を振り返って音声合成・変換の国際コンペティションへの  参加を振り返って
音声合成・変換の国際コンペティションへの 参加を振り返って
 
ユーザ歌唱のための generative moment matching network に基づく neural double-tracking
ユーザ歌唱のための generative moment matching network に基づく neural double-trackingユーザ歌唱のための generative moment matching network に基づく neural double-tracking
ユーザ歌唱のための generative moment matching network に基づく neural double-tracking
 
統計的ボイチェン研究事情
統計的ボイチェン研究事情統計的ボイチェン研究事情
統計的ボイチェン研究事情
 
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)
 

Recently uploaded

Postman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By DanielPostman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By Danieldanielhu54
 
IoT in the era of generative AI, Thanks IoT ALGYAN.pptx
IoT in the era of generative AI, Thanks IoT ALGYAN.pptxIoT in the era of generative AI, Thanks IoT ALGYAN.pptx
IoT in the era of generative AI, Thanks IoT ALGYAN.pptxAtomu Hidaka
 
20240412_HCCJP での Windows Server 2025 Active Directory
20240412_HCCJP での Windows Server 2025 Active Directory20240412_HCCJP での Windows Server 2025 Active Directory
20240412_HCCJP での Windows Server 2025 Active Directoryosamut
 
PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000Shota Ito
 
スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムスマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムsugiuralab
 
新人研修のまとめ 2024/04/12の勉強会で発表されたものです。
新人研修のまとめ       2024/04/12の勉強会で発表されたものです。新人研修のまとめ       2024/04/12の勉強会で発表されたものです。
新人研修のまとめ 2024/04/12の勉強会で発表されたものです。iPride Co., Ltd.
 
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略Ryo Sasaki
 
UPWARD_share_company_information_20240415.pdf
UPWARD_share_company_information_20240415.pdfUPWARD_share_company_information_20240415.pdf
UPWARD_share_company_information_20240415.pdffurutsuka
 
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。iPride Co., Ltd.
 

Recently uploaded (9)

Postman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By DanielPostman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By Daniel
 
IoT in the era of generative AI, Thanks IoT ALGYAN.pptx
IoT in the era of generative AI, Thanks IoT ALGYAN.pptxIoT in the era of generative AI, Thanks IoT ALGYAN.pptx
IoT in the era of generative AI, Thanks IoT ALGYAN.pptx
 
20240412_HCCJP での Windows Server 2025 Active Directory
20240412_HCCJP での Windows Server 2025 Active Directory20240412_HCCJP での Windows Server 2025 Active Directory
20240412_HCCJP での Windows Server 2025 Active Directory
 
PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000
 
スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムスマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システム
 
新人研修のまとめ 2024/04/12の勉強会で発表されたものです。
新人研修のまとめ       2024/04/12の勉強会で発表されたものです。新人研修のまとめ       2024/04/12の勉強会で発表されたものです。
新人研修のまとめ 2024/04/12の勉強会で発表されたものです。
 
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
 
UPWARD_share_company_information_20240415.pdf
UPWARD_share_company_information_20240415.pdfUPWARD_share_company_information_20240415.pdf
UPWARD_share_company_information_20240415.pdf
 
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
 

End-to-end 韻律推定に向けた subword lattice 構造を考慮した DNN 音響モデル学習

Editor's Notes

  1. 表記の題目で, 東京大学大学院の阿曽真至が発表いたします.
  2. まず, 研究背景と従来法について説明いたします. 今回の研究のタスクはテキスト音声合成のための end to end 韻律推定を行うことです. 従来の音声合成ではアクセントラベルなどの中間表現をもちいてf0系列を予想していましたが, End-to-end 韻律推定では, 言語知識が必要となるそのような中間表現を用いずに直接f0系列を推定します. 単語毎にF0系列の推定を行う場合DNN の入力の次元が単語数に依存します. しかし, 日本語の単語は膨大にあり, DNNで取り扱うことが困難になります. そこで, 本研究の従来法にあたる秋山らの研究では, End-to-end 韻律推定の入力となるテキストをsubword に分割し subword 毎にF0系列を推定しています. ここで, Subword とは言語モデル尤度に基づき文を分割されて得られる部分文字列のことです. 従来法では, テキストをこの, (ポインタ)工藤による手法により 一旦, subwordに分割し, 得られた subword 系列に対し, DNN音響モデル尤度最大化に基づき学習を行っています.
  3. この従来法の問題点としては, 複数候補のある subword 系列の中で 文を単一のsubword 系列で近似して, 音響モデル尤度を最大化しています. このため, 文に対する音響モデル尤度を最大化していません. これに対し提案法では, ”subword lattice 構造を考慮したDNN音響モデル学習”を提案いたします. subword 系列について周辺化された音響モデル尤度を最大化するために DNN音響モデル学習のためのEMアルゴリズムの導出を行います. 実験結果では DNN音響モデルの学習の曲線の収束性を実験的に確認し, 文に対する音響モデル尤度の改善を確認します.
  4. こちらが従来法の全体図となります. まず文字と連続F0系列の間でアラインメントを予めとっておきます. その後, 文の前処理として, 文を subword vocabularyをもちいて subword lattice 構造を構成したあと, 言語モデル尤度が最も高くなるような subword 分割をおこなっています. また, 連続F0系列の前処理としてはsubword 分割上のすべて subword に対して をとってくることで対応する成分の抽出を行います. その後, パラメータθをもつDNNを用いて subword から F0包絡成分を推定します. \hat{y}_4 \hat{z}_4 \dots
  5. まず文Xに対する音響モデル尤度はP()と表せます. 文に対する subword 分割は複数考えられます. 従来法では, 言語モデル尤度に基づき単一の subword 分割zはっとを選び, zハットに対する音響モデル尤度最大化をときます. 各々のsubwordの独立性を改定するとこのように, subwordごとの出力確率の積の形で書き表されうます f0包絡成分がDNNで推定される値を平均とした正規分布に従うとしたとき, 尤度最大化問題は二乗誤差最小化に帰着できDNN学習が可能であることがわかります. \simeq \smashoperator{\prod_{\forall m}}P(\hat{\bm{y}}_m {|} \hat{z}_m, \bm{X}; \theta)
  6. 次に従来法の問題点とアプローチについて説明します. 従来法の問題点として文を単一のsubword分割にViterbi近似して, 音響モデル尤度 を最大化していることがが挙げられます. それに対して提案法ではsubword lattice 構造を考慮することでsubword 分割について 周辺化された音響モデル尤度 を最大化することを行います.
  7. 提案法の“Subword lattice 構造を考慮したDNN音響モデル学習” について説明します.
  8. まず提案法のモデルについて説明します. 提案する枠組みはHMM(hidden )とみなすことがかのうです ここで遷移確率はノードから次のノードに等確率で遷移するものします たとえば, 出力確率は従来法と同様, DNNの予測誤差を用いて表します. このモデルを定式化していきます. 視点から終点まで移動することで任意のsubword 系列が得られます. \hat{\bm{y}}_1
  9. 提案法では以下のようにすべてのsubword系列について周辺化された尤度を最大化します. 次にこの音響モデル尤度はEMアルゴリズムを用いて最大化可能です E-stepではforward-backward アルゴリズムを用いてノードz_i を通る確率γ_iを計算します M-stepではQ関数を最大化するようにθを更新します Q関数の最大化は重み付き二乗誤差最小化に帰着可能であるため,MstepでDNNのパラメータθの更新が可能です {\rm log} P(\bm{Y} | \bm{X};\theta) = {\rm log} \smashoperator{\sum\limits_{\forall \hspace{0. 25em} \bm{z}}} P(\bm{Y} | \bm{z} , \bm{X};\theta) \gamma_i = P(z_i | \bm{Y} , \bm{X} ; \theta^{\textrm{(old)}} ) \quad \forall \hspace{0. 25em} i \mathcal{Q} ( \theta ; \theta^{\textrm{(old)}} ) = \smashoperator{\sum\limits_{\forall \hspace{0. 25em} i}} \gamma_i {\rm log} P(\bm{y}_i | z_i, \theta) \mathcal{Q} ( \theta ; \theta^{\textrm{(old)}} ) = \smashoperator{\sum\limits_{\forall \hspace{0. 25em} i}} \frac{- \gamma_i}{2\sigma^2} {\mid} {\bm{y}_i - G(z_i ; \theta)} {\mid}^{2} + const.
  10. コーパスはJSUTの約5000文, JNASの約16000文 学習テストデータの量の比率は学習データ9に対しテストデータ1になるようにしました. Subword vocabularyはsentencepiece で学習データから作成された4000語のvocabularyを用いました. EMの反復回数は30回で 1EMイテレーションあたりのMstepのDNN学習の反復回数は30回にしました.
  11. 実験ではまず提案法の学習の収束性を調べるために文に対する音響モデル尤度を計算しました. 学習データ18905文に対する負の対数尤度の変化を調べました. M-stepでDNNを用いているため学習が収束するとは限りません 以下が学習の収束性を表した表です 縦軸は負の対数尤度にたいしてさらに,可視化のために定数項を足し対数をとったものです. 横軸はEMの反復回数を示しています. DNNを用いているため,このように単調減少しない部分がみられました. しかし実験的に学習の収束が確認できます.
  12. 次の実験では文に対する音響モデル尤度を用いて比較を行いました. 一文あたりの対数尤度を計算しました. 提案法では文に対する音響モデル尤度を近似せずに最大化を行っています. 以下が学習データテストデータに対する従来法と提案法の音響モデル尤度です 全て一文あたりに直しているため,音響モデル尤度の対数値は学習とテストで近い値を示しています. 学習データテストデータともに提案法が高い音響モデル尤度がみられ,音響モデル尤度の改善が確認されます.
  13. 今後の予定について説明します. 音響モデル尤度に基づき Subword vocabulary を作成し,それを実際に音声合成して評価したい思っています. 以上で僕の発表を終わります.