Submit Search
Upload
End-to-end 韻律推定に向けた subword lattice 構造を考慮した DNN 音響モデル学習
•
Download as PPTX, PDF
•
0 likes
•
596 views
Shinnosuke Takamichi
Follow
End-to-end 韻律推定に向けた subword lattice 構造を考慮した DNN 音響モデル学習
Read less
Read more
Technology
Report
Share
Report
Share
1 of 13
Download now
Recommended
音響モデル尤度に基づくsubword分割の韻律推定精度における評価
音響モデル尤度に基づくsubword分割の韻律推定精度における評価
Shinnosuke Takamichi
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
Shinnosuke Takamichi
静岡大学 山本研究室 勉強会資料 機械学習
静岡大学 山本研究室 勉強会資料 機械学習
ymmt3-lab
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
Yui Sudo
Kameoka2016 miru08
Kameoka2016 miru08
kame_hirokazu
ICASSP2017読み会(関東編)・AASP_L3(北村担当分)
ICASSP2017読み会(関東編)・AASP_L3(北村担当分)
Daichi Kitamura
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)
Deep Learning JP
Kameoka2017 ieice03
Kameoka2017 ieice03
kame_hirokazu
Recommended
音響モデル尤度に基づくsubword分割の韻律推定精度における評価
音響モデル尤度に基づくsubword分割の韻律推定精度における評価
Shinnosuke Takamichi
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
Shinnosuke Takamichi
静岡大学 山本研究室 勉強会資料 機械学習
静岡大学 山本研究室 勉強会資料 機械学習
ymmt3-lab
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
Yui Sudo
Kameoka2016 miru08
Kameoka2016 miru08
kame_hirokazu
ICASSP2017読み会(関東編)・AASP_L3(北村担当分)
ICASSP2017読み会(関東編)・AASP_L3(北村担当分)
Daichi Kitamura
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)
Deep Learning JP
Kameoka2017 ieice03
Kameoka2017 ieice03
kame_hirokazu
Interspeech2020 paper reading workshop "Similarity-and-Independence-Aware-Bea...
Interspeech2020 paper reading workshop "Similarity-and-Independence-Aware-Bea...
ssuserf54db1
ICASSP2017読み会 (acoustic modeling and adaptation)
ICASSP2017読み会 (acoustic modeling and adaptation)
Shinnosuke Takamichi
日本音響学会2017秋 ”クラウドソーシングを利用した対訳方言音声コーパスの構築”
日本音響学会2017秋 ”クラウドソーシングを利用した対訳方言音声コーパスの構築”
Shinnosuke Takamichi
日本語音声合成のためのsubword内モーラを考慮したProsody-aware subword embedding
日本語音声合成のためのsubword内モーラを考慮したProsody-aware subword embedding
Shinnosuke Takamichi
Saito18asj_s
Saito18asj_s
Yuki Saito
音源分離における音響モデリング(Acoustic modeling in audio source separation)
音源分離における音響モデリング(Acoustic modeling in audio source separation)
Daichi Kitamura
Distributed Representations of Sentences and Documents
Distributed Representations of Sentences and Documents
sakaizawa
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...
Daichi Kitamura
Character word lstm language models
Character word lstm language models
浩気 西山
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
Naoya Takahashi
Asj2017 3invited
Asj2017 3invited
SaruwatariLabUTokyo
国際会議 interspeech 2020 報告
国際会議 interspeech 2020 報告
Shinnosuke Takamichi
非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法
非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法
Daichi Kitamura
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
Shinnosuke Takamichi
音声合成のコーパスをつくろう
音声合成のコーパスをつくろう
Shinnosuke Takamichi
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
Shinnosuke Takamichi
短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討
Shinnosuke Takamichi
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
Shinnosuke Takamichi
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
Shinnosuke Takamichi
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
Shinnosuke Takamichi
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
Shinnosuke Takamichi
P J S: 音素バランスを考慮した日本語歌声コーパス
P J S: 音素バランスを考慮した日本語歌声コーパス
Shinnosuke Takamichi
More Related Content
What's hot
Interspeech2020 paper reading workshop "Similarity-and-Independence-Aware-Bea...
Interspeech2020 paper reading workshop "Similarity-and-Independence-Aware-Bea...
ssuserf54db1
ICASSP2017読み会 (acoustic modeling and adaptation)
ICASSP2017読み会 (acoustic modeling and adaptation)
Shinnosuke Takamichi
日本音響学会2017秋 ”クラウドソーシングを利用した対訳方言音声コーパスの構築”
日本音響学会2017秋 ”クラウドソーシングを利用した対訳方言音声コーパスの構築”
Shinnosuke Takamichi
日本語音声合成のためのsubword内モーラを考慮したProsody-aware subword embedding
日本語音声合成のためのsubword内モーラを考慮したProsody-aware subword embedding
Shinnosuke Takamichi
Saito18asj_s
Saito18asj_s
Yuki Saito
音源分離における音響モデリング(Acoustic modeling in audio source separation)
音源分離における音響モデリング(Acoustic modeling in audio source separation)
Daichi Kitamura
Distributed Representations of Sentences and Documents
Distributed Representations of Sentences and Documents
sakaizawa
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...
Daichi Kitamura
Character word lstm language models
Character word lstm language models
浩気 西山
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
Naoya Takahashi
Asj2017 3invited
Asj2017 3invited
SaruwatariLabUTokyo
国際会議 interspeech 2020 報告
国際会議 interspeech 2020 報告
Shinnosuke Takamichi
非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法
非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法
Daichi Kitamura
What's hot
(13)
Interspeech2020 paper reading workshop "Similarity-and-Independence-Aware-Bea...
Interspeech2020 paper reading workshop "Similarity-and-Independence-Aware-Bea...
ICASSP2017読み会 (acoustic modeling and adaptation)
ICASSP2017読み会 (acoustic modeling and adaptation)
日本音響学会2017秋 ”クラウドソーシングを利用した対訳方言音声コーパスの構築”
日本音響学会2017秋 ”クラウドソーシングを利用した対訳方言音声コーパスの構築”
日本語音声合成のためのsubword内モーラを考慮したProsody-aware subword embedding
日本語音声合成のためのsubword内モーラを考慮したProsody-aware subword embedding
Saito18asj_s
Saito18asj_s
音源分離における音響モデリング(Acoustic modeling in audio source separation)
音源分離における音響モデリング(Acoustic modeling in audio source separation)
Distributed Representations of Sentences and Documents
Distributed Representations of Sentences and Documents
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...
Character word lstm language models
Character word lstm language models
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
Asj2017 3invited
Asj2017 3invited
国際会議 interspeech 2020 報告
国際会議 interspeech 2020 報告
非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法
非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法
More from Shinnosuke Takamichi
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
Shinnosuke Takamichi
音声合成のコーパスをつくろう
音声合成のコーパスをつくろう
Shinnosuke Takamichi
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
Shinnosuke Takamichi
短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討
Shinnosuke Takamichi
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
Shinnosuke Takamichi
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
Shinnosuke Takamichi
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
Shinnosuke Takamichi
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
Shinnosuke Takamichi
P J S: 音素バランスを考慮した日本語歌声コーパス
P J S: 音素バランスを考慮した日本語歌声コーパス
Shinnosuke Takamichi
音声合成研究を加速させるためのコーパスデザイン
音声合成研究を加速させるためのコーパスデザイン
Shinnosuke Takamichi
論文紹介 Unsupervised training of neural mask-based beamforming
論文紹介 Unsupervised training of neural mask-based beamforming
Shinnosuke Takamichi
論文紹介 Building the Singapore English National Speech Corpus
論文紹介 Building the Singapore English National Speech Corpus
Shinnosuke Takamichi
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
Shinnosuke Takamichi
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
Shinnosuke Takamichi
JVS:フリーの日本語多数話者音声コーパス
JVS:フリーの日本語多数話者音声コーパス
Shinnosuke Takamichi
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
Shinnosuke Takamichi
音声合成・変換の国際コンペティションへの 参加を振り返って
音声合成・変換の国際コンペティションへの 参加を振り返って
Shinnosuke Takamichi
ユーザ歌唱のための generative moment matching network に基づく neural double-tracking
ユーザ歌唱のための generative moment matching network に基づく neural double-tracking
Shinnosuke Takamichi
統計的ボイチェン研究事情
統計的ボイチェン研究事情
Shinnosuke Takamichi
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)
Shinnosuke Takamichi
More from Shinnosuke Takamichi
(20)
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
音声合成のコーパスをつくろう
音声合成のコーパスをつくろう
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
P J S: 音素バランスを考慮した日本語歌声コーパス
P J S: 音素バランスを考慮した日本語歌声コーパス
音声合成研究を加速させるためのコーパスデザイン
音声合成研究を加速させるためのコーパスデザイン
論文紹介 Unsupervised training of neural mask-based beamforming
論文紹介 Unsupervised training of neural mask-based beamforming
論文紹介 Building the Singapore English National Speech Corpus
論文紹介 Building the Singapore English National Speech Corpus
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
JVS:フリーの日本語多数話者音声コーパス
JVS:フリーの日本語多数話者音声コーパス
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
音声合成・変換の国際コンペティションへの 参加を振り返って
音声合成・変換の国際コンペティションへの 参加を振り返って
ユーザ歌唱のための generative moment matching network に基づく neural double-tracking
ユーザ歌唱のための generative moment matching network に基づく neural double-tracking
統計的ボイチェン研究事情
統計的ボイチェン研究事情
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)
Recently uploaded
Postman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By Daniel
danielhu54
IoT in the era of generative AI, Thanks IoT ALGYAN.pptx
IoT in the era of generative AI, Thanks IoT ALGYAN.pptx
Atomu Hidaka
20240412_HCCJP での Windows Server 2025 Active Directory
20240412_HCCJP での Windows Server 2025 Active Directory
osamut
PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000
Shota Ito
スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システム
sugiuralab
新人研修のまとめ 2024/04/12の勉強会で発表されたものです。
新人研修のまとめ 2024/04/12の勉強会で発表されたものです。
iPride Co., Ltd.
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
Ryo Sasaki
UPWARD_share_company_information_20240415.pdf
UPWARD_share_company_information_20240415.pdf
furutsuka
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
iPride Co., Ltd.
Recently uploaded
(9)
Postman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By Daniel
IoT in the era of generative AI, Thanks IoT ALGYAN.pptx
IoT in the era of generative AI, Thanks IoT ALGYAN.pptx
20240412_HCCJP での Windows Server 2025 Active Directory
20240412_HCCJP での Windows Server 2025 Active Directory
PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000
スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システム
新人研修のまとめ 2024/04/12の勉強会で発表されたものです。
新人研修のまとめ 2024/04/12の勉強会で発表されたものです。
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
UPWARD_share_company_information_20240415.pdf
UPWARD_share_company_information_20240415.pdf
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
End-to-end 韻律推定に向けた subword lattice 構造を考慮した DNN 音響モデル学習
1.
End-to-end 韻律推定に向けた subword lattice
構造を考慮した DNN音響モデル学習 東京大学大学院情報理工学系研究科 ☆阿曽 真至 高道 慎之介 高宗 典玄 猿渡 洋 日本音響学会 2019年 春季研究発表会 2-10-1
2.
/132 研究背景・従来法 タスク: テキスト音声合成のための
end-to-end 韻律推定 – 中間表現を用いずにテキストから直接的にF0系列を推定 – アクセントラベル等の言語知識を使わず音声合成が可能 従来法: subword lattice の Viterbi 近似による音響モデル学習 – Subword: 言語モデルに基づく文分割で得られる部分文字列 [Kudo18] – 文を単一の subword に分割し, その subword 系列に対し DNN音響モデル尤度を最大化 [Akiyama+18] 東京都に住むText F0 seq. 従来の音声合成 中間表現 都 に東京 住む Subword seq. 東京都に住むText F0 seq. Akiyama et al. 東京都に住むText F0 seq. End-to-end 韻律推定
3.
/13 発表概要 従来法の問題点 – 文に対して複数候補のある
subword 系列の中から単一のsubword 系列のみを考慮し音響モデル尤度最大化 (=文に対する音響モデル尤度を最大化していない) 提案法: subword lattice 構造を考慮したDNN音響モデル学習 – 全ての subword 系列について周辺化し, 音響モデル尤度を最大化 – DNN音響モデル学習のためのEMアルゴリズムの導出 実験結果: – 学習曲線の収束性を実験的に確認 – 文に対する音響モデル尤度の改善を確認 3
4.
/134 従来法[Akiyama+18] 事前に文字-連続F0間の アラインメントをとる 言語モデル尤度により subword 分割 Subword単位で F0包絡成分を抽出 東 京
都 に 住 む 東 京 都 に 住 む 東京 京都 住む 都 に 東京 住む Continuous F0 seq. Sentence Segmentation Candidate Viterbi path DNN F0 envelope Vocab.
5.
/13 従来法 (定式化) 5 標準偏差 東 京
都 に 住 む 東 京 都 に 住 む 東京 京都 住む 都 に 東京 住む Continuous F0 seq. Sentence Segmentation Candidate Viterbi path DNN F0 envelope Vocab. 単一の subword 分割 に対する 音響モデル尤度を最大化 尤度最大化問題は 二乗誤差最小化に帰着でき DNN学習可能
6.
/136 従来法の問題点と提案法のアプローチ 東 京 都
に 住 む 東 京 都 に 住 む 東京 京都 住む Proposed Maximize都 に 東京 住む Conventional Maximize Vocab. Sentence Segmentation Candidate Continuous F0 seq. 従来法の問題点 – 単一の subword 分割に対する尤度 を最大化 提案法のアプローチ – 全ての subword 分割について周辺化された尤度 を最大化 Continuous F0 seq.
7.
提案法 Subword lattice 構造を考慮した DNN音響モデル学習
8.
/13 提案法(モデル) 提案モデルを隠れマルコフモデル(HMM) として定式化 –
遷移確率は等確率 8 東 京 都 に 住 む 東京 京都 住む 𝑧1 𝑧2 𝑧3 𝑧4 𝑧5 𝑧6 𝑿 𝑧56 𝑧23 出力確率 遷移確率(等確率) 東 京 都 に 住 む 𝑧12 𝒀
9.
/13 提案法 (定式化) 9 提案法では,
以下の周辺化された尤度を最大化 EM アルゴリズムを用いて最大化可能 – E-step: forward-backwardアルゴリズム [Baum72, Rabiner89] ノード を通る確率 を計算 – M-step: 以下の 関数を最大化するよう を更新 – 関数の最大化は重み付き最小二乗誤差最小化に帰着可能
10.
/1310 実験 (実験条件) 項目 値/設定 コーパス JSUT
[Sonobe17] (4,948文), JNAS [Itou99] (16,058文) 学習/テストデータ 18,905文/2,101文 サンプリング周波数 16 kHz DNNの構成 入力層: word embedding 中間層: gated linear unit (3×512) 出力層: 線形層 Subword vocabulary Sentencepiece [Kudo18] で学習データ から作成された4,000語のvocabulary EMアルゴリズムの 反復回数 30 回 DNN学習の反復回数 30 回 / 1 EM iteration ミニバッチサイズ 100 文
11.
/13 実験 (学習の収束性) 学習の収束性を調べるために文に対する音響モデル尤度を計算 –
学習データに対する負の対数尤度 – DNNを用いているため, 学習が収束するとは限らない 11 better 4 2 0 -2 10 20 30 Number of EM iterations Logarithmof negativelog-likelihood 実験的に学習の収束性を確認 0
12.
/13 実験 (音響モデル尤度を比較) 文に対する音響モデル尤度を用いて比較 –
一文あたりの対数尤度 – 提案法では, 文に対する音響モデル尤度を近似せずに最大化 12 従来法 [Akiyama+18] 提案法 学習 データ -19,325 -19,074 テスト データ -19,507 -19,305 > 音響モデル尤度の改善を確認 > better better
13.
/1313 まとめと今後の予定 背景 – End-to-end
韻律推定において, subword 系列推定も含めて, 統一的な推定方法を構築したい 提案法 – 文に対する音響モデル尤度を最大化するアルゴリズムの提案 結果 – DNN学習の収束性を確認 – 文に対する音響モデル尤度の改善を確認 今後の予定 – 音響モデル尤度に基づく subword vocabulary 作成 – 音声合成における評価
Editor's Notes
表記の題目で, 東京大学大学院の阿曽真至が発表いたします.
まず, 研究背景と従来法について説明いたします. 今回の研究のタスクはテキスト音声合成のための end to end 韻律推定を行うことです. 従来の音声合成ではアクセントラベルなどの中間表現をもちいてf0系列を予想していましたが, End-to-end 韻律推定では, 言語知識が必要となるそのような中間表現を用いずに直接f0系列を推定します. 単語毎にF0系列の推定を行う場合DNN の入力の次元が単語数に依存します. しかし, 日本語の単語は膨大にあり, DNNで取り扱うことが困難になります. そこで, 本研究の従来法にあたる秋山らの研究では, End-to-end 韻律推定の入力となるテキストをsubword に分割し subword 毎にF0系列を推定しています. ここで, Subword とは言語モデル尤度に基づき文を分割されて得られる部分文字列のことです. 従来法では, テキストをこの, (ポインタ)工藤による手法により 一旦, subwordに分割し, 得られた subword 系列に対し, DNN音響モデル尤度最大化に基づき学習を行っています.
この従来法の問題点としては, 複数候補のある subword 系列の中で 文を単一のsubword 系列で近似して, 音響モデル尤度を最大化しています. このため, 文に対する音響モデル尤度を最大化していません. これに対し提案法では, ”subword lattice 構造を考慮したDNN音響モデル学習”を提案いたします. subword 系列について周辺化された音響モデル尤度を最大化するために DNN音響モデル学習のためのEMアルゴリズムの導出を行います. 実験結果では DNN音響モデルの学習の曲線の収束性を実験的に確認し, 文に対する音響モデル尤度の改善を確認します.
こちらが従来法の全体図となります. まず文字と連続F0系列の間でアラインメントを予めとっておきます. その後, 文の前処理として, 文を subword vocabularyをもちいて subword lattice 構造を構成したあと, 言語モデル尤度が最も高くなるような subword 分割をおこなっています. また, 連続F0系列の前処理としてはsubword 分割上のすべて subword に対して をとってくることで対応する成分の抽出を行います. その後, パラメータθをもつDNNを用いて subword から F0包絡成分を推定します. \hat{y}_4 \hat{z}_4 \dots
まず文Xに対する音響モデル尤度はP()と表せます. 文に対する subword 分割は複数考えられます. 従来法では, 言語モデル尤度に基づき単一の subword 分割zはっとを選び, zハットに対する音響モデル尤度最大化をときます. 各々のsubwordの独立性を改定するとこのように, subwordごとの出力確率の積の形で書き表されうます f0包絡成分がDNNで推定される値を平均とした正規分布に従うとしたとき, 尤度最大化問題は二乗誤差最小化に帰着できDNN学習が可能であることがわかります. \simeq \smashoperator{\prod_{\forall m}}P(\hat{\bm{y}}_m {|} \hat{z}_m, \bm{X}; \theta)
次に従来法の問題点とアプローチについて説明します. 従来法の問題点として文を単一のsubword分割にViterbi近似して, 音響モデル尤度 を最大化していることがが挙げられます. それに対して提案法ではsubword lattice 構造を考慮することでsubword 分割について 周辺化された音響モデル尤度 を最大化することを行います.
提案法の“Subword lattice 構造を考慮したDNN音響モデル学習” について説明します.
まず提案法のモデルについて説明します. 提案する枠組みはHMM(hidden )とみなすことがかのうです ここで遷移確率はノードから次のノードに等確率で遷移するものします たとえば, 出力確率は従来法と同様, DNNの予測誤差を用いて表します. このモデルを定式化していきます. 視点から終点まで移動することで任意のsubword 系列が得られます. \hat{\bm{y}}_1
提案法では以下のようにすべてのsubword系列について周辺化された尤度を最大化します. 次にこの音響モデル尤度はEMアルゴリズムを用いて最大化可能です E-stepではforward-backward アルゴリズムを用いてノードz_i を通る確率γ_iを計算します M-stepではQ関数を最大化するようにθを更新します Q関数の最大化は重み付き二乗誤差最小化に帰着可能であるため,MstepでDNNのパラメータθの更新が可能です {\rm log} P(\bm{Y} | \bm{X};\theta) = {\rm log} \smashoperator{\sum\limits_{\forall \hspace{0. 25em} \bm{z}}} P(\bm{Y} | \bm{z} , \bm{X};\theta) \gamma_i = P(z_i | \bm{Y} , \bm{X} ; \theta^{\textrm{(old)}} ) \quad \forall \hspace{0. 25em} i \mathcal{Q} ( \theta ; \theta^{\textrm{(old)}} ) = \smashoperator{\sum\limits_{\forall \hspace{0. 25em} i}} \gamma_i {\rm log} P(\bm{y}_i | z_i, \theta) \mathcal{Q} ( \theta ; \theta^{\textrm{(old)}} ) = \smashoperator{\sum\limits_{\forall \hspace{0. 25em} i}} \frac{- \gamma_i}{2\sigma^2} {\mid} {\bm{y}_i - G(z_i ; \theta)} {\mid}^{2} + const.
コーパスはJSUTの約5000文, JNASの約16000文 学習テストデータの量の比率は学習データ9に対しテストデータ1になるようにしました. Subword vocabularyはsentencepiece で学習データから作成された4000語のvocabularyを用いました. EMの反復回数は30回で 1EMイテレーションあたりのMstepのDNN学習の反復回数は30回にしました.
実験ではまず提案法の学習の収束性を調べるために文に対する音響モデル尤度を計算しました. 学習データ18905文に対する負の対数尤度の変化を調べました. M-stepでDNNを用いているため学習が収束するとは限りません 以下が学習の収束性を表した表です 縦軸は負の対数尤度にたいしてさらに,可視化のために定数項を足し対数をとったものです. 横軸はEMの反復回数を示しています. DNNを用いているため,このように単調減少しない部分がみられました. しかし実験的に学習の収束が確認できます.
次の実験では文に対する音響モデル尤度を用いて比較を行いました. 一文あたりの対数尤度を計算しました. 提案法では文に対する音響モデル尤度を近似せずに最大化を行っています. 以下が学習データテストデータに対する従来法と提案法の音響モデル尤度です 全て一文あたりに直しているため,音響モデル尤度の対数値は学習とテストで近い値を示しています. 学習データテストデータともに提案法が高い音響モデル尤度がみられ,音響モデル尤度の改善が確認されます.
今後の予定について説明します. 音響モデル尤度に基づき Subword vocabulary を作成し,それを実際に音声合成して評価したい思っています. 以上で僕の発表を終わります.
Download now