Submit Search
Upload
外国人留学生日本語の音声合成における話者性を保持した韻律補正
•
Download as PPTX, PDF
•
0 likes
•
582 views
Shinnosuke Takamichi
Follow
外国人留学生日本語の音声合成における話者性を保持した韻律補正
Read less
Read more
Technology
Report
Share
Report
Share
1 of 13
Download now
Recommended
音声感情認識の分野動向と実用化に向けたNTTの取り組み
音声感情認識の分野動向と実用化に向けたNTTの取り組み
Atsushi_Ando
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
Shinnosuke Takamichi
Nakai22sp03 presentation
Nakai22sp03 presentation
Yuki Saito
短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討
Shinnosuke Takamichi
音声合成のコーパスをつくろう
音声合成のコーパスをつくろう
Shinnosuke Takamichi
深層学習を利用した音声強調
深層学習を利用した音声強調
Yuma Koizumi
[DL輪読会]Towards End-to-End Prosody Transfer for Expressive Speech Synthesis wi...
[DL輪読会]Towards End-to-End Prosody Transfer for Expressive Speech Synthesis wi...
Deep Learning JP
JVS:フリーの日本語多数話者音声コーパス
JVS:フリーの日本語多数話者音声コーパス
Shinnosuke Takamichi
Recommended
音声感情認識の分野動向と実用化に向けたNTTの取り組み
音声感情認識の分野動向と実用化に向けたNTTの取り組み
Atsushi_Ando
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
Shinnosuke Takamichi
Nakai22sp03 presentation
Nakai22sp03 presentation
Yuki Saito
短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討
Shinnosuke Takamichi
音声合成のコーパスをつくろう
音声合成のコーパスをつくろう
Shinnosuke Takamichi
深層学習を利用した音声強調
深層学習を利用した音声強調
Yuma Koizumi
[DL輪読会]Towards End-to-End Prosody Transfer for Expressive Speech Synthesis wi...
[DL輪読会]Towards End-to-End Prosody Transfer for Expressive Speech Synthesis wi...
Deep Learning JP
JVS:フリーの日本語多数話者音声コーパス
JVS:フリーの日本語多数話者音声コーパス
Shinnosuke Takamichi
深層生成モデルに基づく音声合成技術
深層生成モデルに基づく音声合成技術
NU_I_TODALAB
論文紹介 wav2vec: Unsupervised Pre-training for Speech Recognition
論文紹介 wav2vec: Unsupervised Pre-training for Speech Recognition
YosukeKashiwagi1
マルチモーダル深層学習の研究動向
マルチモーダル深層学習の研究動向
Koichiro Mori
Onoma-to-wave: オノマトペを利用した環境音合成手法の提案
Onoma-to-wave: オノマトペを利用した環境音合成手法の提案
Keisuke Imoto
GAN-based statistical speech synthesis (in Japanese)
GAN-based statistical speech synthesis (in Japanese)
Yuki Saito
Nishimura22slp03 presentation
Nishimura22slp03 presentation
Yuki Saito
研究発表のためのプレゼンテーション技術
研究発表のためのプレゼンテーション技術
Shinnosuke Takamichi
近接分離最適化によるブラインド⾳源分離(Blind source separation via proximal splitting algorithm)
近接分離最適化によるブラインド⾳源分離(Blind source separation via proximal splitting algorithm)
Daichi Kitamura
Interspeech2022 参加報告
Interspeech2022 参加報告
Yuki Saito
統計的手法に基づく異常音検知の理論と応用
統計的手法に基づく異常音検知の理論と応用
Yuma Koizumi
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
joisino
Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討
Shinnosuke Takamichi
言語モデル入門 (第二版)
言語モデル入門 (第二版)
Yoshinari Fujinuma
それでも私が研究を続ける理由
それでも私が研究を続ける理由
Hitomi Yanaka
東京大学2021年度深層学習(Deep learning基礎講座2021) 第8回「深層学習と自然言語処理」
東京大学2021年度深層学習(Deep learning基礎講座2021) 第8回「深層学習と自然言語処理」
Hitomi Yanaka
統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展
Shinnosuke Takamichi
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)
Shinnosuke Takamichi
Neural text-to-speech and voice conversion
Neural text-to-speech and voice conversion
Yuki Saito
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
Shinnosuke Takamichi
日本語モーラの持続時間長: 単音節語提示による知覚実験(JSLS2015)
日本語モーラの持続時間長: 単音節語提示による知覚実験(JSLS2015)
Kosuke Sugai
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
Shinnosuke Takamichi
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
Shinnosuke Takamichi
More Related Content
What's hot
深層生成モデルに基づく音声合成技術
深層生成モデルに基づく音声合成技術
NU_I_TODALAB
論文紹介 wav2vec: Unsupervised Pre-training for Speech Recognition
論文紹介 wav2vec: Unsupervised Pre-training for Speech Recognition
YosukeKashiwagi1
マルチモーダル深層学習の研究動向
マルチモーダル深層学習の研究動向
Koichiro Mori
Onoma-to-wave: オノマトペを利用した環境音合成手法の提案
Onoma-to-wave: オノマトペを利用した環境音合成手法の提案
Keisuke Imoto
GAN-based statistical speech synthesis (in Japanese)
GAN-based statistical speech synthesis (in Japanese)
Yuki Saito
Nishimura22slp03 presentation
Nishimura22slp03 presentation
Yuki Saito
研究発表のためのプレゼンテーション技術
研究発表のためのプレゼンテーション技術
Shinnosuke Takamichi
近接分離最適化によるブラインド⾳源分離(Blind source separation via proximal splitting algorithm)
近接分離最適化によるブラインド⾳源分離(Blind source separation via proximal splitting algorithm)
Daichi Kitamura
Interspeech2022 参加報告
Interspeech2022 参加報告
Yuki Saito
統計的手法に基づく異常音検知の理論と応用
統計的手法に基づく異常音検知の理論と応用
Yuma Koizumi
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
joisino
Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討
Shinnosuke Takamichi
言語モデル入門 (第二版)
言語モデル入門 (第二版)
Yoshinari Fujinuma
それでも私が研究を続ける理由
それでも私が研究を続ける理由
Hitomi Yanaka
東京大学2021年度深層学習(Deep learning基礎講座2021) 第8回「深層学習と自然言語処理」
東京大学2021年度深層学習(Deep learning基礎講座2021) 第8回「深層学習と自然言語処理」
Hitomi Yanaka
統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展
Shinnosuke Takamichi
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)
Shinnosuke Takamichi
Neural text-to-speech and voice conversion
Neural text-to-speech and voice conversion
Yuki Saito
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
Shinnosuke Takamichi
日本語モーラの持続時間長: 単音節語提示による知覚実験(JSLS2015)
日本語モーラの持続時間長: 単音節語提示による知覚実験(JSLS2015)
Kosuke Sugai
What's hot
(20)
深層生成モデルに基づく音声合成技術
深層生成モデルに基づく音声合成技術
論文紹介 wav2vec: Unsupervised Pre-training for Speech Recognition
論文紹介 wav2vec: Unsupervised Pre-training for Speech Recognition
マルチモーダル深層学習の研究動向
マルチモーダル深層学習の研究動向
Onoma-to-wave: オノマトペを利用した環境音合成手法の提案
Onoma-to-wave: オノマトペを利用した環境音合成手法の提案
GAN-based statistical speech synthesis (in Japanese)
GAN-based statistical speech synthesis (in Japanese)
Nishimura22slp03 presentation
Nishimura22slp03 presentation
研究発表のためのプレゼンテーション技術
研究発表のためのプレゼンテーション技術
近接分離最適化によるブラインド⾳源分離(Blind source separation via proximal splitting algorithm)
近接分離最適化によるブラインド⾳源分離(Blind source separation via proximal splitting algorithm)
Interspeech2022 参加報告
Interspeech2022 参加報告
統計的手法に基づく異常音検知の理論と応用
統計的手法に基づく異常音検知の理論と応用
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討
言語モデル入門 (第二版)
言語モデル入門 (第二版)
それでも私が研究を続ける理由
それでも私が研究を続ける理由
東京大学2021年度深層学習(Deep learning基礎講座2021) 第8回「深層学習と自然言語処理」
東京大学2021年度深層学習(Deep learning基礎講座2021) 第8回「深層学習と自然言語処理」
統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)
Neural text-to-speech and voice conversion
Neural text-to-speech and voice conversion
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
日本語モーラの持続時間長: 単音節語提示による知覚実験(JSLS2015)
日本語モーラの持続時間長: 単音節語提示による知覚実験(JSLS2015)
More from Shinnosuke Takamichi
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
Shinnosuke Takamichi
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
Shinnosuke Takamichi
国際会議 interspeech 2020 報告
国際会議 interspeech 2020 報告
Shinnosuke Takamichi
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
Shinnosuke Takamichi
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
Shinnosuke Takamichi
P J S: 音素バランスを考慮した日本語歌声コーパス
P J S: 音素バランスを考慮した日本語歌声コーパス
Shinnosuke Takamichi
音響モデル尤度に基づくsubword分割の韻律推定精度における評価
音響モデル尤度に基づくsubword分割の韻律推定精度における評価
Shinnosuke Takamichi
音声合成研究を加速させるためのコーパスデザイン
音声合成研究を加速させるためのコーパスデザイン
Shinnosuke Takamichi
論文紹介 Unsupervised training of neural mask-based beamforming
論文紹介 Unsupervised training of neural mask-based beamforming
Shinnosuke Takamichi
論文紹介 Building the Singapore English National Speech Corpus
論文紹介 Building the Singapore English National Speech Corpus
Shinnosuke Takamichi
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
Shinnosuke Takamichi
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
Shinnosuke Takamichi
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
Shinnosuke Takamichi
音声合成・変換の国際コンペティションへの 参加を振り返って
音声合成・変換の国際コンペティションへの 参加を振り返って
Shinnosuke Takamichi
ユーザ歌唱のための generative moment matching network に基づく neural double-tracking
ユーザ歌唱のための generative moment matching network に基づく neural double-tracking
Shinnosuke Takamichi
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
Shinnosuke Takamichi
統計的ボイチェン研究事情
統計的ボイチェン研究事情
Shinnosuke Takamichi
音声コーパス設計と次世代音声研究に向けた提言
音声コーパス設計と次世代音声研究に向けた提言
Shinnosuke Takamichi
多様なカートシスを持つ雑音に対応した低ミュージカルノイズ DNN 音声強調
多様なカートシスを持つ雑音に対応した低ミュージカルノイズ DNN 音声強調
Shinnosuke Takamichi
End-to-end 韻律推定に向けた subword lattice 構造を考慮した DNN 音響モデル学習
End-to-end 韻律推定に向けた subword lattice 構造を考慮した DNN 音響モデル学習
Shinnosuke Takamichi
More from Shinnosuke Takamichi
(20)
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
国際会議 interspeech 2020 報告
国際会議 interspeech 2020 報告
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
P J S: 音素バランスを考慮した日本語歌声コーパス
P J S: 音素バランスを考慮した日本語歌声コーパス
音響モデル尤度に基づくsubword分割の韻律推定精度における評価
音響モデル尤度に基づくsubword分割の韻律推定精度における評価
音声合成研究を加速させるためのコーパスデザイン
音声合成研究を加速させるためのコーパスデザイン
論文紹介 Unsupervised training of neural mask-based beamforming
論文紹介 Unsupervised training of neural mask-based beamforming
論文紹介 Building the Singapore English National Speech Corpus
論文紹介 Building the Singapore English National Speech Corpus
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
音声合成・変換の国際コンペティションへの 参加を振り返って
音声合成・変換の国際コンペティションへの 参加を振り返って
ユーザ歌唱のための generative moment matching network に基づく neural double-tracking
ユーザ歌唱のための generative moment matching network に基づく neural double-tracking
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
統計的ボイチェン研究事情
統計的ボイチェン研究事情
音声コーパス設計と次世代音声研究に向けた提言
音声コーパス設計と次世代音声研究に向けた提言
多様なカートシスを持つ雑音に対応した低ミュージカルノイズ DNN 音声強調
多様なカートシスを持つ雑音に対応した低ミュージカルノイズ DNN 音声強調
End-to-end 韻律推定に向けた subword lattice 構造を考慮した DNN 音響モデル学習
End-to-end 韻律推定に向けた subword lattice 構造を考慮した DNN 音響モデル学習
Recently uploaded
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
FumieNakayama
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet
Toru Tamaki
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものです
iPride Co., Ltd.
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
Hiroki Ichikura
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Yuma Ohgami
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
sugiuralab
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
FumieNakayama
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
UEHARA, Tetsutaro
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
Toru Tamaki
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey
Toru Tamaki
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
博三 太田
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdf
taisei2219
Recently uploaded
(12)
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものです
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdf
外国人留学生日本語の音声合成における話者性を保持した韻律補正
1.
03/06/2019©Daiki Sekizawa, The University
of Tokyo 外国人留学生日本語の音声合成における 話者性を保持した韻律補正 ☆関澤 太樹 (東京大学) 高道 慎之介,猿渡 洋 (東大院・情報理工) 音響学会 2019春 2-10-2 (2019/03/06)
2.
/12 概要 背景:ノンネイティブ音声のテキスト音声合成 – 利点:当該話者の話者性を強く反映 –
欠点:合成音声の自然性を大きく劣化 従来法:日本人英語の音声合成のための韻律補正 [Oshima16] – 日本語と英語の韻律(強勢・リズム)の違いに着目 – HMM音声合成 [Tokuda13] における部分的なモデル適応 • この枠組みは,他の言語ペアでも有効か? 提案法:中国人留学生日本語の音声合成のための韻律補正 – 中国語と日本語の韻律の違いに着目し,部分的モデル適応 2 日本語合成音声の話者性を保持したまま,自然性を大幅に改善
3.
/12 HMM音声合成 3 [Tokuda13] テキスト 収録音声 テキスト 解析 音声分析 スペクトル 音源 パワー 継続長 話者依存 HMMデータベース テキスト 合成音声 テキスト 解析 音声合成 学習部 生成部
4.
/12 日本人英語の音声合成のための 韻律補正 韻律の違い – 日本語:モーラ等時性・ピッチアクセント –
英語:ストレス等時性・ストレスアクセント 韻律補正法 – 英語母語話者の韻律を利用 4 [Oshima16] 英語母語話者の HMM 英語母語話者の 英語音声 日本語母語話者の 英語音声 韻律を補正した 日本語母語話者の HMM スペクトル 音源 パワー 継続長 スペクトル 音源 パワー 継続長 モデル 適応 パワーと継続長を 補正すればよい!
5.
提案法: 中国人留学生日本語の音声合成の ための韻律補正 5
6.
/12 中国人留学生日本語の音声合成のための 韻律補正 韻律の違い – 中国語:シラブル等時性・声調 –
日本語:モーラ等時性・ピッチアクセント 韻律補正法 – 日本語母語話者の韻律を利用 6 日本語母語話者の HMM 日本語母語話者の 日本語音声 中国人留学生の 日本語音声 韻律を補正した 中国人留学生の HMM スペクトル 音源 パワー 継続長 スペクトル 音源 パワー 継続長 適応 F0と継続長を 補正すればよい! 適応
7.
/12 更なる適応法の検討 個人性知覚への影響が小さい動的特徴量の保持を検討 最終的に,以下の5パターンについて日本語母語話者のHMM パラメータの保持を検討 –
1. F0の動的特徴量 – 2. メルケプストラムの動的特徴量 – 3. パワーの静的・動的特徴量 [Oshima16] – 4. 音素継続長 [Oshima16] – 5. F0の静的・動的特徴量 • 合成時に対数F0を線形変換して留学生のF0レンジに変換[Toda07] 7 中国語と日本語の韻律の違いに由来
8.
実験的評価 留学生の日本語習熟度に依らず, 話者性を保持したまま自然性を改善できる? 8
9.
/12 実験条件 9 日本語母語話者の 音声データ JSUTコーパス[Sonobe17]に含まれる 単一女性話者による5,000文 中国人留学生の 音声データ UME-JRFコーパス [Nishina02] に含まれる 女性話者4名による約220文 評価データ
UME-JRFコーパス 30文 HMM学習・ 音声分析条件 従来研究 [Oshima16] と同じ. STRAIGHT [Kawahara99] を使用. 留学生の選択法と 日本語習熟度 コーパス中の習熟度(5点満点)に基づき, 低~高習熟度の留学生を選択 F1: 1.50, F2: 2.60, F3: 3.20, F4: 4.05
10.
/12 自然性に関するプリファレンスABテスト (クラウドソーシングにより25名で評価) 10 継続長補正は習熟度に依らず自然性を改善 F0補正は習熟度の高い1話者のみで有効 補正なし 補正あり * p <
.05
11.
/12 話者性に関するプリファレンスXABテスト (クラウドソーシングにより25名で評価) 11 継続長・F0補正は,1話者を除き話者性を保持 補正なし 補正あり * p <
.05
12.
/12 まとめ 目的 – 中国人留学生日本語の音声合成のための韻律補正
提案法 – HMM音声合成における部分的なモデル適応 – 日本語母語話者のF0・音素継続長・動的特徴量を保持 結果 – F0と音素継続長は,話者性を保持したまま自然性を改善 – 動的特徴量は有効ではない 今後の予定 – F0・音素継続長の両方を補正した音声の評価 12
13.
/12 [補足] プリファレンスAB/XABテスト (クラウドソーシングにより25名で評価) 13 音素継続長を保持した上での, F0補正の効果を検討 F0補正は全話者で有効 音素継続長のみ補正 音素継続長とF0を ともに補正 *
p < .05
Editor's Notes
cambridge 座長の人が, 「〜です、よろしくお願いします」 ご紹介ありがとうございます 東京大学の関澤が, このタイトルで発表いたします [メモ: 音声をくっけること]
[ここでいうような, ノンネイティブのそれは, 学習者ということ] [目的や社会的意義は???] [唐突じゃね] 一般に, ノンネイティブ話者の音声を用いたテキスト音声合成では, 当該話者の話者性は強く反映される一方で, 合成音声の, 言語としての自然性は大きく劣化されます. [母語の影響により, という理由説明を含める] この点に対して, 日本人英語学習者の音声合成を目的とした過去の研究では, 日本語と英語の韻律の違いに着目して, 隠れマルコフモデル, HMMの部分的なモデル適応により韻律補正を施し, 日本人英語学習者の英語合成音声を, 当該話者の話者性を保持したまま, その自然性を改善することが可能であるとされました. 「このような, HMMの部分的モデル適応による韻律補正の手法は, 他の言語の組み合わせでも, 有効である可能性が考えられます」 本発表では, この手法を中国人留学生の日本語の音声合成の韻律補正へと応用することにより, 話者性を保持したまま, 言語としての自然性の改善が可能であることを示します. 中国語と日本語の韻律の違いに着目してHMMの部分的のモデル適応を行うことにより, 当該話者の話者性を保持したまま, 自然性を大幅に改善することが可能となります. [他の言語ペアでも有効であるかどうか, の流れ] [実験的評価で, 話者性自然性が改善できることを示します]
[ここで何を説明すべきなのか] ・本研究では, HMM音声合成を利用しました. [聞いている人は, HMM音声合成の枠組みを説明する: 学習部で, どのような処理で何が出来上がるのか. ] 1分くらい使う まず、全体を説明して, 細かいところに入る 大枠: 学習部と生成部があるということをいう 学習部: テキストと収録音声 それに対して, テキスト解析, 音声分析 その結果HMMが出来上がる 音声特徴量は.... 合成部では, [採用します: 基本的に, 理論では, 現在形になる, 結果の報告などは過去形になる] ---------------------------------------------- HMMを用いた音声合成について説明いたします. 音声合成器は, 学習部と合成部によって構成されます. 学習部では, 学習データとして, 収録された音声と, それに対応するテキストを用意します. これらのデータをもとに, テキスト解析により音素列, 音声分析により特徴量の分析を行い, 結果得られたデータをもとに, 話者依存のHMMが作成されます. ここで, HMMにおける特徴量は, スペクトル, 音源, パワー, 継続長を用いました. 生成部では, 学習されたHMMを用いて, テキストを入力, 合成音声を出力とするような音声合成を行います テキストを解析することによって得られる音素列をHMMの入力とすることにより, 音声特徴量が出力され, それを合成することによって, 合成音声が得られます. [学習部では, 学習データとして, テキスト、および, それに対応する収録音声を用意します. テキストデータを解析することにより, 対応する音素列が得られます. また, 収録音声を分析することにより, 基本周波数, メルケプトラム, 等の音声特徴量が得られます. これらの解析の結果得られたデータを用いて, 話者依存のHMMが学習されます.]
続いて, 日本人英語の音声合成の韻律補正, およびそれを可能とする, HMMの部分的なモデル適応について説明します. ノンネイティブ音声の韻律は, 発話者の母語の影響を受けます. 日本語と英語の韻律の違いとしては, 日本語は, モーラ等時性・ピッチアクセント言語であり, 一方で, 英語は, ストレス等時性・ストレスアクセント言語である, ということが挙げられます. したがって, 日本人英語学習者の合成音声のうち, パワーと継続長を補正することが有効となります. 韻律の補正は, HMMの部分的なモデル適応によってなされます. まず, 英語母語話者のHMMを学習によって生成します. この英語母語話者のHMMをモデル適応することによって, 日本語母語話者のHMMが得られます. (このモデル適応において, パラメータの一部をモデル適応せずに英語母語話者のものを保持することにより, 韻律の補正が可能となります. ) このモデル適応において, 英語と日本語の韻律的な違いを反映する, パワーと継続長を, 日本語話者のパラメータに適応せずに英語母語話者のパラメータを保持することにより, 部分的なモデル適応を行います. これにより, 話者性を反映するとされるスペクトルと音源パラメータを日本語母語話者のものとしつつ, 自然性を反映するとされるパワーと継続長を英語母語話者のものとするようなHMMが作られます.(ここは順序を先に開いた方が良き) 当該話者の話者性を保持しつつ, 自然性を改善した音声合成が可能となります, [母語の学習を言わないとダメ] [モーラ↓の発音 モーラ↑等時性] [何でこの方向なのか: ] [モデル適応のやり方は理解しておきたい. CSMAPLR & MAPとは??: 適応行列Aとバイアスベクトルbを, 最尤推定することによって求められる. ]
本発表では, この手法を, 中国人留学生の日本語の音声合成の韻律補正へと応用します.
中国語は, シラブル等時性・声調言語であり, 日本語は, モーラ等時性・ピッチアクセント言語であることを踏まえると, 基本周波数f0と継続長の補正が有効であると予測されます. したがって, 日本語母語話者のデータにより学習のなされたHMMの, 中国人留学生のHMMへのモデル適応では, f0と継続長のパラメータを適応せずに保持します. [母語の学習の話をする]
さらに, 本研究では, さらに3パターン, 合計5パターンのパラメータの保持を検討しました. 話者性への影響が少ないとされる, 動的特徴量を保持したパターン1, 2, と, 日本人英語音声合成の補正で有効であったパワーを保持したパターン3, 中国語と日本語の韻律の違いから有効であると予測されるパターン4, 5で検証しました. また, パターン5では, 合成時に日本語母語話者のパラメータが保持されたHMMで生成された, 対数f0に線形変換を施すことにより, 留学生のf0レンジに変換しました. [パターンを指す: こつ: レーザーポインタは見ている人にはわかりにくい ゆっくり円を描くように指す] スライドを修正して, 一行目のそれを, 1,2の横に書く
以上の5パターンでの部分的モデル適応において, 自然性と話者性の観点から実験的評価を行いました. 以上の5パターンでの部分的モデル適応において, 実験的評価を行いました 実験的評価では, 留学生の日本語習熟度によらず, 話者性を保持したまま自然性が改善できるか, が検証されました. [s目的をいう] 留学生の日本語習熟度によらず, 話者性を保持したまま, 自然性の改善が可能であるかどうか,
実験条件について説明します 日本語母語話者のHMMは, JSUTコーパス[読み方を確認する]に含まれる単一女性話者5000文によって学習がなされました. 中国人留学生のHMMのモデル適応は, JSUT ペタッと読む ジェースット UME ユーエムイージェーアールエフ 評価データが学習データと別であることは言わなくていい
[F0についての言い訳も必要] [話者性] [まず, 中国人留学生の自然音声を流します, 次に3連続で, 補正なし, 音素継続長, f0を順に流す(連続で、先に説明した上で). 聞いていただいてわかった通り, 改善されていることを] 自然性についてのプリファレンスABテストをクラウドソーシングにより実施しました. その結果について説明します. 継続長補正は学習者の習熟度によらず, 自然性を改善しました. F0補正は, 習熟度の高い話者1名のみで有効でした また, 動的特徴量補正, パワー補正はいずれも有効ではありませんでした [図と文字を大きくする] ABテストでは, それぞれの補正方法について, 補正ありの音声と補正なしの音声を被験者が聴き比べます. そして, 補正ありの音声と補正なしの音声のうち, どちらが言語としての自然性が高かったか, を判定します. グラフの青い部分は, 補正ありの音声の方が自然だったと回答した割合, 灰色の部分は, 補正なしの音声の方が自然だったと回答した割合, を表します. [パワポの上のメニューバーをなんとかする] [correction] [Δとか言わずに, パターン1,2,..5の説明のページに合わせる] [no correctionの説明も] [図を出したら必ず説明する] [例えば, 一番左は, f0のみを補正したものと, 何も補正しなかったもの] [左下に, アスタリスクの説明] [音声を貼る f2 f3 dur] 3つ, 補正ありと補正なしと, 自然音性 [グラフのそばに]
また, 話者性に関するプリファレンスXABテストを実施しました 継続長補正, f0補正は, 1話者を除き話者性が保持されました. [前のページに合わせる]
[参考文献のスライドは必要だろうか] 本研究では, 中国人留学生の日本語の音声合成の韻律補正を, HMMの部分的なモデル適応により行いました. F0, 音素継続長, 動的特徴量のそれぞれを保持して部分的なモデル適応したHMMにより, 評価実験を行いました. 結果として, f0と音素継続長を保持することにより, 話者性を保ったまま自然性を改善することができる, と言うことが示唆されました また, 動的特徴量の保持は有効ではありませんでした 今後の予定としては, f0, 音素継続長の両方を補正した音声の評価が考えられます. [セリフはちゃんと覚えよう、できるだけ詰まることがないように] [10分間は追加質問タイム. フリーディスカッション. 3分で聴けなかった内容を聞ける. それが終わったら帰れる. ]
Download now