SlideShare a Scribd company logo
1 of 13
03/06/2019©Daiki Sekizawa,
The University of Tokyo
外国人留学生日本語の音声合成における
話者性を保持した韻律補正
☆関澤 太樹 (東京大学)
高道 慎之介,猿渡 洋 (東大院・情報理工)
音響学会 2019春 2-10-2 (2019/03/06)
/12
概要
 背景:ノンネイティブ音声のテキスト音声合成
– 利点:当該話者の話者性を強く反映
– 欠点:合成音声の自然性を大きく劣化
 従来法:日本人英語の音声合成のための韻律補正 [Oshima16]
– 日本語と英語の韻律(強勢・リズム)の違いに着目
– HMM音声合成 [Tokuda13] における部分的なモデル適応
• この枠組みは,他の言語ペアでも有効か?
 提案法:中国人留学生日本語の音声合成のための韻律補正
– 中国語と日本語の韻律の違いに着目し,部分的モデル適応
2
日本語合成音声の話者性を保持したまま,自然性を大幅に改善
/12
HMM音声合成
3
[Tokuda13]
テキスト 収録音声
テキスト
解析
音声分析
スペクトル
音源
パワー
継続長
話者依存
HMMデータベース
テキスト 合成音声
テキスト
解析
音声合成
学習部
生成部
/12
日本人英語の音声合成のための
韻律補正
 韻律の違い
– 日本語:モーラ等時性・ピッチアクセント
– 英語:ストレス等時性・ストレスアクセント
 韻律補正法
– 英語母語話者の韻律を利用
4
[Oshima16]
英語母語話者の
HMM
英語母語話者の
英語音声
日本語母語話者の
英語音声
韻律を補正した
日本語母語話者の
HMM
スペクトル
音源
パワー
継続長
スペクトル
音源
パワー
継続長
モデル
適応
パワーと継続長を
補正すればよい!
提案法:
中国人留学生日本語の音声合成の
ための韻律補正
5
/12
中国人留学生日本語の音声合成のための
韻律補正
 韻律の違い
– 中国語:シラブル等時性・声調
– 日本語:モーラ等時性・ピッチアクセント
 韻律補正法
– 日本語母語話者の韻律を利用
6
日本語母語話者の
HMM
日本語母語話者の
日本語音声
中国人留学生の
日本語音声
韻律を補正した
中国人留学生の
HMM
スペクトル
音源
パワー
継続長
スペクトル
音源
パワー
継続長
適応
F0と継続長を
補正すればよい!
適応
/12
更なる適応法の検討
 個人性知覚への影響が小さい動的特徴量の保持を検討
 最終的に,以下の5パターンについて日本語母語話者のHMM
パラメータの保持を検討
– 1. F0の動的特徴量
– 2. メルケプストラムの動的特徴量
– 3. パワーの静的・動的特徴量 [Oshima16]
– 4. 音素継続長 [Oshima16]
– 5. F0の静的・動的特徴量
• 合成時に対数F0を線形変換して留学生のF0レンジに変換[Toda07]
7
中国語と日本語の韻律の違いに由来
実験的評価
留学生の日本語習熟度に依らず,
話者性を保持したまま自然性を改善できる?
8
/12
実験条件
9
日本語母語話者の
音声データ
JSUTコーパス[Sonobe17]に含まれる
単一女性話者による5,000文
中国人留学生の
音声データ
UME-JRFコーパス [Nishina02] に含まれる
女性話者4名による約220文
評価データ UME-JRFコーパス 30文
HMM学習・
音声分析条件
従来研究 [Oshima16] と同じ.
STRAIGHT [Kawahara99] を使用.
留学生の選択法と
日本語習熟度
コーパス中の習熟度(5点満点)に基づき,
低~高習熟度の留学生を選択
F1: 1.50, F2: 2.60, F3: 3.20, F4: 4.05
/12
自然性に関するプリファレンスABテスト
(クラウドソーシングにより25名で評価)
10
継続長補正は習熟度に依らず自然性を改善
F0補正は習熟度の高い1話者のみで有効
補正なし
補正あり
* p < .05
/12
話者性に関するプリファレンスXABテスト
(クラウドソーシングにより25名で評価)
11
継続長・F0補正は,1話者を除き話者性を保持
補正なし
補正あり
* p < .05
/12
まとめ
 目的
– 中国人留学生日本語の音声合成のための韻律補正
 提案法
– HMM音声合成における部分的なモデル適応
– 日本語母語話者のF0・音素継続長・動的特徴量を保持
 結果
– F0と音素継続長は,話者性を保持したまま自然性を改善
– 動的特徴量は有効ではない
 今後の予定
– F0・音素継続長の両方を補正した音声の評価
12
/12
[補足] プリファレンスAB/XABテスト
(クラウドソーシングにより25名で評価)
13
音素継続長を保持した上での, F0補正の効果を検討
F0補正は全話者で有効
音素継続長のみ補正
音素継続長とF0を
ともに補正
* p < .05

More Related Content

What's hot

深層生成モデルに基づく音声合成技術
深層生成モデルに基づく音声合成技術深層生成モデルに基づく音声合成技術
深層生成モデルに基づく音声合成技術NU_I_TODALAB
 
論文紹介 wav2vec: Unsupervised Pre-training for Speech Recognition
論文紹介  wav2vec: Unsupervised Pre-training for Speech Recognition論文紹介  wav2vec: Unsupervised Pre-training for Speech Recognition
論文紹介 wav2vec: Unsupervised Pre-training for Speech RecognitionYosukeKashiwagi1
 
マルチモーダル深層学習の研究動向
マルチモーダル深層学習の研究動向マルチモーダル深層学習の研究動向
マルチモーダル深層学習の研究動向Koichiro Mori
 
Onoma-to-wave: オノマトペを利用した環境音合成手法の提案
Onoma-to-wave: オノマトペを利用した環境音合成手法の提案Onoma-to-wave: オノマトペを利用した環境音合成手法の提案
Onoma-to-wave: オノマトペを利用した環境音合成手法の提案Keisuke Imoto
 
GAN-based statistical speech synthesis (in Japanese)
GAN-based statistical speech synthesis (in Japanese)GAN-based statistical speech synthesis (in Japanese)
GAN-based statistical speech synthesis (in Japanese)Yuki Saito
 
Nishimura22slp03 presentation
Nishimura22slp03 presentationNishimura22slp03 presentation
Nishimura22slp03 presentationYuki Saito
 
研究発表のためのプレゼンテーション技術
研究発表のためのプレゼンテーション技術研究発表のためのプレゼンテーション技術
研究発表のためのプレゼンテーション技術Shinnosuke Takamichi
 
近接分離最適化によるブラインド⾳源分離(Blind source separation via proximal splitting algorithm)
近接分離最適化によるブラインド⾳源分離(Blind source separation via proximal splitting algorithm)近接分離最適化によるブラインド⾳源分離(Blind source separation via proximal splitting algorithm)
近接分離最適化によるブラインド⾳源分離(Blind source separation via proximal splitting algorithm)Daichi Kitamura
 
Interspeech2022 参加報告
Interspeech2022 参加報告Interspeech2022 参加報告
Interspeech2022 参加報告Yuki Saito
 
統計的手法に基づく異常音検知の理論と応用
統計的手法に基づく異常音検知の理論と応用統計的手法に基づく異常音検知の理論と応用
統計的手法に基づく異常音検知の理論と応用Yuma Koizumi
 
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...joisino
 
Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討Shinnosuke Takamichi
 
言語モデル入門 (第二版)
言語モデル入門 (第二版)言語モデル入門 (第二版)
言語モデル入門 (第二版)Yoshinari Fujinuma
 
それでも私が研究を続ける理由
それでも私が研究を続ける理由それでも私が研究を続ける理由
それでも私が研究を続ける理由Hitomi Yanaka
 
東京大学2021年度深層学習(Deep learning基礎講座2021) 第8回「深層学習と自然言語処理」
東京大学2021年度深層学習(Deep learning基礎講座2021) 第8回「深層学習と自然言語処理」東京大学2021年度深層学習(Deep learning基礎講座2021) 第8回「深層学習と自然言語処理」
東京大学2021年度深層学習(Deep learning基礎講座2021) 第8回「深層学習と自然言語処理」Hitomi Yanaka
 
統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展Shinnosuke Takamichi
 
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)Shinnosuke Takamichi
 
Neural text-to-speech and voice conversion
Neural text-to-speech and voice conversionNeural text-to-speech and voice conversion
Neural text-to-speech and voice conversionYuki Saito
 
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)Shinnosuke Takamichi
 
日本語モーラの持続時間長: 単音節語提示による知覚実験(JSLS2015)
日本語モーラの持続時間長: 単音節語提示による知覚実験(JSLS2015)日本語モーラの持続時間長: 単音節語提示による知覚実験(JSLS2015)
日本語モーラの持続時間長: 単音節語提示による知覚実験(JSLS2015)Kosuke Sugai
 

What's hot (20)

深層生成モデルに基づく音声合成技術
深層生成モデルに基づく音声合成技術深層生成モデルに基づく音声合成技術
深層生成モデルに基づく音声合成技術
 
論文紹介 wav2vec: Unsupervised Pre-training for Speech Recognition
論文紹介  wav2vec: Unsupervised Pre-training for Speech Recognition論文紹介  wav2vec: Unsupervised Pre-training for Speech Recognition
論文紹介 wav2vec: Unsupervised Pre-training for Speech Recognition
 
マルチモーダル深層学習の研究動向
マルチモーダル深層学習の研究動向マルチモーダル深層学習の研究動向
マルチモーダル深層学習の研究動向
 
Onoma-to-wave: オノマトペを利用した環境音合成手法の提案
Onoma-to-wave: オノマトペを利用した環境音合成手法の提案Onoma-to-wave: オノマトペを利用した環境音合成手法の提案
Onoma-to-wave: オノマトペを利用した環境音合成手法の提案
 
GAN-based statistical speech synthesis (in Japanese)
GAN-based statistical speech synthesis (in Japanese)GAN-based statistical speech synthesis (in Japanese)
GAN-based statistical speech synthesis (in Japanese)
 
Nishimura22slp03 presentation
Nishimura22slp03 presentationNishimura22slp03 presentation
Nishimura22slp03 presentation
 
研究発表のためのプレゼンテーション技術
研究発表のためのプレゼンテーション技術研究発表のためのプレゼンテーション技術
研究発表のためのプレゼンテーション技術
 
近接分離最適化によるブラインド⾳源分離(Blind source separation via proximal splitting algorithm)
近接分離最適化によるブラインド⾳源分離(Blind source separation via proximal splitting algorithm)近接分離最適化によるブラインド⾳源分離(Blind source separation via proximal splitting algorithm)
近接分離最適化によるブラインド⾳源分離(Blind source separation via proximal splitting algorithm)
 
Interspeech2022 参加報告
Interspeech2022 参加報告Interspeech2022 参加報告
Interspeech2022 参加報告
 
統計的手法に基づく異常音検知の理論と応用
統計的手法に基づく異常音検知の理論と応用統計的手法に基づく異常音検知の理論と応用
統計的手法に基づく異常音検知の理論と応用
 
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
 
Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討
 
言語モデル入門 (第二版)
言語モデル入門 (第二版)言語モデル入門 (第二版)
言語モデル入門 (第二版)
 
それでも私が研究を続ける理由
それでも私が研究を続ける理由それでも私が研究を続ける理由
それでも私が研究を続ける理由
 
東京大学2021年度深層学習(Deep learning基礎講座2021) 第8回「深層学習と自然言語処理」
東京大学2021年度深層学習(Deep learning基礎講座2021) 第8回「深層学習と自然言語処理」東京大学2021年度深層学習(Deep learning基礎講座2021) 第8回「深層学習と自然言語処理」
東京大学2021年度深層学習(Deep learning基礎講座2021) 第8回「深層学習と自然言語処理」
 
統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展
 
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)
 
Neural text-to-speech and voice conversion
Neural text-to-speech and voice conversionNeural text-to-speech and voice conversion
Neural text-to-speech and voice conversion
 
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
 
日本語モーラの持続時間長: 単音節語提示による知覚実験(JSLS2015)
日本語モーラの持続時間長: 単音節語提示による知覚実験(JSLS2015)日本語モーラの持続時間長: 単音節語提示による知覚実験(JSLS2015)
日本語モーラの持続時間長: 単音節語提示による知覚実験(JSLS2015)
 

More from Shinnosuke Takamichi

J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパスJ-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパスShinnosuke Takamichi
 
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法Shinnosuke Takamichi
 
国際会議 interspeech 2020 報告
国際会議 interspeech 2020 報告国際会議 interspeech 2020 報告
国際会議 interspeech 2020 報告Shinnosuke Takamichi
 
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
Interspeech 2020 読み会 "Incremental Text to Speech for Neural  Sequence-to-Sequ...Interspeech 2020 読み会 "Incremental Text to Speech for Neural  Sequence-to-Sequ...
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...Shinnosuke Takamichi
 
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価Shinnosuke Takamichi
 
P J S: 音素バランスを考慮した日本語歌声コーパス
P J S: 音素バランスを考慮した日本語歌声コーパスP J S: 音素バランスを考慮した日本語歌声コーパス
P J S: 音素バランスを考慮した日本語歌声コーパスShinnosuke Takamichi
 
音響モデル尤度に基づくsubword分割の韻律推定精度における評価
音響モデル尤度に基づくsubword分割の韻律推定精度における評価音響モデル尤度に基づくsubword分割の韻律推定精度における評価
音響モデル尤度に基づくsubword分割の韻律推定精度における評価Shinnosuke Takamichi
 
音声合成研究を加速させるためのコーパスデザイン
音声合成研究を加速させるためのコーパスデザイン音声合成研究を加速させるためのコーパスデザイン
音声合成研究を加速させるためのコーパスデザインShinnosuke Takamichi
 
論文紹介 Unsupervised training of neural mask-based beamforming
論文紹介 Unsupervised training of neural  mask-based beamforming論文紹介 Unsupervised training of neural  mask-based beamforming
論文紹介 Unsupervised training of neural mask-based beamformingShinnosuke Takamichi
 
論文紹介 Building the Singapore English National Speech Corpus
論文紹介 Building the Singapore English National Speech Corpus論文紹介 Building the Singapore English National Speech Corpus
論文紹介 Building the Singapore English National Speech CorpusShinnosuke Takamichi
 
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource LanguagesShinnosuke Takamichi
 
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価Shinnosuke Takamichi
 
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定Shinnosuke Takamichi
 
音声合成・変換の国際コンペティションへの 参加を振り返って
音声合成・変換の国際コンペティションへの  参加を振り返って音声合成・変換の国際コンペティションへの  参加を振り返って
音声合成・変換の国際コンペティションへの 参加を振り返ってShinnosuke Takamichi
 
ユーザ歌唱のための generative moment matching network に基づく neural double-tracking
ユーザ歌唱のための generative moment matching network に基づく neural double-trackingユーザ歌唱のための generative moment matching network に基づく neural double-tracking
ユーザ歌唱のための generative moment matching network に基づく neural double-trackingShinnosuke Takamichi
 
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割Shinnosuke Takamichi
 
統計的ボイチェン研究事情
統計的ボイチェン研究事情統計的ボイチェン研究事情
統計的ボイチェン研究事情Shinnosuke Takamichi
 
音声コーパス設計と次世代音声研究に向けた提言
音声コーパス設計と次世代音声研究に向けた提言音声コーパス設計と次世代音声研究に向けた提言
音声コーパス設計と次世代音声研究に向けた提言Shinnosuke Takamichi
 
多様なカートシスを持つ雑音に対応した低ミュージカルノイズ DNN 音声強調
多様なカートシスを持つ雑音に対応した低ミュージカルノイズ DNN 音声強調多様なカートシスを持つ雑音に対応した低ミュージカルノイズ DNN 音声強調
多様なカートシスを持つ雑音に対応した低ミュージカルノイズ DNN 音声強調Shinnosuke Takamichi
 
End-to-end 韻律推定に向けた subword lattice 構造を考慮した DNN 音響モデル学習
End-to-end 韻律推定に向けた subword lattice 構造を考慮した DNN 音響モデル学習End-to-end 韻律推定に向けた subword lattice 構造を考慮した DNN 音響モデル学習
End-to-end 韻律推定に向けた subword lattice 構造を考慮した DNN 音響モデル学習Shinnosuke Takamichi
 

More from Shinnosuke Takamichi (20)

J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパスJ-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
 
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
 
国際会議 interspeech 2020 報告
国際会議 interspeech 2020 報告国際会議 interspeech 2020 報告
国際会議 interspeech 2020 報告
 
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
Interspeech 2020 読み会 "Incremental Text to Speech for Neural  Sequence-to-Sequ...Interspeech 2020 読み会 "Incremental Text to Speech for Neural  Sequence-to-Sequ...
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
 
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
 
P J S: 音素バランスを考慮した日本語歌声コーパス
P J S: 音素バランスを考慮した日本語歌声コーパスP J S: 音素バランスを考慮した日本語歌声コーパス
P J S: 音素バランスを考慮した日本語歌声コーパス
 
音響モデル尤度に基づくsubword分割の韻律推定精度における評価
音響モデル尤度に基づくsubword分割の韻律推定精度における評価音響モデル尤度に基づくsubword分割の韻律推定精度における評価
音響モデル尤度に基づくsubword分割の韻律推定精度における評価
 
音声合成研究を加速させるためのコーパスデザイン
音声合成研究を加速させるためのコーパスデザイン音声合成研究を加速させるためのコーパスデザイン
音声合成研究を加速させるためのコーパスデザイン
 
論文紹介 Unsupervised training of neural mask-based beamforming
論文紹介 Unsupervised training of neural  mask-based beamforming論文紹介 Unsupervised training of neural  mask-based beamforming
論文紹介 Unsupervised training of neural mask-based beamforming
 
論文紹介 Building the Singapore English National Speech Corpus
論文紹介 Building the Singapore English National Speech Corpus論文紹介 Building the Singapore English National Speech Corpus
論文紹介 Building the Singapore English National Speech Corpus
 
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
 
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
 
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
 
音声合成・変換の国際コンペティションへの 参加を振り返って
音声合成・変換の国際コンペティションへの  参加を振り返って音声合成・変換の国際コンペティションへの  参加を振り返って
音声合成・変換の国際コンペティションへの 参加を振り返って
 
ユーザ歌唱のための generative moment matching network に基づく neural double-tracking
ユーザ歌唱のための generative moment matching network に基づく neural double-trackingユーザ歌唱のための generative moment matching network に基づく neural double-tracking
ユーザ歌唱のための generative moment matching network に基づく neural double-tracking
 
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
 
統計的ボイチェン研究事情
統計的ボイチェン研究事情統計的ボイチェン研究事情
統計的ボイチェン研究事情
 
音声コーパス設計と次世代音声研究に向けた提言
音声コーパス設計と次世代音声研究に向けた提言音声コーパス設計と次世代音声研究に向けた提言
音声コーパス設計と次世代音声研究に向けた提言
 
多様なカートシスを持つ雑音に対応した低ミュージカルノイズ DNN 音声強調
多様なカートシスを持つ雑音に対応した低ミュージカルノイズ DNN 音声強調多様なカートシスを持つ雑音に対応した低ミュージカルノイズ DNN 音声強調
多様なカートシスを持つ雑音に対応した低ミュージカルノイズ DNN 音声強調
 
End-to-end 韻律推定に向けた subword lattice 構造を考慮した DNN 音響モデル学習
End-to-end 韻律推定に向けた subword lattice 構造を考慮した DNN 音響モデル学習End-to-end 韻律推定に向けた subword lattice 構造を考慮した DNN 音響モデル学習
End-to-end 韻律推定に向けた subword lattice 構造を考慮した DNN 音響モデル学習
 

Recently uploaded

クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfFumieNakayama
 
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNetToru Tamaki
 
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する       2024/04/19 の勉強会で発表されたものですSOPを理解する       2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものですiPride Co., Ltd.
 
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)Hiroki Ichikura
 
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Yuma Ohgami
 
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案sugiuralab
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfFumieNakayama
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)UEHARA, Tetsutaro
 
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...Toru Tamaki
 
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A surveyToru Tamaki
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...博三 太田
 
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdfTSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdftaisei2219
 

Recently uploaded (12)

クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
 
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet
 
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する       2024/04/19 の勉強会で発表されたものですSOPを理解する       2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものです
 
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
 
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
 
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
 
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
 
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
 
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdfTSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdf
 

外国人留学生日本語の音声合成における 話者性を保持した韻律補正

Editor's Notes

  1. cambridge 座長の人が, 「〜です、よろしくお願いします」 ご紹介ありがとうございます 東京大学の関澤が, このタイトルで発表いたします [メモ: 音声をくっけること]
  2. [ここでいうような, ノンネイティブのそれは, 学習者ということ] [目的や社会的意義は???] [唐突じゃね] 一般に, ノンネイティブ話者の音声を用いたテキスト音声合成では, 当該話者の話者性は強く反映される一方で, 合成音声の, 言語としての自然性は大きく劣化されます. [母語の影響により, という理由説明を含める] この点に対して, 日本人英語学習者の音声合成を目的とした過去の研究では, 日本語と英語の韻律の違いに着目して, 隠れマルコフモデル, HMMの部分的なモデル適応により韻律補正を施し, 日本人英語学習者の英語合成音声を, 当該話者の話者性を保持したまま, その自然性を改善することが可能であるとされました. 「このような, HMMの部分的モデル適応による韻律補正の手法は, 他の言語の組み合わせでも, 有効である可能性が考えられます」 本発表では, この手法を中国人留学生の日本語の音声合成の韻律補正へと応用することにより, 話者性を保持したまま, 言語としての自然性の改善が可能であることを示します. 中国語と日本語の韻律の違いに着目してHMMの部分的のモデル適応を行うことにより, 当該話者の話者性を保持したまま, 自然性を大幅に改善することが可能となります. [他の言語ペアでも有効であるかどうか, の流れ] [実験的評価で, 話者性自然性が改善できることを示します]
  3. [ここで何を説明すべきなのか] ・本研究では, HMM音声合成を利用しました. [聞いている人は, HMM音声合成の枠組みを説明する: 学習部で, どのような処理で何が出来上がるのか. ] 1分くらい使う まず、全体を説明して, 細かいところに入る 大枠: 学習部と生成部があるということをいう 学習部: テキストと収録音声 それに対して, テキスト解析, 音声分析 その結果HMMが出来上がる 音声特徴量は.... 合成部では, [採用します: 基本的に, 理論では, 現在形になる, 結果の報告などは過去形になる] ---------------------------------------------- HMMを用いた音声合成について説明いたします. 音声合成器は, 学習部と合成部によって構成されます. 学習部では, 学習データとして, 収録された音声と, それに対応するテキストを用意します. これらのデータをもとに, テキスト解析により音素列, 音声分析により特徴量の分析を行い, 結果得られたデータをもとに, 話者依存のHMMが作成されます. ここで, HMMにおける特徴量は, スペクトル, 音源, パワー, 継続長を用いました. 生成部では, 学習されたHMMを用いて, テキストを入力, 合成音声を出力とするような音声合成を行います テキストを解析することによって得られる音素列をHMMの入力とすることにより, 音声特徴量が出力され, それを合成することによって, 合成音声が得られます. [学習部では, 学習データとして, テキスト、および, それに対応する収録音声を用意します. テキストデータを解析することにより, 対応する音素列が得られます. また, 収録音声を分析することにより, 基本周波数, メルケプトラム, 等の音声特徴量が得られます. これらの解析の結果得られたデータを用いて, 話者依存のHMMが学習されます.]
  4. 続いて, 日本人英語の音声合成の韻律補正, およびそれを可能とする, HMMの部分的なモデル適応について説明します. ノンネイティブ音声の韻律は, 発話者の母語の影響を受けます. 日本語と英語の韻律の違いとしては, 日本語は, モーラ等時性・ピッチアクセント言語であり, 一方で, 英語は, ストレス等時性・ストレスアクセント言語である, ということが挙げられます. したがって, 日本人英語学習者の合成音声のうち, パワーと継続長を補正することが有効となります. 韻律の補正は, HMMの部分的なモデル適応によってなされます. まず, 英語母語話者のHMMを学習によって生成します. この英語母語話者のHMMをモデル適応することによって, 日本語母語話者のHMMが得られます. (このモデル適応において, パラメータの一部をモデル適応せずに英語母語話者のものを保持することにより, 韻律の補正が可能となります. ) このモデル適応において, 英語と日本語の韻律的な違いを反映する, パワーと継続長を, 日本語話者のパラメータに適応せずに英語母語話者のパラメータを保持することにより, 部分的なモデル適応を行います. これにより, 話者性を反映するとされるスペクトルと音源パラメータを日本語母語話者のものとしつつ, 自然性を反映するとされるパワーと継続長を英語母語話者のものとするようなHMMが作られます.(ここは順序を先に開いた方が良き) 当該話者の話者性を保持しつつ, 自然性を改善した音声合成が可能となります, [母語の学習を言わないとダメ] [モーラ↓の発音 モーラ↑等時性] [何でこの方向なのか: ] [モデル適応のやり方は理解しておきたい. CSMAPLR & MAPとは??: 適応行列Aとバイアスベクトルbを, 最尤推定することによって求められる. ]
  5. 本発表では, この手法を, 中国人留学生の日本語の音声合成の韻律補正へと応用します.
  6. 中国語は, シラブル等時性・声調言語であり, 日本語は, モーラ等時性・ピッチアクセント言語であることを踏まえると, 基本周波数f0と継続長の補正が有効であると予測されます. したがって, 日本語母語話者のデータにより学習のなされたHMMの, 中国人留学生のHMMへのモデル適応では, f0と継続長のパラメータを適応せずに保持します. [母語の学習の話をする]
  7. さらに, 本研究では, さらに3パターン, 合計5パターンのパラメータの保持を検討しました. 話者性への影響が少ないとされる, 動的特徴量を保持したパターン1, 2, と, 日本人英語音声合成の補正で有効であったパワーを保持したパターン3, 中国語と日本語の韻律の違いから有効であると予測されるパターン4, 5で検証しました. また, パターン5では, 合成時に日本語母語話者のパラメータが保持されたHMMで生成された, 対数f0に線形変換を施すことにより, 留学生のf0レンジに変換しました. [パターンを指す: こつ: レーザーポインタは見ている人にはわかりにくい ゆっくり円を描くように指す] スライドを修正して, 一行目のそれを, 1,2の横に書く
  8. 以上の5パターンでの部分的モデル適応において, 自然性と話者性の観点から実験的評価を行いました. 以上の5パターンでの部分的モデル適応において, 実験的評価を行いました 実験的評価では, 留学生の日本語習熟度によらず, 話者性を保持したまま自然性が改善できるか, が検証されました. [s目的をいう] 留学生の日本語習熟度によらず, 話者性を保持したまま, 自然性の改善が可能であるかどうか,
  9. 実験条件について説明します 日本語母語話者のHMMは, JSUTコーパス[読み方を確認する]に含まれる単一女性話者5000文によって学習がなされました. 中国人留学生のHMMのモデル適応は, JSUT ペタッと読む ジェースット UME ユーエムイージェーアールエフ 評価データが学習データと別であることは言わなくていい
  10. [F0についての言い訳も必要] [話者性] [まず, 中国人留学生の自然音声を流します, 次に3連続で, 補正なし, 音素継続長, f0を順に流す(連続で、先に説明した上で). 聞いていただいてわかった通り, 改善されていることを] 自然性についてのプリファレンスABテストをクラウドソーシングにより実施しました. その結果について説明します. 継続長補正は学習者の習熟度によらず, 自然性を改善しました. F0補正は, 習熟度の高い話者1名のみで有効でした また, 動的特徴量補正, パワー補正はいずれも有効ではありませんでした [図と文字を大きくする] ABテストでは, それぞれの補正方法について, 補正ありの音声と補正なしの音声を被験者が聴き比べます. そして, 補正ありの音声と補正なしの音声のうち, どちらが言語としての自然性が高かったか, を判定します. グラフの青い部分は, 補正ありの音声の方が自然だったと回答した割合, 灰色の部分は, 補正なしの音声の方が自然だったと回答した割合, を表します. [パワポの上のメニューバーをなんとかする] [correction] [Δとか言わずに, パターン1,2,..5の説明のページに合わせる] [no correctionの説明も] [図を出したら必ず説明する] [例えば, 一番左は, f0のみを補正したものと, 何も補正しなかったもの] [左下に, アスタリスクの説明] [音声を貼る f2 f3 dur] 3つ, 補正ありと補正なしと, 自然音性 [グラフのそばに]
  11. また, 話者性に関するプリファレンスXABテストを実施しました 継続長補正, f0補正は, 1話者を除き話者性が保持されました. [前のページに合わせる]
  12. [参考文献のスライドは必要だろうか] 本研究では, 中国人留学生の日本語の音声合成の韻律補正を, HMMの部分的なモデル適応により行いました. F0, 音素継続長, 動的特徴量のそれぞれを保持して部分的なモデル適応したHMMにより, 評価実験を行いました. 結果として, f0と音素継続長を保持することにより, 話者性を保ったまま自然性を改善することができる, と言うことが示唆されました また, 動的特徴量の保持は有効ではありませんでした 今後の予定としては, f0, 音素継続長の両方を補正した音声の評価が考えられます. [セリフはちゃんと覚えよう、できるだけ詰まることがないように] [10分間は追加質問タイム. フリーディスカッション. 3分で聴けなかった内容を聞ける. それが終わったら帰れる. ]