SlideShare a Scribd company logo
Submit Search
Upload
miyoshi17sp07
Report
Share
Y
Yuki Saito
Follow
•
2 likes
•
1,119 views
1
of
23
miyoshi17sp07
•
2 likes
•
1,119 views
Report
Share
Download Now
Download to read offline
Science
Presentation at IEICE-SP 201707
Read more
Y
Yuki Saito
Follow
Recommended
miyoshi2017asj by
miyoshi2017asj
Yuki Saito
556 views
•
13 slides
saito2017asj_tts by
saito2017asj_tts
Yuki Saito
519 views
•
17 slides
SLP201805: 日本語韻律構造を考慮した prosody-aware subword embedding とDNN多方言音声合成への適用 by
SLP201805: 日本語韻律構造を考慮した prosody-aware subword embedding とDNN多方言音声合成への適用
Shinnosuke Takamichi
1.3K views
•
25 slides
日本音響学会2017秋 ”クラウドソーシングを利用した対訳方言音声コーパスの構築” by
日本音響学会2017秋 ”クラウドソーシングを利用した対訳方言音声コーパスの構築”
Shinnosuke Takamichi
1.6K views
•
14 slides
日本語音声合成のためのsubword内モーラを考慮したProsody-aware subword embedding by
日本語音声合成のためのsubword内モーラを考慮したProsody-aware subword embedding
Shinnosuke Takamichi
1.1K views
•
13 slides
saito2017asj_vc by
saito2017asj_vc
Yuki Saito
698 views
•
13 slides
More Related Content
What's hot
日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価” by
日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”
Shinnosuke Takamichi
1.2K views
•
12 slides
Nakai22sp03 presentation by
Nakai22sp03 presentation
Yuki Saito
259 views
•
29 slides
短時間発話を用いた話者照合のための音声加工の効果に関する検討 by
短時間発話を用いた話者照合のための音声加工の効果に関する検討
Shinnosuke Takamichi
1K views
•
37 slides
音情報処理における特徴表現 by
音情報処理における特徴表現
NU_I_TODALAB
6.2K views
•
39 slides
音声認識の基礎 by
音声認識の基礎
Akinori Ito
35.9K views
•
35 slides
Saito19asjAutumn_DeNA by
Saito19asjAutumn_DeNA
Yuki Saito
1.2K views
•
21 slides
What's hot
(20)
日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価” by Shinnosuke Takamichi
日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”
Shinnosuke Takamichi
•
1.2K views
Nakai22sp03 presentation by Yuki Saito
Nakai22sp03 presentation
Yuki Saito
•
259 views
短時間発話を用いた話者照合のための音声加工の効果に関する検討 by Shinnosuke Takamichi
短時間発話を用いた話者照合のための音声加工の効果に関する検討
Shinnosuke Takamichi
•
1K views
音情報処理における特徴表現 by NU_I_TODALAB
音情報処理における特徴表現
NU_I_TODALAB
•
6.2K views
音声認識の基礎 by Akinori Ito
音声認識の基礎
Akinori Ito
•
35.9K views
Saito19asjAutumn_DeNA by Yuki Saito
Saito19asjAutumn_DeNA
Yuki Saito
•
1.2K views
Saito17asjA by Yuki Saito
Saito17asjA
Yuki Saito
•
576 views
ICASSP2019音声&音響論文読み会 論文紹介(認識系) by 貴史 益子
ICASSP2019音声&音響論文読み会 論文紹介(認識系)
貴史 益子
•
2.6K views
Saito20asj_autumn by Yuki Saito
Saito20asj_autumn
Yuki Saito
•
386 views
ICASSP2019 音声&音響論文読み会 著者紹介2 (信号処理系2) by KoueiYamaoka
ICASSP2019 音声&音響論文読み会 著者紹介2 (信号処理系2)
KoueiYamaoka
•
1.4K views
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム by Shinnosuke Takamichi
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム
Shinnosuke Takamichi
•
1.6K views
Saito18sp03 by Yuki Saito
Saito18sp03
Yuki Saito
•
1.1K views
音声の認識と合成 by Akinori Ito
音声の認識と合成
Akinori Ito
•
15.9K views
論文紹介: Direct-Path Signal Cross-Correlation Estimation for Sound Source Locali... by KoueiYamaoka
論文紹介: Direct-Path Signal Cross-Correlation Estimation for Sound Source Locali...
KoueiYamaoka
•
552 views
Saito19asj_s by Yuki Saito
Saito19asj_s
Yuki Saito
•
500 views
Phonetic Posteriorgrams for Many-to-One Voice Conversion without Parallel Dat... by KCS Keio Computer Society
Phonetic Posteriorgrams for Many-to-One Voice Conversion without Parallel Dat...
KCS Keio Computer Society
•
9.2K views
音声合成の基礎 by Akinori Ito
音声合成の基礎
Akinori Ito
•
17.1K views
音声の声質を変換する技術とその応用 by NU_I_TODALAB
音声の声質を変換する技術とその応用
NU_I_TODALAB
•
8.9K views
Saito21asj Autumn Meeting by Yuki Saito
Saito21asj Autumn Meeting
Yuki Saito
•
241 views
日本語スピーキングテストSJ-CATの開発 by Ken IshiKen
日本語スピーキングテストSJ-CATの開発
Ken IshiKen
•
3K views
Similar to miyoshi17sp07
seminar-paper_ForeignAccentConv.pptx by
seminar-paper_ForeignAccentConv.pptx
Natsumi KOBAYASHI
40 views
•
36 slides
[DL輪読会]Wavenet a generative model for raw audio by
[DL輪読会]Wavenet a generative model for raw audio
Deep Learning JP
26.1K views
•
23 slides
日本音響学会春季発表会2017 「コンテキスト事後確率のSequence-to-Sequence学習を用いた音声変換」 by
日本音響学会春季発表会2017 「コンテキスト事後確率のSequence-to-Sequence学習を用いた音声変換」
Hiroyuki Miyoshi
260 views
•
13 slides
A scalable probablistic classifier for language modeling: ACL 2011 読み会 by
A scalable probablistic classifier for language modeling: ACL 2011 読み会
正志 坪坂
3.8K views
•
22 slides
Segmenting Sponteneous Japanese using MDL principle by
Segmenting Sponteneous Japanese using MDL principle
Yusuke Matsubara
672 views
•
18 slides
Effective search space reduction for spell correction using character neural ... by
Effective search space reduction for spell correction using character neural ...
浩気 西山
186 views
•
11 slides
Similar to miyoshi17sp07
(17)
seminar-paper_ForeignAccentConv.pptx by Natsumi KOBAYASHI
seminar-paper_ForeignAccentConv.pptx
Natsumi KOBAYASHI
•
40 views
[DL輪読会]Wavenet a generative model for raw audio by Deep Learning JP
[DL輪読会]Wavenet a generative model for raw audio
Deep Learning JP
•
26.1K views
日本音響学会春季発表会2017 「コンテキスト事後確率のSequence-to-Sequence学習を用いた音声変換」 by Hiroyuki Miyoshi
日本音響学会春季発表会2017 「コンテキスト事後確率のSequence-to-Sequence学習を用いた音声変換」
Hiroyuki Miyoshi
•
260 views
A scalable probablistic classifier for language modeling: ACL 2011 読み会 by 正志 坪坂
A scalable probablistic classifier for language modeling: ACL 2011 読み会
正志 坪坂
•
3.8K views
Segmenting Sponteneous Japanese using MDL principle by Yusuke Matsubara
Segmenting Sponteneous Japanese using MDL principle
Yusuke Matsubara
•
672 views
Effective search space reduction for spell correction using character neural ... by 浩気 西山
Effective search space reduction for spell correction using character neural ...
浩気 西山
•
186 views
日本語テキスト音声合成のための句境界予測モデルの検討 by Kosuke Futamata
日本語テキスト音声合成のための句境界予測モデルの検討
Kosuke Futamata
•
63 views
GMMに基づく固有声変換のための変調スペクトル制約付きトラジェクトリ学習・適応 by Shinnosuke Takamichi
GMMに基づく固有声変換のための変調スペクトル制約付きトラジェクトリ学習・適応
Shinnosuke Takamichi
•
1.2K views
深層生成モデルに基づく音声合成技術 by NU_I_TODALAB
深層生成モデルに基づく音声合成技術
NU_I_TODALAB
•
927 views
ICASSP読み会2020 by Yuki Saito
ICASSP読み会2020
Yuki Saito
•
696 views
EMNLP 2015 読み会 @ 小町研 "Morphological Analysis for Unsegmented Languages using ... by Yuki Tomo
EMNLP 2015 読み会 @ 小町研 "Morphological Analysis for Unsegmented Languages using ...
Yuki Tomo
•
1K views
Interspeech2022 参加報告 by Yuki Saito
Interspeech2022 参加報告
Yuki Saito
•
657 views
読解支援@2015 05-15 by sekizawayuuki
読解支援@2015 05-15
sekizawayuuki
•
145 views
Neural G2Pの最新動向 SIGMORPHON及び関連緩急の紹介 by Kosuke Futamata
Neural G2Pの最新動向 SIGMORPHON及び関連緩急の紹介
Kosuke Futamata
•
26 views
Chainer with natural language processing hands on by Ogushi Masaya
Chainer with natural language processing hands on
Ogushi Masaya
•
2.9K views
【FIT2016チュートリアル】ここから始める情報処理 ~音声編~ by 東工大・篠崎先生 by Toshihiko Yamasaki
【FIT2016チュートリアル】ここから始める情報処理 ~音声編~ by 東工大・篠崎先生
Toshihiko Yamasaki
•
6.1K views
CTCに基づく音響イベントからの擬音語表現への変換 by NU_I_TODALAB
CTCに基づく音響イベントからの擬音語表現への変換
NU_I_TODALAB
•
1.5K views
More from Yuki Saito
hirai23slp03.pdf by
hirai23slp03.pdf
Yuki Saito
56 views
•
21 slides
fujii22apsipa_asc by
fujii22apsipa_asc
Yuki Saito
45 views
•
25 slides
nakai22apsipa_presentation.pdf by
nakai22apsipa_presentation.pdf
Yuki Saito
51 views
•
20 slides
saito22research_talk_at_NUS by
saito22research_talk_at_NUS
Yuki Saito
65 views
•
52 slides
Neural text-to-speech and voice conversion by
Neural text-to-speech and voice conversion
Yuki Saito
1.2K views
•
70 slides
Nishimura22slp03 presentation by
Nishimura22slp03 presentation
Yuki Saito
299 views
•
26 slides
More from Yuki Saito
(16)
hirai23slp03.pdf by Yuki Saito
hirai23slp03.pdf
Yuki Saito
•
56 views
fujii22apsipa_asc by Yuki Saito
fujii22apsipa_asc
Yuki Saito
•
45 views
nakai22apsipa_presentation.pdf by Yuki Saito
nakai22apsipa_presentation.pdf
Yuki Saito
•
51 views
saito22research_talk_at_NUS by Yuki Saito
saito22research_talk_at_NUS
Yuki Saito
•
65 views
Neural text-to-speech and voice conversion by Yuki Saito
Neural text-to-speech and voice conversion
Yuki Saito
•
1.2K views
Nishimura22slp03 presentation by Yuki Saito
Nishimura22slp03 presentation
Yuki Saito
•
299 views
GAN-based statistical speech synthesis (in Japanese) by Yuki Saito
GAN-based statistical speech synthesis (in Japanese)
Yuki Saito
•
952 views
Saito2103slp by Yuki Saito
Saito2103slp
Yuki Saito
•
250 views
Interspeech2020 reading by Yuki Saito
Interspeech2020 reading
Yuki Saito
•
172 views
Saito20asj s slide_published by Yuki Saito
Saito20asj s slide_published
Yuki Saito
•
606 views
Deep learning for acoustic modeling in parametric speech generation by Yuki Saito
Deep learning for acoustic modeling in parametric speech generation
Yuki Saito
•
761 views
Une18apsipa by Yuki Saito
Une18apsipa
Yuki Saito
•
427 views
Saito18asj_s by Yuki Saito
Saito18asj_s
Yuki Saito
•
345 views
釧路高専情報工学科向け進学説明会 by Yuki Saito
釧路高専情報工学科向け進学説明会
Yuki Saito
•
947 views
Saito2017icassp by Yuki Saito
Saito2017icassp
Yuki Saito
•
1.3K views
Slp201702 by Yuki Saito
Slp201702
Yuki Saito
•
14.9K views
miyoshi17sp07
1.
©Yuki Saito, 2017/07/27 コンテキスト事後確率の Sequence-to-Sequence
学習を用いた音声変換と Dual Learning の評価 三好 裕之, ○ 齋藤 佑樹, 高道 慎之介, 猿渡 洋 (東京大学) 2017年7月 音声(SP)研究会 7月27日(木)SP-3
2.
/22 音声変換: 音声の言語情報を保持しつつ,
非言語情報を変換 統計的パラメトリック音声変換 – 音声特徴量を統計モデルによりモデル化 & 変換 • Deep Neural Network (DNN) 音声変換 [Desai et al., 2009] テキスト依存音声変換 [Kain et al., 1998] – 入力音声 → テキスト → 出力音声 – 音声認識 (Automatic Speech Recognition) + 音声合成 (Text-To-Speech) – ノンパラレルデータを用いた学習も可能 – テキストへのマッピングにより音声特徴量の時間解像度が低下 1 研究分野: テキスト依存音声変換 音声変換: Voice Conversion (VC) Output speech Input speech
3.
/22 従来法: コンテキスト事後確率の複写に基づく音声変換 –
コンテキスト事後確率を利用し, フレーム単位での変換を実現 – 話者性の再現精度が低下 • 入力音声のコンテキスト事後確率の複写が原因 本発表 – (1) 事後確率の Sequence-to-Sequence (Seq2Seq) 学習 • 事後確率の可変長変換により, 話者性の変換精度を改善 – (2) 音声認識・合成モデルの dual learning • 音声合成時の誤差を考慮し, 複数のモデルを同時に学習 結果 – Seq2Seq 学習により話者性が改善 – Dual learning により音質・話者性が改善 2 本発表の概要
4.
/223 目次 研究背景 従来のテキスト依存音声変換
提案法 – コンテキスト事後確率の Seq2Seq 学習 – 音声認識・合成モデルの dual learning 実験的評価 まとめ
5.
/224 テキスト依存音声変換における 話者非依存の音声認識モデル学習 Linguistic feats. 𝒍 𝑥 Cross-entropy (認識誤差)
最小化 ASR [Kain et al., 1998] Posterior probs. 𝒑 𝑥 a i u 継続長の異なる様々な音声特徴量を用いて学習 Frame Source speech feats. 𝒙
6.
/225 テキスト依存音声変換における 目的話者依存の音声合成モデル学習 [Kain et al.,
1998]Mean squared error 最小化 Generated speech feats.𝒚 Frame Target speech feats. 𝒚 𝒑 𝑦 TTSASR (fixed) 𝒑 𝑦 Posterior probs.
7.
/226 コンテキスト事後確率の複写に基づく音声変換 [Sun et al.,
2016] Frame Source speech feats. 𝒙 COPY Converted speech feats.𝒚 TTSASR Posterior probs. 𝒑 𝑥 入力音声特徴量のコンテキスト事後確率を複写し, 合成音声特徴量を推定 𝒑 𝑥
8.
/227 従来法の問題点 ① 事後確率に含まれる話速・音韻性の違いを無視した変換
② 音声認識・合成モデルの個別学習 – 認識精度の改善 ≠ 合成音声の品質改善 a r a y a r a y 0 1 話速の違い 音韻性の違い Frame y r y raa
9.
/228 目次 研究背景 従来のテキスト依存音声変換
提案法 – コンテキスト事後確率の Seq2Seq 学習 – 音声認識・合成モデルの dual learning 実験的評価 まとめ
10.
/229 Sequence-to-Sequence (Seq2Seq) 学習
Encoder-Decoder [Ilya et al., 2014] による Seq2Seq 学習 コンテキスト事後確率の Seq2Seq 学習における問題点 – 系列長が大きい場合に変換の失敗が伝播 [Wang et al., 2016] – 継続長 (フレーム数) の決定が困難 本発表における制約 – 事後確率変換の単位は音素ごと – 事後確率の継続長は既知 雨 が 降る It rains 入力系列 出力系列 Encoder Decoder
11.
/2210 事後確率変換モデル学習 Frame 𝑪 𝒑 𝑥 Posterior
conversion 𝑪 ⋅ 𝒍 𝑦 Mean squared error (変換誤差) 最小化 Cross-entropy 最小化 (事後確率推定誤差の影響を軽減) Source posterior probs. 𝒑 𝑦𝒑 𝑥
12.
/2211 コンテキスト事後確率の Seq2Seq 学習を用いた音声変換 FrameSource speech feats. 𝒙 ASR 𝒚 Converted speech feats. TTS Posterior probs. 𝒑
𝑥 𝑪 ⋅ CONVERSION 𝒑 𝑦
13.
/2212 Seq2Seq 学習の効果: 事後確率の違いを考慮した変換 Estimated (Seq2Seq)Target
speakerSource speaker 0 1 コンテキスト事後確率の可変長変換を実現!
14.
/2213 𝒍 𝑥 Cross-entropy 最小化 ASR 𝒑 𝑥 Frame Source speech feats.
𝒙 音声認識・合成モデルの Dual Learning Generated speech feats.𝒙 TTS [He et al., 2016] Input to TTS Mean squared error 最小化 音声合成時の誤差も考慮しつつ, 認識モデルを学習!
15.
/2214 考察 系列のアライメント単位に関する考察 – テキスト依存音声変換:
コンテキスト単位 • 可変長の系列変換が可能だが, 時間の量子化が発生 – 従来の事後確率複写による変換 [Sun et al., 2016]: フレーム単位 • 時間の量子化は緩和されるが, 系列長が固定 – 提案法: フレーム単位 • Seq2Seq 学習により, 可変長の系列変換を実現 Dual learning に関する考察 – 所望のクラスラベルを用いた自己符号化に類似 – 潜在変数を用いた variational auto-encoder に拡張可能 [Kingma et al., 2014]
16.
/2215 目次 研究背景 従来のテキスト依存音声変換
提案法 – コンテキスト事後確率の Seq2Seq 学習 – 音声認識・合成モデルの dual learning 実験的評価 まとめ
17.
/22 実験条件 入出力話者 女性話者 → 男性話者 (話速が大きく異なる話者の組を選択) データセット
ATR 音素バランス503文 (16 kHz サンプリング) 学習 / 評価データ A-I セット 450文×8名 / Jセット 53文 スペクトル特徴量 24次元のメルケプストラム & 動的特徴量 (計72次元) コンテキスト 224次元 (quin-phone) 音声認識モデルのコスト関数: 音素グループ毎の識別誤差の和 音声認識モデル Bi-directional LSTM (output activation: softmax) 音声合成モデル Bi-directional LSTM (output activation: linear) 事後確率変換モデル Encoder: Bi-directional LSTM Decoder: Uni-directional LSTM 16
18.
/2217 Seq2Seq 学習の有効性に関する客観評価 評価指標:
自然音声 / 合成音声のメルケプストラム歪み – アライメント法: DTW (従来法) / Seq2Seq 学習 (提案法) – 提案法において継続長は既知 → 理想条件の下での評価値 Proposed Conventional 4.0 4.5 5.0 6.0 6.55.5 改善 Seq2Seq 学習により, DTWに起因する歪みの増加を回避! メルケプストラム歪み [dB]
19.
/22 Seq2Seq 学習の有効性に関する主観評価結果 (音声変換の品質) プリファレンススコア
(評価者数7名) 18 0.0 0.2 0.4 0.6 1.00.8 エラーバーは95%信頼区間 改善 改善 0.0 0.2 0.4 0.6 1.00.8 Proposed Conventional (b) 音質 (a) 話者性 Proposed Conventional 改善 劣化
20.
/2219 音声認識・合成モデルの Dual Learning に関する客観評価
評価指標: 認識・合成を通じた特徴量復元による歪み – (1) 音声認識・合成モデルを通じて入力音声特徴量を復元 – (2) 入力音声特徴量 / 復元結果のメルケプストラム歪みを計算 Dual learning 個別学習 4.0 4.5 5.0 6.0 6.55.5 改善 メルケプストラム歪み [dB] Dual learning により, 歪みの軽減した音声特徴量を生成!
21.
/22 プリファレンススコア (評価者数7名) 20 0.0
0.2 0.4 0.6 1.00.8 エラーバーは95%信頼区間 0.0 0.2 0.4 0.6 1.00.8 Dual learning 個別学習 Dual learning 個別学習 音声認識・合成モデルの Dual Learning に関する主観評価 (音声変換の品質) 改善 改善 (a) 話者性 (b) 音質
22.
/2221 目次 研究背景 従来のテキスト依存音声変換
提案法 – コンテキスト事後確率の Seq2Seq 学習 – 音声認識・合成モデルの dual learning 実験的評価 まとめ
23.
/22 まとめ 目的: テキスト依存音声変換の品質改善
提案法 – (1) コンテキスト事後確率の Seq2Seq 学習 – (2) 音声認識・合成モデルの dual learning 結果 – Seq2Seq 学習による話者性の改善 – Dual learning による音質・話者性の改善 • 事後確率モデルも含めた dual learning による改善は見られず 今後の予定 – Seq2Seq 学習を行う場合の系列長決定法に関する調査 22