Submit Search
Upload
Phonetic Posteriorgrams for Many-to-One Voice Conversion without Parallel Data Trainingの紹介
•
2 likes
•
9,235 views
K
KCS Keio Computer Society
Follow
2017年3月13日のKCS AI班の活動 パラレルデータが不要の声質変換手法。 目次 ・声質変換とは ・新規性 ・声質変換の今後
Read less
Read more
Technology
Report
Share
Report
Share
1 of 13
Download now
Download to read offline
Recommended
Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討
Shinnosuke Takamichi
miyoshi17sp07
miyoshi17sp07
Yuki Saito
saito2017asj_tts
saito2017asj_tts
Yuki Saito
日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”
日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”
Shinnosuke Takamichi
SLP201805: 日本語韻律構造を考慮した prosody-aware subword embedding とDNN多方言音声合成への適用
SLP201805: 日本語韻律構造を考慮した prosody-aware subword embedding とDNN多方言音声合成への適用
Shinnosuke Takamichi
saito2017asj_vc
saito2017asj_vc
Yuki Saito
音声認識の基礎
音声認識の基礎
Akinori Ito
DNN音声合成のための Anti-spoofing を考慮した学習アルゴリズム
DNN音声合成のための Anti-spoofing を考慮した学習アルゴリズム
Yuki Saito
Recommended
Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討
Shinnosuke Takamichi
miyoshi17sp07
miyoshi17sp07
Yuki Saito
saito2017asj_tts
saito2017asj_tts
Yuki Saito
日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”
日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”
Shinnosuke Takamichi
SLP201805: 日本語韻律構造を考慮した prosody-aware subword embedding とDNN多方言音声合成への適用
SLP201805: 日本語韻律構造を考慮した prosody-aware subword embedding とDNN多方言音声合成への適用
Shinnosuke Takamichi
saito2017asj_vc
saito2017asj_vc
Yuki Saito
音声認識の基礎
音声認識の基礎
Akinori Ito
DNN音声合成のための Anti-spoofing を考慮した学習アルゴリズム
DNN音声合成のための Anti-spoofing を考慮した学習アルゴリズム
Yuki Saito
miyoshi2017asj
miyoshi2017asj
Yuki Saito
DDSP: Differentiable Digital Signal Processing
DDSP: Differentiable Digital Signal Processing
SohOhara
雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習
雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習
Shinnosuke Takamichi
音情報処理における特徴表現
音情報処理における特徴表現
NU_I_TODALAB
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム
Shinnosuke Takamichi
音声の認識と合成
音声の認識と合成
Akinori Ito
音声の声質を変換する技術とその応用
音声の声質を変換する技術とその応用
NU_I_TODALAB
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
Shinnosuke Takamichi
読解支援@2015 08-10-1
読解支援@2015 08-10-1
sekizawayuuki
日本音響学会2017秋 ”クラウドソーシングを利用した対訳方言音声コーパスの構築”
日本音響学会2017秋 ”クラウドソーシングを利用した対訳方言音声コーパスの構築”
Shinnosuke Takamichi
音声合成の基礎
音声合成の基礎
Akinori Ito
日本語音声合成のためのsubword内モーラを考慮したProsody-aware subword embedding
日本語音声合成のためのsubword内モーラを考慮したProsody-aware subword embedding
Shinnosuke Takamichi
バイノーラル信号音源分離における両耳事前分布モデルの考察
バイノーラル信号音源分離における両耳事前分布モデルの考察
奈良先端大 情報科学研究科
音声信号の分析と加工 - 音声を自在に変換するには?
音声信号の分析と加工 - 音声を自在に変換するには?
NU_I_TODALAB
短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討
Shinnosuke Takamichi
Acoustic Modeling using Deep Belief Networks
Acoustic Modeling using Deep Belief Networks
Junya Saito
Nakai22sp03 presentation
Nakai22sp03 presentation
Yuki Saito
音声言語対話を介した人間と機械のコミュニケーション技術
音声言語対話を介した人間と機械のコミュニケーション技術
utsuro_lab
Saito17asjA
Saito17asjA
Yuki Saito
統計的ボイチェン研究事情
統計的ボイチェン研究事情
Shinnosuke Takamichi
[DL輪読会]Wavenet a generative model for raw audio
[DL輪読会]Wavenet a generative model for raw audio
Deep Learning JP
日本音響学会春季発表会2017 「コンテキスト事後確率のSequence-to-Sequence学習を用いた音声変換」
日本音響学会春季発表会2017 「コンテキスト事後確率のSequence-to-Sequence学習を用いた音声変換」
Hiroyuki Miyoshi
More Related Content
What's hot
miyoshi2017asj
miyoshi2017asj
Yuki Saito
DDSP: Differentiable Digital Signal Processing
DDSP: Differentiable Digital Signal Processing
SohOhara
雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習
雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習
Shinnosuke Takamichi
音情報処理における特徴表現
音情報処理における特徴表現
NU_I_TODALAB
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム
Shinnosuke Takamichi
音声の認識と合成
音声の認識と合成
Akinori Ito
音声の声質を変換する技術とその応用
音声の声質を変換する技術とその応用
NU_I_TODALAB
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
Shinnosuke Takamichi
読解支援@2015 08-10-1
読解支援@2015 08-10-1
sekizawayuuki
日本音響学会2017秋 ”クラウドソーシングを利用した対訳方言音声コーパスの構築”
日本音響学会2017秋 ”クラウドソーシングを利用した対訳方言音声コーパスの構築”
Shinnosuke Takamichi
音声合成の基礎
音声合成の基礎
Akinori Ito
日本語音声合成のためのsubword内モーラを考慮したProsody-aware subword embedding
日本語音声合成のためのsubword内モーラを考慮したProsody-aware subword embedding
Shinnosuke Takamichi
バイノーラル信号音源分離における両耳事前分布モデルの考察
バイノーラル信号音源分離における両耳事前分布モデルの考察
奈良先端大 情報科学研究科
音声信号の分析と加工 - 音声を自在に変換するには?
音声信号の分析と加工 - 音声を自在に変換するには?
NU_I_TODALAB
短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討
Shinnosuke Takamichi
Acoustic Modeling using Deep Belief Networks
Acoustic Modeling using Deep Belief Networks
Junya Saito
Nakai22sp03 presentation
Nakai22sp03 presentation
Yuki Saito
音声言語対話を介した人間と機械のコミュニケーション技術
音声言語対話を介した人間と機械のコミュニケーション技術
utsuro_lab
Saito17asjA
Saito17asjA
Yuki Saito
統計的ボイチェン研究事情
統計的ボイチェン研究事情
Shinnosuke Takamichi
What's hot
(20)
miyoshi2017asj
miyoshi2017asj
DDSP: Differentiable Digital Signal Processing
DDSP: Differentiable Digital Signal Processing
雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習
雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習
音情報処理における特徴表現
音情報処理における特徴表現
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム
音声の認識と合成
音声の認識と合成
音声の声質を変換する技術とその応用
音声の声質を変換する技術とその応用
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
読解支援@2015 08-10-1
読解支援@2015 08-10-1
日本音響学会2017秋 ”クラウドソーシングを利用した対訳方言音声コーパスの構築”
日本音響学会2017秋 ”クラウドソーシングを利用した対訳方言音声コーパスの構築”
音声合成の基礎
音声合成の基礎
日本語音声合成のためのsubword内モーラを考慮したProsody-aware subword embedding
日本語音声合成のためのsubword内モーラを考慮したProsody-aware subword embedding
バイノーラル信号音源分離における両耳事前分布モデルの考察
バイノーラル信号音源分離における両耳事前分布モデルの考察
音声信号の分析と加工 - 音声を自在に変換するには?
音声信号の分析と加工 - 音声を自在に変換するには?
短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討
Acoustic Modeling using Deep Belief Networks
Acoustic Modeling using Deep Belief Networks
Nakai22sp03 presentation
Nakai22sp03 presentation
音声言語対話を介した人間と機械のコミュニケーション技術
音声言語対話を介した人間と機械のコミュニケーション技術
Saito17asjA
Saito17asjA
統計的ボイチェン研究事情
統計的ボイチェン研究事情
Similar to Phonetic Posteriorgrams for Many-to-One Voice Conversion without Parallel Data Trainingの紹介
[DL輪読会]Wavenet a generative model for raw audio
[DL輪読会]Wavenet a generative model for raw audio
Deep Learning JP
日本音響学会春季発表会2017 「コンテキスト事後確率のSequence-to-Sequence学習を用いた音声変換」
日本音響学会春季発表会2017 「コンテキスト事後確率のSequence-to-Sequence学習を用いた音声変換」
Hiroyuki Miyoshi
seminar-paper_ForeignAccentConv.pptx
seminar-paper_ForeignAccentConv.pptx
Natsumi KOBAYASHI
翻訳精度の最大化による同時音声翻訳のための文分割法 (NLP2014)
翻訳精度の最大化による同時音声翻訳のための文分割法 (NLP2014)
Yusuke Oda
内省するTensorFlow
内省するTensorFlow
Yoshiyuki Kakihara
Using continuous lexical embeddings to improve symbolicprosody prediction in ...
Using continuous lexical embeddings to improve symbolicprosody prediction in ...
浩気 西山
Similar to Phonetic Posteriorgrams for Many-to-One Voice Conversion without Parallel Data Trainingの紹介
(6)
[DL輪読会]Wavenet a generative model for raw audio
[DL輪読会]Wavenet a generative model for raw audio
日本音響学会春季発表会2017 「コンテキスト事後確率のSequence-to-Sequence学習を用いた音声変換」
日本音響学会春季発表会2017 「コンテキスト事後確率のSequence-to-Sequence学習を用いた音声変換」
seminar-paper_ForeignAccentConv.pptx
seminar-paper_ForeignAccentConv.pptx
翻訳精度の最大化による同時音声翻訳のための文分割法 (NLP2014)
翻訳精度の最大化による同時音声翻訳のための文分割法 (NLP2014)
内省するTensorFlow
内省するTensorFlow
Using continuous lexical embeddings to improve symbolicprosody prediction in ...
Using continuous lexical embeddings to improve symbolicprosody prediction in ...
More from KCS Keio Computer Society
Large scale gan training for high fidelity natural
Large scale gan training for high fidelity natural
KCS Keio Computer Society
Imagenet trained cnns-are_biased_towards
Imagenet trained cnns-are_biased_towards
KCS Keio Computer Society
機械学習ゼミ: Area attenttion
機械学習ゼミ: Area attenttion
KCS Keio Computer Society
機械学習ゼミ 2018/10/17
機械学習ゼミ 2018/10/17
KCS Keio Computer Society
機械学習ゼミ2018 06 15
機械学習ゼミ2018 06 15
KCS Keio Computer Society
Control by deep learning
Control by deep learning
KCS Keio Computer Society
深層学習 第6章
深層学習 第6章
KCS Keio Computer Society
Vector-Based navigation using grid-like representations in artificial agents
Vector-Based navigation using grid-like representations in artificial agents
KCS Keio Computer Society
文章生成の未解決問題
文章生成の未解決問題
KCS Keio Computer Society
Word2vec alpha
Word2vec alpha
KCS Keio Computer Society
テンソル代数
テンソル代数
KCS Keio Computer Society
Hindsight experience replay
Hindsight experience replay
KCS Keio Computer Society
Kml 輪読514
Kml 輪読514
KCS Keio Computer Society
ゼロから作るDeepLearning 5章 輪読
ゼロから作るDeepLearning 5章 輪読
KCS Keio Computer Society
ELBO型VAEのダメなところ
ELBO型VAEのダメなところ
KCS Keio Computer Society
ゼロから作るDeepLearning 2~3章 輪読
ゼロから作るDeepLearning 2~3章 輪読
KCS Keio Computer Society
ゼロから作るDeepLearning 4章 輪読
ゼロから作るDeepLearning 4章 輪読
KCS Keio Computer Society
Soft Actor Critic 解説
Soft Actor Critic 解説
KCS Keio Computer Society
ゼロから作るDeepLearning 3.3~3.6章 輪読
ゼロから作るDeepLearning 3.3~3.6章 輪読
KCS Keio Computer Society
[論文略説]Stochastic Thermodynamics Interpretation of Information Geometry
[論文略説]Stochastic Thermodynamics Interpretation of Information Geometry
KCS Keio Computer Society
More from KCS Keio Computer Society
(20)
Large scale gan training for high fidelity natural
Large scale gan training for high fidelity natural
Imagenet trained cnns-are_biased_towards
Imagenet trained cnns-are_biased_towards
機械学習ゼミ: Area attenttion
機械学習ゼミ: Area attenttion
機械学習ゼミ 2018/10/17
機械学習ゼミ 2018/10/17
機械学習ゼミ2018 06 15
機械学習ゼミ2018 06 15
Control by deep learning
Control by deep learning
深層学習 第6章
深層学習 第6章
Vector-Based navigation using grid-like representations in artificial agents
Vector-Based navigation using grid-like representations in artificial agents
文章生成の未解決問題
文章生成の未解決問題
Word2vec alpha
Word2vec alpha
テンソル代数
テンソル代数
Hindsight experience replay
Hindsight experience replay
Kml 輪読514
Kml 輪読514
ゼロから作るDeepLearning 5章 輪読
ゼロから作るDeepLearning 5章 輪読
ELBO型VAEのダメなところ
ELBO型VAEのダメなところ
ゼロから作るDeepLearning 2~3章 輪読
ゼロから作るDeepLearning 2~3章 輪読
ゼロから作るDeepLearning 4章 輪読
ゼロから作るDeepLearning 4章 輪読
Soft Actor Critic 解説
Soft Actor Critic 解説
ゼロから作るDeepLearning 3.3~3.6章 輪読
ゼロから作るDeepLearning 3.3~3.6章 輪読
[論文略説]Stochastic Thermodynamics Interpretation of Information Geometry
[論文略説]Stochastic Thermodynamics Interpretation of Information Geometry
Recently uploaded
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
FumieNakayama
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
UEHARA, Tetsutaro
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版) 2024年4月作成
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版) 2024年4月作成
Hiroshi Tomioka
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
FumieNakayama
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
博三 太田
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
akihisamiyanaga1
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
Yuki Kikuchi
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
Hiroki Ichikura
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
sugiuralab
Recently uploaded
(9)
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版) 2024年4月作成
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版) 2024年4月作成
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
Phonetic Posteriorgrams for Many-to-One Voice Conversion without Parallel Data Trainingの紹介
1.
PhoneticPosteriorgrams for Many‑to‑ OneVoiceConversionWithout
Parallel DataTrainingの紹介 @sesenosannko
2.
目次 声質変換とは 新規性 声質変換の今後 目次
3.
声質変換(VoiceConversion)とは ある人の発話音声の声質だけを他の人に変換する アクセント矯正、声帯切除等後の音声復帰、映画吹替の 声質変換などへの応用が期待される 日本人の研究も有名(戸田、中鹿など) 声質変換とは
4.
新規性 声質変換における学習データ(従来) 1. パラレルデータ 全く同じ発話内容・タイミングの2人以上の音声 →データを用意するのが難しい 2. フレームアラインメント 音声を細切りにして繋ぎあわせるなどしてパラレル データを作る →パラレルデータを用いるより低質 新規性
5.
新規性 声質変換における学習データ(提案手法) 3. パラレルデータを全く用いない 既存研究でも試みられていたが(Lee, 2006など) パラレルデータを用いるより低質であった 提案手法はパラレルデータを用いる声質変換と同等 以上の性能であると主張されている 新規性
6.
なぜパラレルデータが必要ないのか パラレルデータを用いる場合 変換器はGMM、DNN、RNNなど 新規性
7.
なぜパラレルデータが必要ないのか パラレルデータを用いない場合 いったん音声から話者の情報を取り除けば良い 話者情報を取り除く方法が課題だった 新規性
8.
話者情報を取り除く方法 PhoneticPosteriorGrams 音声認識の要領で発話音声のセノン(発音記号のような もの)を認識し、その事後分布を時間軸に並べたもの PPGs自体は既存だがこの論文で声質変換に適用された 新規性
9.
話者情報を取り除く方法 PhoneticPosteriorGrams 2種類の変換器を作れば話者情報を取り除いて変換可能 新規性
10.
話者情報を取り除く方法 PhoneticPosteriorGrams パラレルデータがいらない以外の利点 従来手法の多くは学習データに含まれる人以外から変換 することは不可能だった 「音声→PPGs」変換器は1つ作れば誰でも使える ↓ 他対1変換が可能 入力話者は学習データにいない人でも良い 新規性
11.
話者情報を取り除く方法 PhoneticPosteriorGrams こんな単純な方法でうまくいくのか? ↓ https://sites.google.com/site/2016icme/ (僕が知っている)既存手法と同等に聞こえる 新規性
12.
声質変換の今後 音声生成技術は急成長している MCEP→音声波形を扱う時代に(WaveNetなど) GANなど生成モデルの発達 →声質変換にも適用が期待される 声質変換の研究数が少ないのが課題 声質変換の今後
13.
まとめ 声質変換はパラレルデータが必要なことが大きな課題 提案手法はPPGsを経由することで話者情報を取り除く PPGsはセノンの事後分布を時間軸に並べたもの まとめ
Download now