Phonetic Posteriorgrams for Many-to-One Voice Conversion without Parallel Data Trainingの紹介

•

2 likes•9,235 views

KCS Keio Computer Society

2017年3月13日のKCS AI班の活動パラレルデータが不要の声質変換手法。目次・声質変換とは・新規性・声質変換の今後

Technology

PhoneticPosteriorgrams for Many‑to‑
OneVoiceConversionWithout Parallel
DataTrainingの紹介
@sesenosannko

声質変換(VoiceConversion)とは
ある人の発話音声の声質だけを他の人に変換する
アクセント矯正、声帯切除等後の音声復帰、映画吹替の
声質変換などへの応用が期待される
日本人の研究も有名（戸田、中鹿など）
声質変換とは

新規性
声質変換における学習データ（従来）
1. パラレルデータ
全く同じ発話内容・タイミングの2人以上の音声
→データを用意するのが難しい
2. フレームアラインメント
音声を細切りにして繋ぎあわせるなどしてパラレル
データを作る
→パラレルデータを用いるより低質
新規性

新規性
声質変換における学習データ（提案手法）
3. パラレルデータを全く用いない
既存研究でも試みられていたが（Lee, 2006など）
パラレルデータを用いるより低質であった
提案手法はパラレルデータを用いる声質変換と同等
以上の性能であると主張されている
新規性

なぜパラレルデータが必要ないのか
パラレルデータを用いる場合
変換器はGMM、DNN、RNNなど
新規性

なぜパラレルデータが必要ないのか
パラレルデータを用いない場合
いったん音声から話者の情報を取り除けば良い
話者情報を取り除く方法が課題だった
新規性

話者情報を取り除く方法
PhoneticPosteriorGrams
音声認識の要領で発話音声のセノン（発音記号のような
もの）を認識し、その事後分布を時間軸に並べたもの
PPGs自体は既存だがこの論文で声質変換に適用された
新規性

話者情報を取り除く方法
PhoneticPosteriorGrams
2種類の変換器を作れば話者情報を取り除いて変換可能
新規性

話者情報を取り除く方法
PhoneticPosteriorGrams
パラレルデータがいらない以外の利点
従来手法の多くは学習データに含まれる人以外から変換
することは不可能だった
「音声→PPGs」変換器は1つ作れば誰でも使える
↓
他対1変換が可能
入力話者は学習データにいない人でも良い
新規性

話者情報を取り除く方法
PhoneticPosteriorGrams
こんな単純な方法でうまくいくのか？
↓
https://sites.google.com/site/2016icme/
（僕が知っている）既存手法と同等に聞こえる
新規性

声質変換の今後
音声生成技術は急成長している
MCEP→音声波形を扱う時代に(WaveNetなど)
GANなど生成モデルの発達
→声質変換にも適用が期待される
声質変換の研究数が少ないのが課題
声質変換の今後

まとめ
声質変換はパラレルデータが必要なことが大きな課題
提案手法はPPGsを経由することで話者情報を取り除く
PPGsはセノンの事後分布を時間軸に並べたもの
まとめ

What's hot

miyoshi2017asjYuki Saito

DDSP: Differentiable Digital Signal ProcessingSohOhara

雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習Shinnosuke Takamichi

音情報処理における特徴表現NU_I_TODALAB

DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズムShinnosuke Takamichi

音声の認識と合成Akinori Ito

音声の声質を変換する技術とその応用NU_I_TODALAB

やさしく音声分析法を学ぶ：ケプストラム分析とLPC分析Shinnosuke Takamichi

読解支援@2015 08-10-1sekizawayuuki

日本音響学会2017秋 ”クラウドソーシングを利用した対訳方言音声コーパスの構築”Shinnosuke Takamichi

音声合成の基礎Akinori Ito

日本語音声合成のためのsubword内モーラを考慮したProsody-aware subword embeddingShinnosuke Takamichi

バイノーラル信号音源分離における両耳事前分布モデルの考察奈良先端大情報科学研究科

音声信号の分析と加工－音声を自在に変換するには？NU_I_TODALAB

短時間発話を用いた話者照合のための音声加工の効果に関する検討Shinnosuke Takamichi

Acoustic Modeling using Deep Belief NetworksJunya Saito

Nakai22sp03 presentationYuki Saito

音声言語対話を介した人間と機械のコミュニケーション技術utsuro_lab

Saito17asjAYuki Saito

統計的ボイチェン研究事情Shinnosuke Takamichi

What's hot (20)

miyoshi2017asj

DDSP: Differentiable Digital Signal Processing

雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習

音情報処理における特徴表現

DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム

音声の認識と合成

音声の声質を変換する技術とその応用

やさしく音声分析法を学ぶ：ケプストラム分析とLPC分析

読解支援@2015 08-10-1

日本音響学会2017秋 ”クラウドソーシングを利用した対訳方言音声コーパスの構築”

音声合成の基礎

日本語音声合成のためのsubword内モーラを考慮したProsody-aware subword embedding

バイノーラル信号音源分離における両耳事前分布モデルの考察

音声信号の分析と加工－音声を自在に変換するには？

短時間発話を用いた話者照合のための音声加工の効果に関する検討

Acoustic Modeling using Deep Belief Networks

Nakai22sp03 presentation

音声言語対話を介した人間と機械のコミュニケーション技術

Saito17asjA

統計的ボイチェン研究事情

自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineerYuki Kikuchi

【早稲田AI研究会　講義資料】3DスキャンとTextTo3Dのツールを知ろう！(Vol.1)Hiroki Ichikura

TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案sugiuralab

Recently uploaded (9)

クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf

デジタル・フォレンジックの最新動向（2024年4月27日情洛会総会特別講演スライド）

業務で生成AIを活用したい人のための生成AI入門講座（社外公開版） 2024年4月作成

AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf

モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察～Text-to-MusicとText-To-ImageかつImage-to-Music...

CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か？

自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer

【早稲田AI研究会　講義資料】3DスキャンとTextTo3Dのツールを知ろう！(Vol.1)

TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案