Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

統計的ボイチェン研究事情

VRSionUP!6 「先端ボイチェン研究」 招待講演

  • Login to see the comments

統計的ボイチェン研究事情

  1. 1. 07/16/2019©Shinnosuke Takamichi, The University of Tokyo 統計的ボイチェン研究事情 高道 慎之介 @forthshinji (東京大学) #VRSionUp!6「先端ボイチェン研究」招待講演 本発表の一部 (p.4, 5) は総務省の委託「知覚モデルに基づくストレスフリーな リアルタイム広帯域音声変換の研究」を受けて実施したものです.
  2. 2. 統計的ボイチェン研究事情 平たく言えば「音声と機械学習 (ディープラーニングなど)を使って 構築するボイチェン」
  3. 3. /13 私の研究グループの目標 3 音声変換 音声合成 全ての人間・計算機が 身体・文化・時間を超えて 音声でコミュニケーション できる社会を目指して HOYA NPSS
  4. 4. /13 今日お話しする内容 4 特定の他者にリアルタイムでなりきるボイスチェンジャ 他人との「声のつながり」を見つけるボイスグラフ 「声の誤り」を学習・付与するボイスエフェクタ 次世代ボイスチェンジャに向けた我々の試み
  5. 5. /13 リアルタイムボイスチェンジャー (話者変換) 5 https://www.youtube.com/watch?v=P9rGqoYnfCg [Arakawa19] 音声合成・変換コンペ (2015, 2016) で品質世界一になった技術と 森勢先生のWORLDを利用.普通の laptop PC で50msレイテンシで動作.
  6. 6. /13 技術の中身 6 基本周波数 スペクトル包絡 非周期性指標 基本周波数 スペクトル包絡 非周期性指標 DNN (ディープ ニューラル ネットワーク) 単純な変換規則では,特定の他者への声変換は難しい.なので, 話者の声を事前収録して,その音声データから変換規則を自動学習
  7. 7. /137 クラウドソーシングを用いた 話者間類似度の大規模主観スコアリング [Saito19] 人間の声の関係性を計算できないか? このアンケートを4,000人に対して実施
  8. 8. /138 類似度スコアに基づく話者グラフを用いた 話者間類似度の可視化 F051 F146B F048 特定の話者に 類似した話者 多数の話者に 類似した話者F093 F127 [Saito19] このデータは 数カ月以内に公開予定 (ただし研究用データベース向け)
  9. 9. /13 音声の特徴量から「声の関係」を当てる 9 基本周波数 包絡 非周期 基本周波数 包絡 非周期 基本周波数 包絡 非周期 [Saito19] 手元の音声データを使って,音声から 「声の関係性」を当てるDNNを作れば… 新しい声が入っても「声の 関係性」を自動で見つけられる! → 声のユニーク性調査も可能?
  10. 10. /13 ニューラル・ダブル・トラッキング 10 [Tamaru19] NDT Random pitch modulation based on deep generative models 深層生成モデルを用いて「人間の音声はこう間違う」を学習 (理論上は1秒レイテンシーくらいで動く)
  11. 11. /13 原理 11 基本周波数 包絡 非周期 基本周波数 包絡 非周期 [Tamaru19] 人間の繰り返し歌唱データから,DNNは「声の間違い方」を事前学習 加工時には「自然な声の間違い方」をランダムで付与 正しい間違い方を付与
  12. 12. /13 総務省SCOPE:知覚モデルに基づくストレス フリーなリアルタイム広帯域音声変換 12 通常の遠隔コミュニケーション リアルタイム音声変換を介した遠隔コミュニケーション 言語情報 (音韻など) パラ言語情報 (感情など) 非言語情報 (話者性など) 自己聴取音による情報確認 言語 パラ言語 非言語 言語 パラ言語 非言語 音 声 変 換 意図しない情報変換が行われる恐れ エラーを含む音声のフィードバックでユーザに負荷 https://sites.google.com/site/shinnosuketakamichi/research-topics/scope2019
  13. 13. /13 今後のボイチェンに期待すること  現在の統計的ボイチェン研究 – 高品質化・高速化がメイン  これからのボイチェンに期待すること (我々が目指すこと) – ヒトとコトをどこまで分離できる? • 今は,人間の肉体と生成できる音声コンテンツが紐づいている • 聞き手の音声知覚モデリングが必要 – 話し手の人格をどこまで制御できる? • リアルタイムボイチェンは,自分で聴く自分の声を制御できる • 話し手の音声知覚モデリングが必要 – 音声コンテンツ制作をどう変えられる? • 「この研究は声優の仕事を奪うのでは」と言われるが個人的には 「奪うことはあり得ないが,声優の在り方が変わる」と考える. 13

×