07/16/2019©Shinnosuke Takamichi,
The University of Tokyo
統計的ボイチェン研究事情
高道 慎之介 @forthshinji
(東京大学)
#VRSionUp!6「先端ボイチェン研究」招待講演
本発表の一部 (p.4, 5) は総務省の委託「知覚モデルに基づくストレスフリーな
リアルタイム広帯域音声変換の研究」を受けて実施したものです.
統計的ボイチェン研究事情
平たく言えば「音声と機械学習
(ディープラーニングなど)を使って
構築するボイチェン」
/13
私の研究グループの目標
3
音声変換
音声合成
全ての人間・計算機が
身体・文化・時間を超えて
音声でコミュニケーション
できる社会を目指して
HOYA
NPSS
/13
今日お話しする内容
4
特定の他者にリアルタイムでなりきるボイスチェンジャ
他人との「声のつながり」を見つけるボイスグラフ
「声の誤り」を学習・付与するボイスエフェクタ
次世代ボイスチェンジャに向けた我々の試み
/13
リアルタイムボイスチェンジャー (話者変換)
5
https://www.youtube.com/watch?v=P9rGqoYnfCg
[Arakawa19]
音声合成・変換コンペ (2015, 2016) で品質世界一になった技術と
森勢先生のWORLDを利用.普通の laptop PC で50msレイテンシで動作.
/13
技術の中身
6
基本周波数
スペクトル包絡
非周期性指標
基本周波数
スペクトル包絡
非周期性指標
DNN
(ディープ
ニューラル
ネットワーク)
単純な変換規則では,特定の他者への声変換は難しい.なので,
話者の声を事前収録して,その音声データから変換規則を自動学習
/137
クラウドソーシングを用いた
話者間類似度の大規模主観スコアリング
[Saito19]
人間の声の関係性を計算できないか?
このアンケートを4,000人に対して実施
/138
類似度スコアに基づく話者グラフを用いた
話者間類似度の可視化
F051
F146B
F048
特定の話者に
類似した話者
多数の話者に
類似した話者F093
F127
[Saito19]
このデータは
数カ月以内に公開予定
(ただし研究用データベース向け)
/13
音声の特徴量から「声の関係」を当てる
9
基本周波数
包絡
非周期
基本周波数
包絡
非周期
基本周波数
包絡
非周期
[Saito19]
手元の音声データを使って,音声から
「声の関係性」を当てるDNNを作れば…
新しい声が入っても「声の
関係性」を自動で見つけられる!
→ 声のユニーク性調査も可能?
/13
ニューラル・ダブル・トラッキング
10
[Tamaru19]
NDT
Random pitch modulation
based on deep generative models
深層生成モデルを用いて「人間の音声はこう間違う」を学習
(理論上は1秒レイテンシーくらいで動く)
/13
原理
11
基本周波数
包絡
非周期
基本周波数
包絡
非周期
[Tamaru19]
人間の繰り返し歌唱データから,DNNは「声の間違い方」を事前学習
加工時には「自然な声の間違い方」をランダムで付与
正しい間違い方を付与
/13
総務省SCOPE:知覚モデルに基づくストレス
フリーなリアルタイム広帯域音声変換
12
通常の遠隔コミュニケーション
リアルタイム音声変換を介した遠隔コミュニケーション
言語情報 (音韻など)
パラ言語情報 (感情など)
非言語情報 (話者性など)
自己聴取音による情報確認
言語
パラ言語
非言語
言語
パラ言語
非言語
音
声
変
換
意図しない情報変換が行われる恐れ
エラーを含む音声のフィードバックでユーザに負荷
https://sites.google.com/site/shinnosuketakamichi/research-topics/scope2019
/13
今後のボイチェンに期待すること
 現在の統計的ボイチェン研究
– 高品質化・高速化がメイン
 これからのボイチェンに期待すること (我々が目指すこと)
– ヒトとコトをどこまで分離できる?
• 今は,人間の肉体と生成できる音声コンテンツが紐づいている
• 聞き手の音声知覚モデリングが必要
– 話し手の人格をどこまで制御できる?
• リアルタイムボイチェンは,自分で聴く自分の声を制御できる
• 話し手の音声知覚モデリングが必要
– 音声コンテンツ制作をどう変えられる?
• 「この研究は声優の仕事を奪うのでは」と言われるが個人的には
「奪うことはあり得ないが,声優の在り方が変わる」と考える.
13

統計的ボイチェン研究事情