01/27/2021©Shinnosuke Takamichi,
The University of Tokyo
先端メディアコロキウム@明治大学
ここまで来た&これから来る音声合成
高道 慎之介 (東京大学)
/34
自己紹介
2
経歴
専門
名前
高道 慎之介 (たかみち しんのすけ)
熊本高専(熊本)→長岡技大(新潟)→
奈良先端大(奈良)
音声情報処理
現職
東京大学 情報理工学系研究科 助教
3
今日の内容
ここまで来た&これから来る音声合成
何をできるように
なったのか?
何を研究
しているのか?
ここまで来た音声合成
4
/34
音声とは
➢ 物理信号である
– 肺からの呼気を声帯と声道で制御
– 空気中や通信回路を介して利き手に伝播
➢ 情報を伝達・享受する手段である
– 話し手は,コンセプト(言語・意図など)を音声にエンコード
– 聞き手は,音声からコンセプトをデコード
➢ 個人情報である
– 言語性 (氏名,住所,…)
– 話者性・文化性・身体性 …
5
音声は,物理世界と情報世界をまたぐメディアである.
/34
(広義の)音声合成が目指すもの
6
/34
音声合成バーチャルアナウンサー
7
20200101 TBSテレビ「令和も見せます!森田さんのニッポンの初日の出」
[Koguchi20 (現在,森勢研M1)]
* 製作者から許諾を得て利用しております
公開版につき内容を削除しました
/34
リアルタイム音声変換
(名探偵コナンの蝶ネクタイ型変声機)
8
https://www.youtube.com/watch?v=P9rGqoYnfCg
更に… https://www.youtube.com/watch?v=vFSHxn_G2iQ
[Arakawa19][Saeki20]
* 製作者から許諾を得て利用しております
/34
なぜ出来るようになった?
➢ 基本的な仕組み
– テキスト・音声データの対を用意
– その対応関係を機械学習 (深層学習)
➢ なぜ出来るようになった?
– 共有資源としての音声資源創出 (後述)
– 深層学習技術の発達 (本講義では省略)
9
Text 機械学習
機械学習
これから来る音声合成
10
音声なりすまし
11
/34
音声なりすまし
➢ 音声なりすましとは
– 音声で他人になりすますセキュリティ攻撃
– 電話口で実在人物になりすまし,不当な利益を得るなど
➢ なぜ起こる?
– (有名人などは) 動画サイトに大量の音声データがある
– そのデータを使って音声合成 … 音声合成に無関係の話ではない
➢ 身近なところでは起こらない? -> No.
– スマートスピーカの利用 [Nakamura19]
12
/34
話者 verification-to-synthesis (V2S) 攻撃
13
音声なりすまし
音声で個人認証 話者認証を暴露
変換
[Nakamura19]
➢ スマートスピーカにおける話者認証 (話者認識)
– スマートスピーカの中に音声データは保存されない
– 音声から話者を推定する話者認証機能がある
➢ 話者 V2S 攻撃
– 音声ではなく話者認証から,その人の声になる音声変換はできて
しまうのか?
“〇〇さん
こんにちは!”
/34
V2S攻撃における音声変換の学習
14
音声変換の目的関数 = 話者性の復元関数 + 内容の保存関数
変換側(攻撃側) 認証側
攻撃対象話者の
話者ラベル
話者認証モデル
Mean squared
error
音声変換モデル
音声認識
モデル
音素事後確率
Softmax
cross-entropy
変換前後で発話内容を保存
攻撃対象話者の話者性を復元
攻撃者の
音声特徴量
/34
結果
➢ 変換音声の品質
– 本人の少量 (~1分) の音声データを入手した音声変換と同程度
– 本人の実際の音声とはやや異なるのが現状
➢ 今後はどう進む?
– 防御側も当然研究されている
• 人間の音声 or 人工音声?
• 人間の音声 or 録音音声?
– しばらくはいたちごっこが続く
15
変換
本人の音声 V2S攻撃 少量の音声を入手した
通常の音声変換
音声の非実在性のモデリング
16
/34
音声の非実在性
➢ 人間が許容できるメディアは実在データだけか? -> No.
– 人間はメディアの逸脱に対して許容範囲を持つ
• 例:ボイスチェンジャで非実在の音声を作っても,人格を認める
• 例:発音が多少訛っていても,内容を聞き取れる
– この許容範囲 (知覚分布) を計算機でモデル化できないか?
• 実在しない音声をもつ音声エージェントなど
➢ ヒント:GAN (敵対的生成ネットワーク) [Goodfellow14]
– 実在データ分布を表現するDNN
– 実在データと生成データを識別する識別器を騙して学習
• “人工知能が絵を描いた!”
17
人間を騙せば,知覚分布を表現するDNNを作るのでは?
/34
GANと人間GAN
18
Prior
distr.
Generated
data
Generator Discriminator
Natu-
ral
Train to fool computer-based
discriminator.
GAN
Training
Distribution of training data
Generation
Crowdworkers
Natu-
ral
Train to fool crowdworkers
(= crowd-based discriminator).
HumanGAN
Training
Distribution of human perception
Generation
[Fujii20]
/34
GAN:DNNで記述される識別器を騙す
19
Natural
Generated
⋯
⋯
⋯
⋯
Generator
Generated
Discri-
minator
Prior
distr.
生成モデルも識別モデルも微分可能なので,
backpropagation で学習可能
[Goodfellow14]
/34
人間の知覚する話者性(明るいほど「人間らし
い声」と主観的に評価された合成音声)
20
1st dim. of speech feature
2nd
dim.
of
speech
feature
実在音声の分布
(GANで表現可能)
知覚分布
(GANで表現不可.
人が評価しないと
分からない)
生成モデルは微分可能だが識別モデル (=人間) は微分不可能.
どうやって生成モデルを学習する?
/34
人間を「事後確率差分を出力するblack-box」と
みなし,勾配を近似
21
生成データに微少な摂動を加え,摂動の影響を人間に評価させる.
それらの比で勾配を近似して生成モデルを学習
[Fujii20]
/34
人間GAN:人間で記述される識別器を騙す
22
⋯
⋯
⋯
⋯
Generator
Generated
Prior
distr.
Crowdworkers
* 学習時にカラーマップを使用しないことに注意
人間を微分してDNNを学習できるようになった!
[Fujii20]
自己音声VR
23
/34
Speech chain (ことばの鎖)
24
* 図引用元:“話しことばの科学 その物理学と生物学,” 東京大学出版社, 1966.
話し手の音声は自身にフィードバック (自己聴取) され
音声聴取と生成の相互作用が起こる
/34
Computational speech chain (SCOPE 2019~)
25
音声聴取
音声生成
リアルタイム
音声変換
高没入感
フィードバック
自己聴取音を制御して,人間の音声生成を制御できる?
人間参加
機械学習
/34
我々は何までならなれる?
26
公開版につき内容を削除しました
アバター共生社会の音声合成
27
/34
内閣府ムーンショット目標1「2050年までに、人が身体、
脳、空間、時間の制約から解放された社会を実現」
28
* 図引用元:https://www.jst.go.jp/moonshot/program/goal1/files/goal1_explanation1.pdf
/34
音声合成は何ができるか?
➢ 人間を中心とした音声合成技術
– いかに手軽に音声コピーを作れるか
– 信頼できる不確実性をもった音声合成
– さらにさらに本人らしく
➢ アバターを中心とした音声合成技術
– アバターの中の人への没入
– 非実在性音声の実現
– 音声コミュニケーションの半自動化
29
数年かけてやっていくので,お楽しみに!
共通資源としての音声
30
/34
音声合成が発達したのは音声資源のおかげ
➢ なぜ音声合成が出来るようになった? (再掲)
– 共有資源としての音声資源(音声データ)創出
➢ 音声合成ができないことは多々ある
– 「少数言語のテキスト読み上げ」の品質が人間と同程度なだけ
– 人間の代替を目的としてもまだまだ
➢ 音声は石油である
– “Data is the new oil”.音声研究者にとって “データ=音声”.
– 音声の分野では,音声資源に特化した国際会議もあるくらい
– 音声の献血 (献声?) のようなプロジェクトもあるのでぜひ.
• 口から油を垂れ流すのはもったいない!
31
/34
いまから始める音声合成
➢ 日本語音声合成・音声変換用データ
– JSUTコーパス (“JUST”ではない) … 単一話者読み上げ10時間
– JSSSコーパス … 単一話者ニュース8時間
– JVSコーパス … 100人話者読み上げ30時間
• ググればダウンロードできます!
• Qiita, github にもいくつか記事がある
➢ ツール
– nnmnkwii (LINE 山本氏)
– ESPNet (CMU 渡部氏)
32
音声合成初心者でもすぐ試せるよう整備を進めております
まとめ
33
/34
まとめ
➢ ここまで来た音声合成
– AIアバター
– リアルタイムなりきりボイスチェンジャ
➢ これから来る音声合成
– 音声なりすましとの闘い
– 人間参加型
– 音声VR
– アバター共生社会
➢ Take-home メッセージ
– 音声合成は,やっと他分野と複合できるくらいの品質になってきた
– “音声合成=テキスト読み上げ”,”音声変換=蝶ネクタイ型変声器”の
言葉に呪われない,多様な利用を期待します.
34

ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)