06/20/2019©Shinnosuke Takamichi,
The University of Tokyo
統計的音声合成変換と近年の発展
高道 慎之介
(東京大学 大学院情報理工学系研究科)
首都大学東京 トーク
/46
自己紹介
 名前
– 高道 慎之介 (たかみち しんのすけ)
 経歴
– 2009年 熊本電波高専 電子工学科 卒業 … 半導体など
– 2011年 長岡技科大 工学部 卒業 … 立体音響など
– 2016年 奈良先端大 博士課程 修了 … 音声合成など
– 2016年~ 東京大学 猿渡・小山研 助教 (2018年まで特任助教)
 専門
– 統計的音声合成・変換など
2
/46
猿渡・小山研究室
3
 猿渡洋(教授)

専門分野
音メディアシステム
教師無し最適化
統計・機械学習論的
信号処理
協力教員 郡山知樹先生
特任研究員 高宗さん
秘書 丹治さん
専門分野
音響信号処理
音場再生・伝送
(音響ホログラフ)
スパース信号処理
小山翔一(講師) 高道慎之介(助教)
専門分野
音声信号処理
統計的音声合成
声質変換
深層学習(DNN)
北村大地(客員研究員)
専門分野
音メディア信号処理
統計・機械学習論的
信号処理
音楽信号処理
博士課程学生4名
修士課程学生6+7名
柏野研学生1名
香川高専
/46
私の研究グループの目標
4
音声変換
音声合成
全ての人間・計算機が
身体・文化・時間を超えて
音声でコミュニケーション
できる社会を目指して
/46
High-quality voice conversion
5
http://voicetext.jp/voiceactor/
SAYAKA HIKARI
Conversion
(Conven-
tional)
/46
DNN-based real-time voice conversion
6
http://www.ytv.co.jp/conan
/item/tai.html
https://www.youtube.com/watch?v=P9rGqoYnfCg
[Arakawa19]
/46
Neural double-tracking
7
[Tamaru19]
NDT
Random pitch modulation
based on deep generative models
深層生成モデルを用いて「人間の音声はこう間違う」を学習
/46
本日の内容
8
音楽・歌声
音声知覚
言語教育
音声信号処理
音声コーパス
一期一会音声・歌声合成
9
音楽・歌声
/46
Neural double-tracking
10
[Tamaru19]
NDT
Random pitch modulation
based on deep generative models
これをどうやって実現しているのかを話します!
/46
一期一会音声合成
11
「正しく喋る」から「正しく間違えて喋る」音声合成へ
Human
Noise
Current TTS
Noise
Our approach
[Takamichi17]
/46
観測できる音声
畳み込むと…
Time
音声の生成過程
12
声帯を開閉させて
空気を振動させる!
音高の生成
音色の付与
口や舌を動かして
音色をつける!
/46
深層生成モデル:
Generative Adversarial Network (GAN)
 Generative adversarial network
– 分布間の近似 Jensen-Shannon divergence を最小化
– 生成モデルと,学習/生成データを識別する識別モデルを敵対
– 音声合成に適用されだしたのは2016年 (我々のグループ)
13
𝒚
1: natural
0: synthesized
Discriminator
Natural
[Goodfellow14]
Generator
Input
/46
別の生成モデル:
Generative moment-matching network
 Generative moment-matching network
– 分布のモーメント (平均,分散,…) 間の二乗距離を最小化
• モーメントは音声処理との相性が良い
– 実装上は,グラム行列のノルムの差を最小化
14
𝒚
Natural
Generator
Input
[Li15]
/46
Neural double-tracking の手順
1515
波形
合成
スペクトル
有声/無声
F0
スペクトル
有声/無声
F0
条件付きGMMN
(条件:F0包絡)
遅延
人間の
DT歌声から
学習
[Tamaru19]
/46
変調したF0系列の例
16
う さ
ぎ
う
さ
ぎ
Pitch(1が半音)
Time [s]
Non-filtered
Post-filtered (4 lines)
童謡「うさぎ」の一節
72
71
70
69
68
67
66
65
64
63
62
0.0 0.5 1.0 1.5 2.0 2.5
[Tamaru19]
自由に使える日本語音声コーパス
17
音声コーパス
/46
人文学 & 工学研究のための
オープンな日本語音声コーパス
18
大学 研究所企業・非研究者
人文学系
工学系
人文学系
工学系工学系
ここは有ったここが無かった
 人文学研究のための音声コーパスは豊富
– 国語研を中心に整備 [IEICE会誌 vol.102, no.6 の小特集を参照]
 工学研究 (特に音声合成の研究) のための音声コーパスは?
– 2015年頃から,専門知識不要の音声合成方式が加速
– 音声合成のコモディティ化が進み,研究分野・身分・国を超えた
技術・製品開発が加速すると予想
→ 2016年時点で,それに適切な日本語音声コーパスが無かった
/46
JSUTコーパス
19
[Sonobe17]
 スペック
– 単一話者読み上げ音声,10時間 (約7,600発話),48 kHzサンプリング
– 日本語常用漢字の音読み・訓読みを全てカバー
• Wikipedia やクラウドソーシング作文を利用
• 日本語end-to-end音声合成をサポートするため
– 身分などに依らず非商用なら無償利用可 (商用転換も可能)
 成果
– 2017/10に公開して60か国以上からダウンロード (約75%は国内)
– End-to-end 音声合成でも使用されるように [Ueno18]
– 商用利用への転換の実績も有り
日本語End-to-end音声合成のサンプル音声は,京都大学 河原先生・上乃さまに提供して頂いた
/46
JSUT コレクション:テキスト・歌・環境音を
音声でつなげるコーパス
20
JSUT
JSUT-songJSUT-vi
Singing voice (0.5 hrs)Vocal imitation (0.4 hrs)
Reading-style speech (10 hrs)
Single Japanese speaker’s voice
[new!] JSUT-book
Audiobook
[Future release]
[Takamichi18]
音声による抽象化・具体化を利用した多元的情報の融合へ
/46
Mozilla Common Voice:
パブリックデータとしての音声
21
https://voice.mozilla.org/en
主観的類似度を考慮した話者埋め込み
22
音声知覚
/46
話者埋め込み (speaker embedding)
 話者埋め込み … 発話者を何らかの数値で表現すること
– 声色制御への応用 … ユーザの所望する声色で話す音声合成
– 言語横断への応用 … 言語を超えて同じ人の声で話す音声合成
 従来法 … 客観値(音声特徴量間の距離)に基づく embedding
– 識別器 (d-vector) や auto-encoder の中間層の値で潜在空間を張る
– 話者性は「客観的に似ている = 主観的に似ている」ではない
– 張られた潜在空間は,人間の知覚と対応しておらず,解釈しにくい
23
1
0
0
0
0
⋯
Speaker
codes
Speech
params.
⋯
Softmax
cross-entropy
𝐿SCE 𝒄, 𝒄
𝑑-vector
𝒄 𝒄
/4624
クラウドソーシングを用いた
話者間類似度の大規模主観スコアリング
 話者対の音声を提示し, その主観的な類似度を評価
– JNAS [Itou et al., 1999] の女性話者153名を利用
• 話者毎に異なる発話 (テキスト非依存の話者間類似度を評価)
– 4,060名のワーカーが, 全話者対からランダム抽出された34対を評価
• 評価スコア: -3 (似ていない) ~ +3 (似ている) の整数
• 1つの話者対を異なる10名以上が評価
提示話者対サンプル
[Saito19]
/4625
類似度スコアに基づく話者グラフを用いた
話者間類似度の可視化
話者の配置は類似度スコアを用いた多次元尺度構成法で決定
F051
F146B
F048
特定の話者に
類似した話者
多数の話者に
類似した話者F093
F127
[Saito19]
/46
DNNを用いた話者埋め込みへの応用
26
Spk.
1
𝒅1
Spk.
𝑁s
𝒅 𝑁𝐬
⋯
𝐃⊤ 𝐃
⋯
Gram matrix
𝐊 𝐃
Calc.
kernel
𝑘 ⋅
𝐿SIM
mat
⋅
𝑁s
𝑁s
1
1
⋯
⋯
𝑁s1
⋯1
𝑁s
𝑘 𝒅1, 𝒅 𝑵s
𝑠1,𝑁s𝐒
Sim. score
matrix
𝐿SIM
(mat)
𝐃, 𝐒 = 𝐊 𝐃 − 𝐒 𝐹
2
 音声特徴量 (客観値) から話者類似度 (主観値) へのマッピング
– DNNを用いた行列ノルム最小化で実現
– 話者性のユニークさも表現可能
[Saito19]
/4627
話者埋め込みと話者間類似度スコアの
散布図・相関
(1) Conv. (2) Prop. (vec) (3) Prop. (mat) (4) Prop. (mat-re)
0.0 1.0−1.0
1.0
0.0
−1.0
Value of kernel 𝑘 𝒅𝑖, 𝒅𝑗
Similarityscore𝑠𝑖,𝑗
(a)Closed-Closed(b)Closed-Open
提案法により, 主観的類似度と高い相関を持つ話者埋め込みが学習可能
[Saito19]
ノンネイティブ音声合成
28
言語教育
/46
外国語スピーキング学習への挑戦
 外国語学習の目的
– 対象の外国語 (例:英語) を用いた円滑な音声コミュニケーション
 スピーキング学習では何を目標にすべきか?
– 母語話者 (例:英語話者) を目指すべき? → No.
– 外国語話者はある程度の発音逸脱を許容しているため,その許容
範囲に収まる発音であれば,訛った外国語でもOKなのでは?
 ノンネイティブ音声合成
– 学習者の訛りを生かしつつ,外国語話者に伝わる音声を生成
29
/46
日本人英語音声合成
30
従来法で生成
提案法で生成
学習に使用した音声 (ERJデータベースに含まれる
男子大学生のうち,評定スコアが最低)
“I can see that knife now.”
[Oshima16]
/46
日本人英語の音声合成のための韻律補正
 韻律の違い
– 日本語:モーラ等時性・ピッチアクセント
– 英語:ストレス等時性・ストレスアクセント
 韻律補正法
– 英語母語話者の韻律を利用
– 同じ枠組みは別言語でも可能
31
[Oshima16]
英語母語話者の
音響モデル
英語母語話者の
英語音声
日本語母語話者の
英語音声
韻律を補正した
日本語母語話者の
音響モデル
スペクトル
音源
パワー
継続長
スペクトル
音源
パワー
継続長
モデル
適応
パワーと継続長を
補正すればよい!
/46
中国人日本語の音声合成のための韻律補正
32
Conventional
Ours
Chinese-accented Japanese
uttered by a Chinese student
“私のテストの成績の悪さに,
母がカンカンに怒っています”
Text Text-to-speech
Voice building
Make the voice fluent.
[Sekizawa19]
方向統計DNNを用いた
位相モデリング
33
音声信号処理
/46
周期変数とは
34
𝑥
𝑦
𝑦 =
𝜋
2
+ 2𝜋𝑁
𝑦 = 𝜋 + 2𝜋𝑁
𝑦 =
3
2
𝜋 + 2𝜋𝑁
𝑦 = 2𝜋𝑁
𝑁 は任意の整数
音声信号処理では極座標を使う (例:フーリエ変換の振幅・位相) 一方で,
振幅 𝑥 のみが処理対象となる場合が多かった.
振幅 𝑥 から位相 𝑦を予測(復元)できるか?
/46
DNNを用いた位相推定
 位相:2𝜋の周期をもつ周期変数
– 2𝜋の周期性を持つ周期変数 𝒚 𝑡 = 𝑦𝑡,0, ⋯ , 𝑦𝑡,𝑓, ⋯ , 𝑦𝑡,𝐹
⊤
– 𝑦𝑡,𝑓 と 𝑦𝑡,𝑓 + 2𝜋𝑁 は等価(𝑁は整数)
 DNN学習に通常の二乗誤差最小化規範 (MSE) を使えない
– 二乗誤差最小化規範は等方性ガウス分布の尤度最大化に対応
– ガウス分布は変数の周期性に対応できない
35
argmax 𝑁 𝒚 𝑡; 𝒚 𝑡, 𝜎2
𝑰 → argmin 𝒚 𝑡 − 𝒚 𝑡
⊤
𝒚 𝑡 − 𝒚 𝑡
DNN
MSE
𝒚 𝑡
ならば,周期変数に対応する確率分布を導入すれば良い!
振幅 𝒙 𝑡 位相 𝒚 𝑡
/46
von Mises 分布
 von Mises 分布 … 周期変数のための確率分布
– 2次元の等方性ガウス分布から導出される対称周期分布
36
[Mardia99]
𝑃(vm) 𝑦; 𝜇, 𝜅 =
exp 𝜅 cos 𝑦 − 𝜇
2𝜋𝐼0 𝜅
𝑦
𝜋 2𝜋
𝜇
𝜅
0
𝑃(vm)𝑦;𝜇,𝜅
/46
von Mises 分布 DNN を用いた
位相モデリング
37
 von Mises 分布 DNN … 周期変数のための深層生成モデル
– 集中度パラメータ固定の von Mises 分布を条件付き確率分布に持つ
 von Mises 分布 DNN は,データ分布の対称性を暗に仮定
– ↓のような分布のモデル化精度は悪い.どうする?
𝜽 = argmin 𝐿(vm) 𝒚 𝑡, 𝜽 = argmin −cos 𝑦𝑡,𝑓 − 𝜇 𝑡,𝑓
𝑓
DNN 𝜽
振幅 𝒙 𝑡 𝐿 vm ⋅ 位相 𝒚 𝑡
平均 𝝁 𝑡
𝑦
0 𝜋 2𝜋
Count
[Takamichi18]
/46
正弦関数摂動 von Mises 分布
 von Mises 分布𝑃 vm 𝑦, 𝜇, 𝜅 に摂動項をかけた非対称周期分布
38
[Abe11]
𝑃 ssvm 𝑦, 𝜇, 𝜅, 𝜆 = 𝑃 vm 𝑦, 𝜇, 𝜅 ⋅ 1 + 𝜆 sin 𝑦 − 𝜇
𝑦
0 𝜋 2𝜋
𝑃ssvm
𝑦,𝜇,𝜅,𝜆
摂動パラメータ
/46
正弦関数摂動 von Mises分布DNNによる
位相推定 (正確には群遅延推定)
39
0
1
𝐹
𝑦𝑡,∗
𝐿 vm ⋅
𝜎 ⋅
× 𝛼 𝜅
(const.)
0
𝐹
𝜇 𝑡,∗
𝜅 𝑡,∗
tanh ⋅
× 𝛼 𝜆
(const.)
𝜆 𝑡,∗
𝐿 ss ⋅Mean
Concentration
Skew
Freq. index
𝑥 𝑡,∗
DNN学習時の損失関数は 𝐿 vm ⋅ と 𝐿 ss ⋅ の和
(von Mises由来) (正弦関数摂動由来)
摂動項の
対数
[Takamichi18]
/46
負の対数尤度の box plot
40
0.80
0.85
0.90
0.95
1.00
1.05
1.10
Negativeloglikelihood
Min
Max
Median
正弦関数摂動の導入により尤度が改善
[Takamichi18]
次世代の音声合成に向けて
41
/46
総務省SCOPE:知覚モデルに基づくストレス
フリーなリアルタイム広帯域音声変換
42
通常の遠隔コミュニケーション
リアルタイム音声変換を介した遠隔コミュニケーション
言語情報 (音韻など)
パラ言語情報 (感情など)
非言語情報 (話者性など)
自己聴取音による情報確認
言語
パラ言語
非言語
言語
パラ言語
非言語
音
声
変
換
意図しない情報変換が行われる恐れ
エラーを含む音声のフィードバックでユーザに負荷
https://sites.google.com/site/shinnosuketakamichi/research-topics/scope2019
/46
東大GAPプロジェクト:音声合成技術の研究開発・
商用利用を加速させる音声コーパスの設計・構築
43
https://sites.google.com/site/shinnosuketakamichi/research-topics/gap2019
読み上げ音声
歌声
感情音声
多言語音声
ノンネイティブ
多数話者音声
方言音声
成果物
研究なら無償
商用なら有償提供
企業
音声関連企業
研究開発部門を
持つ企業
音声プラット
フォームを
持つ企業
無償提供
ゆらぎ音声合成 (セコム)
方言音声合成 (若手研究)
~2018年度
音声翻訳 (基盤S)
省データ音声変換 (基盤A)
リアルタイム変換 (SCOPE)
取引先候補
迅速なコーパス整備による
基盤研究の加速
大学
学習済みモデルを
含めた技術提供
コーパスを頒布
構築技術提供で
社内の音声から
新コーパスを作成
コーパス構築技術
その他の音声その他の競争的資金
災害支援 (セコム一般)
/46
2019/07 SP/SLP研究会 招待講演
44
https://sites.google.com/site/shinnosuketakamichi/tutorial/slp201907
概要
2019年1月施行の著作権法30条の4等の改正により,研究における著作物の
利用が拡大された.そこで,改正著作権法でどこまでが許されているのかに
ついて明らかにすべく,弁護士による講演会を開く.
講演者
竹内 亮 先生 (鳥飼総合法律事務所)
http://www.torikai.gr.jp/author/takeuchi
まとめ
45
/46
まとめ
 我々の既発表研究を紹介
– 音楽・歌声
– 音声コーパス
– 音声知覚
– 言語教育
– 音声信号処理
 現在進行中のプロジェクトを紹介
– ストレスフリー音声変換
– 研究開発・商用利用を加速させる音声コーパスの設計・構築
– 著作物をコーパスとして使用するための講演会
46

統計的音声合成変換と近年の発展