SlideShare a Scribd company logo
1 of 73
Download to read offline
©Yuki Saito, Nov. 29, 2021.
ガウス過程と機械学習特論 ゲスト講演
敵対的学習に基づく統計的音声生成
システム情報学専攻 猿渡・小山研究室 特任助教
齋藤 佑樹
/72
1
自己紹介
➢ 名前: 齋藤 佑樹 (SAITO Yuki)
– 斎藤 佑樹
➢ 略歴
– 2016/03: 釧路工業高等専門学校 専攻科 修了 (学士)
– 2018/03: 東大 情報理工学系研究科 創造情報学専攻 修了 (修士)
– 2021/03: 東大 情報理工学系研究科 システム情報学専攻 修了 (博士)
– 2021/04: 現職
➢ 研究分野
– 機械学習 x 音声合成・変換 (統計的音声生成)
• 代表作: Statistical parametric speech synthesis incorporating
generative adversarial networks [Saito+18TASLP]
/72
2
本講演の概要・目次
➢ 概要
– 統計的音声生成の基礎を概観し, 近年の hot topic である,
– 敵対的学習に基づく手法の進展について説明する.
➢ 目次
– 1. はじめに: 統計的音声生成とは?
– 2. 統計的音声生成の基礎
– 3. 敵対的学習の基礎
– 4. 敵対的学習に基づく統計的音声生成
– 5. おわりに: まとめと今後の研究潮流
/72
➢ 音声生成 (speech synthesis)
– コンピュータで人間の音声を人工的に合成・変換・加工する技術
➢ 統計的音声生成 (statistical speech synthesis) [Zen+09]
– 入力 → 音声 の対応関係を機械学習モデルで表現
• HMM-TTS [Tokuda+13], GMM-VC [Toda+07], DNN-TTS/VC [Zen+13][Desai+09]
– 本講演のトピック: DNN ベースの統計的音声生成 (DNN 音声生成)
3
統計的音声生成とは?
テキスト音声合成 (TTS)
Text Speech
音声変換 (VC)
Output
speech
Input
speech
Hello Hello
[Sagisaka+88]
[Stylianou+88]
/72
4
人間社会における音声生成技術の応用
TTS/VC
音声コミュニケーション
支援
エンターテインメント
音声翻訳 マンマシン
インターフェース
歌声変換
あらゆる人・モノが, あらゆる声で
自在にコミュニケーション可能な社会を実現
/72
5
統計的音声生成研究の難しさ
➢ 統計的音声生成 = 一対多マッピングの学習
– 人間の発声は, 確率的にゆらぐ (その日の体調や気分など)
• → 条件付き確率モデルからのサンプリングとして解釈可能
➢ 得られた合成音声 (学習されたモデル) の評価
– 本質的に, 何かを作るタスクにおいて「正解」は存在しない!
• c.f., 音声認識の目標 = 音声の発話内容を正確に認識すること
– 音声生成の究極の目標は?
• ありとあらゆる音声を, 人間が望む品質で生成すること
• 評価基準: 音声の自然性, 話者の再現精度, etc...
𝑝 | ,
Hello
Hello
Text
Speaker
Synthetic
speech
samples
/72
6
Why machine learning?
➢ 比較的少ないパラメータ数で, 音声生成を効率的にモデル化可能
– c.f., 波形接続型音声生成 [Hunt+96]
• 事前に録音された音声 (の断片) を切り貼りして音声生成
• 個人のあらゆる音声の録音は非現実的 (プライバシーの問題など)
➢
ドメイン依存/非依存な音声の特徴を学習可能
– e.g., Multi-speaker TTS [Hojo+18][Jia+18][Mitsui+21]
• 話者に非依存な発音情報と, 話者固有の特徴を同時に学習
• 学習に用いられた既知の話者だけでなく,
未知の話者の TTS も少量データで実現可能
➢ 異なる領域・分野の知見を容易に導入可能
– 音声情報処理の関連領域 (e.g., 音声認識・話者認識) だけでなく,
自然言語処理, 画像生成などで有効な技術を用いた音声生成が可能に
• 本講演で紹介する敵対的学習 → 画像生成タスクで提案された技術
/72
7
猿渡・小山研 音声Gでの最近の研究紹介
➢ 1. Cross-lingual TTS [Xin+21]
– 日本語の音声しかない話者の英語音声を合成
➢ 2. Incremental TTS [Saeki+21ASRU]
– 入力されたテキストを逐次的に読み上げる音声を合成
➢
3. Real-time VC [Saeki+21IEICE]
– ある話者の音声を別の話者のものにリアルタイムで変換
➢ 4. Audiobook TTS [Nakata+21]
– オーディオブックの表現豊かな音声を合成
/72
➢ 概要
– 統計的音声生成の基礎を概観し, 近年の hot topic である,
– 敵対的学習に基づく手法の進展について説明する.
➢ 目次
– 1. はじめに: 統計的音声生成とは?
– 2. 統計的音声生成の基礎
– 3. 敵対的学習の基礎
– 4. 敵対的学習に基づく統計的音声生成
– 5. おわりに: まとめと今後の研究潮流
8
本講演の概要・目次
/72
9
➢ 学習時
– 1. 学習データ (テキスト/音声波形) から特徴量を抽出
– 2. テキスト特徴量から音声特徴量を生成する音響モデルを学習
➢ 生成時
– 1. 任意のテキストからテキスト特徴量を抽出
– 2. 学習後の音響モデルを用いて合成音声特徴量を生成
– 3. 合成音声特徴量から合成音声波形を生成
Training Synthesis
統計的音声生成の基本的な枠組み
(TTS の場合)
Feature
extraction
Speech
parameter
generation
Training
data
Feature
extraction
Acoustic
model
Waveform
synthesis
/72
10
➢ 学習時
– 1. 学習データ (変換元/変換先話者の音声波形) から特徴量を抽出
– 2. 変換元話者の音声特徴量を変換する音響モデルを学習
➢ 生成時
– 1. 変換元話者の任意の音声から音声特徴量を抽出
– 2. 学習後の音響モデルを用いて合成音声特徴量を生成
– 3. 合成音声特徴量から合成音声波形を生成
Feature
extraction
Speech
parameter
generation
Training
data
Training
Feature
extraction
Acoustic
model
Synthesis
統計的音声生成の基本的な枠組み
(VC の場合)
Waveform
synthesis
/72
11
統計的音声生成の定式化 (1/3)
➢ Notation (青字が既知, 赤字が未知の情報)
– 𝒳 : 音声の学習データ, 𝒞 : 入力情報の学習データ
• 𝒞 の実体 = テキスト for TTS, 変換元話者の音声 for VC
– 𝒙 : 合成したい音声, 𝒄 : 𝒙 を合成するための入力情報
➢ Formulation
– 学習データ 𝒳, 𝒞 が与えられたもとで,
任意の入力 𝒄 から音声 𝒙 を生成する予測分布 𝑝 𝒙 𝒄, 𝒞, 𝒳 を求めたい
𝒄
𝒞
𝒳
𝒙
/72
12
統計的音声生成の定式化 (2/3)
➢ Approximation1: 統計モデル 𝜆 の導入
– 予測分布 𝑝 𝒙 𝒄, 𝒞, 𝒳 を直接求めるのは困難なので,
学習データを用いて 𝒄 と 𝒙 の対応関係を表す統計モデル 𝜆 を学習
𝑝 𝒙 𝒄, 𝒞, 𝒳 = න 𝑝 𝜆 𝒞, 𝒳 𝑝 𝒙|𝒄, 𝜆 𝑑𝜆
𝒙 ∼ 𝑝 𝒙 𝒄, መ
𝜆
መ
𝜆 = argmax 𝑝 𝜆 𝒞, 𝒳
𝜆
𝒄
𝒞
𝒳
𝒙
𝜆 መ
𝜆
Point
estimation
(Training)
(Synthesis)
/72
13
統計的音声生成の定式化 (3/3)
➢ Approximation2: 中間特徴量の導入
– 𝒄 と 𝒙 の対応関係を直接学習するのは困難なので, 𝒞 と 𝒳 からそれぞれ
入力特徴量 ℐ と音声特徴量 𝒪 を抽出し, 特徴量間の対応関係を学習
• ℐ の実体 = テキスト特徴量 for TTS, 変換元話者の音声特徴量 for VC
𝒄
𝒞
𝒳
𝒙
𝜆IO መ
𝜆IO
ℐ
𝒪
𝜆OX
መ
𝜆OX
𝒊
𝒐
መ
𝜆IO = argmax 𝑝 𝜆IO ℐ, 𝒪 , መ
𝜆OX = argmax 𝑝 𝜆OX 𝒪, 𝒳 ,
𝜆IO 𝜆OX
𝒐 ∼ 𝑝 𝒐 𝒊, መ
𝜆IO , 𝒙 ∼ 𝑝 𝒙 𝒐, መ
𝜆OX
Feature extraction*
*特徴量の抽出に統計モデルを用いる場合もあるが, 本講演では省略
Acoustic
model
Waveform synthesis model
/72
14
統計的音声生成の主要な構成要素
➢ 1. 学習データ (音声コーパス) 𝒞, 𝒳
➢ 2. 特徴量 ℐ, 𝒪
➢ 3. 音響モデル 𝜆IO
➢ 4. 波形生成モデル 𝜆OX
/72
15
学習データ (音声コーパス) の用意
➢ 音声コーパス: 音声とテキスト書き起こしの集合
– 種々のアノテーションが付随する場合も
• 音素アライメント情報: いつ, 何を話しているか
• 話者ラベル: 誰が話しているか
• 感情ラベル: どんな感情で話しているか
➢ 英語/日本語の主要な音声コーパス
名前 言語 話者数 ドメイン
LJSpeech [Ito+17] 英 1 オーディオブック
LibriTTS [Zen+19] 英 2,456 オーディオブック
VCTK [Veaux+12] 英 110 テキスト読み上げ
JSUT [Sonobe+17] 日 1 テキスト読み上げ
JVS [Takamichi+19] 日 100 テキスト読み上げ
猿渡・小山研でこれまでに構築した主要な音声コーパス一覧 → link
/72
16
テキスト特徴量抽出のためのテキスト解析
➢ テキスト = 言語に依存した文字の系列データ
– e.g.,「私の夢は、年収、5000000000000000$稼ぐことです。」
– プレーンテキストからの TTS は (日本語だと特に) 困難
• 文字・読みの多様性 (ひらがな, カタカナ, 漢字, 英数字, 句読点, etc.)
⚫ 同形異音語が多い (e.g.,「日本」→ にほん/にっぽん)
➢ TTS におけるテキスト解析
– テキスト正規化: 読みやアクセントを推定しやすくする
• e.g., 「 5000000000000000$ 」→「五千兆ドル」
– 形態素解析: 単語への分割 & 品詞・読みを推定する
• e.g., 「私」... わたし/名詞, 「の」... の/助詞, 「夢」...ゆめ/名詞
– 音素変換: 読み情報を機械学習で扱いやすい形式に変換する
• e.g., 「私」... "w a t a sh i", 「夢」... "y u m e"
– アクセント推定: テキストのアクセントを推定する
• e.g., 「私」... わたし, 「夢」... ゆめ
/72
17
TTS で用いられる主なテキスト特徴量
➢ フルコンテキストラベル
– 音素・アクセントなどの情報をひとまとめにしたラベル*
➢ 音素・韻律記号列
– フルコンテキストラベルから, 読みとアクセントに関わる情報だけを
簡略化して表記
• 直列型入力 [Kurihara+21]: "^wa[tashino#yu[me]wa..."
• 並列型入力 [藤井+21]: "watashinoyumewa..."
• "^[______#_[___]__..."
*厳密には, フルコンテキストラベルに対して質問した結果を数値化したものを特徴量として使用
/72
18
TTS における音素継続長モデリング
➢ 音素継続長: 当該音素がどれだけ連続するか (= 話す速さ・リズム)
– プレーンテキストだけでは, 話す速さはわからない
• → 統計モデルによる予測が必要
➢ 手法1: 音素アライメント情報を用いた教師あり学習
– 音素単位のテキスト特徴量から, その継続長 (フレーム数) を予測
➢ 手法2: 音素アライメント情報なしの End-to-End 学習
– TTS の音響モデルとアライメント情報を同時に学習 (詳細は後述)
w
a
t
a
sh
i
Duration
model
3
7
2
5
4
7
/72
19
音声信号の時間・周波数表現
➢ 音声波形 = 超高密度の時系列データ
– サンプリング周波数 48 kHz の音声 → 1秒間に 48,000 サンプル
– 短時間フーリエ変換により, 時間・周波数表現へ変換
• (スペクトログラム)
⋯
短時間フーリエ変換
(Short-Term Fourier Transform: STFT)
/72
20
ソース・フィルタモデル:
人間による音声生成過程を近似
➢ 人間の音声 = 声帯振動の特性と声道フィルタの特性の畳み込み
– 前者は周波数領域での微細構造を, 後者は包絡成分を表現
発声メカニズムの図は東大院「信号処理特論」の講義資料より引用 (link)
Frequency
Log
magnitude
包絡成分 (声色)
微細構造
(音高・掠れ具合)
/72
21
TTS/VC で用いられる主な音声特徴量
STFT
analysis
スペクトログラム
(高次元)
メルスペクトログラム
(低次元)
Mel-filter
bank
スペクトル包絡 (声色)
F0 (音高)
非周期性指標 (掠れ具合)
Vocoder
analysis
(e.g., WORLD)
[Morise+16]
/72
➢ 音響モデルの予測結果 ෝ
𝒐𝑛 と学習データ 𝒐𝑛 の誤差最小化
22
TTS の音響モデル学習
Training data
⋱ ⋱
ℐ 𝒪
Acoustic
model
(DNN)
𝒊𝑛 𝒐𝑛
ෝ
𝒐𝑛
ℒ ෝ
𝒐𝑛, 𝒐𝑛
𝜆IO
Loss
/72
➢ 音響モデルの予測結果 ෝ
𝒐𝑛 と学習データ 𝒐𝑛 の誤差最小化
– 同一発話内容の音声を用いた学習 = パラレル VC
23
VC の音響モデル学習
Training data
⋱ ⋱
ℐ 𝒪
Acoustic
model
(DNN)
𝒊𝑛 𝒐𝑛
ෝ
𝒐𝑛
ℒ ෝ
𝒐𝑛, 𝒐𝑛
𝜆IO
こんにちは こんにちは
Loss
/72
24
Deep Neural Network (DNN)
➢ DNN の基本構造 = 線形変換と非線形写像の繰り返し
– 時系列モデリングに適した 再帰型 NN や畳み込み NN も用いられる
Input
(0th)
layer
Hidden
layers
Output
(𝐿th)
layer
モデルパラメータ: 𝜆 = 𝜆1, ⋯ , 𝜆𝐿
(ネットワークの結合重み・バイアスの集合)
⋯
⋯
⋯
⋯
𝒉𝑙−1
𝑾𝑙
𝒃𝑙
⋯ 𝑎𝑙 ⋅
𝒉𝑙
⋯
Activation
function
𝑾𝐿,
𝒃𝐿
(𝜆𝐿)
𝑾1,
𝒃1
(𝜆1)
/72
25
DNN の活性化関数と学習時の誤差関数
➢ 活性化関数: 隠れ層・出力層で異なる役割
– 隠れ層: 非線形変換 (表現力の向上)
• Sigmoid: 𝑎 𝑥 = Τ
1 1 + 𝑒−𝑥
, ReLU: 𝑎 𝑥 = 0 if 𝑥 < 0, otherwise 𝑥
– 出力層: 誤差関数を計算するドメインへの写像
• Linear: 𝑎 𝑥 = 𝑥, Softmax: 𝑎 𝒙 = Τ
𝑒𝒙 σ𝑚 𝑒𝑥𝑚 (確率ベクトル)
➢ 誤差関数: 解きたいタスクに応じて設定
– 生成タスク
• Mean Squared Error (MSE): ෝ
𝒐 − 𝒐 2
2
or Mean Absolute Error (MAE): ෝ
𝒐 − 𝒐 1
1
– 識別タスク
• Cross-entropy: − σ𝑐 𝑜𝑐 log ො
𝑜𝑐 (𝒐 はクラスIDを示す one-hot ベクトル)
𝑂
1.0
𝑂
/72
26
DNN の学習: 誤差逆伝播法を用いた勾配法による
モデルパラメータ更新
➢ 順伝播: 入力 𝒊𝑛 から ෝ
𝒐𝑛 を出力し, 誤差関数 ℒ ෝ
𝒐𝑛, 𝒐𝑛 を計算
➢ 逆伝播: 連鎖律に基づき, 各モデルパラメータの勾配 Τ
𝜕𝐿 𝜕𝜆𝑙 を計算
– → 活性化関数を含む, 各層での計算がすべて微分可能である必要あり
➢ 更新:
⋯
⋯
⋯
⋯ 𝑾𝐿,
𝒃𝐿
(𝜆𝐿)
𝒊𝑛
(𝒉0)
𝒐𝑛
ෝ
𝒐𝑛
(𝒉𝐿)
ℒ ෝ
𝒐𝑛, 𝒐𝑛
𝜕ℒ
𝜕ෝ
𝒐𝑛
𝑾1,
𝒃1
(𝜆1)
𝜕𝒉1
𝜕𝜆1
𝜕ෝ
𝒐𝑛
𝜕𝒉𝐿
𝜕𝒉𝐿
𝜕𝜆𝐿
𝜕ℒ
𝜕𝜆1
=
𝜕𝒉1
𝜕𝜆1
𝜕𝝀2
𝜕𝒉1
𝜕𝒉2
𝜕𝜆2
⋯
𝜕𝜆𝐿
𝜕𝒉𝐿−1
𝜕𝒉𝐿
𝜕𝜆𝐿
𝜕ℒ
𝜕𝒉𝐿
逆伝播経路で計算してきた勾配の積
𝜆𝑙 ← 𝜆𝑙 − 𝜂
𝜕ℒ
𝜕𝜆𝑙
(𝜂 は学習率)
/72
27
音声波形生成
F0
Excitation
generation Synthesis filter
Phase
reconstruction
Inverse STFT
e.g., MLSA* filter
[Imai+83]
e.g., Griffin & Lim
algorithm
[Griffin+85]
*MLSA: Mel-Log Spectrum Approximation
スペクトル
包絡
F0
非周期性
指標
スペクトロ
グラム
➢ ボコーダパラメータからの生成
➢ スペクトログラムからの生成
➢ DNN を用いた生成 = ニューラルボコーダ (後述)
/72
➢ ニューラルボコーダの予測結果 ෝ
𝒙𝑛 と学習データ 𝒙𝑛 の誤差最小化
28
ニューラルボコーダの学習
Training data
⋱ ⋱
𝒪 𝒳
Neural
vocoder
(DNN)
𝒐𝑛 𝒙𝑛
ෝ
𝒙𝑛
ℒ ෝ
𝒙𝑛, 𝒙𝑛
𝜆OX
Loss
/72
➢ DNN による波形生成モデリングの先駆け的研究
– Causal dilated convolution による超長期の依存関係モデリング
– Residual block による強力な非線形変換
– 256段階に量子化された音声信号の予測を識別問題として定式化
29
WaveNet [Oord+16]
𝑝 𝒙|𝜆 = ෑ
𝑡=1
𝑇
𝑝 𝑥𝑡 𝑥1, 𝑥2, ⋯ , 𝑥𝑡−1 : Auto-Regressive (AR) modeling
https://deepmind.com/blog/article/wavenet-
generative-model-raw-audio
https://static.googleusercontent.com/media/research.
google.com/ja//pubs/archive/45882.pdf
/72
30
WaveNet ボコーダ [Tamamori+17]
➢ WaveNet が表す予測分布を音声特徴量で条件付け
– 音声特徴量と音声波形の長さを揃えるために,
対応するサンプル数だけコピー
𝑝 𝒙|𝒐, 𝜆 = ෑ
𝑡=1
𝑇
𝑝 𝑥𝑡 𝑥1, 𝑥2, ⋯ , 𝑥𝑡−1, 𝒐
𝒐
[Tamamori+17]
[Hayashi+17]
: Conditional AR modeling
/72
31
Many many neural vocoders so far...
[Mu+21]
/72
32
一貫学習に基づく統計的音声生成 (1/3)
➢ 音響特徴量予測と音声波形生成の統合
– e.g., テキスト特徴量で条件付けされた WaveNet [Oord+16]
https://static.googleusercontent.com/media/research
.google.com/ja//pubs/archive/45882.pdf
/72
33
一貫学習に基づく統計的音声生成 (2/3)
➢ 入力特徴量抽出と音響特徴量予測の統合
– e.g., Tacotron [Wang+17]
Attention の図は ここ より引用
/72
34
一貫学習に基づく統計的音声生成 (3/3)
➢ すべての統合 (真の End-to-End モデリング)
char2wav [Sotelo+17] ClariNet [Ping+19]
Wave-Tacotron [Weiss+21]
/72
35
本節のまとめ
➢ 統計的音声生成 = 様々な分野の複合研究領域
– 音声情報処理, 信号処理, 自然言語処理, 機械学習, etc...
➢ 部分問題への分割方式から End-to-End 方式へ
– 従来方式 (統計的パラメトリック音声生成 [Zen+09]):
– End-to-End 方式:
Feature
extraction
Speech
parameter
generation
Acoustic
model
Speech
waveform
synthesis
Very strong DNN
/72
➢ 概要
– 統計的音声生成の基礎を概観し, 近年の hot topic である,
– 敵対的学習に基づく手法の進展について説明する.
➢ 目次
– 1. はじめに: 統計的音声生成とは?
– 2. 統計的音声生成の基礎
– 3. 敵対的学習の基礎
– 4. 敵対的学習に基づく統計的音声生成
– 5. おわりに: まとめと今後の研究潮流
36
本講演の概要・目次
/72
37
深層生成モデル
➢ 深層生成モデル: データ 𝒙 の分布 𝑝 𝒙 を表現する DNN
– 学習: 学習データ 𝒳 を用いて,真のデータ分布 𝑝∗ 𝒙 を近似する
生成分布 𝑝 𝒙|𝜆 のモデルパラメータ 𝜆 を推定
– 生成: 𝑝 𝒙|𝜆 から新しいデータをサンプリング
• e.g., WaveNet = AR 深層生成モデル
➢ 応用例
– 新しいデータの生成 (創作活動支援, データ拡張など)
– 生成分布を用いた半教師あり学習 (データの事前分布として利用)
➢ 代表的な深層生成モデル (参考: [Ruthotto+21])
– Variational AutoEncoder (VAE) [Kingma+13]
– Generative Adversarial Network (GAN) [Goodfellow+14]
– Normalizing Flows [Rezende+15]
𝑝 𝒙|𝜆 = ෑ
𝑡=1
𝑇
𝑝 𝑥𝑡 𝑥1, 𝑥2, ⋯ , 𝑥𝑡−1
/72
GAN: Generator と Discriminator の
ミニマックス最適化
38
True sample
min
𝐺
max
𝐷
𝑉(𝐷, 𝐺) = 𝔼𝑥~𝑝∗ 𝒙 log 𝐷 𝑥 + 𝔼𝒛~𝑝 𝒛 log 1 − 𝐷 𝐺(𝑧)
Discriminator
𝐷 ⋅
Prior 𝑝 𝒛
(e.g., 𝑁 𝟎, 𝑰 )
Fake sample
Generator
𝐺 ⋅
ෝ
𝒙
𝒛
Latent
variable 𝒙
or
/72
Discriminator の更新
39
True sample
Fake sample
𝒛
Latent
variable
or
min
𝐺
max
𝐷
𝑉(𝐷, 𝐺) = 𝔼𝑥~𝑝∗ 𝒙 log 𝐷 𝑥 + 𝔼𝒛~𝑝 𝒛 log 1 − 𝐷 𝐺(𝑧)
Discriminator
𝐷 ⋅
Prior 𝑝 𝒛
(e.g., 𝑁 𝟎, 𝑰 )
Generator
𝐺 ⋅
ෝ
𝒙 𝒙
1: true
0: fake
/72
40
𝒛
Latent
variable
Generator の更新
Fake sample
1: true
0: fake
Discriminator
𝐷 ⋅
Prior 𝑝 𝒛
(e.g., 𝑁 𝟎, 𝑰 )
Generator
𝐺 ⋅
ෝ
𝒙
min
𝐺
max
𝐷
𝑉(𝐷, 𝐺) = 𝔼𝑥~𝑝∗ 𝒙 log 𝐷 𝑥 + 𝔼𝒛~𝑝 𝒛 log 1 − 𝐷 𝐺(𝑧)
(実践的に, 𝔼𝒛~𝑝 𝒛 log 𝐷 𝐺(𝑧) を最小化することも)
/72
41
分布マッチングとしての解釈
➢ 𝐺 が固定されたもとでの最適な 𝐷
– 以降, 𝑝 𝒙|𝜆 ≔ 𝑝G, 𝑝∗ 𝒙 ≔ 𝑝∗ と表記
–
𝜕𝑉(𝐷,𝐺)
𝜕𝐷 𝒙
= −
𝑝∗
𝐷 𝒙
+
𝑝G
1−𝐷 𝒙
= 0 より, 𝐷∗
𝑥 =
𝑝∗
𝑝∗+𝑝G
➢ 𝐷∗
を GAN の目的関数に代入 (𝐺 から見た目的関数)
– 𝐶 𝐺 = max
𝐷
𝑉 𝐺, 𝐷
– = 𝔼𝑥~𝑝∗ log 𝐷∗ 𝑥 + 𝔼𝑥~𝑝G
log 1 − 𝐷∗ 𝑥
– = 𝔼𝑥~𝑝∗ log
𝑝∗
𝑝∗+𝑝G
+ 𝔼𝑥~𝑝G
log
𝑝G
𝑝∗+𝑝G
– = 𝔼𝑥~𝑝∗ log
𝑝∗
Τ
2 𝑝∗+𝑝G 2
+ 𝔼𝑥~𝑝G
log
𝑝G
Τ
2 𝑝∗+𝑝G 2
– = − log 4 + KL 𝑝∗||
𝑝∗+𝑝G
2
+ KL 𝑝G||
𝑝∗+𝑝G
2
𝑝∗ と 𝑝G の
Jensen-Shannon divergence
/72
42
GAN 安定化の工夫
➢ GAN の問題点: 学習の不安定さ
– 𝐺 と 𝐷 の学習率調整の難しさ (どちらか一方が強くなりすぎる問題)
• e.g., mode collapse (特定クラスのデータだけを生成し続ける現象)
➢ 工夫1: データ分布・生成分布間の距離規範の変更
– Jensen-Shannon divergence → 分布が disjoint の場合 ∞ に発散
– 対策: Wasserstein 距離を使用 (Wasserstein GAN [Arjovsky+17])
➢ 工夫2: 目的関数の変更
– GAN の学習 → cross-entropy 誤差に起因する勾配消失が発生
– 対策: 目的関数を二乗誤差に変更 (Least Squares GAN [Mao+16])
ℒD = 𝔼𝑥~𝑝∗ 𝒙 𝐷 𝒙 − 1 2
+ 𝔼𝒛~𝑝 𝒛 𝐷 𝐺 𝑧
2
, ℒG = 𝔼𝒛~𝑝 𝒛 𝐷 𝐺 𝑧 − 1
2
𝑊 𝑝∗
, 𝑝G = sup
𝑓𝐿 ≤1
𝔼𝑥~𝑝∗ 𝒙 𝑓(𝒙) − 𝔼𝒙~𝑝G 𝒙 𝑓(𝒙) (𝑓 は Lipschitz 写像)
DNN で近似
max
𝑤∈𝒲
𝔼𝑥~𝑝∗ 𝒙 𝑓𝑤(𝒙) − 𝔼𝒛~𝑝 𝒛 𝑓𝑤(𝐺 𝐳 )
/72
43
条件付き生成・ドメイン変換への拡張
➢ 通常の GAN = 潜在変数 𝒛 からデータ 𝒙 へ変換するモデルの学習
– データのランダム生成は可能だが, どのようなデータが生成されるか
制御不可能
➢ 条件付き生成分布 𝑝 𝒙|𝒄, 𝜆 の学習 → Conditional GAN [Mirza+14]
– 𝐺 と 𝐷 を変数 𝒄 で条件付け
• 実際は, 𝒄 の埋め込み表現と 𝒛 の積を
各モデルに入力
– 生成されるデータを変数 𝒄 で制御可能
• クラスラベルに応じた画像生成
• 画像に対応したタグ付け
• etc...
➢ データのドメイン変換分布 𝑝 𝒙T|𝒙S, 𝜆 の学習
– → CycleGAN [Zhu+17], StarGAN [Choi+18] (後述)
/72
44
CycleGAN: ノンパラレル1対1ドメイン変換モデル
➢ 2つのドメイン 𝑆, 𝑇 を相互変換可能なモデルを学習
– 2ドメインのペアデータが不要 (ノンパラレル)
𝐺S→T
𝐺T→S
𝐷S 𝐷T
𝒙S 𝒙T
ドメイン変換モデル×2
& Discriminator×2
𝒙S ෝ
𝒙T ෝ
𝒙S
𝐷T
𝐺S→T
𝐺T→S
𝒙T ෝ
𝒙S ෝ
𝒙T
𝐺T→S
𝐺S→T
𝐷S
ドメイン 𝑇 の敵対学習 ドメイン 𝑆 の敵対学習
𝑆 → 𝑇 → 𝑆 の
循環無矛盾学習
𝑇 → 𝑆 → 𝑇 の
循環無矛盾学習
[Zhu+17]
/72
45
StarGAN: ノンパラレル多対多ドメイン変換モデル
➢ 多様なドメインに相互変換可能な単一のモデルを学習
– CycleGAN はドメインのペア毎にモデルを用意する必要あり
[Choi+18]
Real/Fake識別と
ドメイン識別の
マルチタスク学習
(c.f., ACGAN [Odena+17])
ドメイン変換時の循環無矛盾学習
(c.f., CycleGAN)
識別器との
敵対学習
/72
46
本節のまとめ
➢ GAN = 分布間距離規範最小化に基づく深層生成モデルの学習法
– 2014年に提案され, 画像生成タスクにおいてその有効性を示した
• → 音声生成タスクでは? (次節で解説)
➢ 2021年11月現在, さまざまな理論拡張・変種が存在
– (おそらく) SoTA の画像生成: StyleGAN3 [Karras+21]
Generated images: https://nvlabs.github.io/stylegan3/
/72
➢ 概要
– 統計的音声生成の基礎を概観し, 近年の hot topic である,
– 敵対的学習に基づく手法の進展について説明する.
➢ 目次
– 1. はじめに: 統計的音声生成とは?
– 2. 統計的音声生成の基礎
– 3. 敵対的学習の基礎
– 4. 敵対的学習に基づく統計的音声生成
– 5. おわりに: まとめと今後の研究潮流
47
本講演の概要・目次
/72
48
GAN ベース統計的音声生成 進展の歴史 (2017 ~ 2020)
Text-To-Speech (TTS)
Voice Conversion (VC)
Neural vocoder
ASV-ADV-TTS
[Saito+ICASSP17]
GAN-Postfilter
[Kaneko+ICASSP17] CycleGAN-VC
[Kaneko+EUSIPCO18]
GAN-SPSS
[Saito+TASLP18]
MTL-GAN-TTS
[Yang+ASRU17]
VAWGAN-VC
[Hsu+Interspeech17] CycleGAN-VC
[Fang+ICASSP18]
LSM-VC
[Kaneko+Interspeech17]
GlottGAN
[Bollepalli+Interspeech17]
StarGAN-VC
[Kameoka+SLT18]
MelGAN
[Kumar+NeurIPS19]
AbAS
[Mustafa+Interspeech19]
GAN-TTS
[Bi
́ nkowski+ICLR20]
HiFi-GAN
[Kong+NeurIPS20]
Parallel WaveGAN
[Yamamoto+ICASSP20]
WaveGAN
[Donahue+ICLR19]
GAZEV
[Zhang+Interspeech20]
UNAGAN
[Liu+Interspeech20]
SINGAN
[Sisman+APSIPA19]
GAN-SVS
[Hono+ICASSP19]
MFCC-GAN
[Lauri+ICASSP18]
GAN-E2E-TTS
[Guo+Interspeech19]
GAN-VF-TTS
[Saito+CSL19]
GAN-M2O-VC
[Saito+IEICE20]
AdVRNN-TTS
[Lee+Interspeech18]
GAN-SPEC-TTS
[Saito+ICASSP18]
WeStarGAN-VC
[Paul+Interspeech19]
AdaGAN-VC
[Patel+APSIPA19]
WGAN-MS-TTS
[Zhao+IEEEAccess18]
VAWGAN-EVC
[Zhou+Interspeech20]
ACC-TTS
[Whitehill+Interspeech20]
StyleGAN-SDG
[Palkama+Interspeech20]
(この他にも様々な手法がありますが, 紙面の都合上省略しています)
/72
49
世界初の GAN ベース統計的音声生成 @ ICASSP2017
/72
50
統計的音声生成の課題: 合成音声特徴量の過剰平滑化
Natural Synthetic (MSE)
21st MCC
23rd
MCC
分布が縮小
MCC: Mel-Cepstral Coefficient (スペクトル包絡の低次元特徴量)
微細構造の
平滑化
/72
GAN ベースの音響モデル学習 [Saito+ICASSP17]
51
𝐿G
GAN
𝒙, ෝ
𝒙 = 𝐿MSE 𝒙, ෝ
𝒙 + 𝜔D
𝐸𝐿MGE
𝐸𝐿ADV
𝐿ADV
GAN
ෝ
𝒙 → Minimize
Discriminator
𝐷 ⋅
1: natural
𝐿ADV
GAN
ෝ
𝒙
合成音声特徴量 ෝ
𝒙 を
自然音声特徴量として識別
𝐿MSE 𝒙, ෝ
𝒙
Natural
𝒙
Generated
ෝ
𝒙
𝒄
Input
feats.
Acoustic model
(generator)
GAN 由来の敵対損失を音響モデル学習時の正則化として導入
Speech samples: http://sython.org/demo/icassp2017advtts/demo.html
/72
52
GAN ベースのポストフィルタ学習 [Kaneko+ICASSP17]
合成音声特徴量で条件付けした conditional GAN により,
自然音声に近い特徴量を生成 (MSE は用いない)
(音響モデルとは独立に学習)
/72
53
Difference betw. these two methods
➢ [Saito+ICASSP17]: 音響モデル学習時の正則化として GAN を導入
– TTS/VC どちらでも有効 [Saito+TASLP18]
– 特徴量のドメインに依らない
• 振幅スペクトル [Saito+ICASSP18][Saito+CSL19], 音声波形 [Yamamoto+ICASSP20]
– 様々なタスクに適用可能
• 多話者 TTS [Zhao+IEEEAccess18][Kanagawa+SSW19], 歌声合成 [Hono+ICASSP19]
➢ [Kaneko+ICASSP17]: 合成音声-to-自然音声の conditional GAN を学習
– 音響モデルとは独立に GAN を学習させる必要あり
– 特徴量のドメインに依らない
• 振幅スペクトル [Kaneko+Interspeech17], 音声波形 [Tanaka+SLT18]
/72
54
GAN ベース統計的音声生成 進展の歴史 (2017 ~ 2020)
Text-To-Speech (TTS)
Voice Conversion (VC)
Neural vocoder
ASV-ADV-TTS
[Saito+ICASSP17]
GAN-Postfilter
[Kaneko+ICASSP17] CycleGAN-VC
[Kaneko+EUSIPCO18]
GAN-SPSS
[Saito+TASLP18]
MTL-GAN-TTS
[Yang+ASRU17]
VAWGAN-VC
[Hsu+Interspeech17] CycleGAN-VC
[Fang+ICASSP18]
LSM-VC
[Kaneko+Interspeech17]
GlottGAN
[Bollepalli+Interspeech17]
StarGAN-VC
[Kameoka+SLT18]
MelGAN
[Kumar+NeurIPS19]
AbAS
[Mustafa+Interspeech19]
GAN-TTS
[Bi
́ nkowski+ICLR20]
HiFi-GAN
[Kong+NeurIPS20]
Parallel WaveGAN
[Yamamoto+ICASSP20]
WaveGAN
[Donahue+ICLR19]
GAZEV
[Zhang+Interspeech20]
UNAGAN
[Liu+Interspeech20]
SINGAN
[Sisman+APSIPA19]
GAN-SVS
[Hono+ICASSP19]
MFCC-GAN
[Lauri+ICASSP18]
GAN-E2E-TTS
[Guo+Interspeech19]
GAN-VF-TTS
[Saito+CSL19]
GAN-M2O-VC
[Saito+IEICE20]
AdVRNN-TTS
[Lee+Interspeech18]
GAN-SPEC-TTS
[Saito+ICASSP18]
WeStarGAN-VC
[Paul+Interspeech19]
AdaGAN-VC
[Patel+APSIPA19]
WGAN-MS-TTS
[Zhao+IEEEAccess18]
VAWGAN-EVC
[Zhou+Interspeech20]
ACC-TTS
[Whitehill+Interspeech20]
StyleGAN-SDG
[Palkama+Interspeech20]
(この他にも様々な手法がありますが, 紙面の都合上省略しています)
/72
55
WGAN-MS-TTS [Zhao+IEEEAccess18]
[Saito+ICASSP17] と同じ定式化
音声波形を
正しく予測するための損失
話者コード (誰が話しているか)
を用いた conditional GAN
w/o GAN
w/ GAN
Speech samples: https://nii-yamagishilab.github.io/TTS-GAN-WN-MultiSpeaker/index.html
/72
56
GAN-E2E-TTS [Guo+Interspeech19]
学習時 (teacher forcing):
正解データで
時系列を予測
生成時 (free running):
生成データで
時系列を予測
挙動の違いを
GAN で補償
Speech samples: https://hhguo.github.io/demo/publications/GANTTS/index.html
/72
57
GAN-TTS [Bi
́ nkowski+ICLR20]
➢ GAN の枠組みで, テキスト特徴量から音声波形を直接生成
– Generator: dilated convolution & skip connection
– Random Window Discriminators (RWDs):
• ランダムにとってきた複数セグメントの情報をアンサンブルして利用
Speech sample: https://storage.googleapis.com/deepmind-media/research/abstract.wav
/72
58
GAN ベース統計的音声生成 進展の歴史 (2017 ~ 2020)
Text-To-Speech (TTS)
Voice Conversion (VC)
Neural vocoder
ASV-ADV-TTS
[Saito+ICASSP17]
GAN-Postfilter
[Kaneko+ICASSP17] CycleGAN-VC
[Kaneko+EUSIPCO18]
GAN-SPSS
[Saito+TASLP18]
MTL-GAN-TTS
[Yang+ASRU17]
VAWGAN-VC
[Hsu+Interspeech17] CycleGAN-VC
[Fang+ICASSP18]
LSM-VC
[Kaneko+Interspeech17]
GlottGAN
[Bollepalli+Interspeech17]
StarGAN-VC
[Kameoka+SLT18]
MelGAN
[Kumar+NeurIPS19]
AbAS
[Mustafa+Interspeech19]
GAN-TTS
[Bi
́ nkowski+ICLR20]
HiFi-GAN
[Kong+NeurIPS20]
Parallel WaveGAN
[Yamamoto+ICASSP20]
WaveGAN
[Donahue+ICLR19]
GAZEV
[Zhang+Interspeech20]
UNAGAN
[Liu+Interspeech20]
SINGAN
[Sisman+APSIPA19]
GAN-SVS
[Hono+ICASSP19]
MFCC-GAN
[Lauri+ICASSP18]
GAN-E2E-TTS
[Guo+Interspeech19]
GAN-VF-TTS
[Saito+CSL19]
GAN-M2O-VC
[Saito+IEICE20]
AdVRNN-TTS
[Lee+Interspeech18]
GAN-SPEC-TTS
[Saito+ICASSP18]
WeStarGAN-VC
[Paul+Interspeech19]
AdaGAN-VC
[Patel+APSIPA19]
WGAN-MS-TTS
[Zhao+IEEEAccess18]
VAWGAN-EVC
[Zhou+Interspeech20]
ACC-TTS
[Whitehill+Interspeech20]
StyleGAN-SDG
[Palkama+Interspeech20]
(この他にも様々な手法がありますが, 紙面の都合上省略しています)
/72
59
VC 研究の課題: 変換可能な話者数のスケーリング
➢ 第2節で紹介したパラレル VC
– 高品質だが, 話者対で同一発話内容 (パラレル) のデータが必要
• → 数百人・数千人規模のパラレルデータを用意するのは非現実的
➢ 研究トピック: ノンパラレル VC の学習
– 必ずしも同一ではない発話内容のデータで音響モデルを学習可能
➢ GAN ベースのノンパラレル VC 学習法
– CycleGAN-VC [Kaneko+EUSIPCO18][Fang+ICASSP18]
– StarGAN-VC [Kameoka+SLT18]
– GAZEV [Zhang+Interspeech20]
/72
60
CycleGAN-VC [Kaneko+EUSIPCO18][Fang+ICASSP18]
➢ CycleGAN を VC に適用
– 変換元/変換先話者の同一発話 (パラレル) データがなくても学習可能
➢ Speech samples
𝐺S→T
𝐺T→S
𝐷S 𝐷T
𝒙S 𝒙T
話者変換モデル×2
& Discriminator×2
𝒙S ෝ
𝒙T ෝ
𝒙S
𝐷T
𝐺S→T
𝐺T→S
𝒙T ෝ
𝒙S ෝ
𝒙T
𝐺T→S
𝐺S→T
𝐷S
ドメイン 𝑇 の敵対学習 ドメイン 𝑆 の敵対学習
𝑆 → 𝑇 → 𝑆 の
循環無矛盾学習
𝑇 → 𝑆 → 𝑇 の
循環無矛盾学習
Speech samples: https://fangfm.github.io/icassp2018.html
DNN
(parallel)
GAN
(parallel)
CycleGAN
(non-parallel)
→ → →
← ← ←
/72
➢ StarGAN を VC に適用
– パラレルデータなしで, 複数話者の変換が可能な単一のモデルを学習
61
StarGAN-VC [Kameoka+SLT18]
Speech samples: http://www.kecl.ntt.co.jp/people/kameoka.hirokazu/Demos/stargan-vc/
音声から
話者を予測
/72
62
GAZEV [Zhang+Interspeech20]
➢ StarGAN を zero-shot VC に理論拡張
– 未知話者の少数発話だけで, その話者の VC を実現する技術
音声と性別コードから
当該話者の特徴を抽出
乱数ベクトルと性別コードから
話者の特徴をランダム生成
性別を予測
Speech samples: https://speech-ai.github.io/gazev/
? ?
/72
63
GAN ベース統計的音声生成 進展の歴史 (2017 ~ 2020)
Text-To-Speech (TTS)
Voice Conversion (VC)
Neural vocoder
ASV-ADV-TTS
[Saito+ICASSP17]
GAN-Postfilter
[Kaneko+ICASSP17] CycleGAN-VC
[Kaneko+EUSIPCO18]
GAN-SPSS
[Saito+TASLP18]
MTL-GAN-TTS
[Yang+ASRU17]
VAWGAN-VC
[Hsu+Interspeech17] CycleGAN-VC
[Fang+ICASSP18]
LSM-VC
[Kaneko+Interspeech17]
GlottGAN
[Bollepalli+Interspeech17]
StarGAN-VC
[Kameoka+SLT18]
MelGAN
[Kumar+NeurIPS19]
AbAS
[Mustafa+Interspeech19]
GAN-TTS
[Bi
́ nkowski+ICLR20]
HiFi-GAN
[Kong+NeurIPS20]
Parallel WaveGAN
[Yamamoto+ICASSP20]
WaveGAN
[Donahue+ICLR19]
GAZEV
[Zhang+Interspeech20]
UNAGAN
[Liu+Interspeech20]
SINGAN
[Sisman+APSIPA19]
GAN-SVS
[Hono+ICASSP19]
MFCC-GAN
[Lauri+ICASSP18]
GAN-E2E-TTS
[Guo+Interspeech19]
GAN-VF-TTS
[Saito+CSL19]
GAN-M2O-VC
[Saito+IEICE20]
AdVRNN-TTS
[Lee+Interspeech18]
GAN-SPEC-TTS
[Saito+ICASSP18]
WeStarGAN-VC
[Paul+Interspeech19]
AdaGAN-VC
[Patel+APSIPA19]
WGAN-MS-TTS
[Zhao+IEEEAccess18]
VAWGAN-EVC
[Zhou+Interspeech20]
ACC-TTS
[Whitehill+Interspeech20]
StyleGAN-SDG
[Palkama+Interspeech20]
(この他にも様々な手法がありますが, 紙面の都合上省略しています)
/72
64
ニューラルボコーダ研究の課題: 学習/推論の高速化
➢ WaveNet をはじめとする自己回帰 (AR) 型のニューラルボコーダ
– 高精度な時系列モデリングが可能だが, 推論が非常に低速
• → より高速なニューラルボコーダの研究が盛んに
• e.g., Parallel WaveNet [Oord+ICML17], WaveRNN [Kalchbrenner+ICML18]
➢ 研究トピック: GAN に基づく高速な (non-AR) ニューラルボコーダ
– WaveGAN [Donahue+ICLR19]
• (ニューラルボコーダではないが, 純粋な GAN で音を生成する先駆け)
– MelGAN [Kumar+NeurIPS19]
– HiFi-GAN [Kong+NeurIPS20]
– Parallel WaveGAN [Yamamoto+ICASSP20]
/72
65
WaveGAN [Donahue+ICLR19]
➢ GAN で音を生成する難しさ: 本質的な周期性
– スペクトログラムを画像とみなして生成 (↓表 SpecGAN) も可能だが,
生成に失敗したスペクトログラムから自然な音を復元するのは困難
– 超長期的な依存関係をモデル化する必要あり
• → c.f., WaveNet で用いられていた dilated convolution
➢ WaveGAN: DCGAN [Radford+16] を音生成に向けて修正
– カーネルサイズ25の1次元畳み込み (stride 4) を使用
– Discriminator に phase shuffling を適用
• 位相に対して不変な特徴で true/fake を識別するような制約
Audio samples: https://chrisdonahue.com/wavegan_examples/
Speech (0-to-9) Piano
Real
WaveGAN
SpecGAN
/72
66
MelGAN [Kumar+NeurIPS19]
➢ Non-AR のメルスペクトログラム-to-音声波形生成を GAN で学習
– Generator: upsampling + residual stack (w/ dilated conv.) の反復
– Discriminator: マルチスケール (異なるサンプリングレート) での識別
Feature
matching
loss
Original
Reconstructed
Speech samples: https://melgan-neurips.github.io/
/72
67
HiFi-GAN [Kong+NeurIPS20]
➢ MelGAN の進化版 (before: → after: )
– Generator に Multi-Receptive Field (MRF) fusion を導入
• 異なる受容野を用いた多数の residual block の和として音声波形を生成
– Multi-Period Discriminators (MPDs) を導入
• 音声の周期的な特徴をうまく捉えるように波形を reshape して入力
Speech samples: https://jik876.github.io/hifi-gan-demo/
/72
68
Parallel WaveGAN [Yamamoto+ICASSP20]
➢ GAN + 多重解像度 STFT loss で高速なニューラルボコーダを学習
– 異なる分析パラメータを用いて得られた複数のスペクトログラムが
正しく予測できるような制約
– 推論だけでなく, 学習も高速
Speech samples: https://r9y9.github.io/demos/projects/icassp2020/
Original
WaveNet
P-WaveGAN
/72
69
2021年の GAN ベース統計的音声生成技術
➢ 深層学習技術の進展 → 機械学習研究者が統計的音声生成に参入
– 本日紹介した手法の改良版などが続々と登場 ( RED OCEAN )
• End-to-End Adversarial Text-to-Speech (EATS) [Donahue+ICLR21],
StarGANv2-VC [Li+Interspeech21], Multi-band MelGAN [Yang+SLT21],
Multi-band harmonic-plus-noise Parallel WaveGAN [Hwang+Interspeech21]
➢ (個人的に) 今年一番すごいと思った手法: VITS [Kim+ICML21]
– VAE, End-to-End, 敵対学習, Normalizing Flow など諸々全部乗せ
Speech samples: https://jaywalnut310.github.io/vits-demo/index.html
Multi-speaker TTS も
VC もできちゃう
/72
70
本節のまとめ
➢ 敵対的学習に基づく統計的音声生成研究の歴史を概観
– 初めて GAN ベース音声生成が提案された2017年 (当時 M2) から,
2021年 (現在) までの代表的手法を紹介
– 近年では GAFAM や Deepmind などの機械学習研究者による貢献大
• しかし, 日本人研究者による貢献も非常に大きい
➢ これ以上やれることはなくなったのか? → NO.
– 合成音声の品質が「人間と同程度」にようやく達しただけ
– 機械と人間が音声で自然にコミュニケーションするためには...
• より緻密な韻律 (イントネーション・リズム) の制御
• ドメイン外のデータに対する柔軟な適応機構
⚫ e.g., 読み上げ音声 → 自発音声 など
• 音声発話の誤りを即座に訂正可能な機構
/72
➢ 概要
– 統計的音声生成の基礎を概観し, 近年の hot topic である,
– 敵対的学習に基づく手法の進展について説明する.
➢ 目次
– 1. はじめに: 統計的音声生成とは?
– 2. 統計的音声生成の基礎
– 3. 敵対的学習の基礎
– 4. 敵対的学習に基づく統計的音声生成
– 5. おわりに: まとめと今後の研究潮流
71
本講演の概要・目次
/72
72
まとめ & 今後の研究潮流
➢ 本講演: 敵対的学習に基づく統計的音声生成
– 統計的音声生成と敵対的学習の基礎から, 近年の手法までを紹介
➢ (私が考える) 今後の研究潮流
– TTS/VC: (基本的には) 人間に聴かせてナンボの研究領域
• → 人間をどうやって統計的音声生成の枠組みに取り入れるか?
– 最近の興味: 人間の知覚評価を取り入れた音響モデル学習・適応
• e.g., HumanGAN [Fujii+20], HumanACGAN [Ueda+21],
• 人間の話者知覚評価に基づく音声合成の話者適応 [宇田川+21]

More Related Content

What's hot

[DL輪読会]Wav2CLIP: Learning Robust Audio Representations From CLIP
[DL輪読会]Wav2CLIP: Learning Robust Audio Representations From CLIP[DL輪読会]Wav2CLIP: Learning Robust Audio Representations From CLIP
[DL輪読会]Wav2CLIP: Learning Robust Audio Representations From CLIPDeep Learning JP
 
[DL輪読会]Reward Augmented Maximum Likelihood for Neural Structured Prediction
[DL輪読会]Reward Augmented Maximum Likelihood for Neural Structured Prediction[DL輪読会]Reward Augmented Maximum Likelihood for Neural Structured Prediction
[DL輪読会]Reward Augmented Maximum Likelihood for Neural Structured PredictionDeep Learning JP
 
環境音の特徴を活用した音響イベント検出・シーン分類
環境音の特徴を活用した音響イベント検出・シーン分類環境音の特徴を活用した音響イベント検出・シーン分類
環境音の特徴を活用した音響イベント検出・シーン分類Keisuke Imoto
 
音声感情認識の分野動向と実用化に向けたNTTの取り組み
音声感情認識の分野動向と実用化に向けたNTTの取り組み音声感情認識の分野動向と実用化に向けたNTTの取り組み
音声感情認識の分野動向と実用化に向けたNTTの取り組みAtsushi_Ando
 
Nakai22sp03 presentation
Nakai22sp03 presentationNakai22sp03 presentation
Nakai22sp03 presentationYuki Saito
 
[DL輪読会]Wavenet a generative model for raw audio
[DL輪読会]Wavenet a generative model for raw audio[DL輪読会]Wavenet a generative model for raw audio
[DL輪読会]Wavenet a generative model for raw audioDeep Learning JP
 
[DL輪読会]Convolutional Conditional Neural Processesと Neural Processes Familyの紹介
[DL輪読会]Convolutional Conditional Neural Processesと Neural Processes Familyの紹介[DL輪読会]Convolutional Conditional Neural Processesと Neural Processes Familyの紹介
[DL輪読会]Convolutional Conditional Neural Processesと Neural Processes Familyの紹介Deep Learning JP
 
[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative Models[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative ModelsDeep Learning JP
 
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~Yui Sudo
 
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法SSII
 
【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised LearningまとめDeep Learning JP
 
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)Deep Learning JP
 
音情報処理における特徴表現
音情報処理における特徴表現音情報処理における特徴表現
音情報処理における特徴表現NU_I_TODALAB
 
音声の声質を変換する技術とその応用
音声の声質を変換する技術とその応用音声の声質を変換する技術とその応用
音声の声質を変換する技術とその応用NU_I_TODALAB
 
ドメイン適応の原理と応用
ドメイン適応の原理と応用ドメイン適応の原理と応用
ドメイン適応の原理と応用Yoshitaka Ushiku
 
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...Deep Learning JP
 
[DL輪読会]Diffusion-based Voice Conversion with Fast Maximum Likelihood Samplin...
[DL輪読会]Diffusion-based Voice Conversion with Fast  Maximum Likelihood Samplin...[DL輪読会]Diffusion-based Voice Conversion with Fast  Maximum Likelihood Samplin...
[DL輪読会]Diffusion-based Voice Conversion with Fast Maximum Likelihood Samplin...Deep Learning JP
 
[DL輪読会]Parallel WaveNet: Fast High-Fidelity Speech Synthesis
[DL輪読会]Parallel WaveNet: Fast High-Fidelity Speech Synthesis[DL輪読会]Parallel WaveNet: Fast High-Fidelity Speech Synthesis
[DL輪読会]Parallel WaveNet: Fast High-Fidelity Speech SynthesisDeep Learning JP
 
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks? 【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks? Deep Learning JP
 

What's hot (20)

[DL輪読会]Wav2CLIP: Learning Robust Audio Representations From CLIP
[DL輪読会]Wav2CLIP: Learning Robust Audio Representations From CLIP[DL輪読会]Wav2CLIP: Learning Robust Audio Representations From CLIP
[DL輪読会]Wav2CLIP: Learning Robust Audio Representations From CLIP
 
[DL輪読会]Reward Augmented Maximum Likelihood for Neural Structured Prediction
[DL輪読会]Reward Augmented Maximum Likelihood for Neural Structured Prediction[DL輪読会]Reward Augmented Maximum Likelihood for Neural Structured Prediction
[DL輪読会]Reward Augmented Maximum Likelihood for Neural Structured Prediction
 
環境音の特徴を活用した音響イベント検出・シーン分類
環境音の特徴を活用した音響イベント検出・シーン分類環境音の特徴を活用した音響イベント検出・シーン分類
環境音の特徴を活用した音響イベント検出・シーン分類
 
音声感情認識の分野動向と実用化に向けたNTTの取り組み
音声感情認識の分野動向と実用化に向けたNTTの取り組み音声感情認識の分野動向と実用化に向けたNTTの取り組み
音声感情認識の分野動向と実用化に向けたNTTの取り組み
 
Nakai22sp03 presentation
Nakai22sp03 presentationNakai22sp03 presentation
Nakai22sp03 presentation
 
[DL輪読会]Wavenet a generative model for raw audio
[DL輪読会]Wavenet a generative model for raw audio[DL輪読会]Wavenet a generative model for raw audio
[DL輪読会]Wavenet a generative model for raw audio
 
[DL輪読会]Convolutional Conditional Neural Processesと Neural Processes Familyの紹介
[DL輪読会]Convolutional Conditional Neural Processesと Neural Processes Familyの紹介[DL輪読会]Convolutional Conditional Neural Processesと Neural Processes Familyの紹介
[DL輪読会]Convolutional Conditional Neural Processesと Neural Processes Familyの紹介
 
[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative Models[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative Models
 
実装レベルで学ぶVQVAE
実装レベルで学ぶVQVAE実装レベルで学ぶVQVAE
実装レベルで学ぶVQVAE
 
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
 
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
 
【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ
 
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
 
音情報処理における特徴表現
音情報処理における特徴表現音情報処理における特徴表現
音情報処理における特徴表現
 
音声の声質を変換する技術とその応用
音声の声質を変換する技術とその応用音声の声質を変換する技術とその応用
音声の声質を変換する技術とその応用
 
ドメイン適応の原理と応用
ドメイン適応の原理と応用ドメイン適応の原理と応用
ドメイン適応の原理と応用
 
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
 
[DL輪読会]Diffusion-based Voice Conversion with Fast Maximum Likelihood Samplin...
[DL輪読会]Diffusion-based Voice Conversion with Fast  Maximum Likelihood Samplin...[DL輪読会]Diffusion-based Voice Conversion with Fast  Maximum Likelihood Samplin...
[DL輪読会]Diffusion-based Voice Conversion with Fast Maximum Likelihood Samplin...
 
[DL輪読会]Parallel WaveNet: Fast High-Fidelity Speech Synthesis
[DL輪読会]Parallel WaveNet: Fast High-Fidelity Speech Synthesis[DL輪読会]Parallel WaveNet: Fast High-Fidelity Speech Synthesis
[DL輪読会]Parallel WaveNet: Fast High-Fidelity Speech Synthesis
 
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks? 【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
 

Similar to GAN-based statistical speech synthesis (in Japanese)

saito22research_talk_at_NUS
saito22research_talk_at_NUSsaito22research_talk_at_NUS
saito22research_talk_at_NUSYuki Saito
 
Black-box Optimization of DNN-based Source Enhancement for Increasing Objecti...
Black-box Optimization of DNN-based Source Enhancement for Increasing Objecti...Black-box Optimization of DNN-based Source Enhancement for Increasing Objecti...
Black-box Optimization of DNN-based Source Enhancement for Increasing Objecti...Yuma Koizumi
 
FORECASTING MUSIC GENRE (RNN - LSTM)
FORECASTING MUSIC GENRE (RNN - LSTM)FORECASTING MUSIC GENRE (RNN - LSTM)
FORECASTING MUSIC GENRE (RNN - LSTM)IRJET Journal
 
nakai22apsipa_presentation.pdf
nakai22apsipa_presentation.pdfnakai22apsipa_presentation.pdf
nakai22apsipa_presentation.pdfYuki Saito
 
Deep Learning Based Voice Activity Detection and Speech Enhancement
Deep Learning Based Voice Activity Detection and Speech EnhancementDeep Learning Based Voice Activity Detection and Speech Enhancement
Deep Learning Based Voice Activity Detection and Speech EnhancementNAVER Engineering
 
Towards Machine Comprehension of Spoken Content
Towards Machine Comprehension of Spoken ContentTowards Machine Comprehension of Spoken Content
Towards Machine Comprehension of Spoken ContentNVIDIA Taiwan
 
Pattern Mining To Unknown Word Extraction (10
Pattern Mining To Unknown Word Extraction (10Pattern Mining To Unknown Word Extraction (10
Pattern Mining To Unknown Word Extraction (10Jason Yang
 
A note on word embedding
A note on word embeddingA note on word embedding
A note on word embeddingKhang Pham
 
文献紹介:Learning From Noisy Labels With Deep Neural Networks: A Survey
文献紹介:Learning From Noisy Labels With Deep Neural Networks: A Survey文献紹介:Learning From Noisy Labels With Deep Neural Networks: A Survey
文献紹介:Learning From Noisy Labels With Deep Neural Networks: A SurveyToru Tamaki
 
Md2k 0219 shang
Md2k 0219 shangMd2k 0219 shang
Md2k 0219 shangBBKuhn
 
Dual Learning for Machine Translation (NIPS 2016)
Dual Learning for Machine Translation (NIPS 2016)Dual Learning for Machine Translation (NIPS 2016)
Dual Learning for Machine Translation (NIPS 2016)Toru Fujino
 
Deep Learning with Audio Signals: Prepare, Process, Design, Expect
Deep Learning with Audio Signals: Prepare, Process, Design, ExpectDeep Learning with Audio Signals: Prepare, Process, Design, Expect
Deep Learning with Audio Signals: Prepare, Process, Design, ExpectKeunwoo Choi
 
10.1.1.11.1180
10.1.1.11.118010.1.1.11.1180
10.1.1.11.1180Tran Nghi
 
Introduction to japanese tokenizer
Introduction to japanese tokenizerIntroduction to japanese tokenizer
Introduction to japanese tokenizerFangda Wang
 

Similar to GAN-based statistical speech synthesis (in Japanese) (20)

saito22research_talk_at_NUS
saito22research_talk_at_NUSsaito22research_talk_at_NUS
saito22research_talk_at_NUS
 
Voice Cloning
Voice CloningVoice Cloning
Voice Cloning
 
Black-box Optimization of DNN-based Source Enhancement for Increasing Objecti...
Black-box Optimization of DNN-based Source Enhancement for Increasing Objecti...Black-box Optimization of DNN-based Source Enhancement for Increasing Objecti...
Black-box Optimization of DNN-based Source Enhancement for Increasing Objecti...
 
Saito2103slp
Saito2103slpSaito2103slp
Saito2103slp
 
FORECASTING MUSIC GENRE (RNN - LSTM)
FORECASTING MUSIC GENRE (RNN - LSTM)FORECASTING MUSIC GENRE (RNN - LSTM)
FORECASTING MUSIC GENRE (RNN - LSTM)
 
nakai22apsipa_presentation.pdf
nakai22apsipa_presentation.pdfnakai22apsipa_presentation.pdf
nakai22apsipa_presentation.pdf
 
Une18apsipa
Une18apsipaUne18apsipa
Une18apsipa
 
Deep Learning Based Voice Activity Detection and Speech Enhancement
Deep Learning Based Voice Activity Detection and Speech EnhancementDeep Learning Based Voice Activity Detection and Speech Enhancement
Deep Learning Based Voice Activity Detection and Speech Enhancement
 
Towards Machine Comprehension of Spoken Content
Towards Machine Comprehension of Spoken ContentTowards Machine Comprehension of Spoken Content
Towards Machine Comprehension of Spoken Content
 
Pattern Mining To Unknown Word Extraction (10
Pattern Mining To Unknown Word Extraction (10Pattern Mining To Unknown Word Extraction (10
Pattern Mining To Unknown Word Extraction (10
 
ASR_final
ASR_finalASR_final
ASR_final
 
A note on word embedding
A note on word embeddingA note on word embedding
A note on word embedding
 
文献紹介:Learning From Noisy Labels With Deep Neural Networks: A Survey
文献紹介:Learning From Noisy Labels With Deep Neural Networks: A Survey文献紹介:Learning From Noisy Labels With Deep Neural Networks: A Survey
文献紹介:Learning From Noisy Labels With Deep Neural Networks: A Survey
 
WaveNet.pdf
WaveNet.pdfWaveNet.pdf
WaveNet.pdf
 
Md2k 0219 shang
Md2k 0219 shangMd2k 0219 shang
Md2k 0219 shang
 
Thesis
ThesisThesis
Thesis
 
Dual Learning for Machine Translation (NIPS 2016)
Dual Learning for Machine Translation (NIPS 2016)Dual Learning for Machine Translation (NIPS 2016)
Dual Learning for Machine Translation (NIPS 2016)
 
Deep Learning with Audio Signals: Prepare, Process, Design, Expect
Deep Learning with Audio Signals: Prepare, Process, Design, ExpectDeep Learning with Audio Signals: Prepare, Process, Design, Expect
Deep Learning with Audio Signals: Prepare, Process, Design, Expect
 
10.1.1.11.1180
10.1.1.11.118010.1.1.11.1180
10.1.1.11.1180
 
Introduction to japanese tokenizer
Introduction to japanese tokenizerIntroduction to japanese tokenizer
Introduction to japanese tokenizer
 

More from Yuki Saito

hirai23slp03.pdf
hirai23slp03.pdfhirai23slp03.pdf
hirai23slp03.pdfYuki Saito
 
Interspeech2022 参加報告
Interspeech2022 参加報告Interspeech2022 参加報告
Interspeech2022 参加報告Yuki Saito
 
fujii22apsipa_asc
fujii22apsipa_ascfujii22apsipa_asc
fujii22apsipa_ascYuki Saito
 
Nishimura22slp03 presentation
Nishimura22slp03 presentationNishimura22slp03 presentation
Nishimura22slp03 presentationYuki Saito
 
Saito21asj Autumn Meeting
Saito21asj Autumn MeetingSaito21asj Autumn Meeting
Saito21asj Autumn MeetingYuki Saito
 
Interspeech2020 reading
Interspeech2020 readingInterspeech2020 reading
Interspeech2020 readingYuki Saito
 
Saito20asj_autumn
Saito20asj_autumnSaito20asj_autumn
Saito20asj_autumnYuki Saito
 
ICASSP読み会2020
ICASSP読み会2020ICASSP読み会2020
ICASSP読み会2020Yuki Saito
 
Saito20asj s slide_published
Saito20asj s slide_publishedSaito20asj s slide_published
Saito20asj s slide_publishedYuki Saito
 
Saito19asjAutumn_DeNA
Saito19asjAutumn_DeNASaito19asjAutumn_DeNA
Saito19asjAutumn_DeNAYuki Saito
 
Deep learning for acoustic modeling in parametric speech generation
Deep learning for acoustic modeling in parametric speech generationDeep learning for acoustic modeling in parametric speech generation
Deep learning for acoustic modeling in parametric speech generationYuki Saito
 
釧路高専情報工学科向け進学説明会
釧路高専情報工学科向け進学説明会釧路高専情報工学科向け進学説明会
釧路高専情報工学科向け進学説明会Yuki Saito
 
miyoshi2017asj
miyoshi2017asjmiyoshi2017asj
miyoshi2017asjYuki Saito
 
saito2017asj_tts
saito2017asj_ttssaito2017asj_tts
saito2017asj_ttsYuki Saito
 
saito2017asj_vc
saito2017asj_vcsaito2017asj_vc
saito2017asj_vcYuki Saito
 

More from Yuki Saito (20)

hirai23slp03.pdf
hirai23slp03.pdfhirai23slp03.pdf
hirai23slp03.pdf
 
Interspeech2022 参加報告
Interspeech2022 参加報告Interspeech2022 参加報告
Interspeech2022 参加報告
 
fujii22apsipa_asc
fujii22apsipa_ascfujii22apsipa_asc
fujii22apsipa_asc
 
Nishimura22slp03 presentation
Nishimura22slp03 presentationNishimura22slp03 presentation
Nishimura22slp03 presentation
 
Saito21asj Autumn Meeting
Saito21asj Autumn MeetingSaito21asj Autumn Meeting
Saito21asj Autumn Meeting
 
Interspeech2020 reading
Interspeech2020 readingInterspeech2020 reading
Interspeech2020 reading
 
Saito20asj_autumn
Saito20asj_autumnSaito20asj_autumn
Saito20asj_autumn
 
ICASSP読み会2020
ICASSP読み会2020ICASSP読み会2020
ICASSP読み会2020
 
Saito20asj s slide_published
Saito20asj s slide_publishedSaito20asj s slide_published
Saito20asj s slide_published
 
Saito19asjAutumn_DeNA
Saito19asjAutumn_DeNASaito19asjAutumn_DeNA
Saito19asjAutumn_DeNA
 
Deep learning for acoustic modeling in parametric speech generation
Deep learning for acoustic modeling in parametric speech generationDeep learning for acoustic modeling in parametric speech generation
Deep learning for acoustic modeling in parametric speech generation
 
Saito19asj_s
Saito19asj_sSaito19asj_s
Saito19asj_s
 
Saito18sp03
Saito18sp03Saito18sp03
Saito18sp03
 
Saito18asj_s
Saito18asj_sSaito18asj_s
Saito18asj_s
 
Saito17asjA
Saito17asjASaito17asjA
Saito17asjA
 
釧路高専情報工学科向け進学説明会
釧路高専情報工学科向け進学説明会釧路高専情報工学科向け進学説明会
釧路高専情報工学科向け進学説明会
 
miyoshi17sp07
miyoshi17sp07miyoshi17sp07
miyoshi17sp07
 
miyoshi2017asj
miyoshi2017asjmiyoshi2017asj
miyoshi2017asj
 
saito2017asj_tts
saito2017asj_ttssaito2017asj_tts
saito2017asj_tts
 
saito2017asj_vc
saito2017asj_vcsaito2017asj_vc
saito2017asj_vc
 

Recently uploaded

Bioteknologi kelas 10 kumer smapsa .pptx
Bioteknologi kelas 10 kumer smapsa .pptxBioteknologi kelas 10 kumer smapsa .pptx
Bioteknologi kelas 10 kumer smapsa .pptx023NiWayanAnggiSriWa
 
Topic 9- General Principles of International Law.pptx
Topic 9- General Principles of International Law.pptxTopic 9- General Principles of International Law.pptx
Topic 9- General Principles of International Law.pptxJorenAcuavera1
 
ALL ABOUT MIXTURES IN GRADE 7 CLASS PPTX
ALL ABOUT MIXTURES IN GRADE 7 CLASS PPTXALL ABOUT MIXTURES IN GRADE 7 CLASS PPTX
ALL ABOUT MIXTURES IN GRADE 7 CLASS PPTXDole Philippines School
 
《Queensland毕业文凭-昆士兰大学毕业证成绩单》
《Queensland毕业文凭-昆士兰大学毕业证成绩单》《Queensland毕业文凭-昆士兰大学毕业证成绩单》
《Queensland毕业文凭-昆士兰大学毕业证成绩单》rnrncn29
 
CHROMATOGRAPHY PALLAVI RAWAT.pptx
CHROMATOGRAPHY  PALLAVI RAWAT.pptxCHROMATOGRAPHY  PALLAVI RAWAT.pptx
CHROMATOGRAPHY PALLAVI RAWAT.pptxpallavirawat456
 
GenBio2 - Lesson 1 - Introduction to Genetics.pptx
GenBio2 - Lesson 1 - Introduction to Genetics.pptxGenBio2 - Lesson 1 - Introduction to Genetics.pptx
GenBio2 - Lesson 1 - Introduction to Genetics.pptxBerniceCayabyab1
 
Pests of castor_Binomics_Identification_Dr.UPR.pdf
Pests of castor_Binomics_Identification_Dr.UPR.pdfPests of castor_Binomics_Identification_Dr.UPR.pdf
Pests of castor_Binomics_Identification_Dr.UPR.pdfPirithiRaju
 
Call Girls in Majnu Ka Tilla Delhi 🔝9711014705🔝 Genuine
Call Girls in Majnu Ka Tilla Delhi 🔝9711014705🔝 GenuineCall Girls in Majnu Ka Tilla Delhi 🔝9711014705🔝 Genuine
Call Girls in Majnu Ka Tilla Delhi 🔝9711014705🔝 Genuinethapagita
 
FREE NURSING BUNDLE FOR NURSES.PDF by na
FREE NURSING BUNDLE FOR NURSES.PDF by naFREE NURSING BUNDLE FOR NURSES.PDF by na
FREE NURSING BUNDLE FOR NURSES.PDF by naJASISJULIANOELYNV
 
Harmful and Useful Microorganisms Presentation
Harmful and Useful Microorganisms PresentationHarmful and Useful Microorganisms Presentation
Harmful and Useful Microorganisms Presentationtahreemzahra82
 
Servosystem Theory / Cybernetic Theory by Petrovic
Servosystem Theory / Cybernetic Theory by PetrovicServosystem Theory / Cybernetic Theory by Petrovic
Servosystem Theory / Cybernetic Theory by PetrovicAditi Jain
 
Base editing, prime editing, Cas13 & RNA editing and organelle base editing
Base editing, prime editing, Cas13 & RNA editing and organelle base editingBase editing, prime editing, Cas13 & RNA editing and organelle base editing
Base editing, prime editing, Cas13 & RNA editing and organelle base editingNetHelix
 
trihybrid cross , test cross chi squares
trihybrid cross , test cross chi squarestrihybrid cross , test cross chi squares
trihybrid cross , test cross chi squaresusmanzain586
 
User Guide: Magellan MX™ Weather Station
User Guide: Magellan MX™ Weather StationUser Guide: Magellan MX™ Weather Station
User Guide: Magellan MX™ Weather StationColumbia Weather Systems
 
Environmental Biotechnology Topic:- Microbial Biosensor
Environmental Biotechnology Topic:- Microbial BiosensorEnvironmental Biotechnology Topic:- Microbial Biosensor
Environmental Biotechnology Topic:- Microbial Biosensorsonawaneprad
 
Thermodynamics ,types of system,formulae ,gibbs free energy .pptx
Thermodynamics ,types of system,formulae ,gibbs free energy .pptxThermodynamics ,types of system,formulae ,gibbs free energy .pptx
Thermodynamics ,types of system,formulae ,gibbs free energy .pptxuniversity
 
User Guide: Pulsar™ Weather Station (Columbia Weather Systems)
User Guide: Pulsar™ Weather Station (Columbia Weather Systems)User Guide: Pulsar™ Weather Station (Columbia Weather Systems)
User Guide: Pulsar™ Weather Station (Columbia Weather Systems)Columbia Weather Systems
 
basic entomology with insect anatomy and taxonomy
basic entomology with insect anatomy and taxonomybasic entomology with insect anatomy and taxonomy
basic entomology with insect anatomy and taxonomyDrAnita Sharma
 
User Guide: Capricorn FLX™ Weather Station
User Guide: Capricorn FLX™ Weather StationUser Guide: Capricorn FLX™ Weather Station
User Guide: Capricorn FLX™ Weather StationColumbia Weather Systems
 

Recently uploaded (20)

Bioteknologi kelas 10 kumer smapsa .pptx
Bioteknologi kelas 10 kumer smapsa .pptxBioteknologi kelas 10 kumer smapsa .pptx
Bioteknologi kelas 10 kumer smapsa .pptx
 
Topic 9- General Principles of International Law.pptx
Topic 9- General Principles of International Law.pptxTopic 9- General Principles of International Law.pptx
Topic 9- General Principles of International Law.pptx
 
ALL ABOUT MIXTURES IN GRADE 7 CLASS PPTX
ALL ABOUT MIXTURES IN GRADE 7 CLASS PPTXALL ABOUT MIXTURES IN GRADE 7 CLASS PPTX
ALL ABOUT MIXTURES IN GRADE 7 CLASS PPTX
 
《Queensland毕业文凭-昆士兰大学毕业证成绩单》
《Queensland毕业文凭-昆士兰大学毕业证成绩单》《Queensland毕业文凭-昆士兰大学毕业证成绩单》
《Queensland毕业文凭-昆士兰大学毕业证成绩单》
 
CHROMATOGRAPHY PALLAVI RAWAT.pptx
CHROMATOGRAPHY  PALLAVI RAWAT.pptxCHROMATOGRAPHY  PALLAVI RAWAT.pptx
CHROMATOGRAPHY PALLAVI RAWAT.pptx
 
GenBio2 - Lesson 1 - Introduction to Genetics.pptx
GenBio2 - Lesson 1 - Introduction to Genetics.pptxGenBio2 - Lesson 1 - Introduction to Genetics.pptx
GenBio2 - Lesson 1 - Introduction to Genetics.pptx
 
Pests of castor_Binomics_Identification_Dr.UPR.pdf
Pests of castor_Binomics_Identification_Dr.UPR.pdfPests of castor_Binomics_Identification_Dr.UPR.pdf
Pests of castor_Binomics_Identification_Dr.UPR.pdf
 
Call Girls in Majnu Ka Tilla Delhi 🔝9711014705🔝 Genuine
Call Girls in Majnu Ka Tilla Delhi 🔝9711014705🔝 GenuineCall Girls in Majnu Ka Tilla Delhi 🔝9711014705🔝 Genuine
Call Girls in Majnu Ka Tilla Delhi 🔝9711014705🔝 Genuine
 
FREE NURSING BUNDLE FOR NURSES.PDF by na
FREE NURSING BUNDLE FOR NURSES.PDF by naFREE NURSING BUNDLE FOR NURSES.PDF by na
FREE NURSING BUNDLE FOR NURSES.PDF by na
 
Volatile Oils Pharmacognosy And Phytochemistry -I
Volatile Oils Pharmacognosy And Phytochemistry -IVolatile Oils Pharmacognosy And Phytochemistry -I
Volatile Oils Pharmacognosy And Phytochemistry -I
 
Harmful and Useful Microorganisms Presentation
Harmful and Useful Microorganisms PresentationHarmful and Useful Microorganisms Presentation
Harmful and Useful Microorganisms Presentation
 
Servosystem Theory / Cybernetic Theory by Petrovic
Servosystem Theory / Cybernetic Theory by PetrovicServosystem Theory / Cybernetic Theory by Petrovic
Servosystem Theory / Cybernetic Theory by Petrovic
 
Base editing, prime editing, Cas13 & RNA editing and organelle base editing
Base editing, prime editing, Cas13 & RNA editing and organelle base editingBase editing, prime editing, Cas13 & RNA editing and organelle base editing
Base editing, prime editing, Cas13 & RNA editing and organelle base editing
 
trihybrid cross , test cross chi squares
trihybrid cross , test cross chi squarestrihybrid cross , test cross chi squares
trihybrid cross , test cross chi squares
 
User Guide: Magellan MX™ Weather Station
User Guide: Magellan MX™ Weather StationUser Guide: Magellan MX™ Weather Station
User Guide: Magellan MX™ Weather Station
 
Environmental Biotechnology Topic:- Microbial Biosensor
Environmental Biotechnology Topic:- Microbial BiosensorEnvironmental Biotechnology Topic:- Microbial Biosensor
Environmental Biotechnology Topic:- Microbial Biosensor
 
Thermodynamics ,types of system,formulae ,gibbs free energy .pptx
Thermodynamics ,types of system,formulae ,gibbs free energy .pptxThermodynamics ,types of system,formulae ,gibbs free energy .pptx
Thermodynamics ,types of system,formulae ,gibbs free energy .pptx
 
User Guide: Pulsar™ Weather Station (Columbia Weather Systems)
User Guide: Pulsar™ Weather Station (Columbia Weather Systems)User Guide: Pulsar™ Weather Station (Columbia Weather Systems)
User Guide: Pulsar™ Weather Station (Columbia Weather Systems)
 
basic entomology with insect anatomy and taxonomy
basic entomology with insect anatomy and taxonomybasic entomology with insect anatomy and taxonomy
basic entomology with insect anatomy and taxonomy
 
User Guide: Capricorn FLX™ Weather Station
User Guide: Capricorn FLX™ Weather StationUser Guide: Capricorn FLX™ Weather Station
User Guide: Capricorn FLX™ Weather Station
 

GAN-based statistical speech synthesis (in Japanese)

  • 1. ©Yuki Saito, Nov. 29, 2021. ガウス過程と機械学習特論 ゲスト講演 敵対的学習に基づく統計的音声生成 システム情報学専攻 猿渡・小山研究室 特任助教 齋藤 佑樹
  • 2. /72 1 自己紹介 ➢ 名前: 齋藤 佑樹 (SAITO Yuki) – 斎藤 佑樹 ➢ 略歴 – 2016/03: 釧路工業高等専門学校 専攻科 修了 (学士) – 2018/03: 東大 情報理工学系研究科 創造情報学専攻 修了 (修士) – 2021/03: 東大 情報理工学系研究科 システム情報学専攻 修了 (博士) – 2021/04: 現職 ➢ 研究分野 – 機械学習 x 音声合成・変換 (統計的音声生成) • 代表作: Statistical parametric speech synthesis incorporating generative adversarial networks [Saito+18TASLP]
  • 3. /72 2 本講演の概要・目次 ➢ 概要 – 統計的音声生成の基礎を概観し, 近年の hot topic である, – 敵対的学習に基づく手法の進展について説明する. ➢ 目次 – 1. はじめに: 統計的音声生成とは? – 2. 統計的音声生成の基礎 – 3. 敵対的学習の基礎 – 4. 敵対的学習に基づく統計的音声生成 – 5. おわりに: まとめと今後の研究潮流
  • 4. /72 ➢ 音声生成 (speech synthesis) – コンピュータで人間の音声を人工的に合成・変換・加工する技術 ➢ 統計的音声生成 (statistical speech synthesis) [Zen+09] – 入力 → 音声 の対応関係を機械学習モデルで表現 • HMM-TTS [Tokuda+13], GMM-VC [Toda+07], DNN-TTS/VC [Zen+13][Desai+09] – 本講演のトピック: DNN ベースの統計的音声生成 (DNN 音声生成) 3 統計的音声生成とは? テキスト音声合成 (TTS) Text Speech 音声変換 (VC) Output speech Input speech Hello Hello [Sagisaka+88] [Stylianou+88]
  • 6. /72 5 統計的音声生成研究の難しさ ➢ 統計的音声生成 = 一対多マッピングの学習 – 人間の発声は, 確率的にゆらぐ (その日の体調や気分など) • → 条件付き確率モデルからのサンプリングとして解釈可能 ➢ 得られた合成音声 (学習されたモデル) の評価 – 本質的に, 何かを作るタスクにおいて「正解」は存在しない! • c.f., 音声認識の目標 = 音声の発話内容を正確に認識すること – 音声生成の究極の目標は? • ありとあらゆる音声を, 人間が望む品質で生成すること • 評価基準: 音声の自然性, 話者の再現精度, etc... 𝑝 | , Hello Hello Text Speaker Synthetic speech samples
  • 7. /72 6 Why machine learning? ➢ 比較的少ないパラメータ数で, 音声生成を効率的にモデル化可能 – c.f., 波形接続型音声生成 [Hunt+96] • 事前に録音された音声 (の断片) を切り貼りして音声生成 • 個人のあらゆる音声の録音は非現実的 (プライバシーの問題など) ➢ ドメイン依存/非依存な音声の特徴を学習可能 – e.g., Multi-speaker TTS [Hojo+18][Jia+18][Mitsui+21] • 話者に非依存な発音情報と, 話者固有の特徴を同時に学習 • 学習に用いられた既知の話者だけでなく, 未知の話者の TTS も少量データで実現可能 ➢ 異なる領域・分野の知見を容易に導入可能 – 音声情報処理の関連領域 (e.g., 音声認識・話者認識) だけでなく, 自然言語処理, 画像生成などで有効な技術を用いた音声生成が可能に • 本講演で紹介する敵対的学習 → 画像生成タスクで提案された技術
  • 8. /72 7 猿渡・小山研 音声Gでの最近の研究紹介 ➢ 1. Cross-lingual TTS [Xin+21] – 日本語の音声しかない話者の英語音声を合成 ➢ 2. Incremental TTS [Saeki+21ASRU] – 入力されたテキストを逐次的に読み上げる音声を合成 ➢ 3. Real-time VC [Saeki+21IEICE] – ある話者の音声を別の話者のものにリアルタイムで変換 ➢ 4. Audiobook TTS [Nakata+21] – オーディオブックの表現豊かな音声を合成
  • 9. /72 ➢ 概要 – 統計的音声生成の基礎を概観し, 近年の hot topic である, – 敵対的学習に基づく手法の進展について説明する. ➢ 目次 – 1. はじめに: 統計的音声生成とは? – 2. 統計的音声生成の基礎 – 3. 敵対的学習の基礎 – 4. 敵対的学習に基づく統計的音声生成 – 5. おわりに: まとめと今後の研究潮流 8 本講演の概要・目次
  • 10. /72 9 ➢ 学習時 – 1. 学習データ (テキスト/音声波形) から特徴量を抽出 – 2. テキスト特徴量から音声特徴量を生成する音響モデルを学習 ➢ 生成時 – 1. 任意のテキストからテキスト特徴量を抽出 – 2. 学習後の音響モデルを用いて合成音声特徴量を生成 – 3. 合成音声特徴量から合成音声波形を生成 Training Synthesis 統計的音声生成の基本的な枠組み (TTS の場合) Feature extraction Speech parameter generation Training data Feature extraction Acoustic model Waveform synthesis
  • 11. /72 10 ➢ 学習時 – 1. 学習データ (変換元/変換先話者の音声波形) から特徴量を抽出 – 2. 変換元話者の音声特徴量を変換する音響モデルを学習 ➢ 生成時 – 1. 変換元話者の任意の音声から音声特徴量を抽出 – 2. 学習後の音響モデルを用いて合成音声特徴量を生成 – 3. 合成音声特徴量から合成音声波形を生成 Feature extraction Speech parameter generation Training data Training Feature extraction Acoustic model Synthesis 統計的音声生成の基本的な枠組み (VC の場合) Waveform synthesis
  • 12. /72 11 統計的音声生成の定式化 (1/3) ➢ Notation (青字が既知, 赤字が未知の情報) – 𝒳 : 音声の学習データ, 𝒞 : 入力情報の学習データ • 𝒞 の実体 = テキスト for TTS, 変換元話者の音声 for VC – 𝒙 : 合成したい音声, 𝒄 : 𝒙 を合成するための入力情報 ➢ Formulation – 学習データ 𝒳, 𝒞 が与えられたもとで, 任意の入力 𝒄 から音声 𝒙 を生成する予測分布 𝑝 𝒙 𝒄, 𝒞, 𝒳 を求めたい 𝒄 𝒞 𝒳 𝒙
  • 13. /72 12 統計的音声生成の定式化 (2/3) ➢ Approximation1: 統計モデル 𝜆 の導入 – 予測分布 𝑝 𝒙 𝒄, 𝒞, 𝒳 を直接求めるのは困難なので, 学習データを用いて 𝒄 と 𝒙 の対応関係を表す統計モデル 𝜆 を学習 𝑝 𝒙 𝒄, 𝒞, 𝒳 = න 𝑝 𝜆 𝒞, 𝒳 𝑝 𝒙|𝒄, 𝜆 𝑑𝜆 𝒙 ∼ 𝑝 𝒙 𝒄, መ 𝜆 መ 𝜆 = argmax 𝑝 𝜆 𝒞, 𝒳 𝜆 𝒄 𝒞 𝒳 𝒙 𝜆 መ 𝜆 Point estimation (Training) (Synthesis)
  • 14. /72 13 統計的音声生成の定式化 (3/3) ➢ Approximation2: 中間特徴量の導入 – 𝒄 と 𝒙 の対応関係を直接学習するのは困難なので, 𝒞 と 𝒳 からそれぞれ 入力特徴量 ℐ と音声特徴量 𝒪 を抽出し, 特徴量間の対応関係を学習 • ℐ の実体 = テキスト特徴量 for TTS, 変換元話者の音声特徴量 for VC 𝒄 𝒞 𝒳 𝒙 𝜆IO መ 𝜆IO ℐ 𝒪 𝜆OX መ 𝜆OX 𝒊 𝒐 መ 𝜆IO = argmax 𝑝 𝜆IO ℐ, 𝒪 , መ 𝜆OX = argmax 𝑝 𝜆OX 𝒪, 𝒳 , 𝜆IO 𝜆OX 𝒐 ∼ 𝑝 𝒐 𝒊, መ 𝜆IO , 𝒙 ∼ 𝑝 𝒙 𝒐, መ 𝜆OX Feature extraction* *特徴量の抽出に統計モデルを用いる場合もあるが, 本講演では省略 Acoustic model Waveform synthesis model
  • 15. /72 14 統計的音声生成の主要な構成要素 ➢ 1. 学習データ (音声コーパス) 𝒞, 𝒳 ➢ 2. 特徴量 ℐ, 𝒪 ➢ 3. 音響モデル 𝜆IO ➢ 4. 波形生成モデル 𝜆OX
  • 16. /72 15 学習データ (音声コーパス) の用意 ➢ 音声コーパス: 音声とテキスト書き起こしの集合 – 種々のアノテーションが付随する場合も • 音素アライメント情報: いつ, 何を話しているか • 話者ラベル: 誰が話しているか • 感情ラベル: どんな感情で話しているか ➢ 英語/日本語の主要な音声コーパス 名前 言語 話者数 ドメイン LJSpeech [Ito+17] 英 1 オーディオブック LibriTTS [Zen+19] 英 2,456 オーディオブック VCTK [Veaux+12] 英 110 テキスト読み上げ JSUT [Sonobe+17] 日 1 テキスト読み上げ JVS [Takamichi+19] 日 100 テキスト読み上げ 猿渡・小山研でこれまでに構築した主要な音声コーパス一覧 → link
  • 17. /72 16 テキスト特徴量抽出のためのテキスト解析 ➢ テキスト = 言語に依存した文字の系列データ – e.g.,「私の夢は、年収、5000000000000000$稼ぐことです。」 – プレーンテキストからの TTS は (日本語だと特に) 困難 • 文字・読みの多様性 (ひらがな, カタカナ, 漢字, 英数字, 句読点, etc.) ⚫ 同形異音語が多い (e.g.,「日本」→ にほん/にっぽん) ➢ TTS におけるテキスト解析 – テキスト正規化: 読みやアクセントを推定しやすくする • e.g., 「 5000000000000000$ 」→「五千兆ドル」 – 形態素解析: 単語への分割 & 品詞・読みを推定する • e.g., 「私」... わたし/名詞, 「の」... の/助詞, 「夢」...ゆめ/名詞 – 音素変換: 読み情報を機械学習で扱いやすい形式に変換する • e.g., 「私」... "w a t a sh i", 「夢」... "y u m e" – アクセント推定: テキストのアクセントを推定する • e.g., 「私」... わたし, 「夢」... ゆめ
  • 18. /72 17 TTS で用いられる主なテキスト特徴量 ➢ フルコンテキストラベル – 音素・アクセントなどの情報をひとまとめにしたラベル* ➢ 音素・韻律記号列 – フルコンテキストラベルから, 読みとアクセントに関わる情報だけを 簡略化して表記 • 直列型入力 [Kurihara+21]: "^wa[tashino#yu[me]wa..." • 並列型入力 [藤井+21]: "watashinoyumewa..." • "^[______#_[___]__..." *厳密には, フルコンテキストラベルに対して質問した結果を数値化したものを特徴量として使用
  • 19. /72 18 TTS における音素継続長モデリング ➢ 音素継続長: 当該音素がどれだけ連続するか (= 話す速さ・リズム) – プレーンテキストだけでは, 話す速さはわからない • → 統計モデルによる予測が必要 ➢ 手法1: 音素アライメント情報を用いた教師あり学習 – 音素単位のテキスト特徴量から, その継続長 (フレーム数) を予測 ➢ 手法2: 音素アライメント情報なしの End-to-End 学習 – TTS の音響モデルとアライメント情報を同時に学習 (詳細は後述) w a t a sh i Duration model 3 7 2 5 4 7
  • 20. /72 19 音声信号の時間・周波数表現 ➢ 音声波形 = 超高密度の時系列データ – サンプリング周波数 48 kHz の音声 → 1秒間に 48,000 サンプル – 短時間フーリエ変換により, 時間・周波数表現へ変換 • (スペクトログラム) ⋯ 短時間フーリエ変換 (Short-Term Fourier Transform: STFT)
  • 21. /72 20 ソース・フィルタモデル: 人間による音声生成過程を近似 ➢ 人間の音声 = 声帯振動の特性と声道フィルタの特性の畳み込み – 前者は周波数領域での微細構造を, 後者は包絡成分を表現 発声メカニズムの図は東大院「信号処理特論」の講義資料より引用 (link) Frequency Log magnitude 包絡成分 (声色) 微細構造 (音高・掠れ具合)
  • 23. /72 ➢ 音響モデルの予測結果 ෝ 𝒐𝑛 と学習データ 𝒐𝑛 の誤差最小化 22 TTS の音響モデル学習 Training data ⋱ ⋱ ℐ 𝒪 Acoustic model (DNN) 𝒊𝑛 𝒐𝑛 ෝ 𝒐𝑛 ℒ ෝ 𝒐𝑛, 𝒐𝑛 𝜆IO Loss
  • 24. /72 ➢ 音響モデルの予測結果 ෝ 𝒐𝑛 と学習データ 𝒐𝑛 の誤差最小化 – 同一発話内容の音声を用いた学習 = パラレル VC 23 VC の音響モデル学習 Training data ⋱ ⋱ ℐ 𝒪 Acoustic model (DNN) 𝒊𝑛 𝒐𝑛 ෝ 𝒐𝑛 ℒ ෝ 𝒐𝑛, 𝒐𝑛 𝜆IO こんにちは こんにちは Loss
  • 25. /72 24 Deep Neural Network (DNN) ➢ DNN の基本構造 = 線形変換と非線形写像の繰り返し – 時系列モデリングに適した 再帰型 NN や畳み込み NN も用いられる Input (0th) layer Hidden layers Output (𝐿th) layer モデルパラメータ: 𝜆 = 𝜆1, ⋯ , 𝜆𝐿 (ネットワークの結合重み・バイアスの集合) ⋯ ⋯ ⋯ ⋯ 𝒉𝑙−1 𝑾𝑙 𝒃𝑙 ⋯ 𝑎𝑙 ⋅ 𝒉𝑙 ⋯ Activation function 𝑾𝐿, 𝒃𝐿 (𝜆𝐿) 𝑾1, 𝒃1 (𝜆1)
  • 26. /72 25 DNN の活性化関数と学習時の誤差関数 ➢ 活性化関数: 隠れ層・出力層で異なる役割 – 隠れ層: 非線形変換 (表現力の向上) • Sigmoid: 𝑎 𝑥 = Τ 1 1 + 𝑒−𝑥 , ReLU: 𝑎 𝑥 = 0 if 𝑥 < 0, otherwise 𝑥 – 出力層: 誤差関数を計算するドメインへの写像 • Linear: 𝑎 𝑥 = 𝑥, Softmax: 𝑎 𝒙 = Τ 𝑒𝒙 σ𝑚 𝑒𝑥𝑚 (確率ベクトル) ➢ 誤差関数: 解きたいタスクに応じて設定 – 生成タスク • Mean Squared Error (MSE): ෝ 𝒐 − 𝒐 2 2 or Mean Absolute Error (MAE): ෝ 𝒐 − 𝒐 1 1 – 識別タスク • Cross-entropy: − σ𝑐 𝑜𝑐 log ො 𝑜𝑐 (𝒐 はクラスIDを示す one-hot ベクトル) 𝑂 1.0 𝑂
  • 27. /72 26 DNN の学習: 誤差逆伝播法を用いた勾配法による モデルパラメータ更新 ➢ 順伝播: 入力 𝒊𝑛 から ෝ 𝒐𝑛 を出力し, 誤差関数 ℒ ෝ 𝒐𝑛, 𝒐𝑛 を計算 ➢ 逆伝播: 連鎖律に基づき, 各モデルパラメータの勾配 Τ 𝜕𝐿 𝜕𝜆𝑙 を計算 – → 活性化関数を含む, 各層での計算がすべて微分可能である必要あり ➢ 更新: ⋯ ⋯ ⋯ ⋯ 𝑾𝐿, 𝒃𝐿 (𝜆𝐿) 𝒊𝑛 (𝒉0) 𝒐𝑛 ෝ 𝒐𝑛 (𝒉𝐿) ℒ ෝ 𝒐𝑛, 𝒐𝑛 𝜕ℒ 𝜕ෝ 𝒐𝑛 𝑾1, 𝒃1 (𝜆1) 𝜕𝒉1 𝜕𝜆1 𝜕ෝ 𝒐𝑛 𝜕𝒉𝐿 𝜕𝒉𝐿 𝜕𝜆𝐿 𝜕ℒ 𝜕𝜆1 = 𝜕𝒉1 𝜕𝜆1 𝜕𝝀2 𝜕𝒉1 𝜕𝒉2 𝜕𝜆2 ⋯ 𝜕𝜆𝐿 𝜕𝒉𝐿−1 𝜕𝒉𝐿 𝜕𝜆𝐿 𝜕ℒ 𝜕𝒉𝐿 逆伝播経路で計算してきた勾配の積 𝜆𝑙 ← 𝜆𝑙 − 𝜂 𝜕ℒ 𝜕𝜆𝑙 (𝜂 は学習率)
  • 28. /72 27 音声波形生成 F0 Excitation generation Synthesis filter Phase reconstruction Inverse STFT e.g., MLSA* filter [Imai+83] e.g., Griffin & Lim algorithm [Griffin+85] *MLSA: Mel-Log Spectrum Approximation スペクトル 包絡 F0 非周期性 指標 スペクトロ グラム ➢ ボコーダパラメータからの生成 ➢ スペクトログラムからの生成 ➢ DNN を用いた生成 = ニューラルボコーダ (後述)
  • 29. /72 ➢ ニューラルボコーダの予測結果 ෝ 𝒙𝑛 と学習データ 𝒙𝑛 の誤差最小化 28 ニューラルボコーダの学習 Training data ⋱ ⋱ 𝒪 𝒳 Neural vocoder (DNN) 𝒐𝑛 𝒙𝑛 ෝ 𝒙𝑛 ℒ ෝ 𝒙𝑛, 𝒙𝑛 𝜆OX Loss
  • 30. /72 ➢ DNN による波形生成モデリングの先駆け的研究 – Causal dilated convolution による超長期の依存関係モデリング – Residual block による強力な非線形変換 – 256段階に量子化された音声信号の予測を識別問題として定式化 29 WaveNet [Oord+16] 𝑝 𝒙|𝜆 = ෑ 𝑡=1 𝑇 𝑝 𝑥𝑡 𝑥1, 𝑥2, ⋯ , 𝑥𝑡−1 : Auto-Regressive (AR) modeling https://deepmind.com/blog/article/wavenet- generative-model-raw-audio https://static.googleusercontent.com/media/research. google.com/ja//pubs/archive/45882.pdf
  • 31. /72 30 WaveNet ボコーダ [Tamamori+17] ➢ WaveNet が表す予測分布を音声特徴量で条件付け – 音声特徴量と音声波形の長さを揃えるために, 対応するサンプル数だけコピー 𝑝 𝒙|𝒐, 𝜆 = ෑ 𝑡=1 𝑇 𝑝 𝑥𝑡 𝑥1, 𝑥2, ⋯ , 𝑥𝑡−1, 𝒐 𝒐 [Tamamori+17] [Hayashi+17] : Conditional AR modeling
  • 32. /72 31 Many many neural vocoders so far... [Mu+21]
  • 33. /72 32 一貫学習に基づく統計的音声生成 (1/3) ➢ 音響特徴量予測と音声波形生成の統合 – e.g., テキスト特徴量で条件付けされた WaveNet [Oord+16] https://static.googleusercontent.com/media/research .google.com/ja//pubs/archive/45882.pdf
  • 35. /72 34 一貫学習に基づく統計的音声生成 (3/3) ➢ すべての統合 (真の End-to-End モデリング) char2wav [Sotelo+17] ClariNet [Ping+19] Wave-Tacotron [Weiss+21]
  • 36. /72 35 本節のまとめ ➢ 統計的音声生成 = 様々な分野の複合研究領域 – 音声情報処理, 信号処理, 自然言語処理, 機械学習, etc... ➢ 部分問題への分割方式から End-to-End 方式へ – 従来方式 (統計的パラメトリック音声生成 [Zen+09]): – End-to-End 方式: Feature extraction Speech parameter generation Acoustic model Speech waveform synthesis Very strong DNN
  • 37. /72 ➢ 概要 – 統計的音声生成の基礎を概観し, 近年の hot topic である, – 敵対的学習に基づく手法の進展について説明する. ➢ 目次 – 1. はじめに: 統計的音声生成とは? – 2. 統計的音声生成の基礎 – 3. 敵対的学習の基礎 – 4. 敵対的学習に基づく統計的音声生成 – 5. おわりに: まとめと今後の研究潮流 36 本講演の概要・目次
  • 38. /72 37 深層生成モデル ➢ 深層生成モデル: データ 𝒙 の分布 𝑝 𝒙 を表現する DNN – 学習: 学習データ 𝒳 を用いて,真のデータ分布 𝑝∗ 𝒙 を近似する 生成分布 𝑝 𝒙|𝜆 のモデルパラメータ 𝜆 を推定 – 生成: 𝑝 𝒙|𝜆 から新しいデータをサンプリング • e.g., WaveNet = AR 深層生成モデル ➢ 応用例 – 新しいデータの生成 (創作活動支援, データ拡張など) – 生成分布を用いた半教師あり学習 (データの事前分布として利用) ➢ 代表的な深層生成モデル (参考: [Ruthotto+21]) – Variational AutoEncoder (VAE) [Kingma+13] – Generative Adversarial Network (GAN) [Goodfellow+14] – Normalizing Flows [Rezende+15] 𝑝 𝒙|𝜆 = ෑ 𝑡=1 𝑇 𝑝 𝑥𝑡 𝑥1, 𝑥2, ⋯ , 𝑥𝑡−1
  • 39. /72 GAN: Generator と Discriminator の ミニマックス最適化 38 True sample min 𝐺 max 𝐷 𝑉(𝐷, 𝐺) = 𝔼𝑥~𝑝∗ 𝒙 log 𝐷 𝑥 + 𝔼𝒛~𝑝 𝒛 log 1 − 𝐷 𝐺(𝑧) Discriminator 𝐷 ⋅ Prior 𝑝 𝒛 (e.g., 𝑁 𝟎, 𝑰 ) Fake sample Generator 𝐺 ⋅ ෝ 𝒙 𝒛 Latent variable 𝒙 or
  • 40. /72 Discriminator の更新 39 True sample Fake sample 𝒛 Latent variable or min 𝐺 max 𝐷 𝑉(𝐷, 𝐺) = 𝔼𝑥~𝑝∗ 𝒙 log 𝐷 𝑥 + 𝔼𝒛~𝑝 𝒛 log 1 − 𝐷 𝐺(𝑧) Discriminator 𝐷 ⋅ Prior 𝑝 𝒛 (e.g., 𝑁 𝟎, 𝑰 ) Generator 𝐺 ⋅ ෝ 𝒙 𝒙 1: true 0: fake
  • 41. /72 40 𝒛 Latent variable Generator の更新 Fake sample 1: true 0: fake Discriminator 𝐷 ⋅ Prior 𝑝 𝒛 (e.g., 𝑁 𝟎, 𝑰 ) Generator 𝐺 ⋅ ෝ 𝒙 min 𝐺 max 𝐷 𝑉(𝐷, 𝐺) = 𝔼𝑥~𝑝∗ 𝒙 log 𝐷 𝑥 + 𝔼𝒛~𝑝 𝒛 log 1 − 𝐷 𝐺(𝑧) (実践的に, 𝔼𝒛~𝑝 𝒛 log 𝐷 𝐺(𝑧) を最小化することも)
  • 42. /72 41 分布マッチングとしての解釈 ➢ 𝐺 が固定されたもとでの最適な 𝐷 – 以降, 𝑝 𝒙|𝜆 ≔ 𝑝G, 𝑝∗ 𝒙 ≔ 𝑝∗ と表記 – 𝜕𝑉(𝐷,𝐺) 𝜕𝐷 𝒙 = − 𝑝∗ 𝐷 𝒙 + 𝑝G 1−𝐷 𝒙 = 0 より, 𝐷∗ 𝑥 = 𝑝∗ 𝑝∗+𝑝G ➢ 𝐷∗ を GAN の目的関数に代入 (𝐺 から見た目的関数) – 𝐶 𝐺 = max 𝐷 𝑉 𝐺, 𝐷 – = 𝔼𝑥~𝑝∗ log 𝐷∗ 𝑥 + 𝔼𝑥~𝑝G log 1 − 𝐷∗ 𝑥 – = 𝔼𝑥~𝑝∗ log 𝑝∗ 𝑝∗+𝑝G + 𝔼𝑥~𝑝G log 𝑝G 𝑝∗+𝑝G – = 𝔼𝑥~𝑝∗ log 𝑝∗ Τ 2 𝑝∗+𝑝G 2 + 𝔼𝑥~𝑝G log 𝑝G Τ 2 𝑝∗+𝑝G 2 – = − log 4 + KL 𝑝∗|| 𝑝∗+𝑝G 2 + KL 𝑝G|| 𝑝∗+𝑝G 2 𝑝∗ と 𝑝G の Jensen-Shannon divergence
  • 43. /72 42 GAN 安定化の工夫 ➢ GAN の問題点: 学習の不安定さ – 𝐺 と 𝐷 の学習率調整の難しさ (どちらか一方が強くなりすぎる問題) • e.g., mode collapse (特定クラスのデータだけを生成し続ける現象) ➢ 工夫1: データ分布・生成分布間の距離規範の変更 – Jensen-Shannon divergence → 分布が disjoint の場合 ∞ に発散 – 対策: Wasserstein 距離を使用 (Wasserstein GAN [Arjovsky+17]) ➢ 工夫2: 目的関数の変更 – GAN の学習 → cross-entropy 誤差に起因する勾配消失が発生 – 対策: 目的関数を二乗誤差に変更 (Least Squares GAN [Mao+16]) ℒD = 𝔼𝑥~𝑝∗ 𝒙 𝐷 𝒙 − 1 2 + 𝔼𝒛~𝑝 𝒛 𝐷 𝐺 𝑧 2 , ℒG = 𝔼𝒛~𝑝 𝒛 𝐷 𝐺 𝑧 − 1 2 𝑊 𝑝∗ , 𝑝G = sup 𝑓𝐿 ≤1 𝔼𝑥~𝑝∗ 𝒙 𝑓(𝒙) − 𝔼𝒙~𝑝G 𝒙 𝑓(𝒙) (𝑓 は Lipschitz 写像) DNN で近似 max 𝑤∈𝒲 𝔼𝑥~𝑝∗ 𝒙 𝑓𝑤(𝒙) − 𝔼𝒛~𝑝 𝒛 𝑓𝑤(𝐺 𝐳 )
  • 44. /72 43 条件付き生成・ドメイン変換への拡張 ➢ 通常の GAN = 潜在変数 𝒛 からデータ 𝒙 へ変換するモデルの学習 – データのランダム生成は可能だが, どのようなデータが生成されるか 制御不可能 ➢ 条件付き生成分布 𝑝 𝒙|𝒄, 𝜆 の学習 → Conditional GAN [Mirza+14] – 𝐺 と 𝐷 を変数 𝒄 で条件付け • 実際は, 𝒄 の埋め込み表現と 𝒛 の積を 各モデルに入力 – 生成されるデータを変数 𝒄 で制御可能 • クラスラベルに応じた画像生成 • 画像に対応したタグ付け • etc... ➢ データのドメイン変換分布 𝑝 𝒙T|𝒙S, 𝜆 の学習 – → CycleGAN [Zhu+17], StarGAN [Choi+18] (後述)
  • 45. /72 44 CycleGAN: ノンパラレル1対1ドメイン変換モデル ➢ 2つのドメイン 𝑆, 𝑇 を相互変換可能なモデルを学習 – 2ドメインのペアデータが不要 (ノンパラレル) 𝐺S→T 𝐺T→S 𝐷S 𝐷T 𝒙S 𝒙T ドメイン変換モデル×2 & Discriminator×2 𝒙S ෝ 𝒙T ෝ 𝒙S 𝐷T 𝐺S→T 𝐺T→S 𝒙T ෝ 𝒙S ෝ 𝒙T 𝐺T→S 𝐺S→T 𝐷S ドメイン 𝑇 の敵対学習 ドメイン 𝑆 の敵対学習 𝑆 → 𝑇 → 𝑆 の 循環無矛盾学習 𝑇 → 𝑆 → 𝑇 の 循環無矛盾学習 [Zhu+17]
  • 46. /72 45 StarGAN: ノンパラレル多対多ドメイン変換モデル ➢ 多様なドメインに相互変換可能な単一のモデルを学習 – CycleGAN はドメインのペア毎にモデルを用意する必要あり [Choi+18] Real/Fake識別と ドメイン識別の マルチタスク学習 (c.f., ACGAN [Odena+17]) ドメイン変換時の循環無矛盾学習 (c.f., CycleGAN) 識別器との 敵対学習
  • 47. /72 46 本節のまとめ ➢ GAN = 分布間距離規範最小化に基づく深層生成モデルの学習法 – 2014年に提案され, 画像生成タスクにおいてその有効性を示した • → 音声生成タスクでは? (次節で解説) ➢ 2021年11月現在, さまざまな理論拡張・変種が存在 – (おそらく) SoTA の画像生成: StyleGAN3 [Karras+21] Generated images: https://nvlabs.github.io/stylegan3/
  • 48. /72 ➢ 概要 – 統計的音声生成の基礎を概観し, 近年の hot topic である, – 敵対的学習に基づく手法の進展について説明する. ➢ 目次 – 1. はじめに: 統計的音声生成とは? – 2. 統計的音声生成の基礎 – 3. 敵対的学習の基礎 – 4. 敵対的学習に基づく統計的音声生成 – 5. おわりに: まとめと今後の研究潮流 47 本講演の概要・目次
  • 49. /72 48 GAN ベース統計的音声生成 進展の歴史 (2017 ~ 2020) Text-To-Speech (TTS) Voice Conversion (VC) Neural vocoder ASV-ADV-TTS [Saito+ICASSP17] GAN-Postfilter [Kaneko+ICASSP17] CycleGAN-VC [Kaneko+EUSIPCO18] GAN-SPSS [Saito+TASLP18] MTL-GAN-TTS [Yang+ASRU17] VAWGAN-VC [Hsu+Interspeech17] CycleGAN-VC [Fang+ICASSP18] LSM-VC [Kaneko+Interspeech17] GlottGAN [Bollepalli+Interspeech17] StarGAN-VC [Kameoka+SLT18] MelGAN [Kumar+NeurIPS19] AbAS [Mustafa+Interspeech19] GAN-TTS [Bi ́ nkowski+ICLR20] HiFi-GAN [Kong+NeurIPS20] Parallel WaveGAN [Yamamoto+ICASSP20] WaveGAN [Donahue+ICLR19] GAZEV [Zhang+Interspeech20] UNAGAN [Liu+Interspeech20] SINGAN [Sisman+APSIPA19] GAN-SVS [Hono+ICASSP19] MFCC-GAN [Lauri+ICASSP18] GAN-E2E-TTS [Guo+Interspeech19] GAN-VF-TTS [Saito+CSL19] GAN-M2O-VC [Saito+IEICE20] AdVRNN-TTS [Lee+Interspeech18] GAN-SPEC-TTS [Saito+ICASSP18] WeStarGAN-VC [Paul+Interspeech19] AdaGAN-VC [Patel+APSIPA19] WGAN-MS-TTS [Zhao+IEEEAccess18] VAWGAN-EVC [Zhou+Interspeech20] ACC-TTS [Whitehill+Interspeech20] StyleGAN-SDG [Palkama+Interspeech20] (この他にも様々な手法がありますが, 紙面の都合上省略しています)
  • 51. /72 50 統計的音声生成の課題: 合成音声特徴量の過剰平滑化 Natural Synthetic (MSE) 21st MCC 23rd MCC 分布が縮小 MCC: Mel-Cepstral Coefficient (スペクトル包絡の低次元特徴量) 微細構造の 平滑化
  • 52. /72 GAN ベースの音響モデル学習 [Saito+ICASSP17] 51 𝐿G GAN 𝒙, ෝ 𝒙 = 𝐿MSE 𝒙, ෝ 𝒙 + 𝜔D 𝐸𝐿MGE 𝐸𝐿ADV 𝐿ADV GAN ෝ 𝒙 → Minimize Discriminator 𝐷 ⋅ 1: natural 𝐿ADV GAN ෝ 𝒙 合成音声特徴量 ෝ 𝒙 を 自然音声特徴量として識別 𝐿MSE 𝒙, ෝ 𝒙 Natural 𝒙 Generated ෝ 𝒙 𝒄 Input feats. Acoustic model (generator) GAN 由来の敵対損失を音響モデル学習時の正則化として導入 Speech samples: http://sython.org/demo/icassp2017advtts/demo.html
  • 53. /72 52 GAN ベースのポストフィルタ学習 [Kaneko+ICASSP17] 合成音声特徴量で条件付けした conditional GAN により, 自然音声に近い特徴量を生成 (MSE は用いない) (音響モデルとは独立に学習)
  • 54. /72 53 Difference betw. these two methods ➢ [Saito+ICASSP17]: 音響モデル学習時の正則化として GAN を導入 – TTS/VC どちらでも有効 [Saito+TASLP18] – 特徴量のドメインに依らない • 振幅スペクトル [Saito+ICASSP18][Saito+CSL19], 音声波形 [Yamamoto+ICASSP20] – 様々なタスクに適用可能 • 多話者 TTS [Zhao+IEEEAccess18][Kanagawa+SSW19], 歌声合成 [Hono+ICASSP19] ➢ [Kaneko+ICASSP17]: 合成音声-to-自然音声の conditional GAN を学習 – 音響モデルとは独立に GAN を学習させる必要あり – 特徴量のドメインに依らない • 振幅スペクトル [Kaneko+Interspeech17], 音声波形 [Tanaka+SLT18]
  • 55. /72 54 GAN ベース統計的音声生成 進展の歴史 (2017 ~ 2020) Text-To-Speech (TTS) Voice Conversion (VC) Neural vocoder ASV-ADV-TTS [Saito+ICASSP17] GAN-Postfilter [Kaneko+ICASSP17] CycleGAN-VC [Kaneko+EUSIPCO18] GAN-SPSS [Saito+TASLP18] MTL-GAN-TTS [Yang+ASRU17] VAWGAN-VC [Hsu+Interspeech17] CycleGAN-VC [Fang+ICASSP18] LSM-VC [Kaneko+Interspeech17] GlottGAN [Bollepalli+Interspeech17] StarGAN-VC [Kameoka+SLT18] MelGAN [Kumar+NeurIPS19] AbAS [Mustafa+Interspeech19] GAN-TTS [Bi ́ nkowski+ICLR20] HiFi-GAN [Kong+NeurIPS20] Parallel WaveGAN [Yamamoto+ICASSP20] WaveGAN [Donahue+ICLR19] GAZEV [Zhang+Interspeech20] UNAGAN [Liu+Interspeech20] SINGAN [Sisman+APSIPA19] GAN-SVS [Hono+ICASSP19] MFCC-GAN [Lauri+ICASSP18] GAN-E2E-TTS [Guo+Interspeech19] GAN-VF-TTS [Saito+CSL19] GAN-M2O-VC [Saito+IEICE20] AdVRNN-TTS [Lee+Interspeech18] GAN-SPEC-TTS [Saito+ICASSP18] WeStarGAN-VC [Paul+Interspeech19] AdaGAN-VC [Patel+APSIPA19] WGAN-MS-TTS [Zhao+IEEEAccess18] VAWGAN-EVC [Zhou+Interspeech20] ACC-TTS [Whitehill+Interspeech20] StyleGAN-SDG [Palkama+Interspeech20] (この他にも様々な手法がありますが, 紙面の都合上省略しています)
  • 56. /72 55 WGAN-MS-TTS [Zhao+IEEEAccess18] [Saito+ICASSP17] と同じ定式化 音声波形を 正しく予測するための損失 話者コード (誰が話しているか) を用いた conditional GAN w/o GAN w/ GAN Speech samples: https://nii-yamagishilab.github.io/TTS-GAN-WN-MultiSpeaker/index.html
  • 57. /72 56 GAN-E2E-TTS [Guo+Interspeech19] 学習時 (teacher forcing): 正解データで 時系列を予測 生成時 (free running): 生成データで 時系列を予測 挙動の違いを GAN で補償 Speech samples: https://hhguo.github.io/demo/publications/GANTTS/index.html
  • 58. /72 57 GAN-TTS [Bi ́ nkowski+ICLR20] ➢ GAN の枠組みで, テキスト特徴量から音声波形を直接生成 – Generator: dilated convolution & skip connection – Random Window Discriminators (RWDs): • ランダムにとってきた複数セグメントの情報をアンサンブルして利用 Speech sample: https://storage.googleapis.com/deepmind-media/research/abstract.wav
  • 59. /72 58 GAN ベース統計的音声生成 進展の歴史 (2017 ~ 2020) Text-To-Speech (TTS) Voice Conversion (VC) Neural vocoder ASV-ADV-TTS [Saito+ICASSP17] GAN-Postfilter [Kaneko+ICASSP17] CycleGAN-VC [Kaneko+EUSIPCO18] GAN-SPSS [Saito+TASLP18] MTL-GAN-TTS [Yang+ASRU17] VAWGAN-VC [Hsu+Interspeech17] CycleGAN-VC [Fang+ICASSP18] LSM-VC [Kaneko+Interspeech17] GlottGAN [Bollepalli+Interspeech17] StarGAN-VC [Kameoka+SLT18] MelGAN [Kumar+NeurIPS19] AbAS [Mustafa+Interspeech19] GAN-TTS [Bi ́ nkowski+ICLR20] HiFi-GAN [Kong+NeurIPS20] Parallel WaveGAN [Yamamoto+ICASSP20] WaveGAN [Donahue+ICLR19] GAZEV [Zhang+Interspeech20] UNAGAN [Liu+Interspeech20] SINGAN [Sisman+APSIPA19] GAN-SVS [Hono+ICASSP19] MFCC-GAN [Lauri+ICASSP18] GAN-E2E-TTS [Guo+Interspeech19] GAN-VF-TTS [Saito+CSL19] GAN-M2O-VC [Saito+IEICE20] AdVRNN-TTS [Lee+Interspeech18] GAN-SPEC-TTS [Saito+ICASSP18] WeStarGAN-VC [Paul+Interspeech19] AdaGAN-VC [Patel+APSIPA19] WGAN-MS-TTS [Zhao+IEEEAccess18] VAWGAN-EVC [Zhou+Interspeech20] ACC-TTS [Whitehill+Interspeech20] StyleGAN-SDG [Palkama+Interspeech20] (この他にも様々な手法がありますが, 紙面の都合上省略しています)
  • 60. /72 59 VC 研究の課題: 変換可能な話者数のスケーリング ➢ 第2節で紹介したパラレル VC – 高品質だが, 話者対で同一発話内容 (パラレル) のデータが必要 • → 数百人・数千人規模のパラレルデータを用意するのは非現実的 ➢ 研究トピック: ノンパラレル VC の学習 – 必ずしも同一ではない発話内容のデータで音響モデルを学習可能 ➢ GAN ベースのノンパラレル VC 学習法 – CycleGAN-VC [Kaneko+EUSIPCO18][Fang+ICASSP18] – StarGAN-VC [Kameoka+SLT18] – GAZEV [Zhang+Interspeech20]
  • 61. /72 60 CycleGAN-VC [Kaneko+EUSIPCO18][Fang+ICASSP18] ➢ CycleGAN を VC に適用 – 変換元/変換先話者の同一発話 (パラレル) データがなくても学習可能 ➢ Speech samples 𝐺S→T 𝐺T→S 𝐷S 𝐷T 𝒙S 𝒙T 話者変換モデル×2 & Discriminator×2 𝒙S ෝ 𝒙T ෝ 𝒙S 𝐷T 𝐺S→T 𝐺T→S 𝒙T ෝ 𝒙S ෝ 𝒙T 𝐺T→S 𝐺S→T 𝐷S ドメイン 𝑇 の敵対学習 ドメイン 𝑆 の敵対学習 𝑆 → 𝑇 → 𝑆 の 循環無矛盾学習 𝑇 → 𝑆 → 𝑇 の 循環無矛盾学習 Speech samples: https://fangfm.github.io/icassp2018.html DNN (parallel) GAN (parallel) CycleGAN (non-parallel) → → → ← ← ←
  • 62. /72 ➢ StarGAN を VC に適用 – パラレルデータなしで, 複数話者の変換が可能な単一のモデルを学習 61 StarGAN-VC [Kameoka+SLT18] Speech samples: http://www.kecl.ntt.co.jp/people/kameoka.hirokazu/Demos/stargan-vc/ 音声から 話者を予測
  • 63. /72 62 GAZEV [Zhang+Interspeech20] ➢ StarGAN を zero-shot VC に理論拡張 – 未知話者の少数発話だけで, その話者の VC を実現する技術 音声と性別コードから 当該話者の特徴を抽出 乱数ベクトルと性別コードから 話者の特徴をランダム生成 性別を予測 Speech samples: https://speech-ai.github.io/gazev/ ? ?
  • 64. /72 63 GAN ベース統計的音声生成 進展の歴史 (2017 ~ 2020) Text-To-Speech (TTS) Voice Conversion (VC) Neural vocoder ASV-ADV-TTS [Saito+ICASSP17] GAN-Postfilter [Kaneko+ICASSP17] CycleGAN-VC [Kaneko+EUSIPCO18] GAN-SPSS [Saito+TASLP18] MTL-GAN-TTS [Yang+ASRU17] VAWGAN-VC [Hsu+Interspeech17] CycleGAN-VC [Fang+ICASSP18] LSM-VC [Kaneko+Interspeech17] GlottGAN [Bollepalli+Interspeech17] StarGAN-VC [Kameoka+SLT18] MelGAN [Kumar+NeurIPS19] AbAS [Mustafa+Interspeech19] GAN-TTS [Bi ́ nkowski+ICLR20] HiFi-GAN [Kong+NeurIPS20] Parallel WaveGAN [Yamamoto+ICASSP20] WaveGAN [Donahue+ICLR19] GAZEV [Zhang+Interspeech20] UNAGAN [Liu+Interspeech20] SINGAN [Sisman+APSIPA19] GAN-SVS [Hono+ICASSP19] MFCC-GAN [Lauri+ICASSP18] GAN-E2E-TTS [Guo+Interspeech19] GAN-VF-TTS [Saito+CSL19] GAN-M2O-VC [Saito+IEICE20] AdVRNN-TTS [Lee+Interspeech18] GAN-SPEC-TTS [Saito+ICASSP18] WeStarGAN-VC [Paul+Interspeech19] AdaGAN-VC [Patel+APSIPA19] WGAN-MS-TTS [Zhao+IEEEAccess18] VAWGAN-EVC [Zhou+Interspeech20] ACC-TTS [Whitehill+Interspeech20] StyleGAN-SDG [Palkama+Interspeech20] (この他にも様々な手法がありますが, 紙面の都合上省略しています)
  • 65. /72 64 ニューラルボコーダ研究の課題: 学習/推論の高速化 ➢ WaveNet をはじめとする自己回帰 (AR) 型のニューラルボコーダ – 高精度な時系列モデリングが可能だが, 推論が非常に低速 • → より高速なニューラルボコーダの研究が盛んに • e.g., Parallel WaveNet [Oord+ICML17], WaveRNN [Kalchbrenner+ICML18] ➢ 研究トピック: GAN に基づく高速な (non-AR) ニューラルボコーダ – WaveGAN [Donahue+ICLR19] • (ニューラルボコーダではないが, 純粋な GAN で音を生成する先駆け) – MelGAN [Kumar+NeurIPS19] – HiFi-GAN [Kong+NeurIPS20] – Parallel WaveGAN [Yamamoto+ICASSP20]
  • 66. /72 65 WaveGAN [Donahue+ICLR19] ➢ GAN で音を生成する難しさ: 本質的な周期性 – スペクトログラムを画像とみなして生成 (↓表 SpecGAN) も可能だが, 生成に失敗したスペクトログラムから自然な音を復元するのは困難 – 超長期的な依存関係をモデル化する必要あり • → c.f., WaveNet で用いられていた dilated convolution ➢ WaveGAN: DCGAN [Radford+16] を音生成に向けて修正 – カーネルサイズ25の1次元畳み込み (stride 4) を使用 – Discriminator に phase shuffling を適用 • 位相に対して不変な特徴で true/fake を識別するような制約 Audio samples: https://chrisdonahue.com/wavegan_examples/ Speech (0-to-9) Piano Real WaveGAN SpecGAN
  • 67. /72 66 MelGAN [Kumar+NeurIPS19] ➢ Non-AR のメルスペクトログラム-to-音声波形生成を GAN で学習 – Generator: upsampling + residual stack (w/ dilated conv.) の反復 – Discriminator: マルチスケール (異なるサンプリングレート) での識別 Feature matching loss Original Reconstructed Speech samples: https://melgan-neurips.github.io/
  • 68. /72 67 HiFi-GAN [Kong+NeurIPS20] ➢ MelGAN の進化版 (before: → after: ) – Generator に Multi-Receptive Field (MRF) fusion を導入 • 異なる受容野を用いた多数の residual block の和として音声波形を生成 – Multi-Period Discriminators (MPDs) を導入 • 音声の周期的な特徴をうまく捉えるように波形を reshape して入力 Speech samples: https://jik876.github.io/hifi-gan-demo/
  • 69. /72 68 Parallel WaveGAN [Yamamoto+ICASSP20] ➢ GAN + 多重解像度 STFT loss で高速なニューラルボコーダを学習 – 異なる分析パラメータを用いて得られた複数のスペクトログラムが 正しく予測できるような制約 – 推論だけでなく, 学習も高速 Speech samples: https://r9y9.github.io/demos/projects/icassp2020/ Original WaveNet P-WaveGAN
  • 70. /72 69 2021年の GAN ベース統計的音声生成技術 ➢ 深層学習技術の進展 → 機械学習研究者が統計的音声生成に参入 – 本日紹介した手法の改良版などが続々と登場 ( RED OCEAN ) • End-to-End Adversarial Text-to-Speech (EATS) [Donahue+ICLR21], StarGANv2-VC [Li+Interspeech21], Multi-band MelGAN [Yang+SLT21], Multi-band harmonic-plus-noise Parallel WaveGAN [Hwang+Interspeech21] ➢ (個人的に) 今年一番すごいと思った手法: VITS [Kim+ICML21] – VAE, End-to-End, 敵対学習, Normalizing Flow など諸々全部乗せ Speech samples: https://jaywalnut310.github.io/vits-demo/index.html Multi-speaker TTS も VC もできちゃう
  • 71. /72 70 本節のまとめ ➢ 敵対的学習に基づく統計的音声生成研究の歴史を概観 – 初めて GAN ベース音声生成が提案された2017年 (当時 M2) から, 2021年 (現在) までの代表的手法を紹介 – 近年では GAFAM や Deepmind などの機械学習研究者による貢献大 • しかし, 日本人研究者による貢献も非常に大きい ➢ これ以上やれることはなくなったのか? → NO. – 合成音声の品質が「人間と同程度」にようやく達しただけ – 機械と人間が音声で自然にコミュニケーションするためには... • より緻密な韻律 (イントネーション・リズム) の制御 • ドメイン外のデータに対する柔軟な適応機構 ⚫ e.g., 読み上げ音声 → 自発音声 など • 音声発話の誤りを即座に訂正可能な機構
  • 72. /72 ➢ 概要 – 統計的音声生成の基礎を概観し, 近年の hot topic である, – 敵対的学習に基づく手法の進展について説明する. ➢ 目次 – 1. はじめに: 統計的音声生成とは? – 2. 統計的音声生成の基礎 – 3. 敵対的学習の基礎 – 4. 敵対的学習に基づく統計的音声生成 – 5. おわりに: まとめと今後の研究潮流 71 本講演の概要・目次
  • 73. /72 72 まとめ & 今後の研究潮流 ➢ 本講演: 敵対的学習に基づく統計的音声生成 – 統計的音声生成と敵対的学習の基礎から, 近年の手法までを紹介 ➢ (私が考える) 今後の研究潮流 – TTS/VC: (基本的には) 人間に聴かせてナンボの研究領域 • → 人間をどうやって統計的音声生成の枠組みに取り入れるか? – 最近の興味: 人間の知覚評価を取り入れた音響モデル学習・適応 • e.g., HumanGAN [Fujii+20], HumanACGAN [Ueda+21], • 人間の話者知覚評価に基づく音声合成の話者適応 [宇田川+21]