SlideShare a Scribd company logo
©Yuki Saito, 2017/02/17
DNNテキスト音声合成のための
Anti-spoofing に敵対する学習アルゴリズム
齋藤 佑樹, 高道 慎之介, 猿渡 洋 (東京大学)
第115回 音声言語情報処理研究会(SIG-SLP)
音声合成・応用(1)
/21
 音声合成:
– 入力情報から音声を人工的に合成する技術
 統計的パラメトリック音声合成:
– 音声特徴量を統計モデルによりモデル化 & 生成
• Deep Neural Network (DNN) 音声合成 [Zen et al., 2013.]
– 利点: 高い汎用性 & 容易な応用
• アミューズメント応用 [Doi et al., 2013.] や 言語教育 [高道 他, 2015.] など
– 欠点: 合成音声の音質劣化
• 生成される特徴量系列の過剰な平滑化が一因
1
研究分野: 統計的パラメトリック音声合成
テキスト音声合成:
Text-To-Speech (TTS)
Text Speech
/21
 改善策: 自然 / 合成音声特徴量の分布の違いを補償
– 分布の2次モーメント (系列内変動など) [Toda et al., 2007.]
– ヒストグラム [Ohtani et al., 2012.]
 本発表: Anti-spoofing に敵対するDNNテキスト音声合成
– 声のなりすましを防ぐ anti-spoofing を詐称するように学習
– 自然 / 合成音声特徴量の分布の違いを敵対的学習で補償
• 従来の補償手法の拡張に相当 [Goodfellow et al., 2014.]
 結果:
– 従来のDNN音響モデル学習と比較して音質が改善
– 提案手法におけるハイパーパラメータ設定の頑健性を確認
2
本発表の概要
/213
目次
 研究背景
 従来のDNN音響モデル学習
 Anti-spoofing に敵対するDNN音響モデル学習
 実験的評価
 まとめ
/214
DNNを音響モデルとして用いたTTSの枠組み
𝒙
⋯
෡𝒀
Acoustic models
⋯
⋯
𝒙1
𝒙 𝑇
෡𝒀1
෡𝒀 𝑇
Spectrum
Continuous F0
Voiced / unvoiced
Band
aperiodicity
Linguistic
feats.
Static-dynamic
mean vectors
(generated speech feats.)
[Zen et al., 2013.]
⋯⋯
0
0
1
1
a
i
u
1
2
3
Phoneme
Accent
Mora
position
Frame
position
etc.
0
/21
従来のDNN音響モデル学習:
Minimum Generation Error (MGE) 学習
5
Generation
error
𝐿G 𝒚, ෝ𝒚
Linguistic
feats.
[Wu et al., 2016.]
Natural
speech
feats.
𝐿G 𝒚, ෝ𝒚 =
1
𝑇
ෝ𝒚 − 𝒚 ⊤ ෝ𝒚 − 𝒚 → Minimize
𝒚
ML-based
parameter
generation
Generated
speech
feats.
ෝ𝒚
Acoustic models
𝒙
⋯
෡𝒀
⋯
⋯
𝒙1
𝒙 𝑇
/216
MGE学習の問題点: 自然音声と異なる特徴量の分布
Natural MGE
21st mel-cepstral coefficient
23rdmel-cepstral
coefficient
自然音声と比較して特徴量の分布が縮小...
(系列内変動[Toda et al., 2007.] は分布の2次モーメントを明示的に補償)
/217
目次
 研究背景
 従来のDNN音響モデル学習
 Anti-spoofing に敵対するDNN音響モデル学習
 実験的評価
 まとめ
/21
Anti-spoofing:
合成音声による声のなりすましを防ぐ識別器
8
[Wu et al., 2016.] [Chen et al., 2015.]
𝐿D,1 𝒚 𝐿D,0 ෝ𝒚
𝐿D 𝒚, ෝ𝒚 = → Minimize−
1
𝑇
෍
𝑡=1
𝑇
log 𝐷 𝒚 𝑡 −
1
𝑇
෍
𝑡=1
𝑇
log 1 − 𝐷 ෝ𝒚 𝑡
合成音声を
合成音声と識別させる
自然音声を
自然音声と識別させる
ෝ𝒚
Cross entropy
𝐿D 𝒚, ෝ𝒚
1: natural
0: generated
Generated
speech feats.
𝒚Natural
speech feats.
Feature
function
𝝓 ⋅
本発表では
𝝓 𝒚 𝑡 = 𝒚 𝑡
Anti-spoofing
𝐷 ⋅
or
/21
Anti-spoofing に敵対する音響モデル学習
9
𝜔D: 重み, 𝐸 𝐿G
, 𝐸 𝐿D
: 𝐿G 𝒚, ෝ𝒚 , 𝐿D,1 ෝ𝒚 の期待値
合成音声を
自然音声と識別させる
𝐿 𝒚, ෝ𝒚 = 𝐿G 𝒚, ෝ𝒚 + 𝜔D
𝐸 𝐿G
𝐸 𝐿D
𝐿D,1 ෝ𝒚 → Minimize
𝐿G 𝒚, ෝ𝒚
Linguistic
feats.
Natural
speech
feats.
𝒚
ML-based
parameter
generation
Generated
speech
feats.
ෝ𝒚
Acoustic models
𝒙
⋯
෡𝒀
⋯
⋯
𝒙1
𝒙 𝑇
𝐿D,1 ෝ𝒚
1: natural
Feature
function
𝝓 ⋅
Anti-spoofing
𝐷 ⋅
/21
 ① 音響モデルの更新
 ② Anti-spoofing の更新
音響モデルと Anti-spoofing の交互最適化
10
①と②の反復により最終的な音響モデルを構築!
FixedUpdated
UpdatedFixed
𝐿G 𝒚, ෝ𝒚
Linguistic
feats.
Natural
speech
feats.
𝒚
ML-based
parameter
generation
Generated
speech
feats.
ෝ𝒚𝒙
⋯
෡𝒀
⋯
⋯𝒙1
𝒙 𝑇
𝐿D,1 ෝ𝒚
1: natural
Feature
function
𝝓 ⋅
Linguistic
feats.
Natural
speech
feats.
𝒚
ML-based
parameter
generation
Generated
speech
feats.
ෝ𝒚𝒙
⋯
෡𝒀
⋯
⋯
𝒙1
𝒙 𝑇
𝐿D 𝒚, ෝ𝒚
1: natural
0: generated
Feature
function
𝝓 ⋅
or
/21
 音響モデル学習の損失関数:
– 敵対的学習 [Goodfellow et al., 2014.] と生成誤差最小化の組合せ
• 所望の入出力間対応関係を持った敵対的学習 [Reed et al., 2016.]
– 敵対的学習 = 真のデータ分布と生成分布間の距離最小化
• 分布間の距離 = Jensen-Shannon ダイバージェンス
• 自然 / 合成音声特徴量の分布の違いを補償
11
提案手法に関する考察: 敵対的学習に基づく分布補償
⋯
𝒚
𝒙
𝒚 の分布𝐷 𝒚
ෝ𝒚 の分布
学習の進行
/2112
自然音声に近づくような合成音声特徴量の生成
自然 / 合成音声特徴量の分布の違いを補償!
21st mel-cepstral coefficient
23rdmel-cepstral
coefficient
Natural MGE Proposed
/21
 系列内変動 (global variance): [Toda et al., 2007.]
– 特徴量分布の2次モーメント = 分布の広がり
13
系列内変動の補償
明示的に使用していないにもかかわらず,
anti-spoofing が系列内変動を自動的に補償!
Feature index
0 5 10 15 20
10-3
10-1
101
Globalvariance
Proposed
Natural
MGE
10-2
100
10-4
大
小
/21
 Maximal Information Coefficient (MIC): [Reshef et al., 2011.]
– 2変量間の非線形な相関を定量化する指標
– 自然音声の特徴量間の相関は弱まる傾向 [Ijima et al., 2016.]
14
提案手法による副次的効果: 不自然な相関の緩和
Natural MGE
0
6
12
18
24
0 6 12 18 24
0.0
0.2
0.4
0.6
0.8
1.0
強
弱
Proposed
特徴量の分布や系列内変動のみならず,
特徴量間の相関も補償!
0 6 12 18 24 0 6 12 18 24
/2115
目次
 研究背景
 従来のDNN音響モデル学習
 Anti-spoofing に敵対するDNN音響モデル学習
 実験的評価
 まとめ
/21
実験条件
データセット ATR 音素バランス503文 (16 kHz サンプリング)
学習 / 評価データ A-I セット 450文 / Jセット 53文
音声パラメータ 25次元のメルケプストラム, 𝐹0, 5帯域の非周期成分
コンテキストラベル 274次元 (音素, モーラ位置, アクセント型など)
前処理 Trajectory smoothing [Takamichi et al., 2015.]
予測パラメータ
メルケプストラム
(𝐹0, 非周期成分, 継続長は自然音声の特徴量を利用)
最適化アルゴリズム AdaGrad [Duchi et al., 2011.] (学習率 0.01)
音響モデル Feed-Forward 274 – 3x400 (ReLU) – 75 (linear)
Anti-spoofing Feed-Forward 25 – 2x200 (ReLU) – 1 (sigmoid)
16
/21
提案手法の初期化・学習および客観評価
17
 初期化:
– 音響モデル: MGE学習
– Anti-spoofing: 自然音声とMGE学習後の合成音声を識別
 学習時:
– 音響モデル: Anti-spoofing に敵対する学習
– Anti-spoofing: 自然音声と当該学習時点での合成音声を識別
 客観評価指標:
– 特徴量の生成誤差 𝐿G 𝒚, ෝ𝒚
– Anti-spoofing における詐称率
• 詐称率: 合成音声を自然音声と誤識別した割合
• ここでの anti-spoofing はMGE学習後の合成音声を用いて構築
提案手法の重み 𝜔D の変化に伴う客観評価指標の変化を調査
/21
客観評価結果
18
生成誤差 詐称率
0.0 0.2 0.4 0.6 0.8 1.0
重み 𝜔D
0.45
0.50
0.55
0.60
0.65
0.70
0.75
1.0
0.8
0.6
0.4
0.2
0.0
0.8
1.0
良
良
0.0 0.2 0.4 0.6 0.8 1.0
重み 𝜔D
悪化
改善
𝜔D ≥ 0.3 で 詐称率 ≥ 99%
/21
音質に関する主観評価結果
19
エラーバーは95%信頼区間
音声サンプル: http://sython.org/demo/icassp2017advtts/demo.html
Proposed
𝜔D = 1.0
Proposed
𝜔D = 0.3
MGE
𝜔D = 0.0
音質に関するプリファレンススコア (評価者数8名)
0.0 0.2 0.4 0.6 0.8 1.0
改善
有意差なし
音質の改善 & ハイパーパラメータ設定に対する頑健性を確認!
/2120
目次
 研究背景
 従来のDNN音響モデル学習
 Anti-spoofing に敵対するDNN音響モデル学習
 実験的評価
 まとめ
/21
まとめ
 目的: 統計的パラメトリック音声合成の音質改善
 提案手法: Anti-spoofing に敵対するDNNテキスト音声合成
• 自然 / 合成音声特徴量の分布の違いを敵対的学習で補償
• 系列内変動だけでなく, 特徴量間の相関も補償
 結果:
– 従来のDNN音響モデル学習と比較して音質が改善
– 提案手法におけるハイパーパラメータ設定の頑健性を確認
 今後の検討事項:
– 時間・言語依存の anti-spoofing の導入
– 提案手法の 𝐹0・継続長生成への拡張
• → 2017年春季ASJ (3/16(木) 16:15 ~) で発表予定
21

More Related Content

What's hot

雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習
雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習
雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習
Shinnosuke Takamichi
 
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
Daichi Kitamura
 
調波打撃音分離の時間周波数マスクを用いた線形ブラインド音源分離
調波打撃音分離の時間周波数マスクを用いた線形ブラインド音源分離調波打撃音分離の時間周波数マスクを用いた線形ブラインド音源分離
調波打撃音分離の時間周波数マスクを用いた線形ブラインド音源分離
Kitamura Laboratory
 
信号の独立性に基づく多チャンネル音源分離
信号の独立性に基づく多チャンネル音源分離信号の独立性に基づく多チャンネル音源分離
信号の独立性に基づく多チャンネル音源分離
NU_I_TODALAB
 
独立低ランク行列分析に基づく音源分離とその発展
独立低ランク行列分析に基づく音源分離とその発展独立低ランク行列分析に基づく音源分離とその発展
独立低ランク行列分析に基づく音源分離とその発展
Kitamura Laboratory
 
Blind source separation based on independent low-rank matrix analysis and its...
Blind source separation based on independent low-rank matrix analysis and its...Blind source separation based on independent low-rank matrix analysis and its...
Blind source separation based on independent low-rank matrix analysis and its...
Daichi Kitamura
 
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...
Daichi Kitamura
 
実環境音響信号処理における収音技術
実環境音響信号処理における収音技術実環境音響信号処理における収音技術
実環境音響信号処理における収音技術
Yuma Koizumi
 
深層学習を利用した音声強調
深層学習を利用した音声強調深層学習を利用した音声強調
深層学習を利用した音声強調
Yuma Koizumi
 
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元
NU_I_TODALAB
 
ケプストラム正則化NTFによるステレオチャネル楽曲音源分離
ケプストラム正則化NTFによるステレオチャネル楽曲音源分離ケプストラム正則化NTFによるステレオチャネル楽曲音源分離
ケプストラム正則化NTFによるステレオチャネル楽曲音源分離
NU_I_TODALAB
 
音源分離における音響モデリング(Acoustic modeling in audio source separation)
音源分離における音響モデリング(Acoustic modeling in audio source separation)音源分離における音響モデリング(Acoustic modeling in audio source separation)
音源分離における音響モデリング(Acoustic modeling in audio source separation)
Daichi Kitamura
 
イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出
イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出
イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出
Tomoki Hayashi
 
深層学習に基づく音響特徴量からの振幅スペクトログラム予測
深層学習に基づく音響特徴量からの振幅スペクトログラム予測深層学習に基づく音響特徴量からの振幅スペクトログラム予測
深層学習に基づく音響特徴量からの振幅スペクトログラム予測
Kitamura Laboratory
 
非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法
非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法
非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法
Daichi Kitamura
 
論文紹介 Unsupervised training of neural mask-based beamforming
論文紹介 Unsupervised training of neural  mask-based beamforming論文紹介 Unsupervised training of neural  mask-based beamforming
論文紹介 Unsupervised training of neural mask-based beamforming
Shinnosuke Takamichi
 
音声の声質を変換する技術とその応用
音声の声質を変換する技術とその応用音声の声質を変換する技術とその応用
音声の声質を変換する技術とその応用
NU_I_TODALAB
 
Nakai22sp03 presentation
Nakai22sp03 presentationNakai22sp03 presentation
Nakai22sp03 presentation
Yuki Saito
 
独立深層学習行列分析に基づく多チャネル音源分離(Multichannel audio source separation based on indepen...
独立深層学習行列分析に基づく多チャネル音源分離(Multichannel audio source separation based on indepen...独立深層学習行列分析に基づく多チャネル音源分離(Multichannel audio source separation based on indepen...
独立深層学習行列分析に基づく多チャネル音源分離(Multichannel audio source separation based on indepen...
Daichi Kitamura
 
統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展
Shinnosuke Takamichi
 

What's hot (20)

雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習
雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習
雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習
 
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
 
調波打撃音分離の時間周波数マスクを用いた線形ブラインド音源分離
調波打撃音分離の時間周波数マスクを用いた線形ブラインド音源分離調波打撃音分離の時間周波数マスクを用いた線形ブラインド音源分離
調波打撃音分離の時間周波数マスクを用いた線形ブラインド音源分離
 
信号の独立性に基づく多チャンネル音源分離
信号の独立性に基づく多チャンネル音源分離信号の独立性に基づく多チャンネル音源分離
信号の独立性に基づく多チャンネル音源分離
 
独立低ランク行列分析に基づく音源分離とその発展
独立低ランク行列分析に基づく音源分離とその発展独立低ランク行列分析に基づく音源分離とその発展
独立低ランク行列分析に基づく音源分離とその発展
 
Blind source separation based on independent low-rank matrix analysis and its...
Blind source separation based on independent low-rank matrix analysis and its...Blind source separation based on independent low-rank matrix analysis and its...
Blind source separation based on independent low-rank matrix analysis and its...
 
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...
 
実環境音響信号処理における収音技術
実環境音響信号処理における収音技術実環境音響信号処理における収音技術
実環境音響信号処理における収音技術
 
深層学習を利用した音声強調
深層学習を利用した音声強調深層学習を利用した音声強調
深層学習を利用した音声強調
 
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元
 
ケプストラム正則化NTFによるステレオチャネル楽曲音源分離
ケプストラム正則化NTFによるステレオチャネル楽曲音源分離ケプストラム正則化NTFによるステレオチャネル楽曲音源分離
ケプストラム正則化NTFによるステレオチャネル楽曲音源分離
 
音源分離における音響モデリング(Acoustic modeling in audio source separation)
音源分離における音響モデリング(Acoustic modeling in audio source separation)音源分離における音響モデリング(Acoustic modeling in audio source separation)
音源分離における音響モデリング(Acoustic modeling in audio source separation)
 
イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出
イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出
イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出
 
深層学習に基づく音響特徴量からの振幅スペクトログラム予測
深層学習に基づく音響特徴量からの振幅スペクトログラム予測深層学習に基づく音響特徴量からの振幅スペクトログラム予測
深層学習に基づく音響特徴量からの振幅スペクトログラム予測
 
非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法
非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法
非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法
 
論文紹介 Unsupervised training of neural mask-based beamforming
論文紹介 Unsupervised training of neural  mask-based beamforming論文紹介 Unsupervised training of neural  mask-based beamforming
論文紹介 Unsupervised training of neural mask-based beamforming
 
音声の声質を変換する技術とその応用
音声の声質を変換する技術とその応用音声の声質を変換する技術とその応用
音声の声質を変換する技術とその応用
 
Nakai22sp03 presentation
Nakai22sp03 presentationNakai22sp03 presentation
Nakai22sp03 presentation
 
独立深層学習行列分析に基づく多チャネル音源分離(Multichannel audio source separation based on indepen...
独立深層学習行列分析に基づく多チャネル音源分離(Multichannel audio source separation based on indepen...独立深層学習行列分析に基づく多チャネル音源分離(Multichannel audio source separation based on indepen...
独立深層学習行列分析に基づく多チャネル音源分離(Multichannel audio source separation based on indepen...
 
統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展
 

Viewers also liked

Koyama ASA ASJ joint meeting 2016
Koyama ASA ASJ joint meeting 2016Koyama ASA ASJ joint meeting 2016
Koyama ASA ASJ joint meeting 2016
SaruwatariLabUTokyo
 
Hybrid NMF APSIPA2014 invited
Hybrid NMF APSIPA2014 invitedHybrid NMF APSIPA2014 invited
Hybrid NMF APSIPA2014 invited
SaruwatariLabUTokyo
 
Apsipa2016for ss
Apsipa2016for ssApsipa2016for ss
Apsipa2016for ss
SaruwatariLabUTokyo
 
Asj2017 3 bileveloptnmf
Asj2017 3 bileveloptnmfAsj2017 3 bileveloptnmf
Asj2017 3 bileveloptnmf
SaruwatariLabUTokyo
 
Ica2016 312 saruwatari
Ica2016 312 saruwatariIca2016 312 saruwatari
Ica2016 312 saruwatari
SaruwatariLabUTokyo
 
Koyama AES Conference SFC 2016
Koyama AES Conference SFC 2016Koyama AES Conference SFC 2016
Koyama AES Conference SFC 2016
SaruwatariLabUTokyo
 
Discriminative SNMF EA201603
Discriminative SNMF EA201603Discriminative SNMF EA201603
Discriminative SNMF EA201603
SaruwatariLabUTokyo
 
数値解析と物理学
数値解析と物理学数値解析と物理学
数値解析と物理学
すずしめ
 

Viewers also liked (8)

Koyama ASA ASJ joint meeting 2016
Koyama ASA ASJ joint meeting 2016Koyama ASA ASJ joint meeting 2016
Koyama ASA ASJ joint meeting 2016
 
Hybrid NMF APSIPA2014 invited
Hybrid NMF APSIPA2014 invitedHybrid NMF APSIPA2014 invited
Hybrid NMF APSIPA2014 invited
 
Apsipa2016for ss
Apsipa2016for ssApsipa2016for ss
Apsipa2016for ss
 
Asj2017 3 bileveloptnmf
Asj2017 3 bileveloptnmfAsj2017 3 bileveloptnmf
Asj2017 3 bileveloptnmf
 
Ica2016 312 saruwatari
Ica2016 312 saruwatariIca2016 312 saruwatari
Ica2016 312 saruwatari
 
Koyama AES Conference SFC 2016
Koyama AES Conference SFC 2016Koyama AES Conference SFC 2016
Koyama AES Conference SFC 2016
 
Discriminative SNMF EA201603
Discriminative SNMF EA201603Discriminative SNMF EA201603
Discriminative SNMF EA201603
 
数値解析と物理学
数値解析と物理学数値解析と物理学
数値解析と物理学
 

Similar to Slp201702

DNN音声合成のための Anti-spoofing を考慮した学習アルゴリズム
DNN音声合成のための Anti-spoofing を考慮した学習アルゴリズムDNN音声合成のための Anti-spoofing を考慮した学習アルゴリズム
DNN音声合成のための Anti-spoofing を考慮した学習アルゴリズム
Yuki Saito
 
Saito17asjA
Saito17asjASaito17asjA
Saito17asjA
Yuki Saito
 
saito2017asj_tts
saito2017asj_ttssaito2017asj_tts
saito2017asj_tts
Yuki Saito
 
saito2017asj_vc
saito2017asj_vcsaito2017asj_vc
saito2017asj_vc
Yuki Saito
 
Interspeech2022 参加報告
Interspeech2022 参加報告Interspeech2022 参加報告
Interspeech2022 参加報告
Yuki Saito
 
分布あるいはモーメント間距離最小化に基づく統計的音声合成
分布あるいはモーメント間距離最小化に基づく統計的音声合成分布あるいはモーメント間距離最小化に基づく統計的音声合成
分布あるいはモーメント間距離最小化に基づく統計的音声合成
Shinnosuke Takamichi
 
TEACHER-STUDENT DEEP CLUSTERING FOR LOW-DELAY SINGLE CHANNEL SPEECH SEPARATION
TEACHER-STUDENT DEEP CLUSTERING FOR LOW-DELAY SINGLE CHANNEL SPEECH SEPARATIONTEACHER-STUDENT DEEP CLUSTERING FOR LOW-DELAY SINGLE CHANNEL SPEECH SEPARATION
TEACHER-STUDENT DEEP CLUSTERING FOR LOW-DELAY SINGLE CHANNEL SPEECH SEPARATION
RyoAIHARA1
 
英語リスニング研究最前線:実験音声学からのアプローチ
英語リスニング研究最前線:実験音声学からのアプローチ英語リスニング研究最前線:実験音声学からのアプローチ
英語リスニング研究最前線:実験音声学からのアプローチ
Kosuke Sugai
 
SLP201805: 日本語韻律構造を考慮した prosody-aware subword embedding とDNN多方言音声合成への適用
SLP201805: 日本語韻律構造を考慮した prosody-aware subword embedding とDNN多方言音声合成への適用SLP201805: 日本語韻律構造を考慮した prosody-aware subword embedding とDNN多方言音声合成への適用
SLP201805: 日本語韻律構造を考慮した prosody-aware subword embedding とDNN多方言音声合成への適用
Shinnosuke Takamichi
 
日本音響学会2018春 ”雑音環境下音声を用いたDNN音声合成のための雑音生成モデルの敵対的学習” (宇根)
日本音響学会2018春 ”雑音環境下音声を用いたDNN音声合成のための雑音生成モデルの敵対的学習” (宇根)日本音響学会2018春 ”雑音環境下音声を用いたDNN音声合成のための雑音生成モデルの敵対的学習” (宇根)
日本音響学会2018春 ”雑音環境下音声を用いたDNN音声合成のための雑音生成モデルの敵対的学習” (宇根)
Shinnosuke Takamichi
 
Saito19asjAutumn_DeNA
Saito19asjAutumn_DeNASaito19asjAutumn_DeNA
Saito19asjAutumn_DeNA
Yuki Saito
 
CTCに基づく音響イベントからの擬音語表現への変換
CTCに基づく音響イベントからの擬音語表現への変換CTCに基づく音響イベントからの擬音語表現への変換
CTCに基づく音響イベントからの擬音語表現への変換
NU_I_TODALAB
 
Saito21asj Autumn Meeting
Saito21asj Autumn MeetingSaito21asj Autumn Meeting
Saito21asj Autumn Meeting
Yuki Saito
 
Onoma-to-wave: オノマトペを利用した環境音合成手法の提案
Onoma-to-wave: オノマトペを利用した環境音合成手法の提案Onoma-to-wave: オノマトペを利用した環境音合成手法の提案
Onoma-to-wave: オノマトペを利用した環境音合成手法の提案
Keisuke Imoto
 
Onoma-to-wave: オノマトペを利用した環境音合成手法の提案
Onoma-to-wave: オノマトペを利用した環境音合成手法の提案Onoma-to-wave: オノマトペを利用した環境音合成手法の提案
Onoma-to-wave: オノマトペを利用した環境音合成手法の提案
Yuki Okamoto
 
チュートリアル「障害とコミュニケーション」2017/06/17 音学シンポジウム2017
チュートリアル「障害とコミュニケーション」2017/06/17  音学シンポジウム2017チュートリアル「障害とコミュニケーション」2017/06/17  音学シンポジウム2017
チュートリアル「障害とコミュニケーション」2017/06/17 音学シンポジウム2017
Keiichi Yasu
 
Sig kbs slide-20181123_ota
Sig kbs slide-20181123_otaSig kbs slide-20181123_ota
Sig kbs slide-20181123_ota
博三 太田
 
hirai23slp03.pdf
hirai23slp03.pdfhirai23slp03.pdf
hirai23slp03.pdf
Yuki Saito
 
【DL輪読会】“Gestalt Principles Emerge When Learning Universal Sound Source Separa...
【DL輪読会】“Gestalt Principles Emerge When Learning Universal Sound Source Separa...【DL輪読会】“Gestalt Principles Emerge When Learning Universal Sound Source Separa...
【DL輪読会】“Gestalt Principles Emerge When Learning Universal Sound Source Separa...
Deep Learning JP
 
半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法
半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法
半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法
Daichi Kitamura
 

Similar to Slp201702 (20)

DNN音声合成のための Anti-spoofing を考慮した学習アルゴリズム
DNN音声合成のための Anti-spoofing を考慮した学習アルゴリズムDNN音声合成のための Anti-spoofing を考慮した学習アルゴリズム
DNN音声合成のための Anti-spoofing を考慮した学習アルゴリズム
 
Saito17asjA
Saito17asjASaito17asjA
Saito17asjA
 
saito2017asj_tts
saito2017asj_ttssaito2017asj_tts
saito2017asj_tts
 
saito2017asj_vc
saito2017asj_vcsaito2017asj_vc
saito2017asj_vc
 
Interspeech2022 参加報告
Interspeech2022 参加報告Interspeech2022 参加報告
Interspeech2022 参加報告
 
分布あるいはモーメント間距離最小化に基づく統計的音声合成
分布あるいはモーメント間距離最小化に基づく統計的音声合成分布あるいはモーメント間距離最小化に基づく統計的音声合成
分布あるいはモーメント間距離最小化に基づく統計的音声合成
 
TEACHER-STUDENT DEEP CLUSTERING FOR LOW-DELAY SINGLE CHANNEL SPEECH SEPARATION
TEACHER-STUDENT DEEP CLUSTERING FOR LOW-DELAY SINGLE CHANNEL SPEECH SEPARATIONTEACHER-STUDENT DEEP CLUSTERING FOR LOW-DELAY SINGLE CHANNEL SPEECH SEPARATION
TEACHER-STUDENT DEEP CLUSTERING FOR LOW-DELAY SINGLE CHANNEL SPEECH SEPARATION
 
英語リスニング研究最前線:実験音声学からのアプローチ
英語リスニング研究最前線:実験音声学からのアプローチ英語リスニング研究最前線:実験音声学からのアプローチ
英語リスニング研究最前線:実験音声学からのアプローチ
 
SLP201805: 日本語韻律構造を考慮した prosody-aware subword embedding とDNN多方言音声合成への適用
SLP201805: 日本語韻律構造を考慮した prosody-aware subword embedding とDNN多方言音声合成への適用SLP201805: 日本語韻律構造を考慮した prosody-aware subword embedding とDNN多方言音声合成への適用
SLP201805: 日本語韻律構造を考慮した prosody-aware subword embedding とDNN多方言音声合成への適用
 
日本音響学会2018春 ”雑音環境下音声を用いたDNN音声合成のための雑音生成モデルの敵対的学習” (宇根)
日本音響学会2018春 ”雑音環境下音声を用いたDNN音声合成のための雑音生成モデルの敵対的学習” (宇根)日本音響学会2018春 ”雑音環境下音声を用いたDNN音声合成のための雑音生成モデルの敵対的学習” (宇根)
日本音響学会2018春 ”雑音環境下音声を用いたDNN音声合成のための雑音生成モデルの敵対的学習” (宇根)
 
Saito19asjAutumn_DeNA
Saito19asjAutumn_DeNASaito19asjAutumn_DeNA
Saito19asjAutumn_DeNA
 
CTCに基づく音響イベントからの擬音語表現への変換
CTCに基づく音響イベントからの擬音語表現への変換CTCに基づく音響イベントからの擬音語表現への変換
CTCに基づく音響イベントからの擬音語表現への変換
 
Saito21asj Autumn Meeting
Saito21asj Autumn MeetingSaito21asj Autumn Meeting
Saito21asj Autumn Meeting
 
Onoma-to-wave: オノマトペを利用した環境音合成手法の提案
Onoma-to-wave: オノマトペを利用した環境音合成手法の提案Onoma-to-wave: オノマトペを利用した環境音合成手法の提案
Onoma-to-wave: オノマトペを利用した環境音合成手法の提案
 
Onoma-to-wave: オノマトペを利用した環境音合成手法の提案
Onoma-to-wave: オノマトペを利用した環境音合成手法の提案Onoma-to-wave: オノマトペを利用した環境音合成手法の提案
Onoma-to-wave: オノマトペを利用した環境音合成手法の提案
 
チュートリアル「障害とコミュニケーション」2017/06/17 音学シンポジウム2017
チュートリアル「障害とコミュニケーション」2017/06/17  音学シンポジウム2017チュートリアル「障害とコミュニケーション」2017/06/17  音学シンポジウム2017
チュートリアル「障害とコミュニケーション」2017/06/17 音学シンポジウム2017
 
Sig kbs slide-20181123_ota
Sig kbs slide-20181123_otaSig kbs slide-20181123_ota
Sig kbs slide-20181123_ota
 
hirai23slp03.pdf
hirai23slp03.pdfhirai23slp03.pdf
hirai23slp03.pdf
 
【DL輪読会】“Gestalt Principles Emerge When Learning Universal Sound Source Separa...
【DL輪読会】“Gestalt Principles Emerge When Learning Universal Sound Source Separa...【DL輪読会】“Gestalt Principles Emerge When Learning Universal Sound Source Separa...
【DL輪読会】“Gestalt Principles Emerge When Learning Universal Sound Source Separa...
 
半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法
半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法
半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法
 

More from Yuki Saito

fujii22apsipa_asc
fujii22apsipa_ascfujii22apsipa_asc
fujii22apsipa_asc
Yuki Saito
 
nakai22apsipa_presentation.pdf
nakai22apsipa_presentation.pdfnakai22apsipa_presentation.pdf
nakai22apsipa_presentation.pdf
Yuki Saito
 
saito22research_talk_at_NUS
saito22research_talk_at_NUSsaito22research_talk_at_NUS
saito22research_talk_at_NUS
Yuki Saito
 
Neural text-to-speech and voice conversion
Neural text-to-speech and voice conversionNeural text-to-speech and voice conversion
Neural text-to-speech and voice conversion
Yuki Saito
 
Nishimura22slp03 presentation
Nishimura22slp03 presentationNishimura22slp03 presentation
Nishimura22slp03 presentation
Yuki Saito
 
GAN-based statistical speech synthesis (in Japanese)
GAN-based statistical speech synthesis (in Japanese)GAN-based statistical speech synthesis (in Japanese)
GAN-based statistical speech synthesis (in Japanese)
Yuki Saito
 
Saito2103slp
Saito2103slpSaito2103slp
Saito2103slp
Yuki Saito
 
Interspeech2020 reading
Interspeech2020 readingInterspeech2020 reading
Interspeech2020 reading
Yuki Saito
 
Saito20asj_autumn
Saito20asj_autumnSaito20asj_autumn
Saito20asj_autumn
Yuki Saito
 
ICASSP読み会2020
ICASSP読み会2020ICASSP読み会2020
ICASSP読み会2020
Yuki Saito
 
Saito20asj s slide_published
Saito20asj s slide_publishedSaito20asj s slide_published
Saito20asj s slide_published
Yuki Saito
 
Deep learning for acoustic modeling in parametric speech generation
Deep learning for acoustic modeling in parametric speech generationDeep learning for acoustic modeling in parametric speech generation
Deep learning for acoustic modeling in parametric speech generation
Yuki Saito
 
Saito19asj_s
Saito19asj_sSaito19asj_s
Saito19asj_s
Yuki Saito
 
Une18apsipa
Une18apsipaUne18apsipa
Une18apsipa
Yuki Saito
 
Saito18sp03
Saito18sp03Saito18sp03
Saito18sp03
Yuki Saito
 
Saito18asj_s
Saito18asj_sSaito18asj_s
Saito18asj_s
Yuki Saito
 
釧路高専情報工学科向け進学説明会
釧路高専情報工学科向け進学説明会釧路高専情報工学科向け進学説明会
釧路高専情報工学科向け進学説明会
Yuki Saito
 
miyoshi17sp07
miyoshi17sp07miyoshi17sp07
miyoshi17sp07
Yuki Saito
 
miyoshi2017asj
miyoshi2017asjmiyoshi2017asj
miyoshi2017asj
Yuki Saito
 
Saito2017icassp
Saito2017icasspSaito2017icassp
Saito2017icassp
Yuki Saito
 

More from Yuki Saito (20)

fujii22apsipa_asc
fujii22apsipa_ascfujii22apsipa_asc
fujii22apsipa_asc
 
nakai22apsipa_presentation.pdf
nakai22apsipa_presentation.pdfnakai22apsipa_presentation.pdf
nakai22apsipa_presentation.pdf
 
saito22research_talk_at_NUS
saito22research_talk_at_NUSsaito22research_talk_at_NUS
saito22research_talk_at_NUS
 
Neural text-to-speech and voice conversion
Neural text-to-speech and voice conversionNeural text-to-speech and voice conversion
Neural text-to-speech and voice conversion
 
Nishimura22slp03 presentation
Nishimura22slp03 presentationNishimura22slp03 presentation
Nishimura22slp03 presentation
 
GAN-based statistical speech synthesis (in Japanese)
GAN-based statistical speech synthesis (in Japanese)GAN-based statistical speech synthesis (in Japanese)
GAN-based statistical speech synthesis (in Japanese)
 
Saito2103slp
Saito2103slpSaito2103slp
Saito2103slp
 
Interspeech2020 reading
Interspeech2020 readingInterspeech2020 reading
Interspeech2020 reading
 
Saito20asj_autumn
Saito20asj_autumnSaito20asj_autumn
Saito20asj_autumn
 
ICASSP読み会2020
ICASSP読み会2020ICASSP読み会2020
ICASSP読み会2020
 
Saito20asj s slide_published
Saito20asj s slide_publishedSaito20asj s slide_published
Saito20asj s slide_published
 
Deep learning for acoustic modeling in parametric speech generation
Deep learning for acoustic modeling in parametric speech generationDeep learning for acoustic modeling in parametric speech generation
Deep learning for acoustic modeling in parametric speech generation
 
Saito19asj_s
Saito19asj_sSaito19asj_s
Saito19asj_s
 
Une18apsipa
Une18apsipaUne18apsipa
Une18apsipa
 
Saito18sp03
Saito18sp03Saito18sp03
Saito18sp03
 
Saito18asj_s
Saito18asj_sSaito18asj_s
Saito18asj_s
 
釧路高専情報工学科向け進学説明会
釧路高専情報工学科向け進学説明会釧路高専情報工学科向け進学説明会
釧路高専情報工学科向け進学説明会
 
miyoshi17sp07
miyoshi17sp07miyoshi17sp07
miyoshi17sp07
 
miyoshi2017asj
miyoshi2017asjmiyoshi2017asj
miyoshi2017asj
 
Saito2017icassp
Saito2017icasspSaito2017icassp
Saito2017icassp
 

Slp201702

  • 1. ©Yuki Saito, 2017/02/17 DNNテキスト音声合成のための Anti-spoofing に敵対する学習アルゴリズム 齋藤 佑樹, 高道 慎之介, 猿渡 洋 (東京大学) 第115回 音声言語情報処理研究会(SIG-SLP) 音声合成・応用(1)
  • 2. /21  音声合成: – 入力情報から音声を人工的に合成する技術  統計的パラメトリック音声合成: – 音声特徴量を統計モデルによりモデル化 & 生成 • Deep Neural Network (DNN) 音声合成 [Zen et al., 2013.] – 利点: 高い汎用性 & 容易な応用 • アミューズメント応用 [Doi et al., 2013.] や 言語教育 [高道 他, 2015.] など – 欠点: 合成音声の音質劣化 • 生成される特徴量系列の過剰な平滑化が一因 1 研究分野: 統計的パラメトリック音声合成 テキスト音声合成: Text-To-Speech (TTS) Text Speech
  • 3. /21  改善策: 自然 / 合成音声特徴量の分布の違いを補償 – 分布の2次モーメント (系列内変動など) [Toda et al., 2007.] – ヒストグラム [Ohtani et al., 2012.]  本発表: Anti-spoofing に敵対するDNNテキスト音声合成 – 声のなりすましを防ぐ anti-spoofing を詐称するように学習 – 自然 / 合成音声特徴量の分布の違いを敵対的学習で補償 • 従来の補償手法の拡張に相当 [Goodfellow et al., 2014.]  結果: – 従来のDNN音響モデル学習と比較して音質が改善 – 提案手法におけるハイパーパラメータ設定の頑健性を確認 2 本発表の概要
  • 4. /213 目次  研究背景  従来のDNN音響モデル学習  Anti-spoofing に敵対するDNN音響モデル学習  実験的評価  まとめ
  • 5. /214 DNNを音響モデルとして用いたTTSの枠組み 𝒙 ⋯ ෡𝒀 Acoustic models ⋯ ⋯ 𝒙1 𝒙 𝑇 ෡𝒀1 ෡𝒀 𝑇 Spectrum Continuous F0 Voiced / unvoiced Band aperiodicity Linguistic feats. Static-dynamic mean vectors (generated speech feats.) [Zen et al., 2013.] ⋯⋯ 0 0 1 1 a i u 1 2 3 Phoneme Accent Mora position Frame position etc. 0
  • 6. /21 従来のDNN音響モデル学習: Minimum Generation Error (MGE) 学習 5 Generation error 𝐿G 𝒚, ෝ𝒚 Linguistic feats. [Wu et al., 2016.] Natural speech feats. 𝐿G 𝒚, ෝ𝒚 = 1 𝑇 ෝ𝒚 − 𝒚 ⊤ ෝ𝒚 − 𝒚 → Minimize 𝒚 ML-based parameter generation Generated speech feats. ෝ𝒚 Acoustic models 𝒙 ⋯ ෡𝒀 ⋯ ⋯ 𝒙1 𝒙 𝑇
  • 7. /216 MGE学習の問題点: 自然音声と異なる特徴量の分布 Natural MGE 21st mel-cepstral coefficient 23rdmel-cepstral coefficient 自然音声と比較して特徴量の分布が縮小... (系列内変動[Toda et al., 2007.] は分布の2次モーメントを明示的に補償)
  • 8. /217 目次  研究背景  従来のDNN音響モデル学習  Anti-spoofing に敵対するDNN音響モデル学習  実験的評価  まとめ
  • 9. /21 Anti-spoofing: 合成音声による声のなりすましを防ぐ識別器 8 [Wu et al., 2016.] [Chen et al., 2015.] 𝐿D,1 𝒚 𝐿D,0 ෝ𝒚 𝐿D 𝒚, ෝ𝒚 = → Minimize− 1 𝑇 ෍ 𝑡=1 𝑇 log 𝐷 𝒚 𝑡 − 1 𝑇 ෍ 𝑡=1 𝑇 log 1 − 𝐷 ෝ𝒚 𝑡 合成音声を 合成音声と識別させる 自然音声を 自然音声と識別させる ෝ𝒚 Cross entropy 𝐿D 𝒚, ෝ𝒚 1: natural 0: generated Generated speech feats. 𝒚Natural speech feats. Feature function 𝝓 ⋅ 本発表では 𝝓 𝒚 𝑡 = 𝒚 𝑡 Anti-spoofing 𝐷 ⋅ or
  • 10. /21 Anti-spoofing に敵対する音響モデル学習 9 𝜔D: 重み, 𝐸 𝐿G , 𝐸 𝐿D : 𝐿G 𝒚, ෝ𝒚 , 𝐿D,1 ෝ𝒚 の期待値 合成音声を 自然音声と識別させる 𝐿 𝒚, ෝ𝒚 = 𝐿G 𝒚, ෝ𝒚 + 𝜔D 𝐸 𝐿G 𝐸 𝐿D 𝐿D,1 ෝ𝒚 → Minimize 𝐿G 𝒚, ෝ𝒚 Linguistic feats. Natural speech feats. 𝒚 ML-based parameter generation Generated speech feats. ෝ𝒚 Acoustic models 𝒙 ⋯ ෡𝒀 ⋯ ⋯ 𝒙1 𝒙 𝑇 𝐿D,1 ෝ𝒚 1: natural Feature function 𝝓 ⋅ Anti-spoofing 𝐷 ⋅
  • 11. /21  ① 音響モデルの更新  ② Anti-spoofing の更新 音響モデルと Anti-spoofing の交互最適化 10 ①と②の反復により最終的な音響モデルを構築! FixedUpdated UpdatedFixed 𝐿G 𝒚, ෝ𝒚 Linguistic feats. Natural speech feats. 𝒚 ML-based parameter generation Generated speech feats. ෝ𝒚𝒙 ⋯ ෡𝒀 ⋯ ⋯𝒙1 𝒙 𝑇 𝐿D,1 ෝ𝒚 1: natural Feature function 𝝓 ⋅ Linguistic feats. Natural speech feats. 𝒚 ML-based parameter generation Generated speech feats. ෝ𝒚𝒙 ⋯ ෡𝒀 ⋯ ⋯ 𝒙1 𝒙 𝑇 𝐿D 𝒚, ෝ𝒚 1: natural 0: generated Feature function 𝝓 ⋅ or
  • 12. /21  音響モデル学習の損失関数: – 敵対的学習 [Goodfellow et al., 2014.] と生成誤差最小化の組合せ • 所望の入出力間対応関係を持った敵対的学習 [Reed et al., 2016.] – 敵対的学習 = 真のデータ分布と生成分布間の距離最小化 • 分布間の距離 = Jensen-Shannon ダイバージェンス • 自然 / 合成音声特徴量の分布の違いを補償 11 提案手法に関する考察: 敵対的学習に基づく分布補償 ⋯ 𝒚 𝒙 𝒚 の分布𝐷 𝒚 ෝ𝒚 の分布 学習の進行
  • 14. /21  系列内変動 (global variance): [Toda et al., 2007.] – 特徴量分布の2次モーメント = 分布の広がり 13 系列内変動の補償 明示的に使用していないにもかかわらず, anti-spoofing が系列内変動を自動的に補償! Feature index 0 5 10 15 20 10-3 10-1 101 Globalvariance Proposed Natural MGE 10-2 100 10-4 大 小
  • 15. /21  Maximal Information Coefficient (MIC): [Reshef et al., 2011.] – 2変量間の非線形な相関を定量化する指標 – 自然音声の特徴量間の相関は弱まる傾向 [Ijima et al., 2016.] 14 提案手法による副次的効果: 不自然な相関の緩和 Natural MGE 0 6 12 18 24 0 6 12 18 24 0.0 0.2 0.4 0.6 0.8 1.0 強 弱 Proposed 特徴量の分布や系列内変動のみならず, 特徴量間の相関も補償! 0 6 12 18 24 0 6 12 18 24
  • 16. /2115 目次  研究背景  従来のDNN音響モデル学習  Anti-spoofing に敵対するDNN音響モデル学習  実験的評価  まとめ
  • 17. /21 実験条件 データセット ATR 音素バランス503文 (16 kHz サンプリング) 学習 / 評価データ A-I セット 450文 / Jセット 53文 音声パラメータ 25次元のメルケプストラム, 𝐹0, 5帯域の非周期成分 コンテキストラベル 274次元 (音素, モーラ位置, アクセント型など) 前処理 Trajectory smoothing [Takamichi et al., 2015.] 予測パラメータ メルケプストラム (𝐹0, 非周期成分, 継続長は自然音声の特徴量を利用) 最適化アルゴリズム AdaGrad [Duchi et al., 2011.] (学習率 0.01) 音響モデル Feed-Forward 274 – 3x400 (ReLU) – 75 (linear) Anti-spoofing Feed-Forward 25 – 2x200 (ReLU) – 1 (sigmoid) 16
  • 18. /21 提案手法の初期化・学習および客観評価 17  初期化: – 音響モデル: MGE学習 – Anti-spoofing: 自然音声とMGE学習後の合成音声を識別  学習時: – 音響モデル: Anti-spoofing に敵対する学習 – Anti-spoofing: 自然音声と当該学習時点での合成音声を識別  客観評価指標: – 特徴量の生成誤差 𝐿G 𝒚, ෝ𝒚 – Anti-spoofing における詐称率 • 詐称率: 合成音声を自然音声と誤識別した割合 • ここでの anti-spoofing はMGE学習後の合成音声を用いて構築 提案手法の重み 𝜔D の変化に伴う客観評価指標の変化を調査
  • 19. /21 客観評価結果 18 生成誤差 詐称率 0.0 0.2 0.4 0.6 0.8 1.0 重み 𝜔D 0.45 0.50 0.55 0.60 0.65 0.70 0.75 1.0 0.8 0.6 0.4 0.2 0.0 0.8 1.0 良 良 0.0 0.2 0.4 0.6 0.8 1.0 重み 𝜔D 悪化 改善 𝜔D ≥ 0.3 で 詐称率 ≥ 99%
  • 20. /21 音質に関する主観評価結果 19 エラーバーは95%信頼区間 音声サンプル: http://sython.org/demo/icassp2017advtts/demo.html Proposed 𝜔D = 1.0 Proposed 𝜔D = 0.3 MGE 𝜔D = 0.0 音質に関するプリファレンススコア (評価者数8名) 0.0 0.2 0.4 0.6 0.8 1.0 改善 有意差なし 音質の改善 & ハイパーパラメータ設定に対する頑健性を確認!
  • 21. /2120 目次  研究背景  従来のDNN音響モデル学習  Anti-spoofing に敵対するDNN音響モデル学習  実験的評価  まとめ
  • 22. /21 まとめ  目的: 統計的パラメトリック音声合成の音質改善  提案手法: Anti-spoofing に敵対するDNNテキスト音声合成 • 自然 / 合成音声特徴量の分布の違いを敵対的学習で補償 • 系列内変動だけでなく, 特徴量間の相関も補償  結果: – 従来のDNN音響モデル学習と比較して音質が改善 – 提案手法におけるハイパーパラメータ設定の頑健性を確認  今後の検討事項: – 時間・言語依存の anti-spoofing の導入 – 提案手法の 𝐹0・継続長生成への拡張 • → 2017年春季ASJ (3/16(木) 16:15 ~) で発表予定 21