SlideShare a Scribd company logo
1 of 31
“Voice Morphing Using the
Generative Topographic Mapping”
論文情報
• タイトル
• “Voice Morphing Using the Generative Topographic Mapping”
• 著者
• Christina ORPHANIDOU, Irena M .MOROZ, Stephen
J.ROBERTS (オックスフォード大学)
• 掲載誌 学内誌
• 発表年 2004年
目次
• 1. INTRODUCTION
• 2. DESCRIPTION OF THE SYSTEM
• 3. TRAINING
• 4. CONVERSION
• 5. SPEECH SYNTHESIS
• 6. RESULT AND EVALUATION
1. INTRODUCTION
主なトピック: 音声モーフィング、コードブックマッピング(概要)
音声モーフィング
• 〇音声モーフィング
• 元話者の情報を残しながら他者の音声へ変換する技術
• 既存の音声加工技術よりも少ないコストで実現可能
• 音声モーフィングを用いるシチュエーション
 ほしい話者の新しい音声の収録が不可能な場合
 声真似
 話者適合(Speaker Adaptation)
音声モーフィング
• 〇スタンダードな音声モーフィングの手法
• 元話者の話者空間から目標話者の話者空間への変換を学習するフェー
ズを含むもの
• 最もよく使われる特徴量
 フォルマント周波数 … 声道の共振周波数
• →変換は一般的にコードブックマッピングを用いる
コードブックマッピング
• 一対一(元話者と目標話者)に対応するコードブックを作成
• コードブックマッピングの工程
 コードブックの作成
 入力音声とコードブックの参照
コード
ブック
入力
(元話者)
出力
(目標話者)
電話音声の音質改善や
騒音除去によって失わ
れたスペクトルの補完
などにも用いられる
コードブックマッピング
• 代表的なコードブックマッピングの問題
 音声フレームの境界で発生するアーティファクト(ノイズ)
 パラメータ推定のロバスト性
• 声道特徴は話者の個人性を変化させる代表的な特徴量
• 本論文では,新しく効果的でかつ高品質なフォルマント特徴の
変換方法を提案
2. DESCRIPTION OF THE SYSTEM
主なトピック: システムのフローの説明、各ステージの概説
フローダイアグラム
• システムは三部構成
 トレーニングステージ
 変換ステージ
 合成ステージ
トレーニングステージ
• 元話者と目標話者のLPC分析
• LPC分析
• 離散信号の将来の値をそれまでの標本群の値の線型写像として予測する数学的処理
 過去の信号の線形結合として信号を表す
 実際の信号と予測信号の二乗誤差が最も小さい予測係数を決定する
• 決定した高次の係数が各話者のフォルマント周波数に密接に関連する話者空間を構
築
• (さらに,LPC残渣はglottal excitation の妥当な近似値となる)
• ◎変換のロバスト性を向上させるため,高次の話者空間を
GTM(Generative topographic mapping)を用いて表す
変換ステージ・合成ステージ
• 変換ステージ
• GTMによって表現される音響信号をコードブックマッピングの手段を
用いて変換
• コードブックは元話者と目標話者の一対一対応
• 変換後のコードブックはまた異なる線形予測フィルタを形成
• 合成ステージ
• 新しい線形予測フィルタは目的の音声を生成するために,元話者の声
門振動を励起
3. TRAINING
主なトピック: 線形予測符号、GTM、GTMのLPC係数への適用
線形予測分析
• 人間の声道モデルを高精度に表す
ことが可能
• 学習音声にはサンプリングレート
10kHzのイギリス人男性の音声を
用いた
• LPC分析はVOICEBOX
• 8フレーム目で音素が崩れている
12次元のLPCパラメータ
音素 /a/
Generative Topographic Mapping (GTM)
• GTMの元論文
• “GTM:the generative topographic mapping” J.Svensen (1998)
 自己組織化マップ(SOM)の改良手法として提案された
 データを把握しやすくするための次元削減・可視化のための手法
 ここでは、本質的な要素の抽出という意味合いで使われる
出典:https://datachemeng.com/generativetopographicmapping/
イメージ
次元圧縮前に近い点
同士は、変換後も近
い点に配置される
Generative Topographic Mapping (GTM)
• 𝑦 𝑥, 𝑊
 L次元の潜在空間(𝑥 ∈ ℜ𝐿)からD次元のデータ空間(𝑦 ∈ ℜ𝐷)へのGTM
 普通は𝐿 < 𝐷
 𝑦 𝑥, 𝑊 は全点を潜在空間へ写像でき、その点は連続的で差別化可能
• 𝑥の確率分布𝑝(𝑥)を決めることができれば、対応する𝑝(𝑦|𝑊)はガウス雑
音の分布の畳み込みとして表すことが可能
𝑃𝐺 𝑧 =
1
𝜎 2𝜋
exp −
𝑧 − 𝜇 2
2𝜎2
𝑧 : 階調レベル
𝜇 ∶ 平均値
𝜎 : 標準偏差
𝑝 𝑡|𝑥, 𝑊, 𝛽 =
𝛽
2𝜋
𝐷
exp −
𝛽
2
||𝑦 𝑥, 𝑊 − 𝑡||2
𝑡 : データ空間上での点
𝛽−1
∶ 雑音分散
L1ノルムの二
乗なので左と
同じ意味
一般的なガウス雑音の定式 論文で示された式
出典:https://ja.wikipedia.org/wiki/%E3%82%AC%E3%
82%A6%E3%82%B9%E9%9B%91%E9%9F%B3
Generative Topographic Mapping (GTM)
• 与えられた𝛽と𝑊についてのデータ空間での𝑡分布は𝑥の積分で求められる
𝑝 𝑡 𝑊, 𝛽 = 𝑝 𝑡 𝑥, 𝑊, 𝛽 𝑝 𝑥 𝑑𝑥
• データ点𝑡1, … 𝑡𝑁は独立同一分布であるため、最尤推定法を用いることで
パラメータ行列𝑊, 逆分散𝛽を求めることができる
𝐿 =
𝑛=1
𝑁
𝑝 𝑡𝑛 𝑊, 𝛽 =
𝑛=1
𝑁
1
𝐾
𝑘=1
𝐾
𝑝(𝑡𝑛|𝑥𝑘, 𝑊, 𝛽)
• しかし、解析的に解くことが難しい
Generative Topographic Mapping (GTM)
• 潜在空間の通常のグリッドのノードを中心とするデルタ関数の合計に
よって与えられる𝑝(𝑥)の形式を検討
𝑝 𝑥 =
1
𝐾
𝑘=1
𝐾
𝛿(𝑥 − 𝑥𝑘)
𝑝 𝑡 𝑊, 𝛽 = 𝑝 𝑡 𝑥, 𝑊, 𝛽 𝑝 𝑥 𝑑𝑥 ⇒ 𝑝 𝑡 𝑊, 𝛽 =
1
𝐾
𝑘=1
𝐾
𝑝(𝑡 |𝑥𝑘, 𝑊, 𝛽)
𝐿 =
𝑛=1
𝑁
𝑝 𝑡𝑛 𝑊, 𝛽 =
𝑛=1
𝑁
1
𝐾
𝑘=1
𝐾
𝑝(𝑡𝑛|𝑥𝑘, 𝑊, 𝛽) ⇒ 𝑙 =
𝑛=1
𝑁
𝑙𝑛
1
𝐾
𝑘=1
𝐾
𝑝(𝑡𝑛|𝑥𝑘, 𝑊, 𝛽)
−∞
∞
𝛿 𝑥 𝑑𝑥 = 1
∞ 𝑥 = 0
0 𝑥 ≠ 0
出典:https://datachemeng.com/generativetopographicmapping/
グリッド上のノード
Generative Topographic Mapping (GTM)
• ・EMアルゴリズムを用いて尤度最大化を行う
• GTMの基礎となるアイデア
 観測される高次元のデータは低次元の潜在・隠れ変数で表すことがで
きる
 GTMでは潜在空間とデータ空間の間に非線形な関係性をもつ
 マッピングが滑らかであると仮定すると、低次元で音声特徴を表すこ
とが可能
GTMのLPC係数への適用
• LPC係数はGTM Toolboxを用いてGTMにフィッティングされ
る
1. 潜在空間の原点を中心とした2次元潜在空間に潜在点の正方形グリッ
ドを生成
2. 基底関数中心のグリッドも潜在空間の原点を中心に生成
3. 基底関数の幅を選択
4. 基底関数のアクティベーション行列を計算
5. 重み行列𝑊は、主成分分析を使用して初期化
6. 逆分散を初期化
7. 40回の反復トレーニング
4.CONVERSION
変換の流れ
• 各テスト音素について、各フレームの事後確率分布が潜在点に対して計算
され、ソースコードブックから最も近いコードブックベクトルが決定
 変換されたコードブック
• コードブックマッピングによって作成
 変換行列
• 各フレームの最も近いコードブックベクトルを目標話者の対応するコードブック
ベクトルで置き換えることによって形成
• 元音声のベクトル空間を目標音声のベクトル空間に置き換え、元ベクトル
空間内のすべてのベクトルを目標ベクトル空間内の目的の点に変換
特定のフレームの潜在空間における事後確率分布
 与えられたフレームに対して、
最も近いコードブックベクトル
は7番目
 したがって、目標空間内の対応
するものに置き換える
 次に、変換されたコードブック
は予測係数に変換
 予測係数は、音声を合成するた
めに励起信号をフィルタリング
5. SPEECH SYNTHESIS
音声合成
• モーフィング音声は線形予測パラメータから合成
 システムは、元の音声信号の特徴を抽出する際に使用されたものと
同じパラメトリック表現を使用
 合成器に供給される制御パラメーターは、インパルス形式の励起信
号とモーフィングされたLPC係数
 音声信号はフレームごとに分析されるため、フレームごとに合成
• この音声合成技術は、モーフィングされたLPC係数が励起信号
に対するフィルターとして機能し、この出力が合成された音声
信号であるフィルタリング技術
6. RESULT AND EVALUATION
変換評価
• 音声
• “ago” (母音”a”と”o”を含む)
• 話者
• イギリス人女性、アメリカ人女性、
イギリス人男性
元話者:イギリス人女性
目標話者:アメリカ人女性
LPCの次数:12
フレームサイズ:50サンプル
潜在空間のグリッド数:9
潜在空間の基底数:4
主観評価
• 元の音声と加工音声を多くの聴者に聞かせた
• 目標話者の同定と知覚品質を5段階で判断させた
 イギリス人女性とアメリカ人女性
• 90%の同定率
• スコア3.6
 イギリス人女性とイギリス人男性
• 90%の同定率
• スコア3.2 聴取実験の被験者数記載なし
話者同定の詳細記載なし
パラメータ最適化
• さまざまなGTMパラメーター(潜在点の
数と基底関数)を使用して平均二乗誤差
を計算することにより、提案手法をテス
ト
 2つの異なる音素の目標音声と比較した、モー
フィング音声の正規化された平均二乗誤差を示
す
 小さなテストサンプルの場合、よりスムーズな
マッピングが規定されているため、潜在点と基
底関数の数が少ないほど、より良い結果が得ら
れる
/a/(実線)、/o/(破線)のGTMパラメータ
の違いによる正規化MES
7.CONCLUSION
まとめ
 新しい音声変換技術を提案した
 システムはGTMでモデル化されたLPCのコードブックマッピ
ングによって実装された
 知覚テストでは目標話者に知覚されることを確認でき、成功
と結論付けることができる
 精度向上には声門振動の近似とされる残差の変換に着目する
ことがあげられる
 また、トレーニングサンプルを増やすことで音質改善が図れ
ると思われる

More Related Content

More from Natsumi KOBAYASHI

More from Natsumi KOBAYASHI (13)

seminar-text_2.pptx
seminar-text_2.pptxseminar-text_2.pptx
seminar-text_2.pptx
 
seminar-text_1.pptx
seminar-text_1.pptxseminar-text_1.pptx
seminar-text_1.pptx
 
seminar-paper_diarization.pptx
seminar-paper_diarization.pptxseminar-paper_diarization.pptx
seminar-paper_diarization.pptx
 
seminar-paper_VMusingCCA.pptx
seminar-paper_VMusingCCA.pptxseminar-paper_VMusingCCA.pptx
seminar-paper_VMusingCCA.pptx
 
seminar-paper_vtln.pptx
seminar-paper_vtln.pptxseminar-paper_vtln.pptx
seminar-paper_vtln.pptx
 
seminar-paper_karaoke.pptx
seminar-paper_karaoke.pptxseminar-paper_karaoke.pptx
seminar-paper_karaoke.pptx
 
seminar-paper_ForeignAccentConv.pptx
seminar-paper_ForeignAccentConv.pptxseminar-paper_ForeignAccentConv.pptx
seminar-paper_ForeignAccentConv.pptx
 
論文紹介FaceSwap-dongyue.pptx
論文紹介FaceSwap-dongyue.pptx論文紹介FaceSwap-dongyue.pptx
論文紹介FaceSwap-dongyue.pptx
 
論文紹介D4C-morise.pptx
論文紹介D4C-morise.pptx論文紹介D4C-morise.pptx
論文紹介D4C-morise.pptx
 
論文紹介PIE-patrick.pptx
論文紹介PIE-patrick.pptx論文紹介PIE-patrick.pptx
論文紹介PIE-patrick.pptx
 
論文紹介Morphing-hui.pptx
論文紹介Morphing-hui.pptx論文紹介Morphing-hui.pptx
論文紹介Morphing-hui.pptx
 
論文紹介Morphing-morise.pptx
論文紹介Morphing-morise.pptx論文紹介Morphing-morise.pptx
論文紹介Morphing-morise.pptx
 
論文紹介PIE-yamazaki.pptx
論文紹介PIE-yamazaki.pptx論文紹介PIE-yamazaki.pptx
論文紹介PIE-yamazaki.pptx
 

seminar-paper_mapping.pptx