Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
名古屋大学 情報基盤センター/JST, さきがけ
音声の声質を変換する技術と
その応用
戸田 智基
2017年5月24日
OS-9 質感と感性
音声の声質を知覚的に
制御するには?音声の声質をモデル
化するには?
戸田の簡単な経歴紹介
名古屋大学 工学部 電気電子・情報工学科(電気電子コース)
板倉研究室:音声分析合成系
奈良先端科学技術大学院大学 情報科学研究科 博士前期/後期課程
鹿野研究室:音声変換,ATR:音声合成
日本学術振興会 特別研究員-P...
• 物理的な生成過程
• 音声に埋め込まれる情報
音声の生成
言語情報
パラ言語情報
非言語情報
音声信号意図
音韻成分
声質成分
身体的制約
非言語情報は
限定される.
音源生成 調音 音声信号
声帯振動による
周期信号の生成
声道形状に応じ...
音声の声質を変換する技術とは?
出力音声入力音声
声質変換
• 入力音声に対して,発話内容を保持しつつ,他の所望の情報を意図的に
変換する処理を施す技術
発話内容(言語情報)は同じだが・・・
 所望の話者によって発声された
 所望の発話様式...
物理的制約を
超えた音源生成
物理的制約を
超えた調音
何の役に立つのか?
音源生成 調音
物理的な生成過程 + 声質変換 ⇒ 音声生成機能拡張の実現!
音声信号
声質変換
変換音声信号
非言語情報も
意図的に制御可能!
1.声質変換の概要:3...
応用例:音声生成機能拡張
• 物理的制約を超えた音声生成機能の獲得
身体的制約を
超える発声補助
環境的制約を
超える通話
能力的制約を
超える表現獲得
など,不可能を可能とする音声コミュニケーションも夢ではない!
発声障碍者
の音声を
より自...
どう実現されるのか?
信号処理 + 変換処理 ⇒ 声質変換の実現!
共振特性音源信号の特徴
時間
周波数
基本周波数系列 スペクトル包絡系列
周波数
パワー
時間
出力
音声
入力
音声
変換
処理
変換音声
特徴量系列 合成
処理
分析
処理...
リアルタイム音声変換デモ
周波数軸を
伸ばすと
縮めると
太い声に(声道長が
長く)なる!
周波数
パワー
周波数
パワー
周波数
パワー
共振部特徴量(スペクトル包絡)
子供っぽい声に
(声道長が短く)なる!
リアルタイム
音声変換ソフト(H...
所望の音声へと変換できるのか?
出力
音声
入力
音声
統計的
変換処理
学習
データ
変換音声
特徴量系列 合成
処理
分析
処理
音声
特徴量系列
信号処理 + 統計処理 ⇒ 統計的声質変換の実現!
1.声質変換の概要:7
複雑な変換処理を...
リアルタイム統計的音声変換デモ[Kobayashi et al., 2016a]
リアルタイム
統計的音声変換ソフト
名古屋大学
小林和弘博士 作※ http://www.ssw.co.jp/products/talk/megpoid/
※ h...
本講演の内容
• 声質をモデル化するには?
• 統計的手法に基づいて声質を変換する!
• 音声が持つ揺らぎ成分のモデル化する!
• 声質を知覚的に制御するには?
• 音韻依存要因と声質依存要因に分解する!
• 声質依存要因と知覚特性を対応付ける...
統計的声質変換の枠組み
入力話者 出力話者
変換関数
同じ内容を
話して下さい.
同じ内容を
話して下さい.
どんな内容も
変換できます.
どんな内容も
変換できます.
• 同一内容の発話対セット(パラレルデータ)を用いて変換関数を学習
入力音...
回帰問題としての定式化(教師あり学習)
• 入出力音声から特徴量を抽出し,両特徴量間の対応関係をモデル化
入力音声
出力音声
入力特徴量
出力特徴量
,,
2
2
1
1












y
x
y
x
特徴量...
学習処理と変換処理
学習処理
yv
T:1x T:1y
変換処理(高精度に近似可能)
系列特徴量の
モデル化
変換特徴量
系列を推定
音韻性
tYtX
tz
Tt :1
線形写像
非線形写像
時間変化
特徴量の
モデル化
Product-of...
tX
時間変化特徴量のモデル化
• 特徴量のセグメント化(各時間フレームにて隣接フレームの結合)
• 各時間フレーム付近における特徴量の時間変化を表現
• 動的(デルタ)特徴量の利用:関数フィッティング [Furui, 1981]
t-1 t
...
系列特徴量(揺らぎ成分)のモデル化
• 特徴量系列全体における変動量に着目
0 1 2 3
Time [sec]
特徴量系列
変調周波数
0 Hz
0.25 Hz
0.5 Hz
~ Hz




=…
特徴量の各次元における分散
特徴量...
揺らぎ成分をモデル化する効果
自然音声のスペクトル包絡系列
変換スペクトル包絡系列(揺らぎ成分のモデル化なし ⇒ 誤差は小)
変換スペクトル包絡系列(揺らぎ成分のモデル化あり ⇒ 誤差は大)
2.声質のモデル化:6
[Takamichi et ...
本講演の内容
• 声質をモデル化するには?
• 統計的手法に基づいて声質を変換する!
• 音声が持つ揺らぎ成分のモデル化する!
• 声質を知覚的に制御するには?
• 音韻依存要因と声質依存要因に分解する!
• 声質依存要因と知覚特性を対応付ける...
声質の知覚的制御
• 音韻依存要因と声質依存要因に分解するためのアプローチ
• 複数の既知話者の音声を混ぜ合わせることで未知話者の音声を模擬
• 声質依存要因と知覚特性を対応付けるためのアプローチ
• 知覚尺度を変化した際に生じる声質変化をモデ...
一対多変換( 多対一変換) [Toda et al., 2007b]
• 参照話者の音声を任意の話者の音声へと変換する技術
tX )(s
tY
sTt :1
tz
)(s
w
Ss :1
話者性
音韻性
音韻性(フレーム毎に変化)と
話者性...
固有声変換
スーパーベクトル
=モデルパラメータ連結
(音韻・話者依存)










































)...
多対一固有声変換デモ
• 任意の話者の音声を特定の話者の音声へと変換
tX tY
Tt :1
tz
w
話者性
音韻性
適応処理:入力音声から話者依存
因子ベクトルを教師無し推定
tY
tz
wˆ話者性
音韻性
変換処理:話者依存因子ベクトル...
多対多変換 [Ohtani et al., 2009]
• 任意の話者の音声を任意の話者の音声へと変換
• 多対一変換と一対多変換を縦列接続
3.声質の知覚的制御:5
tX
)(o
tY)(i
tY
tX )(o
tY
Tt :1
tz )(...
知覚特性との対応付け[Ohta et al., 2010] [Kobayashi et al., 2014]
)1(
:1 1TY
T:1X )2(
:1 2TY
)(
:1
S
TS
Y
参照話者
事前収録話者セット
話者1
話者2
話者S
...
知覚尺度操作による声質制御
スーパーベクトル
=モデルパラメータ連結
(音韻・知覚尺度依存)





































...
• 声質のモデル化: 統計的声質変換
• パラレルデータを用いて言語情報と声質情報の分離を実現
• 音声の特徴(時間変化や揺らぎ成分)をモデル化
• 声質の知覚的制御: 知覚的に説明できる声質依存要因の抽出
• 複数話者音声データを用いて言語依...
[Toda, 2014] T. Toda. Augmented speech production based on real-time statistical voice conversion. Proc.
GlobalSIP, pp. 75...
[Takamichi et al., 2016] Takamichi, T. Toda, A.W. Black, G. Neubig, S. Sakti, S. Nakamura. Post-filters to
modify the modu...
Upcoming SlideShare
Loading in …5
×

音声の声質を変換する技術とその応用

2,484 views

Published on

2017年度 人工知能学会全国大会
オーガナイズドセッション OS-9:質感と感性 招待講演
戸田 智基:音声の声質を変換する技術とその応用,May 2017
名古屋大学 情報学研究科 知能システム学専攻 戸田研究室

Published in: Engineering

音声の声質を変換する技術とその応用

  1. 1. 名古屋大学 情報基盤センター/JST, さきがけ 音声の声質を変換する技術と その応用 戸田 智基 2017年5月24日 OS-9 質感と感性 音声の声質を知覚的に 制御するには?音声の声質をモデル 化するには?
  2. 2. 戸田の簡単な経歴紹介 名古屋大学 工学部 電気電子・情報工学科(電気電子コース) 板倉研究室:音声分析合成系 奈良先端科学技術大学院大学 情報科学研究科 博士前期/後期課程 鹿野研究室:音声変換,ATR:音声合成 日本学術振興会 特別研究員-PD ATR:音声合成,米国CMU:音声変換,名工大:音声合成 奈良先端科学技術大学院大学 情報科学研究科 助手/助教 鹿野研究室:音声情報処理,英国Cambridge U:音声対話 同 准教授 中村研究室:音声情報処理,コミュニケーション支援/拡張 名古屋大学 情報基盤センター 教授 大学院 情報学研究科 担当 情報学部 コンピュータ科学科 知能システム系 担当 戸田研究室(+武田研究室):音声/音楽/音環境情報処理 1995.4 1999.4 2003.4 2005.4 2011.4 2015.9 自己紹介
  3. 3. • 物理的な生成過程 • 音声に埋め込まれる情報 音声の生成 言語情報 パラ言語情報 非言語情報 音声信号意図 音韻成分 声質成分 身体的制約 非言語情報は 限定される. 音源生成 調音 音声信号 声帯振動による 周期信号の生成 声道形状に応じた 共振特性の付与 1.声質変換の概要:1
  4. 4. 音声の声質を変換する技術とは? 出力音声入力音声 声質変換 • 入力音声に対して,発話内容を保持しつつ,他の所望の情報を意図的に 変換する処理を施す技術 発話内容(言語情報)は同じだが・・・  所望の話者によって発声された  所望の発話様式で発声された  所望の・・・で発声された ように変換する! Q2.どう実現されるのか? Q1.何の役に立つのか? 1.声質変換の概要:2
  5. 5. 物理的制約を 超えた音源生成 物理的制約を 超えた調音 何の役に立つのか? 音源生成 調音 物理的な生成過程 + 声質変換 ⇒ 音声生成機能拡張の実現! 音声信号 声質変換 変換音声信号 非言語情報も 意図的に制御可能! 1.声質変換の概要:3 こんにちはこんにちはこんにちは こんにちは! 正常な発声器官を 仮想的に移植して 一部の発声器官の 機能を消失しても・・・ 所望の音声生成 機能を実現!
  6. 6. 応用例:音声生成機能拡張 • 物理的制約を超えた音声生成機能の獲得 身体的制約を 超える発声補助 環境的制約を 超える通話 能力的制約を 超える表現獲得 など,不可能を可能とする音声コミュニケーションも夢ではない! 発声障碍者 の音声を より自然な 音声へ 聞きとれないほど 微弱な音声を より明瞭な 音声へ 現時点での 歌声を 若返った歌声へ 年老いた歌声へ 例えば,失った声を取り戻す! 例えば,声を出さずに会話する! 例えば,イメージする声を具現化する! 1.声質変換の概要:4 [Toda, 2014]
  7. 7. どう実現されるのか? 信号処理 + 変換処理 ⇒ 声質変換の実現! 共振特性音源信号の特徴 時間 周波数 基本周波数系列 スペクトル包絡系列 周波数 パワー 時間 出力 音声 入力 音声 変換 処理 変換音声 特徴量系列 合成 処理 分析 処理 音声 特徴量系列 1.声質変換の概要:5
  8. 8. リアルタイム音声変換デモ 周波数軸を 伸ばすと 縮めると 太い声に(声道長が 長く)なる! 周波数 パワー 周波数 パワー 周波数 パワー 共振部特徴量(スペクトル包絡) 子供っぽい声に (声道長が短く)なる! リアルタイム 音声変換ソフト(Herium) 名城大学 坂野秀樹先生 作 音源生成部特徴量(基本周波数) 高くすると 低くすると 高い声になる! 低い声になる! 時間 周波数周波数 時間 周波数 時間 1.声質変換の概要:6 • 物理性質に沿った単純な規則に基づく変換関数の利用 [Banno et al., 2007]
  9. 9. 所望の音声へと変換できるのか? 出力 音声 入力 音声 統計的 変換処理 学習 データ 変換音声 特徴量系列 合成 処理 分析 処理 音声 特徴量系列 信号処理 + 統計処理 ⇒ 統計的声質変換の実現! 1.声質変換の概要:7 複雑な変換処理を実現する非線形変換関数を学習データから推定 • 所望の非言語情報のみが変換されるように学習データを設計 • 個々の音韻に応じた変換処理を実現
  10. 10. リアルタイム統計的音声変換デモ[Kobayashi et al., 2016a] リアルタイム 統計的音声変換ソフト 名古屋大学 小林和弘博士 作※ http://www.ssw.co.jp/products/talk/megpoid/ ※ http://licca.takaratomy.co.jp/official/profile/ 1.声質変換の概要:8 • 統計的変換関数を利用して特定のキャラクターの声へと変換
  11. 11. 本講演の内容 • 声質をモデル化するには? • 統計的手法に基づいて声質を変換する! • 音声が持つ揺らぎ成分のモデル化する! • 声質を知覚的に制御するには? • 音韻依存要因と声質依存要因に分解する! • 声質依存要因と知覚特性を対応付ける! 講演内容
  12. 12. 統計的声質変換の枠組み 入力話者 出力話者 変換関数 同じ内容を 話して下さい. 同じ内容を 話して下さい. どんな内容も 変換できます. どんな内容も 変換できます. • 同一内容の発話対セット(パラレルデータ)を用いて変換関数を学習 入力音声 出力音声 1.パラレルデータ(約50文対)を用いた学習 2.如何なる入力音声発話も言語情報を保存しつつ 出力音声へと変換可能 2.声質のモデル化:1 [Abe et al., 1990] [Stylianou et al., 1998] 言語情報は同じであり,変換対象となる情報のみが異なるデータ
  13. 13. 回帰問題としての定式化(教師あり学習) • 入出力音声から特徴量を抽出し,両特徴量間の対応関係をモデル化 入力音声 出力音声 入力特徴量 出力特徴量 ,, 2 2 1 1             y x y x 特徴量抽出 変換関数  TT :1:1 xy F 結合特徴量 (教師あり 学習用データ) ,, 21 xx ,, 21 yy 時間フレームの 対応付け 変換関数の構築 2.声質のモデル化:2
  14. 14. 学習処理と変換処理 学習処理 yv T:1x T:1y 変換処理(高精度に近似可能) 系列特徴量の モデル化 変換特徴量 系列を推定 音韻性 tYtX tz Tt :1 線形写像 非線形写像 時間変化 特徴量の モデル化 Product-of-Expertsとして 両特徴量の基準を利用 2.声質のモデル化:3 yv T:1yT:1x 音韻性 tYtX tz Tt :1 MAP推定値 による近似 特徴量系列対 [Toda et al., 2007a] [Tobing et al., 2016]
  15. 15. tX 時間変化特徴量のモデル化 • 特徴量のセグメント化(各時間フレームにて隣接フレームの結合) • 各時間フレーム付近における特徴量の時間変化を表現 • 動的(デルタ)特徴量の利用:関数フィッティング [Furui, 1981] t-1 t tx 1tx 2tx1tx2tx tx tx tx tX 1tX2tX 1tX 2tX   線形変換 t+1 t 0-1-2 1 2 tt bfx  )0( tt afx 2)0(   ttt cbaf   2 )(二次関数: 一次微分: 二次微分: 前後2フレーム (計5フレーム) を使う場合の例 = 結合 [徳田 他, 1997] 2.声質のモデル化:4
  16. 16. 系列特徴量(揺らぎ成分)のモデル化 • 特徴量系列全体における変動量に着目 0 1 2 3 Time [sec] 特徴量系列 変調周波数 0 Hz 0.25 Hz 0.5 Hz ~ Hz     =… 特徴量の各次元における分散 特徴量系列の変調スペクトル へと拡張 (特徴量系列を各変調周波数成分に 分解して分散を計算) (=特徴量系列に対する非線形 変換により得られる特徴量) のモデル化 [Toda et al., 2007] [Takamichi et al., 2016] 音声信号に含まれる 揺らぎ成分を表現! 2.声質のモデル化:5
  17. 17. 揺らぎ成分をモデル化する効果 自然音声のスペクトル包絡系列 変換スペクトル包絡系列(揺らぎ成分のモデル化なし ⇒ 誤差は小) 変換スペクトル包絡系列(揺らぎ成分のモデル化あり ⇒ 誤差は大) 2.声質のモデル化:6 [Takamichi et al., 2016]
  18. 18. 本講演の内容 • 声質をモデル化するには? • 統計的手法に基づいて声質を変換する! • 音声が持つ揺らぎ成分のモデル化する! • 声質を知覚的に制御するには? • 音韻依存要因と声質依存要因に分解する! • 声質依存要因と知覚特性を対応付ける! 講演内容
  19. 19. 声質の知覚的制御 • 音韻依存要因と声質依存要因に分解するためのアプローチ • 複数の既知話者の音声を混ぜ合わせることで未知話者の音声を模擬 • 声質依存要因と知覚特性を対応付けるためのアプローチ • 知覚尺度を変化した際に生じる声質変化をモデル化  同じ音韻同士で混ぜ合わせ  混ぜ合わせ重みは全ての音韻で共有  混ぜ合わせ重みを声質依存要因として利用  既知話者に対して知覚尺度を付与  知覚尺度変化と個々の音韻内における 全話者共通の声質変化を対応付け  知覚尺度から推定される声質変化を 変換対象話者に適用 3.声質の知覚的制御:1 年齢
  20. 20. 一対多変換( 多対一変換) [Toda et al., 2007b] • 参照話者の音声を任意の話者の音声へと変換する技術 tX )(s tY sTt :1 tz )(s w Ss :1 話者性 音韻性 音韻性(フレーム毎に変化)と 話者性(系列毎に変化)を別々の 潜在変数でモデル化 参照話者を音韻性に対するアンカーとして活用することで話者性を分離 )1( :1 1TY tX )2( :1 2TY )( :1 S TS Y 参照話者 事前収録話者セット 話者1 話者2 話者S 参照話者と各事前収録話者間で パラレルデータを作成して利用 3.声質の知覚的制御:2 学習データ設計 学習処理
  21. 21. 固有声変換 スーパーベクトル =モデルパラメータ連結 (音韻・話者依存)                                           )( )( 2 )( 1 )1( )1( 2 )1( 1 ,, J M J J M b b b b b b              )( )( 1 s J s w w                )0( )0( 2 )0( 1 Mb b b  バイアスベクトル =平均的な話者性 (音韻依存) + 因子ベクトル (話者依存)× 基底ベクトルセット =代表的な話者性 (音韻依存) = 声質制御パラメータとして利用               )( )( 2 )( 1 s M s s μ μ μ  = + • モデルパラメータを音韻依存要因と話者依存要因に分離[Kuhn et al., 2000] [Toda et al., 2006] 3.声質の知覚的制御:3
  22. 22. 多対一固有声変換デモ • 任意の話者の音声を特定の話者の音声へと変換 tX tY Tt :1 tz w 話者性 音韻性 適応処理:入力音声から話者依存 因子ベクトルを教師無し推定 tY tz wˆ話者性 音韻性 変換処理:話者依存因子ベクトルを 用いて適応モデルを構築して変換 Tt :1 3.声質の知覚的制御:4 tX 10年前のデモです・・・ 古くてすみません・・・ T:1x T:1y T:1x T:1y
  23. 23. 多対多変換 [Ohtani et al., 2009] • 任意の話者の音声を任意の話者の音声へと変換 • 多対一変換と一対多変換を縦列接続 3.声質の知覚的制御:5 tX )(o tY)(i tY tX )(o tY Tt :1 tz )(o w 話者性 音韻性 変換モデルの変形 )(i tY )(i w 話者性 tX )(s tY Tt :1 tz )(s w 話者性 音韻性 一対多変換 モデル 多対多変換 モデル  一対多/多対一変換 モデルの接続  参照話者音声を潜在 変数として周辺化
  24. 24. 知覚特性との対応付け[Ohta et al., 2010] [Kobayashi et al., 2014] )1( :1 1TY T:1X )2( :1 2TY )( :1 S TS Y 参照話者 事前収録話者セット 話者1 話者2 話者S • 制御対象とする声質成分に着目した知覚尺度を手動で付与        2 20)1( p        5 35)2( p        1 65)(S p       p 知覚される年齢 声の通りの良さ 知覚尺度の例: 1. 各話者の音声を聞いてラベリング 2. 知覚尺度を話者依存 因子ベクトルとして学習 tX )(s tY sTt :1 tz Ss :1 知覚的尺度 音韻性 sp 3.声質の知覚的制御:6
  25. 25. 知覚尺度操作による声質制御 スーパーベクトル =モデルパラメータ連結 (音韻・知覚尺度依存)                                           )( )( 2 )( 1 )1( )1( 2 )1( 1 , J M J J M b b b b b b        2 1 p p               )0( )0( 2 )0( 1 Mb b b  入力話者ベクトル (音韻依存)+ 知覚尺度 (操作対象)× 基底ベクトルセット =知覚尺度に応じた 変化(音韻依存) = 知覚尺度を手動設定               )( )( 2 )( 1 s M s s μ μ μ  = + • 入力話者の声質を知覚尺度操作により制御可能 [Kobayashi et al., 2016b] 知覚年齢若い声色 老いた声色 歌声の知覚年齢操作の例 3.声質の知覚的制御:7
  26. 26. • 声質のモデル化: 統計的声質変換 • パラレルデータを用いて言語情報と声質情報の分離を実現 • 音声の特徴(時間変化や揺らぎ成分)をモデル化 • 声質の知覚的制御: 知覚的に説明できる声質依存要因の抽出 • 複数話者音声データを用いて言語依存要因と声質依存要因へ分解 • 知覚尺度を付与することで対応する声質依存要因をデータから抽出 • 声質変換の応用例: 音声生成機能の拡張 まとめ 音声の声質変換技術は危険性を含んでいます! • なりすましの助長 • 変換音声自動検出技術と変換技術はイタチごっこ 声質変換技術の普及に向け正しい社会的認知を得ることが必要です. 声質変換技術を「包丁」として認めてもらうための 研究活動ならびに社会活動が重要な課題となります. まとめ
  27. 27. [Toda, 2014] T. Toda. Augmented speech production based on real-time statistical voice conversion. Proc. GlobalSIP, pp. 755-759, 2014. [Banno et al., 2007] H. Banno1, H. Hata, M. Morise, T. Takahashi, T. Irino, H. Kawahara. Implementation of realtime STRAIGHT speech manipulation system: Report on its first implementation. Acoustical Science and Technology. Vol. 28, No. 3, pp. 140-146, 2007. [Kobayashi et al., 2016a] K. Kobayashi, T. Toda, S. Nakamura. F0 transformation techniques for statistical voice conversion with direct waveform modification with spectral differential. Proc. IEEE SLT, pp. 693-700, 2016. [Abe et al., 1990] M. Abe, S. Nakamura, K. Shikano, H. Kuwabara. Voice conversion through vector quantization. J. Acoust. Soc. Jpn (E), Vol. 11, No. 2, pp. 71-76, 1990. [Stylianou et al., 1998] Y. Stylianou, O. Capp´e, E. Moulines. Continuous probabilistic transform for voice conversion. IEEE Trans. Speech & Audio Process., Vol. 6, No. 2, pp. 131-142, 1998. [Toda et al., 2007a] T. Toda, A.W. Black, K. Tokuda. Voice conversion based on maximum likelihood estimation of spectral parameter trajectory. IEEE Transactions on Audio, Speech and Language Processing, Vol. 15, No. 8, pp. 2222-2235, 2007. [Tobing et al., 2016] P.L. Tobing, T. Toda, H. Kameoka, S. Nakamura. Acoustic-to-articulatory inversion mapping based on latent trajectory Gaussian mixture model. Proc. INTERSPEECH, pp. 953-957, 2016. [徳田 他, 1997] 徳田恵一, 益子貴史, 小林隆夫, 今井 聖. 動的特徴を用いた HMMからの音声パラメータ 生成アルゴリズム. 日本音響学会誌, Vol. 53, No. 3, pp. 192–200, 1997. [Furui, 1981] S Furui. Cepstral analysis technique for automatic speaker verification. IEEE Trans. Acoustics, Speech, and Signal Process. Vol. 29, No. 2, pp. 254-272, 1981. 参考文献(1) 参考文献:1
  28. 28. [Takamichi et al., 2016] Takamichi, T. Toda, A.W. Black, G. Neubig, S. Sakti, S. Nakamura. Post-filters to modify the modulation spectrum for statistical parametric speech synthesis. IEEE/ACM Transactions on Audio, Speech and Language Processing, Vol. 24, No. 4, pp. 755-767, Apr. 2016. [Toda et al., 2007b] T. Toda, Y. Ohtani, K. Shikano. One-to-many and many-to-one voice conversion based on eigenvoices. Proc. IEEE ICASSP, pp. 1249-1252, 2007 [Toda et al., 2006] T. Toda, Y. Ohtani, K. Shikano. Eigenvoice conversion based on Gaussian mixture model. Proc. INTERSPEECH, pp. 2446-2449, 2006. [Kuhn et al., 2000] R. Kuhn, J.-C. Junqua, P. Nguyen, N. Niedzielski. Rapid speaker adaptation in eigenvoice space. IEEE Trans. Speech & Audio Process. Vol. 8, No. 6, pp. 695-707, 2000. [Ohtani et al., 2009] Y. Ohtani, T. Toda, H. Saruwatari, K. Shikano. Non-parallel training for many-to-many eigenvoice conversion. Proc. IEEE ICASSP, pp. 4822-4825, Dallas, USA, Mar. 2010. [Ohta et al., 2010] K. Ohta, T. Toda, Y. Ohtani, H. Saruwatari, K. Shikano. Adaptive voice-quality control based on one-to-many eigenvoice conversion. Proc. INTERSPEECH, pp. 2158-2161, 2010. [Kobayashi et al., 2014] K. Kobayashi, T. Toda, H. Doi, T. Nakano, M. Goto, G. Neubig, S. Sakti, S. Nakamura. Voice timbre control based on perceived age in singing voice conversion. IEICE Transactions on Information and Systems, Vol. E97-D, No. 6, pp. 1419-1428, 2014. [Kobayashi et al., 2016b] K. Kobayashi, T. Toda, T. Nakano, M. Goto, S. Nakamura. Improvements of voice timbre control based on perceived age in singing voice conversion. IEICE Transactions on Information and Systems, Vol. E99-D, No. 11, pp. 2767-2777, 2016. 参考文献(2) 参考文献:2

×