Download free for 30 days
Sign in
Upload
Language (EN)
Support
Business
Mobile
Social Media
Marketing
Technology
Art & Photos
Career
Design
Education
Presentations & Public Speaking
Government & Nonprofit
Healthcare
Internet
Law
Leadership & Management
Automotive
Engineering
Software
Recruiting & HR
Retail
Sales
Services
Science
Small Business & Entrepreneurship
Food
Environment
Economy & Finance
Data & Analytics
Investor Relations
Sports
Spiritual
News & Politics
Travel
Self Improvement
Real Estate
Entertainment & Humor
Health & Medicine
Devices & Hardware
Lifestyle
Change Language
Language
English
Español
Português
Français
Deutsche
Cancel
Save
Submit search
EN
Uploaded by
Shinnosuke Takamichi
1,223 views
GMMに基づく固有声変換のための変調スペクトル制約付きトラジェクトリ学習・適応
音響学会201703
Science
◦
Read more
0
Save
Share
Embed
Embed presentation
Download
Download to read offline
1
/ 15
2
/ 15
3
/ 15
4
/ 15
5
/ 15
6
/ 15
7
/ 15
8
/ 15
9
/ 15
10
/ 15
11
/ 15
12
/ 15
13
/ 15
14
/ 15
15
/ 15
More Related Content
PDF
SLP201805: 日本語韻律構造を考慮した prosody-aware subword embedding とDNN多方言音声合成への適用
by
Shinnosuke Takamichi
PDF
音情報処理における特徴表現
by
NU_I_TODALAB
PDF
DNN音声合成のための Anti-spoofing を考慮した学習アルゴリズム
by
Yuki Saito
PDF
saito2017asj_vc
by
Yuki Saito
PDF
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム
by
Shinnosuke Takamichi
ODP
音声認識の基礎
by
Akinori Ito
PDF
Saito17asjA
by
Yuki Saito
PDF
Nakai22sp03 presentation
by
Yuki Saito
SLP201805: 日本語韻律構造を考慮した prosody-aware subword embedding とDNN多方言音声合成への適用
by
Shinnosuke Takamichi
音情報処理における特徴表現
by
NU_I_TODALAB
DNN音声合成のための Anti-spoofing を考慮した学習アルゴリズム
by
Yuki Saito
saito2017asj_vc
by
Yuki Saito
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム
by
Shinnosuke Takamichi
音声認識の基礎
by
Akinori Ito
Saito17asjA
by
Yuki Saito
Nakai22sp03 presentation
by
Yuki Saito
Viewers also liked
PDF
Prosody-Controllable HMM-Based Speech Synthesis Using Speech Input
by
Shinnosuke Takamichi
PDF
ICASSP2017読み会 (Deep Learning III) [電通大 中鹿先生]
by
Shinnosuke Takamichi
PDF
Ph.D defence (Shinnosuke Takamichi)
by
Shinnosuke Takamichi
PDF
DNN音響モデルにおける特徴量抽出の諸相
by
Takuya Yoshioka
PDF
日本音響学会2017秋 ビギナーズセミナー "深層学習を深く学習するための基礎"
by
Shinnosuke Takamichi
PDF
ICASSP2017読み会 (acoustic modeling and adaptation)
by
Shinnosuke Takamichi
PDF
日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”
by
Shinnosuke Takamichi
PDF
音声の声質を変換する技術とその応用
by
NU_I_TODALAB
PDF
Multimodal Deep Learning (D4L4 Deep Learning for Speech and Language UPC 2017)
by
Universitat Politècnica de Catalunya
PDF
日本音響学会2017秋 ”クラウドソーシングを利用した対訳方言音声コーパスの構築”
by
Shinnosuke Takamichi
PDF
Saito2017icassp
by
Yuki Saito
PDF
雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習
by
Shinnosuke Takamichi
PDF
MIRU2016 チュートリアル
by
Shunsuke Ono
PDF
信号処理・画像処理における凸最適化
by
Shunsuke Ono
PDF
Moment matching networkを用いた音声パラメータのランダム生成の検討
by
Shinnosuke Takamichi
PPTX
ICASSP2017読み会(関東編)・AASP_L3(北村担当分)
by
Daichi Kitamura
PDF
ヤフー音声認識サービスでのディープラーニングとGPU利用事例
by
Yahoo!デベロッパーネットワーク
Prosody-Controllable HMM-Based Speech Synthesis Using Speech Input
by
Shinnosuke Takamichi
ICASSP2017読み会 (Deep Learning III) [電通大 中鹿先生]
by
Shinnosuke Takamichi
Ph.D defence (Shinnosuke Takamichi)
by
Shinnosuke Takamichi
DNN音響モデルにおける特徴量抽出の諸相
by
Takuya Yoshioka
日本音響学会2017秋 ビギナーズセミナー "深層学習を深く学習するための基礎"
by
Shinnosuke Takamichi
ICASSP2017読み会 (acoustic modeling and adaptation)
by
Shinnosuke Takamichi
日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”
by
Shinnosuke Takamichi
音声の声質を変換する技術とその応用
by
NU_I_TODALAB
Multimodal Deep Learning (D4L4 Deep Learning for Speech and Language UPC 2017)
by
Universitat Politècnica de Catalunya
日本音響学会2017秋 ”クラウドソーシングを利用した対訳方言音声コーパスの構築”
by
Shinnosuke Takamichi
Saito2017icassp
by
Yuki Saito
雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習
by
Shinnosuke Takamichi
MIRU2016 チュートリアル
by
Shunsuke Ono
信号処理・画像処理における凸最適化
by
Shunsuke Ono
Moment matching networkを用いた音声パラメータのランダム生成の検討
by
Shinnosuke Takamichi
ICASSP2017読み会(関東編)・AASP_L3(北村担当分)
by
Daichi Kitamura
ヤフー音声認識サービスでのディープラーニングとGPU利用事例
by
Yahoo!デベロッパーネットワーク
Similar to GMMに基づく固有声変換のための変調スペクトル制約付きトラジェクトリ学習・適応
PDF
統計的音声合成変換と近年の発展
by
Shinnosuke Takamichi
PDF
音声合成研究を加速させるためのコーパスデザイン
by
Shinnosuke Takamichi
PDF
性別依存重回帰混合正規分布モデルに基づく差分スペクトル補正による歌声の知覚年齢制御法
by
奈良先端大 情報科学研究科
PDF
Saito19asjAutumn_DeNA
by
Yuki Saito
PDF
深層生成モデルに基づく音声合成技術
by
NU_I_TODALAB
PDF
[DL輪読会]Discriminative Learning for Monaural Speech Separation Using Deep Embe...
by
Deep Learning JP
PDF
ICASSP2019 音声&音響読み会 テーマ発表音声生成
by
Kentaro Tachibana
統計的音声合成変換と近年の発展
by
Shinnosuke Takamichi
音声合成研究を加速させるためのコーパスデザイン
by
Shinnosuke Takamichi
性別依存重回帰混合正規分布モデルに基づく差分スペクトル補正による歌声の知覚年齢制御法
by
奈良先端大 情報科学研究科
Saito19asjAutumn_DeNA
by
Yuki Saito
深層生成モデルに基づく音声合成技術
by
NU_I_TODALAB
[DL輪読会]Discriminative Learning for Monaural Speech Separation Using Deep Embe...
by
Deep Learning JP
ICASSP2019 音声&音響読み会 テーマ発表音声生成
by
Kentaro Tachibana
More from Shinnosuke Takamichi
PDF
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
by
Shinnosuke Takamichi
PDF
音声合成のコーパスをつくろう
by
Shinnosuke Takamichi
PDF
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
by
Shinnosuke Takamichi
PDF
短時間発話を用いた話者照合のための音声加工の効果に関する検討
by
Shinnosuke Takamichi
PDF
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
by
Shinnosuke Takamichi
PDF
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
by
Shinnosuke Takamichi
PDF
国際会議 interspeech 2020 報告
by
Shinnosuke Takamichi
PDF
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
by
Shinnosuke Takamichi
PDF
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
by
Shinnosuke Takamichi
PDF
P J S: 音素バランスを考慮した日本語歌声コーパス
by
Shinnosuke Takamichi
PDF
音響モデル尤度に基づくsubword分割の韻律推定精度における評価
by
Shinnosuke Takamichi
PDF
論文紹介 Unsupervised training of neural mask-based beamforming
by
Shinnosuke Takamichi
PDF
論文紹介 Building the Singapore English National Speech Corpus
by
Shinnosuke Takamichi
PDF
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
by
Shinnosuke Takamichi
PDF
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
by
Shinnosuke Takamichi
PDF
JVS:フリーの日本語多数話者音声コーパス
by
Shinnosuke Takamichi
PDF
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
by
Shinnosuke Takamichi
PDF
音声合成・変換の国際コンペティションへの 参加を振り返って
by
Shinnosuke Takamichi
PDF
ユーザ歌唱のための generative moment matching network に基づく neural double-tracking
by
Shinnosuke Takamichi
PDF
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
by
Shinnosuke Takamichi
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
by
Shinnosuke Takamichi
音声合成のコーパスをつくろう
by
Shinnosuke Takamichi
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
by
Shinnosuke Takamichi
短時間発話を用いた話者照合のための音声加工の効果に関する検討
by
Shinnosuke Takamichi
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
by
Shinnosuke Takamichi
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
by
Shinnosuke Takamichi
国際会議 interspeech 2020 報告
by
Shinnosuke Takamichi
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
by
Shinnosuke Takamichi
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
by
Shinnosuke Takamichi
P J S: 音素バランスを考慮した日本語歌声コーパス
by
Shinnosuke Takamichi
音響モデル尤度に基づくsubword分割の韻律推定精度における評価
by
Shinnosuke Takamichi
論文紹介 Unsupervised training of neural mask-based beamforming
by
Shinnosuke Takamichi
論文紹介 Building the Singapore English National Speech Corpus
by
Shinnosuke Takamichi
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
by
Shinnosuke Takamichi
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
by
Shinnosuke Takamichi
JVS:フリーの日本語多数話者音声コーパス
by
Shinnosuke Takamichi
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
by
Shinnosuke Takamichi
音声合成・変換の国際コンペティションへの 参加を振り返って
by
Shinnosuke Takamichi
ユーザ歌唱のための generative moment matching network に基づく neural double-tracking
by
Shinnosuke Takamichi
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
by
Shinnosuke Takamichi
GMMに基づく固有声変換のための変調スペクトル制約付きトラジェクトリ学習・適応
1.
GMMに基づく固有声変換のための 変調スペクトル制約付き トラジェクトリ学習・適応 ○高道 慎之介 (東大院・情報理工) 中村
哲 (奈良先端大) 日本音響学会 2017年 春季研究発表会 1-6-9
2.
/15 あらすじ 音声翻訳に向けた音声変換の利用 – 低遅延変換・発話内容非依存・高音質な音声変換が必要
従来法:GMM固有声変換 [Toda et al., 2006.] – 利点:発話内容非依存のモデル適応・低遅延音声変換 – 欠点:合成音声の低い音質 関連研究:GMM音声変換における変調スペクトル (MS) 制約 付きトラジェクトリ学習 [Takamichi et al., 2015.] – MS補償により,通常のGMM音声変換の合成音声を高品質化 提案法:GMM固有声変換のためのMS制約付きトラジェクトリ 学習・適応アルゴリズム – MS制約付き学習を適応アルゴリズムに拡張 – 従来のGMM固有声変換の利点を保ちつつ,高品質化 2
3.
/15 GMM音声変換 3 [Toda et al.,
2007.] Source feats. Target feats. 𝒚 𝒙 𝑾 𝑡: frame index Delta calculation Delta calculation 𝑿 𝑡 𝒀 𝑡 GMM 𝛌 静的・動的特徴量に対する尤度を最大化するように GMMパラメータ(重み,平均,共分散)を学習
4.
/15 一対多固有声変換(特定話者から 任意話者への変換)の学習 4 Source speaker 𝒚(1) 𝒙 𝑾 Delta Delta 1st target 2nd s-th Delta Delta 𝑿 𝑡 𝒀 𝑡 𝝁(𝑠)
= argmax 𝑃 𝑾𝒚(𝑠), 𝑾𝒙|𝝀(𝑠) = argmax 𝑃 𝒀 𝑡 𝑠 , 𝑾𝒙|𝝀(𝑠) 𝑡 GMM 𝛌 1 GMM 𝛌 2 GMM 𝛌 𝑠 各時間で独立 -> 時間遷移を無視 𝒀1 𝑠 ⋯ 𝒀 𝑇 𝑠 𝝁(𝑠) Mean vec.
5.
/15 固有声GMMの構築 (スーパーベクトルに対して主成分分析) 5 𝑿 𝑡 𝒀 𝑡 𝝎ev 𝝁(𝑠) =
𝑩𝝎ev + 𝒃 固有声重み(GMMパラメータを低次元のベクトルで表現) 固有声GMM 𝝀ev
6.
/15 固有声重み推定による教師なし話者適応 6 𝑿 𝑡 𝒀 𝑡 𝝎ev new speaker 𝒚
𝑛 𝑾 𝝎ev = argmax 𝑃 𝑾𝒚(𝑛) |𝝀ev , 𝝎ev = argmax 𝑃 𝒀 𝑡 n |𝝀ev , 𝝎ev 𝑡 各時間で独立 -> 時間遷移を無視 Delta
7.
提案法 変調スペクトル制約付きトラジェクトリ学習・適応 7
8.
/15 トラジェクトリモデルと変調スペクトル 8 [Zen et al.,
2007.][Takamichi et al., 2015.][Takamichi et al., 2016.] トラジェクトリモデル (単一分布近似・周辺化GMMに対して) – 動的特徴量の行列 𝑾 を制約とした確率密度関数 – パラメータの時間遷移を考慮するモデル 変調スペクトル (MS) … パラメータの振動を表す特徴量 – 音声パラメータ系列 𝒚 のパワースペクトル 𝒔 𝒚 – 変調スペクトルの復元 → 合成音声の音質改善 𝑃 𝑾𝒚|𝝀 = 𝑃 𝒀 𝑡|𝝀 𝑡 𝑃 𝒚|𝑾, 𝝀 𝑾 Delta 𝒚 𝒔 𝒚MS Fourier transform & pow.
9.
/15 変調スペクトル制約付き トラジェクトリ学習 9 𝝁 s = argmax
𝑁 𝒚(𝑠) ; 𝑨𝝁(𝑠) , 𝜮 ⋅ 𝑁 𝒔 𝒚(𝑠) ; 𝒔 𝑨𝝁 𝑠 , 𝜮ms 𝜔ms 時間遷移を考慮 変調スペクトルを復元 Source speaker 𝒚(1) 𝒙 𝑾 Delta Delta 1st target 2nd s-th Delta 𝑿 𝑡 𝒀 𝑡 GMM 𝛌 1 GMM 𝛌 2 GMM 𝛌 𝑠 𝝁(𝑠)Delta MS 𝑨:𝑾を含む行列, 𝜮:共分散行列
10.
/15 変調スペクトル制約付き トラジェクトリ適応 10 𝝎ev = argmax
𝑁 𝒚(𝑛) ; 𝑨 𝑩𝝎ev + 𝒃 , 𝜮 ⋅ 𝑁 𝒔 𝒚(𝑛) ; 𝒔 𝑨 𝑩𝝎ev + 𝒃 , 𝜮ms 𝜔ms 時間遷移を考慮 変調スペクトルを復元 𝑿 𝑡 𝒀 𝑡 𝝎ev new speaker 𝒚 𝑛 Delta MS 𝑨:𝑾を含む行列, 𝜮:共分散行列 𝑾
11.
/15 考察 提案法の効果 – MS制約付きトラジェクトリ学習・適応でパラメータを更新 –
→ 短遅延生成・言語非依存適応を可能にしつつ高品質化 整合性のとれた学習・適応基準 – 学習と適応で異なる基準を使うと,音質が極端に低下 – (例えば,従来学習&MS制約付きトラジェクトリ適応) 11
12.
実験的評価 英日間クロスリンガル音声変換 (英語音声の声色を日本語音声の声色に変換) 12
13.
/15 実験条件 13 音響モデル 256混合 固有声GMM 学習話者
(source / target) VCTKコーパス (英語) 女性 1名 / 55名 適応話者・適応文数 ATR音素バランス (日本語) 女性 5名 Aセット20文からランダムに1文を選択 評価データ VCTKコーパスから 30文 話者適応学習及びMAP推定 なし 評価対象 Basic:従来の学習・適応 TRJ:トラジェクトリ学習・適応 MSTRJ:MS制約付きトラジェクトリ学習・ 適応 評価法 音質に関するABテスト 話者性に関するXABテスト (Xは日本語音声) * トラジェクトリ学習・適応: 提案法から 変調スペクトル (MS) に関する項を除いたアルゴリズム
14.
/15 評価結果 14 Basic TRJ MSTRJ 1.0 0.8 0.6 0.4 0.2 0.0 Preferencescore Basic
TRJ MSTRJ 1.0 0.8 0.6 0.4 0.2 0.0 Preferencescore Speech quality Speaker similarity 提案アルゴリズムによる品質改善を確認
15.
/15 まとめ 従来法:GMM固有声変換 – 低遅延音声変換 –
発話内容非依存適応 提案法:MS制約付きトラジェクトリ学習・適応 – トラジェクトリモデル(時間制約)と変調スペクトルを考慮 実験結果: – 従来の利点を保ちつつ,変換音声を高品質化 今後の予定: – 適応データ量の調査 15
Download