Download free for 30 days
Sign in
Upload
Language (EN)
Support
Business
Mobile
Social Media
Marketing
Technology
Art & Photos
Career
Design
Education
Presentations & Public Speaking
Government & Nonprofit
Healthcare
Internet
Law
Leadership & Management
Automotive
Engineering
Software
Recruiting & HR
Retail
Sales
Services
Science
Small Business & Entrepreneurship
Food
Environment
Economy & Finance
Data & Analytics
Investor Relations
Sports
Spiritual
News & Politics
Travel
Self Improvement
Real Estate
Entertainment & Humor
Health & Medicine
Devices & Hardware
Lifestyle
Change Language
Language
English
Español
Português
Français
Deutsche
Cancel
Save
Submit search
EN
Uploaded by
Shinnosuke Takamichi
PDF, PPTX
453 views
ユーザ歌唱のための generative moment matching network に基づく neural double-tracking
日本音響学会秋季研究発表会 (2019/9/4) 1-4-3
Technology
◦
Read more
1
Save
Share
Embed
Embed presentation
Download
Download as PDF, PPTX
1
/ 15
2
/ 15
3
/ 15
4
/ 15
5
/ 15
6
/ 15
7
/ 15
8
/ 15
9
/ 15
10
/ 15
11
/ 15
12
/ 15
13
/ 15
14
/ 15
15
/ 15
More Related Content
PDF
モーメントマッチングに基づくDNN 合成歌声のランダム変調ポストフィルタとニューラルダブルトラッキングへの応用
by
Shinnosuke Takamichi
PDF
Moment matching networkを用いた音声パラメータのランダム生成の検討
by
Shinnosuke Takamichi
PDF
Saito18sp03
by
Yuki Saito
PDF
saito2017asj_vc
by
Yuki Saito
PDF
DNN音声合成のための Anti-spoofing を考慮した学習アルゴリズム
by
Yuki Saito
PDF
高効率音声符号化―MP3詳解―
by
Akinori Ito
PDF
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元
by
NU_I_TODALAB
PDF
saito2017asj_tts
by
Yuki Saito
モーメントマッチングに基づくDNN 合成歌声のランダム変調ポストフィルタとニューラルダブルトラッキングへの応用
by
Shinnosuke Takamichi
Moment matching networkを用いた音声パラメータのランダム生成の検討
by
Shinnosuke Takamichi
Saito18sp03
by
Yuki Saito
saito2017asj_vc
by
Yuki Saito
DNN音声合成のための Anti-spoofing を考慮した学習アルゴリズム
by
Yuki Saito
高効率音声符号化―MP3詳解―
by
Akinori Ito
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元
by
NU_I_TODALAB
saito2017asj_tts
by
Yuki Saito
More from Shinnosuke Takamichi
PDF
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
by
Shinnosuke Takamichi
PDF
音声合成のコーパスをつくろう
by
Shinnosuke Takamichi
PDF
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
by
Shinnosuke Takamichi
PDF
短時間発話を用いた話者照合のための音声加工の効果に関する検討
by
Shinnosuke Takamichi
PDF
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
by
Shinnosuke Takamichi
PDF
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
by
Shinnosuke Takamichi
PDF
国際会議 interspeech 2020 報告
by
Shinnosuke Takamichi
PDF
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
by
Shinnosuke Takamichi
PDF
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
by
Shinnosuke Takamichi
PDF
P J S: 音素バランスを考慮した日本語歌声コーパス
by
Shinnosuke Takamichi
PDF
音響モデル尤度に基づくsubword分割の韻律推定精度における評価
by
Shinnosuke Takamichi
PDF
音声合成研究を加速させるためのコーパスデザイン
by
Shinnosuke Takamichi
PDF
論文紹介 Unsupervised training of neural mask-based beamforming
by
Shinnosuke Takamichi
PDF
論文紹介 Building the Singapore English National Speech Corpus
by
Shinnosuke Takamichi
PDF
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
by
Shinnosuke Takamichi
PDF
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
by
Shinnosuke Takamichi
PDF
JVS:フリーの日本語多数話者音声コーパス
by
Shinnosuke Takamichi
PDF
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
by
Shinnosuke Takamichi
PDF
音声合成・変換の国際コンペティションへの 参加を振り返って
by
Shinnosuke Takamichi
PDF
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
by
Shinnosuke Takamichi
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
by
Shinnosuke Takamichi
音声合成のコーパスをつくろう
by
Shinnosuke Takamichi
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
by
Shinnosuke Takamichi
短時間発話を用いた話者照合のための音声加工の効果に関する検討
by
Shinnosuke Takamichi
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
by
Shinnosuke Takamichi
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
by
Shinnosuke Takamichi
国際会議 interspeech 2020 報告
by
Shinnosuke Takamichi
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
by
Shinnosuke Takamichi
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
by
Shinnosuke Takamichi
P J S: 音素バランスを考慮した日本語歌声コーパス
by
Shinnosuke Takamichi
音響モデル尤度に基づくsubword分割の韻律推定精度における評価
by
Shinnosuke Takamichi
音声合成研究を加速させるためのコーパスデザイン
by
Shinnosuke Takamichi
論文紹介 Unsupervised training of neural mask-based beamforming
by
Shinnosuke Takamichi
論文紹介 Building the Singapore English National Speech Corpus
by
Shinnosuke Takamichi
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
by
Shinnosuke Takamichi
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
by
Shinnosuke Takamichi
JVS:フリーの日本語多数話者音声コーパス
by
Shinnosuke Takamichi
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
by
Shinnosuke Takamichi
音声合成・変換の国際コンペティションへの 参加を振り返って
by
Shinnosuke Takamichi
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
by
Shinnosuke Takamichi
ユーザ歌唱のための generative moment matching network に基づく neural double-tracking
1.
09/04/2019©Hiroki Tamaru, The University
of Tokyo ユーザ歌唱のための generative moment matching network に基づく neural double-tracking 田丸 浩気,齋藤 佑樹,高道 慎之介,郡山 知樹,猿渡 洋 (東京大学) 日本音響学会秋季研究発表会 (2019/9/4) 1-4-3
2.
/14 背景: Double-tracking Double-tracking
(DT) – 同一フレーズを複数回歌唱してミックスし,歌声に厚みを持たせる – 2回,節回しや音の継続長を揃えて歌うのが難しい Artificial double-tracking (ADT) – 歌声を信号処理的に変調して原音にミックスする代替法 – 厚みは出るが,不自然な聴覚的印象になってしまう 2自然な重ね録り感を人工的に再現したい Double-tracking (DT) Artificial double- tracking (ADT) Neural double- tracking (proposed) Sing twice Sing once Signal processing Sing once GMMN post-filter Mix Mix Mix
3.
/14 発表概要 従来法: artificial
double-tracking (ADT) – ピッチ系列を信号処理的に変調して原音にミックス 提案法: neural double-tracking (NDT) – ピッチ系列を機械学習的に変調して原音にミックス – generative moment matching network (GMMN) [Ren+, 2016] でラン ダム性を学習 – 合成歌声のための手法 [Tamaru+, 2019] をユーザ歌唱のために適用 – そのために新たに繰り返し歌唱データベースを作成 主観評価結果 – NDT は ADT より高い重ね録り感を付与 3
4.
/14 Artificial double-tracking (ADT)
原音と変調音をミックスして,厚みを持たせる – 原音のピッチ系列 + 正弦波 = 変調ピッチ系列 4 Pitch(1が半音) *変調を明瞭に表示するため,正弦波の振幅は実際の値より大きく設定している Time [s] 位相の似た2音のミックスに起因する,artifact が生じる 原音 変調音 [Izhaki+, 2017]
5.
/18 提案法 GMMN ポストフィルタに基づく neural double-tracking
(NDT) 5
6.
/14 GMMN に基づくポストフィルタ 6 ピッチ系列のランダム性を統計的にモデル化 –
時系列の構造情報を F0 包絡でモデル化 [Takamichi+, 2016] – F0 包絡の条件付き分布を GMMN でモデル化 STFT GMMN F0 包絡 位相 ISTFT ポストフィルタ ランダムノイズ 歌声 ピッチ系列 新しいピッチ系列 *STFT: Short Time Fourier Transform, ISTFT: Inverse Short Time Fourier Transform [Tamaru+, ICASSP 2019]
7.
/14 条件付き GMMN
[Ren+, 2016] – ノイズ分布 (既知・単純) を出力分布 (未知・複雑) に変換 – 出力とターゲットの条件付き分布のモーメントを揃えるよう学習 – 生成時: ターゲット分布に基づき,値をランダムサンプリング GMMN に基づくパラメータサンプリング 7 𝑈[−𝟏, 𝟏) ランダムノイズ モーメントを 揃える ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ 条件 出力 ターゲット
8.
/14 GMMN ポストフィルタ 8 ⋯ 入力ピッチ系列 ターゲットピッチ系列 STFT位相
STFT 𝒚 𝑡𝑔𝑡 ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ 𝑈[−𝟏, 𝟏) ⋯ ⋯ ⋯ 𝑺𝑖𝑛 ⋯ ランダムノイズ ISTFT 𝑺 𝑡𝑔𝑡𝑺 𝑜𝑢𝑡 変動ピッチ系列 𝒔𝑖𝑛(1) 𝒔𝑖𝑛(𝑇′)𝒔 𝑜𝑢𝑡(1) 𝒔 𝑜𝑢𝑡(𝑇′) 𝒚𝑖𝑛 入力 F0 包絡 変動 F0 包絡 ターゲット F0 包絡 モーメントを 揃える [Tamaru+, ICASSP 2019]
9.
/14 繰り返し歌唱データベースを用いた学習 合成歌声に対するポストフィルタリング [Tamaru+,
2019] – 入力: 合成歌声,ターゲット: 自然歌声 ユーザ歌唱に対するポストフィルタリング (本発表) – 上の手法は使えない → 繰り返し歌唱データベースが必要 – 入力: ある録音,ターゲット: 別の録音 – すべての (入力,ターゲット) の組み合わせを用いる 9
10.
/14 ADT における信号処理の替わりに,GMMN
ポストフィルタを使用 Neural double-tracking (NDT) 10 スペクトル 有声/無声 F0 F0’ 学習された自然なランダム性を用いて原音を変調し 自然な重ね録り感を得る ポストフィルタ vocoder 分析 vocoder 合成 NDT 音原音 変調音 ランダムノイズ [Tamaru+, ICASSP 2019]
11.
/14 実験条件 11 繰り返し歌唱データベース HTS の童謡から
17 曲を男性 4 名が 5 回ずつ メトロノーム・見本に合わせて歌唱 学習データ/テストデータ 14 曲 (12 分 6 秒) / 3 曲 (1 分 24 秒) サンプリング周波数 16 kHz 音声特徴量抽出・波形合成 WORLD [Morise+, 2016] (F0 抽出以外), STRAIGHT [Kawahara+, 2001] (F0 抽出) 音声特徴量 スペクトル包絡,band-aperiodicity, 有声/無声 F0 包絡成分 1次の変調スペクトル (MS) [Takamichi+, 2016] MS 計算時の STFT ハニング窓 480 ms,セグメントシフト 240 ms ノイズ 10次元,一様分布 GMMN Feed-Forward (詳細は論文参照)
12.
/14 実験条件 (cont’d) 評価する手法
評価方法 – クラウドソーシングサービス上で,100 人を対象 – 重ね録り感 (2 回歌って多重録音したような感じであるか) を 5 段階 mean opinion score (MOS) で評価 提示サンプル – フレーズ的にキリの良い位置で,サンプルを手動分割 – 短い (平均 4.9 s) サンプルの結果を示す (長いサンプルは論文参照) 12 ADT ピッチ系列を正弦波変調してミックス NDT (SD) 提案手法 (歌唱者依存) 1 人の歌唱者で学習・テスト NDT (SI) 提案手法 (不特定歌唱者) 複数の歌唱者で学習・オープンな歌唱者でテスト DT 2 個の録音をミックス
13.
/14 重ね録り感の評価スコア 13 𝑝 値 0.566
14.
/14 まとめと今後の予定 背景 – DT
は難しく,ADT は不自然 – ADT よりも自然な重ね録り感を付与する人工的手法を作りたい 提案法 – GMMN に基づくランダム変調ポストフィルタと,繰り返し歌唱 データベースを用いた NDT – ランダム性を学習することで,自然な重ね録り感を付与 評価結果 – NDT は従来の ADT より自然な重ね録り感を付与 – SI モデルも頑健に動作 今後の予定 – スペクトルや歌唱タイミング・音符を伸ばす長さの変動に拡張 14
15.
/1415
Download