Home
Explore
Submit Search
Upload
Login
Signup
Advertisement
Check these out next
DNN音声合成のための Anti-spoofing を考慮した学習アルゴリズム
Yuki Saito
Phonetic Posteriorgrams for Many-to-One Voice Conversion without Parallel Dat...
KCS Keio Computer Society
ICASSP2019音声&音響論文読み会 論文紹介(認識系)
貴史 益子
音声認識の基礎
Akinori Ito
ICASSP2019 音声&音響論文読み会 著者紹介2 (信号処理系2)
KoueiYamaoka
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元
NU_I_TODALAB
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム
Shinnosuke Takamichi
論文紹介: Direct-Path Signal Cross-Correlation Estimation for Sound Source Locali...
KoueiYamaoka
1
of
13
Top clipped slide
miyoshi2017asj
Mar. 17, 2017
•
0 likes
0 likes
×
Be the first to like this
Show More
•
554 views
views
×
Total views
0
On Slideshare
0
From embeds
0
Number of embeds
0
Download Now
Download to read offline
Report
Science
ASJ 2017 seq2seq vc
Yuki Saito
Follow
Advertisement
Advertisement
Advertisement
Recommended
miyoshi17sp07
Yuki Saito
1.1K views
•
23 slides
saito2017asj_tts
Yuki Saito
516 views
•
17 slides
SLP201805: 日本語韻律構造を考慮した prosody-aware subword embedding とDNN多方言音声合成への適用
Shinnosuke Takamichi
1.3K views
•
25 slides
日本語音声合成のためのsubword内モーラを考慮したProsody-aware subword embedding
Shinnosuke Takamichi
1.1K views
•
13 slides
日本音響学会2017秋 ”クラウドソーシングを利用した対訳方言音声コーパスの構築”
Shinnosuke Takamichi
1.6K views
•
14 slides
saito2017asj_vc
Yuki Saito
697 views
•
13 slides
More Related Content
Slideshows for you
(19)
DNN音声合成のための Anti-spoofing を考慮した学習アルゴリズム
Yuki Saito
•
2.1K views
Phonetic Posteriorgrams for Many-to-One Voice Conversion without Parallel Dat...
KCS Keio Computer Society
•
9.2K views
ICASSP2019音声&音響論文読み会 論文紹介(認識系)
貴史 益子
•
2.6K views
音声認識の基礎
Akinori Ito
•
35.8K views
ICASSP2019 音声&音響論文読み会 著者紹介2 (信号処理系2)
KoueiYamaoka
•
1.4K views
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元
NU_I_TODALAB
•
890 views
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム
Shinnosuke Takamichi
•
1.6K views
論文紹介: Direct-Path Signal Cross-Correlation Estimation for Sound Source Locali...
KoueiYamaoka
•
535 views
日本語スピーキングテストSJ-CATの開発
Ken IshiKen
•
2.9K views
音声の声質を変換する技術とその応用
NU_I_TODALAB
•
8.7K views
音声合成の基礎
Akinori Ito
•
17K views
Saito21asj Autumn Meeting
Yuki Saito
•
238 views
[DL輪読会]Wavenet a generative model for raw audio
Deep Learning JP
•
25.9K views
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
Shinnosuke Takamichi
•
54.3K views
短時間発話を用いた話者照合のための音声加工の効果に関する検討
Shinnosuke Takamichi
•
931 views
Nakai22sp03 presentation
Yuki Saito
•
237 views
音声信号の分析と加工 - 音声を自在に変換するには?
NU_I_TODALAB
•
2.7K views
Saito19asj_s
Yuki Saito
•
488 views
差分スペクトル法に基づくDNN声質変換のためのリフタ学習およびサブバンド処理
Takaaki Saeki
•
699 views
More from Yuki Saito
(20)
hirai23slp03.pdf
Yuki Saito
•
40 views
Interspeech2022 参加報告
Yuki Saito
•
436 views
fujii22apsipa_asc
Yuki Saito
•
42 views
nakai22apsipa_presentation.pdf
Yuki Saito
•
38 views
saito22research_talk_at_NUS
Yuki Saito
•
45 views
Neural text-to-speech and voice conversion
Yuki Saito
•
977 views
Nishimura22slp03 presentation
Yuki Saito
•
266 views
GAN-based statistical speech synthesis (in Japanese)
Yuki Saito
•
890 views
Saito2103slp
Yuki Saito
•
237 views
Interspeech2020 reading
Yuki Saito
•
169 views
Saito20asj_autumn
Yuki Saito
•
381 views
ICASSP読み会2020
Yuki Saito
•
689 views
Saito20asj s slide_published
Yuki Saito
•
600 views
Saito19asjAutumn_DeNA
Yuki Saito
•
1.2K views
Deep learning for acoustic modeling in parametric speech generation
Yuki Saito
•
759 views
Une18apsipa
Yuki Saito
•
422 views
Saito18sp03
Yuki Saito
•
1.1K views
Saito18asj_s
Yuki Saito
•
341 views
Saito17asjA
Yuki Saito
•
564 views
釧路高専情報工学科向け進学説明会
Yuki Saito
•
931 views
Advertisement
Recently uploaded
(20)
留学生案例《新学院学位毕业证书和学士文凭》
uijn12a
•
2 views
☀️【南达科他大学毕业证成绩单留学生首选】
2125nuh
•
2 views
★可查可存档〖制作东伦敦大学文凭证书毕业证〗
mmmm282537
•
3 views
《威斯康星大学绿湾分校毕业证|学位证书校内仿真版本》
d520dasw12
•
2 views
《威得恩大学毕业证|学位证书校内仿真版本》
w124dsa
•
3 views
在哪里可以做《怀俄明大学文凭证书|毕业证》
lobd15
•
2 views
留学生案例《犹他大学学位毕业证书和学士文凭》
uijn12a
•
2 views
留信网认证可查【奥克兰商学院文凭证书毕业证购买】
ihh14ds
•
2 views
☀️《USD毕业证仿真》
hjhgg
•
2 views
《林肯大学毕业证|学位证书校内仿真版本》
w124dsa
•
2 views
在哪里可以做《利兹贝克特大学文凭证书|毕业证》
25ds12d
•
3 views
☀️《Sunderland毕业证仿真》
DAS54SA
•
2 views
在哪里可以做《堪萨斯大学文凭证书|毕业证》
lobd15
•
2 views
留学生案例《卡内基梅隆大学学位毕业证书和学士文凭》
15sdasd
•
2 views
Promotion of Migration from Urban to Local Areas in Mongolia
Kunio Minato
•
55 views
在哪里可以做《田纳西大学文凭证书|毕业证》
20das12
•
2 views
☀️《Durham毕业证仿真》
fggg13
•
2 views
☀️《怀卡托大学毕业证仿真》
hjhgg1
•
2 views
留学生案例《利兹大学学位毕业证书和学士文凭》
36dsahj
•
2 views
☀️【杜克大学毕业证成绩单留学生首选】
25kihn123
•
2 views
miyoshi2017asj
1 ⽇日本⾳音響学会 2017年年春季研究発表会 講演番号: 1-‐‑‒6-‐‑‒15 コンテキスト事後確率率率の Sequence-‐‑‒to-‐‑‒Sequence学習を⽤用いた ⾳音声変換 2017/3/15 ☆
三好 裕之(東⼤大),齋藤 佑樹, ⾼高道 慎之介,猿渡 洋(東⼤大院・情報理理⼯工)
本発表の概要 1/12⽇日本⾳音響学会 春季研究発表会 2017/3/15 Ø
テキスト⾮非依存⾳音声変換:テキストを必要とせず,⾳音声特徴量量を変換 ⾼高精度度な変換が可能 だが ⾳音声の同⼀一発話内容のパラレルデータが必要 n ⾳音声変換の⼿手法 Ø テキスト依存⾳音声変換:テキストを経由し変換(⾳音声認識識と⾳音声合成) パラレルデータが不不要 だが 時間の量量⼦子化などにより変換精度度は低い ⾳音声から推定されるテキストの事後確率率率を経由して⾳音声変換を⾏行行う⼿手法 パラレルデータが不不要かつ時間の量量⼦子化を緩和 だが コンテキスト事後確率率率を複写するため,話速や⾳音韻性の変換は困難 n 従来法:コンテキスト事後確率率率の複写に基づく⾳音声変換 [Sun et al., 2016] n 提案法:コンテキスト事後確率率率の Sequence-‐‑‒to-‐‑‒Sequence 変換 部分的に含まれるパラレルデータを利利⽤用することで,事後確率率率を変換 → 話速や⾳音韻性の変換が可能 [Kain et al., 1998] [Toda et al., 2007]
従来の⾳音響モデル学習: コンテキスト事後確率率率の複写に基づく⾳音声変換 [Sun et
al., 2016] 2/12⽇日本⾳音響学会 春季研究発表会 2017/3/15 n 学習時 n 変換時 あ ら ゆ る LSTM time ⼊入⼒力力 ⾳音声特徴量量 ⾳音声認識識 コンテキスト 事後確率率率 す べ て 出⼒力力 ⾳音声特徴量量 LSTM ⾳音声合成 コンテキスト事後確率率率 各時間の事後確率率率を 濃淡で表現 0 1 LSTM time ⼊入⼒力力 ⾳音声特徴量量 コンテキスト 事後確率率率 予測 ⾳音声特徴量量 LSTM copy げ ん じ つ あ ら ゆ る time
従来の⾳音響モデル学習の問題点 (コンテキスト事後確率率率の違い) 3/12⽇日本⾳音響学会 春季研究発表会 2017/3/15 コンテキスト事後確率率率を複写するため, ⾳音韻性,話速の変換に対応できない ⾳音韻性が異異なる 話速が異異なる
解決⽅方法:コンテキスト事後確率率率の可変⻑⾧長変換 4/12⽇日本⾳音響学会 春季研究発表会 2017/3/15 ⼊入⼒力力コンテキスト事後確率率率から出⼒力力コンテキスト事後確率率率への可変⻑⾧長変換を⾏行行う. →
従来法の問題点である⾳音韻性や話速の問題点を解決 ?? LSTM LSTM ⼊入⼒力力 ⾳音声特徴量量 コンテキスト 事後確率率率 出⼒力力 ⾳音声特徴量量
提案する⼿手法 5/12⽇日本⾳音響学会 春季研究発表会 2017/3/15 コンテキスト事後確率率率の Sequence-‐‑‒to-‐‑‒Sequence
学習を⽤用いた⾳音声変換
制約 Sequence-‐‑‒to-‐‑‒Sequence 変換 6/12⽇日本⾳音響学会 春季研究発表会
2017/3/15 Ø コンテキスト事後確率率率の Sequence-‐‑‒to-‐‑‒Sequence 変換 ー ⼊入⼒力力コンテキスト事後確率率率から出⼒力力コンテキスト事後確率率率への変換の問題点 ・⽣生成するフレーム数が⼤大きい場合,変換の失敗が伝播 [Wang et al., 2016] ・継続⻑⾧長(フレーム数)の決定が困難 n コンテキスト事後確率率率の変換単位は⾳音素ごと n コンテキスト事後確率率率の継続⻑⾧長は 既知(出⼒力力系列列の⻑⾧長さを決めておく) ⾬雨 が 降降る It rains⼊入⼒力力系列列 出⼒力力系列列 Ø Sequence-‐‑‒to-‐‑‒Sequence 変換:可変⻑⾧長変換を可能にする変換⼿手法 Ø 系列列変換の中で最も単純な encoder-‐‑‒decoder モデル[Ilya et al., 2014]:
提案⼿手法:コンテキスト事後確率率率の Sequence-‐‑‒to-‐‑‒Sequence 学習に基づく⾳音声変換 7/12⽇日本⾳音響学会 春季研究発表会
2017/3/15 ⾳音声のパラレルデータが部分的に含まれると想定し,その事後確率率率を可変⻑⾧長変換 LSTM LSTM ⼊入⼒力力 ⾳音声特徴量量 コンテキスト 事後確率率率 出⼒力力 ⾳音声特徴量量 ⾳音声認識識 Sequence-‐‑‒to-‐‑‒Sequence 変換 ⾳音声合成 (学習のコスト関数) = (変換誤差) + (⽬目標⾳音素との分類誤差)
コンテキスト事後確率率率変換の例例 8/12⽇日本⾳音響学会 春季研究発表会 2017/3/15 変換を 学習 0 1 コンテキスト事後確率率率の 可変⻑⾧長変換が可能 ⼊入⼒力力 コンテキスト事後確率率率 出⼒力力 コンテキスト事後確率率率 フレーム Sequence-‐‑‒to-‐‑‒Sequence後の コンテキスト事後確率率率
実験条件 9/12⽇日本⾳音響学会 春季研究発表会 2017/3/15 ⼊入出⼒力力話者
⼊入⼒力力:⽇日本⼈人⼥女女性,出⼒力力:⽇日本⼈人男性 (話速の⼤大きく異異なる話者を選択) データセット ATR ⾳音素バランス503⽂文 (16 kHz サンプリング) 学習 / 評価データ AーI セット 450⽂文 × 8⼈人 / Jセット 53⽂文 スペクトル特徴量量 24次元のメルケプストラムと動的特徴量量(合計72次元) コンテキスト 224次元 (quin-‐‑‒phone) ⾳音声認識識のコスト関数は先⾏行行・当該・後続⾳音素グループ毎の cross-‐‑‒entropy の和 ⾳音声認識識モデル Bidirectional LSTM ,出⼒力力層の活性化関数は softmax ⾳音声合成モデル Bidirectional LSTM ,出⼒力力層の活性化関数は線形関数 事後確率率率変換モデル Bidirectional LSTM (encoder), LSTM (decoder)
実験的評価:客観的指標 10/12⽇日本⾳音響学会 春季研究発表会 2017/3/15 客観的指標 改善
実験的評価:主観的指標 11/12⽇日本⾳音響学会 春季研究発表会 2017/3/15 改善 劣劣化 主観的指標 ⾳音質劣劣化の原因 事後確率率率変換の際に ⾳音素誤りを散⾒見見 変換元
変換先
結論論 12/12⽇日本⾳音響学会 春季研究発表会 2017/3/15 Ø
コンテキスト事後確率率率に Sequence-‐‑‒to-‐‑‒Sequence 変換を ⽤用いることで,事後確率率率に含まれる話者性の変換を可能にした. Ø コンテキスト事後確率率率の変換により,話者性は向上したが, ⾳音素誤りによる⾳音質の劣劣化に改善の余地がみられた. Ø 事後確率率率変換と,⾳音声認識識・合成の同時最適化を検討して, 上記の問題を解決する.
Advertisement