More Related Content
More from Shinnosuke Takamichi (20)
人間を利用する音声言語処理の試み(NL研究会 招待講演)
- 2. /30
自己紹介
経歴
– 2009年 熊本電波高専 電子工学科 卒業
– 2011年 長岡技科大 工学部 卒業
– 2016年 奈良先端大 博士課程 修了 (中村研)
• NAIST中村先生・松本先生,CMU グラム先生…がD論審査委員
– 2016年~ 東京大学 猿渡・小山研 助教 (2018年まで特任助教)
• IPSJ関連だと推薦博士論文(2016)・山下記念賞(2020)など
専門
– 音声情報処理・統計的音声合成変換など
2
- 9. /30
クラウドソーシング対訳方言コーパスと
方言音声合成
9
Iyo, Aawa, Tosa
Iwaki, Saitama
Izumo, Hiroshima, Okayama
Fukuoka, Miyazaki,
Morokata
Kanazawa, Fukui,
Osaka, Nara,
Kyoto, Kyo-kotoba
Hokkaido, Tsugaru, Akita
Common language
合成音声 (話者は東京方言話者)
自然音声 (宮崎弁ネイティブ話者)
[Takamichi18][Akiyama18]
- 12. /30
背景
研究における資源
– 計算資源:CPU ,GPU,TPU,(量子コンピュータ) …
– 人的資源:クラウドソーシング
音声研究における人的資源の活用
– 聴覚・経験・環境などで変化する音声の感性評定
– 人間に尋ねないと分からないことが多々ある
→ 大量のデータではなく,大量の人間で解決できる問題
本発表では,音声研究における我々の試みを紹介
– 話者埋め込み (speaker embedding) の学習
– 敵対的生成ネットワーク (GAN) の学習
12
- 22. /30
実在データ分布と知覚分布
GAN (敵対的生成ネットワーク) [Goodfellow14]
– 複雑な確率分布を表現する深層生成モデル
– 実在データ(学習データ)と生成データを識別する識別器を騙して学習
人間が許容できるのは実在データ分布だけか?
– 人間はメディアの逸脱に対して許容範囲を持つ
• 例:ボイスチェンジャで非実在の音声を作っても,我々はそれに
人格を認めることができる
– GANではこの範囲を表現できない
– 人間を騙せばよいのでは.
22
人間の許容できるデータの範囲 (=知覚分布) を
表現できるGANは作れるか?
- 30. /30
まとめと今後の展望
まとめ:人間を活用した音声研究
– 話者埋め込みにおける利用
– 敵対的生成ネットワークにおける利用
今後の展望
– Human-in-the-loop 深層学習の進化
– 総務省SCOPE「ストレスフリーリアルタイム音声変換」(2019~)
• ボイスチェンジ音声をユーザにリアルタイムフィードバックして
「自分の聴く自分の声」を制御,人間の制御へ
30
JVSコーパス
100名の声優・俳優さんによる音声コーパス.テキスト・話者間類似度付き.
End-to-end音声処理ツール ESPnet にレシピあり.