Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

音声合成・変換の国際コンペティションへの 参加を振り返って

FIT 2019

Related Books

Free with a 30 day trial from Scribd

See all
  • Be the first to comment

音声合成・変換の国際コンペティションへの 参加を振り返って

  1. 1. 09/03/2019©Shinnosuke Takamichi, The University of Tokyo 音声合成・変換の国際コンペティションへの 参加を振り返って 高道 慎之介 (東京大学 大学院情報理工学系研究科) FIT2019 企画セッション「コンペの覇者」招待講演
  2. 2. /13 自己紹介  名前 – 高道 慎之介 (たかみち しんのすけ)  経歴 – 2009年 熊本電波高専 電子工学科 卒業 … 半導体など – 2011年 長岡技科大 工学部 卒業 … 立体音響など – 2016年 奈良先端大 博士課程 修了 … 音声合成など – 2016年~ 東京大学 助教 (2018年まで特任助教)  専門 – 統計的音声合成・変換など 2
  3. 3. /13 私が参加した国際コンペ (学生時代の仕事ですが…) 3 テキスト音声合成の国際コンペ Blizzard Challenge 2015 合成音声の自然性に関して世界最高スコア 音声変換の国際コンペ Voice Conversion Challenge 2016 合成音声の話者再現度に関して世界最高スコア 正確には品質を競う「コンペ」ではなく 同じ学習データで作られたシステムを比較する「ワークショップ」 [Takamichi15] [Kobayashi16]
  4. 4. /13 私の研究グループの目標 4 音声変換 音声合成 全ての人間・計算機が 身体・文化・時間を超えて 音声でコミュニケーション できる社会を目指して
  5. 5. /13 DNN-based real-time voice conversion 5 https://www.youtube.com/watch?v=P9rGqoYnfCg [Arakawa19] リアルタイム (0.05sec) で特定の他者になれるボイスチェンジャ 更に… https://www.youtube.com/watch?v=vFSHxn_G2iQ
  6. 6. /13 Blizzard Challenge 2015 のタスク 6 https://www.synsig.org/index.php/Blizzard_Challenge_2015 インド6言語の音声合成.合成音声を提出して評価.
  7. 7. /13 Voice Conversion Challenge 2016 のタスク 7 http://vc-challenge.org/vcc2016/index.html 英語音声の変換.5×5話者の変換音声を提出して評価.
  8. 8. /13 変調スペクトル:両コンペで使用した手法 8 人間のような「声のゆらぎ」を再現すればいいんじゃね? 必ず同じ音を出そうとする 同じ音を出すのは無理(=声はゆらぐ!) あーー あーー 音声特徴量時系列のパワースペクトル (=変調スペクトル)を補償すればよい! [Takamichi16]
  9. 9. /13 音声サンプル 9 Language w/o MS w/ MS Bengali Hindi Malayalam Marathi Tamil Telugu
  10. 10. /13 感想  良い点①:自分の実力を国際的に示すことができた – D2~D3頃の成果だったので,就活やアカデミック活動に役立った – 自分の国際的な位置を確かめられる  良い点②:仮に上位になれなかったとしても失うものは無い – 学生の特権.社会人になると(若干)参加しづらくなる  大変だった点①:インドの言語が分からない – 1週間くらい,wikipedia や辞書とにらめっこ  大変だった点②:タスク選びは慎重に – データ量とDNNでゴリ押しすれば勝ててしまうタスクもある – 得られるものがあるかを事前に確かめて 10
  11. 11. /13 あの著者らは今 (当時は全員,奈良先端大) 11 高道 慎之介 (東京大学) 小林 和弘 (TARVO) 田中 宏 (NTT CS研) 戸田 智基 (名古屋大学) http://www.kecl.ntt.co.jp/people/tanaka.ko/ https://sites.google.com/site/tomokitoda/ https://tarvo.co.jp 発声障害補助・音声信号処理の 研究に従事 音声合成変換・コミュニケー ション拡張の研究に従事 音声・音楽・音環境情報処理の 研究に従事 リアルタイム変換に基づく 事業を展開 *VCC論文の 第一著者 *BC論文の 第一著者
  12. 12. /13 今すぐ始める音声合成・変換  ツール:ESPnet – End-to-End型音声処理のためのツールキット – 最先端ニューラルネット (WaveNetなど) もある  音声合成用データ:JSUTコーパス [Sonobe17] – 単一話者による10時間日本語読み上げ音声 • WaveNet (2016) のデータ量に比肩 – End-to-end型音声合成でも動く [Ueno19] – 60か国以上からダウンロード実績あり  音声変換用データ:JVSコーパス [Takamichi19] – 100名のプロ話者による100発話など – 読み上げ音声・ささやき声・裏声 12 研究用の大規模・ 高品質データを 誰でも利用可能
  13. 13. /13 まとめ  音声合成・変換コンペの参加報告  この数年で,音声研究への参入の壁がぐっと低くなった – 私の参加した2015, 2016年頃は,音声工学的アプローチで勝てた – 近年は,深層学習的アプローチが必須  特に,学生さんのコンペ参加をお勧めします! – ただし,タスク選びと色んなバランスは大事に… 13

×