音声合成・変換の国際コンペティションへの参加を振り返って

09/03/2019©Shinnosuke Takamichi,
The University of Tokyo
音声合成・変換の国際コンペティションへの
参加を振り返って
高道慎之介
（東京大学大学院情報理工学系研究科）
FIT2019 企画セッション「コンペの覇者」招待講演

/13
自己紹介
 名前
– 高道慎之介 (たかみちしんのすけ)
 経歴
– 2009年熊本電波高専電子工学科卒業 … 半導体など
– 2011年長岡技科大工学部卒業 … 立体音響など
– 2016年奈良先端大博士課程修了 … 音声合成など
– 2016年～東京大学助教 (2018年まで特任助教)
 専門
– 統計的音声合成・変換など
2

/13
私が参加した国際コンペ
(学生時代の仕事ですが…)
3
テキスト音声合成の国際コンペ
Blizzard Challenge 2015
合成音声の自然性に関して世界最高スコア
音声変換の国際コンペ
Voice Conversion Challenge 2016
合成音声の話者再現度に関して世界最高スコア
正確には品質を競う「コンペ」ではなく
同じ学習データで作られたシステムを比較する「ワークショップ」
[Takamichi15]
[Kobayashi16]

/13
私の研究グループの目標
4
音声変換
音声合成
全ての人間・計算機が
身体・文化・時間を超えて
音声でコミュニケーション
できる社会を目指して

/13
DNN-based real-time voice conversion
5
https://www.youtube.com/watch?v=P9rGqoYnfCg
[Arakawa19]
リアルタイム (0.05sec) で特定の他者になれるボイスチェンジャ
更に… https://www.youtube.com/watch?v=vFSHxn_G2iQ

/13
Blizzard Challenge 2015 のタスク
6
https://www.synsig.org/index.php/Blizzard_Challenge_2015
インド6言語の音声合成．合成音声を提出して評価．

/13
Voice Conversion Challenge 2016 のタスク
7
http://vc-challenge.org/vcc2016/index.html
英語音声の変換．5×5話者の変換音声を提出して評価．

/13
変調スペクトル：両コンペで使用した手法
8
人間のような「声のゆらぎ」を再現すればいいんじゃね？
必ず同じ音を出そうとする
同じ音を出すのは無理（＝声はゆらぐ！）
あーー
あーー
音声特徴量時系列のパワースペクトル
(=変調スペクトル)を補償すればよい！
[Takamichi16]

/13
音声サンプル
9
Language w/o MS w/ MS
Bengali
Hindi
Malayalam
Marathi
Tamil
Telugu

/13
感想
 良い点①：自分の実力を国際的に示すことができた
– D2~D3頃の成果だったので，就活やアカデミック活動に役立った
– 自分の国際的な位置を確かめられる
 良い点②：仮に上位になれなかったとしても失うものは無い
– 学生の特権．社会人になると(若干)参加しづらくなる
 大変だった点①：インドの言語が分からない
– 1週間くらい，wikipedia や辞書とにらめっこ
 大変だった点②：タスク選びは慎重に
– データ量とDNNでゴリ押しすれば勝ててしまうタスクもある
– 得られるものがあるかを事前に確かめて
10

/13
あの著者らは今 (当時は全員，奈良先端大)
11
高道慎之介 (東京大学) 小林和弘 (TARVO)
田中宏 (NTT CS研) 戸田智基 (名古屋大学)
http://www.kecl.ntt.co.jp/people/tanaka.ko/ https://sites.google.com/site/tomokitoda/ https://tarvo.co.jp
発声障害補助・音声信号処理の
研究に従事
音声合成変換・コミュニケー
ション拡張の研究に従事
音声・音楽・音環境情報処理の
研究に従事
リアルタイム変換に基づく
事業を展開
*VCC論文の
第一著者
*BC論文の
第一著者

/13
今すぐ始める音声合成・変換
 ツール：ESPnet
– End-to-End型音声処理のためのツールキット
– 最先端ニューラルネット (WaveNetなど) もある
 音声合成用データ：JSUTコーパス [Sonobe17]
– 単一話者による10時間日本語読み上げ音声
• WaveNet (2016) のデータ量に比肩
– End-to-end型音声合成でも動く [Ueno19]
– 60か国以上からダウンロード実績あり
 音声変換用データ：JVSコーパス [Takamichi19]
– 100名のプロ話者による100発話など
– 読み上げ音声・ささやき声・裏声
12
研究用の大規模・
高品質データを
誰でも利用可能

/13
まとめ
 音声合成・変換コンペの参加報告
 この数年で，音声研究への参入の壁がぐっと低くなった
– 私の参加した2015, 2016年頃は，音声工学的アプローチで勝てた
– 近年は，深層学習的アプローチが必須
 特に，学生さんのコンペ参加をお勧めします！
– ただし，タスク選びと色んなバランスは大事に…
13

音声合成・変換の国際コンペティションへの 参加を振り返って

More Related Content

What's hot

More from Shinnosuke Takamichi

Recently uploaded