09/03/2019©Shinnosuke Takamichi,
The University of Tokyo
音声合成・変換の国際コンペティションへの
参加を振り返って
高道 慎之介
(東京大学 大学院情報理工学系研究科)
FIT2019 企画セッション「コンペの覇者」招待講演
/13
自己紹介
 名前
– 高道 慎之介 (たかみち しんのすけ)
 経歴
– 2009年 熊本電波高専 電子工学科 卒業 … 半導体など
– 2011年 長岡技科大 工学部 卒業 … 立体音響など
– 2016年 奈良先端大 博士課程 修了 … 音声合成など
– 2016年~ 東京大学 助教 (2018年まで特任助教)
 専門
– 統計的音声合成・変換など
2
/13
私が参加した国際コンペ
(学生時代の仕事ですが…)
3
テキスト音声合成の国際コンペ
Blizzard Challenge 2015
合成音声の自然性に関して世界最高スコア
音声変換の国際コンペ
Voice Conversion Challenge 2016
合成音声の話者再現度に関して世界最高スコア
正確には品質を競う「コンペ」ではなく
同じ学習データで作られたシステムを比較する「ワークショップ」
[Takamichi15]
[Kobayashi16]
/13
私の研究グループの目標
4
音声変換
音声合成
全ての人間・計算機が
身体・文化・時間を超えて
音声でコミュニケーション
できる社会を目指して
/13
DNN-based real-time voice conversion
5
https://www.youtube.com/watch?v=P9rGqoYnfCg
[Arakawa19]
リアルタイム (0.05sec) で特定の他者になれるボイスチェンジャ
更に… https://www.youtube.com/watch?v=vFSHxn_G2iQ
/13
Blizzard Challenge 2015 のタスク
6
https://www.synsig.org/index.php/Blizzard_Challenge_2015
インド6言語の音声合成.合成音声を提出して評価.
/13
Voice Conversion Challenge 2016 のタスク
7
http://vc-challenge.org/vcc2016/index.html
英語音声の変換.5×5話者の変換音声を提出して評価.
/13
変調スペクトル:両コンペで使用した手法
8
人間のような「声のゆらぎ」を再現すればいいんじゃね?
必ず同じ音を出そうとする
同じ音を出すのは無理(=声はゆらぐ!)
あーー
あーー
音声特徴量時系列のパワースペクトル
(=変調スペクトル)を補償すればよい!
[Takamichi16]
/13
音声サンプル
9
Language w/o MS w/ MS
Bengali
Hindi
Malayalam
Marathi
Tamil
Telugu
/13
感想
 良い点①:自分の実力を国際的に示すことができた
– D2~D3頃の成果だったので,就活やアカデミック活動に役立った
– 自分の国際的な位置を確かめられる
 良い点②:仮に上位になれなかったとしても失うものは無い
– 学生の特権.社会人になると(若干)参加しづらくなる
 大変だった点①:インドの言語が分からない
– 1週間くらい,wikipedia や辞書とにらめっこ
 大変だった点②:タスク選びは慎重に
– データ量とDNNでゴリ押しすれば勝ててしまうタスクもある
– 得られるものがあるかを事前に確かめて
10
/13
あの著者らは今 (当時は全員,奈良先端大)
11
高道 慎之介 (東京大学) 小林 和弘 (TARVO)
田中 宏 (NTT CS研) 戸田 智基 (名古屋大学)
http://www.kecl.ntt.co.jp/people/tanaka.ko/ https://sites.google.com/site/tomokitoda/ https://tarvo.co.jp
発声障害補助・音声信号処理の
研究に従事
音声合成変換・コミュニケー
ション拡張の研究に従事
音声・音楽・音環境情報処理の
研究に従事
リアルタイム変換に基づく
事業を展開
*VCC論文の
第一著者
*BC論文の
第一著者
/13
今すぐ始める音声合成・変換
 ツール:ESPnet
– End-to-End型音声処理のためのツールキット
– 最先端ニューラルネット (WaveNetなど) もある
 音声合成用データ:JSUTコーパス [Sonobe17]
– 単一話者による10時間日本語読み上げ音声
• WaveNet (2016) のデータ量に比肩
– End-to-end型音声合成でも動く [Ueno19]
– 60か国以上からダウンロード実績あり
 音声変換用データ:JVSコーパス [Takamichi19]
– 100名のプロ話者による100発話など
– 読み上げ音声・ささやき声・裏声
12
研究用の大規模・
高品質データを
誰でも利用可能
/13
まとめ
 音声合成・変換コンペの参加報告
 この数年で,音声研究への参入の壁がぐっと低くなった
– 私の参加した2015, 2016年頃は,音声工学的アプローチで勝てた
– 近年は,深層学習的アプローチが必須
 特に,学生さんのコンペ参加をお勧めします!
– ただし,タスク選びと色んなバランスは大事に…
13

音声合成・変換の国際コンペティションへの 参加を振り返って