JVS：フリーの日本語多数話者音声コーパス

10/11/2019©Shinnosuke Takamichi,
The University of Tokyo
JVS：フリーの日本語多数話者音声コーパス
高道慎之介・三井健太郎・齋藤佑樹
郡山知樹・丹治尚子・猿渡洋
(東京大学)
SLP研究会10月

/19
概要
 背景：機械学習としての音声合成
– 国・身分を超えて日本語音声合成を構築可能に
– 誰でもアクセスできる大規模高品質音声コーパスが必要
• しかし，そのような合成用日本語コーパスがなかった
 公開済みコーパス：JSUT [Sonobe&Takamichi17]
– End-to-end日本語テキスト音声合成用
– 単一話者による10時間読み上げ音声
 本発表のコーパス：JVS
– 音声変換・話者モデリング用
– 100名の話者による30時間・3スタイル音声
2
本発表ではコーパス設計とスペックを紹介

/19
今すぐダウンロードできます
3
JVSコーパス

JSUT
(Japanese speech corpus of Saruwatari lab, the University of Tokyo)
[Sonobe&Takamichi17]
4

/19
JSUTコーパス
 End-to-Endテキスト音声合成の隆盛
– Tacotron [Wang17] の登場(2017/09)
– 日本語でも研究されるように [Ueno19]
 JSUTコーパス [Sonobe&Takamichi17]
– End-to-End音声合成に向けたコーパス設計
– 東京大学内無響室における長期 (2017/02~2017/10) 収録
 特徴
– 従来のような中間表現(例：音素)のカバレッジではなく，
日本語の常用漢字の読みを全てカバーするように設計
– 単一話者による大量(10.5時間)・高品質(48kHz)の発話
• 参考：英語 WaveNet [Oord16] の学習データは17時間・16kHz
5

/19
JSUTコーパスに含まれるサブコーパス
6
[Sonobe&Takamichi17]
countersuffix26
数詞の読みを変える助数詞を含む文
loanword128
外来語由来の動詞・名詞を含む文
basic5000
常用漢字の音読み・訓読みをカバー
utparaphrase512
同じ意味の文に言い換え（平易化）
onomatopee300
オノマトペを含む文
repeat500
同じ文を繰り返し発話
voiceactress100
感情音声コーパスとのパラレル発話
travel1000/precedent138
旅行会話・判例文ドメイン
各サブコーパスの数字は発話数

/19
2017年10月からの利用経歴
 60か国・6,000回以上アクセス．End-to-End音声合成でも
利用されるように[Ueno19]
– EPSnet にJSUT専用レシピあり
7
国全体に対する割合[%]
日本 76.0
アメリカ 4.97
韓国 3.33
中国 2.76
ベトナム 2.14
台湾 1.74
インド 0.92
イギリス 0.88

JVS
(Japanese versatile speech)
8

/19
JVSコーパスの目的
 音声変換・話者モデリングへの注目
– 音声VR (virtual reality)など
– 合成音声品質の向上に伴い，インタラクション技術としても期待
 JVSコーパス
– 音声変換・話者モデリングに向けたコーパス設計
– プロ音響監督の監督下のもとスタジオ収録
9

/19
JVSコーパスの特徴
 高品質：24 kHzサンプリング・スタジオ収録・非圧縮 (wav)
 多話者：100名のプロ話者 (声優・俳優など)
 多スタイル：読み上げ音声・ささやき声・裏声
 大規模：合計で30時間 (読み上げ音声だけだと26時間)
 タグ：テキスト・性別・F0レンジ・話者間類似度
 研究用途では無償：学術機関のみならず民間企業でも利用可能
10

/19
JVSコーパスのディレクトリ構成
 jvs001/
– parallel100/
– nonpara30/
– whisper10/
– falsetto10/
 jvs002/
 …
 jvs100/
 speaker_similarity_{male,female}.csv
 duration.txt
 gender_f0range.txt
11
jvs001~jvs100の100話者
話者毎に4つのサブコーパス
(数字は発話数)
タグ

/19
4つのサブコーパス
12
parallel100
• 全話者共通の音素バランス100文の読み上げ
• 通常の音声変換などに利用可能
nonpara30
• 話者別の30文の読み上げ
• ノンパラレル音声変換など，parallel100より現実的な設定
whisper10
• 全話者共通5文・話者別5文のささやき声
• 10発話が読み上げ音声とパラレル
falsetto10
• 全話者共通5文・話者別5文の裏声
• 10発話が読み上げ音声とパラレル，5発話がささやき声とパラレル
jvs001 jvs010

/19
タグ
 F0レンジ (gender_f0range.txt)
– F0抽出時のF0探索レンジの設定は，音声分析結果に強く影響
– 読み上げ音声を元に，各話者のF0レンジ (最小値・最大値) を付与
 話者間類似度 (speaker_similarity_*.csv)
– 話者間の知覚的類似度は話者選択に有用 [Lanchantin14]
– 齋藤らの研究 [Saito19] を参考に，各性別の全話者組み合わせに
対して，知覚的類似度を付与する主観評価を実施 (後述)
 継続長 (duration.txt)
– 各話者・各サブコーパスのデータサイズを保存 (後述)
– 音素レベルの継続長は別途保存
13

/19
分析条件
(使用したツールは論文参照)
15
話者プロ話者100名 (男49名・女51名)
サンプリング周波数 24 kHz
音声ファイル形式 RIFF WAV
音素ラベル生成自動
音素アライメント自動
F0レンジ手動
話者間類似度の評価者 1,000名

/19
話者毎の継続長
16
・読み上げ音声：26.4時間 (parallel100 + nonpara30)
・それ以外：4.0時間 (whisper10 + falsetto10)
・同一文 (parallel100) でも継続長は最大1.8倍違う (jvs020&084)
最短 [分] 平均 [分] 最長 [分]
合計 (100話者)
[時間]
parallel100 10.11 (jvs020) 13.11 18.24 (jvs084) 22
nonpara30 2.12 (jvs099) 2.62 3.86 (jvs036) 4.4
whisper10 0.95 (jvs045) 1.24 1.69 (jvs018) 2.0
falsetto10 0.90 (jvs045) 1.18 1.61 (jvs035) 2.0

/19
女性51名の主観的話者間類似度
17
-3: 全く似ていない ~ 3: 非常に似ている
3
-3
002
004
007
008
010
014
015
016
017
018
jvs
最も似ている話者対： jvs019 & jvs096
最も誰とも似ていない話者： jvs010

/19
まとめとライセンス
 JVSコーパス
– 100人のプロ話者による30時間の音声コーパス
 ライセンス
– テキスト：JSUTコーパスを参照
– タグ：CC BY-SA 4.0
– 音声：以下の場合に限り使用可能
• アカデミック機関での研究
• 非商用目的の研究 (営利団体での研究も含む)
• 個人での利用 (ブログなどを含む)
– 商用については別途契約 (有償)
18

/19
予告 (変更の場合あり)
 1. 学術機関に限り48kHz版を提供予定
 2. 100人分の歌声も公開予定
19
jvs001

JVS：フリーの日本語多数話者音声コーパス

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to JVS：フリーの日本語多数話者音声コーパス

Similar to JVS：フリーの日本語多数話者音声コーパス (10)

More from Shinnosuke Takamichi

More from Shinnosuke Takamichi (20)

Recently uploaded

Recently uploaded (10)

JVS：フリーの日本語多数話者音声コーパス