Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
10/11/2019©Shinnosuke Takamichi,
The University of Tokyo
JVS:フリーの日本語多数話者音声コーパス
高道 慎之介・三井 健太郎・齋藤 佑樹
郡山 知樹・丹治 尚子・猿渡 洋
(東京大学)...
/19
概要
 背景:機械学習としての音声合成
– 国・身分を超えて日本語音声合成を構築可能に
– 誰でもアクセスできる大規模高品質音声コーパスが必要
• しかし,そのような合成用日本語コーパスがなかった
 公開済みコーパス:JSUT [S...
/19
今すぐダウンロードできます
3
JVSコーパス
JSUT
(Japanese speech corpus of Saruwatari lab, the University of Tokyo)
[Sonobe&Takamichi17]
4
/19
JSUTコーパス
 End-to-Endテキスト音声合成の隆盛
– Tacotron [Wang17] の登場(2017/09)
– 日本語でも研究されるように [Ueno19]
 JSUTコーパス [Sonobe&Takamich...
/19
JSUTコーパスに含まれるサブコーパス
6
[Sonobe&Takamichi17]
countersuffix26
数詞の読みを変える助数詞を含む文
loanword128
外来語由来の動詞・名詞を含む文
basic5000
常用漢字...
/19
2017年10月からの利用経歴
 60か国・6,000回以上アクセス.End-to-End音声合成でも
利用されるように[Ueno19]
– EPSnet にJSUT専用レシピあり
7
国 全体に対する割合[%]
日本 76.0
アメ...
JVS
(Japanese versatile speech)
8
/19
JVSコーパスの目的
 音声変換・話者モデリングへの注目
– 音声VR (virtual reality)など
– 合成音声品質の向上に伴い,インタラクション技術としても期待
 JVSコーパス
– 音声変換・話者モデリングに向けたコ...
/19
JVSコーパスの特徴
 高品質:24 kHzサンプリング・スタジオ収録・非圧縮 (wav)
 多話者:100名のプロ話者 (声優・俳優など)
 多スタイル:読み上げ音声・ささやき声・裏声
 大規模:合計で30時間 (読み上げ音声...
/19
JVSコーパスのディレクトリ構成
 jvs001/
– parallel100/
– nonpara30/
– whisper10/
– falsetto10/
 jvs002/
 …
 jvs100/
 speaker_si...
/19
4つのサブコーパス
12
parallel100
• 全話者共通の音素バランス100文の読み上げ
• 通常の音声変換などに利用可能
nonpara30
• 話者別の30文の読み上げ
• ノンパラレル音声変換など,parallel100よ...
/19
タグ
 F0レンジ (gender_f0range.txt)
– F0抽出時のF0探索レンジの設定は,音声分析結果に強く影響
– 読み上げ音声を元に,各話者のF0レンジ (最小値・最大値) を付与
 話者間類似度 (speaker_...
音声収集の結果
14
/19
分析条件
(使用したツールは論文参照)
15
話者 プロ話者100名 (男49名・女51名)
サンプリング周波数 24 kHz
音声ファイル形式 RIFF WAV
音素ラベル生成 自動
音素アライメント 自動
F0レンジ 手動
話者間類...
/19
話者毎の継続長
16
・読み上げ音声:26.4時間 (parallel100 + nonpara30)
・それ以外:4.0時間 (whisper10 + falsetto10)
・同一文 (parallel100) でも継続長は最大1....
/19
女性51名の主観的話者間類似度
17
-3: 全く似ていない ~ 3: 非常に似ている
3
-3
002
004
007
008
010
014
015
016
017
018
jvs
最も似ている話者対: jvs019 & jvs09...
/19
まとめとライセンス
 JVSコーパス
– 100人のプロ話者による30時間の音声コーパス
 ライセンス
– テキスト:JSUTコーパスを参照
– タグ:CC BY-SA 4.0
– 音声:以下の場合に限り使用可能
• アカデミック機...
/19
予告 (変更の場合あり)
 1. 学術機関に限り48kHz版を提供予定
 2. 100人分の歌声も公開予定
19
jvs001
Upcoming SlideShare
Loading in …5
×

of

JVS:フリーの日本語多数話者音声コーパス  Slide 1 JVS:フリーの日本語多数話者音声コーパス  Slide 2 JVS:フリーの日本語多数話者音声コーパス  Slide 3 JVS:フリーの日本語多数話者音声コーパス  Slide 4 JVS:フリーの日本語多数話者音声コーパス  Slide 5 JVS:フリーの日本語多数話者音声コーパス  Slide 6 JVS:フリーの日本語多数話者音声コーパス  Slide 7 JVS:フリーの日本語多数話者音声コーパス  Slide 8 JVS:フリーの日本語多数話者音声コーパス  Slide 9 JVS:フリーの日本語多数話者音声コーパス  Slide 10 JVS:フリーの日本語多数話者音声コーパス  Slide 11 JVS:フリーの日本語多数話者音声コーパス  Slide 12 JVS:フリーの日本語多数話者音声コーパス  Slide 13 JVS:フリーの日本語多数話者音声コーパス  Slide 14 JVS:フリーの日本語多数話者音声コーパス  Slide 15 JVS:フリーの日本語多数話者音声コーパス  Slide 16 JVS:フリーの日本語多数話者音声コーパス  Slide 17 JVS:フリーの日本語多数話者音声コーパス  Slide 18 JVS:フリーの日本語多数話者音声コーパス  Slide 19
Upcoming SlideShare
What to Upload to SlideShare
Next
Download to read offline and view in fullscreen.

1 Like

Share

Download to read offline

JVS:フリーの日本語多数話者音声コーパス

Download to read offline

JVS:フリーの日本語多数話者音声コーパス

Related Books

Free with a 30 day trial from Scribd

See all

Related Audiobooks

Free with a 30 day trial from Scribd

See all

JVS:フリーの日本語多数話者音声コーパス

  1. 1. 10/11/2019©Shinnosuke Takamichi, The University of Tokyo JVS:フリーの日本語多数話者音声コーパス 高道 慎之介・三井 健太郎・齋藤 佑樹 郡山 知樹・丹治 尚子・猿渡 洋 (東京大学) SLP研究会10月
  2. 2. /19 概要  背景:機械学習としての音声合成 – 国・身分を超えて日本語音声合成を構築可能に – 誰でもアクセスできる大規模高品質音声コーパスが必要 • しかし,そのような合成用日本語コーパスがなかった  公開済みコーパス:JSUT [Sonobe&Takamichi17] – End-to-end日本語テキスト音声合成用 – 単一話者による10時間読み上げ音声  本発表のコーパス:JVS – 音声変換・話者モデリング用 – 100名の話者による30時間・3スタイル音声 2 本発表ではコーパス設計とスペックを紹介
  3. 3. /19 今すぐダウンロードできます 3 JVSコーパス
  4. 4. JSUT (Japanese speech corpus of Saruwatari lab, the University of Tokyo) [Sonobe&Takamichi17] 4
  5. 5. /19 JSUTコーパス  End-to-Endテキスト音声合成の隆盛 – Tacotron [Wang17] の登場(2017/09) – 日本語でも研究されるように [Ueno19]  JSUTコーパス [Sonobe&Takamichi17] – End-to-End音声合成に向けたコーパス設計 – 東京大学内無響室における長期 (2017/02~2017/10) 収録  特徴 – 従来のような中間表現(例:音素)のカバレッジではなく, 日本語の常用漢字の読みを全てカバーするように設計 – 単一話者による大量(10.5時間)・高品質(48kHz)の発話 • 参考:英語 WaveNet [Oord16] の学習データは17時間・16kHz 5
  6. 6. /19 JSUTコーパスに含まれるサブコーパス 6 [Sonobe&Takamichi17] countersuffix26 数詞の読みを変える助数詞を含む文 loanword128 外来語由来の動詞・名詞を含む文 basic5000 常用漢字の音読み・訓読みをカバー utparaphrase512 同じ意味の文に言い換え(平易化) onomatopee300 オノマトペを含む文 repeat500 同じ文を繰り返し発話 voiceactress100 感情音声コーパスとのパラレル発話 travel1000/precedent138 旅行会話・判例文ドメイン 各サブコーパスの数字は発話数
  7. 7. /19 2017年10月からの利用経歴  60か国・6,000回以上アクセス.End-to-End音声合成でも 利用されるように[Ueno19] – EPSnet にJSUT専用レシピあり 7 国 全体に対する割合[%] 日本 76.0 アメリカ 4.97 韓国 3.33 中国 2.76 ベトナム 2.14 台湾 1.74 インド 0.92 イギリス 0.88
  8. 8. JVS (Japanese versatile speech) 8
  9. 9. /19 JVSコーパスの目的  音声変換・話者モデリングへの注目 – 音声VR (virtual reality)など – 合成音声品質の向上に伴い,インタラクション技術としても期待  JVSコーパス – 音声変換・話者モデリングに向けたコーパス設計 – プロ音響監督の監督下のもとスタジオ収録 9
  10. 10. /19 JVSコーパスの特徴  高品質:24 kHzサンプリング・スタジオ収録・非圧縮 (wav)  多話者:100名のプロ話者 (声優・俳優など)  多スタイル:読み上げ音声・ささやき声・裏声  大規模:合計で30時間 (読み上げ音声だけだと26時間)  タグ:テキスト・性別・F0レンジ・話者間類似度  研究用途では無償:学術機関のみならず民間企業でも利用可能 10
  11. 11. /19 JVSコーパスのディレクトリ構成  jvs001/ – parallel100/ – nonpara30/ – whisper10/ – falsetto10/  jvs002/  …  jvs100/  speaker_similarity_{male,female}.csv  duration.txt  gender_f0range.txt 11 jvs001~jvs100の100話者 話者毎に4つのサブコーパス (数字は発話数) タグ
  12. 12. /19 4つのサブコーパス 12 parallel100 • 全話者共通の音素バランス100文の読み上げ • 通常の音声変換などに利用可能 nonpara30 • 話者別の30文の読み上げ • ノンパラレル音声変換など,parallel100より現実的な設定 whisper10 • 全話者共通5文・話者別5文のささやき声 • 10発話が読み上げ音声とパラレル falsetto10 • 全話者共通5文・話者別5文の裏声 • 10発話が読み上げ音声とパラレル,5発話がささやき声とパラレル jvs001 jvs010
  13. 13. /19 タグ  F0レンジ (gender_f0range.txt) – F0抽出時のF0探索レンジの設定は,音声分析結果に強く影響 – 読み上げ音声を元に,各話者のF0レンジ (最小値・最大値) を付与  話者間類似度 (speaker_similarity_*.csv) – 話者間の知覚的類似度は話者選択に有用 [Lanchantin14] – 齋藤らの研究 [Saito19] を参考に,各性別の全話者組み合わせに 対して,知覚的類似度を付与する主観評価を実施 (後述)  継続長 (duration.txt) – 各話者・各サブコーパスのデータサイズを保存 (後述) – 音素レベルの継続長は別途保存 13
  14. 14. 音声収集の結果 14
  15. 15. /19 分析条件 (使用したツールは論文参照) 15 話者 プロ話者100名 (男49名・女51名) サンプリング周波数 24 kHz 音声ファイル形式 RIFF WAV 音素ラベル生成 自動 音素アライメント 自動 F0レンジ 手動 話者間類似度の評価者 1,000名
  16. 16. /19 話者毎の継続長 16 ・読み上げ音声:26.4時間 (parallel100 + nonpara30) ・それ以外:4.0時間 (whisper10 + falsetto10) ・同一文 (parallel100) でも継続長は最大1.8倍違う (jvs020&084) 最短 [分] 平均 [分] 最長 [分] 合計 (100話者) [時間] parallel100 10.11 (jvs020) 13.11 18.24 (jvs084) 22 nonpara30 2.12 (jvs099) 2.62 3.86 (jvs036) 4.4 whisper10 0.95 (jvs045) 1.24 1.69 (jvs018) 2.0 falsetto10 0.90 (jvs045) 1.18 1.61 (jvs035) 2.0
  17. 17. /19 女性51名の主観的話者間類似度 17 -3: 全く似ていない ~ 3: 非常に似ている 3 -3 002 004 007 008 010 014 015 016 017 018 jvs 最も似ている話者対: jvs019 & jvs096 最も誰とも似ていない話者: jvs010
  18. 18. /19 まとめとライセンス  JVSコーパス – 100人のプロ話者による30時間の音声コーパス  ライセンス – テキスト:JSUTコーパスを参照 – タグ:CC BY-SA 4.0 – 音声:以下の場合に限り使用可能 • アカデミック機関での研究 • 非商用目的の研究 (営利団体での研究も含む) • 個人での利用 (ブログなどを含む) – 商用については別途契約 (有償) 18
  19. 19. /19 予告 (変更の場合あり)  1. 学術機関に限り48kHz版を提供予定  2. 100人分の歌声も公開予定 19 jvs001
  • YukaKo1

    Feb. 5, 2020

JVS:フリーの日本語多数話者音声コーパス

Views

Total views

2,832

On Slideshare

0

From embeds

0

Number of embeds

95

Actions

Downloads

7

Shares

0

Comments

0

Likes

1

×