Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

JVS:フリーの日本語多数話者音声コーパス

418 views

Published on

JVS:フリーの日本語多数話者音声コーパス

Published in: Technology
  • Be the first to comment

  • Be the first to like this

JVS:フリーの日本語多数話者音声コーパス

  1. 1. 10/11/2019©Shinnosuke Takamichi, The University of Tokyo JVS:フリーの日本語多数話者音声コーパス 高道 慎之介・三井 健太郎・齋藤 佑樹 郡山 知樹・丹治 尚子・猿渡 洋 (東京大学) SLP研究会10月
  2. 2. /19 概要  背景:機械学習としての音声合成 – 国・身分を超えて日本語音声合成を構築可能に – 誰でもアクセスできる大規模高品質音声コーパスが必要 • しかし,そのような合成用日本語コーパスがなかった  公開済みコーパス:JSUT [Sonobe&Takamichi17] – End-to-end日本語テキスト音声合成用 – 単一話者による10時間読み上げ音声  本発表のコーパス:JVS – 音声変換・話者モデリング用 – 100名の話者による30時間・3スタイル音声 2 本発表ではコーパス設計とスペックを紹介
  3. 3. /19 今すぐダウンロードできます 3 JVSコーパス
  4. 4. JSUT (Japanese speech corpus of Saruwatari lab, the University of Tokyo) [Sonobe&Takamichi17] 4
  5. 5. /19 JSUTコーパス  End-to-Endテキスト音声合成の隆盛 – Tacotron [Wang17] の登場(2017/09) – 日本語でも研究されるように [Ueno19]  JSUTコーパス [Sonobe&Takamichi17] – End-to-End音声合成に向けたコーパス設計 – 東京大学内無響室における長期 (2017/02~2017/10) 収録  特徴 – 従来のような中間表現(例:音素)のカバレッジではなく, 日本語の常用漢字の読みを全てカバーするように設計 – 単一話者による大量(10.5時間)・高品質(48kHz)の発話 • 参考:英語 WaveNet [Oord16] の学習データは17時間・16kHz 5
  6. 6. /19 JSUTコーパスに含まれるサブコーパス 6 [Sonobe&Takamichi17] countersuffix26 数詞の読みを変える助数詞を含む文 loanword128 外来語由来の動詞・名詞を含む文 basic5000 常用漢字の音読み・訓読みをカバー utparaphrase512 同じ意味の文に言い換え(平易化) onomatopee300 オノマトペを含む文 repeat500 同じ文を繰り返し発話 voiceactress100 感情音声コーパスとのパラレル発話 travel1000/precedent138 旅行会話・判例文ドメイン 各サブコーパスの数字は発話数
  7. 7. /19 2017年10月からの利用経歴  60か国・6,000回以上アクセス.End-to-End音声合成でも 利用されるように[Ueno19] – EPSnet にJSUT専用レシピあり 7 国 全体に対する割合[%] 日本 76.0 アメリカ 4.97 韓国 3.33 中国 2.76 ベトナム 2.14 台湾 1.74 インド 0.92 イギリス 0.88
  8. 8. JVS (Japanese versatile speech) 8
  9. 9. /19 JVSコーパスの目的  音声変換・話者モデリングへの注目 – 音声VR (virtual reality)など – 合成音声品質の向上に伴い,インタラクション技術としても期待  JVSコーパス – 音声変換・話者モデリングに向けたコーパス設計 – プロ音響監督の監督下のもとスタジオ収録 9
  10. 10. /19 JVSコーパスの特徴  高品質:24 kHzサンプリング・スタジオ収録・非圧縮 (wav)  多話者:100名のプロ話者 (声優・俳優など)  多スタイル:読み上げ音声・ささやき声・裏声  大規模:合計で30時間 (読み上げ音声だけだと26時間)  タグ:テキスト・性別・F0レンジ・話者間類似度  研究用途では無償:学術機関のみならず民間企業でも利用可能 10
  11. 11. /19 JVSコーパスのディレクトリ構成  jvs001/ – parallel100/ – nonpara30/ – whisper10/ – falsetto10/  jvs002/  …  jvs100/  speaker_similarity_{male,female}.csv  duration.txt  gender_f0range.txt 11 jvs001~jvs100の100話者 話者毎に4つのサブコーパス (数字は発話数) タグ
  12. 12. /19 4つのサブコーパス 12 parallel100 • 全話者共通の音素バランス100文の読み上げ • 通常の音声変換などに利用可能 nonpara30 • 話者別の30文の読み上げ • ノンパラレル音声変換など,parallel100より現実的な設定 whisper10 • 全話者共通5文・話者別5文のささやき声 • 10発話が読み上げ音声とパラレル falsetto10 • 全話者共通5文・話者別5文の裏声 • 10発話が読み上げ音声とパラレル,5発話がささやき声とパラレル jvs001 jvs010
  13. 13. /19 タグ  F0レンジ (gender_f0range.txt) – F0抽出時のF0探索レンジの設定は,音声分析結果に強く影響 – 読み上げ音声を元に,各話者のF0レンジ (最小値・最大値) を付与  話者間類似度 (speaker_similarity_*.csv) – 話者間の知覚的類似度は話者選択に有用 [Lanchantin14] – 齋藤らの研究 [Saito19] を参考に,各性別の全話者組み合わせに 対して,知覚的類似度を付与する主観評価を実施 (後述)  継続長 (duration.txt) – 各話者・各サブコーパスのデータサイズを保存 (後述) – 音素レベルの継続長は別途保存 13
  14. 14. 音声収集の結果 14
  15. 15. /19 分析条件 (使用したツールは論文参照) 15 話者 プロ話者100名 (男49名・女51名) サンプリング周波数 24 kHz 音声ファイル形式 RIFF WAV 音素ラベル生成 自動 音素アライメント 自動 F0レンジ 手動 話者間類似度の評価者 1,000名
  16. 16. /19 話者毎の継続長 16 ・読み上げ音声:26.4時間 (parallel100 + nonpara30) ・それ以外:4.0時間 (whisper10 + falsetto10) ・同一文 (parallel100) でも継続長は最大1.8倍違う (jvs020&084) 最短 [分] 平均 [分] 最長 [分] 合計 (100話者) [時間] parallel100 10.11 (jvs020) 13.11 18.24 (jvs084) 22 nonpara30 2.12 (jvs099) 2.62 3.86 (jvs036) 4.4 whisper10 0.95 (jvs045) 1.24 1.69 (jvs018) 2.0 falsetto10 0.90 (jvs045) 1.18 1.61 (jvs035) 2.0
  17. 17. /19 女性51名の主観的話者間類似度 17 -3: 全く似ていない ~ 3: 非常に似ている 3 -3 002 004 007 008 010 014 015 016 017 018 jvs 最も似ている話者対: jvs019 & jvs096 最も誰とも似ていない話者: jvs010
  18. 18. /19 まとめとライセンス  JVSコーパス – 100人のプロ話者による30時間の音声コーパス  ライセンス – テキスト:JSUTコーパスを参照 – タグ:CC BY-SA 4.0 – 音声:以下の場合に限り使用可能 • アカデミック機関での研究 • 非商用目的の研究 (営利団体での研究も含む) • 個人での利用 (ブログなどを含む) – 商用については別途契約 (有償) 18
  19. 19. /19 予告 (変更の場合あり)  1. 学術機関に限り48kHz版を提供予定  2. 100人分の歌声も公開予定 19 jvs001

×