Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

HMMに基づく日本人英語音声合成における中学生徒の英語音声を用いた評価

5,858 views

Published on

日本音響学会2015年秋季研究発表会講演論文集, 2-5-8, 2015

Published in: Science
  • Be the first to comment

HMMに基づく日本人英語音声合成における中学生徒の英語音声を用いた評価

  1. 1. 2015©Shinnosuke TAKAMICHI, 09/17/2015 HMMに基づく日本人英語音声合成における 中学生徒の英語音声を用いた評価 ○ 高道 慎之介、戸田 智基、Graham Neubig、Sakriani Sakti、中村 哲 日本音響学会 2015年度 秋季研究発表会 2-5-8 (音響教育セッション)
  2. 2. /13 発表背景  英語学習におけるスピーキング – 早期の言語経験が外国語の知覚に強く影響 [Kurl, 2004.] – 韻律的特徴は、発話の流暢性の要因 [Allington, 1983.] – 発話の見本音声を学習者毎に個別化して、学習効果を改善したい!  非母語音声を補正・利用するテキスト音声合成 [Oshima et al., 2015.] – テキスト音声合成 ・・・ 任意のテキストから音声を合成する技術 – 学習者の事前収録音声の韻律を補正し、自然な英語音声を合成 2 はろー ふぁいん Natural English! テキスト 音声合成 学習者 補正なし合成音声 補正あり合成音声
  3. 3. /13 発表概要  実際の学習者の音声を補正できるか調査 – 学習経験の浅い中学生徒を学習者と想定し、英語音声を収録  補正音声を合成するシステムを構築 – 収録に用いるテキストの自動決定 – HMM音声合成器 (音声合成方式の一つ) の自動構築  補正により、合成音声の自然性を改善できるかを調査 – 補正あり・なしの英語音声を評価 3 学習年数に依存せず、自然性改善効果が得られることを確認 * HMM: 隠れマルコフモデル (Hidden Markov Model)
  4. 4. /13 HMM音声合成 4 [Tokuda et al., 2013.] 収録に用いる テキスト 収録音声 テキスト 解析 音声分析 スペクトル 音源 パワー 継続長 話者依存 HMMデータベース 任意のテキスト 合成音声 テキスト 解析 音声合成 学習部 生成部
  5. 5. /13 非母語音声を補正・利用する HMM音声合成  スペクトル・音源成分を適応: 学習者の声質を強く反映  パワー・継続長成分を保持: 英語の自然性を改善  → 学習者の声質のまま、英語の自然性を改善可能 5 英語母語話者の HMM英語母語話者の 英語音声 学習者の英語音声 韻律を補正した、 学習者のHMM スペクトル 音源 パワー 継続長 スペクトル 音源 パワー 継続長 適応 [Oshima et al., 2015.]
  6. 6. /13 システムの全体図  2つのモジュールについて解説 – 用意された文章からテキストコーパスを選択 – 補正に用いる音声データの選択 6 学習者 事前に用意 読み上げ テキスト選択 リファレンス テキストDB テキスト・音声 DB 音声 選択 英語母語話者の HMM 補正 学習者の HMM 提示 収録 音声合成 テキストを入力 合成音声 文章 *DB: データベース 全自動構築
  7. 7. /13 学習者に読み上げさせる テキストデータベースの構築  頑健な音声合成器構築のための条件 – 適切な音素バランス – 発話者(本発表では学習者)にとって発話しやすい文  既存コーパスは条件に不適切 – ARCTIC [Kominek et al., 2003.]、 ERJ [Minematsu et al., 2011.] など … 英語母語話者 or 大学生相当の言語経験を対象  本研究ではテキストデータベースを新たに構築 – 学習者の履修する英語授業で使用されている教科書を利用 – 学習者の発話しやすいテキストデータベースを自動構築 7
  8. 8. /13 テキストデータベースの構築  1. 音素バランスのとれた既存DBから音素ヒストグラムを計算  2. 教科書の文章から、固定文数の文セットを複数回サンプリング – ただし、固有名詞(キャラクタの名前など)は代名詞に置換(今回は手動)  3. 2の文セットのうち、1のヒストグラムへの誤差が最小のものを選択 – 二乗誤差を使用 8 リファレンス テキストDB 教科書 ae iy … サンプリング セット1 セット2 セット3
  9. 9. /13 収録音声の例とHMM学習 9  収録音声の例  HMM学習(補正) – 読み上げ誤りの含まれる音声を使用すると、音声合成の品質が低下 – → 収録音声のうち、HMM尤度が相対的に高い音声のみを使用 発話文 話者1 話者2 話者3 There is no mine and there are no miners. Do you often take them for a walk? That’s interesting.
  10. 10. 実験的評価 10
  11. 11. /13 実験条件 11 項目 値・内容 学習者 (日本語母語話者) 中学1年生の男女各4名 (小学校 or 中学校入学前後から英語を学習) 英語母語話者 ARCTIC speech database の男女各1名 テキストDB Z会 New Treasure Stage1の約900文から 抽出した500文 (実収録文数は400文~500文) リファレンスDB ARCTIC speech database 音響モデル学習 [Oshima et al., 2015.] とほぼ同じ 収録時間 2時間を上限 (中学教諭と相談した結果)  合成音声の英語の自然性をMOS評価 – 補正なし(350文で通常のHMM学習) vs. 補正あり (100文で適応) – 大学院生10名(留学生を含む)が、50文の評価データを評価
  12. 12. /13 評価結果 12  1(M) を除いて、学習年数に依らず同等の自然性 補正あり 補正なし
  13. 13. /13 まとめ  学習者の声質で補正音声を合成するシステムを構築 – 読み上げテキストの自動決定 – HMM音声合成器の自動構築 – 英語学習年数1年~9年の中学生徒の英語音声を収録  評価結果 – 学習年数に依らず、合成音声の自然性を改善  今後の予定 – 学習効果の検証 – 非母語音声認識・言語教育インタラクション技術との統合 – 提示テキストのオンライン推定 – 自己聴取音の生成 13

×