HMMに基づく日本人英語音声合成における中学生徒の英語音声を用いた評価

2015©Shinnosuke TAKAMICHI, 09/17/2015
HMMに基づく日本人英語音声合成における
中学生徒の英語音声を用いた評価
○ 高道慎之介、戸田智基、Graham Neubig、Sakriani Sakti、中村哲
日本音響学会 2015年度秋季研究発表会
２－５－８（音響教育セッション）

/13
発表背景
 英語学習におけるスピーキング
– 早期の言語経験が外国語の知覚に強く影響 [Kurl, 2004.]
– 韻律的特徴は、発話の流暢性の要因 [Allington, 1983.]
– 発話の見本音声を学習者毎に個別化して、学習効果を改善したい！
 非母語音声を補正・利用するテキスト音声合成 [Oshima et al., 2015.]
– テキスト音声合成・・・任意のテキストから音声を合成する技術
– 学習者の事前収録音声の韻律を補正し、自然な英語音声を合成
2
はろーふぁいん
Natural English!
テキスト
音声合成
学習者
補正なし合成音声補正あり合成音声

/13
発表概要
 実際の学習者の音声を補正できるか調査
– 学習経験の浅い中学生徒を学習者と想定し、英語音声を収録
 補正音声を合成するシステムを構築
– 収録に用いるテキストの自動決定
– HMM音声合成器（音声合成方式の一つ）の自動構築
 補正により、合成音声の自然性を改善できるかを調査
– 補正あり・なしの英語音声を評価
3
学習年数に依存せず、自然性改善効果が得られることを確認
* HMM: 隠れマルコフモデル（Hidden Markov Model）

/13
HMM音声合成
4
[Tokuda et al., 2013.]
収録に用いる
テキスト収録音声
テキスト
解析
音声分析
スペクトル
音源
パワー
継続長
話者依存
HMMデータベース
任意のテキスト合成音声
テキスト
解析
音声合成
学習部
生成部

/13
非母語音声を補正・利用する
HMM音声合成
 スペクトル・音源成分を適応：学習者の声質を強く反映
 パワー・継続長成分を保持：英語の自然性を改善
 → 学習者の声質のまま、英語の自然性を改善可能
5
英語母語話者の
HMM英語母語話者の
英語音声
学習者の英語音声
韻律を補正した、
学習者のHMM
スペクトル
音源
パワー
継続長
スペクトル
音源
パワー
継続長
適応
[Oshima et al., 2015.]

/13
システムの全体図
 2つのモジュールについて解説
– 用意された文章からテキストコーパスを選択
– 補正に用いる音声データの選択
6
学習者
事前に用意
読み上げ
テキスト選択
リファレンス
テキストDB
テキスト・音声
DB
音声
選択
英語母語話者の
HMM
補正学習者の
HMM
提示収録
音声合成
テキストを入力
合成音声
文章
*DB: データベース
全自動構築

/13
学習者に読み上げさせる
テキストデータベースの構築
 頑健な音声合成器構築のための条件
– 適切な音素バランス
– 発話者（本発表では学習者）にとって発話しやすい文
 既存コーパスは条件に不適切
– ARCTIC [Kominek et al., 2003.]、 ERJ [Minematsu et al., 2011.] など
… 英語母語話者 or 大学生相当の言語経験を対象
 本研究ではテキストデータベースを新たに構築
– 学習者の履修する英語授業で使用されている教科書を利用
– 学習者の発話しやすいテキストデータベースを自動構築
7

/13
テキストデータベースの構築
 1. 音素バランスのとれた既存DBから音素ヒストグラムを計算
 2. 教科書の文章から、固定文数の文セットを複数回サンプリング
– ただし、固有名詞（キャラクタの名前など）は代名詞に置換（今回は手動）
 3. 2の文セットのうち、1のヒストグラムへの誤差が最小のものを選択
– 二乗誤差を使用
8
リファレンス
テキストDB
教科書 ae iy …
サンプリングセット1
セット2
セット3

/13
収録音声の例とHMM学習
9
 収録音声の例
 HMM学習（補正）
– 読み上げ誤りの含まれる音声を使用すると、音声合成の品質が低下
– → 収録音声のうち、HMM尤度が相対的に高い音声のみを使用
発話文話者1 話者2 話者3
There is no mine and there are no miners.
Do you often take them for a walk?
That’s interesting.

/13
実験条件
11
項目値・内容
学習者
（日本語母語話者）
中学1年生の男女各4名
（小学校 or 中学校入学前後から英語を学習）
英語母語話者 ARCTIC speech database の男女各1名
テキストDB Z会 New Treasure Stage1の約900文から
抽出した500文（実収録文数は400文～500文）
リファレンスDB ARCTIC speech database
音響モデル学習 [Oshima et al., 2015.] とほぼ同じ
収録時間 2時間を上限（中学教諭と相談した結果）
 合成音声の英語の自然性をMOS評価
– 補正なし（350文で通常のHMM学習） vs. 補正あり（100文で適応）
– 大学院生10名（留学生を含む）が、50文の評価データを評価

/13
評価結果
12
 1(M) を除いて、学習年数に依らず同等の自然性
補正あり
補正なし

/13
まとめ
 学習者の声質で補正音声を合成するシステムを構築
– 読み上げテキストの自動決定
– HMM音声合成器の自動構築
– 英語学習年数1年～9年の中学生徒の英語音声を収録
 評価結果
– 学習年数に依らず、合成音声の自然性を改善
 今後の予定
– 学習効果の検証
– 非母語音声認識・言語教育インタラクション技術との統合
– 提示テキストのオンライン推定
– 自己聴取音の生成
13

HMMに基づく日本人英語音声合成における中学生徒の英語音声を用いた評価

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Viewers also liked

Viewers also liked (8)

More from Shinnosuke Takamichi

More from Shinnosuke Takamichi (20)

HMMに基づく日本人英語音声合成における中学生徒の英語音声を用いた評価