More Related Content More from Shinnosuke Takamichi (20) HMMに基づく日本人英語音声合成における中学生徒の英語音声を用いた評価2. /13
発表背景
英語学習におけるスピーキング
– 早期の言語経験が外国語の知覚に強く影響 [Kurl, 2004.]
– 韻律的特徴は、発話の流暢性の要因 [Allington, 1983.]
– 発話の見本音声を学習者毎に個別化して、学習効果を改善したい!
非母語音声を補正・利用するテキスト音声合成 [Oshima et al., 2015.]
– テキスト音声合成 ・・・ 任意のテキストから音声を合成する技術
– 学習者の事前収録音声の韻律を補正し、自然な英語音声を合成
2
はろー ふぁいん
Natural English!
テキスト
音声合成
学習者
補正なし合成音声 補正あり合成音声
9. /13
収録音声の例とHMM学習
9
収録音声の例
HMM学習(補正)
– 読み上げ誤りの含まれる音声を使用すると、音声合成の品質が低下
– → 収録音声のうち、HMM尤度が相対的に高い音声のみを使用
発話文 話者1 話者2 話者3
There is no mine and there are no miners.
Do you often take them for a walk?
That’s interesting.
11. /13
実験条件
11
項目 値・内容
学習者
(日本語母語話者)
中学1年生の男女各4名
(小学校 or 中学校入学前後から英語を学習)
英語母語話者 ARCTIC speech database の男女各1名
テキストDB Z会 New Treasure Stage1の約900文から
抽出した500文 (実収録文数は400文~500文)
リファレンスDB ARCTIC speech database
音響モデル学習 [Oshima et al., 2015.] とほぼ同じ
収録時間 2時間を上限 (中学教諭と相談した結果)
合成音声の英語の自然性をMOS評価
– 補正なし(350文で通常のHMM学習) vs. 補正あり (100文で適応)
– 大学院生10名(留学生を含む)が、50文の評価データを評価