Advertisement

英語学習者のための発話自動採点システムの開発.

Associate Professor
Mar. 15, 2014
Advertisement

More Related Content

Slideshows for you(18)

Similar to 英語学習者のための発話自動採点システムの開発.(20)

Advertisement

Recently uploaded(20)

英語学習者のための発話自動採点システムの開発.

  1. 英語学習者の 発話自動採点 近藤悠介と石井雄隆 1
  2. 発話自動採点とは 2 y=ax+b… Nice to see you! .wav .wav .wav y=ax+b… y=ax+b… How Can I get to the station?I was so exited! Score & feedback
  3. なぜ自動採点したいか 1/2 一般論 ◦ 発話能力育成を重要視 ◦ 発話能力のテストがあることのwashback 植野・荘島(2010) ◦ 教育評価は筆記試験からパフォーマンス評価に変化してきている。 ◦ 教育評価の研究対象もパフォーマンス評価に移行している。 Higgins, Xi, Zechner, and Williamson (2011) ◦ Constructed Response がTOEFL、SAT、GRE、ACT、TOEICで採用されている。
  4. なぜ自動採点したいか 2/2 人的、時間的コストの削減 ◦ スピーキングテストを実施するには時間がかかる。 ◦ 実施から評価を送出するまでにも時間がかかる。 ◦ 評定者を訓練するのにも時間がかかる。 ◦ 信頼性の高い複数の評定者が必要。 コンピュータの方が評価が安定している ◦ 訓練をしても人間なので評価にぶれが生じる。 ◦ 経年的に行う場合の人材の確保が難しい。 評価と特徴量の関係が知りたい ◦ 学習者の発話の変化(発達?)が客観的に見れる。 ◦ タスクと発話の関係を客観的に見れる。 4 Clauser, Margolis, Clyman, and Ross (1997)や Higgins, Xi, Zechner, and Williamson (2011) などでの指摘と一般論
  5. Page, E.B. (1966) (おそらく)世界初の作文自動採点(中学生(英語母語話者)の作文の採点目的) ◦ Page, E.B. (1966). The imminence of grading essays by computer, The Phi Delta Kappa international, Vol.. 47, No. 5., 238-243. ◦ Page is widely acknowledged as the father of automated essay scoring, a multi-disciplinary field exploring computer evaluation and scoring of student writing, particularly essays (Wikipedia). 単語の長さ、段落の数、キーワードの有無などから評定者による評価を予測する。 基本的な考え方は現在と同じ。 「表層的なものしか見ていない」、「コンピュータは内容を理解していない」などの批判は現在の 研究でも当てはまる。 5
  6. Bernstein, et. al. (1989) (おそらく)世界初の発話(発音)自動採点 ◦ Bernstein, J., Weintraub, M., Cohen, M., & Murveit, H. (1989). Automatic evaluation of English spoken by Japanese students. In Paper FF10, 118th Acoustic Society of America Meeting, November (Abstract in Journal of the Acoustic Society of America (Suppl. 1), S77). 母語話者の発話から構築した音響モデルとの差(尤度)をもとに判定している。 (解決できない問題であるが)、音響モデルとの差は音響モデル構築に使用した発話に大きく 依存している。 母語話者に似ていることが重要ではなくなってきた。 6
  7. 実装されているシステム SpeechRater ◦ Educational Testing Serviceが開発し、TOEFL Practice Onlineのspeaking sectionで実装されている。 ◦ 特定の話題に関する自由な発話を自動採点。 ◦ 評定者との相関は.57-.70。 ◦ 単語認識率は約50%。 Versant ◦ Pearson Learningが開発し、大学、企業で発話能力の評価として採用されている。 ◦ 読み上げ、反対語を言うなど発話が限定されたタスクを使用。 7
  8. 音素アライメントの例 sorry but i’m busy now
  9. 採点(予測)のイメージ 9 発話の特徴量と評定者による評価の関係から予測式を得る。 Y = X1+X2+…+Xn 評定者による評価 特徴量 話す速さ 語彙の豊富さ
  10. Kondo (2010): 読み上げ文の自動採点 The North Wind and the Sun were disputing which was the stronger when a traveler came along wrapped in a warm cloak. They agreed that the one who first succeeded in making the traveler take his cloak off should be considered stronger than the other. Then the North Wind blew as hard as he could, but the more he blew the more closely did the traveler fold his cloak around him; and at last the North Wind gave up the attempt. Then the Sun shone out warmly, and immediately the traveler took off his cloak. And so the North Wind was obliged to confess that the Sun was the stronger of the two. 10
  11. フィードバックの例 11 Category A: 微妙な意味もイントネーションなどで表現でき、明瞭で自然な発音である。 単語の発音について コミュニケーションを阻害するものではありませんが、いくつかの発音が正確ではない可能性があります。 例えば、テキストに出てきたlast、sun、atの母音を日本語では同じ「あ」と認識しますが、英語では、これら の母音はすべて異なります。ひとつの母音が異なるだけで意味が異なる場合があります。例えば、butと batは日本語風に発音すると「バット」になってしまいますが、実際には異なる発音です。また、日本語にな い子音についても同様のことが言える可能性があります。個々の発音に注意を払えば、より伝わりやすい 英語になるでしょう。 文の読み方について ほぼ完璧だと思われますが、いくつかの文の強勢が正確ではない可能性があります。単語にアクセント (強勢)があるように、文にも最も強く発音される単語があります。これは前後関係や話者の意図によって ことなりますが、例えば、テキストに出てきた"and at last the North Wind gave up the attempt"という文の場 合、一般的に最後の単語attemptが最も強く発音されます。
  12. 評価基準: CEFR 12 PHONOLOGICAL CONTROL C2 As C1 C1 Can vary intonation and place sentence stress correctly in order to express finer shades of meaning. B2 Has acquired a clear, natural, pronunciation and intonation. B1 Pronunciation is clearly intelligible even if a foreign accent is sometimes evident and occasional mispronunciations occur. A2 Pronunciation is generally clear enough to be understood despite a noticeable foreign accent, but conversational partners will need to ask for repetition from time to time A1 Pronunciation of a very limited repertoire of learnt words and phrases can be understood with some effort by native speakers used to dealing with speakers of his/her language group (Council of Europe, 2003:117) 評価基準に基づき評定者を訓練し、一般化可能性理 論、多相ラッシュ・モデルを用いて評定者を選んだ Kondo (2010)。
  13. 相関を検証した特長量(抜粋) 13 特徴量 定義 フィラーの数 mm, ehhなどに代表される非語彙の挿入数 無音ポーズの長さ 100ms以上の無音の時間的長さ Mean length of run 2つのフィラーあるいは無音ポーズの間の音節の数の平均値 言い直し 言い直しで挿入された音節の数 Pruned syllable per second 言い直し、フィラーを除いた音節の数を総発話時間で割ったもの 強勢音節と非強勢音節の比 非強勢音節の長さの平均値を強勢音節の長さの平均で割ったもの 文間のポーズの数 文の境界で置かれたフィラーおよび無音ポーズの数 フレーズ間のポーズの数 フレーズの境界で置かれたフィラーおよび無音ポーズの数 /i/と/ɪ/の識別率 F1およびF2による/i/と/ɪ/の識別率(判別分析による) /uː/と/ʊ/の識別率 F1およびF2による/uː/と/ʊ/の識別率(判別分析による) /ӕ/と/ʌ/の識別率 F1およびF2による/ӕ/と/ʌ/の識別率(判別分析による)
  14. 予測方法の検討 前提:既存データ(受検者)には評価値が付与され、音読における2つの特徴量が計測されている。 目的:既存データをもとに新たな受験者の2つの特徴量からランクを決定する。 評価値: 2.6 話す速さ: 4.2 リズム: 0.46 001 評価値: 0.9 話す速さ: 2.2 リズム: 0.61 002 評価値: - 0.2 話す速さ: 2.2 リズム: 0.66 003 評価値: 2.5 話す速さ: 3.5 リズム: 0.51 004 評価値: 1.2 話す速さ: 2.5 リズム: 0.62 005 評価値: -0.9 話す速さ: 1.7 リズム: 0.79 006 Rank A Rank B Rank C 話す速さ: 1.0 リズム: 0.79 ?
  15. 採点方法: 近傍法 15 1.5 2 2.5 3 3.5 4 4.5 0.1 0.2 0.3 0.4 0.5 0.6 0.7 Rank C Rank B Rank A Proto C Proto B Proto A 0.30.40.50.60.70.80.9 The ratio of weak syllable to the strong one Syllablepersecond
  16. システムと評定者の一致度 16 評定者と近傍法の組み合わせ kappa 評定者1、2と近傍法 .70 評定者1、3と近傍法 .60 評定者2、3と近傍法 .60 評定者1、2、3 .75 すべて .66 近傍法と3人の評定者とのフレイスのカッパ システム 評定者1 評定者2 評定者3 システム 1 .81 .69 .58 評定者1 1 .83 .80 評定者2 1 .89 評定者3 1 システムと評定者の相関係数
  17. 発話自動採点の問題点(Xi, 2009) タスク・タイプ、パフォーマンスの評価の視点が自然言語処理、音声言語処理の技術に制限さ れる。 発話を制限することにより認識率の問題を解決する (Bernstein et al., 2010)。 ◦ 読み上げ文 ◦ 反対語を言わせる 実際に測定したい自然発話と関連しているであろう発話能力の側面を評価しているのであって、 直接評価をしていない。 自然発話を評価する(Xi, et al., 2008; Cuchiarini et al., 2002)。 この方法の場合、単語認識率が低い(約50%)。 認識率の向上が解決すべき問題のひとつである。 17
  18. 新たなシステムの開発動機 テストとして考えた場合、発話能力の採点を1項目で行っていた。 本研究の目的は一問一答で発話能力を自動採点するシステムを作ることである。 ◦ 従来のテストと同じテスト理論を用いて項目を分析することができる。 ◦ コンピュータ適応型テストにできる。 ◦ タスクの困難度を考慮して受検者の能力を推定できる。 ◦ 一問一答方式を用いることである程度発話を制限できる。 この方法の問題点 ◦ 開発の段階で(従来以上の)大量の採点されたデータが必要。 ◦ (従来以上の)大量の項目数が必要。 18
  19. 発話の自由度と予測可能性 19 繰り返し 読み上げ 談話完成タスク(DCT) 準備されたスピーチ 自然発話 発話の自由度 発話の予測可能性 高い 高い低い 低い
  20. DCTの例 17-2: When you ask John to help you with your homework frankly, how would you say in the conversation below A: ( ) B: Sure 3-1: You walk around the park in the morning. How would you respond in the conversation below. A: What do you do before you leave home in the morning? B: ( ) 20
  21. 作成したDCT 21 Tutorial Englishで使用されている教科書、 Reach OutはCEFRに準拠している。 各Unitで使用される表現が要求されるDCTを 作成 各Unitごとに8~20個のDCTを作成
  22. Tutorial English: 概要 日常的に使用する英語表現を中心に、スピーキング能力を高めることを主眼とする。 ◦ 受講者4人に対しチューター1人のグループ・レッスン ◦ 事前テストによる初級から上級までの5つのレベル分け ◦ 個別のフィードバック ◦ ヨーロッパ言語共通参照枠に基づいた独自教科書 すべての課がCEFRに基づいて作成されたCan-do statementに基づいている。 ◦ Can-do statementは受講者がそれぞれの課で習得すべきlanguage skillを記述している。 ひとつのコースを修了することによりACPAから認定証が発行される。 早稲田大学オープン教育センター http://www.w-int.jp/gogaku/course/general.html 22
  23. Tutorial English: 授業内容 準備 ◦ ガイドラインに従って授業の準備をする: “Write down six words about you and your life in the circles below” 授業 ◦ Pair work: Look at the words that your partner wrote down in Preparation. Ask questions to find out more information about the words and your partner. ◦ Language ◦ Practice: Take turns reading and listening activity to the statements below. A: I woke up late and missed class again. B: . ◦ Speaking: Take turns asking questions about topics below. food, clubs, TV, and friends ◦ Wrap-up 23 Nakano, M. (2012). Ed. Reach Out Pre-Intermediate Second Edition. Unit 3, Waseda University International.
  24. Tutorial Englishにおける発話評価 クラス分けテストにはWeTECが使用されている(クラス分けにおいて発話能力を直接評価する 機会はない)。 発話評価は、授業中のパフォーマンス評価として各課ごとに授業中およびTutorial Siteを通して Tutorから与えられる。 Lesson Review TaskはWeTECと同じ形式で行われる(発話能力の直接評価はない)。 到達度テストにはWeTECが使用されている(クラス分けにおいて発話能力を直接評価する機会 はない)。 語彙や文法、聴解能力に比べ発話能力が直接評価される機会は少ない。 24
  25. 発話自動採点システムの開発過程 25 The North Wind and the Sun were disputing… 発話誘出タスクの作成 &評価基準の選択 評定者の訓練 発話データの収集 採点と発話の特徴量の関係を調べる システムの開発 システムの評価 音響モデルの構築 言語モデルの構築
  26. 採点(予測)方法 26 1 0 01 Item x Item x
  27. 音声認識機と分析対象 27 Hidden Markov Model Toolkitを用いた隠れマルコフモデルに基づいた音声認識機を作成 ◦ 種モデル: 101人のアジア人英語学習者の読み上げ音声(『北風と太陽』) ◦ 訓練データ: Tutorial EnglishのBasic向けDCT(144項目)に回答した10606発話 ◦ それぞれの項目に対して本研究で収集したデータから2-gramの言語モデルを作成 男女混合非母語話者による種モデルの作成。 話者適応なし 分析対象 ◦ Tutorial EnglishのBasic向けDCT(144項目)に回答した8284発話。
  28. Tutorial EnglishのBasic level 挨拶、別れ、紹介、感謝などの社会的関係を確立することができる。 簡単な言葉で自分の感情を表現することができるし、感謝も表現できる。 非常に短い社交的なやり取りには対応できるが、自分から会話を進ませられるほどには理解 できてない場合が多い。それでも、相手の方が面倒がらねば、分かるようにしてもらえる。 挨拶をするのに簡単な日常の丁寧な形式を使うことができる。 招待、提案、謝罪をすることができ、またそれらに応じることができる。 好き嫌いを言うことができる。 覚えたいくつかの言い回しや数少ない語句、あるいは定式表現、基本的な構文を使って、日常 の単純な状況の中でなら、限られてはいるが情報を伝えることができる。 Council of Europe (2001)より抜粋
  29. フィルター・モデリング 書き起こしができない(人間が聞き取れない)発話を採点から除外するためのフィルター。 以下の特徴量を用いて対象となる発話がscorableかunsorableかをSVMを用いて判定した (Higgins, Xi, Zechner, Williamson, 2011)。 ◦ 音力(0番目のケプストラム係数): 発話内平均、最大値、最小値、範囲 ◦ ピッチ:発話内平均、最大値、最小値、範囲 ◦ 音響モデル・スコアの発話内平均 ◦ 単語数 ◦ 話す速さ(Word per minute) 対象とした発話 ◦ 書き起こしができない(人間が聞き取れない)発話ランダムに100発話を抽出 ◦ 書き起こしができた発話からランダムに100発話を抽出 正解率は84% 29
  30. 項目ごとの認識率 高い項目 Item H D S I 13-17 .95 .01 .03 .02 13-19 .95 .01 .03 .02 9-14 .94 .01 .04 .04 13-18 .93 .03 .03 .01 1-02 .93 .03 .03 .02 低い項目 Item H D S I 6-06 .24 .41 .34 .01 9-16 .26 .44 .29 .06 16-08 .26 .41 .32 .02 11-07 .28 .38 .33 .03 9-05 .32 .27 .41 .05
  31. 実装できそうな項目: 13-17、18、19 括弧の中に適切な英語表現を入れて、文ごとに読みあげなさい。 A: I ( 1 ) to experience traditional culture and buy souvenirs. Where ( 2 ) visit? B: You ( 3 ) visit Nara. Nara is very traditional. A: That ( 4 ) good. OK, I'll ( 5 ) that.
  32. 実装できそうな項目: 9-14と1-02 9-14 次の形容詞のうちから合うものを選んで、言いなさい。 Lemons are ( ). [sweet, oily, sour, creamy, spicy, salty, bland, bitter, hot] 1-02 Greeting people you know A: ( ), Li? B: I'm fine. How about you? A: Not bad.
  33. 認識率の低い項目 6-06 Describe your hometown 9-16 Describe Miso soup to your host family in USA, referring to its ingredient, cooking method, and taste. 16-08 Describe your own personality and explain why you think so. 11-07 Choose someone you know well and describe his or her appearance and personality.
  34. 中間的な項目(認識率50-70%) 17-03 You cannot help her because you're busy now. A: Could you help me with my homework? B: ( ). 18-05 あなたは中国語を勉強することが重要であると考えている。 A: I believe that studying English is very important. What do you think? B: ( ).
  35. 今後の課題 認識率の向上 未知語への対応 騒音下での認識精度 特徴量(変数)の選択と処理 ◦測定できる発話の特徴量で何を採点(予測)に使用するか ◦採点(予測)に使用する特徴量をどう処理するか ◦弁別力の高いキラー・タスクとは何か 35
Advertisement