Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

データマイニングと外国語教育の接点としての自動採点研究

810 views

Published on

早稲田大学CCDL研究所第1回シンポジウム「外国語教育研究におけるスピーキングとライティングの自動採点・評価」投影資料

Published in: Education
  • Be the first to comment

  • Be the first to like this

データマイニングと外国語教育の接点としての自動採点研究

  1. 1. データマイニングと外国語教育の 接点としての自動採点研究 石井雄隆 yutakaishii@aoni.waseda.jp 早稲田大学 大学総合研究センター
  2. 2. 本日の内容 • 1. 自己紹介 • 2. 高等教育/外国語教育を取り巻く課題 • 3. 最近取り組んでいる研究課題 • 4. 今後の展望 2
  3. 3. 1. 自己紹介 3
  4. 4. 職歴 • 2012/04-2015/03 • 専修大学附属高等学校 – 英語ライティング、コミュニケーション英語などを 担当 • 2015.04-現在 • 早稲田大学大学総合研究センター – 主に高等教育開発(統計リテラシー教育・アクティ ブラーニングマニュアル開発・グローバルMOOC・ 海外大学連携FD・教学IR)などに従事 4
  5. 5. 2. 高等教育/外国語教育を取り巻く 課題 5
  6. 6. 社会的背景 • 社会の高度情報化・情報発信の低コスト化 – 大量のデータが常に生成されている • 記憶媒体の大容量化・通信の高速化 – 膨大なデータの蓄積 ⇒整理されていない膨大なデータ 6
  7. 7. データマイニング (Adriaans & Zantinge, 1998) • 大量のデータの中から規則性や関連性など 意味あるパターンを自動的に抽出する手法 • 従来,データ解析は多変量解析などの統計 的手法が主流であったが,1990 年代の中頃, 人工知能の分野におけるルールの自動生成 の研究が行われたことがデータマイニングの 発端 7
  8. 8. 高等教育の現状 • Romero and Ventura (2013)は、「教育機関が 直面する一つの大きな課題は,急速な教育 データの増加とその管理上の意思決定の質 を改善するためのデータの使用である」という ことを指摘している。 8
  9. 9. エデュケーショナルデータマイニング • エデュケーショナルデータマイニング (≒Learning Analytics and Knowledge; LAK)が 近年,注目を集めている。 →教育における問題を処理するために,教育環 境から得られる特別なデータ集合に対してデー タマイニング技術を適用する (Romero & Ventura, 2013) 9
  10. 10. 教育データの特性 • 異なる情報源(システム)から、学習者の活動 の膨大な量のデータが提供される • 全ての学生が活動や演習などを必ずしも完 了していないため、不完全なデータが存在す る • 粒度の異なる多様なデータがある – 性別・アンケート・テスト得点etc… 10
  11. 11. なぜデータマイニングを用いるのか • 統計解析より,大量のデータが扱える。 • 実用性を重視し、データ解析の探索的側面を強 調 • 欠損値などを含む不完全なデータに対し頑健な 分析ができる。 →統計解析にも欠損値を扱う方法は存在するが, データマイニング手法の方がより頑健であることが 指摘されている。 11
  12. 12. エデュケーショナルデータマイニング と関連する主な領域 (Romero & Ventura, 2013) 12
  13. 13. エデュケーショナルデータマイニング により可能になること (Bousbia & Belamri, 2013) • 学習者モデリング – 知識、スキル、モチベーション、満足度、メタ認知、 態度、学習の進捗状況などの詳細な情報が組み 込まれたモデル • 学習者の成績や学習成果の予測 • 適応的な情報推薦 • 学習者の行動解析 – 個別指導、適応、パーソナライゼーションなど • 学生に関するリアルタイムデータの視覚化 13
  14. 14. エデュケーショナルデータマイニング のユーザー別目的<教育者> -学習者の学習プロセスを 理解し,教育方法に反映 -教育のパフォーマンスを 向上 -学習活動の認知的, 行動的側面の理解 <学習者> -状況に応じた学習者支援 -学習者に適したフィード バックの提供 -学習効果の増大 <管理者> -教育機関の資源 を配分する最良の 方法を検討
  15. 15. 近年の動向 • データ形式の標準規格(田村, 2015) • IMS Caliper – 69+23項目 – 学習指導要領との関連付け • 文科省・電通 – 現在検討中、非公開 – 現状60項目 • EDUPUB LA – 44項目 15
  16. 16. 外国語教育 • 大学入試におけるパフォーマンス評価測定の 必要性 • ICTの普及 • 説明責任 →自動採点研究の必要性 16
  17. 17. 大学新入試、「AI」で採点 記述式を 短時間処理 32年度予定 • 大学入試センター試験の後継となる平成32年 度開始予定の「大学入学希望者学力評価テス ト」で、新たに導入される記述式試験の採点業務 について、文部科学省が作業の効率性や安定 性を高めるため、人工知能(AI)の活用を含めた 技術開発を推進する方針であることが6日、分 かった。11日の同省専門家会議で示される最 終報告案に盛り込まれる見込み。大学入試の採 点業務でのAI導入は国内初とみられるが、技術 的な課題もあり実現までには曲折も予想される。 17
  18. 18. 測定において生じる誤差要因 (石岡・亀田, 2003) • 書き手、題目、形式、制限時間、テスト状況、 評定者 • 文字の巧拙 • 評定の系列的効果 • 課題選択 • その他(書き手の性別、人種など) 18
  19. 19. ライティング自動評価のユーザー別目的 Rudner (2004) • 教師 – 多くのエッセイを読み採点するという重荷からの 開放 • テスト業者 – 低コストで高品質の採点を可能にする • 研究者 – 自らの研究を統合させることが可能(第二言語習 得、自然言語処理、外国語教育など) 19
  20. 20. 自動採点研究で考えるべきこと • タスク • 特徴量(データ) • 手法 20
  21. 21. タスク • モード: – paper-based – computer-based • 測っている構成概念(杉田, 2016) – Accuracy – communicability • 測る能力: – リーディング – リスニング – スピーキング – ライティング – 技能統合 21
  22. 22. 特徴量(データ) • Complexity, Accuracy, Fluency, Vocabulary • Parser(Stanford parser, Berkeley parser, L2SCA, Coh-Metrixなど)から自動抽出できる変数 • 理論と実装のジレンマ(小林, 2016) 22
  23. 23. 手法 • 重回帰分析 • 機械学習(サポートベクターマシン, 決定木, 最近傍法, ランダムフォレスト) • 音声認識(スピーキングの場合) • テスト理論(IRT) 23
  24. 24. 3. 最近取り組んでいる研究課題 24
  25. 25. 最近取り組んでいる研究課題 Phase 1 • 英語学習者の文法的誤りはライティングの評価 をどの程度予測するか Phase 2 • Phase 1の結果を踏まえ、ライティングの全体的 評価に影響を与える文法的誤りの種類を検討 Phase 3 • Phase 1及びPhase 2の結果を踏まえて、評価に 寄与しやすい文法的誤りの自動検出 25
  26. 26. 背景 • これまでのライティング研究の多くは、第二言語として の英語ライティングを対象としているということである (Ortega, 2009) →日本の文脈を念頭に置いた,ライティング研究が必要 • 英語ライティングは指導が十分に行われていない(板 津・保田・大井, 2013) →学習者のエッセイ評価は教師にとって,大きな負担 →評定者間の評価の不一致の問題 26
  27. 27. なぜ今文法的誤りなのか • 自然言語処理の教育応用に対する外国語教 育からの検討 →英語教育と自然言語処理のクロスロード (小 町, 2014) • Common European Framework of references (CEFR)のCan-do statementにおける Grammatical Accuracyの記述の精緻化 27
  28. 28. なぜ今文法的誤りなのか • 自然言語処理の教育応用に対する外国語教 育からの検討 →英語教育と自然言語処理のクロスロード (小 町, 2014) • Common European Framework of references (CEFR)のCan-do statementにおける Grammatical Accuracyの記述の精緻化 28
  29. 29. 英語学習者支援のための共通タスク (小町, 2013) • Helping Our Own (HOO) 2011 European Workshop on Natural Language Generation 論文の文法的誤り訂正 ACL Anthology Reference Corpus • Helping Our Own (HOO) 2012 Building Educational Applications Workshop 前置詞と限定詞の文法的誤り訂正 Cambridge Learner Corpus 29
  30. 30. 英語学習者支援のための共通タスク (小町, 2013) • Native Language Identification Shared Task Building Educational Applications Workshop 英作文から英語学習者の母語推定 TOEFL11 データセット • Grammatical Error Correction CoNLL 2013 限定詞、前置詞、数、動詞の形、一致、スペル、句読点 の文法的誤り訂正 NUS Corpus of Learner English 30
  31. 31. 誤り検出・訂正ワークショップ 2012 • 英語学習者の作文の誤り自動検出のワーク ショップ。EDCW 2012 では、前置詞誤り・動詞 (主語-動詞の一致)誤りの2つのトラックに加 え、誤りの種類を限定しないパイロットトラック を実施。 • ソースコードは以下で公開されている。 • https://sites.google.com/site/edcw2012/ 31
  32. 32. なぜ今文法的誤りなのか • 自然言語処理の教育応用に対する外国語教 育からの検討 →英語教育と自然言語処理のクロスロード (小 町, 2014) • Common European Framework of references (CEFR)のCan-do statementにおける Grammatical Accuracyの記述の精緻化 32
  33. 33. CEFRの文法的正確さのCDS 33
  34. 34. 自動採点システムにおける 文法的誤りの割合 • e-raterは大きく分けて11個の素性からエッセ イを評価するが、内3つ(Grammar, Usage, Mechanics)は文法的誤りを対象としたもので、 全体に占める割合は25%。これは Organizationの32%、Developmentの29パー セントについで3番目。 34
  35. 35. 自動採点システムの妥当性 • 作文の46箇所の誤りを訂正し、それをある自 動採点システムに評価させたところ、訂正前 と訂正後のスコアが全く同じだった (Jones, 2006)。 →システムの問題か、それとも学習者の誤りは エッセイ評価に寄与しないのか。 35
  36. 36. 先行研究 • 自動エラータグ付与 (投野・望月, 2012) →対応する正解文さえ用意すれば編集距離を 用いて自動的にオリジナル文と正解文を対比し て差分を特定し,エラータグを付与するツール を開発中 • 小島・石井・金田・磐崎・赤松・金澤 (2014) →ライティング評価とテクストの言語的特徴の 関係についてメタ分析を行っており,文法的正 確さの重要性について言及している。 36
  37. 37. 学習者コーパスを用いた誤りに関す る先行研究 • スペリング(He, 1998) • 語彙(Chi Man-lai et al., 1994; Milton & Freeman 1996; Lenko-Szymanska, 2003) • 動詞(Källkvist, 1995) • 時制(Granger, 1999; Housen, 2002) • 冠詞(Mason & Uzar 2001) • 談話・照応関係(Flowerdew, 2000) • コロケーション(Tono, 1996; Nesselhauf, 2005) • 複数のエラー (Nicholls, 2003; Abe & Tono, 2005; Albert et al., 2009) 37
  38. 38. データ • Konan-JIEM Learner Corpus (KJLC) • 甲南大学と教育測定研究所(JIEM)が共同で収集、アノ テーションを行ったコーパス。日本人英語学習者の170 エッセイから成る。また、文法誤り情報と品詞/句情報が 人手で付与されている。 • 研究目的のためであれば言語資源協会を通じて、購入可 能。 • 成田 (2013) • 名詞句の後置修飾を分析 38
  39. 39. データ エッセイの数 170 エッセイを書いた学生の数 17 総文数 2409 総単語数 19285 異なり語数 2054 39 ※学習者はエッセイトピックを示された後、5分間のプランニングタイムを与えられ、 その後35分でエッセイを書く。
  40. 40. トピック University life Summer vacation Gardening My hobby My frightening experience Reading My home town Traveling My favorite thing Cooking 40
  41. 41. エラータグの種類 タグ 内容 n_num 名詞-単複エラー、加算、不可算 エラー n_lxc 名詞-語彙選択エラー n_o 名詞-その他のエラー pn 代名詞に関するエラー v_agr 動詞-人称・数の不一致 v_tns 動詞-時制エラー v_lxc 動詞-語彙選択エラー v_o 動詞-その他のエラー mo 助動詞に関するエラー aj 形容詞に関するエラー タグ 内容 av 副詞(句)に関するエラー prp 前置詞に関するエラー at 冠詞に関するエラー con 接続詞に関するエラー rel 関係詞に関するエラー itr 疑問詞に関するエラー o_lxc 二語以上から成る成句での語彙 選択ミス ord 語順エラー uk 特定不能なエラー、構成上の致 命的なミス f フラグメント(断片、未完の文等) 41
  42. 42. 誤りの割合 タイプ 割合 (%) 冠詞 19.23 名詞の単複 13.88 前置詞 13.56 動詞の時制 8.77 名詞の語彙選択 7.04 動詞の語彙選択 6.90 代名詞 6.62 動詞の人称・数の 不一致 5.25 形容詞 4.30 タイプ 割合 (%) 動詞その他 4.09 副詞 3.59 接続詞 2.04 語順 1.34 名詞その他 1.30 助動詞 0.88 語彙選択その他 0.74 関係詞 0.42 疑問詞 0.04 42
  43. 43. 成田(2013)による評価 • 日本の大学で英語教育に従事している教員2 名(英語母語話者)と筆者の3人が、以下のよ うな手順で評価した。 1. 各評価者は、1つのライティング・トピックに関し て作成された17人のエッセイを一度に全て読み、 質的に優れていると判断したエッセイのみマー キングする。 2. 評価者3人による1の評価結果を照合し、トピッ クごとに優れているとみなすことができるエッセ イを協議して選定する。 43
  44. 44. エッセイの例 (University life) My university life is very interesting. Because I <v_lxc crr="do">act</v_lxc> many things <prp crr="">since</prp> now. First I <uk crr="am a member of">join</uk> <at crr="a"></at> cercle. I feel <ord crr="very good about this"><prp crr="about"></prp> this very good</ord>. <uk crr="I kill time by">My killing time is</uk> writing <n_num crr="novels">novel</n_num> or drawing <n_num crr="pictures">picture</n_num>. 44
  45. 45. 頻度の変換 • sqrt((X+0.5))で変換(開平変換) • 分布の正規性や分布の等質性を満たすた め • 複数の条件のデータの平均 値と分散の間に「平均/分散 =定数」的な関係がある場合。 • あまり起きないようなこと。 頻度が5増えた場合(横軸)、 小さい値と大きい値で変換 後の値(縦軸)の増え方が 異なる。 45
  46. 46. トピックのクラスタリング • 頻度はトピックによって違う 今回はこのグループの英作文を対象 学習データ: 70 評価データ: 20 langtest.jpによる分析 46
  47. 47. 誤りの種類を選択 • 以下の条件から9種類を選択 – 極端に頻度が低くない – goodとpoorで平均値に差がある程度存在 文法的誤り 名詞の数 動詞の時制 副詞 名詞(その他) 動詞の語彙選択 前置詞 代名詞 形容詞 語順 47
  48. 48. 最近傍法 • 2変数で考えてみると … Goodの平均値 Poorの平均値 Poor Good 𝐷 𝑝, 𝑋 = (𝑥𝑖 − 𝑥)2 𝑠𝑑 𝑥 + (𝑦𝑖 − 𝑦)2 𝑠𝑑 𝑦 x y 値が小さい方のカテゴリが評価と なる。sdはその次元の標準偏差。 48
  49. 49. 予測方法 • 標準ユークリッド距離を利用した最近傍法 – 70の学習用データで9種類の文法的誤りの平 均値を”good”、”poor”それぞれで計算 – 評価データでは、各エッセイが文法的誤りの値 とGood、Poorの平均値への距離を計算 – その距離が近い方をそのエッセイの評価 – Cohen’s Kappa = .57 49
  50. 50. 考察 • 文法的誤りの頻度のみを用いても,学習者の ライティング評価は,それなりに高い精度で 予測が可能。 • 評価に寄与する文法的誤りのさらなる見当が 必要 → v_lxc(動詞の語彙に関するエラー) 50
  51. 51. 4. 今後の展望 51
  52. 52. 今後の展望 • 特徴量の整理(桜木, 2011; Innami & Koizumi, 2014; Kojima, 2011) • 産学・他分野(情報学・自然言語処理)との連 携 • 自動採点についてもっと議論できる場を 52
  53. 53. 特徴量の整理 • 評価に寄与する新たな特徴量の探求 →キー入力ログを用いた英語学習者のライティ ング・プロセスの解明 53
  54. 54. キー入力記録ログ • コンピュータのキー入力の記録。 • 心理言語学では以前からよく用いられている 手法であるが、近年では、外国語教育などで もよく用いられている。 • 尾関(1993)やSugiura & Ozeki (1994)などの 先駆的な研究も存在。 54
  55. 55. WritingMaetriX • ライティングのキー入力を記録し,再生,分析 が行えるソフトウェア(草薙・阿部・福田・川口, 2015) • https://sites.google.com/site/writingmetrix/ からダウンロード可能。 55
  56. 56. ライティング・プロセスの指標 (Deane, 2014; Deane & Zhang, 2015) • 語と語の間のポーズ • 文と文との間のポーズ • バックスペース • カットアンドペースト etc… 56
  57. 57. WritingMaetriX Corpus Project (石井・石井・草薙・阿部・ 福田・川口, 2014a, 2014b) • ライティングのキー入力記録システム WritingMaetriX (WMX)に基づく,ライ ティング・プロセス可視化コーパスの構 築 • WMXで記録した学習者の産出過程のデー タを大量に蓄積することで,母語別・習 熟度別の学習者のライティング・プロセ スを横断的・縦断的に分析 57
  58. 58. 学習者コーパス研究の必要性 (投野, 2013, pp. 13-14) • 「学習者コーパスの研究成果がSLA研究の分野に大 きなインパクトを与えているとはまだ言いがたい。」 • 「SLA研究者が使ってみたいと思うようなデータ収集 の方法を採用するなど,コーパス設計に一段と工夫 が必要。」 • 「学習者コーパス研究はまだ分野的にそこまで成熟 していない」 58
  59. 59. プロジェクトの目的 –執筆活動のモニタリングやフィード バック –ライティング・ストラテジーとライティン グ・プロセスの関係性 –時系列分析・プロセスとプロダクトの 相互作用など様々な観点からの分析 59
  60. 60. 産学・他分野(情報学・自然言語処理)との連携 • ベネッセコーポレーションとの教育ビッグデータ の利活用に関する共同研究(全国英語教育学 会埼玉研究大会で発表予定) • 今年の言語処理学会のテーマセッション「テーマ セッション2:言語教育と言語処理の接点」では、 「双方(言語教育と自然言語処理)の研究者の ニーズ,シーズのマッチングを行い,より有機的 な連携を行うための議論の場を提供」している。 60
  61. 61. 自動採点についてもっと議論できる場を • 外国語教育における自動採点研究は「それ は可能なのですか?」という問いをされること が多い。即ち、出来る/出来ないという二分法 で理解されている。これは、自動採点が研究 分野として認知されていない最たる証拠であ ると思う(どの点にどのような限界点があるか などが知見として共有されていない)。研究の 知見が蓄積され、このタスクにはこの手法が 良いなどという議論ができる場が必要。 61
  62. 62. 自動採点についてもっと議論できる場を • 自動採点研究について議論し、人間/コン ピュータにできる/できないことについての理 解を深め、評価リテラシーを養っていくことが 重要であると思います。 62
  63. 63. 三つの提案 • L2言語指標事典の必要性 • 共通のデータを基に分析コンペティション。 データを固定し、手法への理解を深める。 • 学会の企画などでタスク・手法を固定して、異 なる群に同じ処遇を与え、産出されたデータ を解釈する。 63
  64. 64. 「データマイニングで英語教育はこう変わる」 『英語教育』(大修館書店)4-9月号 • 1. データに基づいた教育改善を目指して―エデュケー ショナルデータマイニング入門― • 2. 英作文に隠された文法的誤りのパターンを探る― アソシエーション分析― • 3. 新たなライティング研究の展望ーキー入力ログを用 いたプロセスの可視化ー • 4. ライティング自動採点・評価研究の最前線 • 5. 大規模公開オンライン講座・MOOCの潮流―学習者 のビッグデータに基づく教育改善や新たな教育手法 の開発― • 6. 今日から始めるデータマイニング―データ分析のプ ロセスと文献・ツール紹介― 64
  65. 65. ワークショップ • 2016年度外国語教育メディア学会(LET)全国 研究大会(於:早稲田大学)にてワークショッ プを担当。 • 「エデュケーショナルデータマイニング入門 -教育改善・意思決定のためのデータ利活用- 」というタイトルで行う予定です。 65

×