Successfully reported this slideshow.
Your SlideShare is downloading. ×

2015LETシンポジウム コーパス構築について

Ad

WritingMaetriX Corpus Project
石井雄隆
早稲田大学
大学総合研究センター
yutakaishii@aoni.waseda.jp

Ad

内容
• 本プロジェクトの背景
• 学習者コーパス概観
• コーパスデザインについて
2

Ad

社会的背景
• 社会の高度情報化・情報発信の低コスト化
– 大量のデータが常に生成されている
• 記憶媒体の大容量化・通信の高速化
– 膨大なデータの蓄積
⇒整理されていない膨大なデータ
3

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Loading in …3
×

Check these out next

1 of 40 Ad
1 of 40 Ad

2015LETシンポジウム コーパス構築について

Download to read offline

石井雄隆・石井卓巳・川口勇作・阿部大輔・西村嘉人・草薙邦広(2015, August)「Writing MaetriXを用いた言語資源の構築と英語学習者のライティング・プロセスの解明」外国語教育メディア学会 第55回全国研究大会 公募シンポジウム. 千里ライフサイエンスセンター.

石井雄隆・石井卓巳・川口勇作・阿部大輔・西村嘉人・草薙邦広(2015, August)「Writing MaetriXを用いた言語資源の構築と英語学習者のライティング・プロセスの解明」外国語教育メディア学会 第55回全国研究大会 公募シンポジウム. 千里ライフサイエンスセンター.

More Related Content

2015LETシンポジウム コーパス構築について

  1. 1. WritingMaetriX Corpus Project 石井雄隆 早稲田大学 大学総合研究センター yutakaishii@aoni.waseda.jp
  2. 2. 内容 • 本プロジェクトの背景 • 学習者コーパス概観 • コーパスデザインについて 2
  3. 3. 社会的背景 • 社会の高度情報化・情報発信の低コスト化 – 大量のデータが常に生成されている • 記憶媒体の大容量化・通信の高速化 – 膨大なデータの蓄積 ⇒整理されていない膨大なデータ 3
  4. 4. データマイニング (Adriaans & Zantinge, 1998) • 大量のデータの中から規則性や関連性な ど意味あるパターンを自動的に抽出する 手法 • 従来,データ解析は多変量解析などの統 計的手法が主流であったが,1990 年代の 中頃,人工知能の分野におけるルールの 自動生成の研究が行われたことがデータ マイニングの発端 4
  5. 5. 高等教育の現状 • Romero and Ventura (2013)は、「教育 機関が直面する一つの大きな課題は,急 速な教育データの増加とその管理上の意 思決定の質を改善するためのデータの使 用である」ということを指摘している。 5
  6. 6. エデュケーショナルデータマイニング • エデュケーショナルデータマイニング (≒Learning Analytics and Knowledge; LAK)が近年,注目を集め ている。 →教育における問題を処理するために,教 育環境から得られる特別なデータ集合に対 してデータマイニング技術を適用する (Romero & Ventura, 2013) 6
  7. 7. 教育データの特性 • 異なる情報源(システム)から、学習者の活 動の膨大な量のデータが提供される • 全ての学生が活動や演習などを必ずしも完了 していないため、不完全なデータが存在する • データの粒度の異なる多様なデータがある – 性別・アンケート・テスト得点etc… 7
  8. 8. なぜデータマイニングを用いるのか • 統計解析より,大量のデータが扱える。 • 実用性を重視し、データ解析の探索的側面を 強調 • 欠損値などを含む不完全なデータに対し頑健 な分析ができる。 →統計解析にも欠損値を扱う方法は存在するが, データマイニング手法の方がより頑健であるこ とが指摘されている。 8
  9. 9. エデュケーショナルデータマイニング と関連する主な領域 (Romero & Ventura, 2013) 9
  10. 10. エデュケーショナルデータマイニング により可能になること (Bousbia & Belamri, 2013) • 学習者モデリング – 知識、スキル、モチベーション、満足度、メタ認 知、態度、学習の進捗状況などの詳細な情報が組 み込まれたモデル • 学習者の成績や学習成果の予測 • 適応的な情報推薦 • 学習者の行動解析 – 個別指導、適応、パーソナライゼーションなど • 学生に関するリアルタイムデータの視覚化 10
  11. 11. エデュケーショナルデータマイニングの ユーザー別目的 11 <教育者> -学習者の学習プロセス を理解し、教育方法に 反映 -教育のパフォーマンス を向上 -学習活動の認知的、行 動的側面の理解 <学習者> -状況に応じた学習者支援 -学習者に適したフィード バックや情報推薦の提供 -学習効果の増大 <管理者> 教育資源を配分 する最良の方法 を評価するため
  12. 12. エデュケーショナルデータマイニ ングの研究事例 データ 手法 目的 Romero, Romero, Luna & Ventura (2010) Webログデータ アソシエーショ ン・ルール・マイ ニング 成績とLMS上の活 動との間の関係性 と影響を評価 Krüger, Merceron & Wolf (2010) 練習問題の取り組 みに関するログ アソシエーショ ン・ルール・マイ ニング 学習者が学習資源 をどのように使用 したか解析 Peckham & McCalla (2012) ログデータ K-means法 分散分析 読解力のタスクに おける学習者の行 動パターンを同定 He (2013) 操作ログ テキストマイニン グ 学習者の操作の調 査 12
  13. 13. 本プロジェクトの意義 • 学習ログ・学習履歴を活用した新たな教 育手法の開発 • データマイニングを活用した外国語教育 研究の取り組み
  14. 14. Writing MaetriX Corpus Project • WMXに基づくコーパス構築計画 – 既存の学習者コーパスは,主に学習者のライティング・プ ロダクトを対象としたものであり,ライティング・プロセ スに十分な焦点を当ててきたとはいえない。 – WMXで記録した学習者の産出過程のデータを大量に蓄積す ることで,母語別・習熟度別の学習者のライティング・プ ロセスを横断的・縦断的に分析することが可能になる。そ こで,既存の学習者コーパスの構築手順に則りながら, Writing MaetriX Corpus Projectの概略を説明する。 14
  15. 15. 背景 • これまでのライティングプロセス 研究 • 刺激再生法 • 思考発話法 15
  16. 16. 思考発話法 (Bowles, 2010) • L1 writing • Comparing L1 and L2 writing strategies • The role of the L1 in L2 writing 16
  17. 17. 思考発話法の問題点 (内田, 1986) • 思考発話法は、タスクの遂行に干渉。 • 作文課題のような言語産出に関するタス クの場合は、思考発話における言語産出 と競合しがちであると指摘。 17
  18. 18. 背景 • タスクプロセス研究の近年の動向 • Révész (2013) –Eye-tracking –Keystroke Logging 18
  19. 19. 学習者コーパス概観(書き言葉) • International Corpus of Learner English (ICLE) • Japanese EFL Learner (JEFLL) Corpus • International Corpus of Crosslinguistic Interlanguage (ICCI) • Nagoya Interlanguage Corpus of English (NICE) • International Corpus Network of Asian Learners of English (ICNALE) 19
  20. 20. 学習者コーパス概観(話し言葉) • Louvain International Database of Spoken English Interlanguage (LINDSEI) • NICT-JLE Corpus 20
  21. 21. 学習者コーパスの可能性 (石川, 2008, p. 201) • 「学習者コーパスは,コーパス言語学の 中では比較的新しい分野であるが,今後, 言語教育への貢献が最も大きく期待され ている分野でもある。」 21
  22. 22. 学習者コーパス研究の必要性 (投野, 2013, pp. 13-14) • 「学習者コーパスの研究成果がSLA研究の分野 に大きなインパクトを与えているとはまだ言い がたい。」 • 「SLA研究者が使ってみたいと思うようなデー タ収集の方法を採用するなど,コーパス設計に 一段と工夫が必要。」 • 「学習者コーパス研究はまだ分野的にそこまで 成熟していない」 22
  23. 23. 石井 (2014) • 『英語コーパス研究』1号 (1994)-20号 (2013)掲載の計184本を多角的に調査。 • 日本人英語学習者コーパスの利用は10% に満たない。 23
  24. 24. これまでの学習者コーパス研究 • 既存の学習コーパスはプロダクト に焦点を当てており、プロセスは 調査することができない。 –コーパスの内的多様性に留意 すべき (McEnery & Hardie, 2012) –データ収集上の制限 (投野, 2013) 24
  25. 25. コーパスデザインについて 目標言語 タスク 学習者 モード データ採取 内的/認知的 [書き言葉 / 話し言葉] [横断的 / 縦断的] [年齢 / 学習スタイル] ジャンル 誘出 内的・情意的 [物語 / エッセイ / など] [自発的 / 準備あり] [動機付け / 態度] 文体 参考図書 母語背景 [叙事体 / 論説体] [辞書 / 原文 / など] [日本語 / 中国語 / など] トピック 時間制限 L2学習環境 [一般 / 娯楽 / など] [あり / なし / 宿題] [ESL/EFL] [学校レベル] L2習熟度 [標準テスト得点] (投野, 2013, p. 6)25
  26. 26. 目標言語 • モード:書き言葉 • ジャンル:argumentative 26
  27. 27. 目標言語 • トピック: 1. “It is important for college students to have a part time job.” 2. “Smoking should be completely banned at all the restaurants in the country.” 3. School Education 27
  28. 28. タスク • データ採取:横断的・縦断的 • 参考図書:なし • 時間制限:あり(20-60分) 28
  29. 29. 学習者 1. 性別 2. 年齢 3. 大学名・専攻・学年 4. 資格(英語テストのスコア)の取得状況 5. 英語学習歴 6. 海外滞在歴 7. 英語の使用頻度(5段階評価) 8. 作文を書くことに対する自信度(5段階評 価) 29
  30. 30. タスク遂行に関する主観的困難度 Ishikawa (2011) • concentration • this task required concentration. / this task did not require concentration • time pressure • I did not feel time pressure during task performance. / I felt time pressure during task performance • anxiety • this task made me anxious. / this task did not make me anxious • stress • I felt frustrated during task performance. / I did not feel frustrated during task performance • difficulty • this task was easy. / this task was difficult • interest • this task was interesting. / this task was difficult • ability • I did not do this task well. / I did this task very well • motivation • I want to do tasks like this. / I don’t want to do tasks like this 30
  31. 31. 学習者 • ライティングストラテジーに関する質問紙 以下の4つの観点から構成。 -Global Planning (Passage Level) -Local Planning (Word/Phrase/Sentence Level) -Review/Revision -Avoidance (Yamanishi, 2009) 31
  32. 32. Global Planning (Passage Level) • はじめに大まかに書いて,後で細かな修正をしながら 書いた。 • 内容がまとまるように文の順番を考えながら書いた。 • 内容をまとめるための表現を考えながら書いた。 • 表現に一貫性があるようにして書いた。 • 物語調で書こうとした。 • 日本語で考えを整理してから,英語で書いた。 • 課題で何が要求されているかを考えながら書いた。 • 課題の趣旨を読者に伝えるように書いた。 • 課題内容をよく理解してから書いた。 • 結び(文章のオチ)の表現に気を遣って書いた。 32
  33. 33. Local Planning (Word/Phrase/Sentence Level) • 冠詞や単数形や複数形に注意しながら書いた。 • 語と語の組み合わせ(イディオムなど)を考えながら 書いた。 • 思いついた英語の表現が日本語の意味にあっているか 考えながら書いた。 • 思いついた複数の表現から,最もふさわしい表現を選 びながら書いた。 • 次にどのような内容を書こうか考えながら書いた。 • 書きやすい表現を使えるように,書く内容を調整した。 • 定型的な表現(決まった言い回し)を気にしながら書 いた。 33
  34. 34. Review/Revision • 課題を見直して,書いた内容を修正した。 • 課題を見直して,足りない情報を書き足した。 • 書いた内容を見直して,表現が簡潔になるように修正 した。 • 書いた内容を見直して,全体的な表現(文章の構成な ど)を修正した。 • 書いた内容を見直して,足りない情報を付加した。 • 書いた内容を見直して,内容のまとまりが良くなるよ うに修正した。 • 書いた内容を見直して,不要な情報を削除した。 • 書いた内容を見直して,部分的な表現(文法,つづり など)を修正した。 34
  35. 35. Avoidance • どのように書こうか考えたが,あきらめて作文を終了した。 • 書いている途中に違和感を覚えたが,そのまま書き進めた。 • 書きたい内容はあったが,表現が思い浮かばなかったので書 かなかった。 • 書きにくそうな箇所は書かなかった。 • 日本語では書けても英語で表現するのが難しい内容は書かな かった。 • 書き足りない内容があったが,書くと大変そうだったから書 かなかった。 • 書こうとした内容はあったが,ぼろを出さないように書かな かった。 • 文のつながりがおかしいと感じた箇所があったが,気にしな いようにした。 35
  36. 36. 現在のデータ収集状況 • プロセス • プロダクト • 学習者の属性情報 • 342名のデータを収集
  37. 37. データ収集プロセス • 3クラス(人間科学・熟達度低、人文(文 化)学・熟達度上の中、医学・熟達度中の 中)で実施 • 執筆時間は、20分~40分を目安に最大60分 • 執筆語数は、200~300語を目安に、書きた い内容に対して文量が足りなければ300語以 上(=可能な限り多く)書くことも可 • 辞書やウェブサイト等の使用は禁 • 授業内で実施しており監督者有り
  38. 38. 本コーパスにより可能になること • 母語別・習熟度別の学習者のライティン グの時系列分析・誤りの質的分析など • ライティング・プロセスとライティン グ・プロダクトの関係性や相互作用の解 明 38
  39. 39. 参考文献 • 石井卓巳(2014)「日本の英語コーパス言語学の研究課題・手法の変遷: 『英語コーパス研究』掲載論文を用いた基礎的検討」LET関西支部メソドロジー研究部会2014 年度第1回研究会. 関西大学. • 石川慎一郎(2008)『英語コーパスと言語教育:データとしてのテクスト』大修館書店. • 内田伸子(1986)「作文の心理学 : 作文の教授理論への示唆 : 展望」『教育心理学年報』, 25, 162-177. • 投野由紀夫(2013)「学習者コーパス研究のこれまでとこれから」投野由紀夫・杉浦正利・和 泉絵美・金子朝子 (編著)『英語学習者コーパス活用ハンドブック』大修館書店. pp.4-18. • Adriaans, P., & Zantinge, D. (1998). Data Mining. Harlow: AddisonWesley. • Bousbia, N., and Belamri, I. (2013). Which Contribution Does EDM Provide to Computer-Based Learning Environments? In A. Peña-Ayala (Ed.), Educational Data Mining Applications and Trends. Dordrecht: Springer. • Bowles , M. A. (2010). The think-aloud controversy in second language research. London: Routledge. • He, W.(2013). Examining students’ online interaction in a live video streaming environment using data mining and text mining. Computers in Human Behavior, 29(1), pp.90-102. • Ishikawa, T. (2011). Examining the influence of intentional reasoning demands on learner perceptions of task difficulty and L2 monologic speech. P. Robinson (Ed.), Second Language Task Complexity: Researching the Cognition Hypothesis of Language Learning and Performance (pp. 307-330). The Netherlands: John Benjamins. 39
  40. 40. 参考文献 • Krüger, A., Merceron, A., & Wolf, B. (2010). A data model to ease analysis and mining of educational data. In M. Pechenizkiy et al. (Eds.), Proceedings of the 3rd International Conference on Educational Data Mining 2010, pp.131–140. Eindhoven, The Netherlands: International EDM Society. • McEnery, T., & Hardie, A. (2012). Corpus linguistics: Method, theory and practice. Cambridge University Press. • Peckham, T., & McCalla, G.(2012). Mining Student Behavior Patterns in Reading Comprehension Tasks. In Proceedings of the 5th international conference on educational data mining, pp.87–94. • Révész, A. (2013). Exploring processes and outcomes in task-based research: The use of mixed methods approaches. Mixed-Methods in SLA: Benefits and Challenges. Lecture conducted from University of Barcelona, Spain. • Romero, C., & Ventura, E. (2013). Data mining in education. Data Mining and Knowledge Discovery, 3 (1), 12–27 • Romero, C., Romero, J. R., Luna, J. M., & Ventura, S.(2010). Mining Rare Association Rules from e-Learning Data. In Proceeding of The Third International Conference of Education Data Mining, pp. 171-180. Pittsburgh, USA. • Yamanishi, H. (2009). Japanese EFL Learners’ Use of Writing Strategies: A Questionnaire Survey. The Bulletin of the Writing Research Group, JACET Kansai Chapter, 8, 53-64. 40

×