Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
ナイーブベイズ分類の
プレイスメント・テストへの応用
外国語教育メディア学会(LET)第53回全国研究大会
2013年8月8日(木) 文京学院大学
流通科学大学
住 政二郎
山本 勝巳
濱田 真由美
目的
1.プレイスメント・テストの作成
2.ナイーブベイズ分類(Naive Bayes classification)による
レベル別クラス判定
背景
多くの大学で標準テストを用いたプレイスメント・テストを実施
本学も2012年度まで TOEIC Bridge®
テストを活用
→上級(20%)、中級(60%)、総合(20%)
標準テストをプレイスメントに利用することのメリット
・知名度の高さ
・信頼性
・波及効果が期待できる
・各種標準テストとの相関
・母集団との比較
・コスト
・テストにかかる時間
・受験者がテスト形式に不慣れであること
・クラス分けの目的以上のスペック
・テスト項目が不明なため、受験者の弱点を
細かく把握できない
標準テストをプレイスメントに利用することのデメリット
本学における現状
入試制度の柔軟化
 →多様化する学生の英語力
 →プレイスメント・テストの受験負担が大きい
【学生への負担】
テスト日程の確保、ガイダンス、テスト運営
短期間でのクラス分け
 →プレイスメント・テストの運営負担が大きい
【運営...
現状では、標準テストは学生を3つのレベルに
分けるためだけに利用されている。
この目的のためだけに負担の大きい標準テストを
利用する必要性はあるのか?
標準テストをプレイスメントに利用することへの疑問
大切なことはテストでクラス分けすること
で...
1.プレイスメント・テストの作成と実施
2.ナイーブベイズ分類(Naive Bayes classification)による
レベル別クラス判定
目的
1.プレイスメント・テストの作成
・2004年–2012年 入試過去問題
・語彙・文法セクションの問題(1,000問)
・語彙・文法:本学が求める英語力を基準に統制
・語彙・文法の問題を正答率で並べ替え
・正答率10%刻みで100問を抜粋
→プ...
1.プレイスメント・テストの作成
・2013年1月、全学部生1,489名、α = .799
・ラッシュモデルによる項目分析と調整
n = 945(再履修カット), M = 41.2, SD = 9.3, α = .78,
Step 2:プレイス...
入試過去問題正答率
Q80 (26.3%)–Q100 (3.2%)
入試過去問題正答率
Q1 (99.1%)–Q20 (80.1%)
Q100: δ = 2.73, infit MNSQ = .98
Q5: δ = -3.42, infit MNS...
2.ナイーブベイズ分類によるレベル別クラス判定
テスト結果を使ったクラス分け
シンプルな方法:
素点による分類
しかし, 同じ得点の差を判別できない
ナイーブベイズ分類
ナイーブベイズ分類
・確率モデルに基づきデータを分類
ex. 迷惑メールの分類
・確率モデルを事前に設定することにより、
得られたデータを簡便に分類することができる
・教育的意図(経験、期待値)を分類に反映することができる
・確率モデルを更新(...
・在学生1,489名のテスト結果から;
→各レベル(上級、中級、& 総合)ごとに、
問題項目の正答確率を算出
→ レベル別問題項目尤度の設定
  →各レベルのPerson-Item Map の分布を参考に
   事前確率を設定
→→ 確率モデル...
ベイズの定理
P(A|B) =
P(B|A)P(A)
P(B)
もし∼∼だったら、∼∼する
原因(判断材料) 結果
事象:原因と結果の確率的な連鎖
P(A|B) =
P(B|A)P(A)
P(B)
ベイズの定理
A:原因や仮定(Hypothesis)
B:Aのもとで得られた結果やデータ(Data)
ベイズの発展定理
ベイズの発展定理 P(H|D) =
P(D|H)P(H)
P(D)
P(H...
原因 H1 原因 H2 原因 H3
データ D
正解 or 不正解
上級 中級 総合
P(D) = P(D|H1)P(H1) + P(D|H2)P(H2) P(D|H3)P(H3)+
データ D
正解 or 不正解
上級 中級 総合
上級
中級
総合
ADV
MID
BAS
予備テスト(2013年1月実施)の結果を使って
ナイーブベイズ分類判定表で分類
既存クラス構成との一致度 68.33%
2013年3月
英語専修の入学生 653名対象に
プレイスメント・テスト実施
・M = 37.31, SD = 11.45, α = . 855結果
Q96: δ = 1.41, infit MNSQ = 1.15
Q5: δ = -2.95, infit MNSQ = .92
・極端なミスフィット
(infit MSNQ 0...
結果
・学生、運営側双方の負担の軽減
・2014年度はMoodleで実施し、判定とクラス分けの自動化
・入学者の弱点を個別に把握→入学後の教育に活用
・より少ない問題数でレベル判定が可能
・ベイズとラッシュモデルの組み合わせ
定性的なデータを定...
ナイーブベイズ分類のMoodleモジュールの開発
・電子化された過去問題を正答率順にMoodleで提供
・全学部の授業で利用
・プレイスメントテストから2年次の到達度テストまで
一貫した指導体制の整備
・2年間で合計5回のテストで
到達度の確認
2年間を一貫した指導体制の整備
M = 19.04
SD = 6.25
n = 451
31 items
M = 22.41
SD = 5.86
英語Ⅰ
n = 433
16 items
M = 5.55
SD = 2.19
M = 7.89
SD = 3.48
英語Ⅲ
今後の課題
・2年間で5回ある統一到達度テストの結果から経年的な変化の観察
・必要に応じて問題項目の追加と改善
・指導内容への反映と,到達度テストとの連動性の向上
・項目別尤度を活かしたCATの開発
 →日常的な授業・自習支援ツール
   →授...
130729【let53全国研究大会】003.key
Upcoming SlideShare
Loading in …5
×

130729【let53全国研究大会】003.key

1,101 views

Published on

  • Be the first to comment

  • Be the first to like this

130729【let53全国研究大会】003.key

  1. 1. ナイーブベイズ分類の プレイスメント・テストへの応用 外国語教育メディア学会(LET)第53回全国研究大会 2013年8月8日(木) 文京学院大学 流通科学大学 住 政二郎 山本 勝巳 濱田 真由美
  2. 2. 目的 1.プレイスメント・テストの作成 2.ナイーブベイズ分類(Naive Bayes classification)による レベル別クラス判定
  3. 3. 背景 多くの大学で標準テストを用いたプレイスメント・テストを実施 本学も2012年度まで TOEIC Bridge® テストを活用 →上級(20%)、中級(60%)、総合(20%)
  4. 4. 標準テストをプレイスメントに利用することのメリット ・知名度の高さ ・信頼性 ・波及効果が期待できる ・各種標準テストとの相関 ・母集団との比較
  5. 5. ・コスト ・テストにかかる時間 ・受験者がテスト形式に不慣れであること ・クラス分けの目的以上のスペック ・テスト項目が不明なため、受験者の弱点を 細かく把握できない 標準テストをプレイスメントに利用することのデメリット
  6. 6. 本学における現状 入試制度の柔軟化  →多様化する学生の英語力  →プレイスメント・テストの受験負担が大きい 【学生への負担】 テスト日程の確保、ガイダンス、テスト運営 短期間でのクラス分け  →プレイスメント・テストの運営負担が大きい 【運営(職員・教員)への負担】 加えて、
  7. 7. 現状では、標準テストは学生を3つのレベルに 分けるためだけに利用されている。 この目的のためだけに負担の大きい標準テストを 利用する必要性はあるのか? 標準テストをプレイスメントに利用することへの疑問 大切なことはテストでクラス分けすること ではなく、その結果をその後の教育内容に 生かすことではないのか?
  8. 8. 1.プレイスメント・テストの作成と実施 2.ナイーブベイズ分類(Naive Bayes classification)による レベル別クラス判定 目的
  9. 9. 1.プレイスメント・テストの作成 ・2004年–2012年 入試過去問題 ・語彙・文法セクションの問題(1,000問) ・語彙・文法:本学が求める英語力を基準に統制 ・語彙・文法の問題を正答率で並べ替え ・正答率10%刻みで100問を抜粋 →プレイスメント・テスト ver. 1.0 β の作成 Step 1:プレイスメント・テストの作成
  10. 10. 1.プレイスメント・テストの作成 ・2013年1月、全学部生1,489名、α = .799 ・ラッシュモデルによる項目分析と調整 n = 945(再履修カット), M = 41.2, SD = 9.3, α = .78, Step 2:プレイスメント・テストの確認
  11. 11. 入試過去問題正答率 Q80 (26.3%)–Q100 (3.2%) 入試過去問題正答率 Q1 (99.1%)–Q20 (80.1%) Q100: δ = 2.73, infit MNSQ = .98 Q5: δ = -3.42, infit MNSQ = .96 infit MSNQ 0.75以下, 1.3以上なし
  12. 12. 2.ナイーブベイズ分類によるレベル別クラス判定 テスト結果を使ったクラス分け シンプルな方法: 素点による分類 しかし, 同じ得点の差を判別できない ナイーブベイズ分類
  13. 13. ナイーブベイズ分類 ・確率モデルに基づきデータを分類 ex. 迷惑メールの分類 ・確率モデルを事前に設定することにより、 得られたデータを簡便に分類することができる ・教育的意図(経験、期待値)を分類に反映することができる ・確率モデルを更新(ベイズ更新)することにより、 教育機関独自の判定ルールを構築することができる
  14. 14. ・在学生1,489名のテスト結果から; →各レベル(上級、中級、& 総合)ごとに、 問題項目の正答確率を算出 → レベル別問題項目尤度の設定   →各レベルのPerson-Item Map の分布を参考に    事前確率を設定 →→ 確率モデルを構築 確率モデルの構築   上級,中級,総合 問1: 80% 60% 40% 問2: 74% 56% 37%
  15. 15. ベイズの定理 P(A|B) = P(B|A)P(A) P(B) もし∼∼だったら、∼∼する 原因(判断材料) 結果 事象:原因と結果の確率的な連鎖
  16. 16. P(A|B) = P(B|A)P(A) P(B) ベイズの定理 A:原因や仮定(Hypothesis) B:Aのもとで得られた結果やデータ(Data) ベイズの発展定理 ベイズの発展定理 P(H|D) = P(D|H)P(H) P(D) P(H|D) データ(D)の原因確率
  17. 17. 原因 H1 原因 H2 原因 H3 データ D 正解 or 不正解 上級 中級 総合
  18. 18. P(D) = P(D|H1)P(H1) + P(D|H2)P(H2) P(D|H3)P(H3)+ データ D 正解 or 不正解 上級 中級 総合 上級 中級 総合
  19. 19. ADV MID BAS
  20. 20. 予備テスト(2013年1月実施)の結果を使って ナイーブベイズ分類判定表で分類 既存クラス構成との一致度 68.33%
  21. 21. 2013年3月 英語専修の入学生 653名対象に プレイスメント・テスト実施
  22. 22. ・M = 37.31, SD = 11.45, α = . 855結果 Q96: δ = 1.41, infit MNSQ = 1.15 Q5: δ = -2.95, infit MNSQ = .92 ・極端なミスフィット (infit MSNQ 0.75以下, 1.3以上)なし
  23. 23. 結果 ・学生、運営側双方の負担の軽減 ・2014年度はMoodleで実施し、判定とクラス分けの自動化 ・入学者の弱点を個別に把握→入学後の教育に活用 ・より少ない問題数でレベル判定が可能 ・ベイズとラッシュモデルの組み合わせ 定性的なデータを定量的なフレームワークに落とし込む 教材開発や指導内容の改善に活用
  24. 24. ナイーブベイズ分類のMoodleモジュールの開発
  25. 25. ・電子化された過去問題を正答率順にMoodleで提供 ・全学部の授業で利用 ・プレイスメントテストから2年次の到達度テストまで 一貫した指導体制の整備 ・2年間で合計5回のテストで 到達度の確認 2年間を一貫した指導体制の整備
  26. 26. M = 19.04 SD = 6.25 n = 451 31 items M = 22.41 SD = 5.86 英語Ⅰ
  27. 27. n = 433 16 items M = 5.55 SD = 2.19 M = 7.89 SD = 3.48 英語Ⅲ
  28. 28. 今後の課題 ・2年間で5回ある統一到達度テストの結果から経年的な変化の観察 ・必要に応じて問題項目の追加と改善 ・指導内容への反映と,到達度テストとの連動性の向上 ・項目別尤度を活かしたCATの開発  →日常的な授業・自習支援ツール    →授業デザインへの反映 謝辞 本研究はJSPS科研費25870967の助成を受けたものです。

×