近藤伸彦, 松田岳士
首都大学東京大学教育センター
教学IRにおける
予測モデル活用の枠組み
19 August 2017
1
はじめに
2
19 August 2017
ICTの発展
(日本の)
高等教育
質的転換答申
学士課程答申 ユニバーサル化
MOOCs
質保証
人工知能
IoT
Business
Intelligence
少子高齢化
教学IR
中退問題
学生の多様化
説明責任
Learning Analytics
Educational Data Mining
データ
サイエンス
ビッグデータ
個に応じたこれからの学習(修学)支援
↓
IRとLAの融合
データ活用の深化と「予測」
 ビッグデータやデータサイエンスの
文脈では……
 第一段階としての「見える化」から、
「予測」や「自動検出」、
「自動制御」へと深化しつつある
 教育分野においても
「予測」の果たす役割は大きくなりつつある
3
26 April 2017
(総務省,H26情報通信白書より)
教育分野での予測モデル活用
 Brooks and Thompson(2017)
 LAやEDMにおける予測モデル活用についてまとめ
 構築プロセス
 具体的なモデルの種類
 実践例
 課題
4
19 August 2017
C. Brooks and C. Thompson, “Predictive Modelling in Teaching and Learning”,
Handbook of Learning Analytics, pp. 61-68, 2017.
なにを予測するか
 予測する対象
 学生の成功(student success)
 学習成果
 ある教育方法による教育成果
 リテンション
 学習上のリスク(academic risk) など
 あらゆるものが予測対象になりうる
 機関ごとの目的による
5
19 August 2017
C. Brooks and C. Thompson, “Predictive Modelling in Teaching and Learning”,
Handbook of Learning Analytics, pp. 61-68, 2017.
予測モデルと説明モデル
 予測モデル(predictive model)と
説明モデル(explanatory model)を区別する重要性
 予測モデルの目的
 未知のデータに対する予測を与える
 説明モデルの目的
 これまでの結果や現象を分析し説明(解釈)を与える
※一般に、機械学習は予測、
統計学的手法は説明に重きを置くことが多いと言われる
6
19 August 2017
C. Brooks and C. Thompson, “Predictive Modelling in Teaching and Learning”,
Handbook of Learning Analytics, pp. 61-68, 2017.
教学IRでは?
 (教学)IRにおいては、
従来的には「説明」がメインだったと思われる
 記述統計、推測統計、可視化
 近年は、教学IRにおいても
(主に機械学習による)「予測」を扱う研究が増加
 成績、単位修得、留年・退学等の予測
(予稿で引用した例はおそらくごく一部)
 教学IRの機能である「意思決定支援」や
「学習(修学)支援」においても、
今後は「予測」にもとづくことが
おそらくいっそう求められる
7
19 August 2017
予測モデル活用を実質化するには?
 予測モデル活用の研究事例は多いが…
 用いるデータ(変数)は大学によって異なる
→ 文脈が異なるので当然
(国公私立、大学規模、学問分野、3ポリシー等)
 ある大学での研究結果が
他大学にどれだけ示唆を与えられるか……
 教学IRにおける予測モデル活用の実質化には……
 個々の大学が自身の文脈に応じて自ら
予測モデルを構築し、結果を評価することが必要
 そうした事例の共有、ノウハウの共有が必要
→ 本発表では、
教学IRにおける予測モデル活用の「枠組み」を考える
8
19 August 2017
教学IRにおける
予測モデル活用の枠組み
9
19 August 2017
予測モデル
 よくある予測(分類)モデルの例
 たくさんのラベル(正解)付き画像をもとに
予測モデルを「学習」させる
10
19 August 2017
これは
猫です
入力
(例えば画像)
出力
ニューラルネットワーク
予測モデル
11
19 August 2017
予測
モデル
𝑓(𝑋; 𝜃)
入力
(説明変数)
出力
(目的変数)
𝑋1
𝑋2
𝑋3
𝑋4
𝑋5
𝑋 𝑑
𝑌
連続値→回帰モデル
離散値→分類モデル
𝑓:入力から出力への写像
(線形または非線形の関数または確率分布、
あるいはその組み合わせ)
𝜃: 𝑓のパラメータ ←これをデータから学習
機械学習による予測モデル構築の例
12
19 August 2017
性別
入学前学習提出度
入試区分
機械学習
モデル
(非線形
写像)
学部
入学直後オリエンテーション出席率
1年次春学期 1~5週目出席率
1年次春学期 11~15週目出席率
1年次春学期GPA
3年次当初
在籍? 退学?
1年次春学期 6~10週目出席率
入力 出力
ニューラルネットワーク
決定木
サポートベクターマシン…
入学前~
1年次春学期まで
経年後の
在籍状態
予測
入
学
前
入
学
直
後
春
学
期
末
近藤伸彦,畠中利治, “学士課程における大規模データに基づく学修状態のモデル化”,
教育システム情報学会誌, Vol.33, No.2, pp.94-103, 2016.
予測モデルの構築
 予測モデル構築の際に決める必要があること
1) 目的変数(出力)にどの変数を用いるか.
2) 説明変数(入力)にどの変数を用いるか.
3) どの予測モデルを用いるか.
4) 予測モデルの構造やパラメータ,
学習アルゴリズムをどのように定めるか.
5) 予測モデルの性能をどのように評価するか.
13
19 August 2017
予測モデルの構築
14
19 August 2017
予測
モデル
𝑓(𝑋; 𝜃)
入力
(説明変数)
出力
(目的変数)
𝑋1
𝑋2
𝑋3
𝑋4
𝑋5
𝑋 𝑑
𝑌
𝑓:入力から出力への写像
𝜃: 𝑓のパラメータ ←これをデータから学習
1) 目的変数(出力)に
どの変数を用いるか
2) 説明変数(入力)に
どの変数を用いるか
3) どの予測モデルを用
いるか
4) モデルの
構造やパラ
メータ,学
習アルゴリ
ズムをどの
ように定め
るか
5) 予測モデ
ルの性能を
どのように
評価するか
予測モデルの構築
 予測モデル構築の際に決める必要があること
1) 目的変数(出力)にどの変数を用いるか.
2) 説明変数(入力)にどの変数を用いるか.
3) どの予測モデルを用いるか.
4) 予測モデルの構造やパラメータ,
学習アルゴリズムをどのように定めるか.
5) 予測モデルの性能をどのように評価するか.
15
19 August 2017
教務課 学生課
個人情報
学生相談履歴
成績
アルバイト
サークル・部活
奨学金
授業出欠
入学前学習
アドミッションズ
オフィス
入試区分
出身校
高校評定
キャリアサポー
トセンター
就職率
就職先
就活状況
入試成績 面談履歴
履修
利用状況
学習支援
センター
基礎学力
ポートフォリオ
チューター報告
情報センター
学生アンケート
検定結果
LMSログ
新入生オリエン
異動履歴
授業課題
各教員
テスト結果
レポート
図書館
入館記録
「学生」に関するデータ
19 August 2017
16
貸出記録
その他、たくさん。。。
• 出身高校
 課程種別
 高校ランク
 評定値
• 入試情報
 入試区分
 成績
• 入学前学習
 取組状況
 提出物
• 導入教育
 オリエン出欠
 テスト結果
 課題提出
 アンケート
入学前 入学 各セメスター 4年次 卒業
• 履修登録
 履修科目
• 授業
 出欠状況
 課題提出
 LMSログ
 テスト結果
 学習支援
センター
 アンケート
• 学生生活
 イベント参加状況
 部活・サークル
 アンケート
 課題活動
 アルバイト等
 インターンシップ等
 図書館利用状況
 資格取得状況
• 成績
 科目成績
 GPA
 面談記録
• 就業力育成
 目標設定
 自己アピール
• 就業力育成
 振り返り
 プレゼン映像
• 就職活動
 活動履歴
 内定状況
• 卒業後
 満足度
 アンケート
学生データをどのように扱うか(コンセプト)
 学生データを時系列に整理した学修ライフログ
17
19 August 2017
学生ごとにデータ紐付け
近藤伸彦,畠中利治, “学士課程における大規模データに基づく学修状態のモデル化”,
教育システム情報学会誌, Vol.33, No.2, pp.94-103, 2016.
変数を時系列に整理
変数名 内容 クラス(とりうる値) 時期 Type
Gender 性別 M, F 入学前 1
Dept 所属学部 a, b, c 入学前 1
Adm 入試種別 一般前期, 一般後期, 推薦, 指定校, AO 入学前 1
Preuniv 入学前学習課題提出度 high, low 入学前 3
kickoff 新入生オリエンテーション出席度 complete, medium, low 入学直後 3
1SP1atd 1年前期1~5週必修出席率 [0, 0.5], (0.5, 0.8], (0.8, 1] 1年前期初 3
1SP2atd 1年前期6~10週必修出席率 [0, 0.5], (0.5, 0.8], (0.8, 1] 1年前期中間 3
1SP3atd 1年前期11~15週必修出席率 [0, 0.5], (0.5, 0.8], (0.8, 1] 1年前期末 3
1SPGPA 1年前期GPA [0, 1.5], (1.5, 3.0], (3.0, 4.0] 1年前期末 2
1SPcred 1年前期修得単位数 [0, 12], (12, 20] 1年前期末 2
1st_Oct 1年次10月在籍状態 OK, notOK 1年後期初 3
1AU1atd 1年後期1~5週必修出席率 [0, 0.5], (0.5, 0.8], (0.8, 1], NA 1年後期初 3
1AU2atd 1年後期6~10週必修出席率 [0, 0.5], (0.5, 0.8], (0.8, 1], NA 1年後期中間 3
1AU3atd 1年後期11~15週必修出席率 [0, 0.5], (0.5, 0.8], (0.8, 1], NA 1年後期末 3
1AUGPA 1年後期GPA [0, 1.5], (1.5, 3.0], (3.0, 4.0], NA 1年後期末 2
1AUcred 1年後期修得単位数 [0, 12], (12, 26], NA 1年後期末 2
2nd_Apr 2年次4月在籍状態 OK, notOK 2年前期初 3
2SPGPA 2年前期GPA [0, 1.5], (1.5, 3.0], (3.0, 4.0], NA 2年前期末 2
2SPcred 2年前期修得単位数 [0, 12], (12, 26], NA 2年前期末 2
2nd_Oct 2年次10月在籍状態 OK, notOK 2年後期初 3
2AUGPA 2年後期GPA [0, 1.5], (1.5, 3.0], (3.0, 4.0], NA 2年後期末 2
2AUcred 2年後期修得単位数 [0, 12], (12, 26], NA 2年後期末 2
3rd_Apr 3年次4月在籍状態 OK, notOK 3年前期初 3
18
19 August 2017
近藤伸彦,畠中利治, “ベイジアンネットワークによる修学状態推移モデルの構築”,
日本教育工学会論文誌, 第41巻第3号, 2017(採録決定).
学修ライフログからの予測モデル変数抽出
19
19 August 2017
性別
入学前学習提出度
入試区分
予測
モデル
学部
入学直後オリエンテーション出席率
1年次春学期 1~5週目出席率
1年次春学期 11~15週目出席率
1年次春学期GPA
3年次当初
在籍状態
1年次春学期 6~10週目出席率
学修
ライフログ
変数抽出
入力
(説明変数)
出力
(目的変数)
目的変数より時系列上
で過去のものを抽出
予測モデルを用いて
何をしたいか、
にもとづいて抽出
時間経過にともなう変数の任意抽出
 注目する時点に応じて
説明変数・目的変数を抽出
20
19 August 2017
15週目
出席
2週目
出席
学部
性別
入学前
学習
基礎
テスト
ガイダンス
出席
サークル
入部
1週目
出席
前期
成績
履修
登録
面談
記録入試
種別
時系列
入学前後 1年次前期 1年次後期
15週目
出席
2週目
出席
1週目
出席
後期
成績
履修
登録
面談
記録
……
在籍
状態
在籍
状態
15週目
出席
2週目
出席1週目
出席
後期
成績
履修
登録
面談
4年次後期
進路LMSログ LMSログ LMSログ
予測
モデル 退学リスク予測
予測
モデル
退学リスク予測
成果予測
変数の特徴
 ここで、変数の「教学IR的な特徴」を考える
 Type 1は「変更できないもの」→説明モデル的
 Type 2は「目標」
 Type 3は「学生次第でコントロールできるもの」
 Type 4は「大学次第でコントロールできるもの」
21
19 August 2017
タイプ 概要 例
Type 1 個人属性(入学前に確定
しているもの)
性別、年齢、出身地、出身校、高校の成
績、入試種別、入試成績など
Type 2 学習成果 GPA、科目毎の成績、テストの点数、修
得単位数、就職先など
Type 3 行動の結果や状態 出席率、課題提出率、サークル在籍の有
無、休退学・留学等の在籍状態など
Type 4 大学からの介入の有無 アカデミックアドバイザーや教員、学習
支援員からの連絡など
近藤伸彦,畠中利治, “ベイジアンネットワークによる修学状態推移モデルの構築”,
日本教育工学会論文誌, 第41巻第3号, 2017(採録決定).
こう整理しておくと
見通しがよくなる
かも……
予測モデルの構築
 予測モデル構築の際に決める必要があること
1) 目的変数(出力)にどの変数を用いるか.
2) 説明変数(入力)にどの変数を用いるか.
3) どの予測モデルを用いるか.
4) 予測モデルの構造やパラメータ,
学習アルゴリズムをどのように定めるか.
5) 予測モデルの性能をどのように評価するか.
22
19 August 2017
どんなモデルを使うか
 教育データの予測モデルによく使われるもの
 線形回帰,ロジスティック回帰
 最近傍法
 決定木
 ナイーブベイズ分類器,ベイジアンネットワーク
 サポートベクターマシン
 ニューラルネットワーク
 アンサンブル法
 問題によって異なるので予備調査が必要
23
19 August 2017
C. Brooks and C. Thompson, “Predictive Modelling in Teaching and Learning”,
Handbook of Learning Analytics, pp. 61-68, 2017.
予測モデルの構築
 予測モデル構築の際に決める必要があること
1) 目的変数(出力)にどの変数を用いるか.
2) 説明変数(入力)にどの変数を用いるか.
3) どの予測モデルを用いるか.
4) 予測モデルの構造やパラメータ,
学習アルゴリズムをどのように定めるか.
5) 予測モデルの性能をどのように評価するか.
24
19 August 2017
予測モデル
25
19 August 2017
予測
モデル
𝑓(𝑋; 𝜃)
入力
(説明変数)
出力
(目的変数)
𝑋1
𝑋2
𝑋3
𝑋4
𝑋5
𝑋 𝑑
𝑌
連続値→回帰モデル
離散値→分類モデル
𝑓:入力から出力への写像
(線形または非線形の関数
もしくは確率分布、あるいはその組み合わせ)
𝜃: 𝑓のパラメータ ←これをデータから学習
モデルの学習をいかに行うか
 「学習データ」を用いて、
モデルのパラメータを統計的に「学習」する
 入力値と出力値が対になっている学習データ
→教師あり学習
 (入力値のみの学習データ→教師なし学習)
 学習に用いていない未知のデータを予測できることが
必要(汎化能力)
 パラメータや学習アルゴリズムによって変化する
 「構造の複雑さ」の問題
 精度と汎化能力のトレードオフ
 情報量規準、交差検証などさまざまな方法がある
26
19 August 2017
予測モデルの構築
 予測モデル構築の際に決める必要があること
1) 目的変数(出力)にどの変数を用いるか.
2) 説明変数(入力)にどの変数を用いるか.
3) どの予測モデルを用いるか.
4) 予測モデルの構造やパラメータ,
学習アルゴリズムをどのように定めるか.
5) 予測モデルの性能をどのように評価するか.
27
19 August 2017
いかにモデルの良さを評価するか
 基本的には汎化能力が必要
 学習に用いていないテストデータに対する
誤差を小さくする
 教育における予測の多くは離散値の予測
→パターン分類問題
 Precision(適合率):誤検出しない割合
 Recall(再現率):見逃さない割合
 F値:PrecisionとRecallの調和平均
 ROC曲線:偽陽性率と真陽性率の2次元プロット
 連続値の場合はMSE(平均二乗誤差)など
28
19 August 2017
教学IRにおける
予測モデル構築の支援ツール
29
19 August 2017
教学IRにおける予測モデル活用
 機械学習はかなりカジュアルになってきた
 PythonやRなどのプログラミング言語
 Wekaなどのツール
 とはいえ、ハードルが高そう。。。
 教学IRにおける勘所をおさえながら
どうやって予測モデルをつくって、
どうやってその結果をみるべきか。。。
 教学IRに特化した、
簡単な操作で予測モデルを構築できるツールを
「第一段階として」用意してみるのはどうか?
30
19 August 2017
予測モデル構築支援ツール
 教学IRで予測モデルを使用するための
ごく簡易なツールの作成を準備中
 ツールの目的は、
「まずやってみる」ことができるようにすること
 「とっかかりやすさ」を重視
 本格的な導入の前段階として
 標準的な手順の誘導
 その後・・・
 やってみた結果の事例共有
 教学IR担当者の予測モデル活用リテラシーの涵養
 あくまで「クリックすれば結果が出て来る」を
推奨するものではない
31
19 August 2017
進捗状況
 プロトタイプ、まだできてません。。。
 今回は大まかな構想をお示しします
 ある程度開発が進み次第、
Web等で順次公開できれば…と考えています
32
19 August 2017
予測モデル構築支援ツール
 以下のような手順を想定
 Step 1: 学修ライフログの作成
 格納するデータをCSV形式で作成
 変数ごとに、学生IDとデータの2列のCSV
 変数を登録
 変数名、変数Type、変数の時期
 Step 2: 目的変数、説明変数の選択
 Step 3: 予測モデルの選択
 Step 4: 各種パラメータの設定
 Step 5: 結果の表示とモデルの評価
33
19 August 2017
CSV
データ
CSV
データ
CSV
データ
ツールの手順
34
19 August 2017
システム
DB
CSV
データ
変数を想定し、
変数ごとに
データを用意
登録
目的変数・説明変数選択
目 説
☑ □ 変数1 入学前 type1
□ □ 変数2 1年前期 type3
□ ☑ 変数3 1年後期 type2
・・・
予測モデル
パラメータ1
パラメータ2
・・・
①学修ライフログ作成
▼ ロジスティック回帰
0.01
20
②変数選択
③モデル選択
④パラメータ設定
Sample size:500
Model: logistic
Output: ***
10-fold CV
Accuracy 0.77
Precision 0.85
Recall 0.69
・・・
⑤結果の
表示
スタンドアローンで作動するGUIベースで、
CSVさえ用意すれば予測モデルが作れる、
というものを構想(最初はややこしくしない)
課題
 今回の構想の範囲は「データがあることありき」
 学修ライフログに使用できるデータを
収集したり整備したりすることは
IRのマネジメントの問題として切り分け
 「生データ」から「変数」の形へ整形する部分
 データクレンジング
 連続変数の離散化
 特徴量抽出(特徴量エンジニアリング)
 LMSログから「ログイン回数」という特徴量を作るなど
 本当はここがキモだったりしますが。。。
 特徴量選択
35
19 August 2017
まとめ・今後に向けて
 教学IRにおける予測モデル活用の実質化には……
 個々の大学が自身の文脈に応じて自ら
予測モデルを構築し、結果を評価することが必要
 そうした事例の共有、ノウハウの共有が必要
 まずは個々の大学でやってみて結果を検討
 それらを持ち寄り、
予測モデル活用についての勉強会、研究会
 モデル構築のノウハウ、モデルの活用方法などを
個々の大学にて活かす
 というビジョンの下支えになるツールになれば……
36
19 August 2017
ご清聴ありがとうございました
37
19 August 2017
近藤 伸彦
e-mail: kondo@tmu.ac.jp
twitter: @nobuhiko_kondo
Facebook: nobuhiko.kondo

教学IRにおける予測モデル活用の枠組み

Editor's Notes