SlideShare a Scribd company logo
“グラフ”でつながり、
可視化されるデータ
パート2 可視化されるデータ編
学習ログと公的統計データを組み合わせた分析アプローチ
株式会社デジタル・ナレッジ
プラットフォーム事業部 教育ビッグデータチーム
田中 伸一
Agenda
• パート1:つながるデータ編
 xAPIの動向
 xAPIとセマンティックウェブ
• パート2:可視化されるデータ編
 目的
 準備
 データ収集
 分析
 データの外形
 データの要約:主成分分析
 説明変数の選定:ランダムフォレスト
 モデル化:一般化線形モデル
 まとめ
目的
目的
統計的手法を用いて学習ログとパーソナルデータから
学習の進捗率をモデル化する。
目的変数
 都道府県別平均進捗率
説明変数
 各種学習ログ項目ごとの都道府県別平均
 都道府県別公的統計データ
都道府県を個人、公的統計データを個人ごとのパーソ
ナルデータに見立てる。
北海道
東京
愛知
大阪
福岡
目的
ところでモデル化とは
高校物理の復習
初速v0, 仰角θで投げた物体の時刻tにおける位置
θ
x
y
𝑥 = 𝑣0 cos 𝜃𝑡
𝑦 = 𝑣0 sin 𝜃 𝑡 −
1
2
𝑔𝑡2
水平方向の目的変数:x 説明変数:初速v0, 仰角θ, 時間t
垂直方向の目的変数:y 説明変数:初速v0, 仰角θ, 時間t, 重力加速度g
説明変数に代入する
値がわかれば座標が
予測できる
目的
ところでモデル化とは
考え方としては同様に
統計的手法で観測データの背後に隠れた真の分布(とパラメータ)を見つければ、
一定の確率で未知の値を予測する方程式ができる。
準備
作業の流れ
1. データ収集
2. 外形の把握
3. 次元圧縮による要約…主成分分析
4. 説明変数の候補選択…ランダムフォレスト
5. モデル構築…一般化線形モデル
準備
データ収集
 平成25年度 全国学力・学習状況調査(国立教育政策研究所、変数4)
http://www.nier.go.jp/13chousakekkahoukoku/data/area/
 平成14年全国物価統計調査 >全国物価地域差指数編(総務省、変数12)
http://www.e-stat.go.jp/SG1/estat/List.do?bid=000001006111
 労働統計年報 平成21年 > III 賃金(厚生労働省、変数26)
http://www.mhlw.go.jp/toukei/youran/roudou-nenpou/03.html
 県民経済計算(平成13年度 - 平成25年度)(内閣府、変数13)
http://www.esri.cao.go.jp/jp/sna/data/data_list/kenmin/files/contents/main_h25.html
+
準備
データ収集
 平成23年社会生活基本調査 >生活時間に関する結果(総務省、変数24)
http://www.e-stat.go.jp/SG1/estat/List.do?bid=000001041121&
 社会生活統計指標-都道府県の指標-2016(総務省、変数17※自然環境)
http://www.e-stat.go.jp/SG1/estat/List.do?bid=000001068038&cycode=0
+
 某オンライン学習サービスのログデータの都道府県集計
進捗率、学習時間、学習間隔、受講講座数、完了講座数の平均値、中央
値、最大・最小値、標準偏差
計116変数
e-StatはAPIの仕様を
公開している
http://www.e-stat.go.jp/api/api-spec/
データの外形
データの外形
学習ログの単純集計 – 地域の傾向
トップ
1. 石川(61.1)
2. 青森(61.1)
3. 福島(60.7)
平均進捗率ランキング
ワースト
1. 宮崎(44.8)
2. 高知(44.9)
3. 徳島(45.8)
長い
1. 石川(76.3)
2. 佐賀(74.2)
3. 熊本(66.5)
平均学習時間ランキング
短い
1. 富山(43.6)
2. 宮崎(43.8)
3. 愛媛(45.4)
データの外形
学習ログの単純集計 – 講座数毎の学習時間と進捗率
受講講座数が増えると
平均学習時間は短縮傾
向、平均進捗率は上昇
傾向
学習時間のバラつきが
少ない
仮説
学習効率の良いユーザ
が残る
データの外形
統計データの単純集計 – 地域の傾向
トップ
1. 秋田(82.8)
2. 福井(81.8)
3. 青森(80.7)
学力試験正答率(算数A, 平成25年)
ワースト
1. 沖縄(73.3)
2. 島根(74.3)
3. 岡山(74.6)
トップ
1. 秋田(67.1)
2. 福井(65.1)
3. 石川(64.3)
学力試験正答率(算数B, 平成25年)
ワースト
1. 北海道(54)
2. 沖縄(54.4)
3. 群馬(55)
データの要約
データの要約
主成分分析
 多次元データを少ない次元に縮約(次元圧縮)するテクニック
 データの特徴を最もよく表す座標軸が第1主成分。
座標軸上に射影された各点のバラツキ(固有値)が最も大きい
=情報量が多い
 固有値が大きい順に第1, 第2, ・・・, 第n主成分と呼ぶ
 各主成分は直行する
 全情報量に占める各主成分の情報量を寄与率、それを第1主成分から累
積したものを累積寄与率と呼ぶ
データの要約
主成分分析
寄与率
累積寄与率 第1~2主成分に約48%
の情報量が縮約
第1主成分:約38.7%
第2主成分:約09.3%
 相関行列から固有値、固有ベクトルを算出
データの要約
主成分分析 – 主成分の意味づけ(PC1)
 所得と通勤・通学、学業以外の学習、
趣味・娯楽の時間が正の相関
 所得と睡眠時間は負の相関
特徴
 光熱・水道物価指数とメディア(TV, ラ
ジオ, 新聞, 雑誌等)、休養は正の相関
 光熱・水道物価指数と所得は負の相関
活動指向性
解釈
内
外
データの要約
主成分分析 – 主成分の意味づけ(PC2)
 3次活動時間とメディア(TV, ラジオ, 新
聞, 雑誌)、休養時間、物価指数は正の
相関
特徴
 2次活動時間と3次活動時間が負の相関
1次活動…生理的に必要な活動(睡眠、食事など)
2次活動…社会生活を営む上で義務的な性格の強い
活動(仕事、家事など)
3次活動…1次、2次活動以外で自由に使える活動
解釈
義務的活動度
高
低
データの要約
主成分分析 – 地域の傾向PC2義務的活動度
PC1 活動指向性
主に東北、北海道は活動指向性が内、義務
的活動が低で、1次活動(生理的に必要な活
動)時間や光熱・水道物価指数が高い
傾向
内外
高
低
東京、神奈川、愛知、大阪は活動指向性が
外で、買い物時間が長い
九州は活動指向性は内、義務的活動が高。
概ね物価指数とは負の相関に位置する
岐阜、長野、群馬は仕事、学業、スポーツ
時間が長い
平均進捗率(mrate)のベクトルは活動指向性
が内、義務的活動が低の領域に向いている
平均進捗率
説明変数の選定
説明変数の選定
ランダムフォレスト
 観測データからブートストラップ法で複数のサンプルを復元抽出
 抽出したそれぞれのサンプルから分類木(質的データ)、回帰木(量
的データ)を生成
 生成した木から目的変数に対する説明変数の重要度を計算
https://ja.wikipedia.org/wiki/%E3%83%96%E3%83%BC%E3%83%88%E3%82%B9%E3%83%88%E3%83%A9%E3%83%83%E3%83%97%E6%B3%95
 実行の度に結果が変動(乱数生成に初期ベクトルを与える)
説明変数の選定
ランダムフォレスト – 説明変数の候補選択
予測の良さ 不純度
 目的変数は都
道府県別平均
進捗率
 説明変数とし
て公的統計
データと学習
ログを合わせ
た115個の変数
を指定
説明変数の選定
ランダムフォレスト
利用できそうな変数
もちろんランダムフォレスト
で予測分布を作ることは可能
だが今回は予測のための統計
モデルを構築
平均学習時間, 光熱・水道物価, 月間平均実労働時間(男性), 最高気温, 年収(2012,
2010, 2007), 雇用者比率, 短大新規卒業者の無業者率, 年間雪日数, 1次活動時間, 睡眠
※分析の過程で変動
左図
観測データ約9000件の半分を訓練用、残
りをテスト用に使用し作成した予測分布
説明変数の選定
進捗率と変数の関係 – 最高気温
 最高気温が平均未満の地域の
進捗率分布は、進捗率が高め
に分布
 最高気温のみを説明変数とし
た進捗率予測分布は右下がり
気温(室温)が高いと進捗
率が低下
説明変数の選定
進捗率と変数の関係 – 光熱・水道物価指数
 平均以上の地域の進捗率分布
は、進捗率が高めに分布
 光熱・水道物価指数のみを説
明変数とした進捗率予測分布
は右上がり
光熱費は進捗率に対してプ
ラスに作用
説明変数の選定
進捗率と変数の関係 – 月間平均労働時間
 平均以上の地域の進捗率分布
は、進捗率が高めに分布
 月間平均労働時間のみを説明
変数とした進捗率予測分布は
右上がり
労働時間は進捗率に対して
プラスに作用
モデル化
モデル化
一般化線形モデル(GLM)
 観測データは何らかの確率分布に従っていると仮定
 最尤推定法で統計モデルのパラメータを推定
 Rのglm()関数
目的変数と説明変数、使用する確率分布、観測データ等を指定すると
線形予測子の各係数や逸脱度、AICなどを算出してくれる
正規分布、二項分布、ポアソン分布、ガンマ分布に対応
説明変数の関数=線形予測子として表現する
𝛽0 + 𝛽1 𝑥𝑖 + 𝛽2 𝑦𝑖 +・・・
AIC(赤池情報量基準)…統計モデル選択基準の一種
https://ja.wikipedia.org/wiki/%E8%B5%A4%E6%B1%A0%E6%83%85%E5%A0%B1%E9%87%8F%E8%A6%8F%E6%BA%96
モデル化
glm()で使用するモデルの選択
 familyオブジェクトで以下のモデルが設定できる
ファミリ デフォルトリンク関数
binomial link=“logit” 二項分布。離散値
gaussian link=“identity” 正規分布。連続値
Gamma link=“inverse” ガンマ分布。連続値
inverse.gaussian link=“1/mu^2” 逆ガンマ分布
poisson link=“log” ポアソン分布。離散値
quasi link=“identity”, variance=“constant” 疑似尤度
quasibinomial link=“logit” 疑似二項分布
quasipoisson link=“log” 疑似ポアソン分布
扱うデータが連続値で、進捗率は常に正の値なのでガンマ分布を仮定。
リンク関数は対数(link=“log”)
一般化線形モデル(GLM)
説明変数が“学習時間”のみの単純モデル
 進捗率のバラつきがうまく表現できていない
相関係数:0.4
分散
• 観測値:15.46
• 推定値:02.71
平均
• 観測値:51.75
• 推定値:51.75
AIC:256.9
残差5%以上の過小推定
残差5%以上の過大推定
一般化線形モデル(GLM)
PC, RFで選定した変数で複雑モデルを構築
目的変数:
 平均進捗率
説明変数:
 平均学習時間の二乗⇒負の作用
 平均学習時間
 中高年齢者就職率
 月間平均実労働時間数(男性)
 最高気温⇒負の作用
 買い物時間⇒負の作用
 住居物価指数
 大学卒業者に占める就職者の割合
 平均受講講座数の中央値、最大値
一般化線形モデル(GLM)
複雑モデルにおける残差の吟味
 補足すべき非線形性がなく、均等に分散した正規分布で、懸念すべき
外れ値も確認されない。
残差が水平線の周りに均等
に分散⇒予測と結果に非線
形の関係がない
残差が直線をほぼ辿ってい
る⇒残差は正規分布
平滑線がほぼ水平⇒残差が
予測変数の周りに等しく分
散している
すべてのケースがCook距
離の範囲内に収まっている
⇒回帰に影響する外れ値は
ない
一般化線形モデル(GLM)
複雑モデルによる推定
 分散の具合が観測値に近づき、相関係数が増加、AICは改善
相関係数:0.82
分散
• 観測値:15.46
• 推定値:10.4
平均
• 観測値:51.75
• 推定値:51.75
AIC:229
残差5%以上の過大推定
一般化線形モデル(GLM)
複雑モデルによる推定
 分散の具合が観測値に近づき、相関係数が増加、AICは改善
相関係数:0.82
分散
• 観測値:15.46
• 推定値:10.4
平均
• 観測値:51.75
• 推定値:51.75
AIC:229
相関係数:0.4
分散
• 観測値:15.46
• 推定値:02.71
平均
• 観測値:51.75
• 推定値:51.75
AIC:256.9
<単純モデル> <複雑モデル>
一般化線形モデル(GLM)
単純モデルと複雑モデルの残差比較
 複雑モデルでは残差のバラつき範囲が単純モデルより狭い範囲に収束
一般化線形モデル(GLM)
ヒストグラムによる残差の比較
 学習時間のみの単純モデル(下図、model 1)では28個、選定した変数
による複雑モデル(同、model 2)では36個が残差±5%の範囲に収
まっている
一般化線形モデル(GLM)
観測値と複雑モデルによる推定値のプロット
 横軸:平均学習時間、縦軸:平均進捗率
残差5%以上の過大推定
残差5%以上の過小推定 過大・過小推定の基準が残差
±10%の場合、概ね基準内に収
まるが、±5%では学習時間ラン
キング上位の過小・過大推定と
なった
仮説
学習時間の長短の理由を説
明する未知の変数が進捗率
に関係している可能性
一般化線形モデル(GLM)
予測曲線
 複雑モデルから推測される進捗率に対する学習時間の効果
70分付近で進捗が頭打ち
仮説
約70分を境に進捗率に対する学
習時間の効果がプラスからマイ
ナスに転換する
単純モデル
複雑モデル
一般化線形モデル(GLM)
予測曲線
 説明変数が進捗にとって最良、平均、最悪の場合の予測曲線の変化
最良
係数:正→最大値
係数:負→最小値
最悪の環境
平均的環境
最良の環境
平均
係数:正→平均値
係数:負→平均値
最悪
係数:正→最小値
係数:負→最大値
一般化線形モデル(GLM)
ロジスティック回帰分析
 講座完了率:受講講座数に対する完了講座数の割合
 説明変数に平均進捗率、受講講座数、
最少学習時間を設定
 二項分布
 完了率は0~1の値をとる
受講講座数N中、y講座が完了
 説明変数を変動させた際のオッズ比
がわかる
 横軸:進捗率、縦軸:完了講座数
一般化線形モデル(GLM)
ロジスティック回帰分析
 講座完了率:受講講座数に対する完了講座数の割合
 最小学習時間が短いほど講座完了率
が高い
完了率に対して最小学習時間は負の効果
最小学習時間が1分から20分に伸びると、完
了率のオッズは約0.4倍となる
「最小学習時間20分の人は同1分の人に比べ
て受講講座をすべて完了できないリスクが
2.5倍」
一般化線形モデル(GLM)
ロジスティック回帰分析
 おまけ:一般化線形混合モデルによる未知のバラつき推定
まとめ
データの外形
まとめ
受講講座数
多い
平均学習時間
短い 単純集計
平均進捗率の
ベクトル
活動指向性:内 主成分分析
義務的活動度:低
進捗率
高い
最高気温:低 ランダムフォレスト
 散布図、集計
物価指数
光熱・水道:高
平均労働時間:長
進捗率トップ3 東北、北陸
 散布図
学習時間のばらつき
少ない
予測モデル
まとめ
 目的変数と説明変数
都道府県別
平均進捗率
平均学習時間の
二乗
目的変数
説明変数
平均学習時間
中高年齢者
就職率
月間平均
実労働時間(男)
最高気温
買い物時間
住居物価指数
大学卒業者
就職者の割合
平均受講講座数
中央値・最大値
 就職率や労働時間など労働環境に
関する指標は進捗を押し上げる。
 学習時間の二乗、気温は進捗に対
して引き下げる方向で作用する。
 学習時間は押し上げる。
 活動指向性が外向きの「買い物」
は進捗率を引き下げる。
予測モデル
まとめ
 予測曲線
 70分付近で進捗が頭打ちになる。
→ (学習時間)の押し上げ効果
より(学習時間)2の引き下げ
効果が勝るようになる。
押し上げ効果 > 引き下げ効果 押し上げ効果 < 引き下げ効果
今回の分析から解釈できること
まとめ
 仕事に就く、長く働くことで経済的な余裕が生まれる。
 ただし、生活に占める義務的活動が強い場合は学習に逆効果。
 内向きの活動指向性が働けば、収入の一部を講座の購入に充当しやすい。
 仕事以外の時間で効率よく学習する必要がある。
 効率よく学習できるユーザは、仕事~収入~講座購入~学習のサイクルが
うまく回る。
 逆に学習時間が一定の長さを超えると進捗が鈍り、上記の学習サイクルが
機能しなくなる。
 買い物など活動指向性が外向きの場合、学習以外の活動に興味があるため、
学習の進捗率は悪い傾向。
 今回の分析から気温と集中力の関係はわからないが、少なくとも最高気温
の高さには進捗を引き下げる効果があることが見て取れる。
 物価指数と労働時間、収入が正の相関にあることから、経済的豊かさが仕
事のモチベーションではあるが、高い進捗率のためには義務医的活動の度
合が低く、活動指向性が内向きという条件が有利だと解釈できる。
社会人向けの学習サービスなりの特徴が出ている
今回の資料はfacebookページで公開中です。
https://www.facebook.com/mananda.jp/
閲覧いただき、ありがとうございました。

More Related Content

Viewers also liked

Resume - Aditya Trivedi
Resume - Aditya TrivediResume - Aditya Trivedi
Resume - Aditya Trivedi
Aditya Trivedi
 
Grc 10 eam
Grc 10   eam Grc 10   eam
Grc 10 eam
srinivas P
 
GTC Japan 2016 Chainer feature introduction
GTC Japan 2016 Chainer feature introductionGTC Japan 2016 Chainer feature introduction
GTC Japan 2016 Chainer feature introduction
Kenta Oono
 
Las posturas dentro de la Misa
Las posturas dentro de la MisaLas posturas dentro de la Misa
Las posturas dentro de la Misa
Humberto Corrales
 
Deep Learning技術の最近の動向とPreferred Networksの取り組み
Deep Learning技術の最近の動向とPreferred Networksの取り組みDeep Learning技術の最近の動向とPreferred Networksの取り組み
Deep Learning技術の最近の動向とPreferred Networksの取り組み
Kenta Oono
 
Deep Learning - The Past, Present and Future of Artificial Intelligence
Deep Learning - The Past, Present and Future of Artificial IntelligenceDeep Learning - The Past, Present and Future of Artificial Intelligence
Deep Learning - The Past, Present and Future of Artificial Intelligence
Lukas Masuch
 

Viewers also liked (7)

Resume - Aditya Trivedi
Resume - Aditya TrivediResume - Aditya Trivedi
Resume - Aditya Trivedi
 
Grc 10 eam
Grc 10   eam Grc 10   eam
Grc 10 eam
 
GTC Japan 2016 Chainer feature introduction
GTC Japan 2016 Chainer feature introductionGTC Japan 2016 Chainer feature introduction
GTC Japan 2016 Chainer feature introduction
 
Las posturas dentro de la Misa
Las posturas dentro de la MisaLas posturas dentro de la Misa
Las posturas dentro de la Misa
 
rcast_20140411
rcast_20140411rcast_20140411
rcast_20140411
 
Deep Learning技術の最近の動向とPreferred Networksの取り組み
Deep Learning技術の最近の動向とPreferred Networksの取り組みDeep Learning技術の最近の動向とPreferred Networksの取り組み
Deep Learning技術の最近の動向とPreferred Networksの取り組み
 
Deep Learning - The Past, Present and Future of Artificial Intelligence
Deep Learning - The Past, Present and Future of Artificial IntelligenceDeep Learning - The Past, Present and Future of Artificial Intelligence
Deep Learning - The Past, Present and Future of Artificial Intelligence
 

パート2 可視化されるデータ編