SlideShare a Scribd company logo
1 of 85
高校生のためのデータ分析
情報科 山岸直生
コンビニのカード
もっていますか?
カードを使うと
割引されるのは
なぜ?
学校にもデータは
たくさんある
生徒番号 国語 英語 数学 理科
1 85 80 65 70
2 70 75 90 85
3 40 40 30 60
4 60 60 100 85
5 90 100 60 65
6 45 20 45 55
7 86 94 86 91
テスト結果
から何が
わかるだろうか?
テスト結果からわかること
• どのくらいの難易度だったか
• どのくらい点差がついたか
• だれがどのくらいできるか
⇒他にもいっぱいある
テスト結果からわかること
• どのくらいの難易度だったか
⇒平均
• どのくらい点差がついたか
⇒偏差
• だれがどのくらいできるか
⇒合計
学校にもデータは
たくさんある
生徒番号 国語 英語 数学 理科
1 85 80 65 70
2 70 75 90 85
3 40 40 30 60
4 60 60 100 85
5 90 100 60 65
6 45 20 45 55
7 86 94 86 91
自力でできるなら・・・
⑥各生徒の平均点を出せ
⑦各科目の中央値(メジアン)を出せ
⑧各生徒の順位を出せ
⑨この試験問題において、
数学で90点とるのと理科で90点とるのとでは、
どちらがより「すごい」と考えられるか。
テーマ1:
点差はどのくらい?
どのくらいの差がついた?
国語 数学
49 0
51 0
48 100
52 100
平均を引いてみよう
国語 数学
49(-1) 0(-50)
51(+1) 0(-50)
48(-2) 100(+50)
52(+2) 100(+50)
( )の中の数値:偏差
国語 数学
49(-1) 0(-50)
51(+1) 0(-50)
48(-2) 100(+50)
52(+2) 100(+50)
どのくらいの差?
国語 数学
-1 -50
+1 -50
-2 +50
+2 +50
平均を計算する??
国語
-1
+1
-2
+2
点差はどのくらい?
数学
-50
-50
+50
+50
偏差の平均は0
国語 数学
-1 -50
+1 -50
-2 +50
+2 +50
差を計算するには?
国語 数学
-1 -50
+1 -50
-2 +50
+2 +50
偏差の「絶対値」を使えばいい?
国語 数学
-1(1) -50(50)
+1(1) -50(50)
-2(2) +50(50)
+2(2) +50(50)
偏差の絶対値
国語 数学
1 50
1 50
2 50
2 50
偏差の絶対値の平均
国語
1
1
2
2
偏差の絶対値の平均
数学
50
50
50
50
偏差の絶対値の平均
国語:1.5
数学:50
なので数学の方が
48.5点分
点差がつきやすい
国語 数学
49 0
51 0
48 100
52 100
偏差の絶対値の平均=平均偏差
国語 数学
49 0
51 0
48 100
52 100
平均偏差 1.5 50
どのくらい
点差がつきやすいか
を調べるには
平均偏差(Average Deviation)
を計算すればいい
Excelで計算
似てるけど少し違う用語
平均偏差より標準偏差
の方がよく使う?
• 平均偏差(Average Deviation)
⇒偏差の絶対値の平均
• 標準偏差(Standard Deviation)
⇒偏差の二乗の平均のルート
標準偏差の計算をしてみよう
国語 数学
49 0
51 0
48 100
52 100
偏差
国語 数学
-1 -50
+1 -50
-2 50
+2 50
二乗
国語 数学
1 2500
1 2500
4 2500
4 2500
平均
国語 数学
1 2500
1 2500
4 2500
4 2500
平均 2.5 2500
ルート
国語 数学
1 2500
1 2500
4 2500
4 2500
平均 2.5 2500
ルート 1.58 50
計算結果
国語 数学
49 0
51 0
48 100
52 100
平均偏差 1.5 50
標準偏差 1.58 50
Excelで計算
課題
• 偏差値について調べてみよう。
練習:標準偏差を求めてみよう
生徒番号 国語 英語 数学 理科
1 85 80 65 70
2 70 75 90 85
3 40 40 30 60
4 60 60 100 85
5 90 100 60 65
6 45 20 45 55
7 86 94 86 91
テーマ2:
数学の点が高い人は
理科の点も高い?
生徒番号 国語 英語 数学 理科
1 85 80 65 70
2 70 75 90 85
3 40 40 30 60
4 60 60 100 85
5 90 100 60 65
6 45 20 45 55
7 86 94 86 91
数学と理科の関係をどう示す?
生徒番号 国語 英語 数学 理科
1 85 80 65 70
2 70 75 90 85
3 40 40 30 60
4 60 60 100 85
5 90 100 60 65
6 45 20 45 55
7 86 94 86 91
数学ー理科の散布図を描く
30
40
50
60
70
80
90
100
30 40 50 60 70 80 90 100
理科
数学
右に行くほど
上にデータがある感じがする?
30
40
50
60
70
80
90
100
30 40 50 60 70 80 90 100
理科
数学
右に行くほど上にデータがある
⇒正の相関がある という
30
40
50
60
70
80
90
100
30 40 50 60 70 80 90 100
理科
数学
正の相関がある散布図の例
負の相関がある散布図の例
散布図を描けば
2つの科目間の
関係がわかる
Excelで散布図を描く
相関は計算できる?
相関は計算できる?
相関は計算できる?
相関係数
• 相関係数R(correl)
⇒Rが大きいほど、正の相関が大きい
⇒Rが小さいほど、負の相関が大きい
相関係数
• 相関係数R(correl)
−1 ≤ 𝑅 ≤ 1の範囲の値をとる
• R=1: 右上がりの直線
• R=-1 : 右下がりの直線
• R > 0 : 正の相関がある
• R < 0 :負の相関がある
𝑅 = −0.76
𝑅 = −0.05
R=0.24
相関係数からわかること
• 数学と理科の相関係数はR=0.91
⇒強い正の相関がある
⇒数学ができる人は
理科もできる可能性が高い
練習:
他の科目間の相関係数を
求めてみましょう
テーマ3:
因果と相関
次の散布図からいえることは?
R = 0.905
散布図からいえること
• 気温が高いほど、売上が多い?
• 売上が多いほど、気温が高い?
• 気温が上がることによって、売上が変わる?
• 売上が上がることによって、気温が上がる?
散布図からいえること?
○気温が高いほど、売上が多い
○売上が多いほど、気温が高い
○気温が上がることによって、売上が変わる
×売上が上がることによって、気温が上がる
散布図からいえること?
○気温が上がる ⇒ 売上が変わる
×売上が上がる ⇒ 気温が上がる
散布図からいえること?
原因:気温が上がる
結果: 売上が変わる
直接関係
R = 0.81
散布図からいえること?
気温が上がる
水難事故が増える
散布図からいえること?
気温が上がる
海水浴客が増える
水難事故が増える
間
接
関
係
R = 0.85
R = 0.98
散布図からいえること?
気温が上がる
海水浴客が増える
水難事故が増える
間
接
関
係
R = 0.81
R = 0.98
R = 0.85
R = 0.86
• 原因:水難事故件数
• 結果:アイスの売り上げ個数
• 原因:水難事故件数
• 結果:アイスの売り上げ個数
ではないよね?
気温
アイス
水難事故
共通原因による
疑似相関
相関があっても、
原因結果関係があるとは
限らない!
課題
• 疑似相関について
調べてみよう
テーマ4:
直線を使って予想する
理科が80点の人の数学の点数は?
生徒番号 国語 英語 数学 理科
1 85 80 65 70
2 70 75 90 85
3 40 40 30 60
4 60 60 100 85
5 90 100 60 65
6 45 20 45 55
7 86 94 86 91
理科が80点の人の
数学の点数は?
生徒番号 国語 英語 数学 理科
1 85 80 65 70
2 70 75 90 85
3 40 40 30 60
4 60 60 100 85
5 90 100 60 65
6 45 20 45 55
7 86 94 86 91
散布図を描いて予想してみよう
R = 0.91
回帰直線
理科が80点の生徒は
数学も80点くらいだと予想される
数学=理科×1.7-50
課題
• Excelまたは統計処理ソフトRで、
同じようなことをやってみよう。
• 英語が50点の人の国語の点数は?
テーマ5:
サイコロの出た目は
偏ってるの?
ヒストグラムと正規分布

More Related Content

Similar to Data analysis-for-highschool-students

Rm20130508 4key
Rm20130508 4keyRm20130508 4key
Rm20130508 4key
youwatari
 

Similar to Data analysis-for-highschool-students (18)

2014年度春学期 統計学 第4回 データを「分布」で見る (2014. 5. 1)
2014年度春学期 統計学 第4回 データを「分布」で見る (2014. 5. 1)2014年度春学期 統計学 第4回 データを「分布」で見る (2014. 5. 1)
2014年度春学期 統計学 第4回 データを「分布」で見る (2014. 5. 1)
 
2021年度秋学期 統計学 第4回 データを「分布」で見る(2021. 10. 12)
2021年度秋学期 統計学 第4回 データを「分布」で見る(2021. 10. 12)2021年度秋学期 統計学 第4回 データを「分布」で見る(2021. 10. 12)
2021年度秋学期 統計学 第4回 データを「分布」で見る(2021. 10. 12)
 
2020年度秋学期 統計学 第4回 データを「分布」で見る (2020. 10. 13)
2020年度秋学期 統計学 第4回 データを「分布」で見る (2020. 10. 13)2020年度秋学期 統計学 第4回 データを「分布」で見る (2020. 10. 13)
2020年度秋学期 統計学 第4回 データを「分布」で見る (2020. 10. 13)
 
2021年度秋学期 統計学 第5回 分布をまとめるー平均と分散(2021. 10. 19)
2021年度秋学期 統計学 第5回 分布をまとめるー平均と分散(2021. 10. 19)2021年度秋学期 統計学 第5回 分布をまとめるー平均と分散(2021. 10. 19)
2021年度秋学期 統計学 第5回 分布をまとめるー平均と分散(2021. 10. 19)
 
2015年度秋学期 統計学 第4回 データを「分布」で見る (2015. 10. 21)
2015年度秋学期 統計学 第4回 データを「分布」で見る (2015. 10. 21)2015年度秋学期 統計学 第4回 データを「分布」で見る (2015. 10. 21)
2015年度秋学期 統計学 第4回 データを「分布」で見る (2015. 10. 21)
 
2020年度秋学期 統計学 第5回 分布をまとめる (2020. 10. 20)
2020年度秋学期 統計学 第5回 分布をまとめる (2020. 10. 20)2020年度秋学期 統計学 第5回 分布をまとめる (2020. 10. 20)
2020年度秋学期 統計学 第5回 分布をまとめる (2020. 10. 20)
 
2015年度春学期 統計学 第4回 データを「分布」で見る (2015. 5. 7)
2015年度春学期 統計学 第4回 データを「分布」で見る (2015. 5. 7)2015年度春学期 統計学 第4回 データを「分布」で見る (2015. 5. 7)
2015年度春学期 統計学 第4回 データを「分布」で見る (2015. 5. 7)
 
2014年度春学期 統計学 第5回 分布をまとめるー平均・分散 (2014. 5. 15)
2014年度春学期 統計学 第5回 分布をまとめるー平均・分散 (2014. 5. 15)2014年度春学期 統計学 第5回 分布をまとめるー平均・分散 (2014. 5. 15)
2014年度春学期 統計学 第5回 分布をまとめるー平均・分散 (2014. 5. 15)
 
2022年度秋学期 統計学 第5回 分布をまとめるー平均・分散 (2022. 10. 25)
2022年度秋学期 統計学 第5回 分布をまとめるー平均・分散 (2022. 10. 25) 2022年度秋学期 統計学 第5回 分布をまとめるー平均・分散 (2022. 10. 25)
2022年度秋学期 統計学 第5回 分布をまとめるー平均・分散 (2022. 10. 25)
 
Rm20130508 4key
Rm20130508 4keyRm20130508 4key
Rm20130508 4key
 
2018年度秋学期 統計学 第4回 データを「分布」で見る (2018. 10. 16)
2018年度秋学期 統計学 第4回 データを「分布」で見る (2018. 10. 16)2018年度秋学期 統計学 第4回 データを「分布」で見る (2018. 10. 16)
2018年度秋学期 統計学 第4回 データを「分布」で見る (2018. 10. 16)
 
2019年度春学期 統計学 第5回 分布をまとめるー平均・分散 (2019. 5. 16)
2019年度春学期 統計学 第5回 分布をまとめるー平均・分散 (2019. 5. 16)2019年度春学期 統計学 第5回 分布をまとめるー平均・分散 (2019. 5. 16)
2019年度春学期 統計学 第5回 分布をまとめるー平均・分散 (2019. 5. 16)
 
2019年度春学期 統計学 第4回 データを「分布」で見る (2019. 5. 9)
2019年度春学期 統計学 第4回 データを「分布」で見る (2019. 5. 9)2019年度春学期 統計学 第4回 データを「分布」で見る (2019. 5. 9)
2019年度春学期 統計学 第4回 データを「分布」で見る (2019. 5. 9)
 
2022年度春学期 統計学 第4回 データを「分布」で見る(2022. 4. 28)
2022年度春学期 統計学 第4回 データを「分布」で見る(2022. 4. 28)2022年度春学期 統計学 第4回 データを「分布」で見る(2022. 4. 28)
2022年度春学期 統計学 第4回 データを「分布」で見る(2022. 4. 28)
 
2019年度秋学期 統計学 第5回 分布をまとめるー平均・分散 (2019. 10. 29)
2019年度秋学期 統計学 第5回 分布をまとめるー平均・分散 (2019. 10. 29)2019年度秋学期 統計学 第5回 分布をまとめるー平均・分散 (2019. 10. 29)
2019年度秋学期 統計学 第5回 分布をまとめるー平均・分散 (2019. 10. 29)
 
2014年度秋学期 統計学 第4回 データを「分布」で見る (2014. 10. 15)
2014年度秋学期 統計学 第4回 データを「分布」で見る (2014. 10. 15)2014年度秋学期 統計学 第4回 データを「分布」で見る (2014. 10. 15)
2014年度秋学期 統計学 第4回 データを「分布」で見る (2014. 10. 15)
 
TensorFlowで機械学習ことはじめ(summer edition)
TensorFlowで機械学習ことはじめ(summer edition)TensorFlowで機械学習ことはじめ(summer edition)
TensorFlowで機械学習ことはじめ(summer edition)
 
2022年度春学期 統計学 第5回 分布をまとめるー平均・分散 (2022. 5. 12)
2022年度春学期 統計学 第5回 分布をまとめるー平均・分散 (2022. 5. 12)2022年度春学期 統計学 第5回 分布をまとめるー平均・分散 (2022. 5. 12)
2022年度春学期 統計学 第5回 分布をまとめるー平均・分散 (2022. 5. 12)
 

Data analysis-for-highschool-students

Editor's Notes

  1. これを応用したのが偏差値である
  2. <R言語にて下のコードを打ち込んで作成> 気温<-c(17.1,17.2,17.5,17.7,18,18.2,18.3,18.5,18.8,18.9,19,19.3,19.4,19.5,19.5,19.6,19.7,19.7,19.8,19.9,20.0,20,20,20,20.1,20.1,20.2 ,20.3,20.4,20.5,20.6,20.7,20.7,20.7,20.8,20.9,21,21.1,21.2,21.3,21.4,21.5,21.6,21.7,22,22.1,22.3,22.5,22.6,23,23.2,23.2,23.3,23.5, 24,24.1,24.3,25,25.1,25.3,25.4,25.5,25.6,26) 売上個数<- round((70+sqrt(気温)*5+気温*8+((気温-13)^2)/3.0+((気温-16)^3)/12.0+((気温-17)^4)/35.0+rnorm(length(気温))*15+5*(rnorm(length(気温))^2)+(rnorm(length(気温))^3)*4.0+(rnorm(length(気温))^4)*2.0+(rnorm(length(気温))^5))/2.5) plot(気温,売上個数,xlim=c(17,26),ylim=c(50,280),main="気温とアイスの売り上げ数",lwd=2,cex=2.5,cex.lab=2,cex.axis=1.5,cex.main=3)
  3. 風<-rnorm(length(気温)) 海水浴客<-round(abs(abs(abs(abs(abs(abs(abs(abs(abs(abs(abs(abs(abs(abs(abs(abs(abs(abs(abs(abs(abs(abs(abs(abs(floor(abs(abs(abs(abs(round(abs(floor(floor(floor(abs(abs(abs(abs(abs(abs((abs(abs(abs(round(((気温-17.1)*50+((気温-17.1)^2)*400+((気温-17.1)^3)*150+((気温-17.1)^4)*50+((気温-17.1)^5)*5+rnorm(length(気温))*100+(rnorm(length(気温))^2)-4)*50))-15)-10)*(5-風))-8)-6)-5)-4)-3)-2)/200.0)-1)/10))/2)-5)-4)-3)-2)/2.0)-20)-19)-18)-17)-16)-15)-14)-13)-12)-11)-10)-9)-8)-7)-6)-5)-4)-3)-2)-1)-1)+rnorm(気温)^6-3)-2)-1)/2.5) set.seed(2) 水難事故<- round((海水浴客*5+(rnorm(length(気温))^2)*100)/10000*(4-風)) plot(気温,水難事故,xlim=c(17,26),ylim=c(0,30),main="気温と水難事故件数",lwd=2,cex=2.5,cex.lab=2,cex.axis=1.5,cex.main=3)
  4. 数学<-c(65,90,30,100,60,45,86) 理科<-c(70,85,60,85,65,55,91) cor(数学,理科) plot(理科,数学,xlim=c(50,100),ylim=c(30,100),main="理科と数学の点数",lwd=2,cex=2.5,cex.lab=2,cex.axis=1.5,cex.main=3) lm.obj<-lm(数学~理科) abline(lm.obj,col=2) lm.obj