SlideShare a Scribd company logo
1 of 59
Download to read offline
1
Excelを使って学ぶ、統計の基礎
3限目
2つの数値項目の関連を探る方法
を知り、予測出来るようになる
講師: 米 谷 学
今夜の主な内容
① 過去の実績を基に予測をするときの考え方
② 2つの数値項目の関連を探る ~ 相関とは
③ 直線的な傾向を利用した数値予測
演習用のExcelワークシートをダウンロードし
後で演習ができるよう、準備をしておきましょう。
2
【1】
過去の実績を基に
予測をするときの考え方
3
過去のデータを基に分析・予測
メリット:
 成功・失敗の原因の検証
 意思決定までの過程の視覚化
 後任者への意思決定の継承
 意思決定内容の理解・訴求の向上
4
過去のデータを基に分析・予測
デメリット:
 過去の規則性・周期性から外れると、
予測精度が低下する可能性がある。
 上昇から下降、下降から上昇傾向への
ターニング・ポイントの見極めが困難。
 相関関係は探ることができても、因果関
係を見出すことが難しいことがある。
5
相関関係とは?-①
6
出典:社団法人電気通信事業者協会 累計加入者数
0
20,000
40,000
60,000
80,000
100,000
120,000
1998年 1999年 2000年 2001年 2002年 2003年 2004年 2005年 2006年 2007年 2008年
携帯電話契約数(単位:千件)
相関関係とは?-②
7
出典: 総務省 労働力調査
17,000
17,500
18,000
18,500
19,000
19,500
1998年 1999年 2000年 2001年 2002年 2003年 2004年 2005年 2006年 2007年 2008年
0~14歳人口
相関関係とは?-③
8
40,000
50,000
60,000
70,000
80,000
90,000
100,000
110,000
120,000
17,000 17,500 18,000 18,500 19,000 19,500
携帯電話契約数(千件)
0~14歳人口
散布図
過去のデータを基に分析・予測
デメリット:
 過去の規則性・周期性から外れると、
予測精度が低下する可能性がある。
 上昇から下降、下降から上昇傾向への
ターニング・ポイントの見極めが困難。
 その変化に気づくことが重要。
変化には原因がある?
9
過去のデータを基に分析・予測
デメリット:
 相関関係は探ることができても、因果関
係を見出すことが難しいことがある。
 相関関係の有無だけでは、因果関
係の有無は判断できない。
因果関係を探るには、必ず人間(分
析する人)が介在する。
10
過去のデータを基に分析・予測
デメリット:
 相関関係は探ることができても、因果関
係を見出すことが難しいことがある。
 ただ、因果関係が見出せなくても、
一定の相関関係が見いだせれば、
その関係を利用できることも。
11
説明のため極端な例ですが……
12
0
2
4
6
8
10
12
14
16
18
1 2 3 4 5 6 7 8 9 10 11 12 13
経過月数量
13
予測の考え方のポイント
● 特定の業種 ≠ 特定の予測手法
● 特定の業種 ≠ 特定の変数(項目)
予測が当たらない
分析に採り入れた
以外に、他の項目が
必要な可能性がある
だんだん予測が
外れてきた
得られた予測モデル
は、未来永劫使える
わけでは無い
(環境の変化など)
当たり前の結果しか
得られなかった
高度な手法を使って
も、必ず新発見が
できるとは限らない
予測手法を選ぶポイント
• 過去の傾向がどうなっているかを探る
直線的/曲線的な上昇傾向・下降傾向を示して
いる場合、今後もそのまま伸びると仮定し、その
傾向を延伸させ予測する方法
上昇・下降傾向に無いが有効な例
(年間の周期性と季節性を考慮)
予測したい項目以外の項目の関連と共に分析し
予測をする方法 ……例: 回帰分析など
• 分析に必要なデータの型に合うデータを準備
• もちろん予測値が得られた後は必ず検証を 14
15
【2】
2つの数値項目の関連を探る
「相関」とは?
販売個数の時系列データ
16
相関関係を利用した事例
① 背景: 日ごとの「最高気温」・「販売個数」データ
② 仮説
暑い日はアイスクリームがより売れるだろう
③ 仮説に基づいてデータを採る
④ グラフに表わす ~ 2項目間の関連を探るので、
散布図を使用する。
⑤ 関連の度合いを把握
⑥ 予測に活かすことへの期待
最高気温と販売個数のデータ
18
相関係数とは?
• 2つの対応するデータについて、直線的な関
係度合いについて、数値の単位等の違いに
関係なく比較できるよう、データを標準化させ
た値。
• ここでいう相関係数は、正しくは「ピアゾンの
積率相関係数」と呼び、一般に「相関係数」は
これを指すことが多い。
19
(参考)ちなみに標準化とは
• データの平均値を0、標準偏差を1となるよう
に、データを変換すること。
•
データ−平均値
標準偏差
• ExcelではSTANDARDIZE関数
• 標準偏差:
平均値からのばらつき具合を表わす指標
分散の平方根をとったもの
20
𝑥の偏差 × 𝑦の偏差
𝑥の標準偏差 × 𝑦の標準偏差
【重要!】 常に-1~1の間の値に収まる
相関係数を求める数式
21
  
   






n
i
i
n
i
i
n
i
ii
yyxx
yyxx
r
1
2
1
2
1
← 共分散
直線的な関係を探る~相関-①
22
0
20
40
60
80
100
120
140
0 10 20 30 40
強い正の相関がある例
相関係数:0.99
0
10
20
30
40
50
60
70
80
90
0 10 20 30 40
やや強い正の相関がある例
直線的な関係を探る~相関-②
23
相関係数:0.65
直線的な関係を探る~相関-③
24
0
20
40
60
80
100
120
140
160
0 10 20 30 40
相関がない例
相関係数:0
直線的な関係を探る~相関-④
25
0
10
20
30
40
50
60
70
80
90
0 10 20 30 40
やや強い負の相関がある例
相関係数:-0.65
直線的な関係を探る~相関-⑤
26
0
20
40
60
80
100
120
140
0 10 20 30 40
強い負の相関がある例
相関係数:-0.99
共分散とは?
27
250
270
290
310
330
350
370
390
410
430
450
20 22 24 26 28 30 32 34 36
売上個数
最高気温(℃)
散布図
yの平均値
xの平均値
正の相関……(+)×(+)
28
250
270
290
310
330
350
370
390
410
430
450
20 22 24 26 28 30 32 34 36
売上個数
最高気温(℃)
散布図
yの平均値
xとyが+
xとyが- xの平均値
負の相関……(+)×(-)
29
250
270
290
310
330
350
370
390
410
430
450
20 22 24 26 28 30 32 34 36
売上個数
最高気温(℃)
散布図
yの平均値
xが+
yが-
xが-
yが+
xの平均値
相関係数と相関の強さ
但し統一的な指標ではない
相関係数の絶対値: 相関の強さ:
0.8以上 …… 強い相関がある
0.6以上 …… やや強い相関がある
0.4以上 …… 相関がある
0.2以上 …… やや相関がある
0.2未満 …… 相関がない
30
250
270
290
310
330
350
370
390
410
430
450
20 22 24 26 28 30 32 34 36
売上個数
最高気温(℃)
散布図
2項目間の関連
31
32
【3】
Excelの関数で
相関係数を求める
● Excelワークシートを準備をしましょう ●
33
【4】
直線的な関係を基に
直線の数式を求める
直線の式を求める
34
y = 9.7791x + 73.069
250
270
290
310
330
350
370
390
410
430
450
20 22 24 26 28 30 32 34 36
売上個数
最高気温(℃)
散布図
直線の決定のされ方
35
y = 2.6786x + 0.1429
0
2
4
6
8
10
12
14
16
18
20
0 1 2 3 4 5 6 7 8
y
x
直線の決定のされ方
36
0
2
4
6
8
10
12
0 1 2 3 4 5
y
x
残差・誤差
0
2
4
6
8
10
12
0 1 2 3 4 5
y
x
直線の決定のされ方
37
残差・誤差
残差・誤差
残差・誤差
直線の決定のされ方
38
y = 2.6786x + 0.1429
0
2
4
6
8
10
12
14
16
18
20
0 1 2 3 4 5 6 7 8
y
x
これでは
残差の合計が0になっちゃう!
直線の決定のされ方
39
y = 2.6786x + 0.1429
0
2
4
6
8
10
12
14
16
18
20
0 1 2 3 4 5 6 7 8
y
x
そこで、残差を自乗し、
その合計が最小となるようにする
40
【5】
Excelの散布図から
直線の式を求める
● Excelワークシートを準備をしましょう ●
統計学の教科書的には……
𝑦 = 𝑎𝑥 + 𝑏
来店客数(予測)=9.779 × 32 + 73.069
→ 386(個)と予測する
𝑦: 目的変数・従属変数 → 予測したい項目
𝑎: 回帰係数 (傾き) → 説明変数の値が1増える
ごとにyがいくら増えるか
𝑥: 説明変数・独立変数 → ここでは最高気温
𝑏: 切片・定数 → 説明変数の値が0のときのyの値
相関係数の注意!
① 散布図と共に確認を(外れ値に影響)
42
0
5
10
15
20
25
30
35
40
0 2 4 6 8
項目2
項目1
データ③
外れ値を含む
データ
0
2
4
6
8
10
12
0 1 2 3 4 5 6 7
項目2
項目1
データ③´
相関係数の注意!
① 散布図と共に確認を(外れ値に影響)
43
外れ値を
取り除くと……
0
5
10
15
20
25
30
0 10 20 30 40 50
項目2
項目1
データ④
相関係数の注意!
② 異なる傾向を示すデータの混在(層別を!)
44
相関係数の注意!
③ 異なる傾向を示すデータの混在(層別を!)
45
120
130
140
150
160
170
180
10 15 20 25 30 35 40 45 50 55
y
X
データ⑤ 散布図
一見すると
無相関のデータ
小田
高橋
大竹
麻木
安部
清水
鈴川
渡辺
唐橋
菊川
吉田
春日
田中
小島
宮城
財津
大野
松本
河本
大久保
姫野
品川
丹野
大橋
若林
上田
石田
藤本
伊藤
森永
矢口
120
130
140
150
160
170
180
10 15 20 25 30 35 40 45 50 55
y
x
ラベル付き散布図
相関係数の注意!
③ 異なる傾向を示すデータの混在(層別を!)
46
実は異なる
性別が混在
相関係数の注意!
③ 異なる傾向を示すデータの混在(層別を!)
47
小田
鈴川
田中
小島
宮城
大野
松本
大久保
姫野
品川
丹野
若林
藤本
伊藤
矢口
120
130
140
150
160
170
180
10 15 20 25 30 35 40 45 50 55
y
x
ラベル付き散布図・男性のみ
男性のみでは
負の相関がある
高橋
大竹
麻木
安部
清水
渡辺
唐橋
菊川
吉田
春日
財津
河本
大橋
上田
石田
森永
120
130
140
150
160
170
180
10 15 20 25 30 35 40 45 50 55
y
x
ラベル付き散布図・女性のみ
相関係数の注意!
③ 異なる傾向を示すデータの混在(層別を!)
48
女性のみでは
正の相関がある
相関係数の注意!
④ 全体では一見相関関係がありそうでも……
49
0
5
10
15
20
25
0 5 10 15 20
0
5
10
15
20
25
0 5 10 15 20
男性
女性
相関係数の注意!
④ 層別すると個別には無関係な例も
50
最高気温と販売個数のデータ
51
まず1つの変数で外れ値がある
52
外れ値
この1つの変数で外れ値はない
53
この1つの変数でも外れ値はない
54
しかし2つの変数で見てみると…
55
しかし2つの変数で見てみると…
56
質疑応答
57
課題
① 相関係数とは常に (a) から (b) の値に
収まり、 (c) 関係の強さを表わすものである。
【語群】 1 ・ 因果 ・ -1 ・ 線形の ・ 0
② 最高気温(x)を基に来店客数(y)を予測する
ため式を求めたところ、y = 18.483x + 39.07 と
なりました。
ここから、最高気温が29℃のときの来店客数
は何人と予測できるでしょうか?
58
ご清聴ありがとうございました
59
講師: 米谷 学
講師 Twitter ID: manab7
ハッシュタグ: #ynr48
http://www.datamining.jp
http://www.datamation.jp

More Related Content

Similar to 2つの数値項目の関連を探る方法を知り予測出来るようになる

Similar to 2つの数値項目の関連を探る方法を知り予測出来るようになる (11)

第9回 大規模データを用いたデータフレーム操作実習(3)
第9回 大規模データを用いたデータフレーム操作実習(3)第9回 大規模データを用いたデータフレーム操作実習(3)
第9回 大規模データを用いたデータフレーム操作実習(3)
 
RとStanでクラウドセットアップ時間を分析してみたら #TokyoR
RとStanでクラウドセットアップ時間を分析してみたら #TokyoRRとStanでクラウドセットアップ時間を分析してみたら #TokyoR
RとStanでクラウドセットアップ時間を分析してみたら #TokyoR
 
実践データ分析基礎
実践データ分析基礎実践データ分析基礎
実践データ分析基礎
 
Casual learning machine learning with_excel_no2
Casual learning machine learning with_excel_no2Casual learning machine learning with_excel_no2
Casual learning machine learning with_excel_no2
 
プログラマのための線形代数再入門2 〜 要件定義から学ぶ行列式と逆行列
プログラマのための線形代数再入門2 〜 要件定義から学ぶ行列式と逆行列プログラマのための線形代数再入門2 〜 要件定義から学ぶ行列式と逆行列
プログラマのための線形代数再入門2 〜 要件定義から学ぶ行列式と逆行列
 
順序データでもベイズモデリング
順序データでもベイズモデリング順序データでもベイズモデリング
順序データでもベイズモデリング
 
Rで実験計画法 後編
Rで実験計画法 後編Rで実験計画法 後編
Rで実験計画法 後編
 
Osaka.Stan #3 Chapter 5-2
Osaka.Stan #3 Chapter 5-2Osaka.Stan #3 Chapter 5-2
Osaka.Stan #3 Chapter 5-2
 
Operations research yonezawa_no2
Operations research yonezawa_no2Operations research yonezawa_no2
Operations research yonezawa_no2
 
or-10. 線形計画法を Excel で解く
or-10. 線形計画法を Excel で解くor-10. 線形計画法を Excel で解く
or-10. 線形計画法を Excel で解く
 
統計学の基礎の基礎
統計学の基礎の基礎統計学の基礎の基礎
統計学の基礎の基礎
 

More from webcampusschoo

再放送キャンペーン1227
再放送キャンペーン1227再放送キャンペーン1227
再放送キャンペーン1227
webcampusschoo
 
Webサイトのライブデザイン&コーディング実演授業!
Webサイトのライブデザイン&コーディング実演授業!Webサイトのライブデザイン&コーディング実演授業!
Webサイトのライブデザイン&コーディング実演授業!
webcampusschoo
 
カフェのWEBサイトを作って、WEBデザインの基礎と技術を学ぶ
カフェのWEBサイトを作って、WEBデザインの基礎と技術を学ぶカフェのWEBサイトを作って、WEBデザインの基礎と技術を学ぶ
カフェのWEBサイトを作って、WEBデザインの基礎と技術を学ぶ
webcampusschoo
 

More from webcampusschoo (20)

再放送キャンペーン0103
再放送キャンペーン0103再放送キャンペーン0103
再放送キャンペーン0103
 
再放送キャンペーン 1231
再放送キャンペーン 1231再放送キャンペーン 1231
再放送キャンペーン 1231
 
再放送キャンペーン 123
再放送キャンペーン 123 再放送キャンペーン 123
再放送キャンペーン 123
 
再放送キャンペーン 1229
再放送キャンペーン 1229再放送キャンペーン 1229
再放送キャンペーン 1229
 
再放送キャンペーン1228
再放送キャンペーン1228再放送キャンペーン1228
再放送キャンペーン1228
 
再放送キャンペーン1227
再放送キャンペーン1227再放送キャンペーン1227
再放送キャンペーン1227
 
1226
12261226
1226
 
1226
12261226
1226
 
再放送キャンペーン1225
再放送キャンペーン1225再放送キャンペーン1225
再放送キャンペーン1225
 
再放送キャンペーン1224
再放送キャンペーン1224再放送キャンペーン1224
再放送キャンペーン1224
 
1223 再放送
1223 再放送1223 再放送
1223 再放送
 
Webサイトのライブデザイン&コーディング実演授業!
Webサイトのライブデザイン&コーディング実演授業!Webサイトのライブデザイン&コーディング実演授業!
Webサイトのライブデザイン&コーディング実演授業!
 
これからはじめるWebプロジェクトマネジメント
これからはじめるWebプロジェクトマネジメントこれからはじめるWebプロジェクトマネジメント
これからはじめるWebプロジェクトマネジメント
 
ホームルーム12月_2
ホームルーム12月_2ホームルーム12月_2
ホームルーム12月_2
 
schoo WEB-campus ホームルーム12月
schoo WEB-campus ホームルーム12月schoo WEB-campus ホームルーム12月
schoo WEB-campus ホームルーム12月
 
デザイナー・コーダーのための黒い画面入門
デザイナー・コーダーのための黒い画面入門デザイナー・コーダーのための黒い画面入門
デザイナー・コーダーのための黒い画面入門
 
表現別、PhotoshopとIllustratorの使い
表現別、PhotoshopとIllustratorの使い表現別、PhotoshopとIllustratorの使い
表現別、PhotoshopとIllustratorの使い
 
1119 高倉さま fixfix
1119 高倉さま fixfix1119 高倉さま fixfix
1119 高倉さま fixfix
 
株式会社LIGを事例に学ぶ、実践的アクセス解析
株式会社LIGを事例に学ぶ、実践的アクセス解析株式会社LIGを事例に学ぶ、実践的アクセス解析
株式会社LIGを事例に学ぶ、実践的アクセス解析
 
カフェのWEBサイトを作って、WEBデザインの基礎と技術を学ぶ
カフェのWEBサイトを作って、WEBデザインの基礎と技術を学ぶカフェのWEBサイトを作って、WEBデザインの基礎と技術を学ぶ
カフェのWEBサイトを作って、WEBデザインの基礎と技術を学ぶ
 

Recently uploaded

物流は成長の準備ができていますか? 警告 1 日あたり 1 章を超えて消費しないでください コンテンツが覚醒と変化への意志を引き起こす
物流は成長の準備ができていますか? 警告 1 日あたり 1 章を超えて消費しないでください コンテンツが覚醒と変化への意志を引き起こす物流は成長の準備ができていますか? 警告 1 日あたり 1 章を超えて消費しないでください コンテンツが覚醒と変化への意志を引き起こす
物流は成長の準備ができていますか? 警告 1 日あたり 1 章を超えて消費しないでください コンテンツが覚醒と変化への意志を引き起こす
Michael Rada
 

Recently uploaded (6)

物流は成長の準備ができていますか? 警告 1 日あたり 1 章を超えて消費しないでください コンテンツが覚醒と変化への意志を引き起こす
物流は成長の準備ができていますか? 警告 1 日あたり 1 章を超えて消費しないでください コンテンツが覚醒と変化への意志を引き起こす物流は成長の準備ができていますか? 警告 1 日あたり 1 章を超えて消費しないでください コンテンツが覚醒と変化への意志を引き起こす
物流は成長の準備ができていますか? 警告 1 日あたり 1 章を超えて消費しないでください コンテンツが覚醒と変化への意志を引き起こす
 
company profile.pdf
company profile.pdfcompany profile.pdf
company profile.pdf
 
Broadmedia Corporation. 240510fy2023_4q
Broadmedia Corporation.  240510fy2023_4qBroadmedia Corporation.  240510fy2023_4q
Broadmedia Corporation. 240510fy2023_4q
 
セルフケア研修で使えるカードゲーム『攻略!きみのストレスを発見せよ!: ゲームで身につくストレスマネジメント』
セルフケア研修で使えるカードゲーム『攻略!きみのストレスを発見せよ!: ゲームで身につくストレスマネジメント』セルフケア研修で使えるカードゲーム『攻略!きみのストレスを発見せよ!: ゲームで身につくストレスマネジメント』
セルフケア研修で使えるカードゲーム『攻略!きみのストレスを発見せよ!: ゲームで身につくストレスマネジメント』
 
共有用_aio基本保守プラン_WordPressサイト_20240509.pdf
共有用_aio基本保守プラン_WordPressサイト_20240509.pdf共有用_aio基本保守プラン_WordPressサイト_20240509.pdf
共有用_aio基本保守プラン_WordPressサイト_20240509.pdf
 
日本上場SaaS企業データを使った経験曲線の分析|売上成長によるコストダウン戦略
日本上場SaaS企業データを使った経験曲線の分析|売上成長によるコストダウン戦略日本上場SaaS企業データを使った経験曲線の分析|売上成長によるコストダウン戦略
日本上場SaaS企業データを使った経験曲線の分析|売上成長によるコストダウン戦略
 

2つの数値項目の関連を探る方法を知り予測出来るようになる