More Related Content Similar to 実践データ分析基礎 (20) More from TOSHI STATS Co.,Ltd. More from TOSHI STATS Co.,Ltd. (6) 実践データ分析基礎1. 実践データ分析基礎
10 December 2014
Toshifumi Kuga CEO of TOSHI STATS SDN. BHD.
1
4. ワイン価格=-12.145+0.00117×冬の降雨+ 0.06163×育成期平
均気温- 0.00386×収穫期降雨+ 0.02385×1983年からの年数
• パラメータ:θ=[ -12.145, 0.00117, 0.06163, -0.00386, 0.02385 ]
• 説明変数:X=[1, 冬の降雨, 育成期平均気温, 収穫期降雨, 年数]
• ワイン価格:Y=θ0+θ1×X1+θ2×X2+θ3×X3+θ4×X4
• ワイン価格は簡単に「Y=θX」と書けます!
4
1. ワイン価格の予測式
※「ワイン価格」は1961年の平均価格に対する当該年の平均価格の比を作りlogをとったもの、説明のため単純化してます
5. 価格予測のステップ
• ワイン価格:Y=θX
• Yは予測したい値(ここでは将来のワイン価格、まだわからない)
• Xは既知のデータ(過去の気温データ等は既にわかっている)
• パラメータθはまだわからない
→ θを求められれば、将来のワイン価格Yが求まります!
• 過去のYのデータも既知(過去のワイン価格も既にわかっている)
→ 過去のXとYのデータはセットで利用可能→これからθを求めます
5
1. ワイン価格の予測式
6. 分析に使われたデータ
6
1. ワイン価格の予測式
OBS VINT Y:LPRICE2 X1:WRAIN X2:DEGREES X3:HRAIN X4:TIME_SV
1 1952 -0.99868 600 17.1167 160 31
2 1953 -0.4544 690 16.7333 80 30
3 1954 430 15.3833 180 29
4 1955 -0.80796 502 17.15 130 28
5 1956 440 15.65 140 27
… … … … … … …
35 1986 563 16.2833 171 -3
36 1987 452 16.9833 115 -4
37 1988 808 17.1 59 -5
38 1989 443 82 -6
Y X
9. θとXは一つの数ではありません
• 数のあつまり、かたまり
• 数学で言えば、「ベクトル・行列」
• 大量の数をθ、Xとシンプルに表現できます!
• コンピュータではデータを「ベクトル・行列」で処理します
• R, MATLAB, pythonなど主なプログラム言語では「ベクト
ル・行列」を簡単に構成し、制御できます
9
1. ワイン価格の予測式
12. ベクトルは一行で表せます
12
• ベクトルの例
2. データの扱い方(ベクトルと行列)
[1 3 7] [5 13 ]
]
]5 1
b=c(5,13)
d=c(1,5)
a=c(1,3,7)
統計ツール「R」で確認しましょう
23. 2. データの扱い方(ベクトルと行列)
かけ算を詳しくみてみましょう
[× 52 49]
[1 2] 3 4
[
a=matrix(c(1,3,2,4),2,2)
b=matrix(c(2,5,9,4),2,2)
1×9+ 2×4 =17
3×9+ 4×4 =43]=
23
=
a%*%b
[ 17] 26 43
1×2+ 2×5 =12 12
3×2+ 4×5 =26
27. 2. データの扱い方(ベクトルと行列)
逆行列
• 行列が正方行列(行数=列数)のとき、逆行列をかけ
ると単位行列になる
-1 -1
× = × =
a=matrix(c(1,3,2,4),2,2)
> a
[,1] [,2]
[1,] 1 2
[2,] 3 4
27
> inv=solve(a)
> inv
[,1] [,2]
[1,] -2.0 1.0
[2,] 1.5 -0.5
-1=
28. 転置行列
28
2. データの扱い方(ベクトルと行列)
• 行と列を入れ替える
a=matrix(c(1,3,2,4),2,2)
t(a)
=
T
29. 最小2乗法への応用
• ベクトルのかけ算を最小2乗法の計算に使ってみます
• J = 1/(2*m) * T(X*θ-Y)*(X*θ-Y) : コスト関数と呼ばれます
• mはサンプル数
• XとYは既知のデータ、θはパラメータ
• T( )は転置行列を表します
• Jが最小になる(実際の値と予測値が近い)θをみつける
29
→最小2乗法
2. データの扱い方(ベクトルと行列)
31. 3. Rでの線形回帰分析
パラーメータが求まりました!
• Call:
• lm(formula = LPRICE2 ~ WRAIN + DEGREES + HRAIN + TIME_SV,
ワイン価格の予測式と比べてみましょう
31
data =wine)
• Coefficients:
• (Intercept) WRAIN DEGREES HRAIN TIME_SV
• -12.145007 0.001167 0.616365 -0.003861 0.023850
37. Quandl:外部データソース
37
• 1000万を超える
時系列データを無
料で利用可能
• R、MATLAB、
pythonなどに直接
ダウンロード可能
https://www.quandl.com
38. Website of R and RStudio
• 弊社のwebでRの入門コースが閲覧できます. ダウンロードの方法も紹介していま
す。無料ですので覗いてみて下さい
http://www.toshistats.net/introduction-to-r-language/
• Rは以下のwebからダウンロードできます。R is a language and environment
for statistical computing. R Foundation for Statistical Computing, Vienna,
Austria. ISBN 3-90005107-0 URL http://www.R-project.org
• RStudio は Rの統合開発環境(IDE)で最も優れたものの一つです. 無料で利用可能
http://www.rstudio.com/products/rstudio/download/
38
39. Thanks for your attentions
• TOSHI STATS SDN. BHD. Digital-learning center for statistical computing in
Asia
• CEO : Toshifumi Kuga, Certified financial services auditor
• Company web site : www.toshistats.tokyo (日本語のサイトです)
• Company blog : http://toshistats.wordpress.com/aboutme/
• Company FB page : www.facebook.com/toshistatsco
• ブログはデータ分析の最新情報を御伝えするため毎週木曜日の10:00に更新してます !
39
40. Disclaimer
• TOSHI STATS SDN. BHD. and I do not accept any responsibility or
liability for loss or damage occasioned to any person or property
through using materials, instructions, methods, algorithm or ideas
contained herein, or acting or refraining from acting as a result of
such use. TOSHI STATS SDN. BHD. and I expressly disclaim all
implied warranties, including merchantability or fitness for any
particular purpose. There will be no duty on TOSHI STATS SDN.
BHD. and me to correct any errors or defects in the codes and the
software
© 2014 TOSHI STATS SDN. BHD. All rights reserved
40