パラメトリックブートストラップ検定
と確率分布
1
1日目-第5講
名前:馬場真哉
所属:北大水産 修士課程2年
Webサイト: logics of blue で検索
2
正規線形モデルの理解のために
統計の基本とt検定
分散分析(ANOVA)
回帰分析と分散分析
PB検定と確率分布
モデル選択とAIC
出来れば
Type II ANOVA、交互作用
3
検定
を理解するのが目標
4
① 絶対に予測誤差がナイーブ予測と有意に
異ならないとわかっているデータをたくさん集める
F比が12.79を超えた回数が、100回中5回以内だった
→偶然でt値が12.79を超える確率は小さい
→有意差あり
② そのデータのF比を計算する
...
5
F比の大小の判別方法(F比が12.79の時)
100回中、F比が12.79を超えた回数を算出
=
12.79を超えた回数
100
p値
p値≦0.05なら有意とみなす
=偶然で今回計算された
統計量( F比)を超える確率
6
① 絶対に予測誤差がナイーブ予測と有意に
異ならないとわかっているデータをたくさん集める
② そのデータのF比を計算する
③ 0とは有意に異ならないデータにおける
F比を例えば100回計算する。
④ 100回中、F比が12.79を超えた回数...
7
① 絶対に予測誤差がナイーブ予測と有意に
異ならないとわかっているデータをたくさん集める
F比の大小の判別方法(F比が12.79の時)
8
① 絶対に予測誤差
がナイーブ予測と有
意に異ならないとわ
かっているデータをた
くさん集める
F比の大小の判別方法(F比が12.79の時)
9
どうやって?
パラメトリックブートストラップ
を使って
10
パラメトリックブートストラップ?
シミュレーションによりある確率分布に従う
ランダムなデータを生成して、
統計量を算出すること
11
今回の内容
1.RをつかってPB検定する
2.確率分布を理解する
3.正規分布~正規線形モデルを理解する
12
実演
Histogram of sim.F.value
Density
0 5 10 15 20
0.00.20.40.60.81.0
確率分布
○~×に位置するデータの割合が求まる
14
確率分布
シミュレーションで出すのは大変・・・
もっと簡単にp値を計算できないか?
http://ja.wikipedia.org/wiki/F%E5%88%86%E5%B8%83
計算で出せる(df()の中身)
15
まとめ
① 絶対に予測誤差がナイーブ予測と有意に
異ならないとわかっているデータをたくさん集める
パラメトリックブートストラップ
計算が面倒なので
普通は偉い人の数式を使って確率分布を導く
質問どうぞ!
16
Simulate関数
Simulate関数は
どのようにしてデータを作っている?
1.データはあるモデルに従って生成される
2.しかし、データはモデルの方程式通りに
出てくるのではなく、
方程式の出力を期待値とした
独立な正規分布に従って...
17
データはあるモデルに従って生成される
YはOptionの影響を受けていない
と考えたモデルから擬似データを生成した
毎回値が変わるのはなぜ?
正規分布に従う乱数から出された値だから
18
正規分布とは?
確率分布です
○~×に位置するデータの割合が求まる
用例)
ある正規分布において、
データが3~2の範囲内に収まる確率は?
→10%です!
19
正規分布とは?
平均を中心に左右対称な確率分布です
用例)
平均0の正規分布において、
データが3~2の範囲内に収まる確率=10%なら
-3~-2の範囲内に収まる確率も10%
20
正規分布とは?
平均によって中心位置が変わります
分散によって裾の広さが変わります。
-6 -4 -2 0 2 4 6
0.00.10.20.30.40.5
正規分布
確率
平均0、分散1
平均2、分散1
平均0、分散4
正規分布とは?
分散小ならデータはほとんど平均のそばに現れる
分散大なら平均と離れた場所に現れる確率が上がる
-6 -4 -2 0 2 4 6
0.00.10.20.30.40.5
正規分布
確率
平均0、分散1
平均0、分散4
22
正規分布の何がすごいか
1.計算がいろいろと楽
2.正規分布に従うデータは数多い
3.合計値や期待値をとると、なぜか正規分布になる
(中心極限定理)
23
正規線形モデルとは?
• 予測の方程式は線形である
気温10度の時、温度が1度上がると10本多く売れる
気温20度の時、温度が1度上がると10本多く売れる
気温90度の時、温度が1度上がると10本多く売れる
ビールの売り上げを予測する
24
正規線形モデルとは?
• 予測の方程式は線形である
• 予測からのデータのズレは
左右対称の正規分布に従う
限界を知ったうえで活用しよう
質問どうぞ!
25
正規線形モデルの再確認
中心極限定理のシミュレーション
実演
Upcoming SlideShare
Loading in …5
×

1 5.パラメトリックブートストラップ検定と確率分布

10,750 views

Published on

2013年8月10~11日にかけて北大函館キャンパス内で行われた統計勉強会の投影資料です。

1-5パラメトリックブートストラップ検定と確率分布
検定の仕組みと確率分布の解説です。

Published in: Technology
0 Comments
4 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
10,750
On SlideShare
0
From Embeds
0
Number of Embeds
7,809
Actions
Shares
0
Downloads
0
Comments
0
Likes
4
Embeds 0
No embeds

No notes for slide

1 5.パラメトリックブートストラップ検定と確率分布

  1. 1. パラメトリックブートストラップ検定 と確率分布 1 1日目-第5講 名前:馬場真哉 所属:北大水産 修士課程2年 Webサイト: logics of blue で検索
  2. 2. 2 正規線形モデルの理解のために 統計の基本とt検定 分散分析(ANOVA) 回帰分析と分散分析 PB検定と確率分布 モデル選択とAIC 出来れば Type II ANOVA、交互作用
  3. 3. 3 検定 を理解するのが目標
  4. 4. 4 ① 絶対に予測誤差がナイーブ予測と有意に 異ならないとわかっているデータをたくさん集める F比が12.79を超えた回数が、100回中5回以内だった →偶然でt値が12.79を超える確率は小さい →有意差あり ② そのデータのF比を計算する ③ 0とは有意に異ならないデータにおける F比を例えば100回計算する。 ④ 100回中、F比が12.79を超えた回数を記録 F比の大小の判別方法(F比が12.79の時)
  5. 5. 5 F比の大小の判別方法(F比が12.79の時) 100回中、F比が12.79を超えた回数を算出 = 12.79を超えた回数 100 p値 p値≦0.05なら有意とみなす =偶然で今回計算された 統計量( F比)を超える確率
  6. 6. 6 ① 絶対に予測誤差がナイーブ予測と有意に 異ならないとわかっているデータをたくさん集める ② そのデータのF比を計算する ③ 0とは有意に異ならないデータにおける F比を例えば100回計算する。 ④ 100回中、F比が12.79を超えた回数を記録 F比の大小の判別方法(F比が12.79の時)
  7. 7. 7 ① 絶対に予測誤差がナイーブ予測と有意に 異ならないとわかっているデータをたくさん集める F比の大小の判別方法(F比が12.79の時)
  8. 8. 8 ① 絶対に予測誤差 がナイーブ予測と有 意に異ならないとわ かっているデータをた くさん集める F比の大小の判別方法(F比が12.79の時)
  9. 9. 9 どうやって? パラメトリックブートストラップ を使って
  10. 10. 10 パラメトリックブートストラップ? シミュレーションによりある確率分布に従う ランダムなデータを生成して、 統計量を算出すること
  11. 11. 11 今回の内容 1.RをつかってPB検定する 2.確率分布を理解する 3.正規分布~正規線形モデルを理解する
  12. 12. 12 実演
  13. 13. Histogram of sim.F.value Density 0 5 10 15 20 0.00.20.40.60.81.0 確率分布 ○~×に位置するデータの割合が求まる
  14. 14. 14 確率分布 シミュレーションで出すのは大変・・・ もっと簡単にp値を計算できないか? http://ja.wikipedia.org/wiki/F%E5%88%86%E5%B8%83 計算で出せる(df()の中身)
  15. 15. 15 まとめ ① 絶対に予測誤差がナイーブ予測と有意に 異ならないとわかっているデータをたくさん集める パラメトリックブートストラップ 計算が面倒なので 普通は偉い人の数式を使って確率分布を導く 質問どうぞ!
  16. 16. 16 Simulate関数 Simulate関数は どのようにしてデータを作っている? 1.データはあるモデルに従って生成される 2.しかし、データはモデルの方程式通りに 出てくるのではなく、 方程式の出力を期待値とした 独立な正規分布に従って生成される
  17. 17. 17 データはあるモデルに従って生成される YはOptionの影響を受けていない と考えたモデルから擬似データを生成した 毎回値が変わるのはなぜ? 正規分布に従う乱数から出された値だから
  18. 18. 18 正規分布とは? 確率分布です ○~×に位置するデータの割合が求まる 用例) ある正規分布において、 データが3~2の範囲内に収まる確率は? →10%です!
  19. 19. 19 正規分布とは? 平均を中心に左右対称な確率分布です 用例) 平均0の正規分布において、 データが3~2の範囲内に収まる確率=10%なら -3~-2の範囲内に収まる確率も10%
  20. 20. 20 正規分布とは? 平均によって中心位置が変わります 分散によって裾の広さが変わります。 -6 -4 -2 0 2 4 6 0.00.10.20.30.40.5 正規分布 確率 平均0、分散1 平均2、分散1 平均0、分散4
  21. 21. 正規分布とは? 分散小ならデータはほとんど平均のそばに現れる 分散大なら平均と離れた場所に現れる確率が上がる -6 -4 -2 0 2 4 6 0.00.10.20.30.40.5 正規分布 確率 平均0、分散1 平均0、分散4
  22. 22. 22 正規分布の何がすごいか 1.計算がいろいろと楽 2.正規分布に従うデータは数多い 3.合計値や期待値をとると、なぜか正規分布になる (中心極限定理)
  23. 23. 23 正規線形モデルとは? • 予測の方程式は線形である 気温10度の時、温度が1度上がると10本多く売れる 気温20度の時、温度が1度上がると10本多く売れる 気温90度の時、温度が1度上がると10本多く売れる ビールの売り上げを予測する
  24. 24. 24 正規線形モデルとは? • 予測の方程式は線形である • 予測からのデータのズレは 左右対称の正規分布に従う 限界を知ったうえで活用しよう 質問どうぞ!
  25. 25. 25 正規線形モデルの再確認 中心極限定理のシミュレーション 実演

×