Rで確認しながら解く
統計検定2級
@ito_yan
1mail2itoh3 [at] gmail.com
2015.07.18
Tokyo.R #49
はじめに
• 所属する組織の意見・見解ではありません
• つまらないなら睡眠学習、復習に当てましょう
• 掲載にあたって、スライドの一部内容を差し替え
ております
2
自己紹介
• Twitter ID:@ito_yan
• サーバ管理者見習い
• セキュリティ対策、Webアプリ書き
• 「まずはスモールデータより始めよ」派
• ビッグデータを始める前に安くやれることからやろう
• 統計ファンダメンタリスト
3
今回の話題
• 「統計検定」とは、統計に関する知識や活用力を
評価する全国統一試験です。(以下略)
• http://www.toukei-kentei.jp/about/index.html
より引用
• 統計検定の問題を実際にRで確認し、試験会場
では行えないことを試してみよう
• 2級の問題からいくつかの話題を取り上げる
• 少なくとも1回は実際に取り上げられてます
4
幹葉表示(Stem and Leaf display)
• データを大きな単位(幹)と詳細な値(葉)を組み
合わせて表現したもの
• 年齢は10歳単位で区切るとうまく表現できること
がある
5
1 8 8 8 9 9 9
2 0 0 0 1 1 1 2 3 5 5 5 7 7 7 8 8 9 9 9 9
3 0 1 2 2 2 2 3 6 8 9
4 0 2 3 3 4 9
5 0
あるイベントの参加者の年齢
29歳は4人と
読み取れる
データは昇順に
並べること
幹葉表示の利用方法
• 比較的小規模で一番下の桁がそろっているデー
タに対して使われる
• 前スライドの年齢データは1歳の桁で揃っている
• 大規模なデータには適用しない
• すべて書くのは大変である
• 箱ひげ図やヒストグラムを代わりに使う
• 外れ値や最頻値の探索に有効
• 大まかな分布の形状が把握できる
• 前スライドの年齢データは若い方に偏っていた
6
Rを用いた幹葉表示
• graphics::stemを利用する
• irisデータの花びらの長さから、2つのグループに
区別できそうということが分かる
7
幹と葉の区切りが
小数点の位置
ローレンツ曲線
• 事象の集中の程度を示した曲線
• 横軸に累積データ登場割合、縦軸に対象となる
データの累積割合を描いた曲線
• 縦軸はデータの小さいものから順にならべ、その累
積割合を計算していく
• 45度線(均等分配線)とローレンツ曲線の間の面
積を2倍したものはジニ係数と呼ばれる
• 日本の所得に関するジニ係数は0.3~0.35程度
8
Rでローレンツ曲線を描く
• ineqパッケージを利用
• Lcはローレンツ曲線を描く関数
• Giniはジニ係数を計算するための関数
• データ累積登場割合は順に0.25, 0.5, 0.75, 1
• データの累積割合は順に0, 0, 0, 1
• 原点、(0.25, 0)、
(0.5, 0)、(0.75, 0)、
(1, 1)を順に結んだ
直線がローレンツ曲線
となる
9
ローレンツ曲線のグラフ
• 太線がローレンツ曲線を表している
• ジニ係数は
0.75×1÷2×2=0.75
となる
10
この三角形の面積
の2倍がジニ係数
(0~1の値をとる)
均等分配線
この線にローレンツ曲線
が乗っかると完全に平等
0.75
ポアソン分布(Poisson distribution)
• 一定期間の中で、稀にしか起こらない現象を起こ
す対象を大量に観測したときに、その現象が起き
た回数が従う分布
• 1年間にプロイセン陸軍の兵士が馬に蹴られて死ん
だ数
• 1時間あたりの電話がかかってくる件数
• 確率質量関数fは次の通り。Xが現象発生回数の
確率変数で、λが一定期間に事象が起きる回数の
平均値
11
ある地域での1日の死亡者数を集計
• これもポアソン分布に従う
• 大勢いる中で死ぬという現象は稀であると考える
• 例えば、ある日の死亡者数が3となる確率は、先
ほどの定義式でk=3とすればよい
• このデータからλはどのような値と推定されるか?
12
人数 0 1 2 3 4 5 6 合計
日数 50 150 145 90 45 15 5 500
最尤推定法による母数の推定
• データが従う分布を既知とし、観測データが確率
最大で起こる、尤もらしい母数を推定する方法
• (n=)500日の観測は互いに独立で
という値が得られたとき、その組合せの確率は
L(尤度関数)を最大化するλを求めればよい
13
便宜的にgと
おいている
観測は互いに独立 ポアソン分布
尤度関数の最大化
• eを底とする対数をとって、対数尤度関数を最大
化するλを求める
• は になるので、対数
をとる、とらずに関係なく極値をとる値は変わらない
を解くと、
という推定値(標本平均)が得られる
14
なので、極大かつ最大となる
Rによるデータの確認
• λを推定し、実際の分布と
推定したλの場合の分布
を比較する
15
適合度検定
• 観測されたデータがある分布に従っていると仮定
して、本当にその分布に従っているかを調べる
• 帰無仮説:X~Poisson(1.99)
対立仮説:X~Poisson(1.99)ではない
• ~は左側の確率変数は右側の分布に従うというこ
とを意味している
• 有意水準は5%とする
16
検定統計量の計算
• λ=1.99として、観測値と期待度数は次の通り
• 6以上という書き方に注意
• 期待度数が5未満のものをまとめている
• 検定統計量は で与えられる
Oは観測値、Eは期待値
• 検定統計量は自由度が6のカイ二乗分布に従う
17
人数 0 1 2 3 4 5 6以上 合計
観測 50 150 145 90 45 15 5 500
期待 68.34 136.01 135.33 89.77 44.66 17.77 8.10 500
7以上の期待度数
の合計は約2.2
Rによる適合度検定の結果
• p値は0.192であり、有意水準5%で棄却されず、
λ=1.99のポアソン分布でないとはいえない
• chisq.testを使わず検定統計量を求めてみる
18
平均への回帰
• 極端なことが観測されると、次はよくあることが起
こることが期待されるという現象
• 結果の分布が正規分布のように中央に集まってい
ることに対して起こる
• 平均への回帰の例
• 2年目のジンクス
• 健康診断の血圧測定
19
参考文献
• 日本のジニ係数
• http://www.oecd.org/els/soc/Focus-Inequality-
and-Growth-JPN-2014.pdf
• 参考にした過去問(2014年11月実施)
• http://www.toukei-
kentei.jp/about/pastpaper/2014n/2014n_grade2
.pdf
• 統計学基礎(東京大学出版会)
• 自然科学の統計学(東京大学出版会)
20
当日掲載しなかった補足資料
21
ポアソン分布の期待値と2次モーメント
22
ポアソン分布の分散
• 分散については次のように導出される
• ポアソン分布の期待値と分散の値は一致する
23

Rで確認しながら解く統計検定2級