母集団
と標本
           @dichika
 Rによるやさしい統計学第4章
ゴール
• 母集団と標本の関係
• 標準偏差と標準誤差の区別
• 中心極限定理


 本日のコードはこちら
 http://rpubs.com/dichika/tokyor25
俺
• @dichika
• 医師
• 病気の予測とか病気のリコメンドとか
• 最近、情報幾何とグラフマイニングに興味を
 もってるのでおすすめの本があったら紹介して
 ください
まずは一つ目
• 母集団と標本の関係
• 標準偏差と標準誤差
• 中心極限定理
みなさんが
数値で表現し
 たい集団
それが
母集団
しかし
残念ながら
みなさんが
入手できるデータ
 は抽出された
  標本です
たとえば
   今回の
TokyoR出席者
 の平均年齢
全てを
 聞くのは
面倒不可能
とりあえず
10人くらいに
聞いて済ます
結果
このデータから
 平均年齢を
  算出して
母集団の
平均年齢と
 みなす
これが
点推定
みなしていいの?
イイ!
標本平均の期待
値は母集団の平
均と一致すること
 がわかってる
これが不偏性
いったん、まとめ
• 母集団とはあなたが特徴を確認したい集団
• 標本とは手元にあるデータ
• 母集団からの標本の抽出が無作為抽出とみ
 なせるかどうかが重要
• 標本平均は不偏推定量なので、その平均を
 母集団の平均とみなしてよい
• TokyoR≒アラサー集団
二つ目
• 母集団と標本の関係
• 標準偏差と標準誤差
• 中心極限定理
さっきの話
こんな場合も
 あるかも
 しれない
TokyoR≒幼女?
Nが少ないと
点推定だけで
 は不安
ぶれるのであれば
  せめて幅を
もたせられないか
それが
標準誤差
具体的には
  標本平均 ※の

標本分布の標準偏差

    より一般的には標本統計量を指す
???????
標本分布とは
  標本統計量
(ここでは標本平均)
  の分布のこと
標本平均の標本分布
標準偏差
これが
標準誤差
標準誤差

  標本平均の
標本分布の標準偏差
標準偏差	



         標準誤差
ここでもう一度、まとめ
• 点推定+標準誤差で幅をもたせる
• 標準誤差は標本平均の標本分布の標準偏差
最後
• 母集団と標本の関係
• 標準偏差と標準誤差
• 中心極限定理
幅の持たせ方は
わかったがどうやって
  計算するのか
はい、ここで
中心極限定理
互いに独立で同一の
確率分布に従うよう
な確率変数の標本平
均の分布は、正規分
  布に収束する
つまり
   母集団が
 どんな分布でも
 その標本平均は
一定の正規分布に
    従う
標本平均
    m



m
N
標準偏差(標準誤差)
N:標本の大きさ
ほんと?
一応シミュレーション
  してみる
適当に作った分布から
標本(N=10)を抽出
     ↓
 標本平均を計算
以上を
100万回繰り返す
ぼくのかんがえたさいきょうのぶんぷ
結果
正規分布っぽい!
 平均も同じ!
ちなみに
抽出する標本の
大きさを100倍に
  してみる
標準誤差が
10分の1に!
標本平均
    m



m
N
標準偏差(標準誤差)
N:標本の大きさ
ということでまとめ
• 母集団を意識しよう!
• 点推定+標準誤差で幅をもたせよう!
• 幅は標本のサイズを大きくすると狭くなるよ!
enjoy!

母集団と標本