sampling

1,586 views

Published on

0 Comments
9 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
1,586
On SlideShare
0
From Embeds
0
Number of Embeds
79
Actions
Shares
0
Downloads
4
Comments
0
Likes
9
Embeds 0
No embeds

No notes for slide

sampling

  1. 1. みなさん こんにちは
  2. 2. 自己紹介 • @dichika • 医療系のデータ(健診とかレセプトとか) • たまに非効率なコードを書いて、裏Rjpwikiで 怒られてる
  3. 3. こんな感じ
  4. 4. そんな私が お送りする
  5. 5. 抽出 推定 誤差評価 ーその1ー
  6. 6. さて、わたくし
  7. 7. 先日 統計数理研究所の 公開講座に行って 参りました
  8. 8. これ
  9. 9. 良いものだったので 少しでも 皆さんに おすそわけしたい
  10. 10. おすそわけしたいもの • 抽出→推定→誤差評価という流れ • 抽出法(の一部) • 抽出法に対応した推定法・誤差評価法 • 対応しているRのパッケージ
  11. 11. さて 皆さんに 訊きたい
  12. 12. ポケットに 小銭いくら 入ってますか
  13. 13. 俺は今 会場の 小銭の総額を 知りたい
  14. 14. 一人一人 ジャンプ してもらう
  15. 15. めんどい
  16. 16. 今回の 出席者(40人)の リストから5人を ランダムに抽出
  17. 17. 5人に ジャンプ してもらう
  18. 18. 1さん 200 2さん 300 3さん 12 4さん 12 5さん 300 総計 824 結果
  19. 19. ここから 全体を推定
  20. 20. 824×40/5 →6592円 5人が40人を代表している
  21. 21. うさんくさい
  22. 22. 別の5人 だったら ぶれるん じゃないの?
  23. 23. 総計の ぶれ具合を 測る
  24. 24. ぶれ具合 (標準誤差) 6592円
  25. 25. =          ≒ 2599 総計のぶれ(標準誤差)の近似式 母集団サイズ×サンプルの標準偏差 √サンプルサイズ 40×145.3 √5
  26. 26. 結果
  27. 27. 会場の皆さんの ポケットの小銭総額 6592±2599円
  28. 28. ここまでを 振り返ると
  29. 29. 母集団からサンプルを抽出 非復元単純無作為抽出法 標本統計量(総計)に抽出 確率の逆数を乗じて母集団 の総計を推定 推定値の標準誤差(ぶれ 幅)を評価 抽出 推定 誤差評価
  30. 30. それぞれの ステップについて もう少し詳しく
  31. 31. 母集団からサンプルを抽出 非復元単純無作為抽出法 標本統計量(総計)に抽出 確率の逆数を乗じて母集団 の総計を推定 推定値の標準誤差(ぶれ 幅)を評価 抽出 推定 誤差評価
  32. 32. 抽出を工夫して 推定の精度を 高めたい
  33. 33. 抽出法いろいろ 無作為抽出 復元 → 復元単純無作為 抽出法 非復元 → 非復元単純無作 為抽出法 補助変数を 利用する 連続変数 → 確率比例抽出法 カテゴリカル → 層化抽出法 集落単位での抽出 → 集落抽出法
  34. 34. みな同じ確率で 抽出されるわけではなくなる ことに注意 (抽出確率が一定でない)
  35. 35. 母集団からサンプルを抽出 非復元単純無作為抽出法 標本統計量(総計)に抽出 確率の逆数を乗じて母集団 の総計を推定 推定値の標準誤差(ぶれ 幅)を評価 抽出 推定 誤差評価
  36. 36. 抽出法に対応して 推定・誤差評価も 調整する必要が ある
  37. 37. ナンデ?
  38. 38. 抽出確率が 一定でない ということは
  39. 39. サンプルの要素 1つが代表する 重みが違ってくる
  40. 40. 抽出確率の違いの影響 要素 単純無作為抽出法 確率比例抽出法 抽出確率 代表する人数 抽出確率 代表する人数 1 5/40 8 4/40 10 2 5/40 8 4/40 10 3 5/40 8 8/40 5 4 5/40 8 8/40 5 5 5/40 8 4/40 10
  41. 41. せっかく抽出法を凝っても 対応した推定・誤差評価を 行わないと 意図した結果が 得られない
  42. 42. 実は得られた結果をもとに 事後的に調整することも可能 (キャリブレーション) 本日は略
  43. 43. ここまで Rの話なし
  44. 44. surveyパッケージで万事解決 • Auckland  Univ.の統計 学者Thomas  Lumleyが 作成 • 抽出法に対応した推 定・誤差評価がまとめら れたパッケージ
  45. 45. svydesign svydesign(ids  =  ~層別化した変数,                              weights  =  ~抽出ウェイト,                            data  =  対象データ) • 得られるのはsurvey.designオブジェクト • 層別化していないときはids=~1と指定 • 抽出ウェイトは、サンプルの各要素が母集 団の要素をどれだけ代表しているか –  単純無作為抽出法の場合は抽出確率の逆数
  46. 46. svytotal svytotal    (x  =  ~集計したい目的変数,                              design  =  survey.designオブジェクト,                            na.rm  =  FALSE,                            deff  =  FALSE) • 集計したい目的変数は複数可能。その場 合は~目的変数1+目的変数2+...と指定 • na.rm、deffについては指定しない場合、 初期値がFALSE
  47. 47. # surveyパッケージの読み込み library(survey) # データをつくる df <- data.frame(kozeni = c(200,300,12,12,300),               wt = (40/5) ) # svydesignで抽出デザインと抽出ウェイトを指定する stts <- svydesign(ids = ~1, weights = ~wt, data = df) # svytotalで推定する svytotal(x = ~kozeni, design = stts) total SE kozeni 6592 2599.9 手計算と一致
  48. 48. まとめ
  49. 49. お伝えできたのはごく一部です • 抽出→推定→誤差評価という流れ • 抽出法(の一部) • 抽出法に対応した推定法・誤差評価法 • 対応しているRのパッケージ
  50. 50. お伝えしていないこと • サンプルサイズの設計 • 抽出法に対応したパッケージ紹介(sampling) • 総計以外の推定量について • 単純無作為抽出法以外の抽出法を使った場 合の一般化線形モデルの適用 • デザイン効果 • キャリブレーションの詳細
  51. 51. また機会があれば その2以降を やります
  52. 52. 待てない人これを読んでね • 松井博:標本調査法入門 –  1200円と安いわりに内容は濃いのでコスパ高い • 土屋隆裕:概説標本調査法 –  今回のネタ本、公開講座もわかりやすくてオススメ –  朝倉書店のサイトにsurveyパッケージを使ったサン プルコードあり • 原純輔ほか:社会調査演習 –  実例を知りたい場合はこちら
  53. 53. enjoy!

×