More Related Content Similar to 20130223_集計・分析の基礎@アンケート研究会 (20) More from Takanori Hiroe (17) 20130223_集計・分析の基礎@アンケート研究会10. 母集団と標本
全数調査 標本調査
抽出
母集団 (Sampling) 標本
推測
• 母集団:統計的調査・分析の対象となる集団全体
• 母集団すべてを調査することが困難な場合,標本を抽
出して,そこから確率論的に母集団を推定する
10
16. 患者満足度調査
• なにがいけないのか考えてみる
‣ 外来受診者1000人/日の病院(80%は予約患者)
‣ 外来受付時刻9:00∼11:00(予約でも受付は通過する)
‣ 調査紙(アンケート)で外来受診者の満足度を知る
‣ 10:20∼10:30の間に窓口周辺にいる患者に無作為に配布
16
23. 基本統計量の例
• 中心位置を推測するもの • 広がりを推測するもの
‣ 算術平均(相加平均) ‣ 平方和(S)
‣ メディアン(中央値) ‣ 分散(V)
‣ モード(最頻値) ‣ 標準偏差(s)
‣ トリム平均 ‣ 範囲(R)
23
27. トリム平均
・・・ ・・・・ ・
• trim: 刈り取る ↑min. max↑
• e.g. n個のデータから最大値と最小値を取り除いた平均
• 計算結果が外れ値に引っ張られない
• 使ってよい場合と,そうでない場合がある
• 外れ値がある場合は必ず原因を検討する
27
28. 平方和(S); SUM OF SQUARE
• 平方和そのものを結果として示すことはまずない
• 分散や標準偏差,相関係数の計算に用いる
• (個々のデータ − 平均)の2乗をすべて合計した値
• 個々のデータの2乗の合計 − (データの合計の2乗÷n)
2 2
n n
1# n &
• S =∑ ( )
xi − x = ∑ x − % ∑ xi (
2
i
n $ i=1 '
i=1 i=1
28
32. 範囲(R); RANGE
• 最大値 − 最小値
• R = xmax − xmin
• データ数が少ない場合にのみ使用する(n=10程度)
• 標準偏差より情報量が少ない
32
36. 図のメリット・デメリット
• メリット • デメリット
‣ 全体像を理解しやすい ‣ 詳細な数が見えにくい
‣ 変化を説明しやすい ‣ 1つの表で示せる内容
でも,グラフでは複数
‣ 見れば分かる
描かなければならない
‣ 細かい数字を隠せる(!) 場合がある
36
37. どんな図があるか
• 棒グラフ • 散布図
• 円グラフ • 階層グラフ
• 折れ線グラフ • 三角グラフ
• レーダーチャート • 箱ひげ図
• ヒストグラム • etc. (調べてみましょう)
37
38. 棒グラフ
• 棒の高さで直感的に大小比較が可能
出所: “Bar chart”, Wikipedia:en
• 原則は左(上)から大きい順に並べるが,時系列など
並び方に意味がある場合はその限りではない
• 大きさに差がありすぎると分かりにくくなる
• 系列数や項目の数が多くなると見づらい
38
43. こたえあわせ
E" A" E" A"
19%" 22%"
D"
D" 18%" B"
B" 20%"
C"
C" 21%"
43
44. 円グラフと棒グラフ
25"
20"
E" A"
15"
D" 10"
B"
C" 5"
0"
A" B" C" D" E"
44
49. ヒストグラム
• since1895, by Karl Pearson 出所: “Histogram”, Wikipedia:en
• 棒グラフとは別物(棒同士がくっついている)
• 横軸にデータ区間,縦軸に頻度(度数)
• データ区間の設定方法にはいまだ議論がある
• 度数分布表の作成 → ヒストグラム
49
50. 度数分布表 区間
10.75-14.25
中心値
12.50
度数
2
14.25-17.75 16.00 4
17.75-21.25 19.50 7
21.25-24.75 23.00 14
24.75-28.25 26.50 12
28.25-31.75 30.00 6
• 区間,中心値,度数からなる表 31.75-35.25 33.50 3
35.25-38.75 37.00 2
• 区間は後述の規則(他の方法もあり)によって計算
• 中心値は区間の (上限値+下限値)÷2 で求める
• 度数はその区間に入るデータの個数
50
51. 度数分布表の作成法
(区間設定法はSQUARE-ROOT CHOICEを利用)
1.データの測定単位m, 最大値Xmax, 最小値Xmin, 範囲Rを計算
2.仮の区間数 (ただしhは整数)
h≈ n
R
3.区間の幅 (ただしcはmの整数倍に丸める)
c≈
h
m
4.一番下の下側境界値を とする
X min −
2
5.下側境界値にcを加えて区間を決定,Xmaxを含むまで
6.各区間に入るデータの個数をカウント
51
54. 練習問題
度数分布表とヒストグラムの作成
• 測定単位0.5, n=50
11.0 13.5 14.5 15.5 16.5 17.0 18.0 19.0
19.5 20.5 21.0 21.0 21.0 22.0 22.5 22.5
23.0 23.0 23.5 23.5 23.5 23.5 24.0 24.5
24.5 24.5 24.5 25.0 25.0 25.5 26.0 26.0
27.0 27.0 27.5 27.5 28.0 28.0 28.0 28.5
28.5 29.0 30.0 30.5 31.0 32.5 33.0 35.0
36.0 36.5
54
55. 計算過程
1.m=0.5, Xmax=36.5 Xmin=11.0 R=36.5-11.0=25.5
2.仮の区間数 h ≈ n = 50 ≈ 7
R 25.5
3.区間の幅 c≈ =
h 7
≈ 3.5
m 0.5
4.一番下の下側境界値 xmin − = 11.0 −
2 2
= 10.75
5.下側境界値に3.5を加えて区間を決定,36.5を含むまで
6.各区間に入るデータの個数をカウント
55
56. こたえあわせ
区間 中心値 度数 16"
10.75-14.25 12.50 2 14" n=50
14.25-17.75 16.00 4
12" Avg.= 24.56
10" s=5.60
17.75-21.25 19.50 7 8"
21.25-24.75 23.00 14 6"
4"
24.75-28.25 26.50 12
2"
28.25-31.75 30.00 6
0"
"
"
"
"
"
"
"
"
25
75
25
75
25
75
25
75
31.75-35.25 33.50 3
.
.
.
.
.
.
.
.
14
17
21
24
28
31
35
38
5+
5+
5+
5+
5+
5+
5+
5+
.7
.2
.7
.2
.7
.2
.7
.2
35.25-38.75 37.00 2
10
14
17
21
24
28
31
35
※ 実はちょっといけない図だったりするけれど,今回は気にしないことに…
56
59. 相関係数; CORRELATION COEFFICIENT
• 2変数の相関の程度(直線関係)を定量的に示す方法
• n組のデータ (x1, y1), (x2, y2), ..., (xn, yn)
• xの平方和(Sx),yの平方和(Sy),xとyの偏差積和(Sxy)
1 2 2
• Sxy = ∑ xi yi −
n
(∑ x ) (∑ y )
i i
Sxy
• r=
Sx ⋅ Sy
59
60. 相関係数の読み方
• -1 ≦r≦1
• +のとき正の相関,−のとき負の相関
•r ≒ 0 のとき無相関
• 一般的に±0.6で相関あり,±0.8で強い相関というが,
必ずしもそうであるとは限らない(状況に依存する)
60
61. 演習(ANSCOMBE’S QUARTET)
F. J. Anscombe, “Graphs in Statistical Analysis”, The American Statistician, Vol.27(1), pp.17-21, 1973
• X及びYの平均・標準偏差,XとYの相関係数を求めよ
61
63. 図を描いた人はいますか
出所: ”Anscombe's quartet”, Wikipedia:en
63
69. 統計量は表の上の方がいい
(たぶんその方が見やすい)
• 行が多いとき,下にあると見づらい
• でも,行が少ないと気持ち悪かったりしなくもない
# 性別 住所 職業 試験成績
M F 疫学 統計学 合否
合計 4 4 5
平均 73.125 64.375
1 1 東京 会社員 75 80 1
2 1 東京 無職 60 40 0
3 1 千葉 保険師 95 100 1
4 1 秋田 大学院生 90 70 1
5 1 埼玉 大学生 50 50 0
6 1 海外 自営 55 55 1
7 1 神奈川 開業医 100 40 0
8 1 福岡 技師 60 80 1
69
70. クロス集計
( 単純集計)
• 2つないし3つの項目をひとまとめにする
• ある選択肢群に対する回答に加えて,別な項目(主と
してデモグラフィック項目の一部)への回答も加えて
集計し,表を作成する技法のこと
• 多重クロス集計(三重以上)もあるが,分かりにくく
なるだけなので,ほかの方法と比較検討してから使用
70
71. クロス集計表の例
(クロス集計表→多重クロス集計表)
疾患X
性別 あり なし (合計)
M 71 988 1059 疾患X
}
F 29 912 941 性別 煙草 あり なし (合計)
(合計) 100 1900 2000
喫煙者 51 607 658
M
非喫煙者 20 381 401
疾患X 喫煙者 20 769 789
F
煙草 あり なし (合計) 非喫煙者 9 143 152
喫煙者 71 1,376 1447 (合計) 100 1900 2000
非喫煙 29 524 553
(合計) 100 1,900 2000 ※ すべて架空のデータです
71
72. 分析は誰とやるべきか
ひとりで黙々とやるか
アンケート同様に複数の視点で確認しながらやるか
(経験も踏まえつつ,少し考えてみる)
72