Rでノンパラメトリック法 1
@ito_yan
E-mail: 1mail2itoh3@gmail.com
2013.07.27
Nagoya.R #10
はじめに
• 所属する組織の意見・見解ではありません
• つまらないなら睡眠学習、復習に当てましょう
• メール、Twitter等でのコメント歓迎します
2
自己紹介
• Twitter ID:@ito_yan
• Rに初めて触れてから7年目になりました
• Writing R Extensions 2.15.2 翻訳
• 統計検定1級合格
• サーバ管理者見習い
3
今日の話題
• ノンパラメトリック法の特徴
• ノンパラメトリック法の定番手法を紹介
• 符号検定
• ウィルコクソンの符号付順位和検定
• 一対標本、分割表に対する検定
4
学習の動機
• 正規分布に従わないデータの存在
• 例:ソーシャルゲームにおける課金の分布
• 多くの人は月0円だが、一部は月に何万円も使う
• 正規分布の仮定が妥当でないシチュエーションに
対する分析手法を理解したい
→ノンパラメトリック法の出番!
5
ノンパラメトリック法の特徴
• 利点
• 標本が属する母集団の分布に依存しない方法
• 頑健性がある(外れ値にも強い)
• 平均のように外れ値に影響を受ける指標を使わないため
• 欠点
• 汎用性がある分、検出力は低い
• 何にでも使える反面、標本数を多く必要とする
• 常に最適な手法とは限らない
• 例えば2標本の平均に差があるか調べるとき、t検定が使
えるのであれば、ノンパラの手法よりもそちらを選ぶべき
6
2つの誤りと検出力
• 第1種の誤り
• 帰無仮説が正しいのに棄却する誤り
• 第2種の誤り
• 帰無仮説が間違っているのに受容する誤り
• 検出力
• 1 - 第2種の誤りを犯す確率
• 誤っているものを誤っていると正しく言える
7
符号検定
例題
• ランダムに抽出したN大学の学生10人に統計学
の試験を受けさせたところ、次の結果を得た。
43, 46, 55, 61, 64, 68, 70, 78, 80, 92
試験結果のメジアンは50点と言えるか符号検定
を用いて判定せよ
• 問題設定
• 帰無仮説 :メジアンは50点である
• 対立仮説 :メジアンは50点ではない(両側検定)
8
符号検定の考え方
• もし帰無仮説の通りであるなら、点数から50点を
引いた後に得られる点数の正負の符号は、ほぼ
半分になるはず
• 極端に符号が偏ると帰無仮説は棄却される
• 今回の問題では符号は+が8個、-が2個
• これ以上に極端になる(+が8個以上)確率は二項
分布Bin(10, 0.5)から計算できて、約0.055
• 両側検定なので、反対側(-が8個以上)も考えて、
求めるp値は0.055*2=0.110
• 有意水準5%で は棄却できない
9
p値の計算と解釈
• p値は帰無仮説の下で、観測されたデータ以上に
極端な結果となる事象が発生する確率の合計
• 両側検定なら分布の両裾を考慮する
• p値が有意水準以下のとき、帰無仮説の設定が
間違っていたと解釈し、対立仮説を採択する
• 有意水準は事前に設定する基準
• 第1種の誤りを犯す確率
• p値が有意水準より大きいとき、帰無仮説は棄却で
きないが、積極的に採択するわけではない
10
Rで符号検定
scores <- c(43, 46, 55, 61, 64, 68, 70, 78, 80, 92)
11
・c(成功数, 失敗数)の形で与える
・pという分位点のパラメータ(成功率)
を引数に与えることもできる
p値は約0.11であり、帰無仮説は棄
却されない
メジアンの信頼区間の構成
• p値が有意水準0.05を下回らない範囲にする
• +と-が1個以下ではp値は0.05を下回る
→+は2~8個になるような値が信頼区間に入る
→メジアンの名目上の95%信頼区間は[55, 78]
• 実際の信頼度は1-0.0215=97.9%
12
符号検定への疑問
• もし仮定したメジアンと同じ値があったら?
• 検定に影響を与えないため、そのデータはなかっ
たものと見なす
• サンプル数が多くなったら計算が面倒なのでは?
• 数表が与えられた範囲ならば計算不要
• 手元のノンパラメトリック法のテキストを参照すること
• 大標本では正規近似を行う
• 中心極限定理によりその妥当性が担保される
13
中心極限定理
• 期待値 、分散 の分布からn個の標本値
(i=1, 2,…,n)が独立に得られたとき、
• 矢印の上の「d」は分布収束の意味
• 左辺の値を何度も計算して得られる標本分布が右
辺の分布に一致するということ
• 標準正規分布への収束速度は、元の分布の対
称性などに依存している
14
符号検定の正規近似
例題
• ランダムに抽出した学生50人に統計学の試験を
受けさせた結果、51点以上が34人、49点以下が
16人であったという。メジアンは50点といえるか
検定せよ
• 問題設定
• 帰無仮説 :メジアンは50点である
• 対立仮説 :メジアンは50点ではない(両側検定)
15
符号検定の正規近似による解法
• 50点を超える人数を確率変数Xで表す。Xの期待
値と分散は の下で次のようになる
• E[X] = 50 * 0.5 = 25
• V[X] = 50 * 0.5 * (1 – 0.5 ) = 12.5
• 標本数が大きいので中心極限定理を用いて解く
• z = (34 – E[X]) / sqrt(V[X]) = 2.55 であり、
|z| > 1.96 (N(0, 1)の上側2.5%点)なので、メジアン
が50点という帰無仮説を有意水準5%で棄却
• メジアンは50点でないと言える
16
X~Bin(50, 0.5)
から計算する
連続修正
• 正規近似を行うとき、正規分布(連続分布)と離散
分布では確率の計算方法が異なるので0.5を引く
• 青色の面積(離散型で2以上の値をとる確率)を赤
色の1.5以上の面積で近似
• 連続修正を採用すると、
採用しない場合よりも帰無
仮説は棄却されにくくなる
(保守的な判断になる)
17
赤と水色の面積
はほぼ同じ
ウィルコクソンの符号付順位和検定
• 例題
• 統計学の試験を10人に受けさせたところ、次のよう
な結果を得た。
43, 46, 55, 61, 64, 68, 70, 78, 80, 92
試験結果のメジアンは50点と言えるか、ウィルコク
ソンの符号付順位和検定を用いて検定せよ
• 問題設定
• 帰無仮説 :メジアンは50点である
• 対立仮説 :メジアンは50点ではない(両側検定)
18
符号付順位和検定の考え方
• 分布がメジアンを中心に対称であると仮定する
• メジアンとの偏差を求め、絶対値の小さい順に並べ
て順位をつけると、偏差が正のデータの順位和と、
偏差が負のデータの順位和はほぼ同じになるはず
• 正の順位和と負の順位和のどちらかが小さすぎる
ときに帰無仮説を棄却
• 帰無仮説が正しいとき、ある順位が正の符号、負
の符号を取る確率はいずれも0.5である
19
手計算によるp値の計算
• 50との偏差をとり、絶対値の小さい順に並べる
• -4、5、-7、11、14、18、20、28、30、42
• 符号化順位は次のようになる
• -1、2、-3、4、5、6、7、8、9、10
• 正の順位和、負の順位和の大きさは51、4
• 帰無仮説の下で、負の順位和の大きさが4以下と
なる確率は
• p値は2倍して約0.0137
20
順に0、1、2、3、4になる確率
に対応している
負の順位和は
1+3 = 4
Rで符号付順位和検定の実行
• p値は0.01367で0.05を下回るため、有意水準
5%でメジアンは50という帰無仮説は棄却される。
• 95%信頼区間の値から、メジアンが50よりも大きな
値になりそうということが示唆される
21
信頼区間を表示させる
ときはTRUEを指定
順位和検定の特別な場合への対応
• 偏差の大きさが同じデータの順位をどう扱う?
• 平均順位を割り当てる
• 大標本に対する符号付順位和検定は、正の順位
和、負の順位和の小さい方をS、標本数をnとする
と、帰無仮説の下で
に従うことから、
が近似的に標準正規分布に従うことを利用する
22
2つの手法に対する考察
• 符号検定は順序尺度(順序だけ比較できる)に対
しても利用できる
• 符号検定では帰無仮説は棄却できなかったが、
符号付順位和検定では棄却された
• 対称性に関する情報が増えたことで、帰無仮説を
棄却する手がかりが増えたと考えられる
23
一対標本(対応あり)への適用例
例題
• 10人に対し降圧剤の投与の前後で血圧を測定し
たところ、投薬前-投薬後の値は次のようになった。
-5, -3, -1, 2, 6, 7, 13, 18, 19, 21
これらの(ランダムに抽出したと仮定した)標本は、
血圧の変化を示していないと言えるか検定せよ。
• 問題設定
• 帰無仮説 :投薬による差のメジアンは0
• 対立仮説 :投薬で差のメジアンは0より大きくなる
24
一対標本の検定
• 分布の対称性を仮定し、メジアンの違いのみに注
目すれば、ウィルコクソンの順位和検定が使える
• p値は0.05より小さく、投薬で血圧は降下したと判
断される
25
投薬前後の分布を同じ形とす
ると、帰無仮説の下で、差は0
の周りに対称に分布する
対立仮説は差が0より大きい
なのでgreaterとする
タイを含むデータへの対応方法
• coinパッケージのwilcox_test関数を使うと正
確なp値を求められる
• wilcox.test関数では、標本数が50以下かつタイが
ない場合に限り、正確なp値が計算できる
26
負値集合の絶対値のメジアンと
正値集合でメジアンに差があるか
グループ1のメジアンがグ
ループ2のそれより小さいか
分割表に対する適用例
• 例題
• あるソーシャルゲームで遊ぶ人からランダムに100
人抽出し、サービスのプロモーション活動の前後で
1円以上の課金をする・しないに変化があるかを調
べて集計したところ、次のような結果になった。プロ
モーションは効果があったといえるか。
27
活動前
課金した 課金なし
活動後 課金した 21 11
課金なし 3 65
問題設定とアプローチ
• 問題設定
• 帰無仮説 :プロモーション活動は中立的
• 対立仮説 :プロモーション活動で課金者が増加
• (関連の有無を調べる)独立性の検定ではない
• 同一標本に対し、処理による意見の変化を見たい
• 課金なしに負の符号、課金したに正の符号を割り
当てた符号検定が使える
• プロモーション活動の前後で意見が変わらない人
は考慮しない
28
課金者数に変化なし
無駄な標本ではなく、意見が変化した14
人を集めるために必要だったと言える
Rによる検定結果
• p値は0.029となり、有意水準5%で帰無仮説は棄
却され、プロモーションは効果があったと言える
• 意見の変化した数が多ければ、マクネマー検定と
呼ばれる手法も使える
29
参考資料
• ノンパラメトリック統計入門(著者:P. スプレント)
• 第5, 6, 8章
• ノンパラメトリック法(著者:柳川 尭)
• 確率化テストの方法(著者:橘 俊明)
• Nagoya.R #4の発表資料(中心極限定理)
• http://d.hatena.ne.jp/syoh11/20101113/1289656
188
• 有意水準にまつわる議論
• http://togetter.com/li/149922
30
ご清聴ありがとうございました
31

Rでノンパラメトリック法 1