Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
有意差の検出と信頼区間の構成
— R言語による簡便な計算法 —
2015.03.02 T.S.
「差があるのかどうなのか?」という問題に答えることは、
そんなに簡単なことではありません。
ここでは様々な場面で数値が現れた時に即座に使える
R言語...
初めの断り書き
気にしない人に取っては、ここの断り書きはあまり重要でないかもしれませ
ん。しかし、本文書の立場をはっきりさせるための但し書きをこのページに記
すこととします。
• 本文書では、統計学の基本的な考え方である、有意性検定や仮説検定の...
本文書のねらい
• 日常生活や社会生活で、やや遭遇する機会の多い基本
的な、統計の数の問題を、扱います。
• その中でも、R言語で即座に算出できる問題を扱います。
– これは必要なときにすぐ使えるノウハウこそ、まとめておくこと
が大事と考えるた...
R言語に関して
• R言語は、インターネット上で検索して、(英語
のサイトですが)非常に簡単にインストール出
来ます。 Windows, Mac, Linux を問いません。
• 次ページ以降に表示されるコマンドの使い方
が分からなければ、? ...
2個の数に違いはあるか?
設定 ある商品を売り出したら、男性が515個、女性が459個購入してくれた。
売れ具合に男女差があると考えて良いか?
R言語での計算法 : binom.test を使う。
結論 : p値は 0.07796 > 0.05...
2個のオッズに違いはあるか?
例「2商品の売れ方に男女差はあるか?」
設定 ある2商品を売り出したら、商品AとBは、それぞれ男性に131個と95個、
女性に120個と65個売れた。商品間の売れ行きで男女差はあるか?
R言語での計算法 : fis...
商品の売り上がる効率の推定
例「ある日の売上げが25個だった」
設定 ある商品のある日の売上げを担当者に聞いたら、25個であった。
一日当たりの売上がる個数の母平均の信頼区間は?
R言語での計算法 : poisson.test を使う。
結論 ...
中央値の信頼区間の構成をしたい。
例「毎日の売上げデータから毎月の様子を知りたい」
設定 ある商品の毎日のデータから、月ごとに1日の売れ行きの中央値の信
頼区間を構成したい。
Rによる計算法 : qbinom(1/40,c(28,29,30,3...
2個のオッズ比に違いはあるか?
例「2個のキャンペーンで新商品への誘導効果に差はあったか?」
設定 古い商品を購入している客を減らして、新しい商品へ移行させたい。
2個のキャンペーンを行った。効果に違いはあっただろうか?
計算法 : ワルド検定...
付け加え
• 5% = 0.05 の有意水準で、有意差が無かった場
合、それでも「違いがある」と言いたい場合には、
他に十分説得力のある根拠が必要です。
– 観察対象となった標本から取り出した属性が適切で
なかったかもしれません。
– 観測が足...
その他忘れざるべきこと
• 両側検定なのか、片側検定なのか考えること。
• あらかじめ計画立てて、必要観測数を見積もることも重要で
その場合は pwrパッケージのコマンドを使うこと。
• (無)相関についての検定には、cor.testが使えるこ...
Upcoming SlideShare
Loading in …5
×

R言語による簡便な有意差の検出と信頼区間の構成

How to calculate significant difference and confidence interval with R, quickly?

R言語による簡便な有意差の検出と信頼区間の構成

  1. 1. 有意差の検出と信頼区間の構成 — R言語による簡便な計算法 — 2015.03.02 T.S. 「差があるのかどうなのか?」という問題に答えることは、 そんなに簡単なことではありません。 ここでは様々な場面で数値が現れた時に即座に使える R言語などを使った計算の方法を説明します。 1
  2. 2. 初めの断り書き 気にしない人に取っては、ここの断り書きはあまり重要でないかもしれませ ん。しかし、本文書の立場をはっきりさせるための但し書きをこのページに記 すこととします。 • 本文書では、統計学の基本的な考え方である、有意性検定や仮説検定の考え方を用います。 • それに従って、有意性がある/なしを判断したり、信頼区間を構成します。 • 検定のp値は0.05, 信頼区間は95%信頼区間を用います。 • この文書では、尤度比を考えて判断をしたり、ベイズ統計学の考え方は用いません。それでも、そ の考え方を用いて、本文書の内容を発展させることは有意義なことです。 • 本文書は、「問題設定」に対して、それ以上の背後の状況などは考えません。やや不自然かもしれませ んが、あえてそういう最小限の情報から、数について算出する方法を説明します。 • 説明を簡潔にするため、あえて専門用語を多用します。意味はご自身でお調べください。途中の考え方 も細かいところは説明しません。自分で考えて、何か間違いがあればご報告して頂くことは歓迎します。 2
  3. 3. 本文書のねらい • 日常生活や社会生活で、やや遭遇する機会の多い基本 的な、統計の数の問題を、扱います。 • その中でも、R言語で即座に算出できる問題を扱います。 – これは必要なときにすぐ使えるノウハウこそ、まとめておくこと が大事と考えるためです。 – 電車の中でも計算できる位に簡単なノウハウを目指しました。 • 3桁(100〜999)程度の数でも、有意差がなかなか出ないこ とがあることを知るのも、数の感覚として大事なことだと、 本文書作成者は考えています。 3
  4. 4. R言語に関して • R言語は、インターネット上で検索して、(英語 のサイトですが)非常に簡単にインストール出 来ます。 Windows, Mac, Linux を問いません。 • 次ページ以降に表示されるコマンドの使い方 が分からなければ、? command のように ? に続けてコマンド名を入力することで、 詳細なヘルプが得られます。 4
  5. 5. 2個の数に違いはあるか? 設定 ある商品を売り出したら、男性が515個、女性が459個購入してくれた。 売れ具合に男女差があると考えて良いか? R言語での計算法 : binom.test を使う。 結論 : p値は 0.07796 > 0.05 であり、有意差は無い。 男女比の信頼区間は [ 0.987 , 1.275] になる。 例-1 5
  6. 6. 2個のオッズに違いはあるか? 例「2商品の売れ方に男女差はあるか?」 設定 ある2商品を売り出したら、商品AとBは、それぞれ男性に131個と95個、 女性に120個と65個売れた。商品間の売れ行きで男女差はあるか? R言語での計算法 : fisher.test を使う。 近似値で良い場合はchisq.testを使う。 結論 : p値は 0.1565 > 0.05 であり、有意差は無い。 オッズ比の信頼区間は [ 0.489 , 1.137] になる。 例-2 6
  7. 7. 商品の売り上がる効率の推定 例「ある日の売上げが25個だった」 設定 ある商品のある日の売上げを担当者に聞いたら、25個であった。 一日当たりの売上がる個数の母平均の信頼区間は? R言語での計算法 : poisson.test を使う。 結論 : 母数の信頼区間は [ 16.17, 36.90 ] になる。 ポアソン分布に従う変数の標準偏差は母平均 λ の平方根 λ1/2 に等しいで す。信頼区間は [ λ-2λ1/2 , λ+2λ1/2 ] にほぼ等しいことは注目すべきことです。 例-3 7
  8. 8. 中央値の信頼区間の構成をしたい。 例「毎日の売上げデータから毎月の様子を知りたい」 設定 ある商品の毎日のデータから、月ごとに1日の売れ行きの中央値の信 頼区間を構成したい。 Rによる計算法 : qbinom(1/40,c(28,29,30,31),1/2)による数値を使う。 結論 : 各月の、毎日の売上げデータ28〜31個を並べ、小さい順に並べる。 そして、2月は両端から9番目の値を信頼区間の上下限とする。それ以外の 月は両端から10番目の値を信頼区間の上下限とする。 この方法を採用すると、5個以下のデータからは中央値の信頼区間は構成できず、6〜8個の データの場合は、データの最大値と最小値が信頼区間の上下限に一致することは、注目に値 する。 例-4 8
  9. 9. 2個のオッズ比に違いはあるか? 例「2個のキャンペーンで新商品への誘導効果に差はあったか?」 設定 古い商品を購入している客を減らして、新しい商品へ移行させたい。 2個のキャンペーンを行った。効果に違いはあっただろうか? 計算法 : ワルド検定の考え方を使う 対数オッズ比とその分散を計算する。 対数オッズ比は θ= log ad/bc その分散は s2=a-1+b-1+c-1+d-1 である。 (変数は右の図を参照) z:= (θ1-θ2) / (s1 2+s2 2)1/2 に対して Rでpnorm(z) の値が[0.025,0.975] の の外にあれば、有意差ありとする。 ちなみに、右上のような図のことをモザイクプロットと呼ぶ。 なお、「オッズ odds 」と「オッズ比 odds ratio」は違う概念である。 例-5 9 キャンペーン 1 の前後の様子 キャンペーン 2 の前後の様子 a1 b1 c1 d1 a2 b2 c2 d2 4個の四角で構成されるブロックの上側が古い商品、 下側が新商品。左側がキャンペーン前、右側がキャ ンペーン後。四角の面積が売れ行きに比例する。 この計算法についてはもっと良い 方法があるかもしれません。
  10. 10. 付け加え • 5% = 0.05 の有意水準で、有意差が無かった場 合、それでも「違いがある」と言いたい場合には、 他に十分説得力のある根拠が必要です。 – 観察対象となった標本から取り出した属性が適切で なかったかもしれません。 – 観測が足りなかったのかもしれません。 – 一般的には、信頼区間の幅が標本サイズの平方根 に反比例して縮むことを用いて、必要なサイズを大雑 把に見積もることが可能です。 10
  11. 11. その他忘れざるべきこと • 両側検定なのか、片側検定なのか考えること。 • あらかじめ計画立てて、必要観測数を見積もることも重要で その場合は pwrパッケージのコマンドを使うこと。 • (無)相関についての検定には、cor.testが使えること。 • ちゃんと統計学を学ぶこと。 – 数理的なこともそうで無いことも大事であること。 – t検定やマンホイットニーのU検定は基礎である。 – スコア検定など知っておくべきこと。 – フィッシャーと、ネイマン/ピアソンの間の論争は解決していないこと。多分。 – それだけではないこと。 – 学術レベルの論文でも、統計学的観点から怪しいものがあれば、 それを見破る目を持つべきこと。 11

×