K040 確率分布とchi2分布

1

情報統計学

確率分布
独立性
期待値と分散
正規分布
20120525 一部修正

確率 2

• A という結果が起きる確率→ Pr(A) と書く。

確率分布 3

• 確率分布
その結果がどんな確率で起きるかをまとめたもの

 離散型分布

 連続型分布
• 特定の値 a を取る確率は 0

• 幅をつけて考える

累積分布関数 Cummulative Distribution Function, CDF 4

• 定義
 確率変数 X に対して

を確率変数 X の累積分布関数という。
• 確率密度関数
 累積分布関数 F(x) が微分可能なとき，導関数

を確率変数 X の（確率）密度関数 (probability density function, pdf) とい
う。
確率密度関数があるときには，

関数のグラフ 6

• R で関数のグラフを書く。
 確率密度関数
 累積分布関数

1.0
0.5
• curve
 curve( 関数名 , 左端 , 　右端 )

sin (x)

0.0
 curve(sin, 0, 2*pi)

-0.5
• curve variation
 curve(sin, 0, 2*pi) -1.0

 curve(cos, 0, 2*pi) 0 1 2 3 4 5 6

x
 curve(sin, 0, 2*pi, add=T)
 curve(sin, 0, 2*pi, add=T, col=“red”)

 plot(sin, 0, 2*pi)

関数を探す 7

• 正規分布 (normal distribution)
• 関数名に Normal が付くものを探す
 help.search(“Normal”)

• Normal の中に関連するものがありそう
 help(“Normal”)
で使い方をみる
または
 ?Normal
でもよい。

分布に関連する関数 8

• 分布名 • 関数名の頭文字
 正規分布 norm  p分布名分布関数
 ｔ - 分布 t  Pr(X<x)
 カイ 2 乗分布 chisq  d 分布名密
 F分布 f 度関数
 一様分布  density function
unif
 二項分布  q 分布名分
binom
位点
 ポアソン分 poi
 quantile
 r 分布名乱
数
 random number

標準正規分布 (standard Normal Distribution) 9

• 累積分布関数

1.0
0.8
0.6
pnorm (x)

0.4
curve(pnorm, -4, 4)

0.2
0.0
• 確率密度関数 -4 -2 0

x
2 4

0.4
0.3
dnorm (x)

curve(dnorm, -4, 4)
0.2
0.1
0.0

-4 -2 0 2 4

正規分布表の使い方

• 数表は「標準正規分布」 Z ～ N(0,1)

Pr(Z<0.91)

11

下側 α 点
qnorm 関数
qnorm(0.025, lower.tail = F)
qnorm(0.025)

標準化、偏差値 12

• 標準化
X −µ
X ~ N (µ ,σ ) ⇒ Z =
2
~ N (0,1)
σ
• 偏差値

X ~ N (µ ,σ )
2

X −µ
⇒ 偏差値 = ×10 + 50 ~ N (50,10 )
2

σ

演習

• Z ～ N(0,1) 、 X ～ N(158,25) のとき次の確
率を求めよ。
1) Pr(0 ≤ Z < 1)
2) Pr(1 ≤ Z )
3) Pr(−2 ≤ Z < −1)
4) Pr( Z ≥ k ) = 0.05　となるkの値
5) Pr(| Z |< 1)
6) Pr(| Z |> 2)
7) Pr(150 ≤ X < 160)
8) Pr(| X − 158 |> k ) = 0.05　となるkの値

一様分布 14

• 確率密度関数 curve(dunif, -0.5, 1.5)

1.0
0.8
0.6
dunif (x)

0.4
0.2
0.0
-0.5 0.0 0.5 1.0 1.5

• 累積分布関数
x

curve(punif, -0.5, 1.5)

1.0
0.8
0.6
punif (x)

0.4
0.2
0.0

-0.5 0.0 0.5 1.0 1.5

x

二項分布 (Binomial distribution)

• 1 回の試行 ( 実験 ) で A という事象が起きるか、
　　　　　　　　　　　　　　　　　　　　　起
きないか
• A という事象が起きる確率が p 、
　　　　　　　　　　起きない確率が q=1-p
• この試行をｎ回行ったとき、 A が起きる回数を
X とする。
• X の分布を二項分布といい、
X ～ Bi(n, p)
と表す。

二項分布　その２
• X の取り得る値　　ｎ回中の回数なので
　　 0, 1, 2, …, n

• Pr(X=k) = A がｎ回中ｋ回起きる確率
　　　　　　 = nCk pk(1-p)n-k

• 分布関数
[ x]
F ( x) = Pr( X ≤ x) = ∑ pk
k =0
[ x]
　　　　　 ∑ n C x p k (1 − p ) n − k
=
k =0

二項分布　その３

pk = Pr( X = k )
• 二項分布 Bi(10,1/6)
　　 Ck p k (1 − p ) n − k
=n
 さいころを 10 回振っ
て、 1 の目が出る回数 1 1
　　 Ck ( ) k (1 − )10− k
=10
X の分布 6 6
1.0

p3 = Pr( X = 3)
0.8

1 3 1 10−3
　　 C3 ( ) (1 − )
=10
0.6

6 6
cdf

0.4

10 × 9 × 8 1 3 5 7
　　
= ( ) ( )
0.2

3 × 2 ×1 6 6
0.0

0 2 4 6 8 10 　　0.1550454
=
x

二項分布 Bi(10,1/6) の分布関数
階段関数 (step function)

1.0
0.8
pbinom(xx, 10, 1/6)

0.6
0.4
0.2
0.0

0 2 4 6 8 10

xx
> pbinom(x,10,1/6)
[1] 0.1615056 0.4845167 0.7752268 0.9302722 0.9845380 0.9975618 0.9997325
[8] 0.9999806 0.9999992 1.0000000 1.0000000

シミュレーション　（数値実験）　 simulation 19

 複雑な問題で式を求めるのが難しい
 費用がかかりすぎる・時間がかかりすぎる

• シミュレーションとは
 乱数を使って理論的な結果を検証
 理論的には結果を得ることが難しい内容を求めること

• 乱数
 R では
• 乱数は，分布名に r をつけたもの
• 例：一様乱数　 runif
• 　　正規乱数 rnorm

正規乱数　 rnorm 20

• 正規分布に従う乱数
• rnorm( 個数）
Histogram of rnorm(100)

• 例えば

0.4
 rnorm(100)

0.3
• hist(rnorm(100), freq=F)

Density

0.2
• curve(dnorm, add=T)
0.1
0.0

-3 -2 -1 0 1 2

rnorm(100)

円周率のシミュレーション 21

• 一辺の長さ 1 の正方形
 面積 1 • 区間 [0, 1] の一様乱数を 2 個
• 半径 1 の 1/4 円  それを x 座標， y 座標とする点 P (x, y) を考え
 面積 π/4 る
• その点は正方形の中
• さらに 1/4 円の中に落ちる比率は１： π/4

1.0
0.8
そういう点を n 個発生させ
る
0.6
circ (x)

• 1/4 円内の点の個数を m 0.4

• 全体の点の個数を n
m/n ≒ π/4
0.2
0.0

0.0 0.2 0.4 0.6 0.8 1.0

x

22

circ <- function(x)
sqrt(1 - x^2)

1.0
curve(circ, 0, 1)
lines(c(1, 0), c(0, 0))
lines(c(0, 0), c(1, 0))

0.8
> sim.pi(1000)

0.6
Type <Return> to start simulation :
y

788 of 1000 in the circle. 0.4
0.2
0.0

0.0 0.2 0.4 0.6 0.8 1.0

x

条件付確率 (conditional prob.)
• 事象 A が起きたという条件の下で
事象 B が起きる確率を考える

• 例　女性で身長が１７０ｃｍ以上
B
Pr( A ∩ B )
Pr( B | A) =
Pr( A) A

Pr(身長 ≥ 170.0 　かつ　女性)
Pr(身長 ≥ 170.0 | 女性) =
Pr(女性)
0.03976
　　　　　　　　　　 = = 0.0082
0.485

独立事象
• 条件付確率が条件に無関係のとき
2 つの事象は独立という

Pr( B | A) = Pr( B )
Pr( A ∩ B )
Pr( B | A) = = Pr( B )
Pr( A)
Pr( A ∩ B ) = Pr( A) Pr( B )

独立性
• 2 つの確率変数 X, Y が独立
 分布関数

H ( x, y ) = Pr( X < x, Y < y )
　　　　 Pr( X < x) Pr(Y < y )
=
　　　　 F ( x)G ( y )
=
 密度関数

h ( x, y ) = f ( x ) g ( y )

期待値 (Expectation)
• データの平均（代表値、どんな値）

data : x1 , x2 , , xn
x1 + x2 +  + xn
mean : x =
n

• 確率変数（分布）の期待値（どんな値）

取り得る値 : a1 , a2 , , ak
各値の確率 : p1 , p2 , , pk

平均 : E ( X ) = a1 p1 + a2 p2 +  + ak pk

確率分布　　　　度数分布表

値確率階級階級値相対度数

a1 p1 a0~a1 m1 f1
a2 p2 a1~a2 m2 f2

ak pk ak-1~ak mk fk
合計 1.00 合計 1.00
E ( X ) = a1 p1 + a2 p2 +  + ak pk
　　x = m1 f1 + m2 f 2 +  + mk f k

期待値と分散

X　　　確率変数
f ( x) 　　Xの密度関数

離散型の場合は
Xの期待値(平均) 積分の代わりに
∞ 和 (Σ) を使う
　　E ( X ) = ∫ x f ( x)dx　
−∞
∞
　　E (φ ( X )) = ∫ φ ( x) f ( x)dx
−∞

Xの分散
　　V ( X ) = E ( X − E ( X )) 2 　　　φ ( x) = {x − E ( X )}2
∞
　　　　　 ∫ {x − E ( X )}2 f ( x)dx
=
−∞

　　　　　 E ( X 2 ) − {E ( X )}2
=

主な分布の期待と分散

X ~ Bi (n, p )
　　E ( X ) = np, 　　V ( X ) = npq
X ~ Po(λ )
　　E ( X ) = λ , 　　V ( X ) = λ
X ~ U ( a, b)
　　E ( X ) = (a + b) / 2, 　　V ( X ) = (b − a ) / 12
2

X ~ N (µ ,σ ) 2

　　E ( X ) = µ , 　　　V ( X ) = σ 2

31

情報統計学

χ2 分布
t 分布
F 分布

標本分布 32

• 正規分布から導かれる分布
χ2 分布

t 分布

F 分布

χ2 分布 33

• 自由度 m の χ2 分布
 確率密度関数

•E(Y)=m
•Var(Y)=2m

χ2 分布 34

• 確率変数 Z が標準正規分布 N(0,12) に従っているとき，
Y = Z2
の分布は自由度 1 の χ2 分布に従う。

• 確率変数 X1, X2, …, Xn が互いに独立で， Xi が正規分布 N(0,12)
に従うとき，
Z = X12 + X22 + … + Xn2
は自由度 n の χ2 分布に従う。

χ2 分布の確率密度関数のグラフ 35

• 自由度 1 ， 2 が特殊
curve(dchisq(x,1), 0, 10, col = 1) #1 は黒
curve(dchisq(x,2), 0, 10, col = 2, add = TRUE) #2 は赤
curve(dchisq(x,3), 0, 10, col = 3, add = TRUE) #3 は緑
curve(dchisq(x,5), 0, 10, col = 4, add = TRUE) #4 は青
1.2
1.0
0.8
dchisq(x, 1)

0.6
0.4
0.2
0.0

0 2 4 6 8 10

x

シミュレーションによる導出 36

• 標準正規分布を２乗すると χ2 分布になることを乱数を使って確かめる
1. 正規乱数 z を 1 つ取る
2. y=z2 を計算する
3. これを n 回繰り返し， y の値を n 個とる
4. Y の分布を図示し，理論的なものと比較する
Histogram of nrdata

> nrdata <- rnorm(1000)
> summary(nrdata)

200
Min. 1st Qu. Median Mean 3rd Qu. Max.
-3.34300 -0.66630 0.11250 0.05922 0.75260 3.16000
> sd(nrdata)

150
[1] 1.025253

Frequency
> hist(nrdata)

100
50
0

-3 -2 -1 0 1 2 3

nrdata

nr2data <- nrdata^2
37
mean(nr2data)
sd(nr2data)
hist(nr2data, freq = F)
curve(dchisq(x,1), 0, 9, col = 2, add = T)
Histogram of nr2data

0.7
0.6
0.5
0.4
Density

0.3
0.2
0.1
0.0

0 2 4 6 8 10 12

nr2data

レポート 38

1. X が自由度 m の χ2 分布に従い， Y が自由度 n の χ2 分布に従っ
て，互いに独立であれば
Z=X+Y
の分布は，自由度 (m+n) の χ2 分布に従う。
　再生性というが，このことをシミュレーションを使って確認
せよ。

2. 正規分布も再生性を持つ。このことをシミュレーションを用
いて確かめよ。

t 分布 39

0.4
• 密度関数のグラフは
 curve(dt(x, 10), -4, 4)

0.3
dt(x, 10)

0.2
0.1
0.0

-4 -2 0 2 4

x

t 分布と正規分布の確率密度関数 40

• curve(dt(x, 10), -4, 4)
• curve(dt(x, 2), -4, 4, col = 2, add = TRUE)
• curve(dnorm, -4, 4, col = 3, add = TRUE)

0.4
0.3
dt(x, 10)

0.2
0.1
0.0

-4 -2 0 2 4

t 分布のパーセント点 41

> qt(0.05, 5)

> qt(0.05, c(1, 2, 3, 4, 5, 10, 20, 50, 100))
[1] -6.313752 -2.919986 -2.353363 -2.131847 -2.015048 -1.812461
-1.724718
[8] -1.675905 -1.660234
> qt(c(0.05, 0.95), 5)
[1] -2.015048 2.015048
> pt(2.015048, 5)
[1] 0.95

シミュレーション 1 42

nrdata <- rnorm(1000)
chi2data <- rchisq(1000, 10)

0.4
hist(chi2data)
tdata <- nrdata / (sqrt(chi2data / 10))
mean(tdata)

0.3
sd(tdata)
curve(dt(x, 10), -4, 4, col = 2)

dt(x, 10)

0.2
hist(tdata, freq = F, add=TRUE)

0.1
0.0

-4 -2 0 2 4

x

シミュレーション 2 43

46

tcalc <-function(x){ Histogram of sample.t

barx <- mean(x)

0.4
sdx <- sd(x)
tval <- barx / (sdx / sqrt(length(x)))

0.3
tval
}
ran <- sapply(rep(10, 1000), rnorm)
Density

0.2

sample.t <- apply(ran, 2, tcalc)
hist(sample.t, nclass = 20, freq = F)
0.1

curve(dt(x, 9), -4, 4, col = 2, add = T)
0.0

-4 -2 0 2 4

F 分布の密度関数 48

> curve(df(x,1,10),0.00000001,5,ylim=c(0,1.5))
> curve(df(x,2,10),0.00000001,5,col=2,add=T)
> curve(df(x,3,10),0,5,col=3,add=T)

1.5

1.0
df(x, 1, 10)

0.5
0.0

0 1 2 3 4 5

x

シミュレーション 49

> c8rand <- rchisq(1000, 8)
> c10rand <- rchisq(1000, 10)
> fprop <- (c8rand / 8) / (c10rand / 10)
> hist(fprop, nclass = 20, freq = F)
> hist(fprop, nclass = 20, freq = F)$count
> curve(df(x,8,10), 0, 5, col = 2, add = TRUE)

50

Histogram of fprop

0.7
0.6
0.5
0.4
Density

0.3
0.2
0.1
0.0

0 2 4 6 8 10

fprop

K040 確率分布とchi2分布

More Related Content

What's hot

Similar to K040 確率分布とchi2分布

More from t2tarumi

K040 確率分布とchi2分布

Editor's Notes