確率・統計の基礎勉強会 (1)

Introduction 確率確率変数次回予告
第 1 回確率・統計の基礎勉強会
Hiroaki Tanaka
Augmented Human Communication Laboratory, Department of Information
Schience, Nara Institute of Science and Technology
November 8, 2016
1 / 42

1 Introduction
2 確率
3 確率変数
4 次回予告
2 / 42

はじめに
• スライドやその他の資料は
https://setten-qb.amebaownd.com/ においてあります
• Twitter: @setten QB
3 / 42

確率論と統計学
• 確率論は演繹的
• 統計学は帰納的
• 確率論の方が抽象的な議論をする事が多い
4 / 42

数理統計学の基礎内容
確率空間全空間の測度が 1 となるような測度空間
確率変数・確率分布 PRML の 2・3 章で出てくる
確率分布の特性値 PRML の 2・3 章で出てくる
近似法則 n → ∞, d :ﬁx の場合が基本的
統計的推測使うだけなら難しくない
統計的検定使うだけなら難しくない
6 / 42

この勉強会の到達目標
• 統計学の基礎を理解する
• PRML2・3 章の数式をだいたい追えるようにする
• 余裕とニーズがあれば，学習理論までやっても良いかも
7 / 42

この勉強会で扱う内容
確率空間第 1 回
確率変数・確率分布第 1 回
確率分布の特性値第 2 回
近似法則第 2 回
統計的推定第 3 回
統計的検定第 4 回
多変量分布を扱うために必要な線形代数第 5 回？
8 / 42

1 Introduction
2 確率
3 確率変数
4 次回予告
9 / 42

基本事象と標本空間
• 未知な現象を理解するための実験や調査を試行と呼び，試行の
結果を基本事象と呼ぶ
• 得られるであろう結果（基本事象）全体を抽象的に標本空間と
呼ぶ
Example
サイコロを 1 回投げるという試行を考える．このとき，標本
空間は { 1 の目が出る, . . . , 2 の目が出る } になる．
10 / 42

σ 集合族
• 以下，標本空間を Ω で表す
• 確率は，Ω 上の特別な条件を満たす部分集合族上で定義される
σ-algebra
Ω の部分集合族 B が以下の条件を満たす時，B を Ω 上の σ
集合族という:
Ω ∈ B;
A ∈ B =⇒ Ac
∈ B;
A1, . . . , An, · · · ∈ B =⇒
∞∪
i=1
Ai ∈ B.
• 確率論では σ 集合族の要素を事象という
• Ω を全事象という
11 / 42

σ 集合族
• σ 集合族が満たす性質はたくさんあるが，詳細は略
• σ 集合族上で，確率は定義される
• Ω と B の対を (Ω, B) と書いて，可測空間 (measurable space)
と呼ぶ
12 / 42

確率測度
Probabilitstic Measure
B 上の実数値関数 P が
0 ≤ P(A) ≤ 1, ∀A ∈ B,
P(Ω) = 1,
Ai ∈ B(i = 1, . . . ), Ai ∩ Aj = ∅(i ̸= j) =⇒ P
( ∞∪
i=1
Ai
)
=
∞∑
i=1
P(Ai)
を満たすとき，P を (Ω, B) 上の確率測度 (probabilistic
measure) といい，P(A) を事象 A の確率という．
• Ω, B, P の 3 つ組 (Ω, B, P) を確率空間という．
13 / 42

確率測度
• こうやって確率を定義することにより，皆が知っているような
確率の性質 P(∅) = 0 や P(A) + P(Ac) = 1, for A ∈ B が成り
立つ
• その他にもたくさんの重要な性質があるが，詳細は略
14 / 42

15 / 42

そもそも測度って何？
• 集合の大きさを測る尺度 → 測度
• P(A1) で A1 の大きさを表す → 確率
• 確率空間を明らかにしていないと困ることがある
• どういう集合上に確率を入れるの？ → σ 集合族
測度
R から実数 a, b を選び，区間 I = [a, b], a, b ∈ [0, 1] を構成
する．区間 I の “大きさ” について考える．
a b x
M
16 / 42

そもそも測度って何？
• 集合の大きさを測る尺度 → 測度
• P(A1) で A1 の大きさを表す → 確率
• 確率空間を明らかにしていないと困ることがある
• どういう集合上に確率を入れるの？ → σ 集合族
測度
R から実数 a, b を選び，区間 I = [a, b], a, b ∈ [0, 1] を構成
する．区間 I の “大きさ” について考える．
a b x
M
ルベーグ測度 L([a, b])
b − a
16 / 42

条件付き確率
• 条件付き確率も測度空間 (Ω, B) 上で定義される
Conditional Probability
C ∈ B, P(C) > 0 のとき，
P(A|C) =
P(A ∩ C)
P(C)
, A ∈ B
を事象 C が与えられたときの A ∈ B の条件付き確率とい，
P( · |C) を C が与えられたときの条件付き確率測度という．
• 上記のように条件付き確率を定義すると，P( · |C) は (Ω, B)
上の確率測度になっている
17 / 42

条件付き確率
• よく使う全確率の公式
全確率の公式
∞∪
i=1
Ai = Ω, Ai ∩ Aj = ∅, P(Ai) > 0 とする．このとき，
A ∈ B について
P(A) =
∞∑
i=1
P(Ai)P(A|Ai)
が成り立つ．
18 / 42

1 Introduction
2 確率
3 確率変数
4 次回予告
19 / 42

ボレル集合族
• 確率空間 (Ω, B, P) を実数空間へ結びつけるもの
• 実数空間では，(Ω, B) が (R, B) に対応する
Borel algebra
全ての半開区間 (a, b] を含む最小の σ 集合族 B を R 上のボ
レル集合族という．
• B は (a, b] 以外にも様々な区間を含む
• { a } , (a, b), [a, b], [a, b), (a, ∞), (−∞, a] は全てボレル集合
20 / 42

確率変数
• 確率変数の厳密な定義をする
• 確率変数が，抽象的な確率空間と実数の確率空間を対応付ける
確率変数
X : Ω → R が (Ω, B) 上の確率変数
def
⇐⇒∀B ∈ B, { ω | X(ω) ∈ B } = X−1
(B) ∈ B.
• X を確率変数とするとき，多項式，log |X|, eX, sin X などは
全て確率変数となる
21 / 42

確率変数
𝐵1 ∈
𝐵2 ∈
𝑋−1(𝐵1)
𝑋−1(𝐵2)
Measurable function 𝑋
Measurable function 𝑋
Figure: 確率変数のイメージ
• どのような B ∈ B を選んでも，X−1(B) ∈ B 可測関数 X
22 / 42

分布関数
• (Ω, B) の実数空間版として (R, B) が導入された
• 残りの確率測度 P に対応するものとして，分布関数 F を導入
する
Distribution Function
F : R → R が
∀x ∈ R, F(x) = P(X ≤ x) = P ({ ω | X(ω) ≤ x })
によって F を定義するとき，F を X の累積分布関数 (cumu-
lative distribution function; cdf) という．
• P(X ≤ x) を X ≤ x となる確率と読み替える事ができる
23 / 42

分布関数による確率計算
確率計算
確率変数 X に対し，
P(a ≤ X ≤ b) = P
(
X−1
((a, b])
)
= FX(b) − FX(a)
24 / 42

ここまでのまとめ
• 確率は可測空間上で定義される実数値関数
• 確率変数 X が，確率空間と実数空間をつなぐ
• 確率変数は実は変数ではなく可測関数
• 実数空間では確率変数は変数のように扱っても差し支えない
25 / 42

確率変数のタイプ
Random Variable
Discrete type
X : (Ω, B, P) 上の r.v. とする．
X が D (Discrete) -type
def
⇐⇒∃E ⊂ R (高々加算な集合) s.t. P(X ∈ E) = 1
Continuous type
FX：X の分布関数とする．
X が C (Continuous) -type
def
⇐⇒∃fX : R → R+
(可測関数) s.t. FX (x) =
∫ x
−∞
fX (u) du, ∀x ∈ R
26 / 42

確率変数のタイプ
• 簡単に言うと . . .
D-type 取りうる値が離散値 (E ⊂ N, Z, Q)
C-type 取りうる値が連続値 (E ⊂ R)
27 / 42

離散型確率変数
• X の取りうる値が離散値のときは D-type
• E = { x1, . . . , xn, . . . } , p(xi) = P(X = xi) とすると，
∞∑
i=1
p(xi) = 1, F(x) =
∑
xi ≤ xp(xi)
が成り立つ．この p(·) のことを X の確率質量関数 (p.m.f.) と
呼ぶ
28 / 42

離散型確率変数とその分布の例
2 項分布 B(n, p)
• 0 ≤ p ≤ 1, i = 1, . . . , n
p(xi) = P(X = i) =
(
n
i
)
pi
(1 − p)n−i
• E = { 1, . . . , n } とすると，P(X ∈ E) = 1 が成り立つ
• 「表が出る確率 p のコインを n 回投げて，表が i 回でる確率を
表す」というフレーズで覚えれば良い
• n = 1 の場合，特にベルヌーイ分布と呼ばれる
29 / 42

離散型確率変数とその分布の例
ポアソン分布 Po(λ)
p(k) = P(X = k) =
λk
k!
exp(−λ)
• E = { 0, 1, . . . , } とすると P(X ∈ E) = 1 が成り立つ
• 稀に起こる事象の観測モデルなどによく使われる
30 / 42

連続型確率変数
• C-type r.v. の定義に出てくる fX を，X の確率密度関数
(p.d.f.) という
• fX(x) ≥ 0,
∫ ∞
−∞
f(u) du = 1,
d
dx
FX(x) = f(x) が成り
立つ
• 実際に確率計算をするときは，
P(a < x ≤ b) =F(b) − F(a)
=
∫ b
−∞
f(u) du −
∫ a
−∞
f(u) du
=
∫ b
a
f(u) du
とする
31 / 42

連続型確率変数とその分布
連続型確率変数の分布
一様分布 U(a, b)
fX(x) =



1
b − a
, x ∈ (a, b)
0, otherwise
正規分布 N
(
µ, σ2
)
fX (x) =
1
√
2πσ2
exp
[
−
(x − µ)2
2σ2
]
, −∞ < µ < ∞, σ > 0
32 / 42

正規分布
• 超重要
• c.d.f. が初等関数で陽に書けない
• X ∼ N
(
µ, σ2
)
のとき，Y = (x − µ)/σ ∼ N (0, 1)
• X ∼ N (0, 1) のとき，P(X ≥ 1.282) ≒ 0.10, P(X ≥
1.645) ≒ 0.05, P(X ≥ 2.326) ≒ 0.01 あたりは推定・検定で
頻出
33 / 42

確率変数の変換
Y = aX + b の分布
a, b ∈ R を用いて，C-type 確率変数 X の変換 Y = aX + b
を考える．このとき，Y の p.d.f. を求めよ．
FY (y) = P(Y ≤ y) = P(aX+b ≤ y) =



P
(
X ≤
y − b
a
)
, a ≥ 0
P
(
X >
y − b
a
)
, a < 0
であるから，
FY (y) =



FX
(
y − b
a
)
, a ≥ 0
1 − FX
(
y − b
a
)
, a < 0
34 / 42

確率変数の変換
したがって，
fY (y) =
d
dy
FY (y)
=



1
a
fX
(
y − b
a
)
, a ≥ 0
−
1
a
fX
(
y − b
a
)
, a < 0
=
1
|a|
fX
(
y − b
a
)
.
35 / 42

多次元分布
• これまでは 1 つの確率変数だけを考えていたが，これを多次元
確率変数ベクトルに拡張する
• X1, . . . , Xn を (Ω, B, P) 上の確率変数として，確率変数ベク
トル X = [X1, . . . , Xn] で定義する
• n 次元ボレル集合族も Bn =
∏n
i=1(ai, bi] で定義される
• PRML を読む上では，「確率変数がベクトルになった」という
程度の理解で問題ない (多分)
• 多次元分布も，1 次元の場合と同様に離散型と連続型に分けら
れる
36 / 42

同時累積分布関数
Joint Cumulative Distribution Function
X = [X1, . . . , Xn]：確率変数ベクトルとして，X の同時累
積分布関数 (j.c.d.f.) を
FX(x1, . . . , xn) = P (X1 ≤ x1, . . . , Xn ≤ xn)
で定義する．また，X の部分確率ベクトルの分布関数を周辺
分布関数 (m.d.f.) という．
37 / 42

多次元分布の計算
• C-type での j.c.d.f. の求め方を見ておく
• X := [X1, . . . , Xn]
• fX：X の j.p.d.f.
FX(x1, . . . , xn)
=
∫ xn
−∞
∫ xn−1
−∞
· · ·
∫ x1
−∞
fX(u1, . . . , un) du1du2 . . . dun,
fX(x1, . . . , xn) =
∂n
∂x1 · · · ∂xn
FX(x1, . . . , xn)
38 / 42

2 次元正規分布
2 次元正規分布
[X, Y ] の j.p.d.f. が
fXY (x, y) =
1
√
|det(2πΣ)|
exp
[
−
1
2
(z − µ)
′
Σ−1
(z − µ)
]
のとき，[X, Y ] は 2 次元正規分布に従うといい，[X, Y ] ∼
N (µ, Σ) で表す．ここで，−∞ < µX, µY < ∞, σX, σY >
0, |ρ| < 1 であり，
z =
[
x
y
]
, µ =
[
µX
µY
]
, Σ =
[
σ2
X ρσXσY
ρσXσY ρ2
Y
]
である．
• fX(x) =
∫
R
fXY (x, y) dy =
1
√
2πσX
exp
[
−
(x − µX)2
2σ2
X
]
39 / 42

1 Introduction
2 確率
3 確率変数
4 次回予告
40 / 42

次回予告
• 確率変数の独立性
• 確率分布の特性値 (期待値・共分散・相関係数・積率母関数)
• 近似法則
41 / 42

Reference
• 赤平昌文, 統計解析入門, 森北出版株式会社, 2007
• 内藤貫太, 数理統計学 II 講義ノート, 2014
42 / 42

確率・統計の基礎勉強会 (1)

Recommended

Recommended

More Related Content

What's hot

What's hot (16)

Similar to 確率・統計の基礎勉強会 (1)

Similar to 確率・統計の基礎勉強会 (1) (20)

確率・統計の基礎勉強会 (1)