大規模データセットでの推論に便利なSVIの概要をまとめました.
SVIは確率的最適化の枠組みで行う変分ベイズ法です.
随時更新してます.
参考文献
[1]Matthew D Hoffman, David M Blei, Chong Wang, and John Paisley. Stochastic variational inference. The Journal of Machine Learning Research, Vol. 14, No. 1, pp. 1303–1347, 2013.
[2] 佐藤一誠. トピックモデルによる統計的意味解析. コロナ社, 2015.
1. Introduction 確率 確率変数 次回予告
第 1 回 確率・統計の基礎勉強会
Hiroaki Tanaka
Augmented Human Communication Laboratory, Department of Information
Schience, Nara Institute of Science and Technology
November 8, 2016
1 / 42
16. Introduction 確率 確率変数 次回予告
そもそも測度って何?
• 集合の大きさを測る尺度 → 測度
• P(A1) で A1 の大きさを表す → 確率
• 確率空間を明らかにしていないと困ることがある
• どういう集合上に確率を入れるの? → σ 集合族
測度
R から実数 a, b を選び,区間 I = [a, b], a, b ∈ [0, 1] を構成
する.区間 I の “大きさ” について考える.
a b x
M
16 / 42
17. Introduction 確率 確率変数 次回予告
そもそも測度って何?
• 集合の大きさを測る尺度 → 測度
• P(A1) で A1 の大きさを表す → 確率
• 確率空間を明らかにしていないと困ることがある
• どういう集合上に確率を入れるの? → σ 集合族
測度
R から実数 a, b を選び,区間 I = [a, b], a, b ∈ [0, 1] を構成
する.区間 I の “大きさ” について考える.
a b x
M
ルベーグ測度 L([a, b])
b − a
16 / 42
18. Introduction 確率 確率変数 次回予告
条件付き確率
• 条件付き確率も測度空間 (Ω, B) 上で定義される
Conditional Probability
C ∈ B, P(C) > 0 のとき,
P(A|C) =
P(A ∩ C)
P(C)
, A ∈ B
を事象 C が与えられたときの A ∈ B の条件付き確率とい,
P( · |C) を C が与えられたときの条件付き確率測度という.
• 上記のように条件付き確率を定義すると,P( · |C) は (Ω, B)
上の確率測度になっている
17 / 42
19. Introduction 確率 確率変数 次回予告
条件付き確率
• よく使う全確率の公式
全確率の公式
∞∪
i=1
Ai = Ω, Ai ∩ Aj = ∅, P(Ai) > 0 とする.このとき,
A ∈ B について
P(A) =
∞∑
i=1
P(Ai)P(A|Ai)
が成り立つ.
18 / 42
21. Introduction 確率 確率変数 次回予告
ボレル集合族
• 確率空間 (Ω, B, P) を実数空間へ結びつけるもの
• 実数空間では,(Ω, B) が (R, B) に対応する
Borel algebra
全ての半開区間 (a, b] を含む最小の σ 集合族 B を R 上のボ
レル集合族という.
• B は (a, b] 以外にも様々な区間を含む
• { a } , (a, b), [a, b], [a, b), (a, ∞), (−∞, a] は全てボレル集合
20 / 42
22. Introduction 確率 確率変数 次回予告
確率変数
• 確率変数の厳密な定義をする
• 確率変数が,抽象的な確率空間と実数の確率空間を対応付ける
確率変数
X : Ω → R が (Ω, B) 上の確率変数
def
⇐⇒∀B ∈ B, { ω | X(ω) ∈ B } = X−1
(B) ∈ B.
• X を確率変数とするとき,多項式,log |X|, eX, sin X などは
全て確率変数となる
21 / 42
23. Introduction 確率 確率変数 次回予告
確率変数
𝐵1 ∈
𝐵2 ∈
𝑋−1(𝐵1)
𝑋−1(𝐵2)
Measurable function 𝑋
Measurable function 𝑋
Figure: 確率変数のイメージ
• どのような B ∈ B を選んでも,X−1(B) ∈ B 可測関数 X
22 / 42
24. Introduction 確率 確率変数 次回予告
分布関数
• (Ω, B) の実数空間版として (R, B) が導入された
• 残りの確率測度 P に対応するものとして,分布関数 F を導入
する
Distribution Function
F : R → R が
∀x ∈ R, F(x) = P(X ≤ x) = P ({ ω | X(ω) ≤ x })
によって F を定義するとき,F を X の累積分布関数 (cumu-
lative distribution function; cdf) という.
• P(X ≤ x) を X ≤ x となる確率と読み替える事ができる
23 / 42
25. Introduction 確率 確率変数 次回予告
分布関数による確率計算
確率計算
確率変数 X に対し,
P(a ≤ X ≤ b) = P
(
X−1
((a, b])
)
= FX(b) − FX(a)
24 / 42
27. Introduction 確率 確率変数 次回予告
確率変数のタイプ
Random Variable
Discrete type
X : (Ω, B, P) 上の r.v. とする.
X が D (Discrete) -type
def
⇐⇒∃E ⊂ R (高々加算な集合) s.t. P(X ∈ E) = 1
Continuous type
FX:X の分布関数とする.
X が C (Continuous) -type
def
⇐⇒∃fX : R → R+
(可測関数) s.t. FX (x) =
∫ x
−∞
fX (u) du, ∀x ∈ R
26 / 42
28. Introduction 確率 確率変数 次回予告
確率変数のタイプ
• 簡単に言うと . . .
D-type 取りうる値が離散値 (E ⊂ N, Z, Q)
C-type 取りうる値が連続値 (E ⊂ R)
27 / 42
35. Introduction 確率 確率変数 次回予告
確率変数の変換
Y = aX + b の分布
a, b ∈ R を用いて,C-type 確率変数 X の変換 Y = aX + b
を考える.このとき,Y の p.d.f. を求めよ.
FY (y) = P(Y ≤ y) = P(aX+b ≤ y) =
P
(
X ≤
y − b
a
)
, a ≥ 0
P
(
X >
y − b
a
)
, a < 0
であるから,
FY (y) =
FX
(
y − b
a
)
, a ≥ 0
1 − FX
(
y − b
a
)
, a < 0
34 / 42
36. Introduction 確率 確率変数 次回予告
確率変数の変換
したがって,
fY (y) =
d
dy
FY (y)
=
1
a
fX
(
y − b
a
)
, a ≥ 0
−
1
a
fX
(
y − b
a
)
, a < 0
=
1
|a|
fX
(
y − b
a
)
.
35 / 42