SlideShare a Scribd company logo
1 of 5
Download to read offline
はじめての確率論 測度から確率へ  佐藤 坦  57~60ページ
前回までに,以下の順を追って確率変数   の平均値を定義した.
 が非負単関数の場合    52ページの定義 (a)
 が非負確率変数の場合    54ページの定義 (b)
 が一般の確率変数の場合    56ページの定義 (c)
これらの定義にしたがえば平均値は求まるが,  が有限集合や可算集合であって,  のすべての部分
集合に確率が定義されている場合はもっと直接的な定式化ができる → 補題5.6,補題5.7.
補題 5.6
標本空間   が有限集合( 例えば   としても一般性を失わない ),
 とする.このとき,  上の任意の関数   は平均可能な確率変数で,
 と定義するとその平均値は以下で与えられる.
証明
まず,   上の任意の関数   は   の形にかける.
かつ,  で,   なので,
 上の任意の関数   は必ず   上の単関数になる.
よって,  上の任意の関数   は必ず   上の確率変数になる.
また,   上の任意の関数   についてその絶対値   は   上の
非負単関数なので52ページの定義 (a) より常に平均値が定義でき,かつその平均値は有限なので常に
平均可能である.よって,  上の任意の関数   について,  が平均可能なので,
補題5.5 より   も平均可能である. 要するに,単関数は常に平均可能な確率変数である.
 の平均値は,56ページの定義 (c) より   なので
( ただし,  ),
 
     
     
     
補題 5.7
確率空間   で,標本空間   が可算集合( 例えば   としても一般性を
失わない ),  とする.このとき,  上の任意の関数   は確率変数である.
 と定義すると   が平均可能であるための必要十分条件は
となることで,このときその平均値は以下で与えられる.
X
X ⋯
X ⋯
X ⋯
Ω Ω
Ω Ω = { | k = 1, 2, ⋯ , n}ωk
B = 2
Ω
Ω X
≡ P ({ }), k = 1, 2, ⋯ , nρk ωk
E[X] = X( )∑
k=1
n
ωk ρk
Ω X X(ω) = (ω), ∈ R, ω ∈ Ω∑
n
k=1
ak I{ }ωk
ak
{ } ∈ B, k = 1, 2, ⋯ , nωk { } = Ω⋃
n
k=1
ωk
Ω X (Ω, B)
Ω X (Ω, B)
Ω X |X(ω)| = | | (ω)∑
n
k=1
ak I{ }ωk
(Ω, B)
Ω X |X|
X
X E[X] = E[ ] − E[ ]X
+
X
−
≡ max(X, 0), ≡ max(−X, 0)X
+
X
−
E[X] = E[ max( , 0) (ω)] − E[ max(− , 0) (ω)]∑
n
k=1
ak I{ }ωk
∑
n
k=1
ak I{ }ωk
= max( , 0) P ({ }) − max(− , 0) P ({ })∑
n
k=1
ak ωk ∑
n
k=1
ak ωk
= P ({ })∑
n
k=1
ak ωk
= X( )∑
n
k=1
ωk ρk
□
(Ω, B, P ) Ω Ω = { | k ∈ N}ωk
B = 2
Ω
Ω X
≡ P ({ }), k ∈ Nρk ωk X
|X( )| < +∞∑
k∈N
ωk ρk
証明
まず,   上の任意の関数   は   の形にかける.
また,任意の実数   に対して   なので,
 上の任意の関数   は必ず   上の可測関数になる.
よって,  上の任意の関数   は必ず   上の確率変数になる.
 は一般の確率変数なので常に平均値が定義されるかどうかはわからないが,54ページの定義 (b) 
よりその絶対値(非負確率変数)の平均値は常に定義されるので,先にそちらを求めておく.
ここで,  と定義すると,  は   の近似単関数列であるので,
54ページの定義 (b) より,   の平均値は以下のようになる.
       
       
       
       
よって,もし   が平均可能ならば,  である.
また,補題5.5 より,  が平均可能であるための必要十分条件は   が平均可能であることなので,
結局,  が平均可能であるための必要十分条件は,  である.
 が平均可能なときその平均値は,56ページの定義 (c) より   であり
( ただし,  ),
 と定義すると,  は   の近似単関数列なので,
 
     
     
           
       
     
     
     
例題 5.1
 に対して   を   上のポアソン測度とする.
このとき確率空間   上の確率変数
の平均値を求めよ.
E[X] = X( )∑
k∈N
ωk ρk
Ω X X(ω) = (ω), ∈ R, ω ∈ Ω∑
k∈N
ak I{ }ωk
ak
α {ω | X(ω) > α} ∈ B
Ω X (Ω, B)
Ω X (Ω, B)
X
≡ | | (ω)Xn ∑
n
k=1
ak I{ }ωk
{ }Xn |X|
|X|
E[|X|] = E[ ]limn→∞ Xn
= E[ | | (ω)]limn→∞ ∑
n
k=1
ak I{ }ωk
= | | P ({ })limn→∞ ∑
n
k=1
ak ωk
= | | P ({ })∑
k∈N
ak ωk
= |X( )|∑
k∈N
ωk ρk
|X| E[|X|] < +∞ ⇔ |X( )| < +∞∑
k∈N
ωk ρk
X |X|
X |X( )| < +∞∑
k∈N
ωk ρk
X E[X] = E[ ] − E[ ]X
+
X
−
≡ max(X, 0), ≡ max(−X, 0)X
+
X
−
≡ max(± , 0) (ω)X
±
n ∑
n
k=1
ak I{ }ωk
{ }X
±
n X
±
E[X] = E[ ] − E[ ]X
+
X
−
= E[ ] − E[ ]limn→∞ X
+
n limn→∞ X
−
n
= E[ max( , 0) (ω)]limn→∞ ∑
n
k=1
ak I{ }ωk
− E[ max(− , 0) (ω)]limn→∞ ∑
n
k=1
ak I{ }ωk
= max( , 0) P ({ }) − max(− , 0) P ({ })limn→∞ ∑
n
k=1
ak ωk limn→∞ ∑
n
k=1
ak ωk
= max( , 0) P ({ }) − max(− , 0) P ({ })∑
k∈N
ak ωk ∑
k∈N
ak ωk
= P ({ })∑
k∈N
ak ωk
= X( )∑
k∈N
ωk ρk
□
λ > 0 Πλ
≡ {0, 1, 2, ⋯}N0
= , A ∈Πλ ∑
k∈A
λ
k
k!
e
−λ
2
N0
( , , )N0 2
N0
Πλ
X(k) = k, k ∈ N0
回答
補題 5.7 で   の場合なので,
では次に,  が非可算集合である場合,平均値はどのように計算されるかの例を考えてみる.
確率空間としてルベーグ空間   (33ページ)を考えてみる.
このとき,  上の任意の関数が確率変数になるとは限らないが,定理2.2(15ページ)の系より,
 が   上の連続関数であれば任意の1次元ボレル集合   について 
なので,任意の実数   について   である.
よって,  が   上の連続関数であれば   はルベーグ空間上の実確率変数である.
特に,  が   上の有界連続関数であれば,  が有限の値になるので,有限の
 が存在し,  の平均値を有限の値で上から抑えられる.つまり,  は必ず
平均可能になる.このときの平均値が   のリーマン積分で与えられることを示す → 補題5.8.
補題 5.8
区間   上の有界連続関数   はルベーグ空間   上の
実確率変数であるが,平均可能であり,その平均値はリーマン積分の値に一致する.すなわち,
証明
 が区間   上の有界連続関数であれば,  も有界連続関数であるので,  が非負有界連続
関数として一般性を失わない.
非負有界連続関数についてさえ証明すれば,非負とは限らない有界連続関数   についても 
 より題意を示せるので,  を非負として
証明を進めてよい.
 とおくと   より   は平均可能である.
このとき,  を以下のように定義すると   の連続性より   は   の近似単関数列である.
要するに,  は区間   を   等分して,それぞれの区間でその区間での   の下限値を
取るような関数である.分割したそれぞれの区間は左開右閉区間の形なので   の元である.
よって,  は単関数である.
   に分割.
   に分割.
   に分割.
また,もし   に(   で表せないような )不連続な点があれば   はその点で 
= /k!ρk λ
k
e
−λ
E[X] = X(k) = k = k = λ = λ = λ∑
k=0
∞
ρk ∑
k=0
∞
λ
k
k!
e
−λ
∑
k=1
∞
λ
k
k!
e
−λ
∑
k=1
∞
λ
(k−1)
(k − 1)!
e
−λ
e
λ
e
−λ
□
Ω
((0, 1], M(0, 1], m)
(0, 1]
f (0, 1] B ∈ B1 (B) ∈ B((0, 1])f
−1
α ((α, +∞)) ∈ B((0, 1]) ⊂ M(0, 1]f
−1
f (0, 1] f
f (0, 1] f(t)limt→0
f(t)sup0<t≦1
|f(t)| f(t)
f(t)
(0, 1] f = f(t), t ∈ (0, 1] ((0, 1], M(0, 1], m)
E[f] = f(t)dt∫
1
0
f (0, 1] ,f
+
f
−
f
f
E[ ] − E[ ] = (t)dt − (t)dtf
+
f
−
∫
1
0
f
+
∫
1
0
f
−
f
M ≡ f(t)sup
0<t≦1
E[|f|] = E[f] ≦ E[M ] = M < +∞ f
fn f { }fn f
(t) ≡ inf {f(s) < s ≦ } (t) , t ∈ (0, 1] , n ∈ Nfn ∑
k=1
2
n
∣
∣
∣
k − 1
2
n
k
2
n
I
( , ]
k−1
2
n
k
2
n
(t)fn (0, 1] 2
n
f(t)
M(0, 1]
(t)fn
(t) ⋯ (0, ], ( , 1]f1
1
2
1
2
(t) ⋯ (0, ], ( , ], ( , ], ( , 1]f2
1
4
1
4
2
4
2
4
3
4
3
4
(t) ⋯ (0, ], ( , ], ( , ], ( , ], ( , ], ( , ], ( , ], ( , 1]f3
1
8
1
8
2
8
2
8
3
8
3
8
4
8
4
8
5
8
5
8
6
8
6
8
7
8
7
8
f(t) t = k/2
n
{ (t)}fn f(t)
に収束できないが( ∵   を大きくとっても   を任意の正数   で抑えられない ),
 
いま   は連続なのでその心配はなく,  は   の近似関数列になっている.
 
よって,54ページの定義 (b) より,  の平均値は以下のようになる.
      
      
      
         ∵ リーマン積分の定義
※ 補題5.8 では   が   で連続であることは仮定していない(   で不連続でもよい ).
例題 5.2
ルベーグ空間   上の確率変数   の平均値を計算せよ.
回答
可測部分集合上の平均値
 を   上の確率変数,  とする.  が平均可能であれば,  は   で平均可能
といい,  の   での平均値 を   で定義する.
 が平均可能でなくても   は平均可能である場合がある.
 を以下のようにもかくことがあるが意味は同じ.
補題 5.9
 が零集合ならば,任意の確率変数   は   で平均可能かつ   の   での平均値は   である.
証明
 が非負単関数の場合,  とかけるとする.このとき,
        
        
        
        
        
より,  は   で平均可能かつ   の   での平均値は   である.
 が非負確率変数の場合,近似単関数列を   とすると任意の   で   なので,
           ∵   の近似単関数列は 
N | (t) − f(t)|fN ε
f(t) { (t)}fn f(t)
f
E[f] = E[ ]limn→∞ fn
= E [ inf {f(s) < s ≦ } (t)]limn→∞ ∑
2
n
k=1
∣
∣
k−1
2
n
k
2
n
I
( , ]
k−1
2
n
k
2
n
= inf {f(s) < s ≦ } m(( , ])limn→∞ ∑
2
n
k=1
∣
∣
k−1
2
n
k
2
n
k−1
2
n
k
2
n
= inf {f(s) < s ≦ }limn→∞
1
2
n
∑
2
n
k=1
∣
∣
k−1
2
n
k
2
n
= f(t)dt∫
1
0
□
f [0, 1] t = 0
((0, 1], M(0, 1], m) X(t) = cos πt
E[X] = cos πtdt = 0∫
1
0
□
X (Ω, B, P ) B ∈ B XIB X B
X B E[X|B] ≡ E[X ]IB
X XIB
E[X|B]
X(ω)dP (ω) , X(ω)P (dω) , XdP∫
B
∫
B
∫
B
N X N X N 0
X X = ∑
n
k=1
ak IAk
E[X|N ] = E[X ]IN
= E[ ]∑
n
k=1
ak IAk
IN
= E[ ]∑
n
k=1
ak I ∩NAk
= P ( ∩ N )∑
n
k=1
ak Ak
≦ P (N )∑
n
k=1
ak
= 0
X N X N 0
X { }Xn n E[ |N ] = 0Xn
E[X|N ] = E[X ]IN
= E[ ]limn→∞ Xn IN XIN { }Xn IN
        
 
        
 
より,やはり   は   で平均可能かつ   の   での平均値は   である.
 
 が一般の確率変数の場合,
           ∵   は非負確率変数   の差に等しい
        
        
より,やはり   は   で平均可能かつ   の   での平均値は   である.
補題5.9 は,確率変数   の零集合上での値は,  の平均値   に影響しないことを示している.
実際   が非負確率変数のとき以下のようになり,  の   上での値は   に影響しない.
        ∵ 補題 5.4(2)
     
     
 の   上での値は   に影響しないので,さらにいえば,  が   上で定義されていなくても 
 は計算できる.  が計算できるためには,零集合   を除いたところで   が定義されて
いればよい( つまり,ほとんどいたるところで   が定義されていればよい ).
零集合   を除いたところで   が定義されているとき,  上での   の値を適当に決めることで
( 例えば一律に   とするなど )  を   全体で定義された関数   に拡張できる.この拡張された 
 を   上の確率変数となるように選べるとき,  は ほとんどいたるところ定義された確率
変数 といい,  と定義する.当然,  は   の拡張の仕方によらない(  の 
上での値は,  に影響しないため).
ルベーグ空間   上では1点集合は零集合なので,ルベーグ空間上の確率変数 
が   上で平均可能であれば,  上でも   上でも   上でも
平均可能であり,これらの区間上での平均値はすべて等しい.
 が   上で平均可能であっても,つまり,  が平均可能な確率変数であっても
もしかしたら   は   の外側で定義されていなかったり,あるいは発散したりしていて 
より広い区間では平均可能でないかもしれない.ただ,  の両端に1点ずつ加えるだけなら,
1点集合は零集合なので,  が   で定義されていなくても発散していても関係なく   の
区間   上での平均値は求まり,区間   上での平均値に等しい.
この   をリーマン積分と同じ
ように以下のようにかくことが多い.
 
= E[ |N ]limn→∞ Xn
= 0
X N X N 0
X
E[X|N ] = E[X ]IN
= E[ ] − E[ ]X
+
IN X
−
IN XIN ,X
+
IN X
−
IN
= E[ |N ] − E[ |N ]X
+
X
−
= 0
X N X N 0
□
X X E[X]
X X N E[X]
E[X] = E[X + X ]I
N
C IN
= E[X ] + E[X ]I
N
C IN
= E[X| ] + E[X|N ]N
C
= E[X| ]N
C
X N E[X] X N
E[X] E[X] N X
X
N X N X
0 X Ω X
^
X
^
(Ω, B, P ) X
E[X] ≡ E[ ]X
^
E[X] X
^
X N
E[X]
((0, 1], M(0, 1], m) f
(a, b) (0 ≦ a < b ≦ 1) (a, b] [a, b) [a, b]
f (a, b) fI(a,b)
f (a, b) (a, b)
(a, b)
f t = a, b f
[a, b] (a, b)
E[f (a, b]] = E[f (a, b]] = E[f [a, b)] = E[f [a, b]]∣∣ ∣∣ ∣∣ ∣∣
f(t)dt∫
b
a

More Related Content

What's hot

PRML読書会1スライド(公開用)
PRML読書会1スライド(公開用)PRML読書会1スライド(公開用)
PRML読書会1スライド(公開用)tetsuro ito
 
PRML輪読#1
PRML輪読#1PRML輪読#1
PRML輪読#1matsuolab
 
行列計算を利用したデータ解析技術
行列計算を利用したデータ解析技術行列計算を利用したデータ解析技術
行列計算を利用したデータ解析技術Yoshihiro Mizoguchi
 
基礎からのベイズ統計学 輪読会資料 第4章 メトロポリス・ヘイスティングス法
基礎からのベイズ統計学 輪読会資料 第4章 メトロポリス・ヘイスティングス法基礎からのベイズ統計学 輪読会資料 第4章 メトロポリス・ヘイスティングス法
基礎からのベイズ統計学 輪読会資料 第4章 メトロポリス・ヘイスティングス法Ken'ichi Matsui
 
CF-FinML 金融時系列予測のための機械学習
CF-FinML 金融時系列予測のための機械学習CF-FinML 金融時系列予測のための機械学習
CF-FinML 金融時系列予測のための機械学習Katsuya Ito
 
PRMLの線形回帰モデル(線形基底関数モデル)
PRMLの線形回帰モデル(線形基底関数モデル)PRMLの線形回帰モデル(線形基底関数モデル)
PRMLの線形回帰モデル(線形基底関数モデル)Yasunori Ozaki
 
DID, Synthetic Control, CausalImpact
DID, Synthetic Control, CausalImpactDID, Synthetic Control, CausalImpact
DID, Synthetic Control, CausalImpactYusuke Kaneko
 
[DL輪読会](Sequential) Variational Autoencoders for Collaborative Filtering
[DL輪読会](Sequential) Variational Autoencoders for Collaborative Filtering[DL輪読会](Sequential) Variational Autoencoders for Collaborative Filtering
[DL輪読会](Sequential) Variational Autoencoders for Collaborative FilteringDeep Learning JP
 
色々な確率分布とその応用
色々な確率分布とその応用色々な確率分布とその応用
色々な確率分布とその応用Hiroki Iida
 
変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)Takao Yamanaka
 
データ解析14 ナイーブベイズ
データ解析14 ナイーブベイズデータ解析14 ナイーブベイズ
データ解析14 ナイーブベイズHirotaka Hachiya
 
[ICLR2021 (spotlight)] Benefit of deep learning with non-convex noisy gradien...
[ICLR2021 (spotlight)] Benefit of deep learning with non-convex noisy gradien...[ICLR2021 (spotlight)] Benefit of deep learning with non-convex noisy gradien...
[ICLR2021 (spotlight)] Benefit of deep learning with non-convex noisy gradien...Taiji Suzuki
 
1 4.回帰分析と分散分析
1 4.回帰分析と分散分析1 4.回帰分析と分散分析
1 4.回帰分析と分散分析logics-of-blue
 
【解説】 一般逆行列
【解説】 一般逆行列【解説】 一般逆行列
【解説】 一般逆行列Kenjiro Sugimoto
 
Prml 最尤推定からベイズ曲線フィッティング
Prml 最尤推定からベイズ曲線フィッティングPrml 最尤推定からベイズ曲線フィッティング
Prml 最尤推定からベイズ曲線フィッティングtakutori
 
Optunaを使ったHuman-in-the-loop最適化の紹介 - 2023/04/27 W&B 東京ミートアップ #3
Optunaを使ったHuman-in-the-loop最適化の紹介 - 2023/04/27 W&B 東京ミートアップ #3Optunaを使ったHuman-in-the-loop最適化の紹介 - 2023/04/27 W&B 東京ミートアップ #3
Optunaを使ったHuman-in-the-loop最適化の紹介 - 2023/04/27 W&B 東京ミートアップ #3Preferred Networks
 
細胞外電極はなにを見ているか2017年5月版
細胞外電極はなにを見ているか2017年5月版細胞外電極はなにを見ているか2017年5月版
細胞外電極はなにを見ているか2017年5月版Masatoshi Yoshida
 

What's hot (20)

PRML読書会1スライド(公開用)
PRML読書会1スライド(公開用)PRML読書会1スライド(公開用)
PRML読書会1スライド(公開用)
 
PRML輪読#1
PRML輪読#1PRML輪読#1
PRML輪読#1
 
行列計算を利用したデータ解析技術
行列計算を利用したデータ解析技術行列計算を利用したデータ解析技術
行列計算を利用したデータ解析技術
 
基礎からのベイズ統計学 輪読会資料 第4章 メトロポリス・ヘイスティングス法
基礎からのベイズ統計学 輪読会資料 第4章 メトロポリス・ヘイスティングス法基礎からのベイズ統計学 輪読会資料 第4章 メトロポリス・ヘイスティングス法
基礎からのベイズ統計学 輪読会資料 第4章 メトロポリス・ヘイスティングス法
 
階層ベイズとWAIC
階層ベイズとWAIC階層ベイズとWAIC
階層ベイズとWAIC
 
正準相関分析
正準相関分析正準相関分析
正準相関分析
 
CF-FinML 金融時系列予測のための機械学習
CF-FinML 金融時系列予測のための機械学習CF-FinML 金融時系列予測のための機械学習
CF-FinML 金融時系列予測のための機械学習
 
PRMLの線形回帰モデル(線形基底関数モデル)
PRMLの線形回帰モデル(線形基底関数モデル)PRMLの線形回帰モデル(線形基底関数モデル)
PRMLの線形回帰モデル(線形基底関数モデル)
 
DID, Synthetic Control, CausalImpact
DID, Synthetic Control, CausalImpactDID, Synthetic Control, CausalImpact
DID, Synthetic Control, CausalImpact
 
[DL輪読会](Sequential) Variational Autoencoders for Collaborative Filtering
[DL輪読会](Sequential) Variational Autoencoders for Collaborative Filtering[DL輪読会](Sequential) Variational Autoencoders for Collaborative Filtering
[DL輪読会](Sequential) Variational Autoencoders for Collaborative Filtering
 
色々な確率分布とその応用
色々な確率分布とその応用色々な確率分布とその応用
色々な確率分布とその応用
 
変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)
 
データ解析14 ナイーブベイズ
データ解析14 ナイーブベイズデータ解析14 ナイーブベイズ
データ解析14 ナイーブベイズ
 
[ICLR2021 (spotlight)] Benefit of deep learning with non-convex noisy gradien...
[ICLR2021 (spotlight)] Benefit of deep learning with non-convex noisy gradien...[ICLR2021 (spotlight)] Benefit of deep learning with non-convex noisy gradien...
[ICLR2021 (spotlight)] Benefit of deep learning with non-convex noisy gradien...
 
1 4.回帰分析と分散分析
1 4.回帰分析と分散分析1 4.回帰分析と分散分析
1 4.回帰分析と分散分析
 
【解説】 一般逆行列
【解説】 一般逆行列【解説】 一般逆行列
【解説】 一般逆行列
 
Prml 最尤推定からベイズ曲線フィッティング
Prml 最尤推定からベイズ曲線フィッティングPrml 最尤推定からベイズ曲線フィッティング
Prml 最尤推定からベイズ曲線フィッティング
 
Optunaを使ったHuman-in-the-loop最適化の紹介 - 2023/04/27 W&B 東京ミートアップ #3
Optunaを使ったHuman-in-the-loop最適化の紹介 - 2023/04/27 W&B 東京ミートアップ #3Optunaを使ったHuman-in-the-loop最適化の紹介 - 2023/04/27 W&B 東京ミートアップ #3
Optunaを使ったHuman-in-the-loop最適化の紹介 - 2023/04/27 W&B 東京ミートアップ #3
 
細胞外電極はなにを見ているか2017年5月版
細胞外電極はなにを見ているか2017年5月版細胞外電極はなにを見ているか2017年5月版
細胞外電極はなにを見ているか2017年5月版
 
VAEs for multimodal disentanglement
VAEs for multimodal disentanglementVAEs for multimodal disentanglement
VAEs for multimodal disentanglement
 

Similar to はじめての確率論 測度から確率へ 57~60ページ ノート

PRML輪講用資料10章(パターン認識と機械学習,近似推論法)
PRML輪講用資料10章(パターン認識と機械学習,近似推論法)PRML輪講用資料10章(パターン認識と機械学習,近似推論法)
PRML輪講用資料10章(パターン認識と機械学習,近似推論法)Toshiyuki Shimono
 
ベイズ推論による機械学習入門 第4章
ベイズ推論による機械学習入門 第4章ベイズ推論による機械学習入門 第4章
ベイズ推論による機械学習入門 第4章YosukeAkasaka
 
PRML 10.3, 10.4 (Pattern Recognition and Machine Learning)
PRML 10.3, 10.4 (Pattern Recognition and Machine Learning)PRML 10.3, 10.4 (Pattern Recognition and Machine Learning)
PRML 10.3, 10.4 (Pattern Recognition and Machine Learning)Toshiyuki Shimono
 
統計的学習の基礎 5章前半(~5.6)
統計的学習の基礎 5章前半(~5.6)統計的学習の基礎 5章前半(~5.6)
統計的学習の基礎 5章前半(~5.6)Kota Mori
 
Bishop prml 10.2.2-10.2.5_wk77_100412-0059
Bishop prml 10.2.2-10.2.5_wk77_100412-0059Bishop prml 10.2.2-10.2.5_wk77_100412-0059
Bishop prml 10.2.2-10.2.5_wk77_100412-0059Wataru Kishimoto
 
統計的因果推論の理論と実践 ch9 交互作用項のある共分散分析
統計的因果推論の理論と実践 ch9 交互作用項のある共分散分析統計的因果推論の理論と実践 ch9 交互作用項のある共分散分析
統計的因果推論の理論と実践 ch9 交互作用項のある共分散分析YasutoTerasawa
 
Foundations of Statistical Natural Language Processing (chapter 5)
Foundations of Statistical Natural Language Processing (chapter 5)Foundations of Statistical Natural Language Processing (chapter 5)
Foundations of Statistical Natural Language Processing (chapter 5)Akira Miyazawa
 
LLM は数学を理解しているのか?
LLM は数学を理解しているのか?LLM は数学を理解しているのか?
LLM は数学を理解しているのか?Hide Koba
 
ベイズ推論とシミュレーション法の基礎
ベイズ推論とシミュレーション法の基礎ベイズ推論とシミュレーション法の基礎
ベイズ推論とシミュレーション法の基礎Tomoshige Nakamura
 
2011年11月18日
2011年11月18日2011年11月18日
2011年11月18日nukaemon
 
AI2: Safety and Robustness Certification of Neural Networks with Abstract Int...
AI2: Safety and Robustness Certification of Neural Networks with Abstract Int...AI2: Safety and Robustness Certification of Neural Networks with Abstract Int...
AI2: Safety and Robustness Certification of Neural Networks with Abstract Int...T T
 
PRML上巻勉強会 at 東京大学 資料 第4章4.3.1 〜 4.5.2
PRML上巻勉強会 at 東京大学 資料 第4章4.3.1 〜 4.5.2PRML上巻勉強会 at 東京大学 資料 第4章4.3.1 〜 4.5.2
PRML上巻勉強会 at 東京大学 資料 第4章4.3.1 〜 4.5.2Hiroyuki Kato
 

Similar to はじめての確率論 測度から確率へ 57~60ページ ノート (17)

prml_titech_9.0-9.2
prml_titech_9.0-9.2prml_titech_9.0-9.2
prml_titech_9.0-9.2
 
PRML10-draft1002
PRML10-draft1002PRML10-draft1002
PRML10-draft1002
 
PRML輪講用資料10章(パターン認識と機械学習,近似推論法)
PRML輪講用資料10章(パターン認識と機械学習,近似推論法)PRML輪講用資料10章(パターン認識と機械学習,近似推論法)
PRML輪講用資料10章(パターン認識と機械学習,近似推論法)
 
Draftall
DraftallDraftall
Draftall
 
#7:演算子と分岐
#7:演算子と分岐#7:演算子と分岐
#7:演算子と分岐
 
ベイズ推論による機械学習入門 第4章
ベイズ推論による機械学習入門 第4章ベイズ推論による機械学習入門 第4章
ベイズ推論による機械学習入門 第4章
 
PRML 10.3, 10.4 (Pattern Recognition and Machine Learning)
PRML 10.3, 10.4 (Pattern Recognition and Machine Learning)PRML 10.3, 10.4 (Pattern Recognition and Machine Learning)
PRML 10.3, 10.4 (Pattern Recognition and Machine Learning)
 
統計的学習の基礎 5章前半(~5.6)
統計的学習の基礎 5章前半(~5.6)統計的学習の基礎 5章前半(~5.6)
統計的学習の基礎 5章前半(~5.6)
 
Bishop prml 10.2.2-10.2.5_wk77_100412-0059
Bishop prml 10.2.2-10.2.5_wk77_100412-0059Bishop prml 10.2.2-10.2.5_wk77_100412-0059
Bishop prml 10.2.2-10.2.5_wk77_100412-0059
 
統計的因果推論の理論と実践 ch9 交互作用項のある共分散分析
統計的因果推論の理論と実践 ch9 交互作用項のある共分散分析統計的因果推論の理論と実践 ch9 交互作用項のある共分散分析
統計的因果推論の理論と実践 ch9 交互作用項のある共分散分析
 
Osaka.stan#2 chap5-1
Osaka.stan#2 chap5-1Osaka.stan#2 chap5-1
Osaka.stan#2 chap5-1
 
Foundations of Statistical Natural Language Processing (chapter 5)
Foundations of Statistical Natural Language Processing (chapter 5)Foundations of Statistical Natural Language Processing (chapter 5)
Foundations of Statistical Natural Language Processing (chapter 5)
 
LLM は数学を理解しているのか?
LLM は数学を理解しているのか?LLM は数学を理解しているのか?
LLM は数学を理解しているのか?
 
ベイズ推論とシミュレーション法の基礎
ベイズ推論とシミュレーション法の基礎ベイズ推論とシミュレーション法の基礎
ベイズ推論とシミュレーション法の基礎
 
2011年11月18日
2011年11月18日2011年11月18日
2011年11月18日
 
AI2: Safety and Robustness Certification of Neural Networks with Abstract Int...
AI2: Safety and Robustness Certification of Neural Networks with Abstract Int...AI2: Safety and Robustness Certification of Neural Networks with Abstract Int...
AI2: Safety and Robustness Certification of Neural Networks with Abstract Int...
 
PRML上巻勉強会 at 東京大学 資料 第4章4.3.1 〜 4.5.2
PRML上巻勉強会 at 東京大学 資料 第4章4.3.1 〜 4.5.2PRML上巻勉強会 at 東京大学 資料 第4章4.3.1 〜 4.5.2
PRML上巻勉強会 at 東京大学 資料 第4章4.3.1 〜 4.5.2
 

はじめての確率論 測度から確率へ 57~60ページ ノート

  • 1. はじめての確率論 測度から確率へ  佐藤 坦  57~60ページ 前回までに,以下の順を追って確率変数   の平均値を定義した.  が非負単関数の場合    52ページの定義 (a)  が非負確率変数の場合    54ページの定義 (b)  が一般の確率変数の場合    56ページの定義 (c) これらの定義にしたがえば平均値は求まるが,  が有限集合や可算集合であって,  のすべての部分 集合に確率が定義されている場合はもっと直接的な定式化ができる → 補題5.6,補題5.7. 補題 5.6 標本空間   が有限集合( 例えば   としても一般性を失わない ),  とする.このとき,  上の任意の関数   は平均可能な確率変数で,  と定義するとその平均値は以下で与えられる. 証明 まず,   上の任意の関数   は   の形にかける. かつ,  で,   なので,  上の任意の関数   は必ず   上の単関数になる. よって,  上の任意の関数   は必ず   上の確率変数になる. また,   上の任意の関数   についてその絶対値   は   上の 非負単関数なので52ページの定義 (a) より常に平均値が定義でき,かつその平均値は有限なので常に 平均可能である.よって,  上の任意の関数   について,  が平均可能なので, 補題5.5 より   も平均可能である. 要するに,単関数は常に平均可能な確率変数である.  の平均値は,56ページの定義 (c) より   なので ( ただし,  ),                     補題 5.7 確率空間   で,標本空間   が可算集合( 例えば   としても一般性を 失わない ),  とする.このとき,  上の任意の関数   は確率変数である.  と定義すると   が平均可能であるための必要十分条件は となることで,このときその平均値は以下で与えられる. X X ⋯ X ⋯ X ⋯ Ω Ω Ω Ω = { | k = 1, 2, ⋯ , n}ωk B = 2 Ω Ω X ≡ P ({ }), k = 1, 2, ⋯ , nρk ωk E[X] = X( )∑ k=1 n ωk ρk Ω X X(ω) = (ω), ∈ R, ω ∈ Ω∑ n k=1 ak I{ }ωk ak { } ∈ B, k = 1, 2, ⋯ , nωk { } = Ω⋃ n k=1 ωk Ω X (Ω, B) Ω X (Ω, B) Ω X |X(ω)| = | | (ω)∑ n k=1 ak I{ }ωk (Ω, B) Ω X |X| X X E[X] = E[ ] − E[ ]X + X − ≡ max(X, 0), ≡ max(−X, 0)X + X − E[X] = E[ max( , 0) (ω)] − E[ max(− , 0) (ω)]∑ n k=1 ak I{ }ωk ∑ n k=1 ak I{ }ωk = max( , 0) P ({ }) − max(− , 0) P ({ })∑ n k=1 ak ωk ∑ n k=1 ak ωk = P ({ })∑ n k=1 ak ωk = X( )∑ n k=1 ωk ρk □ (Ω, B, P ) Ω Ω = { | k ∈ N}ωk B = 2 Ω Ω X ≡ P ({ }), k ∈ Nρk ωk X |X( )| < +∞∑ k∈N ωk ρk
  • 2. 証明 まず,   上の任意の関数   は   の形にかける. また,任意の実数   に対して   なので,  上の任意の関数   は必ず   上の可測関数になる. よって,  上の任意の関数   は必ず   上の確率変数になる.  は一般の確率変数なので常に平均値が定義されるかどうかはわからないが,54ページの定義 (b)  よりその絶対値(非負確率変数)の平均値は常に定義されるので,先にそちらを求めておく. ここで,  と定義すると,  は   の近似単関数列であるので, 54ページの定義 (b) より,   の平均値は以下のようになる.                                 よって,もし   が平均可能ならば,  である. また,補題5.5 より,  が平均可能であるための必要十分条件は   が平均可能であることなので, 結局,  が平均可能であるための必要十分条件は,  である.  が平均可能なときその平均値は,56ページの定義 (c) より   であり ( ただし,  ),  と定義すると,  は   の近似単関数列なので,                                                     例題 5.1  に対して   を   上のポアソン測度とする. このとき確率空間   上の確率変数 の平均値を求めよ. E[X] = X( )∑ k∈N ωk ρk Ω X X(ω) = (ω), ∈ R, ω ∈ Ω∑ k∈N ak I{ }ωk ak α {ω | X(ω) > α} ∈ B Ω X (Ω, B) Ω X (Ω, B) X ≡ | | (ω)Xn ∑ n k=1 ak I{ }ωk { }Xn |X| |X| E[|X|] = E[ ]limn→∞ Xn = E[ | | (ω)]limn→∞ ∑ n k=1 ak I{ }ωk = | | P ({ })limn→∞ ∑ n k=1 ak ωk = | | P ({ })∑ k∈N ak ωk = |X( )|∑ k∈N ωk ρk |X| E[|X|] < +∞ ⇔ |X( )| < +∞∑ k∈N ωk ρk X |X| X |X( )| < +∞∑ k∈N ωk ρk X E[X] = E[ ] − E[ ]X + X − ≡ max(X, 0), ≡ max(−X, 0)X + X − ≡ max(± , 0) (ω)X ± n ∑ n k=1 ak I{ }ωk { }X ± n X ± E[X] = E[ ] − E[ ]X + X − = E[ ] − E[ ]limn→∞ X + n limn→∞ X − n = E[ max( , 0) (ω)]limn→∞ ∑ n k=1 ak I{ }ωk − E[ max(− , 0) (ω)]limn→∞ ∑ n k=1 ak I{ }ωk = max( , 0) P ({ }) − max(− , 0) P ({ })limn→∞ ∑ n k=1 ak ωk limn→∞ ∑ n k=1 ak ωk = max( , 0) P ({ }) − max(− , 0) P ({ })∑ k∈N ak ωk ∑ k∈N ak ωk = P ({ })∑ k∈N ak ωk = X( )∑ k∈N ωk ρk □ λ > 0 Πλ ≡ {0, 1, 2, ⋯}N0 = , A ∈Πλ ∑ k∈A λ k k! e −λ 2 N0 ( , , )N0 2 N0 Πλ X(k) = k, k ∈ N0
  • 3. 回答 補題 5.7 で   の場合なので, では次に,  が非可算集合である場合,平均値はどのように計算されるかの例を考えてみる. 確率空間としてルベーグ空間   (33ページ)を考えてみる. このとき,  上の任意の関数が確率変数になるとは限らないが,定理2.2(15ページ)の系より,  が   上の連続関数であれば任意の1次元ボレル集合   について  なので,任意の実数   について   である. よって,  が   上の連続関数であれば   はルベーグ空間上の実確率変数である. 特に,  が   上の有界連続関数であれば,  が有限の値になるので,有限の  が存在し,  の平均値を有限の値で上から抑えられる.つまり,  は必ず 平均可能になる.このときの平均値が   のリーマン積分で与えられることを示す → 補題5.8. 補題 5.8 区間   上の有界連続関数   はルベーグ空間   上の 実確率変数であるが,平均可能であり,その平均値はリーマン積分の値に一致する.すなわち, 証明  が区間   上の有界連続関数であれば,  も有界連続関数であるので,  が非負有界連続 関数として一般性を失わない. 非負有界連続関数についてさえ証明すれば,非負とは限らない有界連続関数   についても   より題意を示せるので,  を非負として 証明を進めてよい.  とおくと   より   は平均可能である. このとき,  を以下のように定義すると   の連続性より   は   の近似単関数列である. 要するに,  は区間   を   等分して,それぞれの区間でその区間での   の下限値を 取るような関数である.分割したそれぞれの区間は左開右閉区間の形なので   の元である. よって,  は単関数である.    に分割.    に分割.    に分割. また,もし   に(   で表せないような )不連続な点があれば   はその点で  = /k!ρk λ k e −λ E[X] = X(k) = k = k = λ = λ = λ∑ k=0 ∞ ρk ∑ k=0 ∞ λ k k! e −λ ∑ k=1 ∞ λ k k! e −λ ∑ k=1 ∞ λ (k−1) (k − 1)! e −λ e λ e −λ □ Ω ((0, 1], M(0, 1], m) (0, 1] f (0, 1] B ∈ B1 (B) ∈ B((0, 1])f −1 α ((α, +∞)) ∈ B((0, 1]) ⊂ M(0, 1]f −1 f (0, 1] f f (0, 1] f(t)limt→0 f(t)sup0<t≦1 |f(t)| f(t) f(t) (0, 1] f = f(t), t ∈ (0, 1] ((0, 1], M(0, 1], m) E[f] = f(t)dt∫ 1 0 f (0, 1] ,f + f − f f E[ ] − E[ ] = (t)dt − (t)dtf + f − ∫ 1 0 f + ∫ 1 0 f − f M ≡ f(t)sup 0<t≦1 E[|f|] = E[f] ≦ E[M ] = M < +∞ f fn f { }fn f (t) ≡ inf {f(s) < s ≦ } (t) , t ∈ (0, 1] , n ∈ Nfn ∑ k=1 2 n ∣ ∣ ∣ k − 1 2 n k 2 n I ( , ] k−1 2 n k 2 n (t)fn (0, 1] 2 n f(t) M(0, 1] (t)fn (t) ⋯ (0, ], ( , 1]f1 1 2 1 2 (t) ⋯ (0, ], ( , ], ( , ], ( , 1]f2 1 4 1 4 2 4 2 4 3 4 3 4 (t) ⋯ (0, ], ( , ], ( , ], ( , ], ( , ], ( , ], ( , ], ( , 1]f3 1 8 1 8 2 8 2 8 3 8 3 8 4 8 4 8 5 8 5 8 6 8 6 8 7 8 7 8 f(t) t = k/2 n { (t)}fn f(t)
  • 4. に収束できないが( ∵   を大きくとっても   を任意の正数   で抑えられない ),   いま   は連続なのでその心配はなく,  は   の近似関数列になっている.   よって,54ページの定義 (b) より,  の平均値は以下のようになる.                               ∵ リーマン積分の定義 ※ 補題5.8 では   が   で連続であることは仮定していない(   で不連続でもよい ). 例題 5.2 ルベーグ空間   上の確率変数   の平均値を計算せよ. 回答 可測部分集合上の平均値  を   上の確率変数,  とする.  が平均可能であれば,  は   で平均可能 といい,  の   での平均値 を   で定義する.  が平均可能でなくても   は平均可能である場合がある.  を以下のようにもかくことがあるが意味は同じ. 補題 5.9  が零集合ならば,任意の確率変数   は   で平均可能かつ   の   での平均値は   である. 証明  が非負単関数の場合,  とかけるとする.このとき,                                              より,  は   で平均可能かつ   の   での平均値は   である.  が非負確率変数の場合,近似単関数列を   とすると任意の   で   なので,            ∵   の近似単関数列は  N | (t) − f(t)|fN ε f(t) { (t)}fn f(t) f E[f] = E[ ]limn→∞ fn = E [ inf {f(s) < s ≦ } (t)]limn→∞ ∑ 2 n k=1 ∣ ∣ k−1 2 n k 2 n I ( , ] k−1 2 n k 2 n = inf {f(s) < s ≦ } m(( , ])limn→∞ ∑ 2 n k=1 ∣ ∣ k−1 2 n k 2 n k−1 2 n k 2 n = inf {f(s) < s ≦ }limn→∞ 1 2 n ∑ 2 n k=1 ∣ ∣ k−1 2 n k 2 n = f(t)dt∫ 1 0 □ f [0, 1] t = 0 ((0, 1], M(0, 1], m) X(t) = cos πt E[X] = cos πtdt = 0∫ 1 0 □ X (Ω, B, P ) B ∈ B XIB X B X B E[X|B] ≡ E[X ]IB X XIB E[X|B] X(ω)dP (ω) , X(ω)P (dω) , XdP∫ B ∫ B ∫ B N X N X N 0 X X = ∑ n k=1 ak IAk E[X|N ] = E[X ]IN = E[ ]∑ n k=1 ak IAk IN = E[ ]∑ n k=1 ak I ∩NAk = P ( ∩ N )∑ n k=1 ak Ak ≦ P (N )∑ n k=1 ak = 0 X N X N 0 X { }Xn n E[ |N ] = 0Xn E[X|N ] = E[X ]IN = E[ ]limn→∞ Xn IN XIN { }Xn IN
  • 5.                       より,やはり   は   で平均可能かつ   の   での平均値は   である.    が一般の確率変数の場合,            ∵   は非負確率変数   の差に等しい                   より,やはり   は   で平均可能かつ   の   での平均値は   である. 補題5.9 は,確率変数   の零集合上での値は,  の平均値   に影響しないことを示している. 実際   が非負確率変数のとき以下のようになり,  の   上での値は   に影響しない.         ∵ 補題 5.4(2)              の   上での値は   に影響しないので,さらにいえば,  が   上で定義されていなくても   は計算できる.  が計算できるためには,零集合   を除いたところで   が定義されて いればよい( つまり,ほとんどいたるところで   が定義されていればよい ). 零集合   を除いたところで   が定義されているとき,  上での   の値を適当に決めることで ( 例えば一律に   とするなど )  を   全体で定義された関数   に拡張できる.この拡張された   を   上の確率変数となるように選べるとき,  は ほとんどいたるところ定義された確率 変数 といい,  と定義する.当然,  は   の拡張の仕方によらない(  の  上での値は,  に影響しないため). ルベーグ空間   上では1点集合は零集合なので,ルベーグ空間上の確率変数  が   上で平均可能であれば,  上でも   上でも   上でも 平均可能であり,これらの区間上での平均値はすべて等しい.  が   上で平均可能であっても,つまり,  が平均可能な確率変数であっても もしかしたら   は   の外側で定義されていなかったり,あるいは発散したりしていて  より広い区間では平均可能でないかもしれない.ただ,  の両端に1点ずつ加えるだけなら, 1点集合は零集合なので,  が   で定義されていなくても発散していても関係なく   の 区間   上での平均値は求まり,区間   上での平均値に等しい. この   をリーマン積分と同じ ように以下のようにかくことが多い.   = E[ |N ]limn→∞ Xn = 0 X N X N 0 X E[X|N ] = E[X ]IN = E[ ] − E[ ]X + IN X − IN XIN ,X + IN X − IN = E[ |N ] − E[ |N ]X + X − = 0 X N X N 0 □ X X E[X] X X N E[X] E[X] = E[X + X ]I N C IN = E[X ] + E[X ]I N C IN = E[X| ] + E[X|N ]N C = E[X| ]N C X N E[X] X N E[X] E[X] N X X N X N X 0 X Ω X ^ X ^ (Ω, B, P ) X E[X] ≡ E[ ]X ^ E[X] X ^ X N E[X] ((0, 1], M(0, 1], m) f (a, b) (0 ≦ a < b ≦ 1) (a, b] [a, b) [a, b] f (a, b) fI(a,b) f (a, b) (a, b) (a, b) f t = a, b f [a, b] (a, b) E[f (a, b]] = E[f (a, b]] = E[f [a, b)] = E[f [a, b]]∣∣ ∣∣ ∣∣ ∣∣ f(t)dt∫ b a