ベルヌーイ分布からベータ分
布までを関係づける
@ito_yan
E-mail: 1mail2itoh3 [at] gmail.com
2016.10.01
NagoyaStat #2
はじめに
• 所属する組織の意見・見解ではありません
• つまらないなら睡眠学習・予習に当てましょう
• インターネット上での掲載にあたり、内容を一部
変更しております
2
自己紹介
• TwitterID: @ito_yan
• 統計検定1級(2012年)合格
• 既に昔話になりつつある
• 現在はサーバ管理が主業務
• VMware、XenServerの利用
• アプリケーション開発も少々
• 「まずはスモールデータより始めよ」派
• スモールデータを経由せずにビッグデータを勧めない
• 統計ファンダメンタリスト
3
今回の話題
• ベイズ統計によく出てくる確率分布を紹介
• 確率分布がどのような現象を表しているか
• 確率分布の関連はどうなっているか
• 2つの独立な確率変数の和の確率分布
• 再生性、モーメント母関数
4
確率変数
• どのような値となるかが、ある確率法則によって
決まる変数
• 通常大文字で表し、その実現値は小文字で書く
• 今回のスライドでは大文字を省略している
• 例えば、1~6が同様に確からしく出るサイコロを
振った場合の出た目を考える。出た目の確率変
数をXとすれば、P(X=1) = 1/6 のように書ける
• Pを使うのは具体的な確率、fなどP以外の文字を
使うのは、確率分布を考える場合となる
5
ベルヌーイ分布 Ber(p)
• 確率1-pで0、確率pで1になる離散型の確率分布
• 1つの式にまとめると
• 期待値は
• 分散は
を利用して、
6
二項分布 Bin(N, p)
• 確率pで成功する互いに独立な試行をN回繰り返
し、成功回数を表す離散型の確率分布
• 同一(pが一定)なベルヌーイ試行を独立にN回繰
り返したことに相当する
• 期待値と分散はベルヌーイ分布のN倍
• 2つの独立な確率変数XとYに対し、V[X+Y]は
V[X]+V[Y]で与えられるという性質を利用する
7
ポアソン分布 Po(λ)
• 緑本の2~3章でも登場
• 確率分布は以下のようになる(xは非負、λは正)
• 期待値と分散は で与えられる
• これは第1回の緑本第2章の紹介時に導出済
• 特定の期間でランダムな事象が起こる回数の分布
• 緑本第2章では応答変数の値の範囲や離散という
性質からポアソン分布を選択していた
8
二項分布とポアソン分布の関係
• を保ったまま、 とすると
二項分布がポアソン分布になる
• 「ポアソンの少数の法則」と呼ばれる
• 稀にしか起こらない(確率p)事象を大量観測(回
数N)したら、ポアソン分布に従うと解釈される
• プロイセンで1年間で馬に蹴られて死んだ兵士の数
がポアソン分布が使われた最初の例
• 大勢の兵士の中で、それで死ぬのは1年に数人なので、
ポアソン分布の性質を満たしていると考えられる
9
二項分布からポアソン分布を導出する
• の性質を利用し、二項分布を変形
10
は自然対数の底の定義
eに近づく 1に近づく
指数分布 Ex(λ)
• 確率密度関数は次のようになっている
• パラメータλは正の値を取るものとする
• 期待値と分散は次式で与えられる
11
指数分布の期待値導出
12
積分の範囲は指数分布
の性質から0以上
部分積分
初項はロピタルの定理を使って
0と示せるので、2項目が残る
指数分布の分散導出
13
直前のスライドの結果を利用
ポアソン分布と指数分布の関係
• 単位時間あたりに平均 回ランダムに起こる事
象を考える
• ポアソン分布
• ある事象が単位時間に観測される回数が平均 回
• 指数分布
• ある事象が発生してから、次に起きるまでの期間
が平均
• ポアソン分布の見方を変えたら指数分布になる
14
指数分布の導出(1)
• t単位時間内に事象がx回起こる確率は、パラメー
タλのポアソン分布を用いると、
• ある事象が初めて起こるまでの時間をTとすると、
tまでに一度も事象が起こらない確率はfにx=0を
代入した場合であり、それはP(T > t)である
15
指数分布の導出(2)
• ある事象がtまでに初めて起こる確率は、
• 上式の左辺は累積分布関数であるので
• 確率密度関数を得るには、Gを微分すればよく、
これで指数分布が得られる
• 指数分布はあるランダムに発生する事象が観測
される間隔を表す
16
指数分布の無記憶性
• 直前に事象が起きてから、次に発生するまでの
時間は過去に依存しないという性質
• 連続型の確率分布で無記憶性があるのは指数
分布のみである
17
とおいて、
となるSを求めれば
確率分布を求めることができる
ガンマ分布 Ga(λ, α)
• 確率密度関数は
• ここで、 をガンマ関数と呼ぶ
• 正規化のために使われている
• ガンマ分布の期待値、分散は次式で与えられる
18
指数分布とガンマ分布の関係
• 互いに独立な指数分布(Ex(λ))の確率変数α個
の和がガンマ分布(Ga(λ, α))に従う
• 期待値と分散は指数分布のα倍になっている
• 特にα=1ならば指数分布そのものになっている
19
ガンマ関数の性質(1)
20
αが0以上の整数のとき、
ガンマ関数は階乗を拡張したものと考えられる
ガンマ関数の性質(2)
21
極座標変換
(証明の概略)
ヤコビアン
がrになる
確率変数の和の確率分布
• 2つの確率変数XとYが独立なとき、Z=X+Yの確
率分布は次のようにして計算できる
• 離散型
• 連続型
• X=x、Y=z-xとなれば、X+Yがzになると考える
• すべての組合せを集めればzになる確率となる
22
簡単な例:サイコロの目の和
• 2つの1~6の目が同様に確からしく出るサイコロ
がある(出目の確率分布はf、gとする)。これらを
投げ、出た目の和が3になる確率はいくらか。
23
という制約から和を
取る範囲が狭まる
Ga(λ, 2)の確率密度関数の導出
24
• 確率分布を定義に従って計算する
指数分布(Ex(λ))の
確率密度関数、iは和
を取った数を表す添字
指数分布に従う確率
変数i個の和の確率
変数が従う確率分布
(つまりGa(λ, i))
Ga(λ, α)の確率密度関数の導出
• αでの成立を仮定して、数学的帰納法でα+1での
成立を示す
25
再生性
• 2つの独立な確率変数XとYに対し、Z=X+Yもまた
X、Yと同じ確率分布になることを再生性という
• 分野によっては、畳み込みと呼ぶこともある
• 代表的な再生性の例
• 正規分布
• ポアソン分布
• 二項分布
26
例:ポアソン分布の再生性の導出
27
二項定理の展開式
そのもの
の確率分布
の制約がある
再生性の導出方法
• 確率分布の式に基づいて、地道に計算
• 先ほどの例がこれに該当する
• モーメント母関数を用いた計算
• 特性関数というモーメント母関数の拡張もあるが、
計算は大変なので省略
• 確率分布と1:1対応する関数のことを指す
• モーメント母関数が存在するならば、期待値や分散
の計算も容易にできる
28
モーメント母関数による再生性の導出
• 二項分布の再生性を示してみる
29
このモーメント母関数はX+Yが
に従うことを示唆している
XとYは独立
モーメント母関数で平均・分散を計算
• モーメント母関数と平均・分散の関係
• 導出はマクローリン展開を用いて行う
• tで微分してt=0を代入してみればよい
30
ベータ分布 Be(α, β)
• 確率密度関数
• ベータ関数Bは正規化定数であり、次式で書ける
• 期待値と分散
31
ベータ分布の性質
• 何らかの現象を記述するために使われることは
少ないが、ベイズ統計学ではよく使われる
• α=1、β=1とすると一様分布 U(0, 1)になる
• のようにガンマ関数と結びつく
• αとβの値によって、形状が変わってくる
32
参考資料
• 豊田 著 「基礎からのベイズ統計学」朝倉書店
• 坂本・石黒・北川 著 「情報量統計学」共立出版
• 野田・宮岡 著 「入門・演習 数理統計」 共立出版
33

ベルヌーイ分布からベータ分布までを関係づける