SlideShare a Scribd company logo
Submit Search
Upload
Login
Signup
Chapter9
Report
Kousuke Takeuhi
Follow
CTO at Whats
Nov. 14, 2013
•
0 likes
•
829 views
1
of
21
Chapter9
Nov. 14, 2013
•
0 likes
•
829 views
Download Now
Download to read offline
Report
Marketing
Kousuke Takeuhi
Follow
CTO at Whats
Recommended
[PRML] パターン認識と機械学習(第1章:序論)
Ryosuke Sasaki
1.6K views
•
44 slides
関数データ解析の概要とその方法
Hidetoshi Matsui
9.4K views
•
156 slides
PRML輪読#1
matsuolab
23.1K views
•
29 slides
PRML読み会第一章
Takushi Miki
6K views
•
47 slides
PRML輪読#11
matsuolab
6.5K views
•
25 slides
PRML輪読#2
matsuolab
11.2K views
•
36 slides
More Related Content
What's hot
201803NC
Naoki Hayashi
599 views
•
67 slides
PRML輪読#8
matsuolab
6.5K views
•
61 slides
多変量解析の一般化
Akisato Kimura
3.1K views
•
55 slides
PRML輪読#10
matsuolab
8.3K views
•
73 slides
ベイズ統計学の概論的紹介
Naoki Hayashi
78K views
•
80 slides
修士論文発表:「非負値行列分解における漸近的Bayes汎化誤差」
Naoki Hayashi
523 views
•
59 slides
What's hot
(7)
201803NC
Naoki Hayashi
•
599 views
PRML輪読#8
matsuolab
•
6.5K views
多変量解析の一般化
Akisato Kimura
•
3.1K views
PRML輪読#10
matsuolab
•
8.3K views
ベイズ統計学の概論的紹介
Naoki Hayashi
•
78K views
修士論文発表:「非負値行列分解における漸近的Bayes汎化誤差」
Naoki Hayashi
•
523 views
PRML輪読#14
matsuolab
•
11.5K views
More from Kousuke Takeuhi
自己組織化ネットワークについて
Kousuke Takeuhi
1.4K views
•
17 slides
Olearning-prml13
Kousuke Takeuhi
675 views
•
22 slides
Olearning-prml8
Kousuke Takeuhi
460 views
•
25 slides
Olearning-prml6
Kousuke Takeuhi
561 views
•
18 slides
Olearning-prml4
Kousuke Takeuhi
618 views
•
21 slides
Olearning-prml1
Kousuke Takeuhi
386 views
•
19 slides
More from Kousuke Takeuhi
(7)
自己組織化ネットワークについて
Kousuke Takeuhi
•
1.4K views
Olearning-prml13
Kousuke Takeuhi
•
675 views
Olearning-prml8
Kousuke Takeuhi
•
460 views
Olearning-prml6
Kousuke Takeuhi
•
561 views
Olearning-prml4
Kousuke Takeuhi
•
618 views
Olearning-prml1
Kousuke Takeuhi
•
386 views
Data Analysis - Chapter two
Kousuke Takeuhi
•
545 views
Chapter9
1.
CHAPTER 9 ARGUMENTS FROM PROBABILITY
MODELS KOSUKE TAKEUCHI
2.
ランダムなデータを扱うに は ・これまでの解析では、簡単な関数を使って手作業で関数を探し、 関数のべき乗や係数を決定していた。 ・正確にデータのモデルを作成するために、これからいくつかの 「標準的な」モデルを紹介していく。 ・これから紹介するモデルは、あくまでも「典型的で」ランダム なデータのみに当てはまる。したがって、一個のデータなど、 「狭い領域」のデータには適応できない。
3.
CONTENTS ・The Binomal Distribution
and Bernoulli Trials (二項分布とベルヌーイ試行) ・The Gaussian Distribution and Central Limit Theorem (ガウス分布と中心極限定理) ・Power-Law Distributions and Non-Normal Statistics (冪分布と非正規なデータ分布に関する統計学) ・Other Distributions (その他の分布)
4.
1.二項分布とベルヌーイ試 行 ・ベルヌーイ試行は、「成功」と「失敗」の2つの事象を持つ。 ・pが成功する確率で、1-pが失敗する確率 → 単純なモデルだが、多くのデータについて当てはめる事ができ る。
5.
ベルヌーイ試行の例 1. コインを投げて、表が出たら「成功」。 p
= 1/2 2. 公平なサイコロを投げて、1が出たら「成功」。 p = 1/6 2’. 1以外が出たら「成功」と定義しても良い。 p = 5/6 3. 壷にb個の黒い札とr個の赤い札がある。 壷から赤い札を引いたら「成功」。 p = r/(r+b) 4. 2枚のコインを投げて、2枚とも表なら「成功」。 p = 1/4
6.
ベルヌーイ試行の結果は 二項分布の関数に従う。 P(k, n; p)
= (nCk) × p^k × (1-p)^(n-k) ただし、(nCk) = n! / k!(n-k)! : Combination … k回成功、n-k回失敗する確率を表す。 平均値: μ = ∑k*P(k, N; p) = np 分散: σ = √np(1-p) 試行回数が多くなるにつれて、μ ~ n、 σ ~ √n に近づいていく 。
7.
二項分布のグラフ
8.
二項分布のビジネス応用 ベルヌーイ試行を繰り返すと、分布は「Mean-Field (平均場)」に近 づいていく。 →このモデルをコールセンターのスタッフ配置にも適応できる 例えば、1000件オーダーに対し、クレームを1件対処できる場合は(p = 1/1000)、二項分布を使ってスタッフの配置を最適化できる。 k
: クレーム対応に「成功する数」を変化させていくと、kが平均値 npのときに、クレーム対処の成功確率P(k, n; p)が最大になる。 →つまり、100万件のオーダーがくるなら、1,000件くらいのクレー ムが くることを前提としてスタッフを配置すればいい! →分散を考えると、だいたい1,000±30くらいのクレームがくる可能 性大
9.
2.ガウス分布と中心極限定理 ・世の中の多くの分布は「ガウス分布」に従う。 p(x; μ, σ)
= 1/√(2π)σ * exp(-1/2 * (x-μ)/σ) :いわゆるベル・カーブ なぜ多くの分布はガウス分布に従うか?? →「中心極限定理」により証明可能(証明略) 証明の前提 1. ∀Xn; independent 2. ∀Xn ∈ (Common Distribution) 3. μ, σ ≠ ±∞ →nが十分に大きい時、平均がxになる確率はガウス分布に従う
10.
CENTRAL LIMIT THEOREM
11.
ガウス分布を扱う際の注意 点 中心極限定理より、 P(平均値=x) →
p(x; μ, σ/√n) ただし、xは前提をクリアした分布の確率変数 したがって、データの数を10倍すると、分散は 1/√10≒30%減少する 逆に、ガウス分布の分散を10%減らしたい場合は 100倍のデータが必要になる
12.
なぜガウス分布にモデル化するか? ・中心付近にデータが集まっているので、中心部分 に集中するだけでデータの性質がわかるから。 →つまり、重要なデータを中心付近に集めることで、 平均を見つめると私達の大切なデータの多くを見つ めることができる ただし、世の中は「Normal (尋常)」ではない!!
13.
3.冪分布と非正規な分布 (例) ウェブサイトのアクセス情報
14.
冪分布の特徴・例 ・ガウス分布は、「外れ値」を無視して多数派に着目していた →冪分布は外れ値である「ヘビーユーザー」にも着目する! (経済界においては「20:80の法則..パレートの法則」の内、 20の方が多くの利益を生み出すから?) ・例えば、「地震の分布」、「本の厚み」、「紛争の規模」、 「砂の大きさ」、「太陽フレアのレベル」、「人口密度」、「富 の分布」など ・外れ値が大きいので、データを増やすとμは永遠に大きくなる →中心極限定理が適応できない!
15.
その他の分布モデル 1. 幾何分布 → ベルヌーイ試行の狭義版 2.
ポアソン分布 → 二項分布の拡張版 3. 対数正規分布 →
16.
GEOMETRIC DIST. (幾何分布) ・狭義の二項分布 p(k,
p) = p(1-p)^(k-1) : k回目に「成功」する確率 ・μ = 1/p ・σ = √(1-p) / p
17.
POISSON DIST. (ポアソン分布 ) ・二項分布はn回の試行でk回「成功」する確率を扱った →ポアソン分布は事象がλの割合で発生する場合、tの間隔でk回 事象が発生する確率を求めることが可能 p(k,
t, λ) = (λt)^k/k! * exp(-λt) μ = λt σ = √λt
18.
ポアソン分布の応用例 (例) コールセンターで、電話が1時間あたり15件来るとする。 t分の間隔で何件くらい電話が来るか?? λ =
0.25 calls/minutes t = 1のとき、P(k, 1, 0.25)の分布から、0~1件ほどしか電話はかか らない t = 3のとき、P(k, 3, 0.25)の分布から、3~4件ほど電話がかかって くる可能性が高い
19.
LOG-NORMAL DIST. (対数正規分布) 世の中のデータは完全に正規分布に従うわけではない。 例えば、ボクシングでは一瞬で試合が決まる場合は少ない。つま り、数分で試合が決まるときの選手のレベルは高いか低い。 ただし、完全に弱者と強者の試合時間が対称に分布されているわ けではなく、弱者同士のマッチは強者同士のマッチよりも早く終 る。 (弱者はガードが甘いので、すぐにノックアウトされてしまう) したがって、分布は少々対称からずれる。
20.
~μ = log(μ)とすると… σ
:カーブの形を決定する μ :カーブの大きさを決定す る