Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Bernoulli distribution and multinomial distribution (ベルヌーイ分布と多項分布)

Describes the Bernoulli and multinomial distribution.

  • Be the first to comment

Bernoulli distribution and multinomial distribution (ベルヌーイ分布と多項分布)

  1. 1. ベルヌーイ分布と 多項分布 手塚 太郎 1
  2. 2. 文書と言語と確率分布  今、世界には大量の電子文書が蓄積されている 。   World Wide Web, E-mail, デジタルライブラリ …… 大量の文書から単語の頻度や使われ方など、統 計的なデータを集めることで、人間による「単 語の理解」に近いことを計算機に行わせたい。 人間もたくさんの会話を聞くことによって言語 を習得している。それに近いことを行わせたい →「統計的言語モデル」と呼ばれ、近年盛んになってい  2
  3. 3. 統計的言語モデルの応用例  形態素解析  機械翻訳  情報検索  自然言語理解  文書要約  テキストマイニング 3
  4. 4. 各文書において各単語が現れる確率 を条件付き確率で表現  「文書mにおいて単語tが現れる」を確率的現象 として捉える。つまり以下の確率を考える。 p( wi  t | di m) コーパスにおける位置iの単語wiがt、文書diがm ということを表す。 t5 t4 t2 t1 t3 t4 t3 t9 1, i t3 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 文書m1  文書m2 t3 t1 t2 t9 t3 12, 13, 14 文書m3 単語も文書も離散変数なので、離散分布が使わ れることになる。 4
  5. 5. 離散変数の確率分布 ベルヌーイ分布  二項分布  多項分布  負の二項分布  ポアソン分布   しばらく離散変数の確率分布に関する基礎理 論を説明します。 5
  6. 6. ベルヌーイ分布 6
  7. 7. コインの確率分布 観測される事象は表か裏。  表が出る確率は必ずしも 1/2 とは限らない。  表が出る確率が決まれば裏が出る確率も決まる 。  パラメータとして「表が出る確率」を使う。  「裏が出る確率」をパラメータにしてもよい 。  これは異なる変数をパラメータに使っても同 一の分布を表せることの一例。  7
  8. 8. 表と裏の表現  表が出ることを (1,0)T というベクトル、 裏が出ることを (0,1)T というベクトルで 表す。 x1 1 表が出るということ: x x2 0 裏が出るということ: x x1 0 x2 1 8
  9. 9. 確率のベクトル表現  表が出る確率をμ1、裏が出る確率をμ2で表す。  二つをまとめてベクトルμで表す。 μ 1 2  ただし以下の条件が満たされなくてはならない 。  表が出る確率と裏が出る確率の和は1でなく てはならない。 1 2 1 9
  10. 10. パラメータベクトルの数値の例  表が出る確率が0.51、裏が出る確率が0.49であ る場合、パラメータは以下のようになる。 μ 0.51 0.49 すなわち 1 0.51 2 0.49 10
  11. 11. ベルヌーイ分布  ベルヌーイ分布は観測変数が二値(たとえば表と 裏)である場合の確率分布。 表が出る確率: 裏が出る確率: 1 0 p(x 0 | μ) 1 p(x 1 | μ) 2 11
  12. 12. ベルヌーイ分布を関数で表す  ベルヌーイ分布を x, μ の簡単な関数で表した い。  つまり以下のような確率の値の表ではなく、 ひとつの関数ですべての情報を表現したい。 表が出る確率: 1 p(x | μ) 1 0 裏が出る確率: 0 p(x | μ) 1 2 どのような関数が考えられるだろうか?  ベクトルではなくその成分を使った式でもOK  12
  13. 13. ベルヌーイ分布の関数表現  ベルヌーイ分布は以下の関数で表せる。 2 p(x | μ) xk k x1 1 x2 2 k 1  ただし以下の条件が満たされる必要がある。 2 k 1 k 1 13
  14. 14. ベルヌーイ分布の値  右辺に x = (1,0)T や (0,1)T を代入すると正しい ことが分かる。 x1 x2 p(x | μ) 1 2 表が出る確率: p( x 1 0 | μ) 1 1 0 2 1 0 1 1 2 2 裏が出る確率: p(x 0 1 | μ) 14
  15. 15. ベルヌーイ分布の例  「♥と♠だけから1枚引いた時にどちらが出る か」はベルヌーイ分布で表せる。 x ♥が出るということ: ♠が出るということ: x x1 1 x2 0 x1 0 x2 1 15
  16. 16. ベルヌーイ分布の例  以前は「♥の枚数θ」をパラメータとして使ったが 、今度は「♥の割合μ1」をパラメータとして使う。  異なる変数をパラメータに選んでも同じ分布を表せ ることはよくある。 x1 p(x | μ) 1 x2 2 ♥の枚数が1(つまりθ=1)の場合を試してみると、 μ1 = 1/4 となり、実際に確率が正しく求められてい る。 ♥が出る確率(x1が1): ♠が出る確率(x2が1):  1 1 0 2 1 4 1 3 4 0 1 4 0 1 1 2 1 4 0 3 4 1 3 4 16
  17. 17. ベルヌーイ分布の同時分布  ある特定の順序が出る確率を求めるにはベルヌ ーイ分布を掛け合わせればよい。  「♥, ♠, ♥ が得られる確率」を計算した時にすで に行っている。 N p( X | ) p x1 ,..., x N | μ xi ,1 1 xi , 2 2 i 1 17
  18. 18. ベルヌーイ分布の同時分布の例  θ=1(つまり♥が1枚、 ♠が3枚)の時に♥, ♠, ♥ が得ら れる確率は以下のように表される。  θの代わりにμをパラメータとして使い、現れたスー ト(マーク)もベクトルで表現する。 PX P X H , S, H | 1 1 0 1 , , 0 1 0 |μ 14 34 18
  19. 19. ベルヌーイ分布の同時分布の例  ♥, ♠, ♥ がそれぞれμのもとで条件付き独立で生じ たとみなし、以下のように計算できる。 1 | μ) P(x 2 0 P(x1 1 1 1 4 0 0 2 1 1 3 1 4 4 4 1 3 4 0 3 64 1 2 1 4 0 | μ) P(x 3 1 1 1 0 3 4 1 | μ) 0 0 2 1 1 4 1 3 4 0 19
  20. 20. ベルヌーイ分布のもうひとつの表 現  教科書によってはベルヌーイ分布を以下のよう に表現するので注意。 p( x | μ) x 1 1 x  ここではxはスカラーであり、1か0の値を取る 。  例: 表が出ることを1、裏が出ることを0で 表す。  μもスカラーであり、μ1 が μ に、μ2 が 1-μ に置 き換えられている。 20
  21. 21. 多項分布 21
  22. 22. 多項分布  サイコロの目が出る確率の分布は多項分布という 分布で表せる。それぞれの目が出る確率は異なっ ていてもよい。(1/6でなくてもよい)  1が出る確率をμ1、2が出る確率をμ2、…6が出る 確率をμ6 で表す。ただしμkの和は1でなくてはな K らない。 k 1 k 1  トランプを引く操作で、♥ と ♠ だけでなく、す べてのスート(4種)が入っている場合も多項 22
  23. 23. ベルヌーイ分布と多項分布  ベルヌーイ分布ではx1(表)が出る確率がμ1、x2 (裏)が出る確率がμ2。  多項分布ではx1が出る確率がμ1、x2が出る確率が μ2……、xKが出る確率がμK。  ベルヌーイ分布はK=2の多項分布とみなせる。 23
  24. 24. 1-of-K表現  K種類の離散値を取る確率変数の表現手法  成分のひとつだけが1、残りがすべて0となるK 次元ベクトルで表現する ハートに対応する1-of-K表現 1 x 0 0 0  すなわち x1 1 x2 0 x3 0 x4 0 クラブに対応する1-of-K表現 0 x 0 1 0 すなわち x1 0 x2 0 x3 1 x4 0 パラメータもK次元ベクトルであるので、計算 上の見通しが良くなる。(特にベイズ推定を行24
  25. 25. パラメータのベクトル表現  多項分布のパラメータはK次元のベクトルで表 現できる。 パラメータベクトルの数値の例 0.4 μ 0.1 0. 3 0.2 1 すなわち 2 3 4 0 .4 0 .1 0 .3 0 .2 25
  26. 26. 多項分布を関数で表す  多項分布を x, μ の(簡単な)関数で表したい。  つまり以下のような確率の値の表ではなく、ひと つの関数ですべての情報を表現したい。 iが出る確率: p( xi   1 | μ) i どのような関数が考えられるだろうか? ベクトルではなくその成分を使った式でもOK。 26
  27. 27. 多項分布の関数表現  多項分布は以下の関数で表せる。 K p(x | μ) K xk k k 1 ただし k 1 k 1 ベルヌーイ分布の関数表現の一般化になってい る。  K=2を代入する(つまり二次元のベクトルを考 える)とベルヌーイ分布の関数になる。  ベクトルμがパラメータになっている。  27
  28. 28. 多項分布の本来の範囲  多項分布は本来は「M回試行を行った時、各kに ついてxkがnk回起きる確率の分布」であり、二 項分布の一般化である。 p(n | μ) M! K nk k K nk ! k 1 k 1  ここで扱っているのは「M=1の多項分布」のみで ある。そのため多項係数(括弧の中の部分)は1で あり、nkは0か1にしかならない。 28
  29. 29. 分布の間の関係 ベルヌーイ分布 M=1の多項分布 値の数Kを増やす K>2, M=1 K=2, M=1 p(x | μ) x1 1 K x2 2 p(x | μ) 試行数Mを 増やす 二項分布 M! 2 nk k 2 nk ! k 1 ガウス分布 K=2, M=∞ k 1 試行数Mを 増やす 多項分布 K>2, M>1 K=2, M>1 p(n | μ) xk k k 1 p(n | μ) 試行数Mを無限にし、 回数nではなく割合 xを変数にする M! K nk k K nk ! k 1 k 1 29
  30. 30. 指数分布族  ガウス分布、指数分布、ベルヌーイ分布、多項 分布はいずれも観測変数xが確率密度関数の指 数部分に現れているという共通点がある。 p( x | , p( x | ) 2 1 2 ) e x e x 2 2 2 p(x | μ) p(n | μ) x1 1 M! x2 2 K nk k K nk ! k 1 k 1 このような分布を指数分布族と呼ぶ。  指数分布族に対する最尤法では尤度関数ではな くその対数が最大化されることが多い。 30 
  31. 31. 多項分布のパラメータ の最尤推定 31
  32. 32. 多項分布のパラメータの最尤推定  観測データXからM=1の多項分布のパラメー タμを推定したい。  最尤推定を使う。  ベルヌーイ分布もK=2の場合の多項分布で あるので、同じ方法で推定できる。 32
  33. 33. 離散パラメータと連続パラメータ  離散値パラメータの取り得る値が有限個の場合、 すべての組み合わせの尤度を計算して比較すれば よい。   トランプから引く例では ♥ の枚数θが有限個の種類 しか取れないので、すべて比較すれば良かった。 連続値パラメータではそれができない。そのため に微分を使って極値を求めることになる。 コインの表裏やサイコロの目が出る確率μは0と1の 間の好きな値(連続値)を取ることができる。  無限種類の値があるので、すべてを比較して最大 値を見つけるということができない! 33 
  34. 34. トランプのスートを当てる問題との違 い  トランプを引き、 ♥ が現れた回数から ♥ の枚数 を推定する問題は多項分布(のひとつであるベ ルヌーイ分布)のパラメータに対する最尤推定 だった。  しかし ♥ の枚数(θの取り得る値)が有限種類 しか無いため、μの取り得る値も有限種類しか なく、すべてのθについて尤度 p(x|θ) の大きさ を比べれば良かった。  たとえば無限枚のトランプの中から引く操作を 考えると、θの取り得る値は無限種類あり、す 34
  35. 35. 連続値パラメータに対する最尤法 尤度関数を微分し、0とおいて解く。 または、  ラグランジュ未定乗数法を使って最大化する。   指数分布族に属する確率分布の場合、尤度では なく対数尤度を最大化することが多い。 対数尤度を使った方が計算が容易になる場合に使 う。  対数関数は単調増加のため、log p(x)が最大値を とるxはp(x)についても最大値を与える。  多項分布も指数分布族に属す。 35 
  36. 36. 多項分布のパラメータの最尤推定 量  結論から言うと、μkの最尤推定量は観測データ においてxkが現れた回数Nkの相対的な割合にな る。 N ˆk  k N K N ただしNは試行の総数である。 Nk k 1    例: コインを1万回振って、6000回表が出たのな ら表が出る確率は 0.6。 例: トランプを100回引いて、♥ が70回出たのなら ♥ が占める割合は0.7。 直観的には良さそうだが、最尤推定でもこの値が得 られることを確認する。 36
  37. 37. 独立事象の分布  訓練データでは多数の事象が観測されるが、そ れぞれは確率的に独立に生じるとみなす。  独立な事象の同時確率は各事象の確率の積にな る。(むしろそれが独立性の定義)。  例: 偏りのないコインを3回投げて3回とも表が 出る確率はどう計算するか? → 1/2 を3回掛ければよい。 N p ( z1 ,..., z n ) p ( zi ) i 1 37
  38. 38. 多項分布のパラメータの最尤推定  観測データが複数(N個)の場合、以下のように 定義される尤度関数を最大化すればよい N K p( X | μ) xi ,k k i 1 k 1  Xは1-of-K表現xiを成分として持つベクトルであ り、xi,kはi番目の1-of-K表現の第k成分を表す。 (つまりXはK行N列の行列と考えてもよい)  パラメータは以下の制約を満たさなくてはなら ない。 K k k 1 1 38
  39. 39. 多項分布のパラメータの対数尤度 N K xi ,k k log p ( X | μ) log i 1 k 1 N K K xi ,k log i 1 k 1  N k log k k k 1 xi,kが0か1しか取らないことを利用して、kの出 現回数Nkに置き換えられる。 39
  40. 40. ラグランジュ未定乗数法  以下を満たすμkを求めると、それが制約条件 gj(μ)=0のもとでf(μ)を最大化するμkになってい る。 J L(μ, λ ) f (μ) j g j (μ) j 1 L k 0 L 0 i fは目的関数と呼ばれる。Jは制約条件の個数。  λjは新たに追加される未知数。  未知数が増えているが、方程式の数も増えてい るので解くことができる。 40 
  41. 41. 2次元でのラグランジュ未定乗数 法 μが2次元の時、制約条件の個数は最大1つであり 、J=1となる。  ゆえにλjをスカラーλで表す。  L(μ, ) L f (μ) 0 g (μ) L 0 k 41
  42. 42. ラグランジュ未定乗数法のイメー ジ μが2次元で制約条件がひとつの場合、制約条件 を満たす最大値はある線上でf(μ)の最大値を求 めることを意味する。  赤い曲線で制約条件g(μ)=0を満たす点の集合、 青い線で目的関数f(μ)の値の等高線を表す。  42
  43. 43. ラグランジュ未定乗数法のイメー ジ 曲線g(μ)=0の線上でf(μ)が最大値を取る点では g(μ)=0と等高線の向きが一致している。  これはg(μ)=0の法線ベクトルとf(μ)の勾配 ∂f/∂μが 同じ方向(黒い矢印)を向いていることを意味 する。  g(μ)=0の法線ベクトルの  向きは勾配 ∂g/∂μ である 。なぜなら法線はg(μ)が 最も大きく変化する方向 であり、それは勾配と等 しい。  逆にg(μ)=0に沿ってはg(μ) の大きさが変化しないが 43
  44. 44. ラグランジュ未定乗数法の導出  f(μ)の勾配 ∂f/∂μ とg(μ)=0の法線ベクトル ∂g/∂μ が同じ方向を向いているためには、定数倍の関 係になくてはならない。この係数をλで表す。 f (μ ) μ  Lは以下のように定義されていた。 L(μ)  g (μ) μ f (μ) g (μ) この時、以下が成り立つことが分かる。 L(μ) μ f (μ) μ g (μ) μ 0 44
  45. 45. ラグランジュ未定乗数法の導出  つまり以下を満たすμを求めれば、それが「制 約条件g(μ)=0を満たす中でf(μ)を最大化するμ」 になっている。 L (μ) μ 0 45
  46. 46. 多項分布のパラメータの最尤解  目的関数 f(μ) と制約条件 g(μ) を代入すると、L が以下のように定義される。 K L(μ) K N k log k k k 1  1 k 1 この時、ラグランジュ未定乗数法より以下が得ら れる。 N N L(μ ) k k K k 1 0 k k 以下はμが満たす制約条件 k k 1 1 K K Nk k 1 k k 1 1 46
  47. 47. 多項分布のパラメータの最尤解 1 K Nk 1 1 N 1 N k 1 以下は前スライドで得られた条件 Nk k  k Nk N 最尤解(最尤推定で得られるパラメータの推定 値)として相対頻度を使えばよいことが分かる。 47
  48. 48. ふたたび ♥ の枚数の推定との関係 ♥ の枚数を推定する問題ではθを推定した。  θの最尤解をカードの枚数で割るとμの最尤解にな る。   例:4枚のカードから3回引き、2回 ♥ が出たとす る。 θ の最尤解は3、ゆえに μ の最尤解は 3 / 4。  仮にμが連続値を取れるとした場合のμの最尤推定 量は ♥ の相対出現頻度であり、2 / 3。  ♥ の枚数が整数しか取れないため、相対出現頻度  はμの最尤推定量として使えない。 48
  49. 49. まとめ  離散分布の代表的なものとしてベルヌーイ分布や 多項分布がある。  多項分布における μk の最尤推定量は観測データ における xk の相対出現頻度 Nk / N になる。 49

×