Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

機械学習基礎(3)(クラスタリング編)

1,329 views

Published on

機械学習の基礎的なプレゼンを行った際のスライド(3)
今回はクラスタリング(凝集型・k-means・混合正規分布・EMアルゴリズム)

Published in: Technology
  • Be the first to comment

機械学習基礎(3)(クラスタリング編)

  1. 1. 機械学習基礎 分類とクラスタリング クラスタリング編
  2. 2. 本シリーズの目的 とりあえずデータを持ってきた 機械学習を使って何かやろう  目的を決めて問題を設定する  問題に対して適切な手法を決定する 万能感! ↑ができるようになる
  3. 3. 今回の範囲 クラスタリング  凝集型クラスタリング  k-meansクラスタリング  混合正規分布によるクラスタリング  (補足) EMアルゴリズム 分類  規則ベース手法  ナイーブベイズ手法  SVM  対数線形モデル 今回はクラスタリングについて!
  4. 4. クラスタリングと 分類
  5. 5. クラスタリングと分類の違い データをいくつかのグループにまとめるのがクラスタリング あらかじめ決まったグループに分けることを分類 クラスタリングはいくつのグループができて、どんな意味を もっているのかは予め明確でない
  6. 6. クラスタリングと分類の違い 例)ある製品に関する“お客様の声”が大量に集まったのでこれ を分析したい。が、これを1つ1つ全て読むのには時間がか かってしまう クラスタリング or 分類して解決してみる
  7. 7. グループ1 グループ2 グループ3 グループ4 類似する文書でまとめる クラスタリング 類似した不満・要望をまとめて そのグループ少数のみを読む 各グループ少量読む
  8. 8. 修理希望 良かった点 各カテゴリに分ける バグ報告 要望 分類 読む人を複数人用意して カテゴリ分けしてすべて読む
  9. 9. クラスタリング
  10. 10. クラスタリングの種類 凝集型クラスタリング k-meansクラスタリング 混合正規分布によるクラスタリング 特に凝集型とk-meansは大したことやってない
  11. 11. 凝集型クラスタリング 単純に似ているもの同士をくっつけて適当なグループにまと まったら終わる 最初に全ての事例に全て異なるクラスタを与え、事例同士の 類似度を定義して、一番高い値のクラスタを結合していく
  12. 12. 適当なクラスタ数になったので終了。
  13. 13. 繋ぎ方 単連結法 完全連結法 重心法 完全連結法はクラスタが長く伸びた鎖のようになるのを 嫌い、単連結法はそれをお構いなしに融合する 重心法はその中間 類似度関数 (2点間の距離とか角度とか)
  14. 14. k-means k-平均法(means) とりあえず適当にk個に分けて、もう少しうまく分けられるよ うなら調整していく クラスタ数kは自分で設定する
  15. 15. 適当に代表ベクトルを決める(k=2)
  16. 16. 近い事例をそのクラスタへ
  17. 17. クラスタ内の事例の平均を代表ベクトルとする
  18. 18. 近い事例をそのクラスタへ
  19. 19. クラスタ内の事例の平均を代表ベクトルとする
  20. 20. 近い事例をそのクラスタへ
  21. 21. クラスタ内の事例の平均を代表ベクトルとする
  22. 22. 全事例が属するクラスタに変更がなかったため終了
  23. 23. 混合正規分布によるクラスタリング k-meansだと、2つのクラスタの中間付近であってもきっち りどちらかに配属されてしまう
  24. 24. 近い事例をそのクラスタへ これ→
  25. 25. 混合正規分布によるクラスタリング k-meansだと、2つのクラスタの中間付近であってもきっち りどちらかに配属されてしまう → 代表ベクトルを再計算するときに、各事例は確率で寄与す ることにする
  26. 26. A B a b c AグループにP(CA|c)だけ寄与 BグループにP(CB|c)だけ寄与 a b c Bグループのみに全て寄与 BグループAグループ k-means 混合正規分布
  27. 27. 混合正規分布によるクラスタリング つまり、『各事例は、各クラスタにおいて正規分布している』 という仮定においてクラスタリングする 複数の正規分布が現れ ているので、 混合正規分布という
  28. 28. 混合正規分布によるクラスタリング k-meansで代表ベクトルmcを再計算するとき、 これを正規分布ではこうする ↑クラスタcの事後確率 (xi がクラスタcに属する確率) ↑P(c) :クラスタcの事前確率 (クラスタcの出現する確率)
  29. 29. 混合正規分布によるクラスタリング 各クラスタ内で正規分布しているので、各事例の事後確率は、 と表される ここで標準偏差σは既知であり、かつクラスタ内で変わらない ものとする mcはクラスタcにおける平均ベクトルである
  30. 30. 混合正規分布によるクラスタリング このとき、クラスタcの事後確率は、 なので、
  31. 31. 混合正規分布によるクラスタリング このとき、クラスタcの事後確率は、 なので、
  32. 32. 混合正規分布によるクラスタリング Q. P(c)ってどうするのよ? A. 適当に決める P(c)はクラスタの事前分布 つまり、あるクラスタcが出現する確率はどうすればいいのか? 全てのクラスタが等しい確率で出現するとすると、 P(c)=1/k(kはクラスタ数)
  33. 33. 混合正規分布によるクラスタリング 収束条件は? k-meansは各事例が属するクラスタが変わらなければ収束する が、混合正規分布によるクラスタリングでは、P(c|x i)の値が微 小に変化し続ける なので収束条件としてパラメータの変化の値が非常に小さく なったら収束とみなす 例えば、 が小さくなったら収束
  34. 34. 補足 EMアルゴリズム
  35. 35. EMアルゴリズム 実はさっきの混合正規分布によるクラスタリングはEMアルゴ リズムというより一般的な枠組みに基いている 普通に最尤推定できないパラメータを2つのステップにわけ て逐次的に求めていくだけ そんなに難しいことはやってない
  36. 36. EMアルゴリズム 観測値をxi、ciとする あるパラメータθがわからないから最尤推定するよ! 観測値ciが欠損してる、または未知である場合 →推定できない!(解析的に求まらない)
  37. 37. EMアルゴリズム じゃあciの期待値を考える これならいけそうだけど重み(確率)wcが分からん →逐次的に計算させて前回のθを使って、その時cである確率 wcを求める cの同時確率が分からないから cの取りうる値全部について計算する
  38. 38. EMアルゴリズム つまり、 と、置き換えることができて、 となるθを逐次的に求めていき、収束したθが最適解! ↓Q関数:Q(θ;θ’)
  39. 39. EMアルゴリズム EMアルゴリズム
  40. 40. EMアルゴリズム まとめると、 EMアルゴリズムは不完全データに対して尤度が大きくなるよ うにパラメータを決定するアルゴリズム 多変数確率分布において、観測されたデータに欠損した変数 が含まれている場合、または未知な変数が隠れていると仮定 した場合に有効である 混合正規分布は欠損変数ciがクラスタで、θが平均ベクトルの 場合にEMアルゴリズムを適用したもの
  41. 41. 参考 自然言語処理シリーズ 1 言語処理のための機械学習入門 奥村学 東工大教授 工博 監修 高村大也 東工大准教授 博士(工学)著

×