機械学習基礎(3)（クラスタリング編）

機械学習基礎
分類とクラスタリング
クラスタリング編

本シリーズの目的
とりあえずデータを持ってきた
機械学習を使って何かやろう
 目的を決めて問題を設定する
 問題に対して適切な手法を決定する
万能感！
↑ができるようになる

今回の範囲
クラスタリング
 凝集型クラスタリング
 k-meansクラスタリング
 混合正規分布によるクラスタリング
 (補足) EMアルゴリズム
分類
 規則ベース手法
 ナイーブベイズ手法
 SVM
 対数線形モデル
今回はクラスタリングについて！

クラスタリングと
分類

クラスタリングと分類の違い
データをいくつかのグループにまとめるのがクラスタリング
あらかじめ決まったグループに分けることを分類
クラスタリングはいくつのグループができて、どんな意味を
もっているのかは予め明確でない

クラスタリングと分類の違い
例）ある製品に関する“お客様の声”が大量に集まったのでこれ
を分析したい。が、これを１つ１つ全て読むのには時間がか
かってしまう
クラスタリング or 分類して解決してみる

グループ1
グループ2
グループ3 グループ4
類似する文書でまとめる
クラスタリング
類似した不満・要望をまとめて
そのグループ少数のみを読む
各グループ少量読む

修理希望良かった点
各カテゴリに分ける
バグ報告要望
分類
読む人を複数人用意して
カテゴリ分けしてすべて読む

クラスタリングの種類
凝集型クラスタリング
k-meansクラスタリング
混合正規分布によるクラスタリング
特に凝集型とk-meansは大したことやってない

凝集型クラスタリング
単純に似ているもの同士をくっつけて適当なグループにまと
まったら終わる
最初に全ての事例に全て異なるクラスタを与え、事例同士の
類似度を定義して、一番高い値のクラスタを結合していく

適当なクラスタ数になったので終了。

繋ぎ方
単連結法
完全連結法
重心法
完全連結法はクラスタが長く伸びた鎖のようになるのを
嫌い、単連結法はそれをお構いなしに融合する
重心法はその中間
類似度関数
(2点間の距離とか角度とか)

k-means
k-平均法(means)
とりあえず適当にk個に分けて、もう少しうまく分けられるよ
うなら調整していく
クラスタ数kは自分で設定する

適当に代表ベクトルを決める（k=２）

近い事例をそのクラスタへ

クラスタ内の事例の平均を代表ベクトルとする

全事例が属するクラスタに変更がなかったため終了

混合正規分布によるクラスタリング
k-meansだと、２つのクラスタの中間付近であってもきっち
りどちらかに配属されてしまう

近い事例をそのクラスタへ
これ→

k-meansだと、２つのクラスタの中間付近であってもきっち
りどちらかに配属されてしまう
→ 代表ベクトルを再計算するときに、各事例は確率で寄与す
ることにする

A B
a b c
AグループにP(CA|c)だけ寄与
BグループにP(CB|c)だけ寄与
a b c
Bグループのみに全て寄与
BグループAグループ
k-means
混合正規分布

つまり、『各事例は、各クラスタにおいて正規分布している』
という仮定においてクラスタリングする
複数の正規分布が現れ
ているので、
混合正規分布という

k-meansで代表ベクトルmcを再計算するとき、
これを正規分布ではこうする
↑クラスタｃの事後確率
（xi がクラスタcに属する確率）
↑P(c) ：クラスタcの事前確率
（クラスタcの出現する確率）

各クラスタ内で正規分布しているので、各事例の事後確率は、
と表される
ここで標準偏差σは既知であり、かつクラスタ内で変わらない
ものとする
mcはクラスタｃにおける平均ベクトルである

このとき、クラスタｃの事後確率は、
なので、

Q. P(c)ってどうするのよ？
A. 適当に決める
P(c)はクラスタの事前分布
つまり、あるクラスタｃが出現する確率はどうすればいいのか？
全てのクラスタが等しい確率で出現するとすると、
P(c)=１/k（kはクラスタ数）

収束条件は？
k-meansは各事例が属するクラスタが変わらなければ収束する
が、混合正規分布によるクラスタリングでは、P(c|x i)の値が微
小に変化し続ける
なので収束条件としてパラメータの変化の値が非常に小さく
なったら収束とみなす
例えば、が小さくなったら収束

EMアルゴリズム
実はさっきの混合正規分布によるクラスタリングはEMアルゴ
リズムというより一般的な枠組みに基いている
普通に最尤推定できないパラメータを２つのステップにわけ
て逐次的に求めていくだけ
そんなに難しいことはやってない

観測値をxi、ciとする
あるパラメータθがわからないから最尤推定するよ！
観測値ciが欠損してる、または未知である場合
→推定できない！（解析的に求まらない）

じゃあciの期待値を考える
これならいけそうだけど重み(確率)wcが分からん
→逐次的に計算させて前回のθを使って、その時ｃである確率
wcを求める
cの同時確率が分からないから
cの取りうる値全部について計算する

つまり、
と、置き換えることができて、
となるθを逐次的に求めていき、収束したθが最適解！
↓Q関数：Q(θ;θ’)

EMアルゴリズム

まとめると、
EMアルゴリズムは不完全データに対して尤度が大きくなるよ
うにパラメータを決定するアルゴリズム
多変数確率分布において、観測されたデータに欠損した変数
が含まれている場合、または未知な変数が隠れていると仮定
した場合に有効である
混合正規分布は欠損変数ciがクラスタで、θが平均ベクトルの
場合にEMアルゴリズムを適用したもの

参考
自然言語処理シリーズ 1
言語処理のための機械学習入門
奥村学東工大教授工博監修
高村大也東工大准教授博士(工学)著

機械学習基礎(3)（クラスタリング編）

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Viewers also liked

Viewers also liked (20)

Recently uploaded

Recently uploaded (9)

機械学習基礎(3)（クラスタリング編）

Editor's Notes