集合知プログラミング輪講第3章復習資料

集合知プログラミング輪講-復習資料-３章グループを見つけ出すid:chris4403

目次単語ベクトル階層型クラスタリング列のクラスタリングＫ平均法によるクラスタリングＴａｎｉｍｏｔｏ係数多次元尺度構成法

単語ベクトルブログをクラスタリングするためのデータの準備。ブログ中で使われている単語と出現回数をまとめる。単語の出現率に上限と下限の閾値を儲けることで、全体的な単語の数を減らすことができる。上限 : theなどの単語を除く下限 : マイナーな語やtypoの語を除く

階層型クラスタリングもっとも似ている二つのグループをまとめることを繰り返すことで、グループの階層を作り上げる。デンドログラムと呼ばれるグラフの形式で結果を確認する。

階層型クラスタリングＡＡＡＡＡＢＢＢＢＢＣＣＣＣＣＥＥＥＥＥＤＤＤＤＤ

階層型クラスタリングデンドログラムの例http://d.hatena.ne.jp/ksmemo/20080825/p1

列のクラスタリング行と列の両方をクラスタリングしたい場合は、行と列を入れ換えてクラスタリングを行う。変数の数よりアイテムの数の方が遙かに多い場合は意味をなさないクラスタが多くなる可能性が高い単語の数 > ブログの数なときはブログのクラスタリングの方が興味のある結果が得られやすい

K平均法によるクラスタリングランダムにＫ個の重心（クラスタの中心の点を表す）を配置して、すべてのアイテムで最も近い重心に割り当てる。重心を割り当てた後、それぞれのクラスタの重心を再度計算し直し、アイテムの割り当てを行う。これを繰り返して（ループの回数は決め打ちなことが多い）クラスタを作る

K平均法によるクラスタリング結果の順序は毎回異なる（最初の重心のとりかたによる）階層型クラスタリングと比較して計算が速い

K平均法によるクラスタリングＡＡＡＡＡＢＢＢＢＢＣＣＣＣＣＥＥＥＥＥＤＤＤＤＤ

Tanimoto係数Ｔａｎｉｍｏｔｏ係数 = Ｃ / (Ａ＋Ｂ－Ｃ)ＢＡＣ

多次元尺度構成法データセットを２次元で表現する手法アイテムのすべての組の差を元に、２次元上にアイテムを配置していくデンドログラムほどはっきりとしたクラスタは出現しないが、ある程度のグループは確認することができる

集合知プログラミング輪講 第3章復習資料