集合知プログラミング輪講-復習資料-3章 グループを見つけ出すid:chris4403
目次単語ベクトル階層型クラスタリング列のクラスタリングK平均法によるクラスタリングTanimoto係数多次元尺度構成法
単語ベクトルブログをクラスタリングするためのデータの準備。ブログ中で使われている単語と出現回数をまとめる。単語の出現率に上限と下限の閾値を儲けることで、全体的な単語の数を減らすことができる。上限 : theなどの単語を除く下限 : マイナーな語やtypoの語を除く
階層型クラスタリングもっとも似ている二つのグループをまとめることを繰り返すことで、グループの階層を作り上げる。デンドログラムと呼ばれるグラフの形式で結果を確認する。
階層型クラスタリングAAAAABBBBBCCCCCEEEEEDDDDD
階層型クラスタリングデンドログラムの例http://d.hatena.ne.jp/ksmemo/20080825/p1
列のクラスタリング行と列の両方をクラスタリングしたい場合は、行と列を入れ換えてクラスタリングを行う。変数の数よりアイテムの数の方が遙かに多い場合は意味をなさないクラスタが多くなる可能性が高い単語の数 > ブログの数 なときはブログのクラスタリングの方が興味のある結果が得られやすい
K平均法によるクラスタリングランダムにK個の重心(クラスタの中心の点を表す)を配置して、すべてのアイテムで最も近い重心に割り当てる。重心を割り当てた後、それぞれのクラスタの重心を再度計算し直し、アイテムの割り当てを行う。これを繰り返して(ループの回数は決め打ちなことが多い)クラスタを作る
K平均法によるクラスタリング結果の順序は毎回異なる(最初の重心のとりかたによる)階層型クラスタリングと比較して計算が速い
K平均法によるクラスタリングAAAAABBBBBCCCCCEEEEEDDDDD
Tanimoto係数Tanimoto係数 = C / (A+B-C)BAC
多次元尺度構成法データセットを2次元で表現する手法アイテムのすべての組の差を元に、2次元上にアイテムを配置していくデンドログラムほどはっきりとしたクラスタは出現しないが、ある程度のグループは確認することができる

集合知プログラミング輪講 第3章復習資料