class
Upcoming SlideShare
Loading in...5
×
 

class

on

  • 664 views

 

Statistics

Views

Total Views
664
Views on SlideShare
566
Embed Views
98

Actions

Likes
0
Downloads
1
Comments
0

1 Embed 98

http://mj89sp3sau2k7lj1eg3k40hkeppguj6j-a-sites-opensocial.googleusercontent.com 98

Accessibility

Categories

Upload Details

Uploaded via as Adobe PDF

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

    class class Presentation Transcript

    • 3.クラスタリング 山形祐輝
    • 3-1.準備・クラスタリングとは似ている文や単語を1つのグループにまとめること。ただし、どのようなグループになるかは決められない。出来上がったグループのことをクラスタと呼ぶ。・学習、学習データデータD={d1,d2,…,d|D|}が与えられ、各事例がそれぞれx(1),x(2),…,x(|D|) で表現されているとき、ここから何らかのモデルや処理手段を導くことを学習という。また、学習に用いるデータを学習データという。
    • 3-2.凝集型クラスタリング・凝集型クラスタリングとは単純に似たもの同士をくっつけるという直感的な方法。下から上に向かって進みながら、樹形図を作っていく。比べる対象が片方でも複数のベクトルからなる場合の計算は自明ではない。したがって、クラスタ同士の類似度が定義されている必要がある。
    • 3-2.凝集型クラスタリング・アルゴリズム入力:事例集合D={x(1),x(2),…,x(|D|)}C={c1,c2,…,c|D|}#1つのクラスタに1つの事例を割り当てるc1={x(1)},c2={x(2)},…,c|D|={x(|D|)}while|C|≧2 #停止条件 #最も似ているクラスタ対を見つける (cm,cn)=arg max(ci,cj∈C) sim(ci,cj) #見つかったクラスタ対を融合させる merge(cm,cn)end while
    • 3-2.凝集型クラスタリング・類似度測定法①単連結法二つのクラスタが与えられたとき、その中で最も近い事例対の類似度を、その二つのクラスタの類似度とする方法。sim(ci,cj)=max sim(xk,xl) ②完全連結法二つのクラスタが与えられたとき、その中で最も遠い事例対の類似度を、その二つのクラスタの類似度とする方法。sim(ci,cj)=min sim(xk,xl)③重心法二つのクラスタが与えられたとき、それらの重心ベクトル間の類似度を、その二つのクラスタの類似度とする方法。sim(ci,cj)=sim(1/|ci|Σx,1/|cj|Σx)
    • 3-3.k-平均法・k-平均法とはユーザがクラスタ数kを事前に決定し、とりあえず適当にわけてしまい、それからうまく分かれるように調整する方法。各クラスタは平均ベクトルなどの代表ベクトルで表現される。k-平均法は初期値によって結果が変化するため、適切な初期値を設定することで計算時間を減少させ、より良い結果を得ることができる。
    • 3-3.k-平均法・アルゴリズム入力:事例ベクトル集合D={x(1),x(2),…,x(|D|)} :クラスタ数k無作為にm1,m2,…,mkを決定。until 収束 foreach x(i)∈D ∀c,cmax=arg max sim(x(i),mc)#事例ベクトルの分割 insert x(i) into cmax end foreach ∀c,mc=1/|c|Σx(i)#代表ベクトルを再計算end until
    • 3-4.混合正規分布によるクラスタリングk-平均法において「ベクトルを分ける」ステップで、事例ベクトルに各クラスタに属する確率を与える。d次元の事例ベクトルをx(i),クラスタをcとすればP(c|x(i))を計算する事になる。P(c|x(i))をクラスタの事後確率と呼び,どのような確率値が与えられるかは、どのような確率分布を考えるか次第である。
    • 3-5.EMアルゴリズムEM(Expectation-Maximization)アルゴリズムは一般的な枠組みである。各事例x(i)が属するクラスタが分かっていたとすると、対数尤度ΣlogP(c,x(i);θ)を最大化することにより、パラメータが計算できるが、実際はcは未知である。代わりにP(c|x(i);θ)が計算されているので、logP(c,x(i);θ)=ΣP(c|x(i);θ)logP(c,x(i);θ)となりEMアルゴリズムでは、 Q(θ;θ)=ΣΣP(c|x(i);θ)logP(c,x(i);θ)を最大とするようなパラメータθを繰り返し見つけていく。
    • 3-5.EMアルゴリズム・アルゴリズム入力:不完全データDθの初期値は無作為に決めるuntil 収束 Eステップ:任意のx(i)←D,任意のcについてP(c|x(i);θ)を計算 Mステップ:θmax=arg max Q(θ;θ) θ=θmaxend until