Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
Towards Property-Based Classification of Clustering Paradigms<br />@tksakaki<br />榊 剛史<br />#nipsreading<br />
本論文の目的<br />Properties of Clustering Functions<br />A taxonomy of k-clustering fucntions<br />その他の拡張<br />結論<br />本日アジェンダ<...
本論文の目的<br />Properties of Clustering Functions<br />A taxonomy of k-clustering fucntions<br />その他の拡張<br />結論<br />本日アジェンダ<...
本論文の目的<br />現状の問題点<br />Clustering:データマイニングにおいて、基本的な手法<br />↓<br />・多数のClustering手法が存在+手法によって、結果が大きく異なる<br />・手法の選び方はAd-ho...
本論文の選定理由<br />Clusteringは経験的に提案されている手法が多いため、統一の基準で評価するのは有用っぽい<br />上記のような研究はあまり他で見たことがない<br />個人的に、clusteringへの興味が大きい<br />
A Impossibility Theorem for Clustering<br />Jon Kleinberg, NIPS 2002<br />Measures of Clustering Quality: A Working Set of...
本論文での定義<br />X:有限領域  全てのデータ点集合<br />距離関数<br />データセット:<br />clustering関数:<br />clustering結果<br />
本論文での定義<br />general clustering function F<br />Input:<br />Output: <br />k-clustering function F<br />Input:<br />Output:...
本論文の目的<br />Properties of Clustering Functions<br />A taxonomy of k-clustering fucntions<br />その他の拡張<br />結論<br />本日アジェンダ<...
Isomorphism invariance(同型不変性)<br />入力が同型写像の時、出力されるclusteringも同型<br />
Scale Invariance(スケール不変性)<br />均等なスケーリングを行ったとき、clusteringが不変<br />
Scale Invariance(スケール不変性)<br />均等なスケーリングを行ったとき、clusteringが不変<br />
Order Invariance(順序不変性)<br />2点間距離の順序が不変の時、clusteringが不変<br />
Order Invariance(順序不変性)<br />2点間距離の順序が不変の時、clusteringが不変<br />最短距離法(Single-linkage clustering)<br />0<br />1<br />4<br />9...
Locality(局所性)<br />C’<br />clusteringが、そのcluster集合に含まれる要素のみに依存<br />他のclusterの要素には依存しない<br />
Locality(局所性)<br />clusteringが、そのcluster集合に含まれる要素のみに依存<br />他のclusterの要素には依存しない<br />
Consistency(一貫性)<br />d(x,y)<br />d’(x,y)<br />d(x,y)<br />d’(x,y)<br />cluster内距離を縮めた時、<br />またはcluster間距離を伸ばしたとき、cluster...
Consistency(一貫性)<br />cluster内距離を縮めた時、<br />またはcluster間距離を伸ばしたとき、clusteringは不変<br />同一cluster内が密で、複数cluster間が疎であることを表す<br />
Outer consistency(外的一貫性)<br />cluster間距離を伸ばしたとき、clusteringは不変<br />複数cluster間が疎であることを表す<br />d(x,y)<br />d’(x,y)<br />
Outer consistency(外的一貫性)<br />cluster間距離を伸ばしたとき、clusteringは不変<br />複数cluster間が疎であることを表す<br />
Innter consistency(内的一貫性)<br />cluster内距離を縮めたとき、clusteringは不変<br />同一cluster内が密であることを表す<br />d(x,y)<br />d’(x,y)<br />
Innter consistency(内的一貫性)<br />cluster内距離を縮めたとき、clusteringは不変<br />同一cluster内が密であることを表す<br />
k-Richness<br />距離関数を適切に定義することで任意のclustering可能<br />
Outer richness<br />以下により任意のclustering可能<br />データセット間の距離:定義する<br />データセット内の距離:定義不要<br />※各データセット間が十分疎で、データセット間の距離はclusteri...
Inner richness<br />以下により任意のclustering可能<br />データセット間の距離:定義不要<br />データセット内の距離:定義する<br />※各データセット内が十分密で、データセット間の距離はclusteri...
Threshold-richness<br />距離関数に閾値を設定することで任意のclustering可能<br />
Refinement-confined<br />k≦k’のとき、F(X,d,k’)はF(X,d,k)の改良<br />クラスタ数が多い状態は少ない状態のrefinementである<br />
Refinement-confined<br />k≦k’のとき、F(X,d,k’)はF(X,d,k)の改良<br />クラスタ数が多い状態は少ない状態のrefinementである<br />
properties of clustering functionまとめ<br />
Clusteringの不可能性理論(Kleinberg)<br />Kleinbergの不可能性理論<br />以下の3つの公理を同時に満たす<br />clustering関数は存在しない<br />(証明略)<br />・Scale-Inv...
Kleinbergの不可能性理論<br />single linkage clusteringでは、各公理2つずつの組み合わせにおいて、stop conditionが存在する(らしい)<br />Consistency + Richness: ...
本論文の目的<br />Properties of Clustering Functions<br />A taxonomy of k-clustering fucntions<br />その他の拡張<br />結論<br />本日アジェンダ<...
taxonomy of k-clustering functions<br />
taxonomy of k-clustering functions<br />
taxonomy of k-clustering functions<br />
taxonomy of k-clustering functions<br />
taxonomy of k-clustering functions<br />以下の3つが、clustering指標としてふさわしいのではないか?<br />scale invariance          : natural<br />i...
本論文の目的<br />Properties of Clustering Functions<br />A taxonomy of k-clustering fucntions<br />その他の拡張<br />結論<br />本日アジェンダ<...
Invariance properties<br />Consistency properties<br />Richness properties<br />Locality<br />確率的k-Clustering Functions<br />
代表的なk-meansアルゴリズム<br />Properties DistinguishK-means Heuristics<br />
代表的なk-meansアルゴリズム<br />Properties DistinguishK-means Heuristics<br />出力結果が初期段階に強く依存<br />
Properties DistinguishK-means Heuristics<br />初期クラスター中心の選び方<br />Random Centroids Lloyd<br />ランダムに選択<br />Furthest Centroi...
Properties DistinguishK-means Heuristics<br />
Properties DistinguishK-means Heuristics<br />threshold richnessを満たしているため、Furthest Centroid Lloydの方がRandom Centroid Lloydよ...
Kleinbergの不可能性理論<br />Kleinberg不可能性理論の修正<br />以下の3つを同時に満たすclustering関数は存在しない<br />・Scale-Invariance<br />・Richness<br />・C...
本論文での不可能性理論<br />Kleinbergの不可能性理論の修正<br />以下の3つを同時に満たすclustering関数は存在しない<br />・Scale-Invariance<br />・Richness<br />・Outer...
本論文の目的<br />Properties of Clustering Functions<br />A taxonomy of k-clustering fucntions<br />その他の拡張<br />結論<br />本日アジェンダ<...
結論<br />Clustering Functionのpropertyについて<br />整理・詳細化を行った<br />clustering axiomsとして、scale-invariance, isomorphism-invarianc...
Supervised Clustering<br />2008年に提案された教師つきclusteringの拡張<br />教師=実際にユーザーがclustering結果を見て、merge/splitのクエリをどんどん投げていく感じ<br />E...
nips勉強会_Toward Property-Based Classification of Clustering Paradigms
nips勉強会_Toward Property-Based Classification of Clustering Paradigms
Upcoming SlideShare
Loading in …5
×

nips勉強会_Toward Property-Based Classification of Clustering Paradigms

1,875 views

Published on

Published in: Education, Technology, Business
  • Be the first to comment

  • Be the first to like this

nips勉強会_Toward Property-Based Classification of Clustering Paradigms

  1. 1. Towards Property-Based Classification of Clustering Paradigms<br />@tksakaki<br />榊 剛史<br />#nipsreading<br />
  2. 2. 本論文の目的<br />Properties of Clustering Functions<br />A taxonomy of k-clustering fucntions<br />その他の拡張<br />結論<br />本日アジェンダ<br />
  3. 3. 本論文の目的<br />Properties of Clustering Functions<br />A taxonomy of k-clustering fucntions<br />その他の拡張<br />結論<br />本日アジェンダ<br />
  4. 4. 本論文の目的<br />現状の問題点<br />Clustering:データマイニングにおいて、基本的な手法<br />↓<br />・多数のClustering手法が存在+手法によって、結果が大きく異なる<br />・手法の選び方はAd-hocである<br />本論文の目的<br />○Clustering手法を選択をサポートするためのツール開発のための第一ステップ<br />○既存Clustering手法のpropertyを定義し分類する<br />
  5. 5. 本論文の選定理由<br />Clusteringは経験的に提案されている手法が多いため、統一の基準で評価するのは有用っぽい<br />上記のような研究はあまり他で見たことがない<br />個人的に、clusteringへの興味が大きい<br />
  6. 6. A Impossibility Theorem for Clustering<br />Jon Kleinberg, NIPS 2002<br />Measures of Clustering Quality: A Working Set of Axioms for Clustering<br />M.Ackerman and S.Ben-David, NIPS 2008<br />Characterization of Linkage-based Clustering.<br />M.Ackerman and S.Ben-David, COLT 2010<br />関連研究<br />
  7. 7. 本論文での定義<br />X:有限領域  全てのデータ点集合<br />距離関数<br />データセット:<br />clustering関数:<br />clustering結果<br />
  8. 8. 本論文での定義<br />general clustering function F<br />Input:<br />Output: <br />k-clustering function F<br />Input:<br />Output: <br />
  9. 9. 本論文の目的<br />Properties of Clustering Functions<br />A taxonomy of k-clustering fucntions<br />その他の拡張<br />結論<br />本日アジェンダ<br />
  10. 10. Isomorphism invariance(同型不変性)<br />入力が同型写像の時、出力されるclusteringも同型<br />
  11. 11. Scale Invariance(スケール不変性)<br />均等なスケーリングを行ったとき、clusteringが不変<br />
  12. 12. Scale Invariance(スケール不変性)<br />均等なスケーリングを行ったとき、clusteringが不変<br />
  13. 13. Order Invariance(順序不変性)<br />2点間距離の順序が不変の時、clusteringが不変<br />
  14. 14. Order Invariance(順序不変性)<br />2点間距離の順序が不変の時、clusteringが不変<br />最短距離法(Single-linkage clustering)<br />0<br />1<br />4<br />9<br />10<br />12<br />15<br />19<br />20<br />
  15. 15. Locality(局所性)<br />C’<br />clusteringが、そのcluster集合に含まれる要素のみに依存<br />他のclusterの要素には依存しない<br />
  16. 16. Locality(局所性)<br />clusteringが、そのcluster集合に含まれる要素のみに依存<br />他のclusterの要素には依存しない<br />
  17. 17. Consistency(一貫性)<br />d(x,y)<br />d’(x,y)<br />d(x,y)<br />d’(x,y)<br />cluster内距離を縮めた時、<br />またはcluster間距離を伸ばしたとき、clusteringは不変<br />同一cluster内が密で、複数cluster間が疎であることを表す<br />
  18. 18. Consistency(一貫性)<br />cluster内距離を縮めた時、<br />またはcluster間距離を伸ばしたとき、clusteringは不変<br />同一cluster内が密で、複数cluster間が疎であることを表す<br />
  19. 19. Outer consistency(外的一貫性)<br />cluster間距離を伸ばしたとき、clusteringは不変<br />複数cluster間が疎であることを表す<br />d(x,y)<br />d’(x,y)<br />
  20. 20. Outer consistency(外的一貫性)<br />cluster間距離を伸ばしたとき、clusteringは不変<br />複数cluster間が疎であることを表す<br />
  21. 21. Innter consistency(内的一貫性)<br />cluster内距離を縮めたとき、clusteringは不変<br />同一cluster内が密であることを表す<br />d(x,y)<br />d’(x,y)<br />
  22. 22. Innter consistency(内的一貫性)<br />cluster内距離を縮めたとき、clusteringは不変<br />同一cluster内が密であることを表す<br />
  23. 23. k-Richness<br />距離関数を適切に定義することで任意のclustering可能<br />
  24. 24. Outer richness<br />以下により任意のclustering可能<br />データセット間の距離:定義する<br />データセット内の距離:定義不要<br />※各データセット間が十分疎で、データセット間の距離はclusteringに影響しない<br />
  25. 25. Inner richness<br />以下により任意のclustering可能<br />データセット間の距離:定義不要<br />データセット内の距離:定義する<br />※各データセット内が十分密で、データセット間の距離はclusteringに影響しない<br />
  26. 26. Threshold-richness<br />距離関数に閾値を設定することで任意のclustering可能<br />
  27. 27. Refinement-confined<br />k≦k’のとき、F(X,d,k’)はF(X,d,k)の改良<br />クラスタ数が多い状態は少ない状態のrefinementである<br />
  28. 28. Refinement-confined<br />k≦k’のとき、F(X,d,k’)はF(X,d,k)の改良<br />クラスタ数が多い状態は少ない状態のrefinementである<br />
  29. 29. properties of clustering functionまとめ<br />
  30. 30. Clusteringの不可能性理論(Kleinberg)<br />Kleinbergの不可能性理論<br />以下の3つの公理を同時に満たす<br />clustering関数は存在しない<br />(証明略)<br />・Scale-Invariance<br />・Richness<br />・Consistency<br />
  31. 31. Kleinbergの不可能性理論<br />single linkage clusteringでは、各公理2つずつの組み合わせにおいて、stop conditionが存在する(らしい)<br />Consistency + Richness: only link if distance is less thanr<br />クラスタ間・クラスタ内の距離関数を変えてもclustering結果一定・距離関数を決めると任意のclusterに分割<br />Consistency + SI: stop when you have k connected components<br />クラスタ間・クラスタ内の距離関数を変えてもclustering結果一定/距離関数をスケーリングしてもclustering結果一定<br />Richness + SI: if x is the diameter of the graph, only add edges with weight βx<br />距離関数を決めると任意のclusterに分割/距離関数をスケーリングしてもclustering結果一定<br />
  32. 32. 本論文の目的<br />Properties of Clustering Functions<br />A taxonomy of k-clustering fucntions<br />その他の拡張<br />結論<br />本日アジェンダ<br />
  33. 33. taxonomy of k-clustering functions<br />
  34. 34. taxonomy of k-clustering functions<br />
  35. 35. taxonomy of k-clustering functions<br />
  36. 36. taxonomy of k-clustering functions<br />
  37. 37. taxonomy of k-clustering functions<br />以下の3つが、clustering指標としてふさわしいのではないか?<br />scale invariance : natural<br />isomorphism variance :natural<br />threshold richness <br />   :近いデータ点は同じグループ/遠いデータ点は違うグループ<br />    =clusteringの主目的に合致する<br />
  38. 38. 本論文の目的<br />Properties of Clustering Functions<br />A taxonomy of k-clustering fucntions<br />その他の拡張<br />結論<br />本日アジェンダ<br />
  39. 39. Invariance properties<br />Consistency properties<br />Richness properties<br />Locality<br />確率的k-Clustering Functions<br />
  40. 40. 代表的なk-meansアルゴリズム<br />Properties DistinguishK-means Heuristics<br />
  41. 41. 代表的なk-meansアルゴリズム<br />Properties DistinguishK-means Heuristics<br />出力結果が初期段階に強く依存<br />
  42. 42. Properties DistinguishK-means Heuristics<br />初期クラスター中心の選び方<br />Random Centroids Lloyd<br />ランダムに選択<br />Furthest Centroids Lloyd<br />最も離れた中心群を選択<br />どちらがより良い手法であるかを評価<br />
  43. 43. Properties DistinguishK-means Heuristics<br />
  44. 44. Properties DistinguishK-means Heuristics<br />threshold richnessを満たしているため、Furthest Centroid Lloydの方がRandom Centroid Lloydより優れている<br />
  45. 45. Kleinbergの不可能性理論<br />Kleinberg不可能性理論の修正<br />以下の3つを同時に満たすclustering関数は存在しない<br />・Scale-Invariance<br />・Richness<br />・Consistency<br />
  46. 46. 本論文での不可能性理論<br />Kleinbergの不可能性理論の修正<br />以下の3つを同時に満たすclustering関数は存在しない<br />・Scale-Invariance<br />・Richness<br />・Outer-Consistency<br />
  47. 47. 本論文の目的<br />Properties of Clustering Functions<br />A taxonomy of k-clustering fucntions<br />その他の拡張<br />結論<br />本日アジェンダ<br />
  48. 48. 結論<br />Clustering Functionのpropertyについて<br />整理・詳細化を行った<br />clustering axiomsとして、scale-invariance, isomorphism-invariance, threshold richnessを提案した<br />Kleinbergの不可能性理論について詳細化を行った<br />
  49. 49. Supervised Clustering<br />2008年に提案された教師つきclusteringの拡張<br />教師=実際にユーザーがclustering結果を見て、merge/splitのクエリをどんどん投げていく感じ<br />Efficient Robust Feature Selection via Joint L2,1-Norms Minimization<br />Bio Informaticsでの機械学習のFeature Selection<br />L1,2-normのSVMで必要となるFeatureを選び、計算量を減らすのが目的<br />おまけ〜目を通した論文<br />

×