Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

K-Means Clustering

346 views

Published on

K-Means Clustering

Published in: Data & Analytics
  • Be the first to comment

K-Means Clustering

  1. 1. K‑Means Clustering
  2. 2. K‑Means Clustering 클러스터내부에속한데이터들의거리를비교 가장가까운내부거리를갖는클러스터를찾기 Input: K(클러스터수), D(데이터집합) Output: K개의클러스터
  3. 3. 데이터집합에서K개의데이터를임의로추출(Random Initialize) 하여 각 클러스터의중심(Centroid)으로설정 각 데이터들에대해K개의중심점과의거리를구하고 가장가까운중심점 에클러스터할당
  4. 4. 할당된클러스터를기준으로중심점을다시계산(평균 값 계산) 앞서진행한과정을반복 데이터의클러스터가 바뀌지않거나지정한반복수를채우면학습종료
  5. 5. K‑Means Clustering 거리(유사도) 측정방법? 초기 클러스터의중심점을설정하는방식? K의개수를몇으로설정해야하는가? 클러스터링이얼마나잘되었는지평가를어떻게?
  6. 6. Distance Metrics Euclidean Distance (L2) / Manhattan Distance (L1)
  7. 7. Distance Metrics 일반적으로Euclidean 공간에있다고 가정, L2 Distance 사용 Robustness: L1 > L2 K‑Means가 outlier에취약하기 때문에median을찾는방법 (Robustness 개선) K‑Median 알고리즘은L1 Distance를사용
  8. 8. Initial Centroid 초기 값 위치에따라원하는결과가 나오지않을수있음 설정하는방식이중요  Random 방식은local optima에빠질위험이있음(여러번돌리자) 대부분구현체는K‑Means++ Algorithm을기본으로적용하고 있음
  9. 9. k‑means++: The Advantages of Careful Seeding Random initial centroid at first Calculate distance, D(x) Choose next centroid from D(x)^2 centroid가 밀집되지않도록outlier는피하면서k개의초기 값을결정
  10. 10. Choosing the value of K
  11. 11. Choosing the value of K
  12. 12. Evaluation Internal Evaluation 결과를보고 클러스터간 유사도를기준으로평가 서로멀리떨어져있고, 내부에서는가까이있는것이높은점수 Davies‑Bouldin Index, Dunn Index External Evaluation 클러스터링에사용되지않은데이터로평가 TRUE에해당하는정답셋을평가 기준으로삼아정확도를평가 Rand Measure, F‑Measure, Jaccard Index
  13. 13. Spark 2.3 ClusteringEvaluator https://issues.apache.org/jira/browse/SPARK‑14516 Spark 2.3 버전에새롭게 추가된Evaluator 현재는 Silhouette Metric 만지원

×