Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Clustering, k means algorithm

1,601 views

Published on

About Clustering, k means algorithm

Published in: Data & Analytics
  • Be the first to comment

  • Be the first to like this

Clustering, k means algorithm

  1. 1. Clustering, K-Means Algorithm 박준영
  2. 2. Clustering 1. Clustering 2. K-Means Algorithm 3. Score & Evaluation
  3. 3. Clustering
  4. 4. Clustering
  5. 5. Clustering Preprocess Training Score Evaluate “클러스터링은 주어진 데이터를 가장 잘 설명하는 클러스터를 찾아내는 것이 목적 (Optimization)”
  6. 6. K-Means Algorithm K - 평균 알고리즘 ‘가장 가까운’ 내부 거리를 가지는 클러스터를 찾는다 클러스터 내부에 속한 데이터들의 거리를 비교
  7. 7. K-Means Algorithm K - 평균 알고리즘 Output : K개의 클러스터 Input : K (클러스터 수), D (데이터 집합)
  8. 8. K-Means Algorithm 1. 데이터 집합에서 K개의 데이터를 임의로 추출 (Random Initialize) 하여 각 클러스터의 중심 (Centroid)으로 설정
  9. 9. K-Means Algorithm 2. 각 데이터들에 대해 K개의 중심점과의 거리를 구하고 가장 유사도가 높은 중심점에 할당
  10. 10. K-Means Algorithm 3. 할당된 클러스터를 기준으로 중심점을 다시 계산한다 (평균 값 계산)
  11. 11. K-Means Algorithm 4. 각 데이터의 클러스터가 바뀌지 않을 때까지 반복한다
  12. 12. K-Means Algorithm K - 평균 알고리즘 이슈 1. 거리 (유사도) 측정 방법? 2. 초기 클러스터의 중심점을 설정하는 방식? (K-Means의 약점) 3. K의 개수를 몇으로 설정해야 하는가? 4. 클러스터링이 얼마나 잘 되었는지 평가를 어떻게?
  13. 13. 1. 유사도 측정 방법 Euclidean Distance (L2)
  14. 14. Manhattan Distance (L1) 1. 유사도 측정 방법
  15. 15. Random Initialize – Local Optima problem 2. 클러스터의 중심점
  16. 16. “K-Means++ Algorithm” 2. 클러스터의 중심점 1. Random initial centroid 2. Calculate distance, D(x) 3. Choose next centroid from D(x)2 “2007. k-means++: The Advantages of Careful Seeding” 논문 참조
  17. 17. 2. 클러스터의 중심점 O(n) → O(logk)
  18. 18. 2. 클러스터의 중심점 Sklearn.cluster.KMeans는 기본 값으로 K-Means++를 사용
  19. 19. 3. K의 개수 설정 Using Elbow Method
  20. 20. Using Domain Based 3. K의 개수 설정
  21. 21. 4. 클러스터링 검증방법 1. 내부 평가 (Internal Evaluation)  Davies-Bouldin Index, Dunn Index 2. 외부 평가 (External Evaluation)  Rand Measure, F-Measure, Jaccard Index
  22. 22. 4. 클러스터링 검증방법 Sklearn.metrics.silhouette_score

×