Ubiquitous Computing Technology Research Institute SungKyunKwan University K-means Clustering 알고리즘을 활용한 가정 전기 사용량 분석 2017....
Ubiquitous Computing Technology Research Institute SungKyunKwan University 서 론 머신러닝 (Machine Learning) 머신러닝의 응용분야 (이메일 스팸여...
Ubiquitous Computing Technology Research Institute SungKyunKwan University 관련연구 • 클러스터링 주어진 데이터들의 특성을 고려해 데이터 집단(Cluster)을...
Ubiquitous Computing Technology Research Institute SungKyunKwan University 본 론 K-means Clustering 알고리즘 3 [수식1] K-means alg...
Ubiquitous Computing Technology Research Institute SungKyunKwan University 본 론 K-means Clustering 알고리즘 (1) - Calinski-Hara...
Ubiquitous Computing Technology Research Institute SungKyunKwan University 본 론 K-means Clustering 알고리즘 (2) - Silhouette_sc...
Ubiquitous Computing Technology Research Institute SungKyunKwan University 본 론 K-means Clustering 알고리즘 (2) - Silhouette_sc...
Ubiquitous Computing Technology Research Institute SungKyunKwan University 7 결 론 • Scikit-learn, Anaconda2 오픈 소스를 가지고 일반인도...
Ubiquitous Computing Technology Research Institute SungKyunKwan University ANACONDA2, Scikit-learn 8 참고 문헌 [1] https://ko....
001 k means clustering 알고리즘을 활용한 가정 전기 사용량 분석-ver0

K-means scikit-learn

  • 클러스터링
    주어진 데이터들의 특성을 고려해 데이터 집단(Cluster)을 정의하고 데이터 집단을 대표할 수 있는 대표점을 찾는 것으로 데이터 마이닝의 한 방법. 클러스터란 비슷한 특성을 가진 데이터들의 집단으로, 데이터의 특성이 다르면 다른 클러스터에 속해야 한다

    Scikit-learn
    Python 모듈로서 광범위한 머신러닝 알고리즘에 대해서 중간 범위의 Supervised, Unsupervised 문제를 해결하는데 사용되는 모듈이다.
  • 실루엣 기법은 간단한 방법으로 하나의 데이터 에 대해, 해당 데이터가 속한 클러스터 내부의 데이터들과의 부동성을 라 하고, 해당 데이터가 속하지 않은 클러스터들의 내부의 데이터들과의 부동성을 라 할 때, 실루엣 가 다음과 같이 계산된다.
    이때 계산된 는 다음의 값을 가진다.
    가 1에 가까울수록 데이터 는 올바른 클러스터에 분류된 것이며, -1에 가까울수록 잘못된 클러스터에 분류되었음을 나타낸다

    1. 1. Ubiquitous Computing Technology Research Institute SungKyunKwan University K-means Clustering 알고리즘을 활용한 가정 전기 사용량 분석 2017. 02. 13 성균관대학교 정보통신대학 최현웅*, 이병준*, 김경태*, 윤희용** ({pooh0216, byungjun}@skku.edu, kyungtaekim76@gmail.com , youn7147@skku.edu)
    2. 2. Ubiquitous Computing Technology Research Institute SungKyunKwan University 서 론 머신러닝 (Machine Learning) 머신러닝의 응용분야 (이메일 스팸여부, 데이터 분류, 연관 규칙 파악, 문자인식 ) 컴퓨터각 스스로 패턴을 찾아내고 새로운 분류체계를 만들어가며 의미있는 결과물을 내놓는 일련의 과정 핵심은 표현(Representation) 과 일반화(Generalization) 본 논문에서는 K-means 알고리즘을 활용하여 Calinski-Harabasz Index와 Silhouette_score 기반으로 최적의 클러스터 개수를 측정한 후, 이를 바탕으로 가정에서의 전기 사용량 분석에 적용해 본다. 1
    3. 3. Ubiquitous Computing Technology Research Institute SungKyunKwan University 관련연구 • 클러스터링 주어진 데이터들의 특성을 고려해 데이터 집단(Cluster)을 정 의하고 데이터 집단을 대표할 수 있는 대표점을 찾는 것으로 데 이터 마이닝의 한 방법. 클러스터란 비슷한 특성을 가진 데이터 들의 집단으로, 데이터의 특성이 다르면 다른 클러스터에 속해야 한다 • Scikit-learn Python 모듈로서 광범위한 머신러닝 알고리즘에 대해서 중간 범위의 Supervised, Unsupervised 문제를 해결하는데 사용 되는 모듈이다. 2
    4. 4. Ubiquitous Computing Technology Research Institute SungKyunKwan University 본 론 K-means Clustering 알고리즘 3 [수식1] K-means algorithm의 정의 [그림1] K=8일 때 Clustering 한 결과
    5. 5. Ubiquitous Computing Technology Research Institute SungKyunKwan University 본 론 K-means Clustering 알고리즘 (1) - Calinski-Harabasz Index 4 - Clustering이 얼마나 잘 되었는가 측정하는 방법으로 여러 측정 방법이 있는데, 그 중 내부 평가 방법으로 Calinski- Harabasz Index, Davies-Bouldin index, Dunn index, 실루엣 기법등 이 있다. - 클러스터의 Calinski-Harabasz Index에서 는 클러스터 분산 평균값과 클러스터 분산의 비율로서 주어진다 - 𝑠 𝑘 = 𝑇𝑟 𝐵 𝑘 𝑇𝑟 𝑊 𝑘 × 𝑁−𝑘 k−1 - 여기서 𝐵 𝑘는 그룹간의 분산 행렬이고 𝑊𝑘는 클러스터 분산 행 렬에 의해 정의된다.
    6. 6. Ubiquitous Computing Technology Research Institute SungKyunKwan University 본 론 K-means Clustering 알고리즘 (2) - Silhouette_score, 5 [수식2] 실루엣 스코어 [그림2] 클러스터수의 변화에 따른 실루엣 스코어
    7. 7. Ubiquitous Computing Technology Research Institute SungKyunKwan University 본 론 K-means Clustering 알고리즘 (2) - Silhouette_score, 6 [그림3] K=7 일 때 Clustering 한 결과[그림1] K=8일 때 Clustering한 결과 • K 가 7일때 Silhouette_score 는 0.799 로 최적의 값을 나타냄. • Calinski-Harabaz Index도 결과 560.3999로 최적의 값을 나타냄.
    8. 8. Ubiquitous Computing Technology Research Institute SungKyunKwan University 7 결 론 • Scikit-learn, Anaconda2 오픈 소스를 가지고 일반인도 쉽게 따라 할수 있으며, BSD 라이센스를 사용하기 때문에 실제 업무에 이용하기에 어려움이 없음을 확인. • K-means알고리즘 뿐만 아니라 PCA 알고리즘, SVM 알고리즘 등 다른 머 신러닝 알고리즘을 이용한 클러스터링 분석도 가능함. • 가정 전력의 요금 부과에 대한 다각도적인 분석과 함께 변압기, 송전탑 등의 사용량에 따른 관리 주기 등을 확인. • 구간별 데이터를 이용하여 전력 사용량에 따른 누진세 부과와 지역, 구간 별 수요 예측, 발전소 및 시설의 유지 보수에 이용가능.
    9. 9. Ubiquitous Computing Technology Research Institute SungKyunKwan University ANACONDA2, Scikit-learn 8 참고 문헌 [1] https://ko.wikipedia.org/wiki/%EA%B8%B0%EA%B3%84_%ED%95%99%EC%8A%B5 [2] http://it.chosun.com/news/article.html?no=2794932 [3] https://ko.wikipedia.org/wiki/K- %ED%8F%89%EA%B7%A0_%EC%95%8C%EA%B3%A0%EB%A6%AC%EC%A6%98 [4] https://ko.wikipedia.org/wiki/%ED%81%B4%EB%9F%AC%EC%8A%A4%ED%84%B0_%EB%B6%84%EC%84%9D [5] https://ko.wikipedia.org/wiki/K- %ED%8F%89%EA%B7%A0_%EC%95%8C%EA%B3%A0%EB%A6%AC%EC%A6%98 [6] https://en.wikipedia.org/wiki/Silhouette_(clustering) [7] https://github.com/sarguido [8] http://archive.ics.uci.edu/ml/datasets.html [9] http://scikit-learn.org/stable/modules/clustering.html#calinski-harabaz-index [10] http://scikit-learn.org/stable/ [10]http://scikit-learn.org/stable/ [11] Kanungo, Tapas et al. “An Efficient k-Means Clustering Algorithm: Analysis and Implementation.” IEEE Trans. Pattern Anal. Mach. Intell. 24 (2002):881-892. [12]David,andSergeiVassilvitskii,“k-means++:Theadvantagesof carefulseeding”ProceedingsoftheeighteenthannualACM-SIAMsymposium onDiscretealgorithms,SocietyforIndustrialandAppliedMathematics(2007):1027-1035

    ×