SlideShare a Scribd company logo
1 of 61
0고려대학교 응용통계학과 DataMining Lab
학내 망 자원 효율화 방안 연구
2014. 11. 7. (금)
고려대학교 응용통계학과 DataMining Lab
빅데이터 트래픽 분석을 통한
1고려대학교 응용통계학과 DataMining Lab 1고려대학교 응용통계학과 DataMining Lab
Contents
빅데이터 트래픽 분석을 통한
학내 망 자원 효율화 방안 연구
I. 학내 망 트래픽의 시공간적 사용 행태
II. 유/무선 네트워크 트래픽 발생량 분석
III. 토렌트 트래픽 분석
IV. 클러스터링을 이용한 토렌트 사용자 분류
V. Network 트래픽 데이터를 활용한 수업 참여도/집중도 분석
2고려대학교 응용통계학과 DataMining Lab 2고려대학교 응용통계학과 DataMining Lab
IV. 클러스터링을 이용한 토렌트 사용자 분류
빅데이터 트래픽 분석을 통한
학내 망 자원 효율화 방안 연구
1. 분석 목적
▶ 교내에서 발생하는 토렌트 네트워크 데이터를 추출하여 요일별, 시간별 사용량을 이용하
여 클러스터를 생성한다. 클러스터간의 특징을 파악하여 특별한 주의가 필요한 클러스터와
sip를 파악하여 학내망 네트워크 효율화 방안 제시.
Use clustering to classify sip by Torrent usage
2. 분석 개요
(1) 분석 기간 : 2013년 1,2학기 토렌트로 분류된 플로우 데이터
(2) 각 sip 별 토렌트 플로우 수, 다운받는 양 (i_octet), 업로드 양 (o_octet) 추출
(3) 요일별 (주7일), 시간별 (일24시간)으로 데이터를 분류하여 추출
(4) 각 sip 별 24 x 7 x 3, 504개의 변수 생성
3고려대학교 응용통계학과 DataMining Lab 3고려대학교 응용통계학과 DataMining Lab
IV. 클러스터링을 이용한 토렌트 사용자 분류
빅데이터 트래픽 분석을 통한
학내 망 자원 효율화 방안 연구
3. 분석 절차
HDFS에서 토렌트
네트워크 사용
데이터 추출
클러스터링을
위하여 R에서
데이터 변형
Log 변형을
통하여 데이터를
정규화
Total within sum of
squares (WSS) 와
Calinski-Harabasz index
(CH) 을 이용하여
클러스터 개수 추정
Principal Component
Analysis (PCA)를
이용하여 시각적으로
클러스터 개수 확인
Bootstrap을 이용하여
kmeans 클러스터를
10,000번 생성하여
클러스터의 유효성 확인
Heatmap을 이용하여
각클러스트의 특징을
시각적으로 표시
4고려대학교 응용통계학과 DataMining Lab 4고려대학교 응용통계학과 DataMining Lab
IV. 클러스터링을 이용한 토렌트 사용자 분류
빅데이터 트래픽 분석을 통한
학내 망 자원 효율화 방안 연구
3. 분석 절차 (Total Within Sum of Squares, WSS)
▶ WSS는 클러스터의 중심점(centroid)과 클러스터를 이루는 데이터포인트간의 거리를 합한
숫자로, 클러스터의 개수를 정하는데 유용하다. 클러스터의 개수가 늘어나면서 WSS가 줄어
들기 때문에 WSS가 급격히 줄어들 때를 찾아야 한다.
5고려대학교 응용통계학과 DataMining Lab 5고려대학교 응용통계학과 DataMining Lab
IV. 클러스터링을 이용한 토렌트 사용자 분류
빅데이터 트래픽 분석을 통한
학내 망 자원 효율화 방안 연구
3. 분석 절차 (Calinski-Harabasz Index, CH)
B는 클러스터간의 거리를 나타내는 메트릭스, W는 클러스터안의 데이터포인트간의 거리를 나타내느 메트
릭스, n은 총 데이터포인트 개수, K는 클러스터의 개수, zk 는 클러스터의 중심점
Caliński, Tadeusz, and Jerzy Harabasz. "A dendrite method for cluster analysis." Communications in Statistics-theory and
Methods 3.1 (1974): 1-27.
▶ CH는 클러스터간의 분산과 전체데이터포인의 분산의 비율이다. 분자에 해당하는 부분이
클러스터의 중심점과 전체데이터의 중심점과의 분산을 계산하고 분모에 해당하는 부분이 각
데이터포인트와 클러스터중심점과의 분산을 계산한다.
6고려대학교 응용통계학과 DataMining Lab 6고려대학교 응용통계학과 DataMining Lab
IV. 클러스터링을 이용한 토렌트 사용자 분류
빅데이터 트래픽 분석을 통한
학내 망 자원 효율화 방안 연구
3. 분석 절차 (Principal Component Analysis, PCA)
▶ 자료가 4차원 이상일 경우 시각적으로 데이터가 어떻게 생겼는지 알아보기가 힘들다.
PCA는 고차원의 자료에서 전체자료를 나타낼 수 있는 주요인 벡터 (Principal Component)를
구하여 고차원의 자료를 2차원 공간으로 끌어내리는 기능을 한다.
Wold, Svante, Kim Esbensen, and Paul Geladi. "Principal component analysis." Chemometrics and intelligent laboratory
systems 2.1 (1987): 37-52.
7고려대학교 응용통계학과 DataMining Lab 7고려대학교 응용통계학과 DataMining Lab
IV. 클러스터링을 이용한 토렌트 사용자 분류
빅데이터 트래픽 분석을 통한
학내 망 자원 효율화 방안 연구
4. 토렌트 트래픽 현황 (한 개의 sip)
8고려대학교 응용통계학과 DataMining Lab 8고려대학교 응용통계학과 DataMining Lab
IV. 클러스터링을 이용한 토렌트 사용자 분류
빅데이터 트래픽 분석을 통한
학내 망 자원 효율화 방안 연구
4. 토렌트 트래픽 현황 (한 개의 sip)
9고려대학교 응용통계학과 DataMining Lab 9고려대학교 응용통계학과 DataMining Lab
IV. 클러스터링을 이용한 토렌트 사용자 분류
빅데이터 트래픽 분석을 통한
학내 망 자원 효율화 방안 연구
4. 토렌트 트래픽 현황 (한 개의 sip)
10고려대학교 응용통계학과 DataMining Lab 10고려대학교 응용통계학과 DataMining Lab
IV. 클러스터링을 이용한 토렌트 사용자 분류
빅데이터 트래픽 분석을 통한
학내 망 자원 효율화 방안 연구
4. 토렌트 트래픽 현황 (사용자별)
교직원, SIP FREQ = 679
11고려대학교 응용통계학과 DataMining Lab 11고려대학교 응용통계학과 DataMining Lab
IV. 클러스터링을 이용한 토렌트 사용자 분류
빅데이터 트래픽 분석을 통한
학내 망 자원 효율화 방안 연구
4. 토렌트 트래픽 현황 (사용자별)
연구원, SIP FREQ = 1897
12고려대학교 응용통계학과 DataMining Lab 12고려대학교 응용통계학과 DataMining Lab
IV. 클러스터링을 이용한 토렌트 사용자 분류
빅데이터 트래픽 분석을 통한
학내 망 자원 효율화 방안 연구
4. 토렌트 트래픽 현황 (건물별)
K건물, SIP FREQ = 110
13고려대학교 응용통계학과 DataMining Lab 13고려대학교 응용통계학과 DataMining Lab
IV. 클러스터링을 이용한 토렌트 사용자 분류
빅데이터 트래픽 분석을 통한
학내 망 자원 효율화 방안 연구
4. 토렌트 트래픽 현황 (건물별)
K건물, SIP FREQ = 110
14고려대학교 응용통계학과 DataMining Lab 14고려대학교 응용통계학과 DataMining Lab
IV. 클러스터링을 이용한 토렌트 사용자 분류
빅데이터 트래픽 분석을 통한
학내 망 자원 효율화 방안 연구
4. 토렌트 트래픽 현황 (건물별)
B건물, SIP FREQ = 606
15고려대학교 응용통계학과 DataMining Lab 15고려대학교 응용통계학과 DataMining Lab
IV. 클러스터링을 이용한 토렌트 사용자 분류
빅데이터 트래픽 분석을 통한
학내 망 자원 효율화 방안 연구
4. 토렌트 트래픽 현황 (건물별)
B건물, SIP FREQ = 606
16고려대학교 응용통계학과 DataMining Lab 16고려대학교 응용통계학과 DataMining Lab
IV. 클러스터링을 이용한 토렌트 사용자 분류
빅데이터 트래픽 분석을 통한
학내 망 자원 효율화 방안 연구
4. 토렌트 트래픽 현황 (건물별)
C건물, SIP FREQ = 446
17고려대학교 응용통계학과 DataMining Lab 17고려대학교 응용통계학과 DataMining Lab
IV. 클러스터링을 이용한 토렌트 사용자 분류
빅데이터 트래픽 분석을 통한
학내 망 자원 효율화 방안 연구
4. 토렌트 트래픽 현황 (건물별)
C건물, SIP FREQ = 446
18고려대학교 응용통계학과 DataMining Lab 18고려대학교 응용통계학과 DataMining Lab
IV. 클러스터링을 이용한 토렌트 사용자 분류
빅데이터 트래픽 분석을 통한
학내 망 자원 효율화 방안 연구
4. 토렌트 트래픽 현황 (학과별)
A학과, SIP FREQ = 243
19고려대학교 응용통계학과 DataMining Lab 19고려대학교 응용통계학과 DataMining Lab
IV. 클러스터링을 이용한 토렌트 사용자 분류
빅데이터 트래픽 분석을 통한
학내 망 자원 효율화 방안 연구
4. 토렌트 트래픽 현황 (학과별)
M학과, SIP FREQ = 252
20고려대학교 응용통계학과 DataMining Lab 20고려대학교 응용통계학과 DataMining Lab
IV. 클러스터링을 이용한 토렌트 사용자 분류
빅데이터 트래픽 분석을 통한
학내 망 자원 효율화 방안 연구
4. 토렌트 트래픽 현황 (학과별)
F학과, SIP FREQ = 416
21고려대학교 응용통계학과 DataMining Lab 21고려대학교 응용통계학과 DataMining Lab
IV. 클러스터링을 이용한 토렌트 사용자 분류
빅데이터 트래픽 분석을 통한
학내 망 자원 효율화 방안 연구
4. 토렌트 트래픽 현황 (학과별)
G학과, SIP FREQ = 120
22고려대학교 응용통계학과 DataMining Lab 22고려대학교 응용통계학과 DataMining Lab
IV. 클러스터링을 이용한 토렌트 사용자 분류
빅데이터 트래픽 분석을 통한
학내 망 자원 효율화 방안 연구
5. 클러스터 개수 파악 (전체 SIP)
23고려대학교 응용통계학과 DataMining Lab 23고려대학교 응용통계학과 DataMining Lab
IV. 클러스터링을 이용한 토렌트 사용자 분류
빅데이터 트래픽 분석을 통한
학내 망 자원 효율화 방안 연구
5. 클러스터 개수 파악 (전체 SIP)
24고려대학교 응용통계학과 DataMining Lab 24고려대학교 응용통계학과 DataMining Lab
IV. 클러스터링을 이용한 토렌트 사용자 분류
빅데이터 트래픽 분석을 통한
학내 망 자원 효율화 방안 연구
5. 클러스터 개수 파악 (전체 SIP)
25고려대학교 응용통계학과 DataMining Lab 25고려대학교 응용통계학과 DataMining Lab
IV. 클러스터링을 이용한 토렌트 사용자 분류
빅데이터 트래픽 분석을 통한
학내 망 자원 효율화 방안 연구
5. 클러스터 개수 파악 (전체 SIP)
26고려대학교 응용통계학과 DataMining Lab 26고려대학교 응용통계학과 DataMining Lab
IV. 클러스터링을 이용한 토렌트 사용자 분류
빅데이터 트래픽 분석을 통한
학내 망 자원 효율화 방안 연구
6. 분석 결과 (전체 SIP)
Cluster bootmean Freq 학생 연구원 교직원 Unknown
1 0.84231602 76 11 39 22 4
2 0.956772385 86 15 66 5 0
3 0.80758649 91 8 69 7 7
4 0.773137309 273 72 110 23 68
5 0.651975271 101 25 55 6 15
6 0.985097071 3314 878 578 246 1612
7 0.6923838 170 40 58 60 12
Total 4111 1010 970 369 1722
▶ Bootstrap을 이용하여 클러스터를 10,000번 형성한다. Bootmean은 해당되는 클러스터가
몇번 형성이 되는지 비율로 나타난것이다. 숫자가 1에 가까울수록 클러스터의 유효성이 인정
된다. 클러스터 5와7은 유효성이 떨어진다.
27고려대학교 응용통계학과 DataMining Lab 27고려대학교 응용통계학과 DataMining Lab
IV. 클러스터링을 이용한 토렌트 사용자 분류
빅데이터 트래픽 분석을 통한
학내 망 자원 효율화 방안 연구
6. 분석 결과 (전체 SIP)
Cluster Freq B학과 D학과 I학과 J학과 M학과 G학과 A학과 H학과 C학과 K학과 F학과 E학과 L학과 N학과
1 76 7 3 5 6 1 3 5 5 0 3 7 2 2 27
2 86 4 8 2 0 0 3 1 9 2 5 26 2 6 18
3 91 6 2 5 4 0 1 5 12 4 5 6 9 7 25
4 273 22 14 2 12 0 4 10 10 1 7 20 10 4 157
5 101 6 4 1 4 0 4 3 10 1 4 12 4 1 47
6 3314 179 98 25 15 6 60 131 112 36 52 148 48 15 2389
7 170 19 5 1 1 2 2 22 10 1 4 8 7 1 87
4111 243 134 41 42 9 77 177 168 45 80 227 82 36 2750
28고려대학교 응용통계학과 DataMining Lab 28고려대학교 응용통계학과 DataMining Lab
IV. 클러스터링을 이용한 토렌트 사용자 분류
빅데이터 트래픽 분석을 통한
학내 망 자원 효율화 방안 연구
6. 분석 결과 (전체 SIP)
Cluster Freq K건물 C건물 H건물 I건물 G건물 A건물 B건물 F건물 E건물 D건물 J건물 L건물
1 76 2 5 7 0 5 25 12 4 3 6 3 4
2 86 1 1 4 0 1 31 32 2 13 0 1 0
3 91 4 1 6 0 5 40 15 1 9 2 1 7
4 273 11 9 22 0 10 57 27 10 46 7 6 68
5 101 3 4 6 0 3 23 22 5 4 3 13 15
6 3314 27 263 179 0 131 388 227 58 260 112 57 1612
7 170 1 21 19 0 22 30 12 8 17 24 4 12
Total 4111 49 304 243 0 177 594 347 88 352 154 85 1718
29고려대학교 응용통계학과 DataMining Lab 29고려대학교 응용통계학과 DataMining Lab
IV. 클러스터링을 이용한 토렌트 사용자 분류
빅데이터 트래픽 분석을 통한
학내 망 자원 효율화 방안 연구
6. 분석 결과 (전체 SIP, Cluster 1: 교직원 스타일)
30고려대학교 응용통계학과 DataMining Lab 30고려대학교 응용통계학과 DataMining Lab
IV. 클러스터링을 이용한 토렌트 사용자 분류
빅데이터 트래픽 분석을 통한
학내 망 자원 효율화 방안 연구
6. 분석 결과 (전체 SIP, Cluster 2: Heavy User 스타일)
31고려대학교 응용통계학과 DataMining Lab 31고려대학교 응용통계학과 DataMining Lab
IV. 클러스터링을 이용한 토렌트 사용자 분류
빅데이터 트래픽 분석을 통한
학내 망 자원 효율화 방안 연구
6. 분석 결과 (전체 SIP, Cluster 3: Heavy 교직원 스타일)
32고려대학교 응용통계학과 DataMining Lab 32고려대학교 응용통계학과 DataMining Lab
IV. 클러스터링을 이용한 토렌트 사용자 분류
빅데이터 트래픽 분석을 통한
학내 망 자원 효율화 방안 연구
6. 분석 결과 (전체 SIP, Cluster 4: Weekend 스타일)
33고려대학교 응용통계학과 DataMining Lab 33고려대학교 응용통계학과 DataMining Lab
IV. 클러스터링을 이용한 토렌트 사용자 분류
빅데이터 트래픽 분석을 통한
학내 망 자원 효율화 방안 연구
6. 분석 결과 (전체 SIP, Cluster 5: 수요일 집중 스타일)
34고려대학교 응용통계학과 DataMining Lab 34고려대학교 응용통계학과 DataMining Lab
IV. 클러스터링을 이용한 토렌트 사용자 분류
빅데이터 트래픽 분석을 통한
학내 망 자원 효율화 방안 연구
6. 분석 결과 (전체 SIP, Cluster 6: Minimalist 스타일)
35고려대학교 응용통계학과 DataMining Lab 35고려대학교 응용통계학과 DataMining Lab
IV. 클러스터링을 이용한 토렌트 사용자 분류
빅데이터 트래픽 분석을 통한
학내 망 자원 효율화 방안 연구
6. 분석 결과 (전체 SIP, Cluster 7: 십자가 스타일)
36고려대학교 응용통계학과 DataMining Lab 36고려대학교 응용통계학과 DataMining Lab
IV. 클러스터링을 이용한 토렌트 사용자 분류
빅데이터 트래픽 분석을 통한
학내 망 자원 효율화 방안 연구
5. 클러스터 개수 파악 (학생 SIP)
37고려대학교 응용통계학과 DataMining Lab 37고려대학교 응용통계학과 DataMining Lab
IV. 클러스터링을 이용한 토렌트 사용자 분류
빅데이터 트래픽 분석을 통한
학내 망 자원 효율화 방안 연구
5. 클러스터 개수 파악 (학생 SIP)
38고려대학교 응용통계학과 DataMining Lab 38고려대학교 응용통계학과 DataMining Lab
IV. 클러스터링을 이용한 토렌트 사용자 분류
빅데이터 트래픽 분석을 통한
학내 망 자원 효율화 방안 연구
5. 클러스터 개수 파악 (학생 SIP)
39고려대학교 응용통계학과 DataMining Lab 39고려대학교 응용통계학과 DataMining Lab
IV. 클러스터링을 이용한 토렌트 사용자 분류
빅데이터 트래픽 분석을 통한
학내 망 자원 효율화 방안 연구
6. 분석 결과 (학생 SIP)
▶ 클러스터 1을 제외하면 모든 클러스터가 유효해 보인다.
Cluster bootmean Freq
1 0.639008 15
2 0.890659 90
3 0.76339 16
4 0.998333 15
5 0.990378 874
40고려대학교 응용통계학과 DataMining Lab 40고려대학교 응용통계학과 DataMining Lab
IV. 클러스터링을 이용한 토렌트 사용자 분류
빅데이터 트래픽 분석을 통한
학내 망 자원 효율화 방안 연구
6. 분석 결과 (학생 SIP, Cluster 1, 일요일 교직원 스타일)
41고려대학교 응용통계학과 DataMining Lab 41고려대학교 응용통계학과 DataMining Lab
IV. 클러스터링을 이용한 토렌트 사용자 분류
빅데이터 트래픽 분석을 통한
학내 망 자원 효율화 방안 연구
6. 분석 결과 (학생 SIP, Cluster 2, 화요일 밤샘 스타일)
42고려대학교 응용통계학과 DataMining Lab 42고려대학교 응용통계학과 DataMining Lab
IV. 클러스터링을 이용한 토렌트 사용자 분류
빅데이터 트래픽 분석을 통한
학내 망 자원 효율화 방안 연구
6. 분석 결과 (학생 SIP, Cluster 3, Weekend 스타일)
43고려대학교 응용통계학과 DataMining Lab 43고려대학교 응용통계학과 DataMining Lab
IV. 클러스터링을 이용한 토렌트 사용자 분류
빅데이터 트래픽 분석을 통한
학내 망 자원 효율화 방안 연구
6. 분석 결과 (학생 SIP, Cluster 4, Heavy User 스타일)
44고려대학교 응용통계학과 DataMining Lab 44고려대학교 응용통계학과 DataMining Lab
IV. 클러스터링을 이용한 토렌트 사용자 분류
빅데이터 트래픽 분석을 통한
학내 망 자원 효율화 방안 연구
6. 분석 결과 (학생 SIP, Cluster 5: Minimalist 스타일)
45고려대학교 응용통계학과 DataMining Lab 45고려대학교 응용통계학과 DataMining Lab
IV. 클러스터링을 이용한 토렌트 사용자 분류
빅데이터 트래픽 분석을 통한
학내 망 자원 효율화 방안 연구
5. 클러스터 개수 파악 (연구원 SIP)
46고려대학교 응용통계학과 DataMining Lab 46고려대학교 응용통계학과 DataMining Lab
IV. 클러스터링을 이용한 토렌트 사용자 분류
빅데이터 트래픽 분석을 통한
학내 망 자원 효율화 방안 연구
5. 클러스터 개수 파악 (연구원 SIP)
47고려대학교 응용통계학과 DataMining Lab 47고려대학교 응용통계학과 DataMining Lab
IV. 클러스터링을 이용한 토렌트 사용자 분류
빅데이터 트래픽 분석을 통한
학내 망 자원 효율화 방안 연구
5. 클러스터 개수 파악 (연구원 SIP)
48고려대학교 응용통계학과 DataMining Lab 48고려대학교 응용통계학과 DataMining Lab
IV. 클러스터링을 이용한 토렌트 사용자 분류
빅데이터 트래픽 분석을 통한
학내 망 자원 효율화 방안 연구
6. 분석 결과 (연구원 SIP)
▶ 모든 클러스터들이 유효하게 나타났다
Cluster bootmean Freq
1 0.953435 95
2 0.977008 69
3 0.99128 631
4 0.952295 175
49고려대학교 응용통계학과 DataMining Lab 49고려대학교 응용통계학과 DataMining Lab
IV. 클러스터링을 이용한 토렌트 사용자 분류
빅데이터 트래픽 분석을 통한
학내 망 자원 효율화 방안 연구
6. 분석 결과 (연구원 SIP, Cluster 1: 교직원 스타일)
50고려대학교 응용통계학과 DataMining Lab 50고려대학교 응용통계학과 DataMining Lab
IV. 클러스터링을 이용한 토렌트 사용자 분류
빅데이터 트래픽 분석을 통한
학내 망 자원 효율화 방안 연구
6. 분석 결과 (연구원 SIP, Cluster 2: Heavy User 스타일)
51고려대학교 응용통계학과 DataMining Lab 51고려대학교 응용통계학과 DataMining Lab
IV. 클러스터링을 이용한 토렌트 사용자 분류
빅데이터 트래픽 분석을 통한
학내 망 자원 효율화 방안 연구
6. 분석 결과 (연구원 SIP, Cluster 3: Minimalist 스타일)
52고려대학교 응용통계학과 DataMining Lab 52고려대학교 응용통계학과 DataMining Lab
IV. 클러스터링을 이용한 토렌트 사용자 분류
빅데이터 트래픽 분석을 통한
학내 망 자원 효율화 방안 연구
6. 분석 결과 (연구원 SIP, Cluster 4: 수요일 토요일 아침 스타일)
53고려대학교 응용통계학과 DataMining Lab 53고려대학교 응용통계학과 DataMining Lab
IV. 클러스터링을 이용한 토렌트 사용자 분류
빅데이터 트래픽 분석을 통한
학내 망 자원 효율화 방안 연구
5. 클러스터 개수 파악 (교직원 SIP)
54고려대학교 응용통계학과 DataMining Lab 54고려대학교 응용통계학과 DataMining Lab
IV. 클러스터링을 이용한 토렌트 사용자 분류
빅데이터 트래픽 분석을 통한
학내 망 자원 효율화 방안 연구
5. 클러스터 개수 파악 (교직원 SIP)
55고려대학교 응용통계학과 DataMining Lab 55고려대학교 응용통계학과 DataMining Lab
IV. 클러스터링을 이용한 토렌트 사용자 분류
빅데이터 트래픽 분석을 통한
학내 망 자원 효율화 방안 연구
6. 분석 결과 (교직원 SIP)
▶ 모든 클러스터들이 유효하게 나타났다
Cluster bootmean Freq
1 0.922136 73
2 0.913887 24
3 0.984908 263
4 0.914262 9
56고려대학교 응용통계학과 DataMining Lab 56고려대학교 응용통계학과 DataMining Lab
IV. 클러스터링을 이용한 토렌트 사용자 분류
빅데이터 트래픽 분석을 통한
학내 망 자원 효율화 방안 연구
6. 분석 결과 (교직원 SIP, Cluster 1: Weekend 스타일)
57고려대학교 응용통계학과 DataMining Lab 57고려대학교 응용통계학과 DataMining Lab
IV. 클러스터링을 이용한 토렌트 사용자 분류
빅데이터 트래픽 분석을 통한
학내 망 자원 효율화 방안 연구
6. 분석 결과 (교직원 SIP, Cluster 2: 교직원 스타일 )
58고려대학교 응용통계학과 DataMining Lab 58고려대학교 응용통계학과 DataMining Lab
IV. 클러스터링을 이용한 토렌트 사용자 분류
빅데이터 트래픽 분석을 통한
학내 망 자원 효율화 방안 연구
6. 분석 결과 (교직원 SIP, Cluster 3: Minimalist 스타일)
59고려대학교 응용통계학과 DataMining Lab 59고려대학교 응용통계학과 DataMining Lab
IV. 클러스터링을 이용한 토렌트 사용자 분류
빅데이터 트래픽 분석을 통한
학내 망 자원 효율화 방안 연구
6. 분석 결과 (교직원 SIP, Cluster 4: Heavy User 스타일 )
60고려대학교 응용통계학과 DataMining Lab 60고려대학교 응용통계학과 DataMining Lab
빅데이터 트래픽 분석을 통한
학내 망 자원 효율화 방안 연구
6. 분석 결과
1. 전체 sip를 이용한 7개의 클러스터는 5개가 유효하다고 나왔다. 시각적으로 봤을때 5개가 확실한
특징이 있었으며 유효하지 않았다고 본 클러스터 5와7일은 흔하지 않은 시간대에 토렌트 플로우가
발생하는것을 볼수가 있다.
2. 사용자들을 구분하여 만든 13개의 클러스터에서는 12개가 유효하다고 나왔다. 모든 클러스터들이
시간대별로 특징이 나타난다.
3. 토렌트플로우가 존재하는 4111개의 sip를 분석한 결과, 대다수가 토렌트를 거의 사용하지
않는것으로 나와있고, 소수의 sip가 Heavy User로 나타나 대부분의 토렌트 플로우를 차지하는것을
볼수가 있다.
4. Sip별 언제 토렌트를 사용하는지가 시각적으로 표현이 된다.
IV. 클러스터링을 이용한 토렌트 사용자 분류

More Related Content

Viewers also liked

Printable quiz hsk 2 vocabulary noun (part 1)
Printable quiz  hsk 2 vocabulary   noun (part 1)Printable quiz  hsk 2 vocabulary   noun (part 1)
Printable quiz hsk 2 vocabulary noun (part 1)LEGOO MANDARIN
 
1207발표자료
1207발표자료1207발표자료
1207발표자료Sunhee Kim
 
[2008] 숭실대컴퓨터학부 외부세미나 민병국 - Daum검색 튜토리얼
[2008] 숭실대컴퓨터학부 외부세미나 민병국 - Daum검색 튜토리얼[2008] 숭실대컴퓨터학부 외부세미나 민병국 - Daum검색 튜토리얼
[2008] 숭실대컴퓨터학부 외부세미나 민병국 - Daum검색 튜토리얼병국 민
 
서울열린데이터광장Db활용과 big data
서울열린데이터광장Db활용과 big data서울열린데이터광장Db활용과 big data
서울열린데이터광장Db활용과 big dataSung Woo Leem
 
박한우 토크쇼 정치선거사례
박한우 토크쇼 정치선거사례박한우 토크쇼 정치선거사례
박한우 토크쇼 정치선거사례Han Woo PARK
 
설문조사연구: 설문문항작성법 및 시행절차
설문조사연구: 설문문항작성법 및 시행절차설문조사연구: 설문문항작성법 및 시행절차
설문조사연구: 설문문항작성법 및 시행절차heyoungkim
 
시나리오로 알아보는 빅데이터 대응전략(배포용) Dh kim-2013-3-21
시나리오로 알아보는 빅데이터 대응전략(배포용) Dh kim-2013-3-21시나리오로 알아보는 빅데이터 대응전략(배포용) Dh kim-2013-3-21
시나리오로 알아보는 빅데이터 대응전략(배포용) Dh kim-2013-3-21Donghan Kim
 
Process for Big Data Analysis
Process for Big Data AnalysisProcess for Big Data Analysis
Process for Big Data AnalysisMyunggoon Choi
 
News Big Data Analytics 101
News Big Data Analytics 101News Big Data Analytics 101
News Big Data Analytics 101Daemin Park
 
Customized Big Data Report 소개(minds lab) v1.0_full
Customized Big Data Report 소개(minds lab) v1.0_fullCustomized Big Data Report 소개(minds lab) v1.0_full
Customized Big Data Report 소개(minds lab) v1.0_fullTaejoon Yoo
 
뉴스의 미래, 뉴스 빅데이터의 혁신
뉴스의 미래, 뉴스 빅데이터의 혁신뉴스의 미래, 뉴스 빅데이터의 혁신
뉴스의 미래, 뉴스 빅데이터의 혁신Daemin Park
 
김선희 Et 스토리보드 최종
김선희 Et 스토리보드 최종김선희 Et 스토리보드 최종
김선희 Et 스토리보드 최종Sunhee Kim
 
[Td 2015]각이 다른 mvc6! 그 여섯 번째 이야기!(최지훈)
[Td 2015]각이 다른 mvc6! 그 여섯 번째 이야기!(최지훈)[Td 2015]각이 다른 mvc6! 그 여섯 번째 이야기!(최지훈)
[Td 2015]각이 다른 mvc6! 그 여섯 번째 이야기!(최지훈)Sang Don Kim
 
Big Data and Data Visualization(Inforgraphics) 2012년 KISTI(한국정보과학기술연구원) 발표 자료
Big Data and Data Visualization(Inforgraphics) 2012년 KISTI(한국정보과학기술연구원) 발표 자료Big Data and Data Visualization(Inforgraphics) 2012년 KISTI(한국정보과학기술연구원) 발표 자료
Big Data and Data Visualization(Inforgraphics) 2012년 KISTI(한국정보과학기술연구원) 발표 자료Seul Koo
 
빅데이터 이용 사례 분석
빅데이터 이용 사례 분석빅데이터 이용 사례 분석
빅데이터 이용 사례 분석ko donghwi
 

Viewers also liked (20)

Printable quiz hsk 2 vocabulary noun (part 1)
Printable quiz  hsk 2 vocabulary   noun (part 1)Printable quiz  hsk 2 vocabulary   noun (part 1)
Printable quiz hsk 2 vocabulary noun (part 1)
 
H10902
H10902H10902
H10902
 
1207발표자료
1207발표자료1207발표자료
1207발표자료
 
Hsk Vocabulary list Level 3
Hsk Vocabulary list Level 3Hsk Vocabulary list Level 3
Hsk Vocabulary list Level 3
 
[2008] 숭실대컴퓨터학부 외부세미나 민병국 - Daum검색 튜토리얼
[2008] 숭실대컴퓨터학부 외부세미나 민병국 - Daum검색 튜토리얼[2008] 숭실대컴퓨터학부 외부세미나 민병국 - Daum검색 튜토리얼
[2008] 숭실대컴퓨터학부 외부세미나 민병국 - Daum검색 튜토리얼
 
서울열린데이터광장Db활용과 big data
서울열린데이터광장Db활용과 big data서울열린데이터광장Db활용과 big data
서울열린데이터광장Db활용과 big data
 
박한우 토크쇼 정치선거사례
박한우 토크쇼 정치선거사례박한우 토크쇼 정치선거사례
박한우 토크쇼 정치선거사례
 
Hsk Vocabulary list Level 4
Hsk Vocabulary list Level 4Hsk Vocabulary list Level 4
Hsk Vocabulary list Level 4
 
설문조사연구: 설문문항작성법 및 시행절차
설문조사연구: 설문문항작성법 및 시행절차설문조사연구: 설문문항작성법 및 시행절차
설문조사연구: 설문문항작성법 및 시행절차
 
시나리오로 알아보는 빅데이터 대응전략(배포용) Dh kim-2013-3-21
시나리오로 알아보는 빅데이터 대응전략(배포용) Dh kim-2013-3-21시나리오로 알아보는 빅데이터 대응전략(배포용) Dh kim-2013-3-21
시나리오로 알아보는 빅데이터 대응전략(배포용) Dh kim-2013-3-21
 
Process for Big Data Analysis
Process for Big Data AnalysisProcess for Big Data Analysis
Process for Big Data Analysis
 
News Big Data Analytics 101
News Big Data Analytics 101News Big Data Analytics 101
News Big Data Analytics 101
 
Customized Big Data Report 소개(minds lab) v1.0_full
Customized Big Data Report 소개(minds lab) v1.0_fullCustomized Big Data Report 소개(minds lab) v1.0_full
Customized Big Data Report 소개(minds lab) v1.0_full
 
뉴스의 미래, 뉴스 빅데이터의 혁신
뉴스의 미래, 뉴스 빅데이터의 혁신뉴스의 미래, 뉴스 빅데이터의 혁신
뉴스의 미래, 뉴스 빅데이터의 혁신
 
김선희 Et 스토리보드 최종
김선희 Et 스토리보드 최종김선희 Et 스토리보드 최종
김선희 Et 스토리보드 최종
 
[Td 2015]각이 다른 mvc6! 그 여섯 번째 이야기!(최지훈)
[Td 2015]각이 다른 mvc6! 그 여섯 번째 이야기!(최지훈)[Td 2015]각이 다른 mvc6! 그 여섯 번째 이야기!(최지훈)
[Td 2015]각이 다른 mvc6! 그 여섯 번째 이야기!(최지훈)
 
Big Data and Data Visualization(Inforgraphics) 2012년 KISTI(한국정보과학기술연구원) 발표 자료
Big Data and Data Visualization(Inforgraphics) 2012년 KISTI(한국정보과학기술연구원) 발표 자료Big Data and Data Visualization(Inforgraphics) 2012년 KISTI(한국정보과학기술연구원) 발표 자료
Big Data and Data Visualization(Inforgraphics) 2012년 KISTI(한국정보과학기술연구원) 발표 자료
 
H31008
H31008H31008
H31008
 
H31110
H31110H31110
H31110
 
빅데이터 이용 사례 분석
빅데이터 이용 사례 분석빅데이터 이용 사례 분석
빅데이터 이용 사례 분석
 

Similar to Campus Network Analysis

2015 멀티학회학술발표대회 누비자논문
2015 멀티학회학술발표대회 누비자논문2015 멀티학회학술발표대회 누비자논문
2015 멀티학회학술발표대회 누비자논문Changwon National University
 
Src슬라이드(1총괄1세부) 임요한
Src슬라이드(1총괄1세부) 임요한Src슬라이드(1총괄1세부) 임요한
Src슬라이드(1총괄1세부) 임요한SRCDSC
 
Src슬라이드(2총괄1세부) 이상구
Src슬라이드(2총괄1세부) 이상구Src슬라이드(2총괄1세부) 이상구
Src슬라이드(2총괄1세부) 이상구SRCDSC
 
머신러닝의 개념과 실습
머신러닝의 개념과 실습머신러닝의 개념과 실습
머신러닝의 개념과 실습Byoung-Hee Kim
 
[FAST CAMPUS] 1강 data science overview
[FAST CAMPUS] 1강 data science overview [FAST CAMPUS] 1강 data science overview
[FAST CAMPUS] 1강 data science overview chanyoonkim
 
Src슬라이드(3총괄1세부) 조성준
Src슬라이드(3총괄1세부) 조성준Src슬라이드(3총괄1세부) 조성준
Src슬라이드(3총괄1세부) 조성준SRCDSC
 
빅데이터캠퍼스 소개및데이터설명 최종
빅데이터캠퍼스 소개및데이터설명 최종빅데이터캠퍼스 소개및데이터설명 최종
빅데이터캠퍼스 소개및데이터설명 최종bigdatacampus
 
(10 진흥-라-8) 불법유해정보의-우회접속_기술_동향_조사_및_기술보급
(10 진흥-라-8) 불법유해정보의-우회접속_기술_동향_조사_및_기술보급(10 진흥-라-8) 불법유해정보의-우회접속_기술_동향_조사_및_기술보급
(10 진흥-라-8) 불법유해정보의-우회접속_기술_동향_조사_및_기술보급gilgil1973
 
Deep Learning for AI (1)
Deep Learning for AI (1)Deep Learning for AI (1)
Deep Learning for AI (1)Dongheon Lee
 
Eated patents curating system for coporation with cosine similarity
Eated patents curating system for coporation with cosine similarityEated patents curating system for coporation with cosine similarity
Eated patents curating system for coporation with cosine similarityGAINHONG
 
LH Smartcity for osgeo
LH Smartcity for osgeoLH Smartcity for osgeo
LH Smartcity for osgeossuser3b2776
 
연구업적 데이터베이스를 활용한 빅데이터 분석시스템 (16 sep2014)
연구업적 데이터베이스를 활용한 빅데이터 분석시스템 (16 sep2014)연구업적 데이터베이스를 활용한 빅데이터 분석시스템 (16 sep2014)
연구업적 데이터베이스를 활용한 빅데이터 분석시스템 (16 sep2014)Han Woo PARK
 
AWS 한국 공공부분 고객 사례 발표: 병원, 에듀테크, 대학, 학생 스타트업::박상준, 조현구,Timothy Lee, 유병훈, Peter...
AWS 한국 공공부분 고객 사례 발표: 병원, 에듀테크, 대학, 학생 스타트업::박상준, 조현구,Timothy Lee, 유병훈, Peter...AWS 한국 공공부분 고객 사례 발표: 병원, 에듀테크, 대학, 학생 스타트업::박상준, 조현구,Timothy Lee, 유병훈, Peter...
AWS 한국 공공부분 고객 사례 발표: 병원, 에듀테크, 대학, 학생 스타트업::박상준, 조현구,Timothy Lee, 유병훈, Peter...Amazon Web Services Korea
 
연구 데이터와 도서관
연구 데이터와 도서관연구 데이터와 도서관
연구 데이터와 도서관Suntae Kim
 
학습분석(Learning Analytics) 활용 가능성 및 전망
학습분석(Learning Analytics) 활용 가능성 및 전망학습분석(Learning Analytics) 활용 가능성 및 전망
학습분석(Learning Analytics) 활용 가능성 및 전망Open Cyber University of Korea
 
과학데이터와연구소재
과학데이터와연구소재과학데이터와연구소재
과학데이터와연구소재Suntae Kim
 
과학데이터와연구소재
과학데이터와연구소재과학데이터와연구소재
과학데이터와연구소재Suntae Kim
 
융합연구포럼 2015.02 big data - engineering & convergence.
융합연구포럼 2015.02 big data - engineering & convergence.융합연구포럼 2015.02 big data - engineering & convergence.
융합연구포럼 2015.02 big data - engineering & convergence.Chanjin Park
 
네트워크 경량화 이모저모 @ 2020 DLD
네트워크 경량화 이모저모 @ 2020 DLD네트워크 경량화 이모저모 @ 2020 DLD
네트워크 경량화 이모저모 @ 2020 DLDKim Junghoon
 
시카고 Array of Things 프로젝트 리뷰
시카고 Array of Things 프로젝트 리뷰시카고 Array of Things 프로젝트 리뷰
시카고 Array of Things 프로젝트 리뷰Kyuho Kim
 

Similar to Campus Network Analysis (20)

2015 멀티학회학술발표대회 누비자논문
2015 멀티학회학술발표대회 누비자논문2015 멀티학회학술발표대회 누비자논문
2015 멀티학회학술발표대회 누비자논문
 
Src슬라이드(1총괄1세부) 임요한
Src슬라이드(1총괄1세부) 임요한Src슬라이드(1총괄1세부) 임요한
Src슬라이드(1총괄1세부) 임요한
 
Src슬라이드(2총괄1세부) 이상구
Src슬라이드(2총괄1세부) 이상구Src슬라이드(2총괄1세부) 이상구
Src슬라이드(2총괄1세부) 이상구
 
머신러닝의 개념과 실습
머신러닝의 개념과 실습머신러닝의 개념과 실습
머신러닝의 개념과 실습
 
[FAST CAMPUS] 1강 data science overview
[FAST CAMPUS] 1강 data science overview [FAST CAMPUS] 1강 data science overview
[FAST CAMPUS] 1강 data science overview
 
Src슬라이드(3총괄1세부) 조성준
Src슬라이드(3총괄1세부) 조성준Src슬라이드(3총괄1세부) 조성준
Src슬라이드(3총괄1세부) 조성준
 
빅데이터캠퍼스 소개및데이터설명 최종
빅데이터캠퍼스 소개및데이터설명 최종빅데이터캠퍼스 소개및데이터설명 최종
빅데이터캠퍼스 소개및데이터설명 최종
 
(10 진흥-라-8) 불법유해정보의-우회접속_기술_동향_조사_및_기술보급
(10 진흥-라-8) 불법유해정보의-우회접속_기술_동향_조사_및_기술보급(10 진흥-라-8) 불법유해정보의-우회접속_기술_동향_조사_및_기술보급
(10 진흥-라-8) 불법유해정보의-우회접속_기술_동향_조사_및_기술보급
 
Deep Learning for AI (1)
Deep Learning for AI (1)Deep Learning for AI (1)
Deep Learning for AI (1)
 
Eated patents curating system for coporation with cosine similarity
Eated patents curating system for coporation with cosine similarityEated patents curating system for coporation with cosine similarity
Eated patents curating system for coporation with cosine similarity
 
LH Smartcity for osgeo
LH Smartcity for osgeoLH Smartcity for osgeo
LH Smartcity for osgeo
 
연구업적 데이터베이스를 활용한 빅데이터 분석시스템 (16 sep2014)
연구업적 데이터베이스를 활용한 빅데이터 분석시스템 (16 sep2014)연구업적 데이터베이스를 활용한 빅데이터 분석시스템 (16 sep2014)
연구업적 데이터베이스를 활용한 빅데이터 분석시스템 (16 sep2014)
 
AWS 한국 공공부분 고객 사례 발표: 병원, 에듀테크, 대학, 학생 스타트업::박상준, 조현구,Timothy Lee, 유병훈, Peter...
AWS 한국 공공부분 고객 사례 발표: 병원, 에듀테크, 대학, 학생 스타트업::박상준, 조현구,Timothy Lee, 유병훈, Peter...AWS 한국 공공부분 고객 사례 발표: 병원, 에듀테크, 대학, 학생 스타트업::박상준, 조현구,Timothy Lee, 유병훈, Peter...
AWS 한국 공공부분 고객 사례 발표: 병원, 에듀테크, 대학, 학생 스타트업::박상준, 조현구,Timothy Lee, 유병훈, Peter...
 
연구 데이터와 도서관
연구 데이터와 도서관연구 데이터와 도서관
연구 데이터와 도서관
 
학습분석(Learning Analytics) 활용 가능성 및 전망
학습분석(Learning Analytics) 활용 가능성 및 전망학습분석(Learning Analytics) 활용 가능성 및 전망
학습분석(Learning Analytics) 활용 가능성 및 전망
 
과학데이터와연구소재
과학데이터와연구소재과학데이터와연구소재
과학데이터와연구소재
 
과학데이터와연구소재
과학데이터와연구소재과학데이터와연구소재
과학데이터와연구소재
 
융합연구포럼 2015.02 big data - engineering & convergence.
융합연구포럼 2015.02 big data - engineering & convergence.융합연구포럼 2015.02 big data - engineering & convergence.
융합연구포럼 2015.02 big data - engineering & convergence.
 
네트워크 경량화 이모저모 @ 2020 DLD
네트워크 경량화 이모저모 @ 2020 DLD네트워크 경량화 이모저모 @ 2020 DLD
네트워크 경량화 이모저모 @ 2020 DLD
 
시카고 Array of Things 프로젝트 리뷰
시카고 Array of Things 프로젝트 리뷰시카고 Array of Things 프로젝트 리뷰
시카고 Array of Things 프로젝트 리뷰
 

Campus Network Analysis

  • 1. 0고려대학교 응용통계학과 DataMining Lab 학내 망 자원 효율화 방안 연구 2014. 11. 7. (금) 고려대학교 응용통계학과 DataMining Lab 빅데이터 트래픽 분석을 통한
  • 2. 1고려대학교 응용통계학과 DataMining Lab 1고려대학교 응용통계학과 DataMining Lab Contents 빅데이터 트래픽 분석을 통한 학내 망 자원 효율화 방안 연구 I. 학내 망 트래픽의 시공간적 사용 행태 II. 유/무선 네트워크 트래픽 발생량 분석 III. 토렌트 트래픽 분석 IV. 클러스터링을 이용한 토렌트 사용자 분류 V. Network 트래픽 데이터를 활용한 수업 참여도/집중도 분석
  • 3. 2고려대학교 응용통계학과 DataMining Lab 2고려대학교 응용통계학과 DataMining Lab IV. 클러스터링을 이용한 토렌트 사용자 분류 빅데이터 트래픽 분석을 통한 학내 망 자원 효율화 방안 연구 1. 분석 목적 ▶ 교내에서 발생하는 토렌트 네트워크 데이터를 추출하여 요일별, 시간별 사용량을 이용하 여 클러스터를 생성한다. 클러스터간의 특징을 파악하여 특별한 주의가 필요한 클러스터와 sip를 파악하여 학내망 네트워크 효율화 방안 제시. Use clustering to classify sip by Torrent usage 2. 분석 개요 (1) 분석 기간 : 2013년 1,2학기 토렌트로 분류된 플로우 데이터 (2) 각 sip 별 토렌트 플로우 수, 다운받는 양 (i_octet), 업로드 양 (o_octet) 추출 (3) 요일별 (주7일), 시간별 (일24시간)으로 데이터를 분류하여 추출 (4) 각 sip 별 24 x 7 x 3, 504개의 변수 생성
  • 4. 3고려대학교 응용통계학과 DataMining Lab 3고려대학교 응용통계학과 DataMining Lab IV. 클러스터링을 이용한 토렌트 사용자 분류 빅데이터 트래픽 분석을 통한 학내 망 자원 효율화 방안 연구 3. 분석 절차 HDFS에서 토렌트 네트워크 사용 데이터 추출 클러스터링을 위하여 R에서 데이터 변형 Log 변형을 통하여 데이터를 정규화 Total within sum of squares (WSS) 와 Calinski-Harabasz index (CH) 을 이용하여 클러스터 개수 추정 Principal Component Analysis (PCA)를 이용하여 시각적으로 클러스터 개수 확인 Bootstrap을 이용하여 kmeans 클러스터를 10,000번 생성하여 클러스터의 유효성 확인 Heatmap을 이용하여 각클러스트의 특징을 시각적으로 표시
  • 5. 4고려대학교 응용통계학과 DataMining Lab 4고려대학교 응용통계학과 DataMining Lab IV. 클러스터링을 이용한 토렌트 사용자 분류 빅데이터 트래픽 분석을 통한 학내 망 자원 효율화 방안 연구 3. 분석 절차 (Total Within Sum of Squares, WSS) ▶ WSS는 클러스터의 중심점(centroid)과 클러스터를 이루는 데이터포인트간의 거리를 합한 숫자로, 클러스터의 개수를 정하는데 유용하다. 클러스터의 개수가 늘어나면서 WSS가 줄어 들기 때문에 WSS가 급격히 줄어들 때를 찾아야 한다.
  • 6. 5고려대학교 응용통계학과 DataMining Lab 5고려대학교 응용통계학과 DataMining Lab IV. 클러스터링을 이용한 토렌트 사용자 분류 빅데이터 트래픽 분석을 통한 학내 망 자원 효율화 방안 연구 3. 분석 절차 (Calinski-Harabasz Index, CH) B는 클러스터간의 거리를 나타내는 메트릭스, W는 클러스터안의 데이터포인트간의 거리를 나타내느 메트 릭스, n은 총 데이터포인트 개수, K는 클러스터의 개수, zk 는 클러스터의 중심점 Caliński, Tadeusz, and Jerzy Harabasz. "A dendrite method for cluster analysis." Communications in Statistics-theory and Methods 3.1 (1974): 1-27. ▶ CH는 클러스터간의 분산과 전체데이터포인의 분산의 비율이다. 분자에 해당하는 부분이 클러스터의 중심점과 전체데이터의 중심점과의 분산을 계산하고 분모에 해당하는 부분이 각 데이터포인트와 클러스터중심점과의 분산을 계산한다.
  • 7. 6고려대학교 응용통계학과 DataMining Lab 6고려대학교 응용통계학과 DataMining Lab IV. 클러스터링을 이용한 토렌트 사용자 분류 빅데이터 트래픽 분석을 통한 학내 망 자원 효율화 방안 연구 3. 분석 절차 (Principal Component Analysis, PCA) ▶ 자료가 4차원 이상일 경우 시각적으로 데이터가 어떻게 생겼는지 알아보기가 힘들다. PCA는 고차원의 자료에서 전체자료를 나타낼 수 있는 주요인 벡터 (Principal Component)를 구하여 고차원의 자료를 2차원 공간으로 끌어내리는 기능을 한다. Wold, Svante, Kim Esbensen, and Paul Geladi. "Principal component analysis." Chemometrics and intelligent laboratory systems 2.1 (1987): 37-52.
  • 8. 7고려대학교 응용통계학과 DataMining Lab 7고려대학교 응용통계학과 DataMining Lab IV. 클러스터링을 이용한 토렌트 사용자 분류 빅데이터 트래픽 분석을 통한 학내 망 자원 효율화 방안 연구 4. 토렌트 트래픽 현황 (한 개의 sip)
  • 9. 8고려대학교 응용통계학과 DataMining Lab 8고려대학교 응용통계학과 DataMining Lab IV. 클러스터링을 이용한 토렌트 사용자 분류 빅데이터 트래픽 분석을 통한 학내 망 자원 효율화 방안 연구 4. 토렌트 트래픽 현황 (한 개의 sip)
  • 10. 9고려대학교 응용통계학과 DataMining Lab 9고려대학교 응용통계학과 DataMining Lab IV. 클러스터링을 이용한 토렌트 사용자 분류 빅데이터 트래픽 분석을 통한 학내 망 자원 효율화 방안 연구 4. 토렌트 트래픽 현황 (한 개의 sip)
  • 11. 10고려대학교 응용통계학과 DataMining Lab 10고려대학교 응용통계학과 DataMining Lab IV. 클러스터링을 이용한 토렌트 사용자 분류 빅데이터 트래픽 분석을 통한 학내 망 자원 효율화 방안 연구 4. 토렌트 트래픽 현황 (사용자별) 교직원, SIP FREQ = 679
  • 12. 11고려대학교 응용통계학과 DataMining Lab 11고려대학교 응용통계학과 DataMining Lab IV. 클러스터링을 이용한 토렌트 사용자 분류 빅데이터 트래픽 분석을 통한 학내 망 자원 효율화 방안 연구 4. 토렌트 트래픽 현황 (사용자별) 연구원, SIP FREQ = 1897
  • 13. 12고려대학교 응용통계학과 DataMining Lab 12고려대학교 응용통계학과 DataMining Lab IV. 클러스터링을 이용한 토렌트 사용자 분류 빅데이터 트래픽 분석을 통한 학내 망 자원 효율화 방안 연구 4. 토렌트 트래픽 현황 (건물별) K건물, SIP FREQ = 110
  • 14. 13고려대학교 응용통계학과 DataMining Lab 13고려대학교 응용통계학과 DataMining Lab IV. 클러스터링을 이용한 토렌트 사용자 분류 빅데이터 트래픽 분석을 통한 학내 망 자원 효율화 방안 연구 4. 토렌트 트래픽 현황 (건물별) K건물, SIP FREQ = 110
  • 15. 14고려대학교 응용통계학과 DataMining Lab 14고려대학교 응용통계학과 DataMining Lab IV. 클러스터링을 이용한 토렌트 사용자 분류 빅데이터 트래픽 분석을 통한 학내 망 자원 효율화 방안 연구 4. 토렌트 트래픽 현황 (건물별) B건물, SIP FREQ = 606
  • 16. 15고려대학교 응용통계학과 DataMining Lab 15고려대학교 응용통계학과 DataMining Lab IV. 클러스터링을 이용한 토렌트 사용자 분류 빅데이터 트래픽 분석을 통한 학내 망 자원 효율화 방안 연구 4. 토렌트 트래픽 현황 (건물별) B건물, SIP FREQ = 606
  • 17. 16고려대학교 응용통계학과 DataMining Lab 16고려대학교 응용통계학과 DataMining Lab IV. 클러스터링을 이용한 토렌트 사용자 분류 빅데이터 트래픽 분석을 통한 학내 망 자원 효율화 방안 연구 4. 토렌트 트래픽 현황 (건물별) C건물, SIP FREQ = 446
  • 18. 17고려대학교 응용통계학과 DataMining Lab 17고려대학교 응용통계학과 DataMining Lab IV. 클러스터링을 이용한 토렌트 사용자 분류 빅데이터 트래픽 분석을 통한 학내 망 자원 효율화 방안 연구 4. 토렌트 트래픽 현황 (건물별) C건물, SIP FREQ = 446
  • 19. 18고려대학교 응용통계학과 DataMining Lab 18고려대학교 응용통계학과 DataMining Lab IV. 클러스터링을 이용한 토렌트 사용자 분류 빅데이터 트래픽 분석을 통한 학내 망 자원 효율화 방안 연구 4. 토렌트 트래픽 현황 (학과별) A학과, SIP FREQ = 243
  • 20. 19고려대학교 응용통계학과 DataMining Lab 19고려대학교 응용통계학과 DataMining Lab IV. 클러스터링을 이용한 토렌트 사용자 분류 빅데이터 트래픽 분석을 통한 학내 망 자원 효율화 방안 연구 4. 토렌트 트래픽 현황 (학과별) M학과, SIP FREQ = 252
  • 21. 20고려대학교 응용통계학과 DataMining Lab 20고려대학교 응용통계학과 DataMining Lab IV. 클러스터링을 이용한 토렌트 사용자 분류 빅데이터 트래픽 분석을 통한 학내 망 자원 효율화 방안 연구 4. 토렌트 트래픽 현황 (학과별) F학과, SIP FREQ = 416
  • 22. 21고려대학교 응용통계학과 DataMining Lab 21고려대학교 응용통계학과 DataMining Lab IV. 클러스터링을 이용한 토렌트 사용자 분류 빅데이터 트래픽 분석을 통한 학내 망 자원 효율화 방안 연구 4. 토렌트 트래픽 현황 (학과별) G학과, SIP FREQ = 120
  • 23. 22고려대학교 응용통계학과 DataMining Lab 22고려대학교 응용통계학과 DataMining Lab IV. 클러스터링을 이용한 토렌트 사용자 분류 빅데이터 트래픽 분석을 통한 학내 망 자원 효율화 방안 연구 5. 클러스터 개수 파악 (전체 SIP)
  • 24. 23고려대학교 응용통계학과 DataMining Lab 23고려대학교 응용통계학과 DataMining Lab IV. 클러스터링을 이용한 토렌트 사용자 분류 빅데이터 트래픽 분석을 통한 학내 망 자원 효율화 방안 연구 5. 클러스터 개수 파악 (전체 SIP)
  • 25. 24고려대학교 응용통계학과 DataMining Lab 24고려대학교 응용통계학과 DataMining Lab IV. 클러스터링을 이용한 토렌트 사용자 분류 빅데이터 트래픽 분석을 통한 학내 망 자원 효율화 방안 연구 5. 클러스터 개수 파악 (전체 SIP)
  • 26. 25고려대학교 응용통계학과 DataMining Lab 25고려대학교 응용통계학과 DataMining Lab IV. 클러스터링을 이용한 토렌트 사용자 분류 빅데이터 트래픽 분석을 통한 학내 망 자원 효율화 방안 연구 5. 클러스터 개수 파악 (전체 SIP)
  • 27. 26고려대학교 응용통계학과 DataMining Lab 26고려대학교 응용통계학과 DataMining Lab IV. 클러스터링을 이용한 토렌트 사용자 분류 빅데이터 트래픽 분석을 통한 학내 망 자원 효율화 방안 연구 6. 분석 결과 (전체 SIP) Cluster bootmean Freq 학생 연구원 교직원 Unknown 1 0.84231602 76 11 39 22 4 2 0.956772385 86 15 66 5 0 3 0.80758649 91 8 69 7 7 4 0.773137309 273 72 110 23 68 5 0.651975271 101 25 55 6 15 6 0.985097071 3314 878 578 246 1612 7 0.6923838 170 40 58 60 12 Total 4111 1010 970 369 1722 ▶ Bootstrap을 이용하여 클러스터를 10,000번 형성한다. Bootmean은 해당되는 클러스터가 몇번 형성이 되는지 비율로 나타난것이다. 숫자가 1에 가까울수록 클러스터의 유효성이 인정 된다. 클러스터 5와7은 유효성이 떨어진다.
  • 28. 27고려대학교 응용통계학과 DataMining Lab 27고려대학교 응용통계학과 DataMining Lab IV. 클러스터링을 이용한 토렌트 사용자 분류 빅데이터 트래픽 분석을 통한 학내 망 자원 효율화 방안 연구 6. 분석 결과 (전체 SIP) Cluster Freq B학과 D학과 I학과 J학과 M학과 G학과 A학과 H학과 C학과 K학과 F학과 E학과 L학과 N학과 1 76 7 3 5 6 1 3 5 5 0 3 7 2 2 27 2 86 4 8 2 0 0 3 1 9 2 5 26 2 6 18 3 91 6 2 5 4 0 1 5 12 4 5 6 9 7 25 4 273 22 14 2 12 0 4 10 10 1 7 20 10 4 157 5 101 6 4 1 4 0 4 3 10 1 4 12 4 1 47 6 3314 179 98 25 15 6 60 131 112 36 52 148 48 15 2389 7 170 19 5 1 1 2 2 22 10 1 4 8 7 1 87 4111 243 134 41 42 9 77 177 168 45 80 227 82 36 2750
  • 29. 28고려대학교 응용통계학과 DataMining Lab 28고려대학교 응용통계학과 DataMining Lab IV. 클러스터링을 이용한 토렌트 사용자 분류 빅데이터 트래픽 분석을 통한 학내 망 자원 효율화 방안 연구 6. 분석 결과 (전체 SIP) Cluster Freq K건물 C건물 H건물 I건물 G건물 A건물 B건물 F건물 E건물 D건물 J건물 L건물 1 76 2 5 7 0 5 25 12 4 3 6 3 4 2 86 1 1 4 0 1 31 32 2 13 0 1 0 3 91 4 1 6 0 5 40 15 1 9 2 1 7 4 273 11 9 22 0 10 57 27 10 46 7 6 68 5 101 3 4 6 0 3 23 22 5 4 3 13 15 6 3314 27 263 179 0 131 388 227 58 260 112 57 1612 7 170 1 21 19 0 22 30 12 8 17 24 4 12 Total 4111 49 304 243 0 177 594 347 88 352 154 85 1718
  • 30. 29고려대학교 응용통계학과 DataMining Lab 29고려대학교 응용통계학과 DataMining Lab IV. 클러스터링을 이용한 토렌트 사용자 분류 빅데이터 트래픽 분석을 통한 학내 망 자원 효율화 방안 연구 6. 분석 결과 (전체 SIP, Cluster 1: 교직원 스타일)
  • 31. 30고려대학교 응용통계학과 DataMining Lab 30고려대학교 응용통계학과 DataMining Lab IV. 클러스터링을 이용한 토렌트 사용자 분류 빅데이터 트래픽 분석을 통한 학내 망 자원 효율화 방안 연구 6. 분석 결과 (전체 SIP, Cluster 2: Heavy User 스타일)
  • 32. 31고려대학교 응용통계학과 DataMining Lab 31고려대학교 응용통계학과 DataMining Lab IV. 클러스터링을 이용한 토렌트 사용자 분류 빅데이터 트래픽 분석을 통한 학내 망 자원 효율화 방안 연구 6. 분석 결과 (전체 SIP, Cluster 3: Heavy 교직원 스타일)
  • 33. 32고려대학교 응용통계학과 DataMining Lab 32고려대학교 응용통계학과 DataMining Lab IV. 클러스터링을 이용한 토렌트 사용자 분류 빅데이터 트래픽 분석을 통한 학내 망 자원 효율화 방안 연구 6. 분석 결과 (전체 SIP, Cluster 4: Weekend 스타일)
  • 34. 33고려대학교 응용통계학과 DataMining Lab 33고려대학교 응용통계학과 DataMining Lab IV. 클러스터링을 이용한 토렌트 사용자 분류 빅데이터 트래픽 분석을 통한 학내 망 자원 효율화 방안 연구 6. 분석 결과 (전체 SIP, Cluster 5: 수요일 집중 스타일)
  • 35. 34고려대학교 응용통계학과 DataMining Lab 34고려대학교 응용통계학과 DataMining Lab IV. 클러스터링을 이용한 토렌트 사용자 분류 빅데이터 트래픽 분석을 통한 학내 망 자원 효율화 방안 연구 6. 분석 결과 (전체 SIP, Cluster 6: Minimalist 스타일)
  • 36. 35고려대학교 응용통계학과 DataMining Lab 35고려대학교 응용통계학과 DataMining Lab IV. 클러스터링을 이용한 토렌트 사용자 분류 빅데이터 트래픽 분석을 통한 학내 망 자원 효율화 방안 연구 6. 분석 결과 (전체 SIP, Cluster 7: 십자가 스타일)
  • 37. 36고려대학교 응용통계학과 DataMining Lab 36고려대학교 응용통계학과 DataMining Lab IV. 클러스터링을 이용한 토렌트 사용자 분류 빅데이터 트래픽 분석을 통한 학내 망 자원 효율화 방안 연구 5. 클러스터 개수 파악 (학생 SIP)
  • 38. 37고려대학교 응용통계학과 DataMining Lab 37고려대학교 응용통계학과 DataMining Lab IV. 클러스터링을 이용한 토렌트 사용자 분류 빅데이터 트래픽 분석을 통한 학내 망 자원 효율화 방안 연구 5. 클러스터 개수 파악 (학생 SIP)
  • 39. 38고려대학교 응용통계학과 DataMining Lab 38고려대학교 응용통계학과 DataMining Lab IV. 클러스터링을 이용한 토렌트 사용자 분류 빅데이터 트래픽 분석을 통한 학내 망 자원 효율화 방안 연구 5. 클러스터 개수 파악 (학생 SIP)
  • 40. 39고려대학교 응용통계학과 DataMining Lab 39고려대학교 응용통계학과 DataMining Lab IV. 클러스터링을 이용한 토렌트 사용자 분류 빅데이터 트래픽 분석을 통한 학내 망 자원 효율화 방안 연구 6. 분석 결과 (학생 SIP) ▶ 클러스터 1을 제외하면 모든 클러스터가 유효해 보인다. Cluster bootmean Freq 1 0.639008 15 2 0.890659 90 3 0.76339 16 4 0.998333 15 5 0.990378 874
  • 41. 40고려대학교 응용통계학과 DataMining Lab 40고려대학교 응용통계학과 DataMining Lab IV. 클러스터링을 이용한 토렌트 사용자 분류 빅데이터 트래픽 분석을 통한 학내 망 자원 효율화 방안 연구 6. 분석 결과 (학생 SIP, Cluster 1, 일요일 교직원 스타일)
  • 42. 41고려대학교 응용통계학과 DataMining Lab 41고려대학교 응용통계학과 DataMining Lab IV. 클러스터링을 이용한 토렌트 사용자 분류 빅데이터 트래픽 분석을 통한 학내 망 자원 효율화 방안 연구 6. 분석 결과 (학생 SIP, Cluster 2, 화요일 밤샘 스타일)
  • 43. 42고려대학교 응용통계학과 DataMining Lab 42고려대학교 응용통계학과 DataMining Lab IV. 클러스터링을 이용한 토렌트 사용자 분류 빅데이터 트래픽 분석을 통한 학내 망 자원 효율화 방안 연구 6. 분석 결과 (학생 SIP, Cluster 3, Weekend 스타일)
  • 44. 43고려대학교 응용통계학과 DataMining Lab 43고려대학교 응용통계학과 DataMining Lab IV. 클러스터링을 이용한 토렌트 사용자 분류 빅데이터 트래픽 분석을 통한 학내 망 자원 효율화 방안 연구 6. 분석 결과 (학생 SIP, Cluster 4, Heavy User 스타일)
  • 45. 44고려대학교 응용통계학과 DataMining Lab 44고려대학교 응용통계학과 DataMining Lab IV. 클러스터링을 이용한 토렌트 사용자 분류 빅데이터 트래픽 분석을 통한 학내 망 자원 효율화 방안 연구 6. 분석 결과 (학생 SIP, Cluster 5: Minimalist 스타일)
  • 46. 45고려대학교 응용통계학과 DataMining Lab 45고려대학교 응용통계학과 DataMining Lab IV. 클러스터링을 이용한 토렌트 사용자 분류 빅데이터 트래픽 분석을 통한 학내 망 자원 효율화 방안 연구 5. 클러스터 개수 파악 (연구원 SIP)
  • 47. 46고려대학교 응용통계학과 DataMining Lab 46고려대학교 응용통계학과 DataMining Lab IV. 클러스터링을 이용한 토렌트 사용자 분류 빅데이터 트래픽 분석을 통한 학내 망 자원 효율화 방안 연구 5. 클러스터 개수 파악 (연구원 SIP)
  • 48. 47고려대학교 응용통계학과 DataMining Lab 47고려대학교 응용통계학과 DataMining Lab IV. 클러스터링을 이용한 토렌트 사용자 분류 빅데이터 트래픽 분석을 통한 학내 망 자원 효율화 방안 연구 5. 클러스터 개수 파악 (연구원 SIP)
  • 49. 48고려대학교 응용통계학과 DataMining Lab 48고려대학교 응용통계학과 DataMining Lab IV. 클러스터링을 이용한 토렌트 사용자 분류 빅데이터 트래픽 분석을 통한 학내 망 자원 효율화 방안 연구 6. 분석 결과 (연구원 SIP) ▶ 모든 클러스터들이 유효하게 나타났다 Cluster bootmean Freq 1 0.953435 95 2 0.977008 69 3 0.99128 631 4 0.952295 175
  • 50. 49고려대학교 응용통계학과 DataMining Lab 49고려대학교 응용통계학과 DataMining Lab IV. 클러스터링을 이용한 토렌트 사용자 분류 빅데이터 트래픽 분석을 통한 학내 망 자원 효율화 방안 연구 6. 분석 결과 (연구원 SIP, Cluster 1: 교직원 스타일)
  • 51. 50고려대학교 응용통계학과 DataMining Lab 50고려대학교 응용통계학과 DataMining Lab IV. 클러스터링을 이용한 토렌트 사용자 분류 빅데이터 트래픽 분석을 통한 학내 망 자원 효율화 방안 연구 6. 분석 결과 (연구원 SIP, Cluster 2: Heavy User 스타일)
  • 52. 51고려대학교 응용통계학과 DataMining Lab 51고려대학교 응용통계학과 DataMining Lab IV. 클러스터링을 이용한 토렌트 사용자 분류 빅데이터 트래픽 분석을 통한 학내 망 자원 효율화 방안 연구 6. 분석 결과 (연구원 SIP, Cluster 3: Minimalist 스타일)
  • 53. 52고려대학교 응용통계학과 DataMining Lab 52고려대학교 응용통계학과 DataMining Lab IV. 클러스터링을 이용한 토렌트 사용자 분류 빅데이터 트래픽 분석을 통한 학내 망 자원 효율화 방안 연구 6. 분석 결과 (연구원 SIP, Cluster 4: 수요일 토요일 아침 스타일)
  • 54. 53고려대학교 응용통계학과 DataMining Lab 53고려대학교 응용통계학과 DataMining Lab IV. 클러스터링을 이용한 토렌트 사용자 분류 빅데이터 트래픽 분석을 통한 학내 망 자원 효율화 방안 연구 5. 클러스터 개수 파악 (교직원 SIP)
  • 55. 54고려대학교 응용통계학과 DataMining Lab 54고려대학교 응용통계학과 DataMining Lab IV. 클러스터링을 이용한 토렌트 사용자 분류 빅데이터 트래픽 분석을 통한 학내 망 자원 효율화 방안 연구 5. 클러스터 개수 파악 (교직원 SIP)
  • 56. 55고려대학교 응용통계학과 DataMining Lab 55고려대학교 응용통계학과 DataMining Lab IV. 클러스터링을 이용한 토렌트 사용자 분류 빅데이터 트래픽 분석을 통한 학내 망 자원 효율화 방안 연구 6. 분석 결과 (교직원 SIP) ▶ 모든 클러스터들이 유효하게 나타났다 Cluster bootmean Freq 1 0.922136 73 2 0.913887 24 3 0.984908 263 4 0.914262 9
  • 57. 56고려대학교 응용통계학과 DataMining Lab 56고려대학교 응용통계학과 DataMining Lab IV. 클러스터링을 이용한 토렌트 사용자 분류 빅데이터 트래픽 분석을 통한 학내 망 자원 효율화 방안 연구 6. 분석 결과 (교직원 SIP, Cluster 1: Weekend 스타일)
  • 58. 57고려대학교 응용통계학과 DataMining Lab 57고려대학교 응용통계학과 DataMining Lab IV. 클러스터링을 이용한 토렌트 사용자 분류 빅데이터 트래픽 분석을 통한 학내 망 자원 효율화 방안 연구 6. 분석 결과 (교직원 SIP, Cluster 2: 교직원 스타일 )
  • 59. 58고려대학교 응용통계학과 DataMining Lab 58고려대학교 응용통계학과 DataMining Lab IV. 클러스터링을 이용한 토렌트 사용자 분류 빅데이터 트래픽 분석을 통한 학내 망 자원 효율화 방안 연구 6. 분석 결과 (교직원 SIP, Cluster 3: Minimalist 스타일)
  • 60. 59고려대학교 응용통계학과 DataMining Lab 59고려대학교 응용통계학과 DataMining Lab IV. 클러스터링을 이용한 토렌트 사용자 분류 빅데이터 트래픽 분석을 통한 학내 망 자원 효율화 방안 연구 6. 분석 결과 (교직원 SIP, Cluster 4: Heavy User 스타일 )
  • 61. 60고려대학교 응용통계학과 DataMining Lab 60고려대학교 응용통계학과 DataMining Lab 빅데이터 트래픽 분석을 통한 학내 망 자원 효율화 방안 연구 6. 분석 결과 1. 전체 sip를 이용한 7개의 클러스터는 5개가 유효하다고 나왔다. 시각적으로 봤을때 5개가 확실한 특징이 있었으며 유효하지 않았다고 본 클러스터 5와7일은 흔하지 않은 시간대에 토렌트 플로우가 발생하는것을 볼수가 있다. 2. 사용자들을 구분하여 만든 13개의 클러스터에서는 12개가 유효하다고 나왔다. 모든 클러스터들이 시간대별로 특징이 나타난다. 3. 토렌트플로우가 존재하는 4111개의 sip를 분석한 결과, 대다수가 토렌트를 거의 사용하지 않는것으로 나와있고, 소수의 sip가 Heavy User로 나타나 대부분의 토렌트 플로우를 차지하는것을 볼수가 있다. 4. Sip별 언제 토렌트를 사용하는지가 시각적으로 표현이 된다. IV. 클러스터링을 이용한 토렌트 사용자 분류