4. 데이터 집합을
구별하기 위해 범위(range) 사용
• 평균은 데이터분포 정보가 없으므로 동일한 평
균에 대한 정보가 부족하다.
• 점수가 평균을 중심으로 어떻게 분포되어 있는
지 확인하여 데이터들을 구분할 수 있다.
• 서로 다른게 분포된 방식을 측정할 수 있으면 선
수 선택 도움이 된다. 18
12
6
0
0 1 2 3 4 5 6 7 8
5. 범위 측정
7 8 9 9 10 10 11 12 13
상한
하한
범위
• 범위(range)는 데이터가 얼마나 많은 숫
자 값을 포함하고 있는지 나타냄 => 폭
• 하한(lower bound) - 가장 작은 값.
• 상한(upper bound) - 가장 큰 값.
6. 연습 문제
• 다음 데이터 집합에 평균값, 하한, 상한, 그리고
범위를 구하고 차트를 그려 보세요?
• 분포? 범위가 차이를 확인하는데 도움이 되는
지?
8. 3 8
2 6
4
1
2
0 0
8 10 12 8 10 12
도수 도수
• μ = 10 • μ = 10
하한=8 하한=8
상한=12 상한=12
범위=4 범위=4
데이터 분포는 다른데,
범위는 동일하게 나왔다.
9. 이상치(outlier)의 문제점
5
선수 A 선수 B
4
3
2
1
0
0 1 2 3 4 5 6 7 8 9 10
선수 A의 범위
선수 B의 범위
이상치에 민감하지 않는
범위를 만들 수 있을까?
10. 사분위수(quartile)
Q1 Q2 Q3
11122 22333 33444 4 5 5 5 10
• 데이터를 동일한 4개의 크기로 나누는 값
• 하한 사분위수(lower quartile, Q1)
- 값이 가장 작은 사분위수
• 상한 사분위수(upper quartile, Q3)
- 값이 가장 큰 사분위수
• 사분범위(interquartile range, IQR)
- 사분범위 =
상한 사분위수 - 하한 사분위수
11. 사분범위는 이상치를 포함하지 않음
Q1 Q2 Q3
11122 22333 33444 4 5 5 5 10
• 하한 사분위수 • 상한 사분위수
q1 = n/4 q3 = 3*n/4
q1 == 정수 ? q1 : q3 == 정수 ? q1 :
round(q1) round(q1)
이상치를 제외하여 데이터가 왜곡되지
않는 '미니'범위 사용.
12. 연습 문제
점수 3 6 7 10 11 13 30
도수 2 1 2 3 1 1 1
• 이 데이터 집합의 범위를 구하세요.
• 상한 사분위수와 하한 사분위수를 구하
세요.
• 사분범위를 구하세요.
13. 바보 같은 질문은 없습니다
• 사분위수 어쩌고 저쩌고 하는 것들의 요
점이 무엇입니까? 계산과정이 매우 귀찮
아 보입니다.
• 데이터분포 방식을 범위만 가지고 설
명하면 이상치에 민감하다는 약점.
• 이러한 이상치를 제거하기 위해 가운
데 50%의 데이터만 집중함.
15. 상자수염 다이어그램
(box and whisker diagram)
• 데이터 집합의 범위, 사분범위
사분범위, 중앙값을
나타냄.
• 데이터가 이상치를
포함하고 있으면 수
염의 길이가 길어지
므로 데이터 편향을
알 수 있음.
16. 연습 문제
선수 A 선수 B
선수
0 2 4 6 8 10 12 14 16 18 20 22 24 26 28 30
점수
17. 어느 선수가 안정적인지?
선수 A 선수 B
• 선수 A는 시합당일
컨디션에 많은 영향
을 받는다.
• 선수 B는 시합에서
점수를 예측가능 0 1 2 3 4 5 6 7 8
18. 바보같은 질문이란 없습니다
• 점수가 얼마나 안정적인지 살펴보기 위해서는
그냥 사분범위를 사용하면 되지 않나요?
• 사분범위는 데이터의 분포를 측정하기 위해
데이터의 일부를 사용하는 방법입니다. 만약
어떤 선수가 매우 나쁜 점수를 기록했다면 점
수는 사분범위에 포함되지 않습니다. 안정성
과 일관성을 측정하려면 모든 점수를 고려해
야 합니다.
19. 평균거리 계산하기
1 2 3 4 5 6 7 8 9
거리=3
거리=2 거리=-5
• 1, 2, 9 가 있을 때 평균값은 4.
• 평균거리 = (3+2+(-5))/3 = 0
• 평균거리는 언제나 0
24. 연습 문제
• 표준 편차?
• 가장 안정적인 실력을 가진 선수는?
점수 7 9 10 11 13
도수 1 2 4 2 1
점수 7 8 9 10 11 12 13
도수 1 1 2 2 2 1 1
점수 3 6 7 10 11 13 30
도수 2 1 2 3 1 1 1
25. • 선수 1 이 표준편차가 가장 작고,
선수 3 의 표준편차가 가장 크다.
• 선수 1이 가장 안정적이고,
선수 3이 제일 불안정하다.
26. 표준점수(standard score), z점수(z-score)
• 평균값과 표준편차를 이용해서 데이터
안에 있는 값들을 일반적인 분포 형태로
변환하여 서로 다른 데이터 집합을 비교
하는 방법.
• z = (x-")/#
• 표준 점수 = 평균값으로부터의 표준편차
의 수.
27. 바보 같은 질문이란 없습니다.
• 표준점수는 이상치를 검출하는 것과 무
슨 상관이 있나요?
• 일반적으로 이상치는 평균값으로부터
의 표준편차가 3이상인 값들로 정의.