Hfs-ch3

3 변이와 분포 측정하
강력한 범위

평균값이 동일한 경우

• 3명의 선수중 평균 점수 7 8 9 10 11 12 13
점수가 모두 같은 도수 1 1 2 2 2 1 1
경우, 한명의 선수
점수 7 9 10 11 13
를 선택해야 한다
도수 1 2 4 2 1
면?
• 평균이외의 다른 점수 3 6 7 10 11 13 30

정보가 필요함. 도수 2 1 2 3 1 1 1

점수 7 8 9 10 11 12 13

도수 1 1 2 2 2 1 1

점수 7 9 10 11 13

도수 1 2 4 2 1

점수 3 6 7 10 11 13 30

도수 2 1 2 3 1 1 1

데이터 집합을
구별하기 위해 범위(range) 사용
• 평균은 데이터분포 정보가 없으므로 동일한 평
균에 대한 정보가 부족하다.
• 점수가 평균을 중심으로 어떻게 분포되어 있는
지 확인하여 데이터들을 구분할 수 있다.
• 서로 다른게 분포된 방식을 측정할 수 있으면 선
수 선택 도움이 된다. 18
12
6
0
0 1 2 3 4 5 6 7 8

범위 측정
7 8 9 9 10 10 11 12 13
상한
하한
범위

• 범위(range)는 데이터가 얼마나 많은 숫
자 값을 포함하고 있는지 나타냄 => 폭
• 하한(lower bound) - 가장 작은 값.
• 상한(upper bound) - 가장 큰 값.

연습 문제

• 다음 데이터 집합에 평균값, 하한, 상한, 그리고
범위를 구하고 차트를 그려 보세요?
• 분포? 범위가 차이를 확인하는데 도움이 되는
지?

연습 문제
• μ = 10 3
점수 8 9 10 11 12 2
하한=8
도수 1 2 3 2 1 1
상한=12 0
범위=4 8 10 12
도수

점수 8 9 10 11 12
• μ = 10 8
6
하한=8 4
도수 1 0 8 0 1
상한=12 2
0
범위=4 8 10 12
도수

3 8
2 6
4
1
2
0 0
8 10 12 8 10 12
도수 도수

• μ = 10 • μ = 10
하한=8 하한=8
상한=12 상한=12
범위=4 범위=4

데이터 분포는 다른데,
범위는 동일하게 나왔다.

이상치(outlier)의 문제점
5
선수 A 선수 B
4

3

2

1

0
0 1 2 3 4 5 6 7 8 9 10
선수 A의 범위

선수 B의 범위

이상치에 민감하지 않는
범위를 만들 수 있을까?

사분위수(quartile)
Q1 Q2 Q3
11122 22333 33444 4 5 5 5 10

• 데이터를 동일한 4개의 크기로 나누는 값

• 하한 사분위수(lower quartile, Q1)
- 값이 가장 작은 사분위수

• 상한 사분위수(upper quartile, Q3)
- 값이 가장 큰 사분위수

• 사분범위(interquartile range, IQR)
- 사분범위 =
상한 사분위수 - 하한 사분위수

사분범위는 이상치를 포함하지 않음

Q1 Q2 Q3
11122 22333 33444 4 5 5 5 10

• 하한 사분위수 • 상한 사분위수
q1 = n/4 q3 = 3*n/4
q1 == 정수 ? q1 : q3 == 정수 ? q1 :
round(q1) round(q1)
이상치를 제외하여 데이터가 왜곡되지
않는 '미니'범위 사용.

연습 문제
점수 3 6 7 10 11 13 30

도수 2 1 2 3 1 1 1

• 이 데이터 집합의 범위를 구하세요.
• 상한 사분위수와 하한 사분위수를 구하
세요.
• 사분범위를 구하세요.

바보 같은 질문은 없습니다
• 사분위수 어쩌고 저쩌고 하는 것들의 요
점이 무엇입니까? 계산과정이 매우 귀찮
아 보입니다.
• 데이터분포 방식을 범위만 가지고 설
명하면 이상치에 민감하다는 약점.
• 이러한 이상치를 제거하기 위해 가운
데 50%의 데이터만 집중함.

백분위수(percentiles)

• 백분위수는 데이터를 퍼센트로 나누는
값.
• 사분위수도 백분위수의 한 종류.

상자수염 다이어그램
(box and whisker diagram)

• 데이터 집합의 범위, 사분범위

사분범위, 중앙값을
나타냄.
• 데이터가 이상치를
포함하고 있으면 수
염의 길이가 길어지
므로 데이터 편향을
알 수 있음.

연습 문제

선수 A 선수 B
선수

0 2 4 6 8 10 12 14 16 18 20 22 24 26 28 30
점수

어느 선수가 안정적인지?
선수 A 선수 B

• 선수 A는 시합당일
컨디션에 많은 영향
을 받는다.
• 선수 B는 시합에서
점수를 예측가능 0 1 2 3 4 5 6 7 8

바보같은 질문이란 없습니다

• 점수가 얼마나 안정적인지 살펴보기 위해서는
그냥 사분범위를 사용하면 되지 않나요?

• 사분범위는 데이터의 분포를 측정하기 위해
데이터의 일부를 사용하는 방법입니다. 만약
어떤 선수가 매우 나쁜 점수를 기록했다면 점
수는 사분범위에 포함되지 않습니다. 안정성
과 일관성을 측정하려면 모든 점수를 고려해
야 합니다.

평균거리 계산하기
1 2 3 4 5 6 7 8 9
거리=3

거리=2 거리=-5

• 1, 2, 9 가 있을 때 평균값은 4.
• 평균거리 = (3+2+(-5))/3 = 0
• 평균거리는 언제나 0

분산(variance)

• 분산은 분포를 측정하는 방법.
• 평균값으로부터의 거리를 제곱해서 평균
을 구한 값.
• 분산 = ∑(x-")^2/n

표준 편차
(Standard deviation)

• # = √분산
• #^2 = 분산

연습 문제

• 평균값과 표준편차 ?
• 1, 2, 3, 4, 5, 6, 7
• 1, 2, 3, 4, 5, 6

분산

• 분산 = ∑x^2/n - "^2

연습 문제
• 표준 편차?
• 가장 안정적인 실력을 가진 선수는?
점수 7 9 10 11 13

도수 1 2 4 2 1

점수 7 8 9 10 11 12 13

도수 1 1 2 2 2 1 1

점수 3 6 7 10 11 13 30

도수 2 1 2 3 1 1 1

• 선수 1 이 표준편차가 가장 작고,
선수 3 의 표준편차가 가장 크다.
• 선수 1이 가장 안정적이고,
선수 3이 제일 불안정하다.

표준점수(standard score), z점수(z-score)

• 평균값과 표준편차를 이용해서 데이터
안에 있는 값들을 일반적인 분포 형태로
변환하여 서로 다른 데이터 집합을 비교
하는 방법.
• z = (x-")/#
• 표준 점수 = 평균값으로부터의 표준편차
의 수.

바보 같은 질문이란 없습니다.

• 표준점수는 이상치를 검출하는 것과 무
슨 상관이 있나요?
• 일반적으로 이상치는 평균값으로부터
의 표준편차가 3이상인 값들로 정의.

Hfs-ch3

Recommended

Recommended

More Related Content

More from Kyungryul KIM

More from Kyungryul KIM (20)

Recently uploaded

Recently uploaded (6)

Hfs-ch3

Editor's Notes