SlideShare a Scribd company logo
1 of 27
3 변이와 분포 측정하
    강력한 범위
평균값이 동일한 경우

• 3명의 선수중 평균   점수   7   8   9   10 11 12 13
  점수가 모두 같은    도수   1   1   2   2       2        1    1
  경우, 한명의 선수
               점수       7   9    10         11       13
  를 선택해야 한다
               도수       1   2       4       2        1
  면?
• 평균이외의 다른     점수   3   6   7   10 11 13 30

  정보가 필요함.     도수   2   1   2   3       1        1   1
점수   7   8   9   10 11 12 13

도수   1   1   2   2       2        1    1

점수       7   9    10         11       13

도수       1   2       4       2        1

점수   3   6   7   10 11 13 30

도수   2   1   2   3       1        1   1
데이터 집합을
   구별하기 위해 범위(range) 사용
• 평균은 데이터분포 정보가 없으므로 동일한 평
  균에 대한 정보가 부족하다.
• 점수가 평균을 중심으로 어떻게 분포되어 있는
  지 확인하여 데이터들을 구분할 수 있다.
• 서로 다른게 분포된 방식을 측정할 수 있으면 선
  수 선택 도움이 된다. 18
               12
               6
               0
                    0   1   2   3   4   5   6   7   8
범위 측정
     7 8 9 9 10 10 11 12 13
                               상한
하한
               범위



• 범위(range)는 데이터가 얼마나 많은 숫
  자 값을 포함하고 있는지 나타냄 => 폭
• 하한(lower bound) - 가장 작은 값.
• 상한(upper bound) - 가장 큰 값.
연습 문제


• 다음 데이터 집합에 평균값, 하한, 상한, 그리고
  범위를 구하고 차트를 그려 보세요?
• 분포? 범위가 차이를 확인하는데 도움이 되는
  지?
연습 문제
                            • μ = 10   3
점수   8   9   10   11   12              2
                              하한=8
도수   1   2   3    2    1               1
                              상한=12    0
                              범위=4         8   10   12
                                               도수

점수   8   9   10   11   12
                            • μ = 10   8
                                       6
                              하한=8     4
도수   1   0   8    0    1
                              상한=12    2
                                       0
                              범위=4         8   10   12
                                               도수
3                  8
2                  6
                   4
1
                   2
0                  0
    8   10    12       8   10   12
         도수                도수


        • μ = 10   • μ = 10
          하한=8       하한=8
          상한=12      상한=12
          범위=4       범위=4

 데이터 분포는 다른데,
범위는 동일하게 나왔다.
이상치(outlier)의 문제점
5
                                 선수 A       선수 B
4

3

2

1

0
    0   1   2   3   4    5   6     7    8   9   10
            선수 A의 범위

                        선수 B의 범위

            이상치에 민감하지 않는
            범위를 만들 수 있을까?
사분위수(quartile)
        Q1             Q2            Q3
11122        22333          33444         4 5 5 5 10


  • 데이터를 동일한 4개의 크기로 나누는 값

  • 하한 사분위수(lower quartile, Q1)
    - 값이 가장 작은 사분위수

  • 상한 사분위수(upper quartile, Q3)
    - 값이 가장 큰 사분위수

  • 사분범위(interquartile range, IQR)
    - 사분범위 =
    상한 사분위수 - 하한 사분위수
사분범위는 이상치를 포함하지 않음

        Q1           Q2           Q3
11122        22333        33444        4 5 5 5 10


• 하한 사분위수                 • 상한 사분위수
  q1 = n/4                  q3 = 3*n/4
  q1 == 정수 ? q1 :           q3 == 정수 ? q1 :
  round(q1)                 round(q1)
    이상치를 제외하여 데이터가 왜곡되지
        않는 '미니'범위 사용.
연습 문제
    점수   3   6   7   10 11 13 30

    도수   2   1   2   3   1   1   1



• 이 데이터 집합의 범위를 구하세요.
• 상한 사분위수와 하한 사분위수를 구하
  세요.
• 사분범위를 구하세요.
바보 같은 질문은 없습니다
 • 사분위수 어쩌고 저쩌고 하는 것들의 요
   점이 무엇입니까? 계산과정이 매우 귀찮
   아 보입니다.
  • 데이터분포 방식을 범위만 가지고 설
    명하면 이상치에 민감하다는 약점.
  • 이러한 이상치를 제거하기 위해 가운
    데 50%의 데이터만 집중함.
백분위수(percentiles)


• 백분위수는 데이터를 퍼센트로 나누는
  값.
• 사분위수도 백분위수의 한 종류.
상자수염 다이어그램
    (box and whisker diagram)

• 데이터 집합의 범위,        사분범위

  사분범위, 중앙값을
  나타냄.
• 데이터가 이상치를
  포함하고 있으면 수
  염의 길이가 길어지
  므로 데이터 편향을
  알 수 있음.
연습 문제

                                        선수 A       선수 B
선수




     0   2   4   6   8   10 12 14 16 18 20 22 24 26 28 30
                               점수
어느 선수가 안정적인지?
                           선수 A        선수 B



• 선수 A는 시합당일
  컨디션에 많은 영향
  을 받는다.
• 선수 B는 시합에서
  점수를 예측가능     0   1   2   3   4   5   6   7   8
바보같은 질문이란 없습니다

• 점수가 얼마나 안정적인지 살펴보기 위해서는
  그냥 사분범위를 사용하면 되지 않나요?

 • 사분범위는 데이터의 분포를 측정하기 위해
   데이터의 일부를 사용하는 방법입니다. 만약
   어떤 선수가 매우 나쁜 점수를 기록했다면 점
   수는 사분범위에 포함되지 않습니다. 안정성
   과 일관성을 측정하려면 모든 점수를 고려해
   야 합니다.
평균거리 계산하기
      1 2 3 4 5 6 7 8 9
        거리=3

         거리=2    거리=-5



• 1, 2, 9 가 있을 때 평균값은 4.
• 평균거리 = (3+2+(-5))/3 = 0
• 평균거리는 언제나 0
분산(variance)

• 분산은 분포를 측정하는 방법.
• 평균값으로부터의 거리를 제곱해서 평균
  을 구한 값.
• 분산 = ∑(x-")^2/n
표준 편차
      (Standard deviation)




• # = √분산
• #^2 = 분산
연습 문제


• 평균값과 표준편차 ?
• 1, 2, 3, 4, 5, 6, 7
• 1, 2, 3, 4, 5, 6
분산



• 분산 = ∑x^2/n - "^2
연습 문제
 • 표준 편차?
 • 가장 안정적인 실력을 가진 선수는?
점수       7   9    10         11       13

도수       1   2       4       2        1

점수   7   8   9   10 11 12 13

도수   1   1   2   2       2        1   1

점수   3   6   7   10 11 13 30

도수   2   1   2   3       1        1   1
• 선수 1 이 표준편차가 가장 작고,
  선수 3 의 표준편차가 가장 크다.
• 선수 1이 가장 안정적이고,
  선수 3이 제일 불안정하다.
표준점수(standard score), z점수(z-score)


  • 평균값과 표준편차를 이용해서 데이터
    안에 있는 값들을 일반적인 분포 형태로
    변환하여 서로 다른 데이터 집합을 비교
    하는 방법.
  • z = (x-")/#
  • 표준 점수 = 평균값으로부터의 표준편차
    의 수.
바보 같은 질문이란 없습니다.


• 표준점수는 이상치를 검출하는 것과 무
  슨 상관이 있나요?
 • 일반적으로 이상치는 평균값으로부터
   의 표준편차가 3이상인 값들로 정의.

More Related Content

More from Kyungryul KIM

전문검색기술도전
전문검색기술도전전문검색기술도전
전문검색기술도전Kyungryul KIM
 
Nib_NSWindowController
Nib_NSWindowControllerNib_NSWindowController
Nib_NSWindowControllerKyungryul KIM
 
서버인프라를지탱하는기술5 1 2
서버인프라를지탱하는기술5 1 2서버인프라를지탱하는기술5 1 2
서버인프라를지탱하는기술5 1 2Kyungryul KIM
 
Chaper24 languages high_and_low
Chaper24 languages high_and_lowChaper24 languages high_and_low
Chaper24 languages high_and_lowKyungryul KIM
 
Ch22 운영체제
Ch22 운영체제Ch22 운영체제
Ch22 운영체제Kyungryul KIM
 

More from Kyungryul KIM (20)

Ch4 pugixml
Ch4 pugixmlCh4 pugixml
Ch4 pugixml
 
Node ch12
Node ch12Node ch12
Node ch12
 
11.scripting
11.scripting11.scripting
11.scripting
 
32 osx app_release
32 osx app_release32 osx app_release
32 osx app_release
 
Meteor ddp
Meteor ddpMeteor ddp
Meteor ddp
 
Cocos2dx 7.1-7.2
Cocos2dx 7.1-7.2Cocos2dx 7.1-7.2
Cocos2dx 7.1-7.2
 
Cocos2 d x-7.3_4
Cocos2 d x-7.3_4Cocos2 d x-7.3_4
Cocos2 d x-7.3_4
 
Cocos2d x-ch5-1
Cocos2d x-ch5-1Cocos2d x-ch5-1
Cocos2d x-ch5-1
 
Coco2d x
Coco2d xCoco2d x
Coco2d x
 
23 drag drop
23 drag drop23 drag drop
23 drag drop
 
Hadoop ch5
Hadoop ch5Hadoop ch5
Hadoop ch5
 
전문검색기술도전
전문검색기술도전전문검색기술도전
전문검색기술도전
 
Nib_NSWindowController
Nib_NSWindowControllerNib_NSWindowController
Nib_NSWindowController
 
Dsas
DsasDsas
Dsas
 
서버인프라를지탱하는기술5 1 2
서버인프라를지탱하는기술5 1 2서버인프라를지탱하는기술5 1 2
서버인프라를지탱하는기술5 1 2
 
Chaper24 languages high_and_low
Chaper24 languages high_and_lowChaper24 languages high_and_low
Chaper24 languages high_and_low
 
Ch22 운영체제
Ch22 운영체제Ch22 운영체제
Ch22 운영체제
 
Mibis ch20
Mibis ch20Mibis ch20
Mibis ch20
 
Mibis ch15
Mibis ch15Mibis ch15
Mibis ch15
 
Mibis ch8
Mibis ch8Mibis ch8
Mibis ch8
 

Recently uploaded

A future that integrates LLMs and LAMs (Symposium)
A future that integrates LLMs and LAMs (Symposium)A future that integrates LLMs and LAMs (Symposium)
A future that integrates LLMs and LAMs (Symposium)Tae Young Lee
 
캐드앤그래픽스 2024년 5월호 목차
캐드앤그래픽스 2024년 5월호 목차캐드앤그래픽스 2024년 5월호 목차
캐드앤그래픽스 2024년 5월호 목차캐드앤그래픽스
 
MOODv2 : Masked Image Modeling for Out-of-Distribution Detection
MOODv2 : Masked Image Modeling for Out-of-Distribution DetectionMOODv2 : Masked Image Modeling for Out-of-Distribution Detection
MOODv2 : Masked Image Modeling for Out-of-Distribution DetectionKim Daeun
 
Console API (Kitworks Team Study 백혜인 발표자료)
Console API (Kitworks Team Study 백혜인 발표자료)Console API (Kitworks Team Study 백혜인 발표자료)
Console API (Kitworks Team Study 백혜인 발표자료)Wonjun Hwang
 
Merge (Kitworks Team Study 이성수 발표자료 240426)
Merge (Kitworks Team Study 이성수 발표자료 240426)Merge (Kitworks Team Study 이성수 발표자료 240426)
Merge (Kitworks Team Study 이성수 발표자료 240426)Wonjun Hwang
 
Continual Active Learning for Efficient Adaptation of Machine LearningModels ...
Continual Active Learning for Efficient Adaptation of Machine LearningModels ...Continual Active Learning for Efficient Adaptation of Machine LearningModels ...
Continual Active Learning for Efficient Adaptation of Machine LearningModels ...Kim Daeun
 

Recently uploaded (6)

A future that integrates LLMs and LAMs (Symposium)
A future that integrates LLMs and LAMs (Symposium)A future that integrates LLMs and LAMs (Symposium)
A future that integrates LLMs and LAMs (Symposium)
 
캐드앤그래픽스 2024년 5월호 목차
캐드앤그래픽스 2024년 5월호 목차캐드앤그래픽스 2024년 5월호 목차
캐드앤그래픽스 2024년 5월호 목차
 
MOODv2 : Masked Image Modeling for Out-of-Distribution Detection
MOODv2 : Masked Image Modeling for Out-of-Distribution DetectionMOODv2 : Masked Image Modeling for Out-of-Distribution Detection
MOODv2 : Masked Image Modeling for Out-of-Distribution Detection
 
Console API (Kitworks Team Study 백혜인 발표자료)
Console API (Kitworks Team Study 백혜인 발표자료)Console API (Kitworks Team Study 백혜인 발표자료)
Console API (Kitworks Team Study 백혜인 발표자료)
 
Merge (Kitworks Team Study 이성수 발표자료 240426)
Merge (Kitworks Team Study 이성수 발표자료 240426)Merge (Kitworks Team Study 이성수 발표자료 240426)
Merge (Kitworks Team Study 이성수 발표자료 240426)
 
Continual Active Learning for Efficient Adaptation of Machine LearningModels ...
Continual Active Learning for Efficient Adaptation of Machine LearningModels ...Continual Active Learning for Efficient Adaptation of Machine LearningModels ...
Continual Active Learning for Efficient Adaptation of Machine LearningModels ...
 

Hfs-ch3

  • 1. 3 변이와 분포 측정하 강력한 범위
  • 2. 평균값이 동일한 경우 • 3명의 선수중 평균 점수 7 8 9 10 11 12 13 점수가 모두 같은 도수 1 1 2 2 2 1 1 경우, 한명의 선수 점수 7 9 10 11 13 를 선택해야 한다 도수 1 2 4 2 1 면? • 평균이외의 다른 점수 3 6 7 10 11 13 30 정보가 필요함. 도수 2 1 2 3 1 1 1
  • 3. 점수 7 8 9 10 11 12 13 도수 1 1 2 2 2 1 1 점수 7 9 10 11 13 도수 1 2 4 2 1 점수 3 6 7 10 11 13 30 도수 2 1 2 3 1 1 1
  • 4. 데이터 집합을 구별하기 위해 범위(range) 사용 • 평균은 데이터분포 정보가 없으므로 동일한 평 균에 대한 정보가 부족하다. • 점수가 평균을 중심으로 어떻게 분포되어 있는 지 확인하여 데이터들을 구분할 수 있다. • 서로 다른게 분포된 방식을 측정할 수 있으면 선 수 선택 도움이 된다. 18 12 6 0 0 1 2 3 4 5 6 7 8
  • 5. 범위 측정 7 8 9 9 10 10 11 12 13 상한 하한 범위 • 범위(range)는 데이터가 얼마나 많은 숫 자 값을 포함하고 있는지 나타냄 => 폭 • 하한(lower bound) - 가장 작은 값. • 상한(upper bound) - 가장 큰 값.
  • 6. 연습 문제 • 다음 데이터 집합에 평균값, 하한, 상한, 그리고 범위를 구하고 차트를 그려 보세요? • 분포? 범위가 차이를 확인하는데 도움이 되는 지?
  • 7. 연습 문제 • μ = 10 3 점수 8 9 10 11 12 2 하한=8 도수 1 2 3 2 1 1 상한=12 0 범위=4 8 10 12 도수 점수 8 9 10 11 12 • μ = 10 8 6 하한=8 4 도수 1 0 8 0 1 상한=12 2 0 범위=4 8 10 12 도수
  • 8. 3 8 2 6 4 1 2 0 0 8 10 12 8 10 12 도수 도수 • μ = 10 • μ = 10 하한=8 하한=8 상한=12 상한=12 범위=4 범위=4 데이터 분포는 다른데, 범위는 동일하게 나왔다.
  • 9. 이상치(outlier)의 문제점 5 선수 A 선수 B 4 3 2 1 0 0 1 2 3 4 5 6 7 8 9 10 선수 A의 범위 선수 B의 범위 이상치에 민감하지 않는 범위를 만들 수 있을까?
  • 10. 사분위수(quartile) Q1 Q2 Q3 11122 22333 33444 4 5 5 5 10 • 데이터를 동일한 4개의 크기로 나누는 값 • 하한 사분위수(lower quartile, Q1) - 값이 가장 작은 사분위수 • 상한 사분위수(upper quartile, Q3) - 값이 가장 큰 사분위수 • 사분범위(interquartile range, IQR) - 사분범위 = 상한 사분위수 - 하한 사분위수
  • 11. 사분범위는 이상치를 포함하지 않음 Q1 Q2 Q3 11122 22333 33444 4 5 5 5 10 • 하한 사분위수 • 상한 사분위수 q1 = n/4 q3 = 3*n/4 q1 == 정수 ? q1 : q3 == 정수 ? q1 : round(q1) round(q1) 이상치를 제외하여 데이터가 왜곡되지 않는 '미니'범위 사용.
  • 12. 연습 문제 점수 3 6 7 10 11 13 30 도수 2 1 2 3 1 1 1 • 이 데이터 집합의 범위를 구하세요. • 상한 사분위수와 하한 사분위수를 구하 세요. • 사분범위를 구하세요.
  • 13. 바보 같은 질문은 없습니다 • 사분위수 어쩌고 저쩌고 하는 것들의 요 점이 무엇입니까? 계산과정이 매우 귀찮 아 보입니다. • 데이터분포 방식을 범위만 가지고 설 명하면 이상치에 민감하다는 약점. • 이러한 이상치를 제거하기 위해 가운 데 50%의 데이터만 집중함.
  • 14. 백분위수(percentiles) • 백분위수는 데이터를 퍼센트로 나누는 값. • 사분위수도 백분위수의 한 종류.
  • 15. 상자수염 다이어그램 (box and whisker diagram) • 데이터 집합의 범위, 사분범위 사분범위, 중앙값을 나타냄. • 데이터가 이상치를 포함하고 있으면 수 염의 길이가 길어지 므로 데이터 편향을 알 수 있음.
  • 16. 연습 문제 선수 A 선수 B 선수 0 2 4 6 8 10 12 14 16 18 20 22 24 26 28 30 점수
  • 17. 어느 선수가 안정적인지? 선수 A 선수 B • 선수 A는 시합당일 컨디션에 많은 영향 을 받는다. • 선수 B는 시합에서 점수를 예측가능 0 1 2 3 4 5 6 7 8
  • 18. 바보같은 질문이란 없습니다 • 점수가 얼마나 안정적인지 살펴보기 위해서는 그냥 사분범위를 사용하면 되지 않나요? • 사분범위는 데이터의 분포를 측정하기 위해 데이터의 일부를 사용하는 방법입니다. 만약 어떤 선수가 매우 나쁜 점수를 기록했다면 점 수는 사분범위에 포함되지 않습니다. 안정성 과 일관성을 측정하려면 모든 점수를 고려해 야 합니다.
  • 19. 평균거리 계산하기 1 2 3 4 5 6 7 8 9 거리=3 거리=2 거리=-5 • 1, 2, 9 가 있을 때 평균값은 4. • 평균거리 = (3+2+(-5))/3 = 0 • 평균거리는 언제나 0
  • 20. 분산(variance) • 분산은 분포를 측정하는 방법. • 평균값으로부터의 거리를 제곱해서 평균 을 구한 값. • 분산 = ∑(x-")^2/n
  • 21. 표준 편차 (Standard deviation) • # = √분산 • #^2 = 분산
  • 22. 연습 문제 • 평균값과 표준편차 ? • 1, 2, 3, 4, 5, 6, 7 • 1, 2, 3, 4, 5, 6
  • 23. 분산 • 분산 = ∑x^2/n - "^2
  • 24. 연습 문제 • 표준 편차? • 가장 안정적인 실력을 가진 선수는? 점수 7 9 10 11 13 도수 1 2 4 2 1 점수 7 8 9 10 11 12 13 도수 1 1 2 2 2 1 1 점수 3 6 7 10 11 13 30 도수 2 1 2 3 1 1 1
  • 25. • 선수 1 이 표준편차가 가장 작고, 선수 3 의 표준편차가 가장 크다. • 선수 1이 가장 안정적이고, 선수 3이 제일 불안정하다.
  • 26. 표준점수(standard score), z점수(z-score) • 평균값과 표준편차를 이용해서 데이터 안에 있는 값들을 일반적인 분포 형태로 변환하여 서로 다른 데이터 집합을 비교 하는 방법. • z = (x-")/# • 표준 점수 = 평균값으로부터의 표준편차 의 수.
  • 27. 바보 같은 질문이란 없습니다. • 표준점수는 이상치를 검출하는 것과 무 슨 상관이 있나요? • 일반적으로 이상치는 평균값으로부터 의 표준편차가 3이상인 값들로 정의.

Editor's Notes

  1. \n
  2. \n
  3. \n
  4. \n
  5. \n
  6. \n
  7. \n
  8. \n
  9. \n
  10. \n
  11. \n
  12. \n
  13. \n
  14. \n
  15. \n
  16. \n
  17. \n
  18. \n
  19. \n
  20. \n
  21. \n
  22. \n
  23. \n
  24. \n
  25. \n
  26. \n
  27. \n