Hfs-ch3

1,294 views
1,032 views

Published on

Published in: Technology
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
1,294
On SlideShare
0
From Embeds
0
Number of Embeds
2
Actions
Shares
0
Downloads
3
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • Hfs-ch3

    1. 1. 3 변이와 분포 측정하 강력한 범위
    2. 2. 평균값이 동일한 경우• 3명의 선수중 평균 점수 7 8 9 10 11 12 13 점수가 모두 같은 도수 1 1 2 2 2 1 1 경우, 한명의 선수 점수 7 9 10 11 13 를 선택해야 한다 도수 1 2 4 2 1 면?• 평균이외의 다른 점수 3 6 7 10 11 13 30 정보가 필요함. 도수 2 1 2 3 1 1 1
    3. 3. 점수 7 8 9 10 11 12 13도수 1 1 2 2 2 1 1점수 7 9 10 11 13도수 1 2 4 2 1점수 3 6 7 10 11 13 30도수 2 1 2 3 1 1 1
    4. 4. 데이터 집합을 구별하기 위해 범위(range) 사용• 평균은 데이터분포 정보가 없으므로 동일한 평 균에 대한 정보가 부족하다.• 점수가 평균을 중심으로 어떻게 분포되어 있는 지 확인하여 데이터들을 구분할 수 있다.• 서로 다른게 분포된 방식을 측정할 수 있으면 선 수 선택 도움이 된다. 18 12 6 0 0 1 2 3 4 5 6 7 8
    5. 5. 범위 측정 7 8 9 9 10 10 11 12 13 상한하한 범위• 범위(range)는 데이터가 얼마나 많은 숫 자 값을 포함하고 있는지 나타냄 => 폭• 하한(lower bound) - 가장 작은 값.• 상한(upper bound) - 가장 큰 값.
    6. 6. 연습 문제• 다음 데이터 집합에 평균값, 하한, 상한, 그리고 범위를 구하고 차트를 그려 보세요?• 분포? 범위가 차이를 확인하는데 도움이 되는 지?
    7. 7. 연습 문제 • μ = 10 3점수 8 9 10 11 12 2 하한=8도수 1 2 3 2 1 1 상한=12 0 범위=4 8 10 12 도수점수 8 9 10 11 12 • μ = 10 8 6 하한=8 4도수 1 0 8 0 1 상한=12 2 0 범위=4 8 10 12 도수
    8. 8. 3 82 6 41 20 0 8 10 12 8 10 12 도수 도수 • μ = 10 • μ = 10 하한=8 하한=8 상한=12 상한=12 범위=4 범위=4 데이터 분포는 다른데,범위는 동일하게 나왔다.
    9. 9. 이상치(outlier)의 문제점5 선수 A 선수 B43210 0 1 2 3 4 5 6 7 8 9 10 선수 A의 범위 선수 B의 범위 이상치에 민감하지 않는 범위를 만들 수 있을까?
    10. 10. 사분위수(quartile) Q1 Q2 Q311122 22333 33444 4 5 5 5 10 • 데이터를 동일한 4개의 크기로 나누는 값 • 하한 사분위수(lower quartile, Q1) - 값이 가장 작은 사분위수 • 상한 사분위수(upper quartile, Q3) - 값이 가장 큰 사분위수 • 사분범위(interquartile range, IQR) - 사분범위 = 상한 사분위수 - 하한 사분위수
    11. 11. 사분범위는 이상치를 포함하지 않음 Q1 Q2 Q311122 22333 33444 4 5 5 5 10• 하한 사분위수 • 상한 사분위수 q1 = n/4 q3 = 3*n/4 q1 == 정수 ? q1 : q3 == 정수 ? q1 : round(q1) round(q1) 이상치를 제외하여 데이터가 왜곡되지 않는 미니범위 사용.
    12. 12. 연습 문제 점수 3 6 7 10 11 13 30 도수 2 1 2 3 1 1 1• 이 데이터 집합의 범위를 구하세요.• 상한 사분위수와 하한 사분위수를 구하 세요.• 사분범위를 구하세요.
    13. 13. 바보 같은 질문은 없습니다 • 사분위수 어쩌고 저쩌고 하는 것들의 요 점이 무엇입니까? 계산과정이 매우 귀찮 아 보입니다. • 데이터분포 방식을 범위만 가지고 설 명하면 이상치에 민감하다는 약점. • 이러한 이상치를 제거하기 위해 가운 데 50%의 데이터만 집중함.
    14. 14. 백분위수(percentiles)• 백분위수는 데이터를 퍼센트로 나누는 값.• 사분위수도 백분위수의 한 종류.
    15. 15. 상자수염 다이어그램 (box and whisker diagram)• 데이터 집합의 범위, 사분범위 사분범위, 중앙값을 나타냄.• 데이터가 이상치를 포함하고 있으면 수 염의 길이가 길어지 므로 데이터 편향을 알 수 있음.
    16. 16. 연습 문제 선수 A 선수 B선수 0 2 4 6 8 10 12 14 16 18 20 22 24 26 28 30 점수
    17. 17. 어느 선수가 안정적인지? 선수 A 선수 B• 선수 A는 시합당일 컨디션에 많은 영향 을 받는다.• 선수 B는 시합에서 점수를 예측가능 0 1 2 3 4 5 6 7 8
    18. 18. 바보같은 질문이란 없습니다• 점수가 얼마나 안정적인지 살펴보기 위해서는 그냥 사분범위를 사용하면 되지 않나요? • 사분범위는 데이터의 분포를 측정하기 위해 데이터의 일부를 사용하는 방법입니다. 만약 어떤 선수가 매우 나쁜 점수를 기록했다면 점 수는 사분범위에 포함되지 않습니다. 안정성 과 일관성을 측정하려면 모든 점수를 고려해 야 합니다.
    19. 19. 평균거리 계산하기 1 2 3 4 5 6 7 8 9 거리=3 거리=2 거리=-5• 1, 2, 9 가 있을 때 평균값은 4.• 평균거리 = (3+2+(-5))/3 = 0• 평균거리는 언제나 0
    20. 20. 분산(variance)• 분산은 분포를 측정하는 방법.• 평균값으로부터의 거리를 제곱해서 평균 을 구한 값.• 분산 = ∑(x-")^2/n
    21. 21. 표준 편차 (Standard deviation)• # = √분산• #^2 = 분산
    22. 22. 연습 문제• 평균값과 표준편차 ?• 1, 2, 3, 4, 5, 6, 7• 1, 2, 3, 4, 5, 6
    23. 23. 분산• 분산 = ∑x^2/n - "^2
    24. 24. 연습 문제 • 표준 편차? • 가장 안정적인 실력을 가진 선수는?점수 7 9 10 11 13도수 1 2 4 2 1점수 7 8 9 10 11 12 13도수 1 1 2 2 2 1 1점수 3 6 7 10 11 13 30도수 2 1 2 3 1 1 1
    25. 25. • 선수 1 이 표준편차가 가장 작고, 선수 3 의 표준편차가 가장 크다.• 선수 1이 가장 안정적이고, 선수 3이 제일 불안정하다.
    26. 26. 표준점수(standard score), z점수(z-score) • 평균값과 표준편차를 이용해서 데이터 안에 있는 값들을 일반적인 분포 형태로 변환하여 서로 다른 데이터 집합을 비교 하는 방법. • z = (x-")/# • 표준 점수 = 평균값으로부터의 표준편차 의 수.
    27. 27. 바보 같은 질문이란 없습니다.• 표준점수는 이상치를 검출하는 것과 무 슨 상관이 있나요? • 일반적으로 이상치는 평균값으로부터 의 표준편차가 3이상인 값들로 정의.

    ×