단일 표본에서의 평균비교와
모비율검정
단일 표본의 평균비교
• 기본가정 : 모집단의 분포는 정규분포
– 표본의 정규성 검정
– R에서의 검정 방법 : Shapiro-Wilk normality test
• 영가설 : 표본의 분포는 정규분포이다.
• 대안가설 : 표본의 분포는 정규분포가 아니다.

– 예제) R의 내장 자료인 mtcars는 1974년 미국의
Motor Trend 잡지로부터 32개의 자동차 모델의 연
비 및 특성을 추출한 자료로 이들 중 수동미션을 채용
한 (am==1) 13개의 자동차의 연비는 정규분포를 이
루고 있는지 검정해보자.

한림대학교 이윤환(http://fb.com/yoonani72)
단일표본의 평균비교
> shapiro.test(mtcars$mpg[mtcars$am==1 ])
Shapiro-Wilk normality test
data: mtcars$mpg[mtcars$am == 1]
W = 0.9458, p-value = 0.5363

– 유의수준을 0.05로 할 때 p-value가 0.5363으로,
표본의 분포가 정규분포를 따른다는 영가설을 채택할 수 있
으며,
이를 바탕으로 정규모집단에서 추출한 표본으로 판단한다.
• 만족하지 못할 경우 비모수 방법을 통한 검정 실시

한림대학교 이윤환(http://fb.com/yoonani72)
단일 표본의 평균비교
• 대표본이고 모집단의 분산을 알 경우
– 표준정규분포를 이용한 z-test 실시

• 대표본이고 모집단의 분산을 모를 경우
– 표본의 개수가 증가(자유도 증가)할 경우 t-분포가 정
규분포에 근사
– 모표준편차의 추정량인 표본표준편차를 이용한 ztest 실시

• 소표본이고 모집단의 분산을 모를 경우
– t-분포를 이용한 t-test 실시

한림대학교 이윤환(http://fb.com/yoonani72)
단일 표본 t-test
• 1973년부터 1974년까지 미국에서 생산된 자동
차들의 평균 연비는 갤런당 20마일(20mpg)로
알려져 있다. 수동미션 차량들이 자동미션 차량
보다 연비가 좋다는 것을 밝히기 위해 수동 미션
차량들의 연비는 20mpg보다 크다고 할 수 있는
지 유의수준 0.05에서 검정하시오.
–
–
–
–

표본의 개수는 한 개 : 갤런당 마일(mpg)
모집단의 분산을 알지 못함
대표본으로 보기 힘듦 (13개의 표본)
단일 표본 t-test 실시
한림대학교 이윤환(http://fb.com/yoonani72)
단일 표본 t-test
• 가설 수립
– 영가설 : μ = 20𝑚𝑝𝑔
– 대안가설 : μ > 20𝑚𝑝𝑔

• 분석을 위한 R 함수
– t.test(x, mu=𝐻0 ,
alternative=(“less”|”greater”|”two.sided”))
• X : 분석에 사용할 데이터
• mu : 영가설하에서의 모평균
• alternative : 대안가설에 따라 “less”, “greater”,
“two.sided” 중에 하나 입력 (생략시 “two.sided”)

한림대학교 이윤환(http://fb.com/yoonani72)
단일표본 t-test
> t.test(mtcars$mpg[mtcars$am==1 ], mu=20, alternative="greater")
One Sample t-test

data: mtcars$mpg[mtcars$am == 1]
t = 2.5682, df = 12, p-value = 0.01231
alternative hypothesis: true mean is greater than 20
95 percent confidence interval:
21.3441
Inf
sample estimates:
mean of x
24.39231

한림대학교 이윤환(http://fb.com/yoonani72)
두 표본의 평균 비교
• 짝을 이룬 두 표본(대응표본)의 검정
– 어떤 처치의 효과를 입증하기 위해 해당 하는 처치를 하기
전의 관찰값을 구하고 동일한 표본으로 부터 처치를 시행한
후 관찰값을 구한 후 둘 사이의 차이가 있는지를 알고 싶다.
• Ex) 병원 등에서 치료 전과 치료 후 치료의 효과가 있는지를 알
고 싶은 경우

– 둘 사이에 차이가 없는 경우는 다음과 같이 될 것이다.
• “치료전 관찰값 – 치료후 관찰값”의 평균은 0
즉, 𝜇치료전−치료후 = 0

– “치료전 관찰값 – 치료후 관찰값” 이 0이면 차이가 없는 것
이고 그렇지 않다면 차이가 있는 것으로 보는 검정 방법

한림대학교 이윤환(http://fb.com/yoonani72)
두 표본의 평균 비교
– 가정
• “치료전 관찰값 – 치료후 관찰값”의 분포는 정규분포를 따라
야 한다.
– 예제) 새로 시판되는 한 다이어트 약의 효과를 알아보기 위하여
성인 남녀 7명의 체중을 다이어트약 복용전에 측정하고, 다이어
트 약의 복용방법에 따라 1개월 간 복용한 다음, 다시 그들의 체
중을 측정한 결과가 다음의 표와 같다.
이 자료로부터 다이어트 약에 효과가 있는지를 유의수준 0.05에
서 검정하라. (노맹석 외, 기초통계학 – R을 이용한 통계분석, 자
유아카데미, 2011년, P268)
복용전

59

72

85

69

78

82

55

복용후

54

65

84

63

72

83

51

한림대학교 이윤환(http://fb.com/yoonani72)
두 표본의 평균 비교
– Step 1) 데이터 입력
> pre <- c(59, 72, 85, 69, 78, 82, 55)
> post <- c(54, 65, 84, 63, 72, 83, 51)

– Step 2) 두 집단의 순서쌍 별로 차이를 구한다.
> diff <- pre - post
> diff
[1] 5 7 1 6 6 -1

4

복용전

59

72

85

69

78

82

55

복용후

54

65

84

63

72

83

51

복용전-복용후

5

7

1

6

6

-1

4

한림대학교 이윤환(http://fb.com/yoonani72)
두 표본의 평균 비교
– Step 3, 가설검정) 값의 차이에 대해 평균이 0인지 검
정한다.
다이어트 약의 효과가 있다면 사전 몸무게가 다이어트
약 복용후 몸무게보다 많이 나갈 것이고 이로 인핸 값
의 차이는 양수로 나타나야 할 것이므로 다음과 같이
가설을 수립한다.
• 영가설 : 다이어트 약의 효과가 없다,
𝜇치료전−치료후 = 0
• 대안가설 : 다이어트 약의 효과가 있다,
𝜇치료전−치료후 > 0

한림대학교 이윤환(http://fb.com/yoonani72)
두 표본의 평균 비교
– Step 4) 검정통계량(유의확률)을 구하기 위한 R 사용
과 판정
> t.test(diff, mu=0, alternative="greater")
One Sample t-test
data: diff
t = 3.5949, df = 6, p-value = 0.005718
alternative hypothesis: true mean is greater than 0
95 percent confidence interval:
1.837829
Inf
sample estimates:
mean of x
4

한림대학교 이윤환(http://fb.com/yoonani72)
두 표본의 평균 비교
– Step 5) 판정
• 검정통계량 3.5949는 자유도가 6인 t분포에서 유의확률
0.005718을 가져 유의수준 0.05보다 작으므로 영가설을 기
각한다.
• 다이어트 약은 통계적으로 유의한 효과가 있다.

– 보충) pre-post 값이 정규분포를 따라야 한다.
> shapiro.test(diff)
Shapiro-Wilk normality test
data: diff
W = 0.8846, p-value = 0.2476
한림대학교 이윤환(http://fb.com/yoonani72)
모비율 검정
모비율(p) 검정
• 기본가정
– 표본의 크기가 대표본 (일반적으로 30 이상)

• 모비율의 추정량 : 𝑝
– 𝐸 𝑝 = 𝑝

– Var 𝑝 =

𝑝(1−𝑝)
𝑛

– 대표본으로 𝑝은 근사적으로 정규분포를 따른다.

• 정규분포를 따르는 𝑝의 표준정규분포 변환
–

𝑝 −𝑝
𝑝(1−𝑝)

~ 𝑍(0, 1) : 검정통계량
𝑛

한림대학교 이윤환(http://fb.com/yoonani72)
모비율(p) 검정
• 예제) 어느 도시의 사회조사단체에서 취업적렭의
사람들을 대상으로 1,600명을 임의로 추출하여
조사한 결과 96명이 실업자였다. 조사된 자료에
의하면 이 도시의 실업률이 전국실업률 7.8%보
다 낮다고 할 수 있는지를 유의수준 5%에서 검
정하여라.
– (노맹석 외, 기초통계학 – R을 이용한 통계분석, 자유
아카데미, 2011년, P246)

한림대학교 이윤환(http://fb.com/yoonani72)
모비율(p) 검정
• 가설수립
– 영가설 : 𝑝 = 0.078,
전국실업율 0.078과 같다.
– 대안가설 : 𝑝 < 0.078,
전국실업율 0.078보다 작다.

• 검정통계량
–

𝑝 −𝑝
𝑝(1−𝑝)

~ 𝑍(0, 1)
𝑛

– 검정통계량을 사용하여 표준정규분포와 비교하거나
– 위로 부터 계산되는 𝑝 을 사용
한림대학교 이윤환(http://fb.com/yoonani72)
모비율(p) 검정
• 검정통계량 : 𝑝
– 유의수준에 따른 임계값 -1.645 (𝛼 = 0.05)
–

𝑝 −𝑝
𝑝(1−𝑝)

= −1.645 = −𝑍0.05
𝑛

– 𝑝 = 𝑝 −𝑍0.05
0.078 − 1.645

𝑝(1−𝑝)

𝑛

=

0.078 1−0.078

1600

≈ 0.067

한림대학교 이윤환(http://fb.com/yoonani72)
모비율(p) 검정
• 검정통계량 : R 사용
– prop.test(
x=성공의 수, n=전체 조사대상, p=영가설하의 비율,
alternative=(“two.sided”|"less“|”greater”)
)
> prop.test(x=96, n=1600, p=0.078, alternative="less")
1-sample proportions test with continuity correction
data: 96 out of 1600, null probability 0.078
X-squared = 6.9603, df = 1, p-value = 0.004167
alternative hypothesis: true p is less than 0.078
95 percent confidence interval:
0.00000000 0.07086414
sample estimates:
p
0.06
한림대학교 이윤환(http://fb.com/yoonani72)

10.단일표본 평균 모비율

  • 1.
  • 2.
    단일 표본의 평균비교 •기본가정 : 모집단의 분포는 정규분포 – 표본의 정규성 검정 – R에서의 검정 방법 : Shapiro-Wilk normality test • 영가설 : 표본의 분포는 정규분포이다. • 대안가설 : 표본의 분포는 정규분포가 아니다. – 예제) R의 내장 자료인 mtcars는 1974년 미국의 Motor Trend 잡지로부터 32개의 자동차 모델의 연 비 및 특성을 추출한 자료로 이들 중 수동미션을 채용 한 (am==1) 13개의 자동차의 연비는 정규분포를 이 루고 있는지 검정해보자. 한림대학교 이윤환(http://fb.com/yoonani72)
  • 3.
    단일표본의 평균비교 > shapiro.test(mtcars$mpg[mtcars$am==1]) Shapiro-Wilk normality test data: mtcars$mpg[mtcars$am == 1] W = 0.9458, p-value = 0.5363 – 유의수준을 0.05로 할 때 p-value가 0.5363으로, 표본의 분포가 정규분포를 따른다는 영가설을 채택할 수 있 으며, 이를 바탕으로 정규모집단에서 추출한 표본으로 판단한다. • 만족하지 못할 경우 비모수 방법을 통한 검정 실시 한림대학교 이윤환(http://fb.com/yoonani72)
  • 4.
    단일 표본의 평균비교 •대표본이고 모집단의 분산을 알 경우 – 표준정규분포를 이용한 z-test 실시 • 대표본이고 모집단의 분산을 모를 경우 – 표본의 개수가 증가(자유도 증가)할 경우 t-분포가 정 규분포에 근사 – 모표준편차의 추정량인 표본표준편차를 이용한 ztest 실시 • 소표본이고 모집단의 분산을 모를 경우 – t-분포를 이용한 t-test 실시 한림대학교 이윤환(http://fb.com/yoonani72)
  • 5.
    단일 표본 t-test •1973년부터 1974년까지 미국에서 생산된 자동 차들의 평균 연비는 갤런당 20마일(20mpg)로 알려져 있다. 수동미션 차량들이 자동미션 차량 보다 연비가 좋다는 것을 밝히기 위해 수동 미션 차량들의 연비는 20mpg보다 크다고 할 수 있는 지 유의수준 0.05에서 검정하시오. – – – – 표본의 개수는 한 개 : 갤런당 마일(mpg) 모집단의 분산을 알지 못함 대표본으로 보기 힘듦 (13개의 표본) 단일 표본 t-test 실시 한림대학교 이윤환(http://fb.com/yoonani72)
  • 6.
    단일 표본 t-test •가설 수립 – 영가설 : μ = 20𝑚𝑝𝑔 – 대안가설 : μ > 20𝑚𝑝𝑔 • 분석을 위한 R 함수 – t.test(x, mu=𝐻0 , alternative=(“less”|”greater”|”two.sided”)) • X : 분석에 사용할 데이터 • mu : 영가설하에서의 모평균 • alternative : 대안가설에 따라 “less”, “greater”, “two.sided” 중에 하나 입력 (생략시 “two.sided”) 한림대학교 이윤환(http://fb.com/yoonani72)
  • 7.
    단일표본 t-test > t.test(mtcars$mpg[mtcars$am==1], mu=20, alternative="greater") One Sample t-test data: mtcars$mpg[mtcars$am == 1] t = 2.5682, df = 12, p-value = 0.01231 alternative hypothesis: true mean is greater than 20 95 percent confidence interval: 21.3441 Inf sample estimates: mean of x 24.39231 한림대학교 이윤환(http://fb.com/yoonani72)
  • 8.
    두 표본의 평균비교 • 짝을 이룬 두 표본(대응표본)의 검정 – 어떤 처치의 효과를 입증하기 위해 해당 하는 처치를 하기 전의 관찰값을 구하고 동일한 표본으로 부터 처치를 시행한 후 관찰값을 구한 후 둘 사이의 차이가 있는지를 알고 싶다. • Ex) 병원 등에서 치료 전과 치료 후 치료의 효과가 있는지를 알 고 싶은 경우 – 둘 사이에 차이가 없는 경우는 다음과 같이 될 것이다. • “치료전 관찰값 – 치료후 관찰값”의 평균은 0 즉, 𝜇치료전−치료후 = 0 – “치료전 관찰값 – 치료후 관찰값” 이 0이면 차이가 없는 것 이고 그렇지 않다면 차이가 있는 것으로 보는 검정 방법 한림대학교 이윤환(http://fb.com/yoonani72)
  • 9.
    두 표본의 평균비교 – 가정 • “치료전 관찰값 – 치료후 관찰값”의 분포는 정규분포를 따라 야 한다. – 예제) 새로 시판되는 한 다이어트 약의 효과를 알아보기 위하여 성인 남녀 7명의 체중을 다이어트약 복용전에 측정하고, 다이어 트 약의 복용방법에 따라 1개월 간 복용한 다음, 다시 그들의 체 중을 측정한 결과가 다음의 표와 같다. 이 자료로부터 다이어트 약에 효과가 있는지를 유의수준 0.05에 서 검정하라. (노맹석 외, 기초통계학 – R을 이용한 통계분석, 자 유아카데미, 2011년, P268) 복용전 59 72 85 69 78 82 55 복용후 54 65 84 63 72 83 51 한림대학교 이윤환(http://fb.com/yoonani72)
  • 10.
    두 표본의 평균비교 – Step 1) 데이터 입력 > pre <- c(59, 72, 85, 69, 78, 82, 55) > post <- c(54, 65, 84, 63, 72, 83, 51) – Step 2) 두 집단의 순서쌍 별로 차이를 구한다. > diff <- pre - post > diff [1] 5 7 1 6 6 -1 4 복용전 59 72 85 69 78 82 55 복용후 54 65 84 63 72 83 51 복용전-복용후 5 7 1 6 6 -1 4 한림대학교 이윤환(http://fb.com/yoonani72)
  • 11.
    두 표본의 평균비교 – Step 3, 가설검정) 값의 차이에 대해 평균이 0인지 검 정한다. 다이어트 약의 효과가 있다면 사전 몸무게가 다이어트 약 복용후 몸무게보다 많이 나갈 것이고 이로 인핸 값 의 차이는 양수로 나타나야 할 것이므로 다음과 같이 가설을 수립한다. • 영가설 : 다이어트 약의 효과가 없다, 𝜇치료전−치료후 = 0 • 대안가설 : 다이어트 약의 효과가 있다, 𝜇치료전−치료후 > 0 한림대학교 이윤환(http://fb.com/yoonani72)
  • 12.
    두 표본의 평균비교 – Step 4) 검정통계량(유의확률)을 구하기 위한 R 사용 과 판정 > t.test(diff, mu=0, alternative="greater") One Sample t-test data: diff t = 3.5949, df = 6, p-value = 0.005718 alternative hypothesis: true mean is greater than 0 95 percent confidence interval: 1.837829 Inf sample estimates: mean of x 4 한림대학교 이윤환(http://fb.com/yoonani72)
  • 13.
    두 표본의 평균비교 – Step 5) 판정 • 검정통계량 3.5949는 자유도가 6인 t분포에서 유의확률 0.005718을 가져 유의수준 0.05보다 작으므로 영가설을 기 각한다. • 다이어트 약은 통계적으로 유의한 효과가 있다. – 보충) pre-post 값이 정규분포를 따라야 한다. > shapiro.test(diff) Shapiro-Wilk normality test data: diff W = 0.8846, p-value = 0.2476 한림대학교 이윤환(http://fb.com/yoonani72)
  • 14.
  • 15.
    모비율(p) 검정 • 기본가정 –표본의 크기가 대표본 (일반적으로 30 이상) • 모비율의 추정량 : 𝑝 – 𝐸 𝑝 = 𝑝 – Var 𝑝 = 𝑝(1−𝑝) 𝑛 – 대표본으로 𝑝은 근사적으로 정규분포를 따른다. • 정규분포를 따르는 𝑝의 표준정규분포 변환 – 𝑝 −𝑝 𝑝(1−𝑝) ~ 𝑍(0, 1) : 검정통계량 𝑛 한림대학교 이윤환(http://fb.com/yoonani72)
  • 16.
    모비율(p) 검정 • 예제)어느 도시의 사회조사단체에서 취업적렭의 사람들을 대상으로 1,600명을 임의로 추출하여 조사한 결과 96명이 실업자였다. 조사된 자료에 의하면 이 도시의 실업률이 전국실업률 7.8%보 다 낮다고 할 수 있는지를 유의수준 5%에서 검 정하여라. – (노맹석 외, 기초통계학 – R을 이용한 통계분석, 자유 아카데미, 2011년, P246) 한림대학교 이윤환(http://fb.com/yoonani72)
  • 17.
    모비율(p) 검정 • 가설수립 –영가설 : 𝑝 = 0.078, 전국실업율 0.078과 같다. – 대안가설 : 𝑝 < 0.078, 전국실업율 0.078보다 작다. • 검정통계량 – 𝑝 −𝑝 𝑝(1−𝑝) ~ 𝑍(0, 1) 𝑛 – 검정통계량을 사용하여 표준정규분포와 비교하거나 – 위로 부터 계산되는 𝑝 을 사용 한림대학교 이윤환(http://fb.com/yoonani72)
  • 18.
    모비율(p) 검정 • 검정통계량: 𝑝 – 유의수준에 따른 임계값 -1.645 (𝛼 = 0.05) – 𝑝 −𝑝 𝑝(1−𝑝) = −1.645 = −𝑍0.05 𝑛 – 𝑝 = 𝑝 −𝑍0.05 0.078 − 1.645 𝑝(1−𝑝) 𝑛 = 0.078 1−0.078 1600 ≈ 0.067 한림대학교 이윤환(http://fb.com/yoonani72)
  • 19.
    모비율(p) 검정 • 검정통계량: R 사용 – prop.test( x=성공의 수, n=전체 조사대상, p=영가설하의 비율, alternative=(“two.sided”|"less“|”greater”) ) > prop.test(x=96, n=1600, p=0.078, alternative="less") 1-sample proportions test with continuity correction data: 96 out of 1600, null probability 0.078 X-squared = 6.9603, df = 1, p-value = 0.004167 alternative hypothesis: true p is less than 0.078 95 percent confidence interval: 0.00000000 0.07086414 sample estimates: p 0.06 한림대학교 이윤환(http://fb.com/yoonani72)