Statistics for psychology, Inferential Statistics and Hypothesis Testing

<Chapter 3>
Some Key Ingredients for Inferential Statistics
: Z Scores, the Normal Curve, Sample versus Population, and Probability
경희대학교 IIIXR LAB 서민영

• descriptive statistics (기술통계)_데이터에 대한 숫자요약, 그래프 요약을 통해
데이터가 가진 정보를 정리하는 이론과 방법론
• inferential statistics(추리 통계)_sample(표본)으로부터 얻은 정보를 이용하여 모
집단의 특성을 추론하거나 변수들 간의 적절한 함수 관계의 진위여부를 판단
예) 대통령 선거 여론조사시 전국 유권자를 전부(모집단) 조사하는 것이 아니라 1000명(표본) 정도로
조사하는 것.
예) 평균, 분산처럼 데이터를 요약한 대표적인 숫자, 평균이 높은 지, 많이 퍼져 있는지
통계학 종류
IIIXR LAB

In this section you learn how to describe a particular score in terms of where it fits into the
overall group of scores. That is, you learn how to use the mean and standard deviation to create
a Z score. a Z score describes a score in terms of how much it is above or below the average.
• Z score: 평균값에서 표준편차의 몇 배 정도 떨어져 있다는 것을 평가하는 수치
❶ Figure the deviation score: subtract the mean(M)
from the raw score(X).
❷ Figure the Z score: divide the deviation score by the
standard deviation(SD).
IIIXR LAB

예) 각 과목당 시험의 난이도가 다르기 때문에 단순히 점수만을 봐서
는 이 학생이 어느 과목을 더 잘하는지 제대로 판단하기 어렵다. 그래
서 수학, 영어, 국어, 과학 점수를 각각 표준화(standardization)해준다.
IIIXR LAB

성적이 평균으로부터 몇 표준편차만큼 떨어져 있는가를 나타내는 값으로 Z
점수가 2라면 그 수험생은 평균으로부터 표준편차의 2배 많은 점수를 얻었
다는 것을 의미합니다.
Z점수는 상대적인 위치에 관한 정보를 제공함으로써 점수의 비교에 유용하
게 활용할 수 있습니다. '보다 크다', '보다 작다'라는 정보를 제공합니다.
IIIXR LAB

(M = 12 and SD = 4)
Ryan은 평균보다 말을 많이 한다 -> 평균보다 표준편차의 2배만큼 많이 말한다
IIIXR LAB

• 개별 데이터에서 전체 데이터의 평균만큼 뺐기 때문에 개별 데이터들의 평균을
다시 구하면 “0”이 된다. 그리고 표준편차로 개별 데이터를 나누었기 때문에 그
집단의 표준편차도 “1”이 된다.
• 이렇게 표준화된 개별 데이터를 Z-score라 하고 평균이 0이고 표준편차가 1인
정규분포의 확률변수이다.
IIIXR LAB

+ 정규분포가 아닌 경우(비정규모집단_non-normal population) 표준화
<SAS를 이용한 통계분석> 발췌
모집단이 정규분포이고, 표준편차를 알고 있는 경우에는 Z-분포(표
준정규분포, Standard Normal Distribution)를 사용하고 모집단이 정규
분포이나 표준편차를 모르는 경우에는 t-분포를 사용한다.
모집단이 정규분포가 아니나 표본의 크기가 크다면 해당 표본분포
는 중심극한정리(central limit theorem)에 의하여 정규분포가 된다.
모집단의 분산을 알면 Z-분포, 모르면 t-분포를 사용하지만, 표본의
크기가 크면 t-분포, Z-분포 모두 Z-분포를 사용한다.
위의 내용을 간단하게 요약 정리하면 아래와 같다.
교재에서는 "모집단의 분포와 모분산이 모두 미지인 경우에도 일
단은 σ² 대신 표본분산(s²)을 활용하게 되며 표본평균을 표준화한
통계량은 대략 t분포를 따르는 것으로 간주할 수 밖에 없다."고 설
명되어 있는데, 결국 소표본의 경우에는 모집단의 정규성을 가정
했다는 것이다.
비정규모집단_non-normal population 경우
정규모집단_normal population 경우
IIIXR LAB

+ 정규분포가 아닌 경우 표준화(앞과 다른 경우)
IIIXR LAB

+ 정규분포가 아닌 경우 표준화
• 중심극한정리(central limit theorem) : 동일한 확률 분포를 가진 확률변수 n개의 평균의 분포는 n이 충분히
크다면 정규분포에 가까워진다. 즉, 알 수 없는 모집단에서 표본이 충분
히 크다면 이 표본평균의 분포는 정규분포에 근사한다.
IIIXR LAB

Sample and Population
• Population: 연구결과를 적용하려는 전체 그룹; 특정 사람들 집합(sample)을 기반으
로 추론이 이루어지는 더 큰 그룹
• Sample: 대개 큰 규모의 인구의 점수를 대표한다고 간주되는 특정 사람들의 점수로
데이터를 수집하는 특정 그룹
Why Psychologists Study Samples Instead of Populations
-> Psychologists usually study samples and not populations because it is not
practical in most cases to study the entire population.
(인적 물적 자원을 절감하여 경제적)
IIIXR LAB

Methods of Sampling
• The ideal method of picking out a sample to study is called random selection.
• In random sampling, the sample is chosen from among the population using a
completely random method, so that each individual has an equal chance of
being included in the sample.
• In haphazard sampling, the researcher selects individuals who are easily available
or who are convenient to study.
- 장점: 다른 샘플링 방법보다 접근하기 쉽고 저렴하다.
- 단점: 접근하기 더 편리한 항목을 선택하려는 유혹으로 인해 쉽게 편향이 들어갈 수 있다.
IIIXR LAB

Using different symbols for population parameters and sample statistics ensures that
there is no confusion as to whether a symbol refers to a population or a sample.
IIIXR LAB

• Probability: expected relative frequency of an outcome;
the proportion of successful outcomes to all outcomes.
• expected relative frequency: number of successful outcomes divided by
the number of total outcomes you would expect to get if you repeated an
experiment a large number of times
relative frequency of an event observed in the past
represents the probability of that event occurring in the
future. IIIXR LAB

<Chapter 4>
Introduction to Hypothesis Testing
:This chapter focuses on the basic logic for analyzing
results of a research study to test a hypothesis

가설 검정(Hypothesis Test): 증명된 바 없는 주장이나 가설을 표본 통계량에 입각하여 주장이나
가설의 진위 여부를 판단, 증명, 검정하는 통계적 추론 방식
IIIXR LAB

We say that hypothesis testing involves a double negative logic because
we are interested in the research hypothesis, but we test whether it is
true by seeing if we can reject its opposite, the null hypothesis.
한 번 부정한 것을 다시 한번 부정하여 긍정을 나타내는 논리식
IIIXR LAB

The research hypothesis is supported when a result is so extreme that
you reject the null hypothesis; the result is statistically significant.
The result is not statistically significant when a result is not very
extreme; the result is inconclusive.
IIIXR LAB

P2에 대한 정규 분포
• research hypothesis: babies receiving the special vitamin(P1) walk earlier than the mean of Population 2
• null hypothesis: no difference in the ages at which Population 1 and Population 2 babies start walking
baby who was given the specially purified vitamin started walking at 6 months
(16 – 142)/3 = -2.67
IIIXR LAB

총 2가지 가능성이 있는데
1. 1%라는 낮은 확률로 표본이 뽑혔다.
2. null hypothesis 이 틀렸다
1% 는 작은 확률이기때문에 2번이 더 가능성이 있다.
즉, 모집단의 평균이 A가 아니다.
-> reject the null hypothesis (귀무가설을 기각시킴)
이때 1% 는 작은 확률이어서 가설이 틀렸다고 하였는
데 몇 %(확률)가 극단적인 범위일까?
IIIXR LAB

• 보통 5%이며 𝛼 = 0.05(significance level_유의수준)라고 나타낸다. 귀무가설을 기각하
고 대립가설을 채택하게 되는 영역을 critical region(기각역)이라 한다. 이때 앞서 뽑
은 표본평균이 속한 영역이 1%였는데 이 값을 p-Value 라고 한다.
• Significance level: 통계적 가설 검정에서 사용하는 기준값, 신뢰도 95%라 할 때, 유의
수준은 (1-0.95)로 계산하여 0.05가 된다.
• P-value(significance probability_유의확률): 귀무가설이 맞다는 전제하에 실제로 관측
된 값 이상일 확률 의미. P-value가 너무 낮으면 그렇게 낮은 확률이 일어났다고 생각
하기 보다 귀무가설이 틀렸다고 생각, 일반적으로 p-value가 0.05 또는 0.01보다 작
으면 귀무가설 기각.
• cutoff sample score (critical value): 기각 또는 채택하는 범위의 경계를 알려주는 경
계값(Cutoff Z score)
IIIXR LAB

It is important to emphasize two points about the conclusions you can make from
the hypothesis-testing process.
• First, when you reject the null hypothesis, all you are saying is that your results
support the research hypothesis (as in our example). What you do say when you
reject the null hypothesis is that the results are statistically significant. You can
also say that the results “support” or “provide evidence for” the research
hypothesis.
• Second, when a result is not extreme enough to reject the null hypothesis, you
do not say that the result supports (or proves) the null hypothesis. You simply
say the result is not statistically significant. (inconclusive)
+ statistically significant: 모집단에 대한 가설이 가지는 통계적
의미로, 확률적으로 봐서 단순한 우연이라고 생각되지 않을 정도
로 의미가 있다
IIIXR LAB

One-Tailed and Two-Tailed Tests
IIIXR LAB

Nondirectional Hypotheses(양측검정) and Two-Tailed Tests
모집단의 평균이 A, 분산이 B
주장이 틀렸음을 증명하겠어!
IIIXR LAB

뽑은 표본의 표본평균이 아래의 영역에 들어오면 주장을 기각시킬 수 있다.
이를 꼬리가 양쪽에 있다는 Two-Tailed Tests(양측 검정)이라 한다.
significance level(유의수준)은 5%로 정하였다.
평균에서 떨어진 극단적인 영역을 기각하므로 기각역은 정규분포 함수 양 끝에 존재한다.
기각역 넓이의 총 합이 5%이므로 양쪽에 각각 2.5%씩 기각역을 갖는다.
IIIXR LAB

Directional Hypotheses(단측검정) and One-Tailed Tests
모집단의 평균이 A보다 크다고
의심가는 상황!
모집단의 평균이 A, 분산이 B
IIIXR LAB

이 경우에는 기각역이 오른쪽에만 존재하게 된다.
우리가 뽑은 표본평균이 A보다 극단적으로 큰 영역에 있어야 기각할 수 있기 때문이다.
유의수준은 5%이므로 오른쪽에 넓이가 5%인 기각역을 갖는다.
이를 꼬리가 하나라는 One-Tailed Tests(단측 검정)이라 한다.
실제 평균이 A보다 작다고 의심하는 경우에는 다음과 같이 기각역이 왼쪽에 존재하게 된다.
IIIXR LAB

• 그룹 간에 차이가 있는지 확인하려면 양측 검정이 적합
하다. 예를 들어 그룹 A의 점수가 그룹 B보다 높거나 낮
은 지 확인하려면 양측 검정을 사용하는 것이 좋은데 긍
정적 또는 부정적 차이의 가능성을 테스트하기 때문이
다.
• 단측 검정은 특정 방향의 그룹 간에 차이가 있는지 확인
하려는 경우에만 적합하다. 그룹 A가 그룹 B보다 높은
점수를 받았는지 확인하는 데만 관심이 있고 그룹 A가
그룹 B보다 낮은 점수를 받을 가능성에 전혀 관심이 없
다면 단측 테스트를 사용한다.
• 단측 검정 사용의 주요 이점은 동일한 유의성 (알파) 수
준에서 양측 검정보다 통계적 검정력이 더 높다는 것이
다. 즉, 예측 한 방향으로 그룹 간에 실제로 차이가 있는
경우 단측 검정에서 결과가 더 중요할 가능성이 높다. 이
는 분포의 한쪽 꼬리 만 검정에 사용되기 때문이다.
• 확실하지 않은 경우 양측 검정을 사용하는 것이 거의
항상 더 적절합니다. 단측 검정은 차이의 방향에 대한
구체적인 예측이 있고 반대 결과에 관심이 없는 경우에
사용된다. IIIXR LAB

• 유의수준(∝) 0.05 는 정해져 있을 때,
단측검정일 경우에는 유의수준이 0.05가 되게 해주는 Z 값은 1.645 이다.
그러나, 양측검정일 경우에는 양쪽 모두를 생각해야 하기 때문에 값이 달라진다.
유의수준의 0.05로 고정이 되어 있으므로 그 절반값이 0.025를 생각해 주어야 한다. 그래야만
왼쪽의 유의수준이 0.025, 오른쪽의 유의수준이 0.025가 되어야 합해서 0.05가 되기 때문이다.
그래서, 유의수준이 0.025가 되게 해주는 Z 값을 찾아주면 1.96이 된다.
• 단측검정 cutoff Z score: 1.645
• 양측검정 cutoff Z score: 1.96
즉, 동일한 유의수준으로 검정하는 경우
단측검정에서 대립 가설이 채택될 가능성이 높다.
IIIXR LAB

• Asterisk
***은 p < 0.001, **은 p < 0.01, *는 p < 0.05의 순으로 숫자 옆에 별표(asterisk)가 붙는다.
*이 붙지 않은 마일리지가 가격에 주는 영향은 ‘통계적으로 유의하지 않았다’라는 결론을 내리게 된다.
IIIXR LAB

Statistics for psychology, Inferential Statistics and Hypothesis Testing

Recommended

Recommended

More Related Content

Similar to Statistics for psychology, Inferential Statistics and Hypothesis Testing

Similar to Statistics for psychology, Inferential Statistics and Hypothesis Testing (17)

Statistics for psychology, Inferential Statistics and Hypothesis Testing

Editor's Notes