2. 기술통계학
• Descriptive statistics
• 데이터를 정보를 나타내는 방식으로 정리,
요약, 설명하는 방법
• ‘그래프 기법’ / ‘수치 기법’ 이 있음
• Ex) 학생들의 최종점수표
– 수치(통계척도) : 평균(중심위치)
– 수치(통계척도) : 범위(변동성)
– 그래프 : 히스토그램
– >상호보완적으로 쓰이는 구나!
3. 추론통계학
• Inferential statistics
• Ex)500명의 학생이 각각 7일 동안 구매한 음
료수 개수로 전체 50,000명의 학생의 소비량
이 궁금할 때 / 출구조사
• 즉,표본 데이터에 기초하여 모집단의 특성에
관한 결론을 얻거나 추론을 하기 위해 사용되
는 방법!
• 데이터는 수치만 나타내지 않는다. 다양한 형
태의 데이터가 있다. 예를 들면, 한 유권자가
지지하는 후보
4. 주요 통계학 개념
• 모집단 : 관심을 가지고 있는 모든 항목의 그
룹
• 모수 : 모집단의 기술적 척도 / 우리가 필요로
하는 정보 ex) 모든 학생들에 의해 소비되는
음료수, 모든 플로리다 유권자 중에서 Bush를
지지하는 유권자
• 표본 : 모집단으로부터 추출된 데이터 집합
• 통계량 : 표본의 기술적 척도 / 모수를 추론하
는데 쓰인다 / 예측에 쓰이는 것
5. 주요 통계학 개념2
• 통계적 추론 statistical inference
– 표본데이터로 모집단을 추정,예측,의사결정
– 비용을 줄일 순 있지만 부정확할 수 있다.
– 따라서 신뢰의 척도가 사용
• 신뢰수준 : confidence level 반복하여 추출된 매우 많은
표본의 95% 정확한 추정치를 제공한다.
• 유의수준 : significance level 반복적으로 추출된 표본들
중 5%의 잘못된 결론이 얻어질 수 있다.
– *100-신뢰수준 = 유의수준
– *출구조사할 때 95%의 신뢰수준이라고 말하면서 출구조사
결과발표를 하는데, 모수가 나오지 않은 상태에서 정확한 추
정치라는 것은 그럼 어떤 것을 기준으로 한거지?
6. • 통계를 공부해야하는 이유?
– “대학을 졸업한 후에 의사결정을 하기 위해 필
요한 정보를 얻기 위해서 대규모 실제 데이터
를 요약해야 하는 상황에 직면하게 될 것이라
고 예상한다.”
7. 데이터의 형태와 정보
점수 67 74 71 55
데이터 : 한 변수의 관측치들변수 : 모집단이나 표본의 어떤 특성
값 : 변수가 가질 수 있는 가능한 관측치
8. 데이터의 형태와 정보
• 구간데이터 interval data
– 정량데이터quantitative, 수치데이터numercial data
– 높이, 무게, 거리와 가은 실수 데이터
• 범주데이터 nominal data
– 정성 qualitative, 카테고리 데이터 categorical
– 범주 category를 나타내는 값
– 독신/기혼/이혼/과부
– 수치부여가 가능 독신=1/기혼=2
• 서열데이터
– 범주데이터인 것 처럼 보이나 데이터값이 순서를 가짐
– 나쁨 / 보통 / 좋음
– 구간데이터 : 값들의 차이가 일관성을 유지하고 의미를 지닌다. <-> 서
열데이터 : 순위를 유지하면서 임의로 부여되는 것
– 1 / 2 / 3 으로 부여할 수도 있지만 2 / 10 / 50 도 가능
– Ex) 주식 순위 1삼성,2현대,3롯데 -> 1,2차이가 2,3차이가 1이라고 둘 차
이가 정말 같은가? 아니다.
10. 범주데이터
• 임의로 수치가 배정된 것이기 때문에 계산
이 의미가 없음
• 독신 1 , 기혼 2 , 이혼 3 , 과부 4
• 그럼 어떤식으로 활용하는가?
– 범주의 수를 세고 도수를 기록하는 식으로
범주 코드 도수
독신 1 3
기혼 2 5
이혼 3 2
과부 4 4
11. 서열데이터
• 서열데이터에 가장 중요한 특성은 값에 순
위가 있다.
• 유일하게 허용되는 계산은 순위를 나타내
는 것
• 중앙값(median)을 도출할 수 있음
12. 데이터의 순위구조
• 구간데이터
– 값들이 실수
– 모든 계산 가능
– 구간데이터는 서열 or 범주데이터로 전환 가능
• 서열데이터
– 값들은 데이터 순위를 나타내야한다.
– 순위를 유지하는 계산만 가능하다.
– 범주데이터로는 변환가능 / 구간데이터로는 불가
• 범주데이터
– 값들은 범주를 나타내기 위해 임의로 부여된 수치
– 발생도수에 기초한 계산만 가능
– 서열 or 범주데이터로 전환 불가
13. 데이터 순위구조
• 회계학 점수 83점 ( 구간데이터 )
• 문자로 나타내진 A학점 ( 서열데이터 )
• PASS(1) or FAIL(0) ( 범주데이터 )
• 중요! 높은 순위의 데이터 형태는 낮은 순위의 데
이터 형태로 변환될 때, 정보가 상실된다.
• 낮은 순위의 데이터는 높은 순위의 데이터로 변환
될 수 없다.
• 데이터의 형태가 왜 중요한가요?
– 어떤 통계기법을 사용해야 하는지를 결정하는 데 있
어서 중요한 요소가 되기 때문입니다.
14. 범주데이터를
그래프와 표로 나타내는 기법
• 범주데이터에 허용되는 계산?
– 도수를 세거나 도수의 비율을 계산하는 것
• 표현
– 표 : 도수분포 (frequency distribution) / 상대
도수분포(relative frequency distribution)로
정리
– 그래프 : 막대그래프(도수)와 파이차트(상대
도수)