SlideShare a Scribd company logo
1 of 14
제자리통계
기술통계학
• Descriptive statistics
• 데이터를 정보를 나타내는 방식으로 정리,
요약, 설명하는 방법
• ‘그래프 기법’ / ‘수치 기법’ 이 있음
• Ex) 학생들의 최종점수표
– 수치(통계척도) : 평균(중심위치)
– 수치(통계척도) : 범위(변동성)
– 그래프 : 히스토그램
– >상호보완적으로 쓰이는 구나!
추론통계학
• Inferential statistics
• Ex)500명의 학생이 각각 7일 동안 구매한 음
료수 개수로 전체 50,000명의 학생의 소비량
이 궁금할 때 / 출구조사
• 즉,표본 데이터에 기초하여 모집단의 특성에
관한 결론을 얻거나 추론을 하기 위해 사용되
는 방법!
• 데이터는 수치만 나타내지 않는다. 다양한 형
태의 데이터가 있다. 예를 들면, 한 유권자가
지지하는 후보
주요 통계학 개념
• 모집단 : 관심을 가지고 있는 모든 항목의 그
룹
• 모수 : 모집단의 기술적 척도 / 우리가 필요로
하는 정보 ex) 모든 학생들에 의해 소비되는
음료수, 모든 플로리다 유권자 중에서 Bush를
지지하는 유권자
• 표본 : 모집단으로부터 추출된 데이터 집합
• 통계량 : 표본의 기술적 척도 / 모수를 추론하
는데 쓰인다 / 예측에 쓰이는 것
주요 통계학 개념2
• 통계적 추론 statistical inference
– 표본데이터로 모집단을 추정,예측,의사결정
– 비용을 줄일 순 있지만 부정확할 수 있다.
– 따라서 신뢰의 척도가 사용
• 신뢰수준 : confidence level 반복하여 추출된 매우 많은
표본의 95% 정확한 추정치를 제공한다.
• 유의수준 : significance level 반복적으로 추출된 표본들
중 5%의 잘못된 결론이 얻어질 수 있다.
– *100-신뢰수준 = 유의수준
– *출구조사할 때 95%의 신뢰수준이라고 말하면서 출구조사
결과발표를 하는데, 모수가 나오지 않은 상태에서 정확한 추
정치라는 것은 그럼 어떤 것을 기준으로 한거지?
• 통계를 공부해야하는 이유?
– “대학을 졸업한 후에 의사결정을 하기 위해 필
요한 정보를 얻기 위해서 대규모 실제 데이터
를 요약해야 하는 상황에 직면하게 될 것이라
고 예상한다.”
데이터의 형태와 정보
점수 67 74 71 55
데이터 : 한 변수의 관측치들변수 : 모집단이나 표본의 어떤 특성
값 : 변수가 가질 수 있는 가능한 관측치
데이터의 형태와 정보
• 구간데이터 interval data
– 정량데이터quantitative, 수치데이터numercial data
– 높이, 무게, 거리와 가은 실수 데이터
• 범주데이터 nominal data
– 정성 qualitative, 카테고리 데이터 categorical
– 범주 category를 나타내는 값
– 독신/기혼/이혼/과부
– 수치부여가 가능 독신=1/기혼=2
• 서열데이터
– 범주데이터인 것 처럼 보이나 데이터값이 순서를 가짐
– 나쁨 / 보통 / 좋음
– 구간데이터 : 값들의 차이가 일관성을 유지하고 의미를 지닌다. <-> 서
열데이터 : 순위를 유지하면서 임의로 부여되는 것
– 1 / 2 / 3 으로 부여할 수도 있지만 2 / 10 / 50 도 가능
– Ex) 주식 순위 1삼성,2현대,3롯데 -> 1,2차이가 2,3차이가 1이라고 둘 차
이가 정말 같은가? 아니다.
구간데이터
• 수치들간의 계산이 가능
• 평균 등 중요한 통계량이 존재
범주데이터
• 임의로 수치가 배정된 것이기 때문에 계산
이 의미가 없음
• 독신 1 , 기혼 2 , 이혼 3 , 과부 4
• 그럼 어떤식으로 활용하는가?
– 범주의 수를 세고 도수를 기록하는 식으로
범주 코드 도수
독신 1 3
기혼 2 5
이혼 3 2
과부 4 4
서열데이터
• 서열데이터에 가장 중요한 특성은 값에 순
위가 있다.
• 유일하게 허용되는 계산은 순위를 나타내
는 것
• 중앙값(median)을 도출할 수 있음
데이터의 순위구조
• 구간데이터
– 값들이 실수
– 모든 계산 가능
– 구간데이터는 서열 or 범주데이터로 전환 가능
• 서열데이터
– 값들은 데이터 순위를 나타내야한다.
– 순위를 유지하는 계산만 가능하다.
– 범주데이터로는 변환가능 / 구간데이터로는 불가
• 범주데이터
– 값들은 범주를 나타내기 위해 임의로 부여된 수치
– 발생도수에 기초한 계산만 가능
– 서열 or 범주데이터로 전환 불가
데이터 순위구조
• 회계학 점수 83점 ( 구간데이터 )
• 문자로 나타내진 A학점 ( 서열데이터 )
• PASS(1) or FAIL(0) ( 범주데이터 )
• 중요! 높은 순위의 데이터 형태는 낮은 순위의 데
이터 형태로 변환될 때, 정보가 상실된다.
• 낮은 순위의 데이터는 높은 순위의 데이터로 변환
될 수 없다.
• 데이터의 형태가 왜 중요한가요?
– 어떤 통계기법을 사용해야 하는지를 결정하는 데 있
어서 중요한 요소가 되기 때문입니다.
범주데이터를
그래프와 표로 나타내는 기법
• 범주데이터에 허용되는 계산?
– 도수를 세거나 도수의 비율을 계산하는 것
• 표현
– 표 : 도수분포 (frequency distribution) / 상대
도수분포(relative frequency distribution)로
정리
– 그래프 : 막대그래프(도수)와 파이차트(상대
도수)

More Related Content

Similar to 제자리통계 0913

11_통계 자료분석 입문
11_통계 자료분석 입문11_통계 자료분석 입문
11_통계 자료분석 입문noerror
 
02.자료다루기
02.자료다루기02.자료다루기
02.자료다루기Yoonwhan Lee
 
Head first statistics_summary_ch03
Head first statistics_summary_ch03Head first statistics_summary_ch03
Head first statistics_summary_ch03SungMin OH
 
[Ankus Open Source Conference 2013] 빅데이터 분석을 위한 통계 이해와 해석
[Ankus Open Source Conference 2013] 빅데이터 분석을 위한 통계 이해와 해석[Ankus Open Source Conference 2013] 빅데이터 분석을 위한 통계 이해와 해석
[Ankus Open Source Conference 2013] 빅데이터 분석을 위한 통계 이해와 해석SuHyun Jeon
 
Information Retrieval - Evaluation
Information Retrieval - EvaluationInformation Retrieval - Evaluation
Information Retrieval - EvaluationGeunhee Cho
 
[2018 Bigdata win-win conference] 4
[2018 Bigdata win-win conference] 4[2018 Bigdata win-win conference] 4
[2018 Bigdata win-win conference] 4ABRC_DATA
 
Week14 wrapup
Week14 wrapupWeek14 wrapup
Week14 wrapupEun Yu
 
★강의교재_데이터 분석을 위한 통계와 확률_v2.pptx
★강의교재_데이터 분석을 위한 통계와 확률_v2.pptx★강의교재_데이터 분석을 위한 통계와 확률_v2.pptx
★강의교재_데이터 분석을 위한 통계와 확률_v2.pptxDonghwan Lee
 
230601이종기-시장조사론특강교안-신뢰성과 타당성-요인분석-최종.pdf
230601이종기-시장조사론특강교안-신뢰성과 타당성-요인분석-최종.pdf230601이종기-시장조사론특강교안-신뢰성과 타당성-요인분석-최종.pdf
230601이종기-시장조사론특강교안-신뢰성과 타당성-요인분석-최종.pdfJong-Ki Lee
 

Similar to 제자리통계 0913 (10)

11_통계 자료분석 입문
11_통계 자료분석 입문11_통계 자료분석 입문
11_통계 자료분석 입문
 
02.자료다루기
02.자료다루기02.자료다루기
02.자료다루기
 
Head first statistics_summary_ch03
Head first statistics_summary_ch03Head first statistics_summary_ch03
Head first statistics_summary_ch03
 
[Ankus Open Source Conference 2013] 빅데이터 분석을 위한 통계 이해와 해석
[Ankus Open Source Conference 2013] 빅데이터 분석을 위한 통계 이해와 해석[Ankus Open Source Conference 2013] 빅데이터 분석을 위한 통계 이해와 해석
[Ankus Open Source Conference 2013] 빅데이터 분석을 위한 통계 이해와 해석
 
Information Retrieval - Evaluation
Information Retrieval - EvaluationInformation Retrieval - Evaluation
Information Retrieval - Evaluation
 
[2018 Bigdata win-win conference] 4
[2018 Bigdata win-win conference] 4[2018 Bigdata win-win conference] 4
[2018 Bigdata win-win conference] 4
 
Week14 wrapup
Week14 wrapupWeek14 wrapup
Week14 wrapup
 
★강의교재_데이터 분석을 위한 통계와 확률_v2.pptx
★강의교재_데이터 분석을 위한 통계와 확률_v2.pptx★강의교재_데이터 분석을 위한 통계와 확률_v2.pptx
★강의교재_데이터 분석을 위한 통계와 확률_v2.pptx
 
표집
표집표집
표집
 
230601이종기-시장조사론특강교안-신뢰성과 타당성-요인분석-최종.pdf
230601이종기-시장조사론특강교안-신뢰성과 타당성-요인분석-최종.pdf230601이종기-시장조사론특강교안-신뢰성과 타당성-요인분석-최종.pdf
230601이종기-시장조사론특강교안-신뢰성과 타당성-요인분석-최종.pdf
 

제자리통계 0913

  • 2. 기술통계학 • Descriptive statistics • 데이터를 정보를 나타내는 방식으로 정리, 요약, 설명하는 방법 • ‘그래프 기법’ / ‘수치 기법’ 이 있음 • Ex) 학생들의 최종점수표 – 수치(통계척도) : 평균(중심위치) – 수치(통계척도) : 범위(변동성) – 그래프 : 히스토그램 – >상호보완적으로 쓰이는 구나!
  • 3. 추론통계학 • Inferential statistics • Ex)500명의 학생이 각각 7일 동안 구매한 음 료수 개수로 전체 50,000명의 학생의 소비량 이 궁금할 때 / 출구조사 • 즉,표본 데이터에 기초하여 모집단의 특성에 관한 결론을 얻거나 추론을 하기 위해 사용되 는 방법! • 데이터는 수치만 나타내지 않는다. 다양한 형 태의 데이터가 있다. 예를 들면, 한 유권자가 지지하는 후보
  • 4. 주요 통계학 개념 • 모집단 : 관심을 가지고 있는 모든 항목의 그 룹 • 모수 : 모집단의 기술적 척도 / 우리가 필요로 하는 정보 ex) 모든 학생들에 의해 소비되는 음료수, 모든 플로리다 유권자 중에서 Bush를 지지하는 유권자 • 표본 : 모집단으로부터 추출된 데이터 집합 • 통계량 : 표본의 기술적 척도 / 모수를 추론하 는데 쓰인다 / 예측에 쓰이는 것
  • 5. 주요 통계학 개념2 • 통계적 추론 statistical inference – 표본데이터로 모집단을 추정,예측,의사결정 – 비용을 줄일 순 있지만 부정확할 수 있다. – 따라서 신뢰의 척도가 사용 • 신뢰수준 : confidence level 반복하여 추출된 매우 많은 표본의 95% 정확한 추정치를 제공한다. • 유의수준 : significance level 반복적으로 추출된 표본들 중 5%의 잘못된 결론이 얻어질 수 있다. – *100-신뢰수준 = 유의수준 – *출구조사할 때 95%의 신뢰수준이라고 말하면서 출구조사 결과발표를 하는데, 모수가 나오지 않은 상태에서 정확한 추 정치라는 것은 그럼 어떤 것을 기준으로 한거지?
  • 6. • 통계를 공부해야하는 이유? – “대학을 졸업한 후에 의사결정을 하기 위해 필 요한 정보를 얻기 위해서 대규모 실제 데이터 를 요약해야 하는 상황에 직면하게 될 것이라 고 예상한다.”
  • 7. 데이터의 형태와 정보 점수 67 74 71 55 데이터 : 한 변수의 관측치들변수 : 모집단이나 표본의 어떤 특성 값 : 변수가 가질 수 있는 가능한 관측치
  • 8. 데이터의 형태와 정보 • 구간데이터 interval data – 정량데이터quantitative, 수치데이터numercial data – 높이, 무게, 거리와 가은 실수 데이터 • 범주데이터 nominal data – 정성 qualitative, 카테고리 데이터 categorical – 범주 category를 나타내는 값 – 독신/기혼/이혼/과부 – 수치부여가 가능 독신=1/기혼=2 • 서열데이터 – 범주데이터인 것 처럼 보이나 데이터값이 순서를 가짐 – 나쁨 / 보통 / 좋음 – 구간데이터 : 값들의 차이가 일관성을 유지하고 의미를 지닌다. <-> 서 열데이터 : 순위를 유지하면서 임의로 부여되는 것 – 1 / 2 / 3 으로 부여할 수도 있지만 2 / 10 / 50 도 가능 – Ex) 주식 순위 1삼성,2현대,3롯데 -> 1,2차이가 2,3차이가 1이라고 둘 차 이가 정말 같은가? 아니다.
  • 9. 구간데이터 • 수치들간의 계산이 가능 • 평균 등 중요한 통계량이 존재
  • 10. 범주데이터 • 임의로 수치가 배정된 것이기 때문에 계산 이 의미가 없음 • 독신 1 , 기혼 2 , 이혼 3 , 과부 4 • 그럼 어떤식으로 활용하는가? – 범주의 수를 세고 도수를 기록하는 식으로 범주 코드 도수 독신 1 3 기혼 2 5 이혼 3 2 과부 4 4
  • 11. 서열데이터 • 서열데이터에 가장 중요한 특성은 값에 순 위가 있다. • 유일하게 허용되는 계산은 순위를 나타내 는 것 • 중앙값(median)을 도출할 수 있음
  • 12. 데이터의 순위구조 • 구간데이터 – 값들이 실수 – 모든 계산 가능 – 구간데이터는 서열 or 범주데이터로 전환 가능 • 서열데이터 – 값들은 데이터 순위를 나타내야한다. – 순위를 유지하는 계산만 가능하다. – 범주데이터로는 변환가능 / 구간데이터로는 불가 • 범주데이터 – 값들은 범주를 나타내기 위해 임의로 부여된 수치 – 발생도수에 기초한 계산만 가능 – 서열 or 범주데이터로 전환 불가
  • 13. 데이터 순위구조 • 회계학 점수 83점 ( 구간데이터 ) • 문자로 나타내진 A학점 ( 서열데이터 ) • PASS(1) or FAIL(0) ( 범주데이터 ) • 중요! 높은 순위의 데이터 형태는 낮은 순위의 데 이터 형태로 변환될 때, 정보가 상실된다. • 낮은 순위의 데이터는 높은 순위의 데이터로 변환 될 수 없다. • 데이터의 형태가 왜 중요한가요? – 어떤 통계기법을 사용해야 하는지를 결정하는 데 있 어서 중요한 요소가 되기 때문입니다.
  • 14. 범주데이터를 그래프와 표로 나타내는 기법 • 범주데이터에 허용되는 계산? – 도수를 세거나 도수의 비율을 계산하는 것 • 표현 – 표 : 도수분포 (frequency distribution) / 상대 도수분포(relative frequency distribution)로 정리 – 그래프 : 막대그래프(도수)와 파이차트(상대 도수)