2011 미니탭(Minitab) 교재(랜드코리아)

15,135 views

Published on

6sigma 혁신방법론을 위한 Minitab 통계프로그램 사용방법

Published in: Business
2 Comments
25 Likes
Statistics
Notes
No Downloads
Views
Total views
15,135
On SlideShare
0
From Embeds
0
Number of Embeds
137
Actions
Shares
0
Downloads
0
Comments
2
Likes
25
Embeds 0
No embeds

No notes for slide

2011 미니탭(Minitab) 교재(랜드코리아)

  1. 1. Minitab을 활용한 통계분석 (MINITAB Release 16.1.1 한글 버전 기준)
  2. 2. 이 교제는 이렇게 사용하세요! 단계에 대한 설명 각 단계 학습의 전체적인 모습을 간략히 설명한 부분입니다. 단계의 목적 단계의 목적,효과,수행하는 이유를 사전에 분명히 알립니다. 단계의 핵심 각 단계에서 무엇을 익혀야 하는 지를 미리 알려주는 곳으로 단계의 품질을 높이고, 성과를 극대화 할 수 있는 핵심 키워드입니다. Copyright ⓒ 2009 LANDKOREA 2
  3. 3. 이 교제는 이렇게 사용하세요! 활동명 MINITAN소개 Minitab 시작하기/끝내기 각 페이지 마다 현재 어느 활동을 학습하고 있는지 알 수 있게 표시하였습니다. 단계명 각 페이지 마다 현재 어느 단계를 학습하고 있는지 알 수 있게 표시하였습니다. 핵심 Point 각 단계를 보다 효과적으로 진행을 하기 위해 추가적으로 알면 도움이 되는 정보를 알려 드립니다. 기초통계학 Copyright ⓒ 2009 LANDKOREA 3
  4. 4. 기초통계 기초통계학을 잘 이해하고 프로그램을 사용하면? 설명  통계를 활용한 경영혁신 등의 기초통계학의 내용에 따라 기초적인 내용을 학습하고, 업무에서 보다 다양한 시각에서 데이터 분석에 사용되는 각 통계용어를 이해하며, 개선점을 발굴하여 통계적으로 각종 데이터의 분포와 활용법을 습득하여, 의미 있는 개선을 실행할 수 있다. 현업에서 실행 가능한 실무학습으로 발전시킨다. 기초통계학을 잘 못 이해하고 프로그램을 사용하면? 핵심 1. 기초통계학의 학습을 통하여 통계의 기본용어들을 학습하  단순 프로그램 사용법에 고, 실제 통계분석 프로그램의 결과 갑을 해석하기 위한 준 그치게 되어 활용도가 반감된다. 비를 한다.  데이터 분석 시 명쾌하지 않은 설명을 하게 된다. 2. 학습한 내용을 Minitab의 예제 데이터를 활용하여 프로그 램 내의 기초통계학 메뉴의 기능들에 대하여 실행해보며 결과 값을 해석해 본다. Copyright ⓒ 2009 LANDKOREA 4
  5. 5. Minitab 소개 Copyright ⓒ 2009 LANDKOREA 5
  6. 6. MINITAN소개 Minitab 시작하기/끝내기 • Minitab - 통계적 데이터 분석 능력과 그래픽 능력을 가진 통계분석 소프트웨어 - Six Sigma의 발전과 함께 성장해온 통계분석 소프트웨어 • Minitab 프로그램의 시작 - Windows 의 시작메뉴에서 시작 > 프로그램 > Minitab 16 Korean > Minitab 16 Korean 클릭 - 바탕화면에서 Minitab 프로그램의 단축아이콘을 더블 클릭 • Minitab 프로그램의 끝내기 - 파일 > 종료 - 프로그램 윈도우의 좌측상단 - 프로그램 윈도우의 우측상단 Copyright ⓒ 2009 LANDKOREA 아이콘을 더블클릭 아이콘을 클릭 6
  7. 7. MINITAN소개 Minitab 사용자 환경 툴바 (Tool Bar) 메뉴 바 (Menu Bar) 세션 창 (Session Window) Project Manager창 (Project Manager) 데이터 창 (Data Window) 상태 바 (Status Bar) 그래프 창 (Graph Window) Copyright ⓒ 2009 LANDKOREA 7
  8. 8. MINITAN소개 Project의 관리 • 프로젝트(Project) - Minitab에서는 프로젝트라는 개념을 가지고 사용자가 사용하는 모든 데이터 통계 처리 결과 및 그래프 등을 관리한다. 프로젝트로 저장하게 되면 현재까지 작업한 모든 정보가 함께 저장되고 프로젝트를 열면 이전 작업에 이어서 통계분석을 실시할 수 있다. • 새 프로젝트 만들기 - 파일 > 새로 만들기… > Minitab 프로젝트 - 단축키 : Ctrl + N • 프로젝트 열기 - 파일 > 프로젝트 열기… 후 프로젝트 파일명(*.mpj)선택 - 단축키 : Ctrl + O • 프로젝트의 저장 - 파일 > 프로젝트 저장 or Ctrl+S - 파일 > 다른 이름으로 프로젝트 저장… • 프로젝트 정보의 열람 및 수정 - 파일 > 프로젝트 설명… Copyright ⓒ 2009 LANDKOREA 8
  9. 9. MINITAN소개 워크시트 관리 • 워크시트 - Minitab에서 데이터가 저장되는 곳이 워크시트이다. 모든 데이터는 워크시트에 있으며 데이터에 대한 작업은 이곳에서 이루어진다. • 새 워크시트 만들기 - 파일 > 새로 만들기… > Minitab 워크시트 - 단축키 : Ctrl + N • 워크시트 열기 - 파일 > 워크시트 열기… 후 워크시트 파일명(*.mtw)선택 • 워크시트의 저장 - 파일 > 현재 워크시트 저장 - 파일 > 다른 이름으로 현재 워크시트 저장… Copyright ⓒ 2009 LANDKOREA 9
  10. 10. MINITAN소개 워크시트 • 워크시트 - 적어도 한 개의 워크시트는 열려져 있어야 한다. - 동시에 두개 이상의 워크시트가 현재 워크시트가 될 수 없다. (현재 워크시트는 워크시트 명 뒤에 Asterisk(***)표시 - 워크시트는 프로젝트에는 함께 저장되며 워크시트로 저장 시 각각 분리하여 저장된다. 데이터 입력 화살표 열 이름 (Column name) 열 번호 (Column Number) 행 번호 (Row Number) Copyright ⓒ 2009 LANDKOREA 10
  11. 11. MINITAN소개 Data 입력 / 수정방법 • 데이터 입력 방향 표시 ↓ : 입력 후 아래로 이동 → : 입력 후 오른쪽으로 이동 • 열 표시(C+숫자+[TD]) C : 열(column) 숫자 : 열 일련 번호 T : 문자열 D : 날짜, 시간 열 표시 없으면 숫자 열 전체 열 선택 : 열 표시 부분을 선택 • 현재 cell(Active Cell) Enter/Tab : 다음 cell로 이동 • 데이터의 수정 1. 수정하고 싶은 cell 선택 2. 올바른 데이터 값 입력 3. Enter/Tab을 누름 • 입력 데이터의 복귀 데이터 입력 후 Enter/Tab을 누르기 전에 ESC를 누르면 이전의 값으로 복귀한다. Copyright ⓒ 2009 LANDKOREA • 일부 데이터의 수정 1. 수정하고 싶은 cell을 더블클릭 2. Del/Back Space/커서키를 이용 수정 3. Enter/Tab을 누름 11
  12. 12. MINITAN소개 수 열 10 8 6 4 2 규칙성을 갖는 수열의 생성 시작 값 끝값 증분 각 값 나열 전체 수열 나열 10 1 2 1 1 Copyright ⓒ 2009 LANDKOREA 12
  13. 13. MINITAN소개 예제 •예제 시작 값 끝값 증분 -0.5 -0.4 -0.3 -0.2 -0.1 -0.5 -0.1 0.1 1 1 1111122222333334444455555 1 5 1 5 1 11223344551122334455 1 5 1 2 2 수 열 Copyright ⓒ 2009 LANDKOREA 각 값 나열 전체 수열 나열 13
  14. 14. MINITAN소개 Copyright ⓒ 2009 LANDKOREA 열의 쌓기 14
  15. 15. MINITAN소개 Copyright ⓒ 2009 LANDKOREA 계산기의 사용 15
  16. 16. 통계분석 Copyright ⓒ 2009 LANDKOREA 16
  17. 17. 통계분석 기초통계 • 기술 통계량 표시 • 기술 통계량 저장 • 그래픽 요약 • 1-표본 Z 검정 • 1-표본 t 검정 • 2-표본 t 검정 • 쌍체 t 검정 • 단일 비율 검정 • 두 비율 검정 • 1-표본 포아송 비율 • 2-표본 포아송 비율 • 단일 표본 분산 • 두 표본 분산 • 상관 분석 • 공분산 분석 • 정규성 검정 • 포아송에 대한 적합도 검정 Copyright ⓒ 2009 LANDKOREA 17
  18. 18. Data의 이해 Data의 구성요소 자료(data) 또는 데이터 셋 (data set)은 변수(variable), 관찰점(obs), 값(value)으로 구성된 결과물의 집합  변수 (variable) : 분석자가 알고 싶어 하는 속성 또는 특성  관찰점(observation) : 관측된 한 줄  값 (value) : 값은 문자와 숫자로 구분 된다.  변수 값, 관찰 값  다변량 자료 (multivariate data) : 각 개체별로 한 개 이상의 변수가 관측된 경우의 자료  일변량 자료 (univariate data) : 각 개체별로 한 변수만을 다룰 경우의 자료 Copyright ⓒ 2009 LANDKOREA 18
  19. 19. Data의 이해 Data의 구성요소  C1의 변수 값(variable value)은 ?  3번째 기록한 관찰 값(obserbation value)은?  C3이라는 변수(variable)의 6번째 관찰점(observation)의 값(value)은 ? Copyright ⓒ 2009 LANDKOREA 19
  20. 20. Data의 이해 Data를 측정하는 이유 왜 데이터를 측정하는가? • 객관적인 의사소통을 위해 • 한 조직 전반에 걸친 공통 언어를 창출하기 위해 수치화할 수 없다면 개선할 수 없다... • 문제나 개선기회를 수량화하기 위해 • 공정이나 그 결과에 대한 기준을 확립하기 위해 • 제안된 해결책에 대한 비용, 이익분석 등을 용이 하게 하기 위해 • 변화의 정도와 방향을 측정하기 위해 • 공정개선의 전,후를 비교하기 위해 • 올바른 해결책의 모색을 위해 Mikel J. Harry Copyright ⓒ 2009 LANDKOREA • 해결책의 효과를 수량화하기 위해 20
  21. 21. Data의 이해 6Sigma 활동의 기초 Data : Six Sigma 활동의 기초 문제 / Issue 데이터 문제 해결 측정을 사용하여 데이터화 하지 못하면 개선의 기회를 잡을 수 없다 Copyright ⓒ 2009 LANDKOREA 21
  22. 22. Data의 종류 이산형 Data •이산형 데이터(Discrete data) ▷관측된 두 값 사이에 틈새가 있는 데이터 ▷예 : 양품, 불량, 합격, 불합격, 결점 수, 5단계 평가 점수(수,우,미,양,가) 영업 지역, 생산 라인, 작업 조(Shift), 또는 공장 등의 자료. ▷계량치 대비 약 65%의 정보량에 불과 ▷Attribute, 계수치 불량 1등급 2등급 3등급 Pass Copyright ⓒ 2009 LANDKOREA Fail 결점 22
  23. 23. Data의 종류 연속형 Data •연속형 데이터(Continuos data) ▷관측된 두 값 사이를 또 다른 값으로 채울 수 있어 틈새가 없는 데이터 ▷예 : 길이, 무게, 온도, 부피, 체적, 압력….. ▷계수치 데이터 보다 더 많은 정보를 얻을 수 있음. ▷Variable, 계량치 정규 분포를 적용 하기 위해서는 데이터는 반드시 연속 자료화 해야 한다 Copyright ⓒ 2009 LANDKOREA 23
  24. 24. Data의 종류 이산형/연속형 Data의 구분 아래의 예에 대하여 연속형 자료인지 이산형 자료 인지 구분하시오. 1. 통화 품질 관련 민원 건수 2. Debuging 라인에서의 회로기판 내 결함 수 3. Monitor 충격시험 data(충격 내구 강도) 4. 국내영업 지역별 분류 자료 5. Cap rate 6. 전표 작성의 정확건, 정활율 7. Call Center 직원의 고객 응대 시간 8. 부동산 임대료 9. 해외 영업 일일 수금액 10. 해외 영업 일일 수금율 11. 수입검사 의뢰된 RF 중계기 불량 수 연속 자료가 불연속 자료 보다 많은 분석을 가능 하게 한다 Copyright ⓒ 2009 LANDKOREA 24
  25. 25. 기술통계 Data의 특성 표본자료는 여러 가지 데이터의 특성 파악 이유로 어떤 분포 모양을 가지게 된다. × □ × ▲★△ ● ▲ ◆▲ ○ □ ☆ ◇ ●■ ◆ ×◇■ × ○ ☆○ 표본 추출 * *** ***** ******* ********* *********** ●★ ○ ▲ ◆ ◇ □ ■ ☆ △ × 모집단 모집단 Process 모집단 Process 정보 자료수집 자료의 특성 파악 기술통계학은 자료의 특성을 수로 표현하는 방법에 대한 체계이다. Copyright ⓒ 2009 LANDKOREA 25
  26. 26. 기술통계 Data의 특성파악 데이터의 특성을 파악하려면 무엇부터 알아야 할까? 1. 빈도 1. 이산형 DATA Graph 2. 상대빈도(퍼센트) Chart 3. 누적빈도 Plot 1. (DATA) 분포의 중심위치 : 집중화경향 2. 연속형 DATA Diagram 2. (DATA) 분포의 산포 : 분산도 Histogram 3. (DATA) 분포의 형태 : 왜도, 첨도 Copyright ⓒ 2009 LANDKOREA 26
  27. 27. 기술통계 Sigma 수준의 계산 참고용 Six Sigma Metrics Data의 유형 통계 측정치 기준과의 비교 Z-Value Defect 이산형 data Unit Opp. DPMO Data Z-Value SPEC 수집 연속형 data Copyright ⓒ 2009 LANDKOREA 시그마 수준계산 평균 표준 편차 그래프 모양 27
  28. 28. 기술통계 연속형 Data의 특성 1. (DATA) 분포의 중심위치 ■ 위치 척도 (Location measure) : 흔히 대표 값이라 불리며, 자료 값들이 어떤 값을 중심으로 분포되어 있는가를 나타냄 2. (DATA) 분포의 산포 ■ 산포도 (Dispersion measure) : 자료 값들이 흩어져 있는 정도를 나타냄 3. (DATA) 분포의 형태 ■ 첨도(Kurtosis) 분포의 뾰족한 정도를 나타내는 척도 ■ 외도(Skewness) 비대칭 도라고도 하며 데이터의 분포가 중심위치로부터 어느 한 쪽으로 치우친 정도 Copyright ⓒ 2009 LANDKOREA 28
  29. 29. 기술통계 중심위치 Toner에 들어가는 잉크의 입자 크기를 6회 측정한 경우... 입자 크기 데이터 (단위 생략) : 1 1 2 3 1 3 이 자료의 “중심”은 어디인가? 즉, 중심은 어디에 위치하는가? 중심 위치 = 대표 값? Copyright ⓒ 2009 LANDKOREA 29
  30. 30. 기술통계 평균(Mean) 평균(Mean, 산술평균) 평균값은 x 로 나타낸다. x 는 수집된 모든 자료를 더하여 자료의 수로 나눔으로써 얻어진다. x 자료의 합 x1  x2    xn  자료의 수 n 잉크 입자 크기 예의 경우 x n  xi  x1  x2    xn i 1 n x  xi i 1 n 또는 n 11 2  3 1 3  1.833... 6 참고로, 모집단의 평균에 대해서는 그리스 소문자 μ를 사용한다. Copyright ⓒ 2009 LANDKOREA 30 xi n i 1
  31. 31. 기술통계 평균(Mean) 잉크 입자 크기 예의 경우 추가로 입자 크기를 측정하여 17을 얻었다면 입자 크기 (단위 생략) : 1 1 2 3 1 3 “17” (산술) 평균은 4이며, 비정상적으로 큰 숫자 17 때문에 대표 값이 높아짐 이런 경우에는 (산술) 평균이 대표 값으로서의 역할을 못함. Copyright ⓒ 2009 LANDKOREA 31
  32. 32. 기술통계 중앙값(Median) 상대적으로 큰 값에 영향을 받지 않는 대표 값을 구하려면? 첫 번째 방법 자료들을 작은 수부터 큰 수까지 순서대로 세운 뒤 가운데 위치하는 수를 취한다. = 중앙값 (Median) • 입자 크기 17을 측정하기 전 : 1 1 자료의 개수가 짝수 이므로 • 입자 크기 17을 측정한 후 : 1 자료의 개수가 홀수 이므로 1 2 3 3 중심 = 1과 2의 (산술)평균 = 1.5 위치 1 1 2 3 3 17 중심 위치 = 2 (산술)평균처럼 17의 측정 전 후에 대한 대표 값의 차이가 심하지 않다.!! Copyright ⓒ 2009 LANDKOREA 32
  33. 33. 기술통계 두 번째 방법 최빈값(Mode) 자료들 중 가장 빈번하게 나타나는 값을 취한다. = 최빈값 (Mode) • 입자 크기 17을 측정하기 전 : 1 1 1 2 3 3 중심 = 가장 빈번하게 나타나는 값 = 1 위치 • 입자 크기 17을 측정한 후 : 1 1 1 2 3 3 17 중심 = 가장 빈번하게 나타나는 값 = 1 위치 17의 측정 전 후에 대한 대표 값의 변화가 없다.!! Copyright ⓒ 2009 LANDKOREA 33
  34. 34. 기술통계 대표값의 활용 어떤 중심위치, 즉 대표 값을 사용할 것인가? 중량, 길이 등의 연속형 자료. 즉, 측정형 자료의 일반적인 분포 형태는... 분포 형태 = 좌우 대칭의 종모양 (산술)평균 = 중앙값 = 최빈수 그러나 !! 어떠한 대표 값을 사용해도 무방하다. 통계 분석의 전개상 여러 가지 이유로 대부분 (산술)평균을 사용한다. Copyright ⓒ 2009 LANDKOREA 34
  35. 35. 기술통계 산포 중심위치는 자료들이 모여 있는 위치를 나타내는 유용한 정보지만 분포 전체의 모양을 보여 주지는 못함. 때때로 모여 있는 위치보다 흩어져 있는 정도 (산포)를 나타내는 측도가 더 중요할 수 있음!! 예) A, B 두 회사 타이어의 수명 분포 어떤 회사의 타이어가 믿음직한가? B회사 타이어의 평균수명이 6만으로 A회사보다 높지만, B회사 타이어 수명 분포의 흩어짐이 매우 커서 자칫 잘못 하면1만 km도 주행하지 못하는 타이어를 1만  A B 주행거리 (km) 살 수도 있다. 5만 6만 ■ 산포도 (Dispersion measure) : 자료 값들이 흩어져 있는 정도를 나타냄. 중심 위치와 마찬가지로 산포도를 측정하는 몇 가지 방법들이 있음!! Copyright ⓒ 2009 LANDKOREA 35
  36. 36. 기술통계 분산/표준편차 분산 (Variance)과 표준편차 (Standard Deviation) 분산과 표준편차는 평균값 x 로 부터 자료들이 떨어진 거리로서 자료의 흩어진 정도를 나타낸다. 즉 거리의 제곱을 사용한다. 만약, 점 xi 에서 x 까지의 제곱거리가 ( xi  x )2 이라면, 분산은 평균제곱거리 (기술적인 이유로, 분모에 n이 아니라 n-1을 사용)로 정의되며, n s 2    xi  x  (n  1) 30 40 i 1  x i 1 i ● ● ●● ● ● ● ● ● ● ● ● ●● ● ● ● 50 60 xi 표준편차는 분산에 제곱근을 취한 형태를 갖는다. s ● 70 ( xi  x ) 2 n ● ● x  x  (n  1) 2 잉크 입자 크기 예의 경우 (17을 취하기 전) n n s    xi  x  (n  1)    xi  1.833.. (6  1)  0.967 2 2 i 1 2 i 1 2 참고로, 모집단의 분산 (모 분산)과 표준편차 (모 표준편차)에 대해서는 각각  , 을 사용한다 Copyright ⓒ 2009 LANDKOREA 36
  37. 37. 기술통계 산포의 발생원인  우연 원인 : 어쩔 수 없는 산포 (제어하기 어려운 산포), 시스템에 내재한 변화 (e.g 주어진 생산품의 디자인 또는 기계나 공정의 선택)  이상 원인 : 제어 할 수 있는 산포, 작위적 효과에 의한 변화 (e.g 조작자간 기술 차이, 원재료 입력 차이, 도구 마모 정도, 날이나 연도의 시간 차이) 산 포 우연 원인 이상 원인 • 현상 모든 Data에서 유사한 양상으로 나타남 일부 Data에서 평소와 다른 양상으로 나타남 • 구성 다수의 사소한 원인 소수의 주요원인 • 특성 안정적, 예측가능 산발적, 예측불가 • 개선조치 제도적인 산포감소 결속 또는 제거 • 책임구분 관리자/엔지니어 작업자/직 반장 • 산포의 구성 85% 15% Copyright ⓒ 2009 LANDKOREA 37
  38. 38. 기술통계량 표시/저장 메뉴의 용도 Case Data Minitab Case 다양한 기술통계량의 값을 화면에 출력하고 워크시트에 저장 화장품을 용기에 주입하는 공정에서 두 개의 주입기계가 사용되고 있다. 주입량의 평균과 산포를 알아보기 위해 5개의 샘플을 취하였다. 각 주입기별 기술통계량 값을 구하라. File : 기술통계량.mtw 주입기 1 10.62 8.98 9.67 9.52 8.45 주입기 2 8.89 8.54 8.91 10.08 9.02 Copyright ⓒ 2009 LANDKOREA 38
  39. 39. 기술통계량 표시/저장 미니탭 실행 Minitab Case 통계분석 > 기초 통계> 기술 통계량 표시 Copyright ⓒ 2009 LANDKOREA 39
  40. 40. 기술통계량 표시/저장 Minitab Case 실행 결과 StDev / √n Copyright ⓒ 2009 LANDKOREA 0.25*(n+1)번째 Data 40
  41. 41. 기술통계량 표시/저장 미니탭 실행 Minitab Case 통계분석 > 기초 통계 > 기술 통계량 저장 • 1사분위수 • 중앙값 • 3사분위수 • IQR(사분위 폭) • 비대칭도 • 첨도(뾰족하기) Copyright ⓒ 2009 LANDKOREA 41
  42. 42. 기술통계량 표시/저장 Minitab Case 실행 결과 Copyright ⓒ 2009 LANDKOREA 42
  43. 43. 그래픽 요약 메뉴의 용도 Case Data Minitab Case 그래프를 통한 데이터 및 신뢰구간의 분포와 다양한 기술통계량의 값을 보여줌 냉장고용 PVC Frame(Case)의 두께를 측정하는 공정이 있다. 25매의 샘플을 취하고 각 Frame별 10개의 Points를 선정하여 두께를 측정한 250개의 데이터로 데이터 분포 및 평균, 표준편차, 또 이에 대한 신뢰구간 등과 같은 기술통계량을 구하라. File : 그래픽요약.mtw Copyright ⓒ 2009 LANDKOREA 43
  44. 44. 그래픽 요약 미니탭 실행 Minitab Case 통계분석 > 기초 통계 > 그래픽 요약 Copyright ⓒ 2009 LANDKOREA 44
  45. 45. 그래픽 요약 Minitab Case 실행결과 Copyright ⓒ 2009 LANDKOREA 45
  46. 46. 확률분포 확률이란? 확률과 통계의 연구 목적은? • 통계는 데이터에 대한 수집, 구성, 분석, 해석 및 발표이다. • 기술적 통계(Descriptive Statistics)는 프로세스의 성과에 대한 정보를 제공한다. • 추론적 통계(Inferential Statistics)는 표본 측정을 기초로 모집단의 성과에 대한 예측을 가능하게 한다. 확률은 예측의 근간(Foundation)이다. Copyright ⓒ 2009 LANDKOREA 46
  47. 47. 확률분포 확률의 이해 그림의 화투 패를 잘 썩어놓고 x장을 뽑았을 때…… 1. 한 장을 뽑았을 때 똥 광이 나올 확률은? 2. 한 장을 뽑았을 때 똥 광이 안 나올 확률은? 3. 한 장을 뽑았을 때 쌍 피가 나올 확률은? 4. 두 장을 뽑았을 때 똥 광이 포함되어 있을(적어도 한 장이 똥 광일) 확률은? Copyright ⓒ 2009 LANDKOREA 47
  48. 48. 확률분포 확률의 이해 주사위 게임 2개의 주사위를 던지는 작업을 내용으로 하는 제조 프로세스가 있다고 가정하자. 고객은 두개 주사위의 조합이 3,4,5,…또는 11일 경우에만 “만족” 한다. 따라서, 조합이 2 또는 12일 경우는 “결함”이다. 주사위가 공정(Fair)하다고 가정할 때, 결함의 양을 예측할 수 있는가? Copyright ⓒ 2009 LANDKOREA 48
  49. 49. 확률분포 확률의 이해 주사위 게임 주사위 1 주 사 위 2 1 2 3 4 5 6 1 2 3 4 5 6 7 2 3 4 5 6 7 8 3 4 5 6 7 8 9 4 5 6 7 8 9 10 5 6 7 8 9 10 11 6 7 8 9 10 11 12 조합 결과가 2인 경우는 몇 번인가? 결과가 12인 경우는 ? 발생 가능한 조합의 총수는? Copyright ⓒ 2009 LANDKOREA 49
  50. 50. 확률분포 확률의 이해 주사위 게임 주사위 1 1 주 사 위 2 1 2 3 4 5 6 2 3 4 5 6 0.0278 0.0278 0.0278 0.0278 0.0278 0.0278 0.0278 0.0278 0.0278 0.0278 0.0278 0.0278 0.0278 0.0278 0.0278 0.0278 0.0278 0.0278 0.0278 0.0278 0.0278 0.0278 0.0278 0.0278 0.0278 0.0278 0.0278 0.0278 0.0278 0.0278 0.0278 0.0278 0.0278 0.0278 0.0278 0.0278 따라서, 결함의 확률은 5.6%이다. Copyright ⓒ 2009 LANDKOREA 50
  51. 51. 확률분포 확률분포의 예 결과의 도식화 값 8 7 LSL 6 USL 5 4 3 2 1 0 0 2 3 4 5 6 7 8 Copyright ⓒ 2009 LANDKOREA 9 1 0 1 1 1 2 조합 2 3 4 5 6 7 8 9 10 11 12 1 2 3 4 5 6 5 4 3 2 1 51
  52. 52. 확률분포 확률분포 분포 곡선을 수식화한 것. 즉, 확률분포는 분포곡선을 수학적 함수화한 것 0.35 0.3 확률분포 = f(X) 0.25 수학적 약속 Ⅱ 0.2 0.15 0.1 어떤 추출단위의 속성을 나타내는 변수 중 확률분포를 갖는 변수를 확률변수라 하고 X라 둔다. 0.05 0 예) X : 제품의 중량, 치수, 결함개수 확률변수 X가 어떤 확률분포를 따른다는 것은 X의 어떤 하나의 값 또는 어떤 구간에 대한 확률 값을 특별한 공식 (함수)로 계산할 수 있다는 것을 의미한다. 예) X : 제품의 중량, 불량률 = 제품 중량이 규격을 벗어날 확률 ⇒ X에 대한 확률분포로 계산 가능. Copyright ⓒ 2009 LANDKOREA 52
  53. 53. 이산형 확률분포 이항분포 계수형 데이터를 취급할 경우 주로 사용되는 이산형 확률분포의 대표적 종류로는 이항분포와 포아송 분포가 있다. 이항분포 (Binomial distribution) 불량 수와 같은 이산형 변수의 확률분포 중 대표적인 분포 이항분포란? n회의 시행 중, 어떤 현상이 x회 일어나는 확률 (예 : 동전 던지기의 n회 시행 중, 앞면이 x회 나올 확률) 의 이산형 분포 여기서 !!  n x p( X  x)    p (1  p) n x  x   p는 특정 현상이 일어날 확률, (1-p)는 일어나지 않을 확률 n을 시료 수, x를 불량 수, p를 모집단의 불량률이라 하면, p(x)는 n개 중에 불량 수 x가 존재하는 확률을 나타내게 됨!! 이항분포의 평균과 분산은 각각 E ( x)  np, V ( x)  np(1  p) Copyright ⓒ 2009 LANDKOREA 53
  54. 54. 이산형 확률분포 포아송분포 포아송 분포 (Poisson distribution)란? 단위 시간이나 단위 공간에서 희귀하게 일어나는 사건의 횟수 등에 유용하게 사용 예) 단위 시간 내의 전화신청 횟수, 실리콘 웨어의 단위 면적당 결점 수, ● ● ● 어느 지역에서의 1일 교통사고 단위당 결점수의 분포 사망자 수 = 포아송 분포 이항분포의 포아송 근사 시료수가 크고, p  0.1 이면, 이항분포는 아래의 포아송 분포로 근사한다 mx p( X  x)  exp( m), x! x  0,1,2,  보통의 경우, 불량률 p는 작으므로, 포아송 분포가 자주 사용!! 포아송 분포의 평균과 분산 = m Copyright ⓒ 2009 LANDKOREA 54
  55. 55. 연속형 확률분포 정규분포 계량형 데이터를 취급할 경우 주로 사용되는 연속형 확률분포의 대표적 종류로는 정규분포, t분포, 카이제곱 분포, F분포가 있다. 이중…… 정규분포(Normal distribution)란? 연속형 변수의 확률분포이며, Gauss 분포라고도 불림. 정규 분포의 형태 평균을 중심으로 좌우 대칭. 확률변수 X가 평균값 = 중앙값= 최빈값 평균  , 분산  2 을 갖는 정규분포를 따를 경우, 다음과 같이 표현한다. 좌우대칭 면적 68% X ~ N ( , ) 2 확률 밀도 함수는 다음과 같다. f ( x)    x   2  1 exp  , 2 2  2     x   -2σ Copyright ⓒ 2009 LANDKOREA χ축에 닿지 않음 면적 95% -σ μ +σ 55 2σ
  56. 56. 정규분포 정규분포 평균은 같고, 표준편차가 다른 정규분포   3.1   3.9  = 5.0   20 Copyright ⓒ 2009 LANDKOREA 56
  57. 57. 정규분포 정규분포 평균과 표준편차가 모두 다른 정규분포  = 5,  = 3  = 9,  = 6  = 14,  = 10 Copyright ⓒ 2009 LANDKOREA 57
  58. 58. 정규분포 정규분포의 활용 은행에서 고객은 5분 이내 업무처리를 원한다. A은행의 업무처리는 μ = 4분 σ = 1분이다. 몇% 고객이 불편을 참고 있는가? A사 직원의 신장은 μ = 170, σ = 10 이다. 180cm 이상은 몇 %일까? 고객의 요구수준 알고 싶은 확률 (%) 150 -2σ 160 -1σ 170 μ 180 1σ 190 2σ 50% - (68% / 2) = 16% Copyright ⓒ 2009 LANDKOREA 고객 불만 영역 1 -3σ 2 -2σ 3 -1σ 4 μ 5 1σ 50% - (68% / 2) = 16% 58 6 2σ 7 3σ
  59. 59. 정규분포 정규분포의 표준화 정규분포의 표준화  :왜? 비교가능하도록 평균이 0 이고 표준편차가 1인 정규분포를 표준정규분포 (Standard normal distribution)이라고 부르고, N(0, 1)으로 쓴다.  z value: X라고 지정하는 어떤 값과 모집단의 평균 μ와의 거리를 모집 단의 표준편차 σ로 나눈 값을 말한다. X Z  Copyright ⓒ 2009 LANDKOREA 59
  60. 60. 정규분포 Z값의 연산 •정규분포 표준 편차 평균 Z X1 x Z  X1  Mean Standard Deviation ? Z •표준정규분포 1 0 Copyright ⓒ 2009 LANDKOREA Z 60
  61. 61. 정규분포 표준정규분포 표준정규분포, N (0,1) 99.73% 95.45% 68.2% -3 -2 -1 Copyright ⓒ 2009 LANDKOREA 0 1 2 3 61
  62. 62. 정규분포 정규분포의 표준화 표준화 = 확률 계산이 용이!! μ = 100, σ = 10 A집단 N(100, 10²) Z = X-100 10 70 80 -3σ -2σ 90 100 110 120 130 -1σ μ 1σ 2σ 3σ 70 Z값 -3 80 -2 90 100 110 120 130 -1 0 1 2 3 μ = 100, σ = 20 B집단 N(100, 20²) 40 60 -3σ -2σ 80 100 120 140 160 -1σ μ 1σ 2σ 3σ N(μ, σ²)의 정규분포 Copyright ⓒ 2009 LANDKOREA Z = X-100 20 40 Z값 -3 60 -2 80 100 120 140 160 -1 0 1 2 3 N(0, 1)의 표준 정규 분포 62
  63. 63. 정규분포 Minitab을 이용한 확률값 계산 Minitab을 이용해 정규분포의 확률을 계산한다. 예제) 평균이 20이고, 표준편차가 5인 정규분포에서 다음 각 확률을 구하라. a) X ≤ 15 일 확률 b) X ≥ 30 일 확률 c) X 가 10과 25 사이일 확률 Copyright ⓒ 2009 LANDKOREA 63
  64. 64. 정규분포 Minitab을 이용한 확률값 계산 a) X ≤ 15 일 확률 미니탭 실행 계산 > 확률분포 > 정규분포 실행결과 Copyright ⓒ 2009 LANDKOREA 64
  65. 65. 정규분포 b) X ≥ 30 일 확률 Minitab을 이용한 확률값 계산 P[X ≥ 30] = 1 – P[X < 30] 미니탭 실행 실행결과 따라서 1-0.9772 = 0.0228 이 될 수 있다. Copyright ⓒ 2009 LANDKOREA 65
  66. 66. 정규분포 Minitab을 이용한 확률값 계산 c) X 가 10과 25일 사이일 확률 미니탭 실행 실행결과 따라서 P[ 10 ≤ X ≤ 25] = 0.8414 – 0.0228 = 0.8186 임을 알 수 있다. Copyright ⓒ 2009 LANDKOREA 66
  67. 67. 표본분포 표본분포의 이해 모집단에서 일정한 크기로 뽑을 수 있는 표본을 모두 뽑았을 때, 그 모든 표본의 통계량의 확률분포 확률표본을 이용한 모집단의 분포에 대한 추론의 예 n 통 계 량 X (표본 평균 : Sample mean) =  X i n 추정  (모평균 : Population mean) i 1 S 2  X i  X  n (표본 분산 : Sample variance) = 2 (n  1) i 1 추정  2 (모 분산 : Population variance) 모집단의 분포에 대한 모든 추론은 통계량을 통해 이루어진다. 통계량 : 통계량이란 관측 가능한 확률표본의 함수이다. 표본 분포 : 통계량의 확률분포를 표본분포라 한다. 표본평균의 분포, 표본분산의 분포가 대표적 표본분포이다 Copyright ⓒ 2009 LANDKOREA 67
  68. 68. 표본평균 및 표본분산의 분포 X 모집단 표본 표본의 평균 S2 Sampling n=2 2 3 1 0 1 2 1.5 0.5 1 3 2 2 1.5 2 0 2 3 2.5 0.5 3 1 1.0 0.5 2 0.0 3  0.5 모집단의 분포 Frequency 0 1.00 1.25 2 2 2 1 복원추출 2 1 1 2 3 2 1.50 1.75 X 2.00 2.25 2.50 2.75 3.00 C1  2X =1/3  =X = 2/n = 2 X =2 표본의 분산 분포 4 2.5 2 0.5 3 Frequency 1 3 표본의 분산 1 1 X 표본의 평균 분포 Frequency 표본분포 2 1 C3 0  =2 2 =2/3 3 3 3 0 0.00 0.25 1.00 1.25 1.50 1.75 2.00 C2 2 E(  ) = E ( N=3 Copyright ⓒ 2009 LANDKOREA 0.50 0.75 68 S2 )
  69. 69. 표본분포 비율의 표본분포 동일한 모집단에서 선택 가능한 모든 표본을 뽑아 구한 비율들의 분포 5번 동전 던지기의 앞면의 숫자에 대한 분포 특정 화학 접착제의 공정 불량률 p는? X(성공횟수) 성공비율(p) 불량 기준 : LCL = 69kg/㎠ X 접착제 강도 시료 추출 접착제 모집단 X1 p  0.0005 ? 불량률에 대한 추정, 가설검정  Xn ˆ p   y1   yn  n x2  f ( x; ) x1 X2 강도의 분포 0 1 2 3 4 5 xn 0.00 0.20 0.40 0.60 0.80 1.00 이항확률 0.031 0.156 0.313 0.313 0.156 0.031 이 항 확 률 0, if X  LCL Y  1, if X  LCL 데이터 처리 0 1 2 3 4 5 0 0.2 0.4 0.6 0.8 1.0 비율의 표본분포 Y : 계수치 데이터 이론적 ~ 이항 분포 확률분포 Copyright ⓒ 2009 LANDKOREA ˆ p : 계량치 데이터 이론적 ~ 정규 분포 표본분포 69 X(성공횟수) P(성공비율)
  70. 70. 표본분포 차이의 표본분포 두 모집단으로부터 선택 가능한 모든 표본을 뽑아 구한 표본평균(표준편차)의 차이들의 분포 표본1 1 1 1 2 3 2 4 ㆍ ㆍ 3 2 ㆍ ㆍ 3 3 ㆍ ㆍ 3 4 4 3 1 4 2 3 2 4 3 3 3 n2=2 표본 평균차이의 분포 평균의 차이 분산의 차이 1-2 = -1 0/0 = 0 4 4 t-분포 자유도 = ∞ (Normal) 자유도 = 10 ㆍ Sampling X2 3 1 3 복원추출 모집단2 2 2 3 2 3 n1=2 1 2 2 2 Sampling X1 2 2 2 1 모집단1 표본2 3-4 = -1 자유도 = 1 표본분산차이(비)의 분포 ㆍ F-분포 0/0 = 0 복원추출 Copyright ⓒ 2009 LANDKOREA 쌍체인 경우 : 표본 8개 쌍체가 아닌 경우 : 표본 81개 70
  71. 71. 표본분포 표본분포의 종류 t 분포 (t distribution) 예 : 자유도 = ∞ (normal) 자유도 = 10 X  ~ t (n  1) S n 자유도 = 1 모평균 또는 모평균 차이의 신뢰구간 추정 모평균 또는 모평균 차이의 검정 카이제곱 분포 (chi-square distribution) 예 : n  1S  2 2 자유도 = 1 ~  2 (n  1) 자유도 = 3 자유도 = 15 모분산 또는 모표준편차의 신뢰구간 추정 모분산 또는 모표준편차의 검정 F 분포 (F distribution) 예 : 2 2 2 S2  2 ~ F (n1  1, n2  1) 2  1 S1 Copyright ⓒ 2009 LANDKOREA 모분산 또는 모분산비의 신뢰구간 추정 모분산 또는 모분산비의 검정 71
  72. 72. 표본분포 중심극한정리 •확률변수 X가 평균 와 분산 2을 갖는 정규분포를 나타낸다면, 모집단으로부터 선택된 크기 n의 확률표본들의 산술평균( X )의 분포도 또한 평균 의 정규분포를 갖지만, 이때 분산은 2 /n이 된다. •중심극한정리의 법칙에 의하면, n이 증가함에 따라 표본평균의 분포는 정규분포 N(, 2/n)으로 수렴한다. 이것은 기초가 되는 분포가 정규분포가 아닐 때에도 마찬가지이다. •실제적으로 발견되는 대부분의 분포에서는, 크기가 매우 작은 (4 또는 5) 경우에도 수렴이 일어난다. •중심극한정리의 결과, 표본평균에 관련된 확률을 계산할 때 다음 식을 사용할 수 있다. z = ( Xbar - ) / (/n) Copyright ⓒ 2009 LANDKOREA 72
  73. 73. 표본분포       중심극한정리 Minitab 프로그램을 다시 시작한다. 이론의 검증을 위해 가상의 데이터를 제작한다. 다음의 명령을 이용하여 평균이 70이고, 표준편차가 9인 정규분포로부터 9열의 수를 생성한다. 열 C1-C9에 이 수들이 기록되어 있다. 각 열이 표본이다. 열 C10에는 표본평균이 기록될 것이다. Minitab > 계산 > 랜덤 데이터 > 정규분포 생성 : 250 데이터 행 저장 열 : c1 - c9 평균 : 70 표준편차 : 9 Minitab > 계산 > 행 통계량 > 통계량 : 평균 입력변수 : c1-c9 결과 저장 위치 : c10 Minitab > 통계분석 > 기초 통계 > 기술 통계량 표시 > 변수 : c1 - c10 열 C10의 표준편차는 얼마로 예상되는가 ? 그 이유는 ? Copyright ⓒ 2009 LANDKOREA 73
  74. 74. 표본분포 Variable 중심극한정리 N Mean Median TrMean StDev SEMean C1 0.561 250 70.253 70.149 70.322 8.614 0.545 C3 250 70.170 70.286 70.155 8.272 0.523 C4 250 70.525 70.196 70.524 8.814 0.557 C5 250 69.123 68.492 69.215 8.637 0.546 C6 250 71.380 72.159 71.515 8.670 0.548 C7 250 69.409 69.523 69.347 8.817 0.558 C8 250 69.698 69.753 69.648 8.766 0.554 C9 250 69.472 69.439 69.625 8.362 0.529 C10 x  8.876 C2 x  250 70.069 70.651 70.172 250 70.011 70.143 70.042  n 9 9   3 3 9 Copyright ⓒ 2009 LANDKOREA 2.887 0.183 Exercise: 이 표준오차(Standard Error)를 해석. 다른 값과 차이가 나는 이유는? 74
  75. 75. 표본분포 중심극한정리 Minitab > 그래프 > 점도표 > 다중Y, 단순 선택 개별 관측에 대한 본포 표본평균값 들의 분포 산포의 극적인 감소에 주의 Copyright ⓒ 2009 LANDKOREA 75
  76. 76. 표본분포 중심극한정리 비정규분포를 이용하여 중심극한정리를 검증해 본다. df = 2 인 카이제곱분포 Minitab > 계산 > 랜덤 데이터 > 카이 제곱 생성 : 250 데이터 행 저장 열 : c1 - c9 자유도 : 2 Minitab > 계산 > 행 통계량 > 통계량 : 평균 입력 변수 : c1-c9 결과 저장 위치 : c10 Minitab > 통계분석 > 기초 통계 > 기술 통계량 표시 > 변수 : c1 - c10 Minitab > 그래프 > 점도표 > 다중Y, 단순 선택 그래프 변수 : c1-c10 Copyright ⓒ 2009 LANDKOREA 76
  77. 77. 표본분포 중심극한정리 통계분석 > 기초 통계 > 정규성 검정 C1 열 데이터의 경우 Copyright ⓒ 2009 LANDKOREA C10 열 데이터의 경우 77
  78. 78. 표본분포 중심극한정리 중심 극한 정리 요약 • 중심극한정리를 통해, n값이 충분히 클 때(미지의 분포에서 n  30) 표본평균의 분포가 대략 정규분포를 따른다고 가정할 수 있다. • 중심극한정리를 통해, 정규모집단의 표본평균의 분포 자체가, 표본크기에 무관하게, 정규적이라고 가정할 수 있다. • 평균의 표준오차는, 표본크기가 증가함에 따라 표본평균의 표준편차가 감소한다는 것을 나타낸다. Copyright ⓒ 2009 LANDKOREA 78
  79. 79. 통계적 추정 통계적 추정의 개념 통계적 추론 (Statistical inference) : 표본으로부터의 정보를 이용하여 모집단에 대한 추측 또는 결정을 하는 과정 표본 모집단 X1 X2 x2   Xn 모수 x1 xn 통계량 f ( x; ) 통계적 추론 추정량 또는 검정 통계량 통계적 추론에 서 중요한 역할을 하는 두가지라.. 확률분포 f(x): 모집단의 분포에 대한 이론적인 모형 모수 (Population parameter) Θ: 확률 분포의 평균, 표준편차 등과 같이 모집단의 특성을 나타내는 값으로, 통계적 추론은 모수에 관한 추론인 경우가 대부분. Copyright ⓒ 2009 LANDKOREA 79
  80. 80. 통계적 추정 통계적 추정의 종류 통계적 추론의 범주 가설검정 (Hypothesis testing) : 모수에 대한 예상, 주장 또는 단순한 추측 등의 옳고 그름에 대한 결정을 하는 과정 추정 (Estimation) : 점 추정과 구간추정 추정의 종류 점 추정 (Point estimation) : 모수의 참값이라고 추측되는 하나의 수 값을 택하는 과정 예) MLB 박판의 평균두께 μ,   x  3.42mm ˆ 구간추정 (Interval estimation) : 모수의 참값이 속할 것으로 기대되는 범위를 택하는 과정 예) MLB 박판의 평균두께에 대한 95% 신뢰구간, 2.19 ≤μ≤4.65 Copyright ⓒ 2009 LANDKOREA 80
  81. 81. 통계적 추정 점 추정 모평균의 점 추정 모비율의 점 추정 모평균 μ의 점 추정 (불편추정 량) : 추정량 : 표본평균  ˆ X 표준오차 : S.E.( )   ˆ ˆ 추정량 : 표본비율 p  X n n (X i 1 i 표준오차 : S.E.( p)  ˆ n 표준오차의 추정량 : S.E.(  )  S ˆ 단, S  모비율 p의 점 추정 (불편추정 량) : n  X ) 2 (n  1) Copyright ⓒ 2009 LANDKOREA p(1  p) n 표준오차의 추정량 : ˆ S.E.( p)  ˆ ˆ p(1  p) n 81
  82. 82. 통계적 추정 구간추정 모평균의 구간추정 모평균 μ에 대한 구간 추정 : 정규 모집단 모평균 μ에 대한 100(1-α)% 신뢰구간은 모평균 μ에 대한 근사 구간 추정 : 표본크기가 클 때 모평균 μ에 대한 100(1-α)% 근사신뢰구간은 2 (a)  이 기지일 때 : X  z 2  n 2 (a)  이 기지일 때 : X  z 2 2 S (b)  이 미지일 때 : X  t (n  1, 2) n 2 (b)  이 미지일 때 : X  z 2  n S n 단, z 2 는 표준정규분포의 100(1-α/2)% 백분위수, t (n  1, 2)는 자유도 n-1인 t분포의 100(1-α/2)% 백분위수 모비율의 구간추정 모분산의 구간추정 모비율 p에 대한 구간 추정 : 표본크기가 클 때 모분산  에 대한 구간 추정 : 정규 모집단 모비율 p에 대한 100(1-α)% 근사 신뢰구간은 모분산  에 대한 100(1-α)% 신뢰구간은 ˆ p  z 2 ˆ ˆ p (1  p ) n 2 2  (n  1) S 2  (n  1) S 2 , 2  2    (n  1, 2)  (n  1,1   2)  2 단,  (n  1, 2) 는 자유도 n-1인 카이제곱 분포의 100(1-α/2)% 백분위수 Copyright ⓒ 2009 LANDKOREA 82
  83. 83. 통계적 추정 평균의 구간추정 예 참고용 x : sample의 평균 s : sample의 표준편차 n : sample의 개수 df : 자유도(n-1) tα/2,df: 확률 α/2, 자유도(n-1) 에서의 t값(t분포) LCL = x - •α: 신뢰 구간이 틀릴 확률, 즉, 신뢰 구간 내에 참 값이 포함되어 있지 않을 확률. 일반적으로 0.05나 1-α tα/2,df*(s/√ n ) 0.01의 값으로 주어진다. LCL = x + tα/2,df*(s/√ n ) α/2 α/2 Scale of x x 신뢰도: 참 평균(True Universe Mean)이 그 구간 내에 포함되는 확률이 (1-α)100% 이다. x - tα/2,df*(s/√ n ) Copyright ⓒ 2009 LANDKOREA μ x + tα/2,df*(s/√ n ) 83
  84. 84. 통계적 추정 표준편차의 구간추정 예 참고용 s χ2 df α/2, df    s 신뢰 하한 α/2 df χ2(1-α/2), df s : sample의 표준편차 df : 자유도(n-1) χ2 α/2,df: 확률 α/2, 자유도(n-1) 에서의 χ2 값(χ2 분포) 신뢰 상한 1-α Copyright ⓒ 2009 LANDKOREA α/2 84
  85. 85. 통계적 추정 평균의 구간추정 평균의 신뢰구간(예제) 생산품 중 50개의 Sample을 취해 특성을 측정해본 결과 평균이 12.7998, 표준편차가 0.418 인 분포를 보였다. 모집단의 평균을 95% 신뢰도로 구간추정 하라. • 모평균 (μ ) 에 대한 점 추정치는? • 신뢰 구간이 95%라고 가정하라, 따라서 α = ? • 신뢰 하한 구간 값은 = • 신뢰 상한 구간 값은 = • 신뢰구간이 참 평균값 μ를 포함할 확률은 ? Copyright ⓒ 2009 LANDKOREA 85
  86. 86. 통계적 추정 평균의 구간추정 평균의 신뢰구간(예제) 생산 자료 x = 12.7998 s = 0.418 0 . 418 s = = 0 .059 n 50 μ 에 대한 신뢰 구간 n이 50일 때 tα/2,df = 2.01 (t 분포표 참조) 95% 12.68 x = 12.7998 Copyright ⓒ 2009 LANDKOREA 12.92 86
  87. 87. 통계적 추정 Minitab(신뢰구간추정) 미니탭을 이용하여 주어진 데이터로 모집단 평균의 신뢰구간을 추정하시오 File : 그래픽 요약.mtw 신뢰도 입력 95%신뢰도일 경우 95.0 Copyright ⓒ 2009 LANDKOREA 87
  88. 88. 통계적 추정 Minitab(신뢰구간추정) Copyright ⓒ 2009 LANDKOREA 88
  89. 89. 통계적 가설검정 가설검정 가설 검정 (Hypothesis tests) 모집단의 모수에 대하여 어떤 가설을 세우고, 이 가설의 진위를 표본(Sample)의 정보를 토대로 하여 판단하는 과정 귀무가설( Null Hypothesis, H0) 대립가설(Alternative Hypothesis, H1) 도대체 둘 중 어떤 것이 맞는 가설인 거야? 직접 실험을 통해 얻어진 표본 자료를 통해 판단!! Copyright ⓒ 2009 LANDKOREA 89
  90. 90. 통계적 가설검정 가설 가설 (Hyphothesis)이란? 통계적 가설이란 하나 또는 그 이상의 모집단에 대한 모수의 진술 예 : 두개의 지역에서 판매량에 차이가 있는지를 판단하고 싶은 경우 통계적 가설검정이란? 그 차가 본질적인 지역차에 의한 것인가, 우연오차에 의한 것인가를 객관적으로 판단하는 수단 일반적으로 귀무가설(Null Hypothesis: H0): 변화나 차이가 없음을 설명하는 가설 대립가설(Alternative Hypothesis: H1): H0에 반대되는 가설 실험에 의해 얻어진 표본 자료에 의해 둘 중 어느 하나의 가설을 옳다고 판단함 Copyright ⓒ 2009 LANDKOREA 90
  91. 91. 통계적 가설검정 가설 가설의 구체적 예 귀무가설(H0) - 특정한 값과 비교하는 경우 모집단의 통계치가 특정한 값이 같다고 가정 H0 : μ = μ0 H0 : μ1 = μ2 - 두 개의 모집단을 비교하는 경우 2 H0 : σ2 = σ0 두개의 모집단 통계치가 같다고 가정 H0 : σ2 = σ2 1 2 대립가설(H1) - Not H1 양측검정 단측검정 H1 : μ ≠ μ0 H1 : μ > μ0 H1 : μ < μ0 H1 : μ1 ≠ μ2 H1 : μ1 > μ2 H1 : μ1 < μ2 H1 : σ2 ≠ σ2 0 H1 : σ2 > σ2 H1 : σ2 < σ2 0 2 H1 : σ2 > σ2 H1 : σ2 < σ2 H1 : σ2 ≠ σ2 1 Copyright ⓒ 2009 LANDKOREA 0 1 2 1 91 2
  92. 92. 통계적 가설검정 가설검정에서의 오류 가설검정에 따른 오류 • 1-α : 신뢰수준 • 1-β : 검출력 사실 H1 H0 H0 정확한 결정 1-α 제2종 오류 (소비자위험) β H1 제1종 오류 (생산자위험, 유의수준) α 정확한 결정 1- β 채택 유의수준 (Significance level) : 통계적 가설검정에서 제1종 오류를 범할 확률의 최대 허용한계 α로 쓰며, 크면 클수록 시험자가 불리. 생산자 위험이라고도 불림. 검출력 (Power of test) : 틀린 가설을 틀렸다고 올바르게 판정할 확률 1-β로 씀. β는 소비자 위험이라고도 불림. Copyright ⓒ 2009 LANDKOREA 92
  93. 93. 통계적 가설검정 가설검정의 구분 모평균의 검정 시 유의수준이 5%로 주어진 경우 우측검정 (Right-tailed) 양측검정 (Two-tailed) 좌측검정 (Left-tailed) α = 0.05 α = 0.05 α /2 = 0.025 α /2 = 0.025 H0: μ < μ0 = H0: μ = μ0 H0: μ > μ0 = H1: μ > μ0 H1: μ  μ0 H1: μ < μ0 Copyright ⓒ 2009 LANDKOREA 93
  94. 94. 통계적 가설검정 검정통계량 검정 통계량 (Test statistics) 귀무가설과 대립가설 중 어느 하나를 택하는 데에 사용되는 통계량 검정 통계량 구성 원리 귀무가설이 틀렸다는 신호 즉, 변화나 차이가 있다. Signal Noise 실험오차에 의한 변화나 차이 모평균 검정 H0 : μ = μ0 H1 : μ > μ0 예 X  0 s n Signal이 Noise보다 크면 그 Ratio는 > 1이 되며, 이 Ratio가 모평균이 μ0 보다 크다고 할 수 있을 정도의 값 (통계적인 기준 값)인 기각치 보다 크면 귀무가설 기각임. 여기서 통계량이므로, 확률분포를 따르며 검정 통계량의 형태에 따라 정규분포, t분포, 카이제곱 분포, F분포 등을 따르게 됨. 아울러, 분포 및 시료 수, 유의수준에 따라 기각치가 결정됨. Copyright ⓒ 2009 LANDKOREA 94
  95. 95. 통계적 가설검정 유의수준 유의수준(α) - 귀무가설 참인데도 불구하고 귀무가설을 기각할 확률 기각역 - 귀무가설을 기각하는 영역 - 검정 통계량 값이 기각역에 포함되면 귀무가설을 기각하고 대립가설을 채택함 유의확률 (p-value) - 검정 통계량의 관측값에 대하여 귀무가설을 기각할 수 있는 최소의 유의수준 - 유의확률값이 실험자가 미리 선택한 α값보다 작으면 귀무가설을 기각하고 p값이 α값보다 크면 귀무가설을 채택 Copyright ⓒ 2009 LANDKOREA 95
  96. 96. 통계적 가설검정 기각/채택의 결정방법 1. 검정통계량에 의한 가설판정 만약 계산치가 기각치(Critical Value)보다 작거나 같은 경우 ☞ Ho를 기각하는데 실패 / Ho채택 만약 계산치가 기각치(Critical Value)보다 클 경우 ☞ Ho를 기각 / H1 채택 2. 유의확률에 의한 가설판정 만약 P Value가 α보다 크거나 같은 경우 ☞ Ho를 기각하는데 실패 / Ho채택 만약 P Value가 α보다 작을 경우 ☞ Ho를 기각 / H1 채택 대부분 2번의 방법을 사용 3. 신뢰구간에 의한 가설판정 만약 귀무가설에서 설정한 값이 신뢰 구간(Confidence Interval)내에 있을 때 ☞ Ho를 기각하는데 실패 / Ho채택 만약 신뢰 구간(Confidence Interval)밖에 있을 때 ☞ Ho를 기각 / H1 채택 Copyright ⓒ 2009 LANDKOREA 96
  97. 97. 통계적 가설검정 가설검정방법 모분산 기지 모분산 미지 T - test 모분산 기지 Z - test 모분산 미지 단일 모 평균 Z - test T - test 모평균 두 모평균 비교 계량형 X² - test 단일 모분산 두 모분산 비교 정규분포 F - test Bartlett’s test 비정규분포 모분산 Levene’s test T - test 대응 관측 값 비교 단일 모비율 두 모비율 비교 계수형 Z - test Z - test 모비율 독립성 검정 기타 X² 검정 X² - test 동일성 검정 적합도 검정 Copyright ⓒ 2009 LANDKOREA 97
  98. 98. 통계적 가설검정 test 가설검정방법 Regression Normality 귀무가설 같다 변화 없다 계수=0 정규성 띈다 인자 의미 無 대립가설 다르다 달라졌다 계수≠0 인자 의미 有 Run Chart Curvature Lack of Fit 인자가 유의 하지 않음 특별한 경향 없음 직선적이다 인자가 유의함 특별한 경향 있어 문제됨 곡선적이다 특별한 경향 있어 문제 곡선적이다 0.05 이하 일 때 P Value 판단 비 정규성 ANOVA, DOE 다르다 달라졌다 계수≠0 인자 의미 有 Copyright ⓒ 2009 LANDKOREA 비 정규성 인자가 유의함 98
  99. 99. 1-표본 Z 검정 메뉴의 용도 Case Minitab Case 모집단의 표준편차를 알고 있을 때, 한 개 모집단의 평균치에 대한 신뢰구간 추정과 가설 검정을 실시한다. 어떤 프로젝트 팀이 활동결과 양품률이 73% 이상이라 하는데(단, 표준편차:7%) 이의 검정을 위해 8개 Lot를 샘플링하여 양품률을 측정한 결과 다음과 같았다. 70.7 74.7 69.0 65.2 71.1 86.0 73.2 86.8 실제 양품률이 73% 이상인지를 유의수준 5%로 검정하여라. Data Data : 1-표본 Z.mtw Copyright ⓒ 2009 LANDKOREA 99
  100. 100. 1-표본 Z 검정 미니탭 실행 Minitab Case 통계분석 > 기초 통계 > 1-표본 Z 검정 신뢰수준 결정 대립가설 형태 결정 Copyright ⓒ 2009 LANDKOREA 100
  101. 101. 1-표본 Z 검정 Minitab Case 실행 결과 제품의 수율이 73%보다 크다고 할 수 없다. 결과 해석 P-value 0.261로 0.05보다 크므로 유의수준 5%에서 귀무가설 채택 즉, 제품의 수율은 73보다 크다고 할 수 없으므로 프로젝트 팀의 주장은 근거가 없음 Copyright ⓒ 2009 LANDKOREA 101
  102. 102. 1-표본 Z 검정 수기계산 단일 모평균의 검정(모분산을 알 때) • 전제조건 : 정규분포 이거나, 시료수가 30개 이상의 대표본인 경우 • 검정통계량 : Z= X-μ σ/ n • 기각역 : 구 분 H0 H₁ 기각역 μ ≤ μ0 μ >μ0 Z >Zα μ ≥ μ0 μ< μ0 Z<-Zα μ = μ0 μ ≠ μ0 |Z|>Zα/2 한쪽 검정 양쪽 검정 Copyright ⓒ 2009 LANDKOREA 102
  103. 103. 1-표본 Z 검정 수기계산 • 가정용 전구의 평균수명을 추정하기 위해 9개의 전구수명을 단축 실험에 의해 조사한 결과 다음과 같은 Data를 얻었다. 모 표준편차는 10시간이다. 전구의 평균수명이 1100시간인가를 검정하여라. (α= 0.05) Data : 987, 1121, 997, 1020, 978, 1040, 982, 1050, 992 이론적 접근 1. H0 : μ= 1100 2. H₁: μ≠ 1100 3. α : 0.05 4. 검정 통계량 및 기각역 Z= x-μo σ/ n , 기각역 = |Z|>Zα/2 = 1.96 5. 검정 통계량 계산 Z= 1018.56-1100 = -24.43 10/ 9 6. 결 론 : |Z|(=24.43) >= Zα/2(=1.96)이므로 H0를 기각한다. 즉, 전구의 수명이 1100시간이라는 주장을 할 수 없다. (참고) 유의확률 P=P(|Z|> 24.43)=2P( Z<-24.43)=0.000.... 즉, 유의수준 0.05보다 매우 작으므로 H₁에 대한 증거는 더욱 명확함. Copyright ⓒ 2009 LANDKOREA 103
  104. 104. 1-표본 t 검정 메뉴의 용도 Case Data Minitab Case 모집단의 표준편차를 모를 때, 한 개 모집단의 평균치에 대한 신뢰구간 추정과 가설 검정을 실시한다. 두 단자의 Gap을 0.8mm 이하로 생산해야 하는 제품이 있다. 이 제품에 대해 30개의 샘플을 취하여 측정한 결과로 생산한 제품의 Gap이 0.8mm 이하라고 할 수 있는지를 유의수준 5%로 검정하라. Data : 1-표본 t.mtw Copyright ⓒ 2009 LANDKOREA 104
  105. 105. 1-표본 t 검정 미니탭 실행 Minitab Case 통계분석 > 기초 통계 > 1-표본 t 검정 신뢰수준 결정 대립가설 형태 결정 Sigma 입력란 없음 Copyright ⓒ 2009 LANDKOREA 105
  106. 106. 1-표본 t 검정 Minitab Case 실행 결과 Gap이 0.8mm 이하라고 할 수 있다. 결과 해석 P-value 0.027로 0.05보다 작으므로 유의수준 5%에서 귀무가설 기각 즉, Gap은 0.8mm 이하라고 할 수 있다. Copyright ⓒ 2009 LANDKOREA 106
  107. 107. 1-표본 t 검정 수기계산 단일 모평균의 검정(모분산을 모를 때) • 전제조건 : 모집단이 정규분포임을 가정하는 경우 • 검정통계량 : t= X-μ0 s/ n • 기각역 : 구 분 양쪽검정 H₁ 기각역 μ ≤ μ0 한쪽 검정 H0 μ >μ0 T >tα μ ≥ μ0 μ< μ0 t<-tα μ = μ0 μ ≠ μ0 |t|≥ tα/2 Copyright ⓒ 2009 LANDKOREA 107
  108. 108. 1-표본 t 검정 수기계산 A제품의 평균 충격강도는 24㎏/㎠이다. 최근에, 랜덤 Sampling하여 충격강도를 측정한 결과 다음과 같은 Data를 얻었다. 과연 평균 충격강도를 24㎏/㎠이라고 할 수 있는지 검정하시오. Data : 25.0, 23.5, 23.0, 23.5, 24.5 이론적 접근 1. H0 : μ= 24 2. H₁: μ≠ 24 3. α : 0.05 4. 검정 통계량 및 기각역 t= X-μ0 S/ n , 기각역 = |t|>tα/2 (=2.776) 5. 계 산 t= 23.9- 24 = -0.27 0.822/ 5 6. 결 론 : |t|< tα/2 이므로 H0를 기각할 수 없다. 즉, 평균 충격강도를 24㎏/㎠이 아니라고 말할 수 없다. 참고 : 유의확률 P= P(|t| >0.27) = 2P( Z > 0.27)= 2× 0.40= 0.80 즉, P >0.05이므로 H0를 기각할 수 없다. Copyright ⓒ 2009 LANDKOREA 108
  109. 109. 2-표본 t 검정 메뉴의 용도 Case Data Minitab Case 모집단의 표준편차를 모를 때, 서로 독립인 두 모집단의 평균치 차에 대한 신뢰구간 추정과 가설검정을 실시한다. 통신용 단말기를 생산하는 두 업체 A,B가 있다. 최근 A업체는 경쟁사인 B업체 보다 통화잡음 레벨을 개선했다고 한다. 양사 30개의 단말기로 통화잡음 레벨을 측정한 데이터로 A업체의 주장이 일리가 있는지 유의수준 5%에서 검정하라. Data : 2-표본 t.mtw Copyright ⓒ 2009 LANDKOREA 109
  110. 110. 2-표본 t 검정 미니탭 실행 Minitab Case 통계분석 > 기초 통계 > 2-표본 t 검정 업체 A, B입력 등분산일 경우 체크 Copyright ⓒ 2009 LANDKOREA 110
  111. 111. 2-표본 t 검정 Minitab Case 실행 결과 A사와 B사간엔 유의차가 있고 A사가 더 낮다고 할 수 있음 결과 해석 P-value 0.001로 0.05보다 작으므로 유의수준 5%에서 귀무가설 기각 즉, 잡음 레벨은 양사간 차이가 있으며 A사가 더 낮다고 할 수 있음 Copyright ⓒ 2009 LANDKOREA 111
  112. 112. 2-표본 t 검정 수기계산 두 모평균 차의 검정(모분산을 알 때) 참고용 • 전제조건 : 정규분포 이거나, 시료수가 30개 이상의 대표본인 경우 (X₁- X₂)-(μ₁- μ₂) • 검정통계량 : Z= σ1² σ2² + n₂ n₁ • 기각역 : 분 한쪽검정 양쪽검정 H0 H₁ 기각역 μ1 ≤ μ2 (μ1-μ2≤ 0) 구 μ1 >μ2 Z ≥ Zα μ1 ≥ μ 2 (μ1-μ2 ≥ 0) μ< μ0 Z ≤-Zα μ1 = μ2 (μ1-μ2 = 0) μ ≠μ0 |Z|≥ Zα/2 ☞ 실제로 두 모집단의 표준편차를 아는 경우가 드물기 대문에 Mintab에서는 두 모평균에 대한 Z검정을 지원하지 않는다. Copyright ⓒ 2009 LANDKOREA 112
  113. 113. 2-표본 t 검정 수기계산 두 모평균 차의 검정(모분산을 모를 때) 1) σ₁= σ₂인 경우 • 전제조건 : 모집단이 정규분포임을 가정하는 경우 ( X1- X2)-d0 t= • 검정통계량 : Sp (1/n1+ 1/n2) 단, Sp ² = S1²( n1- 1) + S2² (n2- 1) n1+ n2- 2 , d0 = μ1-μ2 ☞ 검정통계량은 자유도 Φ= n1+ n2- 2인 t 분포를 따름. • 기각역 : 분 한쪽검정 양쪽검정 H0 H₁ 기각역 μ1 ≤ μ2 구 μ1 >μ2 t ≥ tα μ1 ≥ μ2 μ< μ0 t ≤-tα μ1 = μ 2 μ ≠ μ0 |t|≥ tα/2 Copyright ⓒ 2009 LANDKOREA 113
  114. 114. 2-표본 t 검정 수기계산 다음의 Data는 어떤 건축재료에 대해서 열처리후의 늘어난 길이를 측정한 것이다. A그룹의 Data는 A사 제품 18개에 대해서 측정한 것이며, B그룹의 Data는 B사 제품 16개에 대해서 측정한 것이다. A사 제품과 B사 제품의 늘어난 길이에는 차이가 있다고 말할 수 있는지를 검토하시오. (등분산 가정) Data A사 : 22, 19, 16, 17, 19, 16, 26, 24, 18 ,19, 13, 16, 22, 18, 19, 22, 19, 28 B사 : 22, 20, 28, 24, 22, 28, 22, 19, 25, 21, 23, 24, 23, 23, 29, 23 이론적 접근 1) H0 : μA-μB= 0 , 2) H1 : μA-μB ≠ 0 , 3) α : 0.05 4) 검정 통계량 및 기각역 (XA-XB)-do t= 자유도=nA + nB-2= 32 , 기각역 : |t|≥ tα/2 (≒ 2.04) Sp 1/ηA+1/ηB , 5) 검정 통계량 계산 2 2 SA (nA-1) + SB (nB-1) 3.79²× 17+ 2.83²×15 = Sp= = 3. 37 nA+nB-2 18+16-2 t = (19.61- 23.50)-0 1 3.37× 1/18+ 16 = -3.36 6) 결 론 : |t|>tα/2보다 크므로 H0를 기각함. 늘어난 길이는 차이가 있다고 말할 수 있다. 7) 참 고 : P(유의확율)=P(|t|≥ 3.36 )=2P( t >3.36)= 0.0021, 따라서 P< 0.05 이므로 H0기각 Copyright ⓒ 2009 LANDKOREA 114
  115. 115. 2-표본 t 검정 수기계산 2) σ1≠ σ2인 경우 • 전제조건 : - Behrens-Fisher 방법과 Cochran방법을 사용하여 검정통계량이 근사적으로 t 분포를 따른다는 사실에 입각하여 추론함. - Minitab에서는 Behrens-Fisher 방법을 사용함. • 검정통계량 : T’ = ( X1 - X2 ) - d0 S1² n1 + S2² n2 • 이론적 접근 : σ₁= σ₂인 경우와 동일하며, 단 검정통계량만 차이가 남. • Minitab 활용 : 4-1의 예제에서 “2-Sample t”창의 “Assume equal variance”난의 Check를 제거하면 됨. ☞ 두 모평균 차를 검정 할 때는 검정 전에 두 모집단이 같은 분산을 갖는 지를 확인 하여야 함 (등분산 검정) Copyright ⓒ 2009 LANDKOREA 115
  116. 116. 쌍체 t 검정 메뉴의 용도 Case Data Minitab Case 데이터가 동질적인 쌍의 형태를 띌 때, 각 쌍에서 얻은 관측값의 차(D =X 1-X2 )를 이용하여 두 모평균을 비교하는 방법. 즉, 실험단위를 동질적인 쌍으로 묶은 다음 각 쌍에서 랜덤하게 두 방법을 적용하고, 두 집단의 평균치 차에 대한 신뢰구간 계산과 가설검정을 실시한다. 8가지 형태의 데이터를 두 가지 전송방식으로 전송해보고 전송시간을 측정했을 경우 두 전송 방식간의 전송시간에 차가 있는지를 유의수준 5%로 검정하여라. Data : 쌍체 t.mtw Copyright ⓒ 2009 LANDKOREA 116
  117. 117. 쌍체 t 검정 미니탭 실행 Minitab Case 통계분석 > 기초 통계 > 쌍체 t 검정 Copyright ⓒ 2009 LANDKOREA 117
  118. 118. 쌍체 t 검정 Minitab Case 실행 결과 전송시간에 유의차가 있다고 할 수 있다. 결과 해석 P-value 0.011로 0.05보다 작으므로 유의수준 5%에서 귀무가설 기각 즉, 두 가지 전송방법간 전송시간에 차이가 있다. 평균으로 볼 때 전송방법 1이 전송시간이 짧다. 만약 짧은 것이 좋다면 단측 검정을 실시할 필요가 있다. Copyright ⓒ 2009 LANDKOREA 118
  119. 119. 쌍체 t 검정 수기계산 대응 Data의 두 모평균차이 검정 • 두 모집단의 실험단위들이 동질성 조건을 만족시킬 수 없는 경우 동질적인 실험단위끼리 조로 나누어 두 모평균차이를 검정하는 방법 ex) 신발의 오른쪽과 왼쪽 중 어느 쪽이 빨리 닳아지는가? • 전 제 조 건 : 대응되는 Data의 차이 값이 정규분포를 따르거나, 30개 이상의 대표본인 경우 • 검정 통계량 : t= d-d0 Sd / n (단, d = 대응Data의 편차의 평균, Sd = 대응Data의 편차의 표준편차 ) •기각역 구 분 양쪽검정 H₁ 기각역 μD≤d0 한쪽검정 H0 μD>d0 t ≥ tα μD≥d0 μD<d0 t ≤-tα μD=d0 μD≠d0 |t|≥ tα/2 Copyright ⓒ 2009 LANDKOREA 119
  120. 120. 쌍체 t 검정 수기계산 페인트 제조에 대한 개발연구를 행한 결과 방법1과 방법2중의 한 가지를 채택하기로 하였 다. 방법1은 방법2에 비하여 1Batch당의 제조비용은 비싸지만 제품의 수확량이 많으며, 1Batch당 5㎏이상 높다고 판단된다면 방법1을 채택하고 싶다. 원료 10 lot에 대해 방법1과 방법 2를 실험한 결과 다음과 같은 대응이 있는 Data를 얻었다. 이에 대한 분석을 실시하시오 . Lot 방 법1 방 법2 1 80.0 73.0 2 79.3 74.6 3 79.1 73.0 4 77.4 72.8 5 81.6 76.0 6 80.1 74.1 7 80.0 75.0 8 81.6 73.3 9 76.3 70.7 10 81.9 74.8 Copyright ⓒ 2009 LANDKOREA 120
  121. 121. 쌍체 t 검정 수기계산 이론적 접근 1) H0 : μD = 5 2) H₁: μD > 5 3) α : 0.05 4) 검정 통계량 및 기각역 t= d-d0 Sd / n , 기각역 : t >tα (=1.833) 5) 검정통계량 계산 6- 5 t= 1.178 / 10 = 2.69 ( >tα) (d = 6, Sd = 1.178) P= P( t >2.69 ) = 0.012 ( <α) 6) 결 론 : 귀무가설을 기각한다. 즉, 방법1은 방법2에 비해 1Batch당 수확량이 5㎏이상 높다고 말할 수 있음. Copyright ⓒ 2009 LANDKOREA 121
  122. 122. 단일 비율 검정 메뉴의 용도 Case 미니탭 실행 Minitab Case 불량률, 찬성률, 실업률 등과 같이 모집단에서 어떤 특정 속성을 갖는 것의 비율을 모비율이라 말한다. 이와 같은 한 개 모비율에 대한 신뢰구간 추정과 가설 검정에 사용된다. 어떤 공정의 모 불량률이 0.118인 것으로 알려져 있다. 개선팀의 활동 후 100개의 샘플을 취하여 불량률을 조사한 결과 9개의 불량품이 발생되었다. 개선팀 활동 후 불량률이 달라졌는지(개선되었는지)를 유의수준 5%로 검정하여라. 통계분석 > 기초 통계 > 단일 비율 검정 Copyright ⓒ 2009 LANDKOREA 122
  123. 123. 단일 비율 검정 Minitab Case 미니탭 실행 신뢰수준 및 검정 비율 입력 np≥5이면 이항분포가 정규분포에 근사 Click Copyright ⓒ 2009 LANDKOREA 123
  124. 124. 단일 비율 검정 Minitab Case 실행 결과 불량률이 달라졌다고 할 수 없다. 결과 해석 P-value 0.193로 0.05보다 크므로 유의수준 5%에서 귀무가설 채택 즉, 불량률이 변했다고 할 수 없다. 따라서 개선의 효과는 없다고 판단 함 Copyright ⓒ 2009 LANDKOREA 124
  125. 125. 단일 비율 검정 수기계산 단일 모비율의 검정 • 전제조건 : n이 충분히 큰 경우 (np > 5) - np >5, n(1-P) >5이면 이항분포는 정규분포를 따름 • 검정통계량 ∧ Z= ( P- P0 ) P0(1- P0)/n = X - nP0 nP0(1-P0) • 기각역 구 분 H0 H₁ 기각역 P ≤ P0 P > P0 Z0 ≥ Zα P ≥ P0 P < P0 Z0 ≤ - Zα P = P0 P ≠ P0 |Z| ≥ Zα/2 한쪽검정 양쪽검정 Copyright ⓒ 2009 LANDKOREA 125
  126. 126. 단일 비율 검정 수기계산 LG TV공장에서는 Color TV용 튜너의 불량이 과거 Data에 의해 5.5%로 집계 되었다. 이 불량율을 줄이기 위해 콘덴서의 예비 가열 공정을 추가시켰는데, 이에 따른 튜너의 불량율이 감소되었는가를 확인하기 위해 새 공정에서 만들어진 200개의 튜너를 랜덤 하게 채취하여 검사하였더니 4개가 불량이었다. 불량율이 5.5%미만으로 감소되었는가를 검정하시오. 유의수준 0.05임 이론적 접근 1) H0 : P0 = 0.055, 2) H₁: P0 < 0.055, 4) 검정통계량 및 기각역 3) α : 0.05 ∧ Z0 = ( P- P0 ) P0(1- P0)/n 기각역 : Z0 < - Zα(= - 1.645) , 5) 검정 통계량 계산 Z0 = ( 4/200- 0.055 ) 0.055(1-0.055) 200 = - 2.17 ( < - Zα ) P = P( Z < - 2.17 ) = 0.015 ( < α) 6) 결론 : H0를 기각한다, 즉, 개량된 공정에서 튜너의 불량율은 5.5%미만으로 감소되었다고 볼 수 있다 Copyright ⓒ 2009 LANDKOREA 126
  127. 127. 두 비율 검정 메뉴의 용도 Case 미니탭 실행 Minitab Case 두 모집단의 모비율 차에 대한 신뢰구간 추정과 가설검정을 실시한다. 두 원료 납품 업체에서 납품한 원료를 이용하여 생산한 제품에서 120개, 150개씩 샘플을 취하여 불량품을 조사한 결과 12개, 9개의 불량품이 발생되었다. 두 납품 업체의 원료간 제품 불량률에 차이가 있는지를 유의수준 5%로 검정하여라. 통계분석 > 기초 통계 > 두 비율 검정 Copyright ⓒ 2009 LANDKOREA 127
  128. 128. 두 비율 검정 Minitab Case 미니탭 실행 Raw Data로 입력되어 있는 경우 A의 표본수와 불량품수 입력 B의 표본수와 불량품수 입력 Copyright ⓒ 2009 LANDKOREA 128
  129. 129. 두 비율 검정 Minitab Case 실행 결과 두 납품 업체의 불량률간엔 유의차가 있다고 할 수 없다. 결과 해석 P-value 0.223로 0.05보다 크므로 유의수준 5%에서 귀무가설 채택 즉, 두 원료 납품 업체간 제품 불량률에 차이가 있다고 할 수 없다. Copyright ⓒ 2009 LANDKOREA 129
  130. 130. 두 비율 검정 수기계산 두 모비율 차이의 검정 • 전제조건 : n이 충분히 큰 경우 (np₁>5, np₂>5) • 검정통계량 : ∧ ∧ ( P₁- P₂ ) Z0 = ∧ ∧ P(1- P) 1 1 n₁+ n₂ ∧ 단P= X₁+ X₂ (합동 추정량) n₁+ n₂ H₁ 기각역 , • 기각역 구 분 H0 P₁≤ P₂ P₁ > P₂ Z0 ≥ Zα P₁≥ P₂ P₁< P₂ Z0 ≤ - Zα P₁= P₂ P₁ ≠ P₂ |Z0| ≥ Zα/2 한쪽 검정 양쪽검정 Copyright ⓒ 2009 LANDKOREA 130
  131. 131. 두 비율 검정 수기계산 어떤 원료가 A, B 두 회사로부터 납품되고 있다. 이 두 회사의 원료에 대해 제품에 미치는 불량율을 각각 P₁, P₂라고 할 때, 두 회사간에 차가 있으면 좋은 쪽 회사의 원료를 구입할 생각이다. 불량율 차를 조사하기 위해 A로 만들어진 제품 중에서 120개, B로 만들어진 제품 중에서 150개의 제품을 랜덤하게 추출하여 불량 수를 찾아보니 12개, 9개이다. 유의수준 0.05에서 두 회사의 불량율 차이를 검정하시오 이론적 접근 1) H0 : P₁= P₂, 2) H₁: P₁≠ P₂, 3) 유의수준 α = 0.05 4) 검정통계량 및 기각역 (|Z0|> Zα/2 ) ∧ P₁= Z0 = ∧ ∧ 12 9 12+ 9 = 0.1 P₂= = 0.06 P= = 0.078 120 150 120+150 , , 0.1 - 0.06 (0.078)×(0.92)× ( 1 1 + 120 150 = 1.22 ) , (Zα/2 = 1.96) P(유의확률)= P(|Z| > 1.22) = 2P(Z < -1.22) = 0.223 5) 결 론 : H0를 기각할 수 없다. 즉, 두 원료로 만들어진 제품의 불량율 P₁, P₂간에는 차이가 있다고 말할 수 없다. Copyright ⓒ 2009 LANDKOREA 131
  132. 132. 두 표본 분산 메뉴의 용도 Case Data Minitab Case 두 모집단의 분산이 동일한지 여부에 대한 가설검정을 실시한다. 상표가 다른 두 제품에 대한 만족도를 조사한 결과가 아래와 같다. 두 제품의 만족도에 대한 산포가 서로 다른지를 유의수준 5%로 검정하여라. Data : 2 분산.mtw Copyright ⓒ 2009 LANDKOREA 132
  133. 133. 두 표본 분산 미니탭 실행 Minitab Case 통계분석 > 기초 통계 > 두 표본 분산 데이터 열 입력 Copyright ⓒ 2009 LANDKOREA 133
  134. 134. 두 표본 분산 Minitab Case 실행 결과 두 상표의 분산이 다르다고 할 수 없다. 결과 해석 두 P-value모두 0.05보다 크므로 유의수준 5%에서 귀무가설 채택 즉, 두 상표에 대한 만족도의 산포에는 차이가 없다고 할 수 있다. Copyright ⓒ 2009 LANDKOREA 134
  135. 135. 두 표본 분산 수기계산 모분산의 검정(한 개 집단) 참고용 • 전제조건 : 모집단이 정규분포를 따름 • 검정통계량 : X² = (n-1) S² σ0² • 기각역 구 분 기 각 역 H0 H₁ σ² ≤ σ0² σ² >σ0² X² > X²α σ² ≥ σ0² σ²< σ0² X² < X² 1-α σ² = σ0² σ² ≠σ0² X²< X² 1- α/2 or X² > X²α/2 한쪽검정 양쪽검정 ☞ 일반적으로 모분산을 검정하는 경우는 흔치 않으므로 Minitab에서는 지원 되지 않음 Copyright ⓒ 2009 LANDKOREA 135
  136. 136. 두 표본 분산 수기계산 참고용 자동차용 축전지 제조업자의 주장에 따르면, 그가 제조하는 축전지의 수명은 표준편차가 0.9년인 정규분포를 근사적으로 따른다고 한다. 이 축전지 10개를 임의 추출하여 수명을 측정하였더니 표준편차가 1.2년으로 나타났다. 축전지 수명의 표준편차가 0.9년보다 크다고 할 수 있는가? (α=0.05) 이론적 접근 1. H0 : σ²= 0.81 2. H₁: σ² >0.81 3. α : 0.05 4. 기각역 : X² >X² (= 16.919) α 5. 검정통계량 및 계산 X²= (n-1)S² σ0² = (10-1)(1.2)² (0.9)² = 16.0 (< X²α ) P = P( X² >16.0) ≒ 0.07 ( 자유도 : 9 ) 6. 결 과 : 유의수준 0.05에서 H0를 기각할 수 없다. 그렇지만 P값이 0.05에 근사하므로 σ>0.9라는 증거는 약간 있다고 할 수 있다. Copyright ⓒ 2009 LANDKOREA 136
  137. 137. 두 표본 분산 수기계산 모분산비의 검정 • 두 집단에 대한 산포를 비교할 경우 사용됨 • 전제조건 : 두 모집단이 정규분포를 따름 • 검정 통계량 F0 = V₁/ V₂( 단 V₁> V₂) • 기각역 구 분 기 각 역 H0 H₁ σ1² ≤ σ2² σ1² >σ2² F0 ≥ F(Φ₁, Φ₂: α ) σ1² ≥ σ2² σ1²< σ2² F0 ≥ F(Φ₂, Φ₁: α ) σ1² = σ2² σ1² ≠σ2² F0 ≥ F(Φ₁, Φ₂: α/2 ) 한쪽검정 양쪽검정 Copyright ⓒ 2009 LANDKOREA 137
  138. 138. 두 표본 분산 수기계산 어떤 화학약품 제조에서 상표가 다른 그 종류의 원료가 사용되고 있으며, 각 원료의 주성분 C의 함량은 다음과 같다. 이때 주성분 C함량의 분산간에는 차이가 없는가를 α=0.05로 검정하시오. Data 상표1 : 80.4, 78.2, 80.1, 77.1, 79.6, 80.4, 81.6, 79.9, 84.4, 80.9, 83.1 상표2 : 80.0, 81.2, 79.5, 78.0, 76.1, 77.0, 80.1, 79.9, 78.8, 80.8 이론적 접근 1. H0 : σ1² = σ2² 2. H₁: σ1² ≠ σ2² 3. α : 0.05 4. 기각역 : F >F (10, 9, α/2) = 3.14 5. 검정통계량 및 계산 F= S1² S2² = (2.03805)² (1.65341)² = 1.519 (< F (10, 9, α/2 )) 6. 결 론 : H0를 기각할 수 없음. 즉, 상표1과 상표2간의 분산에 차이가 있다고 말할 수 없다. Copyright ⓒ 2009 LANDKOREA 138
  139. 139. 상관 분석 상관 분석이란?  두 변수 (X,Y)간의 관련성을 연구/측정하는 통계적 분석을 상관분석 이라 함 상관관계는 X의 값이 증가/감소할 때 Y의 경향(Trend)을 말함  산점도 혹은 산포도(Scatter Diagram) 변수 (또는 인자) 상호간의 관계를 그림으로 표시한 것 잠재원인(X)와 문제 또는 결과(Y)의 관계 두 개의 잠재원인들 (Xi , Xj)의 관계 공급자 (Supplier) 잠재원인 자원 (Input) X1,X2 , … ,Xn 프로세스 (Process) 결과 (Output) 고객 (Customer) Y1,Y2 , … ,Yn 결과 예를 들면: 자동차의 속도와 연료 소모량 설비 속도와 제품의 정밀도 광고비용과 매출액 Copyright ⓒ 2009 LANDKOREA 139
  140. 140. 상관 분석 산점도  산점도 혹은 산포도(Scatter Diagram) 분석 이상치  점들이 분포된 모양으로부터 관계 검토  직선관계 혹은 곡선관계 검토 곡선관계인 경우는 상관계수를 구하는 것이 의미가 없음 곡선회귀분석  이상치 제거 . .... . . .. . . .. .. .. . .. .. 강한 양의( + ) 상관 .. . .. .. .. ... . . . .. .. .. . .. . . 강한 음의( - ) 상관 - 다른 모집단 표본 - 측정/계산 오류 - 데이터 기입 착오 Copyright ⓒ 2009 LANDKOREA ... . .. . . .. . .. .. . .. . . . .. .. .. . . . . . .. . . 직선이 아닌 관계 .. . . . . . .. . . ........................... ....... . .. ................... . . . .... . . . .. . ...... ...... ....... . ... .. . . ... . . . ... ....... . . . . .... .............. ..... . . ... . . . . . .. .. ............ .... . . . .. .. . . ... . . . 상관관계가 없음 140
  141. 141. 상관 분석 산점도  산점도 (Scatter Diagram) 층별 산점도는 상관간계가 없음을 나타내는 경우에도, 데이터를 적절히 층별하여 보면 아래와 같이 서로 관련이 있는 경우도 있음 전체 Data Set 강한 양의 상관 영 업 매 출 영 업 매 출 Non-linear Correlation 광고비$ 광고비$ 강한 음의 상관 Copyright ⓒ 2009 LANDKOREA 141
  142. 142. 상관 분석 상관계수  상관계수(Correlation Coefficient) 변량 X와 Y의 상관의 크기 즉, X와 Y사이의 긴밀성의 정도를 표시하는 척도 ˆ  r S( xy ) S( xx ) S ( yy ) r -1.0 -0.8 -0.3 0 +0.4 +0.9 +1.0   ( x  x)( y  y)  ( x  x)   ( y  y ) i i 2 i 2 i 두 변수간의 관계 완전한 음의 직선 상관관계 강한 음의 직선 상관관계 약한 음의 직선 상관관계 직선 상관 관계가 아님 약한 양의 직선 상관관계 강한 양의 직선 상관관계 완전한 양의 직선 상관관계 기여율( r2 ) : 상관계수의 제곱의 값을 기여율이라 부르고 Y 전체의 산포를 1로 보았을 때 Y에 대한 X의 영향의 정도를 나타낸다.(Y의 전체 변동에 대한 회귀에 의한 변동 비율) Copyright ⓒ 2009 LANDKOREA 142
  143. 143. 상관 분석 상관계수의 해석  지침 : 일반적으로 샘플크기를 기준으로 함(Guide line) │r │ > 0.80 이면, 중요한 관계 │r │ < 0.20 이면, 중요한 관계가 아님 음의 상관 상관 없음 양의 상관 r +1.0 -1.0 0 결정점 (Decision point) Copyright ⓒ 2009 LANDKOREA 143
  144. 144. 상관 분석 상관계수의 해석 샘플의 크기에 다라 상관을 결정하는데 사용되는 의사결정 점의 표 n 의사결정 점 n 의사결정 점 5 0.878 18 0.468 6 0.811 19 0.456 7 0.754 20 0.444 8 0.707 22 0.423 9 0.666 24 0.404 10 0.632 26 0.388 11 0.602 28 0.374 12 0.576 30 0.361 13 0.553 40 0.312 14 0.532 50 0.279 15 0.514 60 0.254 16 0.477 80 0.220 17 0.482 100 0.196 Copyright ⓒ 2009 LANDKOREA 144
  145. 145. 상관 분석 메뉴의 용도 Case Data Minitab Case 두 변수들간의 상관계수를 계산하고 검정한다. 플라스틱 제품을 만드는 원재료의 평균입경이 완제품 표면의 돌기 개수와 상관관계가 있는지를 알아보기 위해 플라스틱 제품의 표면돌기 개수와 원재료의 평균 입경간의 상관분석을 실시코자 한다. Data : 상관계수.mtw Copyright ⓒ 2009 LANDKOREA 145
  146. 146. 상관 분석 미니탭 실행 Minitab Case 통계분석 > 기초 통계 > 상관 분석 Copyright ⓒ 2009 LANDKOREA 146
  147. 147. 상관 분석 Minitab Case 실행 결과 상관계수가 의미가 있다. 즉, 강한 상관관계를 갖는다. 결과 해석 연습 P-value가 0.000으로 0.05보다 작으므로 유의수준 5%에서 귀무가설 기각 즉, 표면돌기와 평균입경은 상관관계가 있음을 알 수 있다. 산점도를 그려 상관관계가 있음을 그래프로 확인하라? Copyright ⓒ 2009 LANDKOREA 147
  148. 148. 공분산 공분산이란? 두 확률변수 X와 Y에 대하여 볼 수 있다. 따라서 값은 X의 증감에 따른 Y의 증감의 경향을 나타낸다고 기대값을 X와 Y의 공분산이라고 한다. 공분산은 상관계수와 마찬가지로 두 확률변수 사의의 관련성을 나타내며 상관계수처럼 두 변수간의 증감의 경향을 나타내지만 분산처럼 각 변수의 단위에 의존한다. 즉, 표준화되지 않은 상관계수이다. ※ 상관계수와 공분산과의 관계 공분산을 X의 표준편차와 Y의 표준편차로 나누어 X와 Y의 단위에 무관하도록 표준화시킨 값이 상관계수이다. 이때, Sx는 X의 표준편차이고, Sy는 Y의 표준편차이다 Copyright ⓒ 2009 LANDKOREA 148
  149. 149. 공분산 분석 메뉴의 용도 Data 미니탭 실행 Minitab Case 두 변수들간의 공분산을 계산한다. Data : 상관계수.mtw 통계분석 > 기초 통계 > 공분산 분석 Copyright ⓒ 2009 LANDKOREA 149
  150. 150. 공분산 분석 Minitab Case 실행 결과 표면돌기와 평균입경의 공분산은 46.9444이다. Copyright ⓒ 2009 LANDKOREA 150
  151. 151. 정규성 검정 정규성 검정이란? Data가 정규분포를 하고 있는지를 판단하기위해 정규성 검정을 한다. 정규 확률 플롯상의 선은 분포가 완전한 정규 분포를 나타내는 선이며, Data들이 이 선에 근접할 수록 정규분포에 가까움을 나타낸다. Viscosity의 확률 플롯 정규 분포 99 평균 표준 편차 N AD P-값 95 90 3545 165.4 30 0.344 0.466 80 백분율 70 P-Value 가 0.05보다 크거나 같으면, 60 50 40 그 분포는 정규 분포라고 인정된다. 30 20 10 5 1 3100 3200 3300 3400 3500 3600 Vis c os ity 3700 3800 3900 4000 P-Value= 0.466은 0.05보다 크므로 정규 분포임 Copyright ⓒ 2009 LANDKOREA 151
  152. 152. 정규성 검정 Minitab Case 메뉴의 용도 연속형 데이터의 분포가 정규분포를 따르는지의 여부에 대한 검정을 실시하고 정규확률지(Normal Probability Plot)에 도시한다. Case 접착제의 점도를 측정하여 얻은 30개 데이터로 통계적인 분석을 실시코자 하며 이전에 데이터가 정규분포를 따르는지 확인코자 한다. Data Data : 정규성 검정.mtw Copyright ⓒ 2009 LANDKOREA 152
  153. 153. 정규성 검정 미니탭 실행 Minitab Case 통계분석 > 기초 통계 > 정규성 검정 Copyright ⓒ 2009 LANDKOREA 153
  154. 154. 정규성 검정 Minitab Case 실행 결과 확률지의 타점된 점들이 직선에 가까우면 가까울수록 정규분포를 따르고 P-value을 이용하여 정량적으로 판단 가능함 결과 해석 P-value 0.466으로 0.05보다 크므로 유의수준 5%에서 귀무가설 채택 즉, 점도 데이터는 정규분포를 따른다고 할 수 있다. Copyright ⓒ 2009 LANDKOREA 154
  155. 155. 이것만은 기억하자 ! 핵심 Point 1. 기초통계학 - 기초 통계학의 내용, 용어설명 및 데이터의 분포에 대한 학습. 2. Minitab 프로그램 시작 - 프로그램의 시작에서부터 기본적인 프로그램 구동 - 프로그램 구조의 이해 - 각종 메뉴의 실행위치 3. 기초통계 - 기술통계량 - T테스트, P테스트 - 상관분석 - 정규성 검정 Copyright ⓒ 2009 LANDKOREA 155
  156. 156. 회귀 분석 회귀 분석을 잘 이해하고 사용하면?  Data를 활용하여 과거의 정보 를 활용하여 미래의 결과값을 예측하거나 정보를 설명할 수 있는 모델을 작성 할 수 있다. 회귀 분석을 잘 못 이해하고 사용하면? 설명 회기 분석의 내용에 따라 기초적인 내용을 학습하고, 데이터 분석에 사용되는 각 통계용어를 이해하며, 각종 회귀 분석방법과 결과값의 해석을 습득하여, 현업에서 실행 가능한 실무학습으로 발전시킨다. 핵심 1. 회기 분석의 기본적인 통계학의 학습을 통하여 회귀분석  Data의 설명에만 급급하여 의 기본용어들을 학습하고, 실제 통계분석 프로그램의 결 올바른 분석의 해를 놓친다. 과 값을 해석하기 위한 준비를 한다.  무리하게 2, 3차 항이 존재하는 회귀식을 적용하게 된다. 2. 학습한 내용을 Minitab의 예제 데이터를 활용하여 프로그 램 내 회귀분석 메뉴의 기능들에 대하여 실행해보며 결과 값을 해석해 본다. Copyright ⓒ 2009 LANDKOREA 156
  157. 157. 통계분석 회귀 분석 • 회귀 분석 • 일반 회귀 분석 • 단계적 회귀 분석 • 최량 부분 집합 • 적합 선 그림 • 비선형 회귀 분석 • 직교 회귀 분석 • 부분 최소 제곱 • 이항 로지스틱 회귀 분석 • 순서형 로지스틱 회귀 분석 • 명목형 로지스틱 회귀 분석 Copyright ⓒ 2009 LANDKOREA 157
  158. 158. 회귀 분석 변수간의 관계검정 도식화 산점도 변수들 간의 관련성 상관분석 회귀분석 Copyright ⓒ 2009 LANDKOREA 계량화 예측성 특징 • 두 변수관계의 Plotting √ • 두 변수간 선형 관계에 한하여 상관계수로 표시 √ √ • 직선/곡선 관계 모두 적용 가능 • 두 변수이상 적용 가능 • 결정계수에 의해 판단 √ 158
  159. 159. 회귀 분석 회귀 분석이란? 회귀분석이란? • 변수들 간의 관계를 분석하기 위한 통계적 기법 • 반응변수 Y와 독립변수 X간의 관계식 도출 단순 선형 회귀의 경우 직선식 : Y= β0 +β1X Y = 결과 (반응변수) X = 입력 (독립변수. 하나이상 일 수 있음.) β1= 직선의 기울기=X가 1 단위 변할 때 Y가 변화하는 비율 β0= y 절편. 즉, X=0 일 때,Y=β0 Copyright ⓒ 2009 LANDKOREA 159
  160. 160. 회귀 분석 회귀 분석의 용도 월 예측 (Prediction)의 문제 A상품 출시 후 광고투자와 매출액을 분석해 보니 오른쪽의 결과를 얻었다. 이 Data를 통해, 11월 광고료 책정액이 7억원이라면 매출액을 얼마로 기대할 수 있을까? 1 2 3 4 5 6 7 8 9 10 공정조건 등의 최적화 문제 특정 사출물 공장은 사출물의 불량 (기포 발생) 개선을 위해, 여러 가지 각도에서 공정을 검토한 결과 사출물의 단위 면적당 기포 개수를 15개 정도로 유지하는 것이 비용상 적절한 것으로 판단된다. 과거 경험상, 원료 A의 투입량에 따라 기포 갯수가 달라지는 것으로 추측된다. 따라서, 먼저, 실제 A의 투입량이 단위 면적당 기포 발생 개수에 영향을 미치는지 확인하고, 15개 정도의 기포를 유지할 수 있는 A의 투입량을 찾고 싶다. Copyright ⓒ 2009 LANDKOREA 광고료(억원) 매출액(십억원) 4 8 9 8 8 12 6 10 6 9 9 20 22 15 17 30 18 25 10 20 Ü § é û ç â ÷¹ ö ´ À ¸ À ´ ± Æ° ¼ 8 8 9 10 11 11 12 16 18 19 20 21 22 23 160 AÀ Å À · Ç õ Ô® 1.35 1.96 2.27 2.483 2.73 3.091 3.647 4.62 5.497 6.26 7.012 7.618 8.131 8.593
  161. 161. 회귀 분석 회귀 계수의 추정 회귀분석을 통한 회귀계수의 추정은 최소제곱법 (least squares method)을 이용 ; 예측모형 = 회귀모형 ?? 예측 관측치 예측치 예측의 오차  최소제곱법이란 ?? 예측오차가 최소가 되도록 예측모형의 모수(회귀계수)를 결정해주는 방법 Copyright ⓒ 2009 LANDKOREA 161
  162. 162. 회귀 분석 최소제곱법 최소제곱법 오차항의 추정치인 잔차의 크기가 가장 작아지도록 회귀모형의 회귀계수를 결정함. 최소제곱법 회귀 모형 Y Y = β0 + β1χ y2 · • • 어떤 관측치 yi 에 대한 잔차는 ei = yi - (β0 + β1xi ) e₂ β0 + β1χ1 · • y1 χ1 • 모든 점 y₁y₂··· yn 각각에 대한 잔차의 제곱합은 Σei 2 = Σ(yi - β0 - β1xi ) 2 β0 + β1χ2 e₁ χ x2 y1 = β0 + β1 χ1+ e₁ y2 = β0 + β1 χ2+ e₂ • • • • • • • • • • • • yn = β0 + β1 χn + en • 최소제곱법은 위의 잔차 제곱합이 최소가 되도록 β0 , β1 을 정하는 것 잔차 (residual) =회귀식으로 설명 안되는 부분 Copyright ⓒ 2009 LANDKOREA 162
  163. 163. 회귀 분석 변동의 분해 • (y에 대한 )총 제곱합 (Total sum of squares)의 분해 최소제곱 모형으로 설명되는 차이  ( y i - y )2 =  ( y i i ˆ yi ) 2 + i (SST) ˆ  ( yi - y )2 i (SSE) (SSR) 관측치의 평균에 대한 차이 (y와 x가 무관하지 않아서 생기는 차이 + y자체 산포에 의한 차이 [관측오차 등등]) • 결정 계수 (Coefficient of determination) R-squares = SSR / SST Copyright ⓒ 2009 LANDKOREA 163
  164. 164. 회귀 분석 분산분석표 • 분산 분석표 Source 'of Variation Regression Error Tot'al Sum of Squares (SS) SSR SSE SST Degree of Freedom Mean Squares (df) (MS) 1 MSR n-2 MSE n-1 Adjusted R 2 = 1 - SSE dferror SST dftotal s 2 = 오차분산  2의 추정치= MSE • 전체 회귀식에 대한 검정 H 0 : 1 = 0   H1 : 1  0 i) 유의수준 α의 선정 ii) F1,n-2,1- 의 계산 (F분포표를 참조) iii) F0 = 1-α MSR  F1,n-2,1- 이면 H0를 기각. MSE α F1,n-2,1- Copyright ⓒ 2009 LANDKOREA F0 164
  165. 165. 회귀 분석 회귀 분석의 예 어느 공정에서 공정변수 x를 변화시켰을 때, 그에 따른 제품의 특성 y에 대해 1차 단순 회귀모형을 가정하고 회귀분석 실시 i 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 x 1 1 2 3.3 3.3 4 4 4 4.7 5 5.6 5.6 5.6 6 6 6.5 6.9 y 2.3 1.8 2.8 1.8 3.7 2.6 2.6 2.2 3.2 2 3.5 2.8 2.1 3.4 3.2 3.4 5 ˆ y 1.96637 1.96637 2.22675 2.56524 2.56524 2.7475 2.7475 2.7475 2.92977 3.00788 3.16411 3.16411 3.16411 3.26826 3.26826 3.39844 3.50259 잔차 0.33363 -0.16637 0.57325 -0.76524 1.13476 -0.1475 -0.1475 -0.5475 0.27023 -1.00788 0.33589 -0.36411 -1.06411 0.13174 -0.06826 0.00156 1.49741 회귀 방정식은 y = 1.71 + 0.260 x ˆ 1 ˆ 0 예측 변수 상수 x 결정계수 값은 그다지 높지 않다. 계수 SE 계수 T P 1.7060 0.4588 3.72 0.002 0.26038 0.09720 2.68 0.017 S = 0.703086 R-제곱 = 32.4% R-제곱(수정) = 27.9% 유의확률. 회귀식이 유의함. 분산 분석 출처 회귀 잔차 오차 전체 DF 1 15 16 SS 3.5474 7.4150 10.9624 MS 3.5474 0.4943 F 7.18 P 0.017 s 2 = 오차분산  2의 추정치= MSE Copyright ⓒ 2009 LANDKOREA 165
  166. 166. 회귀 분석 비선형 데이터 모여 있는 데이터 Copyright ⓒ 2009 LANDKOREA 범하기 쉬운 오류 이상점 (Outliers) 데이터 범위가 좁을 경우 166
  167. 167. 회귀 분석 메뉴의 용도 Case Minitab Case 회귀분석을 통해 회귀식과 결정계수 값을 알 수 있다. 화학 약품을 생산하는 공장에서 반응시간의 변화가 약품의 순도에 어떤 영향을 끼치는지 파악하고자 단순선형회귀분석을 실시코자 한다. 반응시간 순도 Data Data : 회귀.mtw Copyright ⓒ 2009 LANDKOREA 167
  168. 168. 회귀 분석 미니탭 실행 Minitab Case 통계분석 > 회귀 분석 > 회귀 분석 Y X Copyright ⓒ 2009 LANDKOREA 168
  169. 169. 회귀 분석 Minitab Case 도출된 회귀식의 적합성(잔차의 정규성, 등분산성, 독립성)을 도식적으로 설명 Copyright ⓒ 2009 LANDKOREA 169
  170. 170. 회귀 분석 Minitab Case 실행 결과 회귀계수가 의미가 있다. 전체변동중 53%는 해당 회귀식에 의해 설명 가능하다. 결과 해석 순도 = 101 – 0.589반응시간의 관계를 가짐. 결정계수 53.0%로 전체 변동 중 회귀에 의한 변동은 53%임 Copyright ⓒ 2009 LANDKOREA 170
  171. 171. 회귀 분석 실행 결과 Minitab Case 정규성 판단 독립성 판단 등분산성 판단 정규성 판단 결과 해석 잔차의 정규성에는 문제가 없어 보임. I-Chart를 볼 때 관리한계를 벗어난 점은 없으나 잔차가 줄어드는 경향을 보여 독립성에 문제가 있을 수 있으므로 추가 조사가 필요함 Copyright ⓒ 2009 LANDKOREA 171
  172. 172. 회귀 분석 • Case 예제 미니탭 실행 Minitab Case 앞서 추정된 회귀식을 이용해 반응시간이 9.5일 경우 예상되는 순도가 얼마인지를 알고자 한다. 통계분석 > 회귀 분석 > 회귀 분석 Copyright ⓒ 2009 LANDKOREA 172
  173. 173. 회귀 분석 Minitab Case X값 9.5 입력 Copyright ⓒ 2009 LANDKOREA 173
  174. 174. 회귀 분석 Minitab Case 실행 결과 Y의 기대값 Y의 기대값에 대한 95% 신뢰구간 결과 해석 Y의 개별값에 대한 95% 신뢰구간 반응시간 9.5에서 순도값은 평균적으로 95.044으로 예측되며, 순도의 평균값이 93.881 ~ 96.207에 속할 확률은 95%로 예측된다고 할 수 있으며, 순도의 개별 관측값은 92.768~97.320에 속할 확률이 95%로 예측된다고 할 수 있다. Copyright ⓒ 2009 LANDKOREA 174
  175. 175. 단계적 회귀 분석 메뉴의 용도 Minitab Case 종속변수 Y와 이에 영향을 주는 여러 독립변수(X1, X2, X3, ---, Xn)가 있을 경우, 유용한 독립변수들의 조합을 찾기 위해 변수들에 대해 회귀분석 시 변수를 제거 또는 추가하여 Y와의 관계를 파악할 때 사용 변수 선택의 네 가지 방법 ■ 모든 가능한 회귀 (All Possible Regression) 모든 가능한 변수들의 조합을 회귀분석하여 보는 것이다. 만약 k개의 독립변수가 있는 경우 하나도 포함하지 않은 모형에서부터 k개 모두를 포함하는 모형까지 2k가지의 모든 가능한 경우의 수를 생각하는 방법이다. ■ 후진 제거 (Backward Elimination Method) k개의 설명 변수들 중에서 가장 작게 영향을 주리라고 여겨지는 변수부터 하나씩 제거 하여 더 이상 제거할 변수가 없다고 판단될 때 변수의 제거를 중단하는 방법이다. ■ 전진 선택 ( Forward Selection Method ) k개의 설명 변수들 중에서 가장 중요하다고 판단되는 변수부터 하나씩 골라 주어가면서 더 이상 중요한 변수가 없다고 판단 될 때에 중단하여 주고, 이미 선택된 변수들만을 중요한 변수들로 간주하여 주는 방법이다. ■ 단계적 회귀(전진 및 후진) ( Stepwise Regression Method ) 앞으로부터 선택하는 방법을 개선한 것으로, 중요한 변수를 하나씩 추가 선택하여 나가면서 미리 들어간 변수가 새로운 변수가 들어가면서 중요성을 상실하여 밖으로 나오게 되는가를 매 단계별로 검토하는 선택 방법이다. Copyright ⓒ 2009 LANDKOREA 175
  176. 176. 단계적 회귀 분석 Case Data Minitab Case 아래의 데이터를 갖고 후진 제거, 전진 선택, 단계적 회귀의 방법으로 최적회귀방정식을 선택하고 각각 비교 분석하라 Data : 단계적 회귀.mtw Copyright ⓒ 2009 LANDKOREA 176
  177. 177. 단계적 회귀 분석 Minitab Case 1) 후진 제거 미니탭 실행 통계분석 > 회귀 분석 > 단계적 회귀 분석 종속변수열 입력 독립변수열 입력 회귀모형에 반드시 들어가야 한다고 여겨지는 독립변수 열 입력 Copyright ⓒ 2009 LANDKOREA 177
  178. 178. 단계적 회귀 분석 Minitab Case 알파는 독립변수를 회귀모형에서 제거하기 위한 기준으로 독립변수의 회귀계수에 해당하는 T-통계량의 P값이 지정한 알파값보다 크면 회귀모형에서 제거됨 Copyright ⓒ 2009 LANDKOREA 178
  179. 179. 단계적 회귀 분석 Minitab Case 실행 결과 결과 해석 유의하지 않은 인자 X3, X4를 차례로 제거한 후 유의한 인자로만 구성된 식은 y = 52.58 + 1.47x1 + 0.662x2 임. 이때 R-sq = 97.87임 Copyright ⓒ 2009 LANDKOREA 179
  180. 180. 단계적 회귀 분석 Minitab Case 2) 전진 선택 미니탭 실행 통계분석 > 회귀 분석 > 단계적 회귀 분석 종속변수열 입력 독립변수열 입력 회귀모형에 반드시 들어가야 한다고 여겨지는 독립변수 열 입력 독립변수를 회귀모형에서 제거하기 위한 기준 Copyright ⓒ 2009 LANDKOREA 180
  181. 181. 단계적 회귀 분석 Minitab Case 실행 결과 결과 해석 가장 유의한 인자 X4를 선택하고 다음 X1을 선택하고 더 이상 유의한 인자가 없어 중단 y = 103.1 + 1.44x1 - 0.614x4 임. 이때 R-sq = 97.25임 Copyright ⓒ 2009 LANDKOREA 181
  182. 182. 단계적 회귀 분석 Minitab Case 3) 단계적 회귀 미니탭 실행 통계분석 > 회귀 분석 > 단계적 회귀 분석 종속변수열 입력 회귀모형에 반드시 들어가야 한다고 여겨지는 독립변수 열 입력 독립변수열 입력 변수 선택시 유의수준 및 변수 제거시 유의수준 입력 Copyright ⓒ 2009 LANDKOREA 182
  183. 183. 단계적 회귀 분석 Minitab Case 실행 결과 결과 해석 Forward로 X4선택, 추가로 X1선택, 추가로 X1선택 했으나 X4가 유의하지 않음. Backward로 X4제거. y = 52.58 + 1.47x1 + 0.662x2로 회귀식 결정. Copyright ⓒ 2009 LANDKOREA 183
  184. 184. 최량 부분 집합 메뉴의 용도 Minitab Case 독립변수가 많은 경우에 분석자가 원하는 수만큼의 독립변수에서 최선 회귀모형을 찾고자 할 때 사용하는 MINITAB 메뉴. 중회귀 분석에서 독립변수 모두를 모형에 포함시키기보다는 최량 부분 집합(Best Subsets)을 사용하여 독립변수의 수를 줄이는 것이 모형을 보다 단순화 시킬 수 있음. Case 단계적 회귀 분석 시 사용한 데이터를 이용해 최량 부분집합을 찾음 Data Data : 단계적 회귀.mtw Copyright ⓒ 2009 LANDKOREA 184
  185. 185. 최량 부분 집합 미니탭 실행 Minitab Case 통계분석 > 회귀 분석 > 최량 부분 집합 종속변수열 입력 독립변수열 입력 회귀모형에 포함할 최소/최대 독립변수 의 개수를 지정 회귀모형에 반드시 들어가야 한다고 여겨지는 독립변수 열 입력(단, 위의 자 유 예측 변수에서 선 택한 변수는 제외) 회귀모형에 절편을 나타내고자 할 경우 체크 Copyright ⓒ 2009 LANDKOREA 독립변수 조합수 지정. 즉, 각 조합 붕 3순위까지의 조 합 결과를 창에 보이고자 할 경 우 3이라 입력 185
  186. 186. 최량 부분 집합 Minitab Case 실행 결과 변수의 개수. 각 조합에서 3순위 까지를 보여줌 결과 해석 분석시 포함시킨 변수를 표시함 R-Sq 값이 가장 큰 것을 선택한다. s는 회귀모형의 적합도를 측정하는 기준이 되는데 그 값이 작을수록 모형의 적합도가 좋다. 따라서 R-Sq 값이 98.2 로 같지만 s 값이 작은 x1, x2, x4 변수가 최적회귀모형으로 선정된다. R제곱 과 R제곱(수정)큰게좋으나 차이가 작은것, C-P,S는 작을수록좋다! Copyright ⓒ 2009 LANDKOREA 186
  187. 187. 적합선 그림 메뉴의 용도 Case Minitab Case 산점도와 함께 적합된 단순 회귀직선, 단순 회귀직선의 신뢰구간 등을 도시해 준다. 약품의 순도가 매우 중요한 제품이 있다. 순도는 합성공정의 반응 시간에 많은 영향을 받는 것으로 알려져 있어 반응시간에 따른 순도의 변화를 단순회귀분석을 통해 파악코자 하며 측정한 데이터는 아래 표와 같다. 반응시간 순도 Data Data : 회귀.mtw Copyright ⓒ 2009 LANDKOREA 187
  188. 188. 적합선 그림 미니탭 실행 Minitab Case 통계분석 > 회귀 분석 > 적합선 그림 2차, 3차식으로 계산됨 Copyright ⓒ 2009 LANDKOREA 188
  189. 189. 적합선 그림 Minitab Case 실행 결과 결과 해석 추정된 회귀직선이 반응시간과 순도간의 관계를 잘 표현하고 있는 것으로 보인다. 따라서 선형 회귀식이 잘 들어 맞음을 알 수 있다 . Copyright ⓒ 2009 LANDKOREA 189
  190. 190. 이것만은 기억하자 ! 핵심 Point 1. 회귀 분석 통계학 - 기초 통계학의 회귀 분석내용, 용어설명 및 활용에 대한 학습 2. Minitab 프로그램에서 회귀 분석 - Data 구조에 따른 회귀 분석 메뉴의 선택 - 회귀 분석의 여러 메뉴의 사용학습 - 실행 결과 값의 해석 3. 회귀 분석 - 회귀 분석 - 단계적 회귀 분석 - 적합선 그림 - 비선형 회귀 분석 Copyright ⓒ 2009 LANDKOREA 190
  191. 191. 분산 분석 분산 분석을 잘 이해하고 사용하면? 설명  취득한 정보의 분석을 통하여 기초통계학의 분산 분석에 대한 내용에 따라 내용을 학습하고, 결과 값이나 현상에 영향을 주는 분산 분석에 사용되는 각 통계용어를 이해하며, 주요 인자를 확인하여, 세밀한 각종 데이터의 형태에 따라 원하는 분석 활용법을 습득하여, ꀀ

×