• Share
  • Email
  • Embed
  • Like
  • Save
  • Private Content
2011 미니탭(Minitab) 교재(랜드코리아)
 

2011 미니탭(Minitab) 교재(랜드코리아)

on

  • 7,242 views

6sigma 혁신방법론을 위한 Minitab 통계프로그램 사용방법

6sigma 혁신방법론을 위한 Minitab 통계프로그램 사용방법

Statistics

Views

Total Views
7,242
Views on SlideShare
7,238
Embed Views
4

Actions

Likes
4
Downloads
0
Comments
2

2 Embeds 4

https://www.facebook.com 2
http://www.facebook.com 2

Accessibility

Categories

Upload Details

Uploaded via as Adobe PDF

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel

12 of 2 previous next

  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

    2011 미니탭(Minitab) 교재(랜드코리아) 2011 미니탭(Minitab) 교재(랜드코리아) Presentation Transcript

    • Minitab을 활용한 통계분석 (MINITAB Release 16.1.1 한글 버전 기준)
    • 이 교제는 이렇게 사용하세요! 단계에 대한 설명 각 단계 학습의 전체적인 모습을 간략히 설명한 부분입니다. 단계의 목적 단계의 목적,효과,수행하는 이유를 사전에 분명히 알립니다. 단계의 핵심 각 단계에서 무엇을 익혀야 하는 지를 미리 알려주는 곳으로 단계의 품질을 높이고, 성과를 극대화 할 수 있는 핵심 키워드입니다. Copyright ⓒ 2009 LANDKOREA 2
    • 이 교제는 이렇게 사용하세요! 활동명 MINITAN소개 Minitab 시작하기/끝내기 각 페이지 마다 현재 어느 활동을 학습하고 있는지 알 수 있게 표시하였습니다. 단계명 각 페이지 마다 현재 어느 단계를 학습하고 있는지 알 수 있게 표시하였습니다. 핵심 Point 각 단계를 보다 효과적으로 진행을 하기 위해 추가적으로 알면 도움이 되는 정보를 알려 드립니다. 기초통계학 Copyright ⓒ 2009 LANDKOREA 3
    • 기초통계 기초통계학을 잘 이해하고 프로그램을 사용하면? 설명  통계를 활용한 경영혁신 등의 기초통계학의 내용에 따라 기초적인 내용을 학습하고, 업무에서 보다 다양한 시각에서 데이터 분석에 사용되는 각 통계용어를 이해하며, 개선점을 발굴하여 통계적으로 각종 데이터의 분포와 활용법을 습득하여, 의미 있는 개선을 실행할 수 있다. 현업에서 실행 가능한 실무학습으로 발전시킨다. 기초통계학을 잘 못 이해하고 프로그램을 사용하면? 핵심 1. 기초통계학의 학습을 통하여 통계의 기본용어들을 학습하  단순 프로그램 사용법에 고, 실제 통계분석 프로그램의 결과 갑을 해석하기 위한 준 그치게 되어 활용도가 반감된다. 비를 한다.  데이터 분석 시 명쾌하지 않은 설명을 하게 된다. 2. 학습한 내용을 Minitab의 예제 데이터를 활용하여 프로그 램 내의 기초통계학 메뉴의 기능들에 대하여 실행해보며 결과 값을 해석해 본다. Copyright ⓒ 2009 LANDKOREA 4
    • Minitab 소개 Copyright ⓒ 2009 LANDKOREA 5
    • MINITAN소개 Minitab 시작하기/끝내기 • Minitab - 통계적 데이터 분석 능력과 그래픽 능력을 가진 통계분석 소프트웨어 - Six Sigma의 발전과 함께 성장해온 통계분석 소프트웨어 • Minitab 프로그램의 시작 - Windows 의 시작메뉴에서 시작 > 프로그램 > Minitab 16 Korean > Minitab 16 Korean 클릭 - 바탕화면에서 Minitab 프로그램의 단축아이콘을 더블 클릭 • Minitab 프로그램의 끝내기 - 파일 > 종료 - 프로그램 윈도우의 좌측상단 - 프로그램 윈도우의 우측상단 Copyright ⓒ 2009 LANDKOREA 아이콘을 더블클릭 아이콘을 클릭 6
    • MINITAN소개 Minitab 사용자 환경 툴바 (Tool Bar) 메뉴 바 (Menu Bar) 세션 창 (Session Window) Project Manager창 (Project Manager) 데이터 창 (Data Window) 상태 바 (Status Bar) 그래프 창 (Graph Window) Copyright ⓒ 2009 LANDKOREA 7
    • MINITAN소개 Project의 관리 • 프로젝트(Project) - Minitab에서는 프로젝트라는 개념을 가지고 사용자가 사용하는 모든 데이터 통계 처리 결과 및 그래프 등을 관리한다. 프로젝트로 저장하게 되면 현재까지 작업한 모든 정보가 함께 저장되고 프로젝트를 열면 이전 작업에 이어서 통계분석을 실시할 수 있다. • 새 프로젝트 만들기 - 파일 > 새로 만들기… > Minitab 프로젝트 - 단축키 : Ctrl + N • 프로젝트 열기 - 파일 > 프로젝트 열기… 후 프로젝트 파일명(*.mpj)선택 - 단축키 : Ctrl + O • 프로젝트의 저장 - 파일 > 프로젝트 저장 or Ctrl+S - 파일 > 다른 이름으로 프로젝트 저장… • 프로젝트 정보의 열람 및 수정 - 파일 > 프로젝트 설명… Copyright ⓒ 2009 LANDKOREA 8
    • MINITAN소개 워크시트 관리 • 워크시트 - Minitab에서 데이터가 저장되는 곳이 워크시트이다. 모든 데이터는 워크시트에 있으며 데이터에 대한 작업은 이곳에서 이루어진다. • 새 워크시트 만들기 - 파일 > 새로 만들기… > Minitab 워크시트 - 단축키 : Ctrl + N • 워크시트 열기 - 파일 > 워크시트 열기… 후 워크시트 파일명(*.mtw)선택 • 워크시트의 저장 - 파일 > 현재 워크시트 저장 - 파일 > 다른 이름으로 현재 워크시트 저장… Copyright ⓒ 2009 LANDKOREA 9
    • MINITAN소개 워크시트 • 워크시트 - 적어도 한 개의 워크시트는 열려져 있어야 한다. - 동시에 두개 이상의 워크시트가 현재 워크시트가 될 수 없다. (현재 워크시트는 워크시트 명 뒤에 Asterisk(***)표시 - 워크시트는 프로젝트에는 함께 저장되며 워크시트로 저장 시 각각 분리하여 저장된다. 데이터 입력 화살표 열 이름 (Column name) 열 번호 (Column Number) 행 번호 (Row Number) Copyright ⓒ 2009 LANDKOREA 10
    • MINITAN소개 Data 입력 / 수정방법 • 데이터 입력 방향 표시 ↓ : 입력 후 아래로 이동 → : 입력 후 오른쪽으로 이동 • 열 표시(C+숫자+[TD]) C : 열(column) 숫자 : 열 일련 번호 T : 문자열 D : 날짜, 시간 열 표시 없으면 숫자 열 전체 열 선택 : 열 표시 부분을 선택 • 현재 cell(Active Cell) Enter/Tab : 다음 cell로 이동 • 데이터의 수정 1. 수정하고 싶은 cell 선택 2. 올바른 데이터 값 입력 3. Enter/Tab을 누름 • 입력 데이터의 복귀 데이터 입력 후 Enter/Tab을 누르기 전에 ESC를 누르면 이전의 값으로 복귀한다. Copyright ⓒ 2009 LANDKOREA • 일부 데이터의 수정 1. 수정하고 싶은 cell을 더블클릭 2. Del/Back Space/커서키를 이용 수정 3. Enter/Tab을 누름 11
    • MINITAN소개 수 열 10 8 6 4 2 규칙성을 갖는 수열의 생성 시작 값 끝값 증분 각 값 나열 전체 수열 나열 10 1 2 1 1 Copyright ⓒ 2009 LANDKOREA 12
    • MINITAN소개 예제 •예제 시작 값 끝값 증분 -0.5 -0.4 -0.3 -0.2 -0.1 -0.5 -0.1 0.1 1 1 1111122222333334444455555 1 5 1 5 1 11223344551122334455 1 5 1 2 2 수 열 Copyright ⓒ 2009 LANDKOREA 각 값 나열 전체 수열 나열 13
    • MINITAN소개 Copyright ⓒ 2009 LANDKOREA 열의 쌓기 14
    • MINITAN소개 Copyright ⓒ 2009 LANDKOREA 계산기의 사용 15
    • 통계분석 Copyright ⓒ 2009 LANDKOREA 16
    • 통계분석 기초통계 • 기술 통계량 표시 • 기술 통계량 저장 • 그래픽 요약 • 1-표본 Z 검정 • 1-표본 t 검정 • 2-표본 t 검정 • 쌍체 t 검정 • 단일 비율 검정 • 두 비율 검정 • 1-표본 포아송 비율 • 2-표본 포아송 비율 • 단일 표본 분산 • 두 표본 분산 • 상관 분석 • 공분산 분석 • 정규성 검정 • 포아송에 대한 적합도 검정 Copyright ⓒ 2009 LANDKOREA 17
    • Data의 이해 Data의 구성요소 자료(data) 또는 데이터 셋 (data set)은 변수(variable), 관찰점(obs), 값(value)으로 구성된 결과물의 집합  변수 (variable) : 분석자가 알고 싶어 하는 속성 또는 특성  관찰점(observation) : 관측된 한 줄  값 (value) : 값은 문자와 숫자로 구분 된다.  변수 값, 관찰 값  다변량 자료 (multivariate data) : 각 개체별로 한 개 이상의 변수가 관측된 경우의 자료  일변량 자료 (univariate data) : 각 개체별로 한 변수만을 다룰 경우의 자료 Copyright ⓒ 2009 LANDKOREA 18
    • Data의 이해 Data의 구성요소  C1의 변수 값(variable value)은 ?  3번째 기록한 관찰 값(obserbation value)은?  C3이라는 변수(variable)의 6번째 관찰점(observation)의 값(value)은 ? Copyright ⓒ 2009 LANDKOREA 19
    • Data의 이해 Data를 측정하는 이유 왜 데이터를 측정하는가? • 객관적인 의사소통을 위해 • 한 조직 전반에 걸친 공통 언어를 창출하기 위해 수치화할 수 없다면 개선할 수 없다... • 문제나 개선기회를 수량화하기 위해 • 공정이나 그 결과에 대한 기준을 확립하기 위해 • 제안된 해결책에 대한 비용, 이익분석 등을 용이 하게 하기 위해 • 변화의 정도와 방향을 측정하기 위해 • 공정개선의 전,후를 비교하기 위해 • 올바른 해결책의 모색을 위해 Mikel J. Harry Copyright ⓒ 2009 LANDKOREA • 해결책의 효과를 수량화하기 위해 20
    • Data의 이해 6Sigma 활동의 기초 Data : Six Sigma 활동의 기초 문제 / Issue 데이터 문제 해결 측정을 사용하여 데이터화 하지 못하면 개선의 기회를 잡을 수 없다 Copyright ⓒ 2009 LANDKOREA 21
    • Data의 종류 이산형 Data •이산형 데이터(Discrete data) ▷관측된 두 값 사이에 틈새가 있는 데이터 ▷예 : 양품, 불량, 합격, 불합격, 결점 수, 5단계 평가 점수(수,우,미,양,가) 영업 지역, 생산 라인, 작업 조(Shift), 또는 공장 등의 자료. ▷계량치 대비 약 65%의 정보량에 불과 ▷Attribute, 계수치 불량 1등급 2등급 3등급 Pass Copyright ⓒ 2009 LANDKOREA Fail 결점 22
    • Data의 종류 연속형 Data •연속형 데이터(Continuos data) ▷관측된 두 값 사이를 또 다른 값으로 채울 수 있어 틈새가 없는 데이터 ▷예 : 길이, 무게, 온도, 부피, 체적, 압력….. ▷계수치 데이터 보다 더 많은 정보를 얻을 수 있음. ▷Variable, 계량치 정규 분포를 적용 하기 위해서는 데이터는 반드시 연속 자료화 해야 한다 Copyright ⓒ 2009 LANDKOREA 23
    • Data의 종류 이산형/연속형 Data의 구분 아래의 예에 대하여 연속형 자료인지 이산형 자료 인지 구분하시오. 1. 통화 품질 관련 민원 건수 2. Debuging 라인에서의 회로기판 내 결함 수 3. Monitor 충격시험 data(충격 내구 강도) 4. 국내영업 지역별 분류 자료 5. Cap rate 6. 전표 작성의 정확건, 정활율 7. Call Center 직원의 고객 응대 시간 8. 부동산 임대료 9. 해외 영업 일일 수금액 10. 해외 영업 일일 수금율 11. 수입검사 의뢰된 RF 중계기 불량 수 연속 자료가 불연속 자료 보다 많은 분석을 가능 하게 한다 Copyright ⓒ 2009 LANDKOREA 24
    • 기술통계 Data의 특성 표본자료는 여러 가지 데이터의 특성 파악 이유로 어떤 분포 모양을 가지게 된다. × □ × ▲★△ ● ▲ ◆▲ ○ □ ☆ ◇ ●■ ◆ ×◇■ × ○ ☆○ 표본 추출 * *** ***** ******* ********* *********** ●★ ○ ▲ ◆ ◇ □ ■ ☆ △ × 모집단 모집단 Process 모집단 Process 정보 자료수집 자료의 특성 파악 기술통계학은 자료의 특성을 수로 표현하는 방법에 대한 체계이다. Copyright ⓒ 2009 LANDKOREA 25
    • 기술통계 Data의 특성파악 데이터의 특성을 파악하려면 무엇부터 알아야 할까? 1. 빈도 1. 이산형 DATA Graph 2. 상대빈도(퍼센트) Chart 3. 누적빈도 Plot 1. (DATA) 분포의 중심위치 : 집중화경향 2. 연속형 DATA Diagram 2. (DATA) 분포의 산포 : 분산도 Histogram 3. (DATA) 분포의 형태 : 왜도, 첨도 Copyright ⓒ 2009 LANDKOREA 26
    • 기술통계 Sigma 수준의 계산 참고용 Six Sigma Metrics Data의 유형 통계 측정치 기준과의 비교 Z-Value Defect 이산형 data Unit Opp. DPMO Data Z-Value SPEC 수집 연속형 data Copyright ⓒ 2009 LANDKOREA 시그마 수준계산 평균 표준 편차 그래프 모양 27
    • 기술통계 연속형 Data의 특성 1. (DATA) 분포의 중심위치 ■ 위치 척도 (Location measure) : 흔히 대표 값이라 불리며, 자료 값들이 어떤 값을 중심으로 분포되어 있는가를 나타냄 2. (DATA) 분포의 산포 ■ 산포도 (Dispersion measure) : 자료 값들이 흩어져 있는 정도를 나타냄 3. (DATA) 분포의 형태 ■ 첨도(Kurtosis) 분포의 뾰족한 정도를 나타내는 척도 ■ 외도(Skewness) 비대칭 도라고도 하며 데이터의 분포가 중심위치로부터 어느 한 쪽으로 치우친 정도 Copyright ⓒ 2009 LANDKOREA 28
    • 기술통계 중심위치 Toner에 들어가는 잉크의 입자 크기를 6회 측정한 경우... 입자 크기 데이터 (단위 생략) : 1 1 2 3 1 3 이 자료의 “중심”은 어디인가? 즉, 중심은 어디에 위치하는가? 중심 위치 = 대표 값? Copyright ⓒ 2009 LANDKOREA 29
    • 기술통계 평균(Mean) 평균(Mean, 산술평균) 평균값은 x 로 나타낸다. x 는 수집된 모든 자료를 더하여 자료의 수로 나눔으로써 얻어진다. x 자료의 합 x1  x2    xn  자료의 수 n 잉크 입자 크기 예의 경우 x n  xi  x1  x2    xn i 1 n x  xi i 1 n 또는 n 11 2  3 1 3  1.833... 6 참고로, 모집단의 평균에 대해서는 그리스 소문자 μ를 사용한다. Copyright ⓒ 2009 LANDKOREA 30 xi n i 1
    • 기술통계 평균(Mean) 잉크 입자 크기 예의 경우 추가로 입자 크기를 측정하여 17을 얻었다면 입자 크기 (단위 생략) : 1 1 2 3 1 3 “17” (산술) 평균은 4이며, 비정상적으로 큰 숫자 17 때문에 대표 값이 높아짐 이런 경우에는 (산술) 평균이 대표 값으로서의 역할을 못함. Copyright ⓒ 2009 LANDKOREA 31
    • 기술통계 중앙값(Median) 상대적으로 큰 값에 영향을 받지 않는 대표 값을 구하려면? 첫 번째 방법 자료들을 작은 수부터 큰 수까지 순서대로 세운 뒤 가운데 위치하는 수를 취한다. = 중앙값 (Median) • 입자 크기 17을 측정하기 전 : 1 1 자료의 개수가 짝수 이므로 • 입자 크기 17을 측정한 후 : 1 자료의 개수가 홀수 이므로 1 2 3 3 중심 = 1과 2의 (산술)평균 = 1.5 위치 1 1 2 3 3 17 중심 위치 = 2 (산술)평균처럼 17의 측정 전 후에 대한 대표 값의 차이가 심하지 않다.!! Copyright ⓒ 2009 LANDKOREA 32
    • 기술통계 두 번째 방법 최빈값(Mode) 자료들 중 가장 빈번하게 나타나는 값을 취한다. = 최빈값 (Mode) • 입자 크기 17을 측정하기 전 : 1 1 1 2 3 3 중심 = 가장 빈번하게 나타나는 값 = 1 위치 • 입자 크기 17을 측정한 후 : 1 1 1 2 3 3 17 중심 = 가장 빈번하게 나타나는 값 = 1 위치 17의 측정 전 후에 대한 대표 값의 변화가 없다.!! Copyright ⓒ 2009 LANDKOREA 33
    • 기술통계 대표값의 활용 어떤 중심위치, 즉 대표 값을 사용할 것인가? 중량, 길이 등의 연속형 자료. 즉, 측정형 자료의 일반적인 분포 형태는... 분포 형태 = 좌우 대칭의 종모양 (산술)평균 = 중앙값 = 최빈수 그러나 !! 어떠한 대표 값을 사용해도 무방하다. 통계 분석의 전개상 여러 가지 이유로 대부분 (산술)평균을 사용한다. Copyright ⓒ 2009 LANDKOREA 34
    • 기술통계 산포 중심위치는 자료들이 모여 있는 위치를 나타내는 유용한 정보지만 분포 전체의 모양을 보여 주지는 못함. 때때로 모여 있는 위치보다 흩어져 있는 정도 (산포)를 나타내는 측도가 더 중요할 수 있음!! 예) A, B 두 회사 타이어의 수명 분포 어떤 회사의 타이어가 믿음직한가? B회사 타이어의 평균수명이 6만으로 A회사보다 높지만, B회사 타이어 수명 분포의 흩어짐이 매우 커서 자칫 잘못 하면1만 km도 주행하지 못하는 타이어를 1만  A B 주행거리 (km) 살 수도 있다. 5만 6만 ■ 산포도 (Dispersion measure) : 자료 값들이 흩어져 있는 정도를 나타냄. 중심 위치와 마찬가지로 산포도를 측정하는 몇 가지 방법들이 있음!! Copyright ⓒ 2009 LANDKOREA 35
    • 기술통계 분산/표준편차 분산 (Variance)과 표준편차 (Standard Deviation) 분산과 표준편차는 평균값 x 로 부터 자료들이 떨어진 거리로서 자료의 흩어진 정도를 나타낸다. 즉 거리의 제곱을 사용한다. 만약, 점 xi 에서 x 까지의 제곱거리가 ( xi  x )2 이라면, 분산은 평균제곱거리 (기술적인 이유로, 분모에 n이 아니라 n-1을 사용)로 정의되며, n s 2    xi  x  (n  1) 30 40 i 1  x i 1 i ● ● ●● ● ● ● ● ● ● ● ● ●● ● ● ● 50 60 xi 표준편차는 분산에 제곱근을 취한 형태를 갖는다. s ● 70 ( xi  x ) 2 n ● ● x  x  (n  1) 2 잉크 입자 크기 예의 경우 (17을 취하기 전) n n s    xi  x  (n  1)    xi  1.833.. (6  1)  0.967 2 2 i 1 2 i 1 2 참고로, 모집단의 분산 (모 분산)과 표준편차 (모 표준편차)에 대해서는 각각  , 을 사용한다 Copyright ⓒ 2009 LANDKOREA 36
    • 기술통계 산포의 발생원인  우연 원인 : 어쩔 수 없는 산포 (제어하기 어려운 산포), 시스템에 내재한 변화 (e.g 주어진 생산품의 디자인 또는 기계나 공정의 선택)  이상 원인 : 제어 할 수 있는 산포, 작위적 효과에 의한 변화 (e.g 조작자간 기술 차이, 원재료 입력 차이, 도구 마모 정도, 날이나 연도의 시간 차이) 산 포 우연 원인 이상 원인 • 현상 모든 Data에서 유사한 양상으로 나타남 일부 Data에서 평소와 다른 양상으로 나타남 • 구성 다수의 사소한 원인 소수의 주요원인 • 특성 안정적, 예측가능 산발적, 예측불가 • 개선조치 제도적인 산포감소 결속 또는 제거 • 책임구분 관리자/엔지니어 작업자/직 반장 • 산포의 구성 85% 15% Copyright ⓒ 2009 LANDKOREA 37
    • 기술통계량 표시/저장 메뉴의 용도 Case Data Minitab Case 다양한 기술통계량의 값을 화면에 출력하고 워크시트에 저장 화장품을 용기에 주입하는 공정에서 두 개의 주입기계가 사용되고 있다. 주입량의 평균과 산포를 알아보기 위해 5개의 샘플을 취하였다. 각 주입기별 기술통계량 값을 구하라. File : 기술통계량.mtw 주입기 1 10.62 8.98 9.67 9.52 8.45 주입기 2 8.89 8.54 8.91 10.08 9.02 Copyright ⓒ 2009 LANDKOREA 38
    • 기술통계량 표시/저장 미니탭 실행 Minitab Case 통계분석 > 기초 통계> 기술 통계량 표시 Copyright ⓒ 2009 LANDKOREA 39
    • 기술통계량 표시/저장 Minitab Case 실행 결과 StDev / √n Copyright ⓒ 2009 LANDKOREA 0.25*(n+1)번째 Data 40
    • 기술통계량 표시/저장 미니탭 실행 Minitab Case 통계분석 > 기초 통계 > 기술 통계량 저장 • 1사분위수 • 중앙값 • 3사분위수 • IQR(사분위 폭) • 비대칭도 • 첨도(뾰족하기) Copyright ⓒ 2009 LANDKOREA 41
    • 기술통계량 표시/저장 Minitab Case 실행 결과 Copyright ⓒ 2009 LANDKOREA 42
    • 그래픽 요약 메뉴의 용도 Case Data Minitab Case 그래프를 통한 데이터 및 신뢰구간의 분포와 다양한 기술통계량의 값을 보여줌 냉장고용 PVC Frame(Case)의 두께를 측정하는 공정이 있다. 25매의 샘플을 취하고 각 Frame별 10개의 Points를 선정하여 두께를 측정한 250개의 데이터로 데이터 분포 및 평균, 표준편차, 또 이에 대한 신뢰구간 등과 같은 기술통계량을 구하라. File : 그래픽요약.mtw Copyright ⓒ 2009 LANDKOREA 43
    • 그래픽 요약 미니탭 실행 Minitab Case 통계분석 > 기초 통계 > 그래픽 요약 Copyright ⓒ 2009 LANDKOREA 44
    • 그래픽 요약 Minitab Case 실행결과 Copyright ⓒ 2009 LANDKOREA 45
    • 확률분포 확률이란? 확률과 통계의 연구 목적은? • 통계는 데이터에 대한 수집, 구성, 분석, 해석 및 발표이다. • 기술적 통계(Descriptive Statistics)는 프로세스의 성과에 대한 정보를 제공한다. • 추론적 통계(Inferential Statistics)는 표본 측정을 기초로 모집단의 성과에 대한 예측을 가능하게 한다. 확률은 예측의 근간(Foundation)이다. Copyright ⓒ 2009 LANDKOREA 46
    • 확률분포 확률의 이해 그림의 화투 패를 잘 썩어놓고 x장을 뽑았을 때…… 1. 한 장을 뽑았을 때 똥 광이 나올 확률은? 2. 한 장을 뽑았을 때 똥 광이 안 나올 확률은? 3. 한 장을 뽑았을 때 쌍 피가 나올 확률은? 4. 두 장을 뽑았을 때 똥 광이 포함되어 있을(적어도 한 장이 똥 광일) 확률은? Copyright ⓒ 2009 LANDKOREA 47
    • 확률분포 확률의 이해 주사위 게임 2개의 주사위를 던지는 작업을 내용으로 하는 제조 프로세스가 있다고 가정하자. 고객은 두개 주사위의 조합이 3,4,5,…또는 11일 경우에만 “만족” 한다. 따라서, 조합이 2 또는 12일 경우는 “결함”이다. 주사위가 공정(Fair)하다고 가정할 때, 결함의 양을 예측할 수 있는가? Copyright ⓒ 2009 LANDKOREA 48
    • 확률분포 확률의 이해 주사위 게임 주사위 1 주 사 위 2 1 2 3 4 5 6 1 2 3 4 5 6 7 2 3 4 5 6 7 8 3 4 5 6 7 8 9 4 5 6 7 8 9 10 5 6 7 8 9 10 11 6 7 8 9 10 11 12 조합 결과가 2인 경우는 몇 번인가? 결과가 12인 경우는 ? 발생 가능한 조합의 총수는? Copyright ⓒ 2009 LANDKOREA 49
    • 확률분포 확률의 이해 주사위 게임 주사위 1 1 주 사 위 2 1 2 3 4 5 6 2 3 4 5 6 0.0278 0.0278 0.0278 0.0278 0.0278 0.0278 0.0278 0.0278 0.0278 0.0278 0.0278 0.0278 0.0278 0.0278 0.0278 0.0278 0.0278 0.0278 0.0278 0.0278 0.0278 0.0278 0.0278 0.0278 0.0278 0.0278 0.0278 0.0278 0.0278 0.0278 0.0278 0.0278 0.0278 0.0278 0.0278 0.0278 따라서, 결함의 확률은 5.6%이다. Copyright ⓒ 2009 LANDKOREA 50
    • 확률분포 확률분포의 예 결과의 도식화 값 8 7 LSL 6 USL 5 4 3 2 1 0 0 2 3 4 5 6 7 8 Copyright ⓒ 2009 LANDKOREA 9 1 0 1 1 1 2 조합 2 3 4 5 6 7 8 9 10 11 12 1 2 3 4 5 6 5 4 3 2 1 51
    • 확률분포 확률분포 분포 곡선을 수식화한 것. 즉, 확률분포는 분포곡선을 수학적 함수화한 것 0.35 0.3 확률분포 = f(X) 0.25 수학적 약속 Ⅱ 0.2 0.15 0.1 어떤 추출단위의 속성을 나타내는 변수 중 확률분포를 갖는 변수를 확률변수라 하고 X라 둔다. 0.05 0 예) X : 제품의 중량, 치수, 결함개수 확률변수 X가 어떤 확률분포를 따른다는 것은 X의 어떤 하나의 값 또는 어떤 구간에 대한 확률 값을 특별한 공식 (함수)로 계산할 수 있다는 것을 의미한다. 예) X : 제품의 중량, 불량률 = 제품 중량이 규격을 벗어날 확률 ⇒ X에 대한 확률분포로 계산 가능. Copyright ⓒ 2009 LANDKOREA 52
    • 이산형 확률분포 이항분포 계수형 데이터를 취급할 경우 주로 사용되는 이산형 확률분포의 대표적 종류로는 이항분포와 포아송 분포가 있다. 이항분포 (Binomial distribution) 불량 수와 같은 이산형 변수의 확률분포 중 대표적인 분포 이항분포란? n회의 시행 중, 어떤 현상이 x회 일어나는 확률 (예 : 동전 던지기의 n회 시행 중, 앞면이 x회 나올 확률) 의 이산형 분포 여기서 !!  n x p( X  x)    p (1  p) n x  x   p는 특정 현상이 일어날 확률, (1-p)는 일어나지 않을 확률 n을 시료 수, x를 불량 수, p를 모집단의 불량률이라 하면, p(x)는 n개 중에 불량 수 x가 존재하는 확률을 나타내게 됨!! 이항분포의 평균과 분산은 각각 E ( x)  np, V ( x)  np(1  p) Copyright ⓒ 2009 LANDKOREA 53
    • 이산형 확률분포 포아송분포 포아송 분포 (Poisson distribution)란? 단위 시간이나 단위 공간에서 희귀하게 일어나는 사건의 횟수 등에 유용하게 사용 예) 단위 시간 내의 전화신청 횟수, 실리콘 웨어의 단위 면적당 결점 수, ● ● ● 어느 지역에서의 1일 교통사고 단위당 결점수의 분포 사망자 수 = 포아송 분포 이항분포의 포아송 근사 시료수가 크고, p  0.1 이면, 이항분포는 아래의 포아송 분포로 근사한다 mx p( X  x)  exp( m), x! x  0,1,2,  보통의 경우, 불량률 p는 작으므로, 포아송 분포가 자주 사용!! 포아송 분포의 평균과 분산 = m Copyright ⓒ 2009 LANDKOREA 54
    • 연속형 확률분포 정규분포 계량형 데이터를 취급할 경우 주로 사용되는 연속형 확률분포의 대표적 종류로는 정규분포, t분포, 카이제곱 분포, F분포가 있다. 이중…… 정규분포(Normal distribution)란? 연속형 변수의 확률분포이며, Gauss 분포라고도 불림. 정규 분포의 형태 평균을 중심으로 좌우 대칭. 확률변수 X가 평균값 = 중앙값= 최빈값 평균  , 분산  2 을 갖는 정규분포를 따를 경우, 다음과 같이 표현한다. 좌우대칭 면적 68% X ~ N ( , ) 2 확률 밀도 함수는 다음과 같다. f ( x)    x   2  1 exp  , 2 2  2     x   -2σ Copyright ⓒ 2009 LANDKOREA χ축에 닿지 않음 면적 95% -σ μ +σ 55 2σ
    • 정규분포 정규분포 평균은 같고, 표준편차가 다른 정규분포   3.1   3.9  = 5.0   20 Copyright ⓒ 2009 LANDKOREA 56
    • 정규분포 정규분포 평균과 표준편차가 모두 다른 정규분포  = 5,  = 3  = 9,  = 6  = 14,  = 10 Copyright ⓒ 2009 LANDKOREA 57
    • 정규분포 정규분포의 활용 은행에서 고객은 5분 이내 업무처리를 원한다. A은행의 업무처리는 μ = 4분 σ = 1분이다. 몇% 고객이 불편을 참고 있는가? A사 직원의 신장은 μ = 170, σ = 10 이다. 180cm 이상은 몇 %일까? 고객의 요구수준 알고 싶은 확률 (%) 150 -2σ 160 -1σ 170 μ 180 1σ 190 2σ 50% - (68% / 2) = 16% Copyright ⓒ 2009 LANDKOREA 고객 불만 영역 1 -3σ 2 -2σ 3 -1σ 4 μ 5 1σ 50% - (68% / 2) = 16% 58 6 2σ 7 3σ
    • 정규분포 정규분포의 표준화 정규분포의 표준화  :왜? 비교가능하도록 평균이 0 이고 표준편차가 1인 정규분포를 표준정규분포 (Standard normal distribution)이라고 부르고, N(0, 1)으로 쓴다.  z value: X라고 지정하는 어떤 값과 모집단의 평균 μ와의 거리를 모집 단의 표준편차 σ로 나눈 값을 말한다. X Z  Copyright ⓒ 2009 LANDKOREA 59
    • 정규분포 Z값의 연산 •정규분포 표준 편차 평균 Z X1 x Z  X1  Mean Standard Deviation ? Z •표준정규분포 1 0 Copyright ⓒ 2009 LANDKOREA Z 60
    • 정규분포 표준정규분포 표준정규분포, N (0,1) 99.73% 95.45% 68.2% -3 -2 -1 Copyright ⓒ 2009 LANDKOREA 0 1 2 3 61
    • 정규분포 정규분포의 표준화 표준화 = 확률 계산이 용이!! μ = 100, σ = 10 A집단 N(100, 10²) Z = X-100 10 70 80 -3σ -2σ 90 100 110 120 130 -1σ μ 1σ 2σ 3σ 70 Z값 -3 80 -2 90 100 110 120 130 -1 0 1 2 3 μ = 100, σ = 20 B집단 N(100, 20²) 40 60 -3σ -2σ 80 100 120 140 160 -1σ μ 1σ 2σ 3σ N(μ, σ²)의 정규분포 Copyright ⓒ 2009 LANDKOREA Z = X-100 20 40 Z값 -3 60 -2 80 100 120 140 160 -1 0 1 2 3 N(0, 1)의 표준 정규 분포 62
    • 정규분포 Minitab을 이용한 확률값 계산 Minitab을 이용해 정규분포의 확률을 계산한다. 예제) 평균이 20이고, 표준편차가 5인 정규분포에서 다음 각 확률을 구하라. a) X ≤ 15 일 확률 b) X ≥ 30 일 확률 c) X 가 10과 25 사이일 확률 Copyright ⓒ 2009 LANDKOREA 63
    • 정규분포 Minitab을 이용한 확률값 계산 a) X ≤ 15 일 확률 미니탭 실행 계산 > 확률분포 > 정규분포 실행결과 Copyright ⓒ 2009 LANDKOREA 64
    • 정규분포 b) X ≥ 30 일 확률 Minitab을 이용한 확률값 계산 P[X ≥ 30] = 1 – P[X < 30] 미니탭 실행 실행결과 따라서 1-0.9772 = 0.0228 이 될 수 있다. Copyright ⓒ 2009 LANDKOREA 65
    • 정규분포 Minitab을 이용한 확률값 계산 c) X 가 10과 25일 사이일 확률 미니탭 실행 실행결과 따라서 P[ 10 ≤ X ≤ 25] = 0.8414 – 0.0228 = 0.8186 임을 알 수 있다. Copyright ⓒ 2009 LANDKOREA 66
    • 표본분포 표본분포의 이해 모집단에서 일정한 크기로 뽑을 수 있는 표본을 모두 뽑았을 때, 그 모든 표본의 통계량의 확률분포 확률표본을 이용한 모집단의 분포에 대한 추론의 예 n 통 계 량 X (표본 평균 : Sample mean) =  X i n 추정  (모평균 : Population mean) i 1 S 2  X i  X  n (표본 분산 : Sample variance) = 2 (n  1) i 1 추정  2 (모 분산 : Population variance) 모집단의 분포에 대한 모든 추론은 통계량을 통해 이루어진다. 통계량 : 통계량이란 관측 가능한 확률표본의 함수이다. 표본 분포 : 통계량의 확률분포를 표본분포라 한다. 표본평균의 분포, 표본분산의 분포가 대표적 표본분포이다 Copyright ⓒ 2009 LANDKOREA 67
    • 표본평균 및 표본분산의 분포 X 모집단 표본 표본의 평균 S2 Sampling n=2 2 3 1 0 1 2 1.5 0.5 1 3 2 2 1.5 2 0 2 3 2.5 0.5 3 1 1.0 0.5 2 0.0 3  0.5 모집단의 분포 Frequency 0 1.00 1.25 2 2 2 1 복원추출 2 1 1 2 3 2 1.50 1.75 X 2.00 2.25 2.50 2.75 3.00 C1  2X =1/3  =X = 2/n = 2 X =2 표본의 분산 분포 4 2.5 2 0.5 3 Frequency 1 3 표본의 분산 1 1 X 표본의 평균 분포 Frequency 표본분포 2 1 C3 0  =2 2 =2/3 3 3 3 0 0.00 0.25 1.00 1.25 1.50 1.75 2.00 C2 2 E(  ) = E ( N=3 Copyright ⓒ 2009 LANDKOREA 0.50 0.75 68 S2 )
    • 표본분포 비율의 표본분포 동일한 모집단에서 선택 가능한 모든 표본을 뽑아 구한 비율들의 분포 5번 동전 던지기의 앞면의 숫자에 대한 분포 특정 화학 접착제의 공정 불량률 p는? X(성공횟수) 성공비율(p) 불량 기준 : LCL = 69kg/㎠ X 접착제 강도 시료 추출 접착제 모집단 X1 p  0.0005 ? 불량률에 대한 추정, 가설검정  Xn ˆ p   y1   yn  n x2  f ( x; ) x1 X2 강도의 분포 0 1 2 3 4 5 xn 0.00 0.20 0.40 0.60 0.80 1.00 이항확률 0.031 0.156 0.313 0.313 0.156 0.031 이 항 확 률 0, if X  LCL Y  1, if X  LCL 데이터 처리 0 1 2 3 4 5 0 0.2 0.4 0.6 0.8 1.0 비율의 표본분포 Y : 계수치 데이터 이론적 ~ 이항 분포 확률분포 Copyright ⓒ 2009 LANDKOREA ˆ p : 계량치 데이터 이론적 ~ 정규 분포 표본분포 69 X(성공횟수) P(성공비율)
    • 표본분포 차이의 표본분포 두 모집단으로부터 선택 가능한 모든 표본을 뽑아 구한 표본평균(표준편차)의 차이들의 분포 표본1 1 1 1 2 3 2 4 ㆍ ㆍ 3 2 ㆍ ㆍ 3 3 ㆍ ㆍ 3 4 4 3 1 4 2 3 2 4 3 3 3 n2=2 표본 평균차이의 분포 평균의 차이 분산의 차이 1-2 = -1 0/0 = 0 4 4 t-분포 자유도 = ∞ (Normal) 자유도 = 10 ㆍ Sampling X2 3 1 3 복원추출 모집단2 2 2 3 2 3 n1=2 1 2 2 2 Sampling X1 2 2 2 1 모집단1 표본2 3-4 = -1 자유도 = 1 표본분산차이(비)의 분포 ㆍ F-분포 0/0 = 0 복원추출 Copyright ⓒ 2009 LANDKOREA 쌍체인 경우 : 표본 8개 쌍체가 아닌 경우 : 표본 81개 70
    • 표본분포 표본분포의 종류 t 분포 (t distribution) 예 : 자유도 = ∞ (normal) 자유도 = 10 X  ~ t (n  1) S n 자유도 = 1 모평균 또는 모평균 차이의 신뢰구간 추정 모평균 또는 모평균 차이의 검정 카이제곱 분포 (chi-square distribution) 예 : n  1S  2 2 자유도 = 1 ~  2 (n  1) 자유도 = 3 자유도 = 15 모분산 또는 모표준편차의 신뢰구간 추정 모분산 또는 모표준편차의 검정 F 분포 (F distribution) 예 : 2 2 2 S2  2 ~ F (n1  1, n2  1) 2  1 S1 Copyright ⓒ 2009 LANDKOREA 모분산 또는 모분산비의 신뢰구간 추정 모분산 또는 모분산비의 검정 71
    • 표본분포 중심극한정리 •확률변수 X가 평균 와 분산 2을 갖는 정규분포를 나타낸다면, 모집단으로부터 선택된 크기 n의 확률표본들의 산술평균( X )의 분포도 또한 평균 의 정규분포를 갖지만, 이때 분산은 2 /n이 된다. •중심극한정리의 법칙에 의하면, n이 증가함에 따라 표본평균의 분포는 정규분포 N(, 2/n)으로 수렴한다. 이것은 기초가 되는 분포가 정규분포가 아닐 때에도 마찬가지이다. •실제적으로 발견되는 대부분의 분포에서는, 크기가 매우 작은 (4 또는 5) 경우에도 수렴이 일어난다. •중심극한정리의 결과, 표본평균에 관련된 확률을 계산할 때 다음 식을 사용할 수 있다. z = ( Xbar - ) / (/n) Copyright ⓒ 2009 LANDKOREA 72
    • 표본분포       중심극한정리 Minitab 프로그램을 다시 시작한다. 이론의 검증을 위해 가상의 데이터를 제작한다. 다음의 명령을 이용하여 평균이 70이고, 표준편차가 9인 정규분포로부터 9열의 수를 생성한다. 열 C1-C9에 이 수들이 기록되어 있다. 각 열이 표본이다. 열 C10에는 표본평균이 기록될 것이다. Minitab > 계산 > 랜덤 데이터 > 정규분포 생성 : 250 데이터 행 저장 열 : c1 - c9 평균 : 70 표준편차 : 9 Minitab > 계산 > 행 통계량 > 통계량 : 평균 입력변수 : c1-c9 결과 저장 위치 : c10 Minitab > 통계분석 > 기초 통계 > 기술 통계량 표시 > 변수 : c1 - c10 열 C10의 표준편차는 얼마로 예상되는가 ? 그 이유는 ? Copyright ⓒ 2009 LANDKOREA 73
    • 표본분포 Variable 중심극한정리 N Mean Median TrMean StDev SEMean C1 0.561 250 70.253 70.149 70.322 8.614 0.545 C3 250 70.170 70.286 70.155 8.272 0.523 C4 250 70.525 70.196 70.524 8.814 0.557 C5 250 69.123 68.492 69.215 8.637 0.546 C6 250 71.380 72.159 71.515 8.670 0.548 C7 250 69.409 69.523 69.347 8.817 0.558 C8 250 69.698 69.753 69.648 8.766 0.554 C9 250 69.472 69.439 69.625 8.362 0.529 C10 x  8.876 C2 x  250 70.069 70.651 70.172 250 70.011 70.143 70.042  n 9 9   3 3 9 Copyright ⓒ 2009 LANDKOREA 2.887 0.183 Exercise: 이 표준오차(Standard Error)를 해석. 다른 값과 차이가 나는 이유는? 74
    • 표본분포 중심극한정리 Minitab > 그래프 > 점도표 > 다중Y, 단순 선택 개별 관측에 대한 본포 표본평균값 들의 분포 산포의 극적인 감소에 주의 Copyright ⓒ 2009 LANDKOREA 75
    • 표본분포 중심극한정리 비정규분포를 이용하여 중심극한정리를 검증해 본다. df = 2 인 카이제곱분포 Minitab > 계산 > 랜덤 데이터 > 카이 제곱 생성 : 250 데이터 행 저장 열 : c1 - c9 자유도 : 2 Minitab > 계산 > 행 통계량 > 통계량 : 평균 입력 변수 : c1-c9 결과 저장 위치 : c10 Minitab > 통계분석 > 기초 통계 > 기술 통계량 표시 > 변수 : c1 - c10 Minitab > 그래프 > 점도표 > 다중Y, 단순 선택 그래프 변수 : c1-c10 Copyright ⓒ 2009 LANDKOREA 76
    • 표본분포 중심극한정리 통계분석 > 기초 통계 > 정규성 검정 C1 열 데이터의 경우 Copyright ⓒ 2009 LANDKOREA C10 열 데이터의 경우 77
    • 표본분포 중심극한정리 중심 극한 정리 요약 • 중심극한정리를 통해, n값이 충분히 클 때(미지의 분포에서 n  30) 표본평균의 분포가 대략 정규분포를 따른다고 가정할 수 있다. • 중심극한정리를 통해, 정규모집단의 표본평균의 분포 자체가, 표본크기에 무관하게, 정규적이라고 가정할 수 있다. • 평균의 표준오차는, 표본크기가 증가함에 따라 표본평균의 표준편차가 감소한다는 것을 나타낸다. Copyright ⓒ 2009 LANDKOREA 78
    • 통계적 추정 통계적 추정의 개념 통계적 추론 (Statistical inference) : 표본으로부터의 정보를 이용하여 모집단에 대한 추측 또는 결정을 하는 과정 표본 모집단 X1 X2 x2   Xn 모수 x1 xn 통계량 f ( x; ) 통계적 추론 추정량 또는 검정 통계량 통계적 추론에 서 중요한 역할을 하는 두가지라.. 확률분포 f(x): 모집단의 분포에 대한 이론적인 모형 모수 (Population parameter) Θ: 확률 분포의 평균, 표준편차 등과 같이 모집단의 특성을 나타내는 값으로, 통계적 추론은 모수에 관한 추론인 경우가 대부분. Copyright ⓒ 2009 LANDKOREA 79
    • 통계적 추정 통계적 추정의 종류 통계적 추론의 범주 가설검정 (Hypothesis testing) : 모수에 대한 예상, 주장 또는 단순한 추측 등의 옳고 그름에 대한 결정을 하는 과정 추정 (Estimation) : 점 추정과 구간추정 추정의 종류 점 추정 (Point estimation) : 모수의 참값이라고 추측되는 하나의 수 값을 택하는 과정 예) MLB 박판의 평균두께 μ,   x  3.42mm ˆ 구간추정 (Interval estimation) : 모수의 참값이 속할 것으로 기대되는 범위를 택하는 과정 예) MLB 박판의 평균두께에 대한 95% 신뢰구간, 2.19 ≤μ≤4.65 Copyright ⓒ 2009 LANDKOREA 80
    • 통계적 추정 점 추정 모평균의 점 추정 모비율의 점 추정 모평균 μ의 점 추정 (불편추정 량) : 추정량 : 표본평균  ˆ X 표준오차 : S.E.( )   ˆ ˆ 추정량 : 표본비율 p  X n n (X i 1 i 표준오차 : S.E.( p)  ˆ n 표준오차의 추정량 : S.E.(  )  S ˆ 단, S  모비율 p의 점 추정 (불편추정 량) : n  X ) 2 (n  1) Copyright ⓒ 2009 LANDKOREA p(1  p) n 표준오차의 추정량 : ˆ S.E.( p)  ˆ ˆ p(1  p) n 81
    • 통계적 추정 구간추정 모평균의 구간추정 모평균 μ에 대한 구간 추정 : 정규 모집단 모평균 μ에 대한 100(1-α)% 신뢰구간은 모평균 μ에 대한 근사 구간 추정 : 표본크기가 클 때 모평균 μ에 대한 100(1-α)% 근사신뢰구간은 2 (a)  이 기지일 때 : X  z 2  n 2 (a)  이 기지일 때 : X  z 2 2 S (b)  이 미지일 때 : X  t (n  1, 2) n 2 (b)  이 미지일 때 : X  z 2  n S n 단, z 2 는 표준정규분포의 100(1-α/2)% 백분위수, t (n  1, 2)는 자유도 n-1인 t분포의 100(1-α/2)% 백분위수 모비율의 구간추정 모분산의 구간추정 모비율 p에 대한 구간 추정 : 표본크기가 클 때 모분산  에 대한 구간 추정 : 정규 모집단 모비율 p에 대한 100(1-α)% 근사 신뢰구간은 모분산  에 대한 100(1-α)% 신뢰구간은 ˆ p  z 2 ˆ ˆ p (1  p ) n 2 2  (n  1) S 2  (n  1) S 2 , 2  2    (n  1, 2)  (n  1,1   2)  2 단,  (n  1, 2) 는 자유도 n-1인 카이제곱 분포의 100(1-α/2)% 백분위수 Copyright ⓒ 2009 LANDKOREA 82
    • 통계적 추정 평균의 구간추정 예 참고용 x : sample의 평균 s : sample의 표준편차 n : sample의 개수 df : 자유도(n-1) tα/2,df: 확률 α/2, 자유도(n-1) 에서의 t값(t분포) LCL = x - •α: 신뢰 구간이 틀릴 확률, 즉, 신뢰 구간 내에 참 값이 포함되어 있지 않을 확률. 일반적으로 0.05나 1-α tα/2,df*(s/√ n ) 0.01의 값으로 주어진다. LCL = x + tα/2,df*(s/√ n ) α/2 α/2 Scale of x x 신뢰도: 참 평균(True Universe Mean)이 그 구간 내에 포함되는 확률이 (1-α)100% 이다. x - tα/2,df*(s/√ n ) Copyright ⓒ 2009 LANDKOREA μ x + tα/2,df*(s/√ n ) 83
    • 통계적 추정 표준편차의 구간추정 예 참고용 s χ2 df α/2, df    s 신뢰 하한 α/2 df χ2(1-α/2), df s : sample의 표준편차 df : 자유도(n-1) χ2 α/2,df: 확률 α/2, 자유도(n-1) 에서의 χ2 값(χ2 분포) 신뢰 상한 1-α Copyright ⓒ 2009 LANDKOREA α/2 84
    • 통계적 추정 평균의 구간추정 평균의 신뢰구간(예제) 생산품 중 50개의 Sample을 취해 특성을 측정해본 결과 평균이 12.7998, 표준편차가 0.418 인 분포를 보였다. 모집단의 평균을 95% 신뢰도로 구간추정 하라. • 모평균 (μ ) 에 대한 점 추정치는? • 신뢰 구간이 95%라고 가정하라, 따라서 α = ? • 신뢰 하한 구간 값은 = • 신뢰 상한 구간 값은 = • 신뢰구간이 참 평균값 μ를 포함할 확률은 ? Copyright ⓒ 2009 LANDKOREA 85
    • 통계적 추정 평균의 구간추정 평균의 신뢰구간(예제) 생산 자료 x = 12.7998 s = 0.418 0 . 418 s = = 0 .059 n 50 μ 에 대한 신뢰 구간 n이 50일 때 tα/2,df = 2.01 (t 분포표 참조) 95% 12.68 x = 12.7998 Copyright ⓒ 2009 LANDKOREA 12.92 86
    • 통계적 추정 Minitab(신뢰구간추정) 미니탭을 이용하여 주어진 데이터로 모집단 평균의 신뢰구간을 추정하시오 File : 그래픽 요약.mtw 신뢰도 입력 95%신뢰도일 경우 95.0 Copyright ⓒ 2009 LANDKOREA 87
    • 통계적 추정 Minitab(신뢰구간추정) Copyright ⓒ 2009 LANDKOREA 88
    • 통계적 가설검정 가설검정 가설 검정 (Hypothesis tests) 모집단의 모수에 대하여 어떤 가설을 세우고, 이 가설의 진위를 표본(Sample)의 정보를 토대로 하여 판단하는 과정 귀무가설( Null Hypothesis, H0) 대립가설(Alternative Hypothesis, H1) 도대체 둘 중 어떤 것이 맞는 가설인 거야? 직접 실험을 통해 얻어진 표본 자료를 통해 판단!! Copyright ⓒ 2009 LANDKOREA 89
    • 통계적 가설검정 가설 가설 (Hyphothesis)이란? 통계적 가설이란 하나 또는 그 이상의 모집단에 대한 모수의 진술 예 : 두개의 지역에서 판매량에 차이가 있는지를 판단하고 싶은 경우 통계적 가설검정이란? 그 차가 본질적인 지역차에 의한 것인가, 우연오차에 의한 것인가를 객관적으로 판단하는 수단 일반적으로 귀무가설(Null Hypothesis: H0): 변화나 차이가 없음을 설명하는 가설 대립가설(Alternative Hypothesis: H1): H0에 반대되는 가설 실험에 의해 얻어진 표본 자료에 의해 둘 중 어느 하나의 가설을 옳다고 판단함 Copyright ⓒ 2009 LANDKOREA 90
    • 통계적 가설검정 가설 가설의 구체적 예 귀무가설(H0) - 특정한 값과 비교하는 경우 모집단의 통계치가 특정한 값이 같다고 가정 H0 : μ = μ0 H0 : μ1 = μ2 - 두 개의 모집단을 비교하는 경우 2 H0 : σ2 = σ0 두개의 모집단 통계치가 같다고 가정 H0 : σ2 = σ2 1 2 대립가설(H1) - Not H1 양측검정 단측검정 H1 : μ ≠ μ0 H1 : μ > μ0 H1 : μ < μ0 H1 : μ1 ≠ μ2 H1 : μ1 > μ2 H1 : μ1 < μ2 H1 : σ2 ≠ σ2 0 H1 : σ2 > σ2 H1 : σ2 < σ2 0 2 H1 : σ2 > σ2 H1 : σ2 < σ2 H1 : σ2 ≠ σ2 1 Copyright ⓒ 2009 LANDKOREA 0 1 2 1 91 2
    • 통계적 가설검정 가설검정에서의 오류 가설검정에 따른 오류 • 1-α : 신뢰수준 • 1-β : 검출력 사실 H1 H0 H0 정확한 결정 1-α 제2종 오류 (소비자위험) β H1 제1종 오류 (생산자위험, 유의수준) α 정확한 결정 1- β 채택 유의수준 (Significance level) : 통계적 가설검정에서 제1종 오류를 범할 확률의 최대 허용한계 α로 쓰며, 크면 클수록 시험자가 불리. 생산자 위험이라고도 불림. 검출력 (Power of test) : 틀린 가설을 틀렸다고 올바르게 판정할 확률 1-β로 씀. β는 소비자 위험이라고도 불림. Copyright ⓒ 2009 LANDKOREA 92
    • 통계적 가설검정 가설검정의 구분 모평균의 검정 시 유의수준이 5%로 주어진 경우 우측검정 (Right-tailed) 양측검정 (Two-tailed) 좌측검정 (Left-tailed) α = 0.05 α = 0.05 α /2 = 0.025 α /2 = 0.025 H0: μ < μ0 = H0: μ = μ0 H0: μ > μ0 = H1: μ > μ0 H1: μ  μ0 H1: μ < μ0 Copyright ⓒ 2009 LANDKOREA 93
    • 통계적 가설검정 검정통계량 검정 통계량 (Test statistics) 귀무가설과 대립가설 중 어느 하나를 택하는 데에 사용되는 통계량 검정 통계량 구성 원리 귀무가설이 틀렸다는 신호 즉, 변화나 차이가 있다. Signal Noise 실험오차에 의한 변화나 차이 모평균 검정 H0 : μ = μ0 H1 : μ > μ0 예 X  0 s n Signal이 Noise보다 크면 그 Ratio는 > 1이 되며, 이 Ratio가 모평균이 μ0 보다 크다고 할 수 있을 정도의 값 (통계적인 기준 값)인 기각치 보다 크면 귀무가설 기각임. 여기서 통계량이므로, 확률분포를 따르며 검정 통계량의 형태에 따라 정규분포, t분포, 카이제곱 분포, F분포 등을 따르게 됨. 아울러, 분포 및 시료 수, 유의수준에 따라 기각치가 결정됨. Copyright ⓒ 2009 LANDKOREA 94
    • 통계적 가설검정 유의수준 유의수준(α) - 귀무가설 참인데도 불구하고 귀무가설을 기각할 확률 기각역 - 귀무가설을 기각하는 영역 - 검정 통계량 값이 기각역에 포함되면 귀무가설을 기각하고 대립가설을 채택함 유의확률 (p-value) - 검정 통계량의 관측값에 대하여 귀무가설을 기각할 수 있는 최소의 유의수준 - 유의확률값이 실험자가 미리 선택한 α값보다 작으면 귀무가설을 기각하고 p값이 α값보다 크면 귀무가설을 채택 Copyright ⓒ 2009 LANDKOREA 95
    • 통계적 가설검정 기각/채택의 결정방법 1. 검정통계량에 의한 가설판정 만약 계산치가 기각치(Critical Value)보다 작거나 같은 경우 ☞ Ho를 기각하는데 실패 / Ho채택 만약 계산치가 기각치(Critical Value)보다 클 경우 ☞ Ho를 기각 / H1 채택 2. 유의확률에 의한 가설판정 만약 P Value가 α보다 크거나 같은 경우 ☞ Ho를 기각하는데 실패 / Ho채택 만약 P Value가 α보다 작을 경우 ☞ Ho를 기각 / H1 채택 대부분 2번의 방법을 사용 3. 신뢰구간에 의한 가설판정 만약 귀무가설에서 설정한 값이 신뢰 구간(Confidence Interval)내에 있을 때 ☞ Ho를 기각하는데 실패 / Ho채택 만약 신뢰 구간(Confidence Interval)밖에 있을 때 ☞ Ho를 기각 / H1 채택 Copyright ⓒ 2009 LANDKOREA 96
    • 통계적 가설검정 가설검정방법 모분산 기지 모분산 미지 T - test 모분산 기지 Z - test 모분산 미지 단일 모 평균 Z - test T - test 모평균 두 모평균 비교 계량형 X² - test 단일 모분산 두 모분산 비교 정규분포 F - test Bartlett’s test 비정규분포 모분산 Levene’s test T - test 대응 관측 값 비교 단일 모비율 두 모비율 비교 계수형 Z - test Z - test 모비율 독립성 검정 기타 X² 검정 X² - test 동일성 검정 적합도 검정 Copyright ⓒ 2009 LANDKOREA 97
    • 통계적 가설검정 test 가설검정방법 Regression Normality 귀무가설 같다 변화 없다 계수=0 정규성 띈다 인자 의미 無 대립가설 다르다 달라졌다 계수≠0 인자 의미 有 Run Chart Curvature Lack of Fit 인자가 유의 하지 않음 특별한 경향 없음 직선적이다 인자가 유의함 특별한 경향 있어 문제됨 곡선적이다 특별한 경향 있어 문제 곡선적이다 0.05 이하 일 때 P Value 판단 비 정규성 ANOVA, DOE 다르다 달라졌다 계수≠0 인자 의미 有 Copyright ⓒ 2009 LANDKOREA 비 정규성 인자가 유의함 98
    • 1-표본 Z 검정 메뉴의 용도 Case Minitab Case 모집단의 표준편차를 알고 있을 때, 한 개 모집단의 평균치에 대한 신뢰구간 추정과 가설 검정을 실시한다. 어떤 프로젝트 팀이 활동결과 양품률이 73% 이상이라 하는데(단, 표준편차:7%) 이의 검정을 위해 8개 Lot를 샘플링하여 양품률을 측정한 결과 다음과 같았다. 70.7 74.7 69.0 65.2 71.1 86.0 73.2 86.8 실제 양품률이 73% 이상인지를 유의수준 5%로 검정하여라. Data Data : 1-표본 Z.mtw Copyright ⓒ 2009 LANDKOREA 99
    • 1-표본 Z 검정 미니탭 실행 Minitab Case 통계분석 > 기초 통계 > 1-표본 Z 검정 신뢰수준 결정 대립가설 형태 결정 Copyright ⓒ 2009 LANDKOREA 100
    • 1-표본 Z 검정 Minitab Case 실행 결과 제품의 수율이 73%보다 크다고 할 수 없다. 결과 해석 P-value 0.261로 0.05보다 크므로 유의수준 5%에서 귀무가설 채택 즉, 제품의 수율은 73보다 크다고 할 수 없으므로 프로젝트 팀의 주장은 근거가 없음 Copyright ⓒ 2009 LANDKOREA 101
    • 1-표본 Z 검정 수기계산 단일 모평균의 검정(모분산을 알 때) • 전제조건 : 정규분포 이거나, 시료수가 30개 이상의 대표본인 경우 • 검정통계량 : Z= X-μ σ/ n • 기각역 : 구 분 H0 H₁ 기각역 μ ≤ μ0 μ >μ0 Z >Zα μ ≥ μ0 μ< μ0 Z<-Zα μ = μ0 μ ≠ μ0 |Z|>Zα/2 한쪽 검정 양쪽 검정 Copyright ⓒ 2009 LANDKOREA 102
    • 1-표본 Z 검정 수기계산 • 가정용 전구의 평균수명을 추정하기 위해 9개의 전구수명을 단축 실험에 의해 조사한 결과 다음과 같은 Data를 얻었다. 모 표준편차는 10시간이다. 전구의 평균수명이 1100시간인가를 검정하여라. (α= 0.05) Data : 987, 1121, 997, 1020, 978, 1040, 982, 1050, 992 이론적 접근 1. H0 : μ= 1100 2. H₁: μ≠ 1100 3. α : 0.05 4. 검정 통계량 및 기각역 Z= x-μo σ/ n , 기각역 = |Z|>Zα/2 = 1.96 5. 검정 통계량 계산 Z= 1018.56-1100 = -24.43 10/ 9 6. 결 론 : |Z|(=24.43) >= Zα/2(=1.96)이므로 H0를 기각한다. 즉, 전구의 수명이 1100시간이라는 주장을 할 수 없다. (참고) 유의확률 P=P(|Z|> 24.43)=2P( Z<-24.43)=0.000.... 즉, 유의수준 0.05보다 매우 작으므로 H₁에 대한 증거는 더욱 명확함. Copyright ⓒ 2009 LANDKOREA 103
    • 1-표본 t 검정 메뉴의 용도 Case Data Minitab Case 모집단의 표준편차를 모를 때, 한 개 모집단의 평균치에 대한 신뢰구간 추정과 가설 검정을 실시한다. 두 단자의 Gap을 0.8mm 이하로 생산해야 하는 제품이 있다. 이 제품에 대해 30개의 샘플을 취하여 측정한 결과로 생산한 제품의 Gap이 0.8mm 이하라고 할 수 있는지를 유의수준 5%로 검정하라. Data : 1-표본 t.mtw Copyright ⓒ 2009 LANDKOREA 104
    • 1-표본 t 검정 미니탭 실행 Minitab Case 통계분석 > 기초 통계 > 1-표본 t 검정 신뢰수준 결정 대립가설 형태 결정 Sigma 입력란 없음 Copyright ⓒ 2009 LANDKOREA 105
    • 1-표본 t 검정 Minitab Case 실행 결과 Gap이 0.8mm 이하라고 할 수 있다. 결과 해석 P-value 0.027로 0.05보다 작으므로 유의수준 5%에서 귀무가설 기각 즉, Gap은 0.8mm 이하라고 할 수 있다. Copyright ⓒ 2009 LANDKOREA 106
    • 1-표본 t 검정 수기계산 단일 모평균의 검정(모분산을 모를 때) • 전제조건 : 모집단이 정규분포임을 가정하는 경우 • 검정통계량 : t= X-μ0 s/ n • 기각역 : 구 분 양쪽검정 H₁ 기각역 μ ≤ μ0 한쪽 검정 H0 μ >μ0 T >tα μ ≥ μ0 μ< μ0 t<-tα μ = μ0 μ ≠ μ0 |t|≥ tα/2 Copyright ⓒ 2009 LANDKOREA 107
    • 1-표본 t 검정 수기계산 A제품의 평균 충격강도는 24㎏/㎠이다. 최근에, 랜덤 Sampling하여 충격강도를 측정한 결과 다음과 같은 Data를 얻었다. 과연 평균 충격강도를 24㎏/㎠이라고 할 수 있는지 검정하시오. Data : 25.0, 23.5, 23.0, 23.5, 24.5 이론적 접근 1. H0 : μ= 24 2. H₁: μ≠ 24 3. α : 0.05 4. 검정 통계량 및 기각역 t= X-μ0 S/ n , 기각역 = |t|>tα/2 (=2.776) 5. 계 산 t= 23.9- 24 = -0.27 0.822/ 5 6. 결 론 : |t|< tα/2 이므로 H0를 기각할 수 없다. 즉, 평균 충격강도를 24㎏/㎠이 아니라고 말할 수 없다. 참고 : 유의확률 P= P(|t| >0.27) = 2P( Z > 0.27)= 2× 0.40= 0.80 즉, P >0.05이므로 H0를 기각할 수 없다. Copyright ⓒ 2009 LANDKOREA 108
    • 2-표본 t 검정 메뉴의 용도 Case Data Minitab Case 모집단의 표준편차를 모를 때, 서로 독립인 두 모집단의 평균치 차에 대한 신뢰구간 추정과 가설검정을 실시한다. 통신용 단말기를 생산하는 두 업체 A,B가 있다. 최근 A업체는 경쟁사인 B업체 보다 통화잡음 레벨을 개선했다고 한다. 양사 30개의 단말기로 통화잡음 레벨을 측정한 데이터로 A업체의 주장이 일리가 있는지 유의수준 5%에서 검정하라. Data : 2-표본 t.mtw Copyright ⓒ 2009 LANDKOREA 109
    • 2-표본 t 검정 미니탭 실행 Minitab Case 통계분석 > 기초 통계 > 2-표본 t 검정 업체 A, B입력 등분산일 경우 체크 Copyright ⓒ 2009 LANDKOREA 110
    • 2-표본 t 검정 Minitab Case 실행 결과 A사와 B사간엔 유의차가 있고 A사가 더 낮다고 할 수 있음 결과 해석 P-value 0.001로 0.05보다 작으므로 유의수준 5%에서 귀무가설 기각 즉, 잡음 레벨은 양사간 차이가 있으며 A사가 더 낮다고 할 수 있음 Copyright ⓒ 2009 LANDKOREA 111
    • 2-표본 t 검정 수기계산 두 모평균 차의 검정(모분산을 알 때) 참고용 • 전제조건 : 정규분포 이거나, 시료수가 30개 이상의 대표본인 경우 (X₁- X₂)-(μ₁- μ₂) • 검정통계량 : Z= σ1² σ2² + n₂ n₁ • 기각역 : 분 한쪽검정 양쪽검정 H0 H₁ 기각역 μ1 ≤ μ2 (μ1-μ2≤ 0) 구 μ1 >μ2 Z ≥ Zα μ1 ≥ μ 2 (μ1-μ2 ≥ 0) μ< μ0 Z ≤-Zα μ1 = μ2 (μ1-μ2 = 0) μ ≠μ0 |Z|≥ Zα/2 ☞ 실제로 두 모집단의 표준편차를 아는 경우가 드물기 대문에 Mintab에서는 두 모평균에 대한 Z검정을 지원하지 않는다. Copyright ⓒ 2009 LANDKOREA 112
    • 2-표본 t 검정 수기계산 두 모평균 차의 검정(모분산을 모를 때) 1) σ₁= σ₂인 경우 • 전제조건 : 모집단이 정규분포임을 가정하는 경우 ( X1- X2)-d0 t= • 검정통계량 : Sp (1/n1+ 1/n2) 단, Sp ² = S1²( n1- 1) + S2² (n2- 1) n1+ n2- 2 , d0 = μ1-μ2 ☞ 검정통계량은 자유도 Φ= n1+ n2- 2인 t 분포를 따름. • 기각역 : 분 한쪽검정 양쪽검정 H0 H₁ 기각역 μ1 ≤ μ2 구 μ1 >μ2 t ≥ tα μ1 ≥ μ2 μ< μ0 t ≤-tα μ1 = μ 2 μ ≠ μ0 |t|≥ tα/2 Copyright ⓒ 2009 LANDKOREA 113
    • 2-표본 t 검정 수기계산 다음의 Data는 어떤 건축재료에 대해서 열처리후의 늘어난 길이를 측정한 것이다. A그룹의 Data는 A사 제품 18개에 대해서 측정한 것이며, B그룹의 Data는 B사 제품 16개에 대해서 측정한 것이다. A사 제품과 B사 제품의 늘어난 길이에는 차이가 있다고 말할 수 있는지를 검토하시오. (등분산 가정) Data A사 : 22, 19, 16, 17, 19, 16, 26, 24, 18 ,19, 13, 16, 22, 18, 19, 22, 19, 28 B사 : 22, 20, 28, 24, 22, 28, 22, 19, 25, 21, 23, 24, 23, 23, 29, 23 이론적 접근 1) H0 : μA-μB= 0 , 2) H1 : μA-μB ≠ 0 , 3) α : 0.05 4) 검정 통계량 및 기각역 (XA-XB)-do t= 자유도=nA + nB-2= 32 , 기각역 : |t|≥ tα/2 (≒ 2.04) Sp 1/ηA+1/ηB , 5) 검정 통계량 계산 2 2 SA (nA-1) + SB (nB-1) 3.79²× 17+ 2.83²×15 = Sp= = 3. 37 nA+nB-2 18+16-2 t = (19.61- 23.50)-0 1 3.37× 1/18+ 16 = -3.36 6) 결 론 : |t|>tα/2보다 크므로 H0를 기각함. 늘어난 길이는 차이가 있다고 말할 수 있다. 7) 참 고 : P(유의확율)=P(|t|≥ 3.36 )=2P( t >3.36)= 0.0021, 따라서 P< 0.05 이므로 H0기각 Copyright ⓒ 2009 LANDKOREA 114
    • 2-표본 t 검정 수기계산 2) σ1≠ σ2인 경우 • 전제조건 : - Behrens-Fisher 방법과 Cochran방법을 사용하여 검정통계량이 근사적으로 t 분포를 따른다는 사실에 입각하여 추론함. - Minitab에서는 Behrens-Fisher 방법을 사용함. • 검정통계량 : T’ = ( X1 - X2 ) - d0 S1² n1 + S2² n2 • 이론적 접근 : σ₁= σ₂인 경우와 동일하며, 단 검정통계량만 차이가 남. • Minitab 활용 : 4-1의 예제에서 “2-Sample t”창의 “Assume equal variance”난의 Check를 제거하면 됨. ☞ 두 모평균 차를 검정 할 때는 검정 전에 두 모집단이 같은 분산을 갖는 지를 확인 하여야 함 (등분산 검정) Copyright ⓒ 2009 LANDKOREA 115
    • 쌍체 t 검정 메뉴의 용도 Case Data Minitab Case 데이터가 동질적인 쌍의 형태를 띌 때, 각 쌍에서 얻은 관측값의 차(D =X 1-X2 )를 이용하여 두 모평균을 비교하는 방법. 즉, 실험단위를 동질적인 쌍으로 묶은 다음 각 쌍에서 랜덤하게 두 방법을 적용하고, 두 집단의 평균치 차에 대한 신뢰구간 계산과 가설검정을 실시한다. 8가지 형태의 데이터를 두 가지 전송방식으로 전송해보고 전송시간을 측정했을 경우 두 전송 방식간의 전송시간에 차가 있는지를 유의수준 5%로 검정하여라. Data : 쌍체 t.mtw Copyright ⓒ 2009 LANDKOREA 116
    • 쌍체 t 검정 미니탭 실행 Minitab Case 통계분석 > 기초 통계 > 쌍체 t 검정 Copyright ⓒ 2009 LANDKOREA 117
    • 쌍체 t 검정 Minitab Case 실행 결과 전송시간에 유의차가 있다고 할 수 있다. 결과 해석 P-value 0.011로 0.05보다 작으므로 유의수준 5%에서 귀무가설 기각 즉, 두 가지 전송방법간 전송시간에 차이가 있다. 평균으로 볼 때 전송방법 1이 전송시간이 짧다. 만약 짧은 것이 좋다면 단측 검정을 실시할 필요가 있다. Copyright ⓒ 2009 LANDKOREA 118
    • 쌍체 t 검정 수기계산 대응 Data의 두 모평균차이 검정 • 두 모집단의 실험단위들이 동질성 조건을 만족시킬 수 없는 경우 동질적인 실험단위끼리 조로 나누어 두 모평균차이를 검정하는 방법 ex) 신발의 오른쪽과 왼쪽 중 어느 쪽이 빨리 닳아지는가? • 전 제 조 건 : 대응되는 Data의 차이 값이 정규분포를 따르거나, 30개 이상의 대표본인 경우 • 검정 통계량 : t= d-d0 Sd / n (단, d = 대응Data의 편차의 평균, Sd = 대응Data의 편차의 표준편차 ) •기각역 구 분 양쪽검정 H₁ 기각역 μD≤d0 한쪽검정 H0 μD>d0 t ≥ tα μD≥d0 μD<d0 t ≤-tα μD=d0 μD≠d0 |t|≥ tα/2 Copyright ⓒ 2009 LANDKOREA 119
    • 쌍체 t 검정 수기계산 페인트 제조에 대한 개발연구를 행한 결과 방법1과 방법2중의 한 가지를 채택하기로 하였 다. 방법1은 방법2에 비하여 1Batch당의 제조비용은 비싸지만 제품의 수확량이 많으며, 1Batch당 5㎏이상 높다고 판단된다면 방법1을 채택하고 싶다. 원료 10 lot에 대해 방법1과 방법 2를 실험한 결과 다음과 같은 대응이 있는 Data를 얻었다. 이에 대한 분석을 실시하시오 . Lot 방 법1 방 법2 1 80.0 73.0 2 79.3 74.6 3 79.1 73.0 4 77.4 72.8 5 81.6 76.0 6 80.1 74.1 7 80.0 75.0 8 81.6 73.3 9 76.3 70.7 10 81.9 74.8 Copyright ⓒ 2009 LANDKOREA 120
    • 쌍체 t 검정 수기계산 이론적 접근 1) H0 : μD = 5 2) H₁: μD > 5 3) α : 0.05 4) 검정 통계량 및 기각역 t= d-d0 Sd / n , 기각역 : t >tα (=1.833) 5) 검정통계량 계산 6- 5 t= 1.178 / 10 = 2.69 ( >tα) (d = 6, Sd = 1.178) P= P( t >2.69 ) = 0.012 ( <α) 6) 결 론 : 귀무가설을 기각한다. 즉, 방법1은 방법2에 비해 1Batch당 수확량이 5㎏이상 높다고 말할 수 있음. Copyright ⓒ 2009 LANDKOREA 121
    • 단일 비율 검정 메뉴의 용도 Case 미니탭 실행 Minitab Case 불량률, 찬성률, 실업률 등과 같이 모집단에서 어떤 특정 속성을 갖는 것의 비율을 모비율이라 말한다. 이와 같은 한 개 모비율에 대한 신뢰구간 추정과 가설 검정에 사용된다. 어떤 공정의 모 불량률이 0.118인 것으로 알려져 있다. 개선팀의 활동 후 100개의 샘플을 취하여 불량률을 조사한 결과 9개의 불량품이 발생되었다. 개선팀 활동 후 불량률이 달라졌는지(개선되었는지)를 유의수준 5%로 검정하여라. 통계분석 > 기초 통계 > 단일 비율 검정 Copyright ⓒ 2009 LANDKOREA 122
    • 단일 비율 검정 Minitab Case 미니탭 실행 신뢰수준 및 검정 비율 입력 np≥5이면 이항분포가 정규분포에 근사 Click Copyright ⓒ 2009 LANDKOREA 123
    • 단일 비율 검정 Minitab Case 실행 결과 불량률이 달라졌다고 할 수 없다. 결과 해석 P-value 0.193로 0.05보다 크므로 유의수준 5%에서 귀무가설 채택 즉, 불량률이 변했다고 할 수 없다. 따라서 개선의 효과는 없다고 판단 함 Copyright ⓒ 2009 LANDKOREA 124
    • 단일 비율 검정 수기계산 단일 모비율의 검정 • 전제조건 : n이 충분히 큰 경우 (np > 5) - np >5, n(1-P) >5이면 이항분포는 정규분포를 따름 • 검정통계량 ∧ Z= ( P- P0 ) P0(1- P0)/n = X - nP0 nP0(1-P0) • 기각역 구 분 H0 H₁ 기각역 P ≤ P0 P > P0 Z0 ≥ Zα P ≥ P0 P < P0 Z0 ≤ - Zα P = P0 P ≠ P0 |Z| ≥ Zα/2 한쪽검정 양쪽검정 Copyright ⓒ 2009 LANDKOREA 125
    • 단일 비율 검정 수기계산 LG TV공장에서는 Color TV용 튜너의 불량이 과거 Data에 의해 5.5%로 집계 되었다. 이 불량율을 줄이기 위해 콘덴서의 예비 가열 공정을 추가시켰는데, 이에 따른 튜너의 불량율이 감소되었는가를 확인하기 위해 새 공정에서 만들어진 200개의 튜너를 랜덤 하게 채취하여 검사하였더니 4개가 불량이었다. 불량율이 5.5%미만으로 감소되었는가를 검정하시오. 유의수준 0.05임 이론적 접근 1) H0 : P0 = 0.055, 2) H₁: P0 < 0.055, 4) 검정통계량 및 기각역 3) α : 0.05 ∧ Z0 = ( P- P0 ) P0(1- P0)/n 기각역 : Z0 < - Zα(= - 1.645) , 5) 검정 통계량 계산 Z0 = ( 4/200- 0.055 ) 0.055(1-0.055) 200 = - 2.17 ( < - Zα ) P = P( Z < - 2.17 ) = 0.015 ( < α) 6) 결론 : H0를 기각한다, 즉, 개량된 공정에서 튜너의 불량율은 5.5%미만으로 감소되었다고 볼 수 있다 Copyright ⓒ 2009 LANDKOREA 126
    • 두 비율 검정 메뉴의 용도 Case 미니탭 실행 Minitab Case 두 모집단의 모비율 차에 대한 신뢰구간 추정과 가설검정을 실시한다. 두 원료 납품 업체에서 납품한 원료를 이용하여 생산한 제품에서 120개, 150개씩 샘플을 취하여 불량품을 조사한 결과 12개, 9개의 불량품이 발생되었다. 두 납품 업체의 원료간 제품 불량률에 차이가 있는지를 유의수준 5%로 검정하여라. 통계분석 > 기초 통계 > 두 비율 검정 Copyright ⓒ 2009 LANDKOREA 127
    • 두 비율 검정 Minitab Case 미니탭 실행 Raw Data로 입력되어 있는 경우 A의 표본수와 불량품수 입력 B의 표본수와 불량품수 입력 Copyright ⓒ 2009 LANDKOREA 128
    • 두 비율 검정 Minitab Case 실행 결과 두 납품 업체의 불량률간엔 유의차가 있다고 할 수 없다. 결과 해석 P-value 0.223로 0.05보다 크므로 유의수준 5%에서 귀무가설 채택 즉, 두 원료 납품 업체간 제품 불량률에 차이가 있다고 할 수 없다. Copyright ⓒ 2009 LANDKOREA 129
    • 두 비율 검정 수기계산 두 모비율 차이의 검정 • 전제조건 : n이 충분히 큰 경우 (np₁>5, np₂>5) • 검정통계량 : ∧ ∧ ( P₁- P₂ ) Z0 = ∧ ∧ P(1- P) 1 1 n₁+ n₂ ∧ 단P= X₁+ X₂ (합동 추정량) n₁+ n₂ H₁ 기각역 , • 기각역 구 분 H0 P₁≤ P₂ P₁ > P₂ Z0 ≥ Zα P₁≥ P₂ P₁< P₂ Z0 ≤ - Zα P₁= P₂ P₁ ≠ P₂ |Z0| ≥ Zα/2 한쪽 검정 양쪽검정 Copyright ⓒ 2009 LANDKOREA 130
    • 두 비율 검정 수기계산 어떤 원료가 A, B 두 회사로부터 납품되고 있다. 이 두 회사의 원료에 대해 제품에 미치는 불량율을 각각 P₁, P₂라고 할 때, 두 회사간에 차가 있으면 좋은 쪽 회사의 원료를 구입할 생각이다. 불량율 차를 조사하기 위해 A로 만들어진 제품 중에서 120개, B로 만들어진 제품 중에서 150개의 제품을 랜덤하게 추출하여 불량 수를 찾아보니 12개, 9개이다. 유의수준 0.05에서 두 회사의 불량율 차이를 검정하시오 이론적 접근 1) H0 : P₁= P₂, 2) H₁: P₁≠ P₂, 3) 유의수준 α = 0.05 4) 검정통계량 및 기각역 (|Z0|> Zα/2 ) ∧ P₁= Z0 = ∧ ∧ 12 9 12+ 9 = 0.1 P₂= = 0.06 P= = 0.078 120 150 120+150 , , 0.1 - 0.06 (0.078)×(0.92)× ( 1 1 + 120 150 = 1.22 ) , (Zα/2 = 1.96) P(유의확률)= P(|Z| > 1.22) = 2P(Z < -1.22) = 0.223 5) 결 론 : H0를 기각할 수 없다. 즉, 두 원료로 만들어진 제품의 불량율 P₁, P₂간에는 차이가 있다고 말할 수 없다. Copyright ⓒ 2009 LANDKOREA 131
    • 두 표본 분산 메뉴의 용도 Case Data Minitab Case 두 모집단의 분산이 동일한지 여부에 대한 가설검정을 실시한다. 상표가 다른 두 제품에 대한 만족도를 조사한 결과가 아래와 같다. 두 제품의 만족도에 대한 산포가 서로 다른지를 유의수준 5%로 검정하여라. Data : 2 분산.mtw Copyright ⓒ 2009 LANDKOREA 132
    • 두 표본 분산 미니탭 실행 Minitab Case 통계분석 > 기초 통계 > 두 표본 분산 데이터 열 입력 Copyright ⓒ 2009 LANDKOREA 133
    • 두 표본 분산 Minitab Case 실행 결과 두 상표의 분산이 다르다고 할 수 없다. 결과 해석 두 P-value모두 0.05보다 크므로 유의수준 5%에서 귀무가설 채택 즉, 두 상표에 대한 만족도의 산포에는 차이가 없다고 할 수 있다. Copyright ⓒ 2009 LANDKOREA 134
    • 두 표본 분산 수기계산 모분산의 검정(한 개 집단) 참고용 • 전제조건 : 모집단이 정규분포를 따름 • 검정통계량 : X² = (n-1) S² σ0² • 기각역 구 분 기 각 역 H0 H₁ σ² ≤ σ0² σ² >σ0² X² > X²α σ² ≥ σ0² σ²< σ0² X² < X² 1-α σ² = σ0² σ² ≠σ0² X²< X² 1- α/2 or X² > X²α/2 한쪽검정 양쪽검정 ☞ 일반적으로 모분산을 검정하는 경우는 흔치 않으므로 Minitab에서는 지원 되지 않음 Copyright ⓒ 2009 LANDKOREA 135
    • 두 표본 분산 수기계산 참고용 자동차용 축전지 제조업자의 주장에 따르면, 그가 제조하는 축전지의 수명은 표준편차가 0.9년인 정규분포를 근사적으로 따른다고 한다. 이 축전지 10개를 임의 추출하여 수명을 측정하였더니 표준편차가 1.2년으로 나타났다. 축전지 수명의 표준편차가 0.9년보다 크다고 할 수 있는가? (α=0.05) 이론적 접근 1. H0 : σ²= 0.81 2. H₁: σ² >0.81 3. α : 0.05 4. 기각역 : X² >X² (= 16.919) α 5. 검정통계량 및 계산 X²= (n-1)S² σ0² = (10-1)(1.2)² (0.9)² = 16.0 (< X²α ) P = P( X² >16.0) ≒ 0.07 ( 자유도 : 9 ) 6. 결 과 : 유의수준 0.05에서 H0를 기각할 수 없다. 그렇지만 P값이 0.05에 근사하므로 σ>0.9라는 증거는 약간 있다고 할 수 있다. Copyright ⓒ 2009 LANDKOREA 136
    • 두 표본 분산 수기계산 모분산비의 검정 • 두 집단에 대한 산포를 비교할 경우 사용됨 • 전제조건 : 두 모집단이 정규분포를 따름 • 검정 통계량 F0 = V₁/ V₂( 단 V₁> V₂) • 기각역 구 분 기 각 역 H0 H₁ σ1² ≤ σ2² σ1² >σ2² F0 ≥ F(Φ₁, Φ₂: α ) σ1² ≥ σ2² σ1²< σ2² F0 ≥ F(Φ₂, Φ₁: α ) σ1² = σ2² σ1² ≠σ2² F0 ≥ F(Φ₁, Φ₂: α/2 ) 한쪽검정 양쪽검정 Copyright ⓒ 2009 LANDKOREA 137
    • 두 표본 분산 수기계산 어떤 화학약품 제조에서 상표가 다른 그 종류의 원료가 사용되고 있으며, 각 원료의 주성분 C의 함량은 다음과 같다. 이때 주성분 C함량의 분산간에는 차이가 없는가를 α=0.05로 검정하시오. Data 상표1 : 80.4, 78.2, 80.1, 77.1, 79.6, 80.4, 81.6, 79.9, 84.4, 80.9, 83.1 상표2 : 80.0, 81.2, 79.5, 78.0, 76.1, 77.0, 80.1, 79.9, 78.8, 80.8 이론적 접근 1. H0 : σ1² = σ2² 2. H₁: σ1² ≠ σ2² 3. α : 0.05 4. 기각역 : F >F (10, 9, α/2) = 3.14 5. 검정통계량 및 계산 F= S1² S2² = (2.03805)² (1.65341)² = 1.519 (< F (10, 9, α/2 )) 6. 결 론 : H0를 기각할 수 없음. 즉, 상표1과 상표2간의 분산에 차이가 있다고 말할 수 없다. Copyright ⓒ 2009 LANDKOREA 138
    • 상관 분석 상관 분석이란?  두 변수 (X,Y)간의 관련성을 연구/측정하는 통계적 분석을 상관분석 이라 함 상관관계는 X의 값이 증가/감소할 때 Y의 경향(Trend)을 말함  산점도 혹은 산포도(Scatter Diagram) 변수 (또는 인자) 상호간의 관계를 그림으로 표시한 것 잠재원인(X)와 문제 또는 결과(Y)의 관계 두 개의 잠재원인들 (Xi , Xj)의 관계 공급자 (Supplier) 잠재원인 자원 (Input) X1,X2 , … ,Xn 프로세스 (Process) 결과 (Output) 고객 (Customer) Y1,Y2 , … ,Yn 결과 예를 들면: 자동차의 속도와 연료 소모량 설비 속도와 제품의 정밀도 광고비용과 매출액 Copyright ⓒ 2009 LANDKOREA 139
    • 상관 분석 산점도  산점도 혹은 산포도(Scatter Diagram) 분석 이상치  점들이 분포된 모양으로부터 관계 검토  직선관계 혹은 곡선관계 검토 곡선관계인 경우는 상관계수를 구하는 것이 의미가 없음 곡선회귀분석  이상치 제거 . .... . . .. . . .. .. .. . .. .. 강한 양의( + ) 상관 .. . .. .. .. ... . . . .. .. .. . .. . . 강한 음의( - ) 상관 - 다른 모집단 표본 - 측정/계산 오류 - 데이터 기입 착오 Copyright ⓒ 2009 LANDKOREA ... . .. . . .. . .. .. . .. . . . .. .. .. . . . . . .. . . 직선이 아닌 관계 .. . . . . . .. . . ........................... ....... . .. ................... . . . .... . . . .. . ...... ...... ....... . ... .. . . ... . . . ... ....... . . . . .... .............. ..... . . ... . . . . . .. .. ............ .... . . . .. .. . . ... . . . 상관관계가 없음 140
    • 상관 분석 산점도  산점도 (Scatter Diagram) 층별 산점도는 상관간계가 없음을 나타내는 경우에도, 데이터를 적절히 층별하여 보면 아래와 같이 서로 관련이 있는 경우도 있음 전체 Data Set 강한 양의 상관 영 업 매 출 영 업 매 출 Non-linear Correlation 광고비$ 광고비$ 강한 음의 상관 Copyright ⓒ 2009 LANDKOREA 141
    • 상관 분석 상관계수  상관계수(Correlation Coefficient) 변량 X와 Y의 상관의 크기 즉, X와 Y사이의 긴밀성의 정도를 표시하는 척도 ˆ  r S( xy ) S( xx ) S ( yy ) r -1.0 -0.8 -0.3 0 +0.4 +0.9 +1.0   ( x  x)( y  y)  ( x  x)   ( y  y ) i i 2 i 2 i 두 변수간의 관계 완전한 음의 직선 상관관계 강한 음의 직선 상관관계 약한 음의 직선 상관관계 직선 상관 관계가 아님 약한 양의 직선 상관관계 강한 양의 직선 상관관계 완전한 양의 직선 상관관계 기여율( r2 ) : 상관계수의 제곱의 값을 기여율이라 부르고 Y 전체의 산포를 1로 보았을 때 Y에 대한 X의 영향의 정도를 나타낸다.(Y의 전체 변동에 대한 회귀에 의한 변동 비율) Copyright ⓒ 2009 LANDKOREA 142
    • 상관 분석 상관계수의 해석  지침 : 일반적으로 샘플크기를 기준으로 함(Guide line) │r │ > 0.80 이면, 중요한 관계 │r │ < 0.20 이면, 중요한 관계가 아님 음의 상관 상관 없음 양의 상관 r +1.0 -1.0 0 결정점 (Decision point) Copyright ⓒ 2009 LANDKOREA 143
    • 상관 분석 상관계수의 해석 샘플의 크기에 다라 상관을 결정하는데 사용되는 의사결정 점의 표 n 의사결정 점 n 의사결정 점 5 0.878 18 0.468 6 0.811 19 0.456 7 0.754 20 0.444 8 0.707 22 0.423 9 0.666 24 0.404 10 0.632 26 0.388 11 0.602 28 0.374 12 0.576 30 0.361 13 0.553 40 0.312 14 0.532 50 0.279 15 0.514 60 0.254 16 0.477 80 0.220 17 0.482 100 0.196 Copyright ⓒ 2009 LANDKOREA 144
    • 상관 분석 메뉴의 용도 Case Data Minitab Case 두 변수들간의 상관계수를 계산하고 검정한다. 플라스틱 제품을 만드는 원재료의 평균입경이 완제품 표면의 돌기 개수와 상관관계가 있는지를 알아보기 위해 플라스틱 제품의 표면돌기 개수와 원재료의 평균 입경간의 상관분석을 실시코자 한다. Data : 상관계수.mtw Copyright ⓒ 2009 LANDKOREA 145
    • 상관 분석 미니탭 실행 Minitab Case 통계분석 > 기초 통계 > 상관 분석 Copyright ⓒ 2009 LANDKOREA 146
    • 상관 분석 Minitab Case 실행 결과 상관계수가 의미가 있다. 즉, 강한 상관관계를 갖는다. 결과 해석 연습 P-value가 0.000으로 0.05보다 작으므로 유의수준 5%에서 귀무가설 기각 즉, 표면돌기와 평균입경은 상관관계가 있음을 알 수 있다. 산점도를 그려 상관관계가 있음을 그래프로 확인하라? Copyright ⓒ 2009 LANDKOREA 147
    • 공분산 공분산이란? 두 확률변수 X와 Y에 대하여 볼 수 있다. 따라서 값은 X의 증감에 따른 Y의 증감의 경향을 나타낸다고 기대값을 X와 Y의 공분산이라고 한다. 공분산은 상관계수와 마찬가지로 두 확률변수 사의의 관련성을 나타내며 상관계수처럼 두 변수간의 증감의 경향을 나타내지만 분산처럼 각 변수의 단위에 의존한다. 즉, 표준화되지 않은 상관계수이다. ※ 상관계수와 공분산과의 관계 공분산을 X의 표준편차와 Y의 표준편차로 나누어 X와 Y의 단위에 무관하도록 표준화시킨 값이 상관계수이다. 이때, Sx는 X의 표준편차이고, Sy는 Y의 표준편차이다 Copyright ⓒ 2009 LANDKOREA 148
    • 공분산 분석 메뉴의 용도 Data 미니탭 실행 Minitab Case 두 변수들간의 공분산을 계산한다. Data : 상관계수.mtw 통계분석 > 기초 통계 > 공분산 분석 Copyright ⓒ 2009 LANDKOREA 149
    • 공분산 분석 Minitab Case 실행 결과 표면돌기와 평균입경의 공분산은 46.9444이다. Copyright ⓒ 2009 LANDKOREA 150
    • 정규성 검정 정규성 검정이란? Data가 정규분포를 하고 있는지를 판단하기위해 정규성 검정을 한다. 정규 확률 플롯상의 선은 분포가 완전한 정규 분포를 나타내는 선이며, Data들이 이 선에 근접할 수록 정규분포에 가까움을 나타낸다. Viscosity의 확률 플롯 정규 분포 99 평균 표준 편차 N AD P-값 95 90 3545 165.4 30 0.344 0.466 80 백분율 70 P-Value 가 0.05보다 크거나 같으면, 60 50 40 그 분포는 정규 분포라고 인정된다. 30 20 10 5 1 3100 3200 3300 3400 3500 3600 Vis c os ity 3700 3800 3900 4000 P-Value= 0.466은 0.05보다 크므로 정규 분포임 Copyright ⓒ 2009 LANDKOREA 151
    • 정규성 검정 Minitab Case 메뉴의 용도 연속형 데이터의 분포가 정규분포를 따르는지의 여부에 대한 검정을 실시하고 정규확률지(Normal Probability Plot)에 도시한다. Case 접착제의 점도를 측정하여 얻은 30개 데이터로 통계적인 분석을 실시코자 하며 이전에 데이터가 정규분포를 따르는지 확인코자 한다. Data Data : 정규성 검정.mtw Copyright ⓒ 2009 LANDKOREA 152
    • 정규성 검정 미니탭 실행 Minitab Case 통계분석 > 기초 통계 > 정규성 검정 Copyright ⓒ 2009 LANDKOREA 153
    • 정규성 검정 Minitab Case 실행 결과 확률지의 타점된 점들이 직선에 가까우면 가까울수록 정규분포를 따르고 P-value을 이용하여 정량적으로 판단 가능함 결과 해석 P-value 0.466으로 0.05보다 크므로 유의수준 5%에서 귀무가설 채택 즉, 점도 데이터는 정규분포를 따른다고 할 수 있다. Copyright ⓒ 2009 LANDKOREA 154
    • 이것만은 기억하자 ! 핵심 Point 1. 기초통계학 - 기초 통계학의 내용, 용어설명 및 데이터의 분포에 대한 학습. 2. Minitab 프로그램 시작 - 프로그램의 시작에서부터 기본적인 프로그램 구동 - 프로그램 구조의 이해 - 각종 메뉴의 실행위치 3. 기초통계 - 기술통계량 - T테스트, P테스트 - 상관분석 - 정규성 검정 Copyright ⓒ 2009 LANDKOREA 155
    • 회귀 분석 회귀 분석을 잘 이해하고 사용하면?  Data를 활용하여 과거의 정보 를 활용하여 미래의 결과값을 예측하거나 정보를 설명할 수 있는 모델을 작성 할 수 있다. 회귀 분석을 잘 못 이해하고 사용하면? 설명 회기 분석의 내용에 따라 기초적인 내용을 학습하고, 데이터 분석에 사용되는 각 통계용어를 이해하며, 각종 회귀 분석방법과 결과값의 해석을 습득하여, 현업에서 실행 가능한 실무학습으로 발전시킨다. 핵심 1. 회기 분석의 기본적인 통계학의 학습을 통하여 회귀분석  Data의 설명에만 급급하여 의 기본용어들을 학습하고, 실제 통계분석 프로그램의 결 올바른 분석의 해를 놓친다. 과 값을 해석하기 위한 준비를 한다.  무리하게 2, 3차 항이 존재하는 회귀식을 적용하게 된다. 2. 학습한 내용을 Minitab의 예제 데이터를 활용하여 프로그 램 내 회귀분석 메뉴의 기능들에 대하여 실행해보며 결과 값을 해석해 본다. Copyright ⓒ 2009 LANDKOREA 156
    • 통계분석 회귀 분석 • 회귀 분석 • 일반 회귀 분석 • 단계적 회귀 분석 • 최량 부분 집합 • 적합 선 그림 • 비선형 회귀 분석 • 직교 회귀 분석 • 부분 최소 제곱 • 이항 로지스틱 회귀 분석 • 순서형 로지스틱 회귀 분석 • 명목형 로지스틱 회귀 분석 Copyright ⓒ 2009 LANDKOREA 157
    • 회귀 분석 변수간의 관계검정 도식화 산점도 변수들 간의 관련성 상관분석 회귀분석 Copyright ⓒ 2009 LANDKOREA 계량화 예측성 특징 • 두 변수관계의 Plotting √ • 두 변수간 선형 관계에 한하여 상관계수로 표시 √ √ • 직선/곡선 관계 모두 적용 가능 • 두 변수이상 적용 가능 • 결정계수에 의해 판단 √ 158
    • 회귀 분석 회귀 분석이란? 회귀분석이란? • 변수들 간의 관계를 분석하기 위한 통계적 기법 • 반응변수 Y와 독립변수 X간의 관계식 도출 단순 선형 회귀의 경우 직선식 : Y= β0 +β1X Y = 결과 (반응변수) X = 입력 (독립변수. 하나이상 일 수 있음.) β1= 직선의 기울기=X가 1 단위 변할 때 Y가 변화하는 비율 β0= y 절편. 즉, X=0 일 때,Y=β0 Copyright ⓒ 2009 LANDKOREA 159
    • 회귀 분석 회귀 분석의 용도 월 예측 (Prediction)의 문제 A상품 출시 후 광고투자와 매출액을 분석해 보니 오른쪽의 결과를 얻었다. 이 Data를 통해, 11월 광고료 책정액이 7억원이라면 매출액을 얼마로 기대할 수 있을까? 1 2 3 4 5 6 7 8 9 10 공정조건 등의 최적화 문제 특정 사출물 공장은 사출물의 불량 (기포 발생) 개선을 위해, 여러 가지 각도에서 공정을 검토한 결과 사출물의 단위 면적당 기포 개수를 15개 정도로 유지하는 것이 비용상 적절한 것으로 판단된다. 과거 경험상, 원료 A의 투입량에 따라 기포 갯수가 달라지는 것으로 추측된다. 따라서, 먼저, 실제 A의 투입량이 단위 면적당 기포 발생 개수에 영향을 미치는지 확인하고, 15개 정도의 기포를 유지할 수 있는 A의 투입량을 찾고 싶다. Copyright ⓒ 2009 LANDKOREA 광고료(억원) 매출액(십억원) 4 8 9 8 8 12 6 10 6 9 9 20 22 15 17 30 18 25 10 20 Ü § é û ç â ÷¹ ö ´ À ¸ À ´ ± Æ° ¼ 8 8 9 10 11 11 12 16 18 19 20 21 22 23 160 AÀ Å À · Ç õ Ô® 1.35 1.96 2.27 2.483 2.73 3.091 3.647 4.62 5.497 6.26 7.012 7.618 8.131 8.593
    • 회귀 분석 회귀 계수의 추정 회귀분석을 통한 회귀계수의 추정은 최소제곱법 (least squares method)을 이용 ; 예측모형 = 회귀모형 ?? 예측 관측치 예측치 예측의 오차  최소제곱법이란 ?? 예측오차가 최소가 되도록 예측모형의 모수(회귀계수)를 결정해주는 방법 Copyright ⓒ 2009 LANDKOREA 161
    • 회귀 분석 최소제곱법 최소제곱법 오차항의 추정치인 잔차의 크기가 가장 작아지도록 회귀모형의 회귀계수를 결정함. 최소제곱법 회귀 모형 Y Y = β0 + β1χ y2 · • • 어떤 관측치 yi 에 대한 잔차는 ei = yi - (β0 + β1xi ) e₂ β0 + β1χ1 · • y1 χ1 • 모든 점 y₁y₂··· yn 각각에 대한 잔차의 제곱합은 Σei 2 = Σ(yi - β0 - β1xi ) 2 β0 + β1χ2 e₁ χ x2 y1 = β0 + β1 χ1+ e₁ y2 = β0 + β1 χ2+ e₂ • • • • • • • • • • • • yn = β0 + β1 χn + en • 최소제곱법은 위의 잔차 제곱합이 최소가 되도록 β0 , β1 을 정하는 것 잔차 (residual) =회귀식으로 설명 안되는 부분 Copyright ⓒ 2009 LANDKOREA 162
    • 회귀 분석 변동의 분해 • (y에 대한 )총 제곱합 (Total sum of squares)의 분해 최소제곱 모형으로 설명되는 차이  ( y i - y )2 =  ( y i i ˆ yi ) 2 + i (SST) ˆ  ( yi - y )2 i (SSE) (SSR) 관측치의 평균에 대한 차이 (y와 x가 무관하지 않아서 생기는 차이 + y자체 산포에 의한 차이 [관측오차 등등]) • 결정 계수 (Coefficient of determination) R-squares = SSR / SST Copyright ⓒ 2009 LANDKOREA 163
    • 회귀 분석 분산분석표 • 분산 분석표 Source 'of Variation Regression Error Tot'al Sum of Squares (SS) SSR SSE SST Degree of Freedom Mean Squares (df) (MS) 1 MSR n-2 MSE n-1 Adjusted R 2 = 1 - SSE dferror SST dftotal s 2 = 오차분산  2의 추정치= MSE • 전체 회귀식에 대한 검정 H 0 : 1 = 0   H1 : 1  0 i) 유의수준 α의 선정 ii) F1,n-2,1- 의 계산 (F분포표를 참조) iii) F0 = 1-α MSR  F1,n-2,1- 이면 H0를 기각. MSE α F1,n-2,1- Copyright ⓒ 2009 LANDKOREA F0 164
    • 회귀 분석 회귀 분석의 예 어느 공정에서 공정변수 x를 변화시켰을 때, 그에 따른 제품의 특성 y에 대해 1차 단순 회귀모형을 가정하고 회귀분석 실시 i 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 x 1 1 2 3.3 3.3 4 4 4 4.7 5 5.6 5.6 5.6 6 6 6.5 6.9 y 2.3 1.8 2.8 1.8 3.7 2.6 2.6 2.2 3.2 2 3.5 2.8 2.1 3.4 3.2 3.4 5 ˆ y 1.96637 1.96637 2.22675 2.56524 2.56524 2.7475 2.7475 2.7475 2.92977 3.00788 3.16411 3.16411 3.16411 3.26826 3.26826 3.39844 3.50259 잔차 0.33363 -0.16637 0.57325 -0.76524 1.13476 -0.1475 -0.1475 -0.5475 0.27023 -1.00788 0.33589 -0.36411 -1.06411 0.13174 -0.06826 0.00156 1.49741 회귀 방정식은 y = 1.71 + 0.260 x ˆ 1 ˆ 0 예측 변수 상수 x 결정계수 값은 그다지 높지 않다. 계수 SE 계수 T P 1.7060 0.4588 3.72 0.002 0.26038 0.09720 2.68 0.017 S = 0.703086 R-제곱 = 32.4% R-제곱(수정) = 27.9% 유의확률. 회귀식이 유의함. 분산 분석 출처 회귀 잔차 오차 전체 DF 1 15 16 SS 3.5474 7.4150 10.9624 MS 3.5474 0.4943 F 7.18 P 0.017 s 2 = 오차분산  2의 추정치= MSE Copyright ⓒ 2009 LANDKOREA 165
    • 회귀 분석 비선형 데이터 모여 있는 데이터 Copyright ⓒ 2009 LANDKOREA 범하기 쉬운 오류 이상점 (Outliers) 데이터 범위가 좁을 경우 166
    • 회귀 분석 메뉴의 용도 Case Minitab Case 회귀분석을 통해 회귀식과 결정계수 값을 알 수 있다. 화학 약품을 생산하는 공장에서 반응시간의 변화가 약품의 순도에 어떤 영향을 끼치는지 파악하고자 단순선형회귀분석을 실시코자 한다. 반응시간 순도 Data Data : 회귀.mtw Copyright ⓒ 2009 LANDKOREA 167
    • 회귀 분석 미니탭 실행 Minitab Case 통계분석 > 회귀 분석 > 회귀 분석 Y X Copyright ⓒ 2009 LANDKOREA 168
    • 회귀 분석 Minitab Case 도출된 회귀식의 적합성(잔차의 정규성, 등분산성, 독립성)을 도식적으로 설명 Copyright ⓒ 2009 LANDKOREA 169
    • 회귀 분석 Minitab Case 실행 결과 회귀계수가 의미가 있다. 전체변동중 53%는 해당 회귀식에 의해 설명 가능하다. 결과 해석 순도 = 101 – 0.589반응시간의 관계를 가짐. 결정계수 53.0%로 전체 변동 중 회귀에 의한 변동은 53%임 Copyright ⓒ 2009 LANDKOREA 170
    • 회귀 분석 실행 결과 Minitab Case 정규성 판단 독립성 판단 등분산성 판단 정규성 판단 결과 해석 잔차의 정규성에는 문제가 없어 보임. I-Chart를 볼 때 관리한계를 벗어난 점은 없으나 잔차가 줄어드는 경향을 보여 독립성에 문제가 있을 수 있으므로 추가 조사가 필요함 Copyright ⓒ 2009 LANDKOREA 171
    • 회귀 분석 • Case 예제 미니탭 실행 Minitab Case 앞서 추정된 회귀식을 이용해 반응시간이 9.5일 경우 예상되는 순도가 얼마인지를 알고자 한다. 통계분석 > 회귀 분석 > 회귀 분석 Copyright ⓒ 2009 LANDKOREA 172
    • 회귀 분석 Minitab Case X값 9.5 입력 Copyright ⓒ 2009 LANDKOREA 173
    • 회귀 분석 Minitab Case 실행 결과 Y의 기대값 Y의 기대값에 대한 95% 신뢰구간 결과 해석 Y의 개별값에 대한 95% 신뢰구간 반응시간 9.5에서 순도값은 평균적으로 95.044으로 예측되며, 순도의 평균값이 93.881 ~ 96.207에 속할 확률은 95%로 예측된다고 할 수 있으며, 순도의 개별 관측값은 92.768~97.320에 속할 확률이 95%로 예측된다고 할 수 있다. Copyright ⓒ 2009 LANDKOREA 174
    • 단계적 회귀 분석 메뉴의 용도 Minitab Case 종속변수 Y와 이에 영향을 주는 여러 독립변수(X1, X2, X3, ---, Xn)가 있을 경우, 유용한 독립변수들의 조합을 찾기 위해 변수들에 대해 회귀분석 시 변수를 제거 또는 추가하여 Y와의 관계를 파악할 때 사용 변수 선택의 네 가지 방법 ■ 모든 가능한 회귀 (All Possible Regression) 모든 가능한 변수들의 조합을 회귀분석하여 보는 것이다. 만약 k개의 독립변수가 있는 경우 하나도 포함하지 않은 모형에서부터 k개 모두를 포함하는 모형까지 2k가지의 모든 가능한 경우의 수를 생각하는 방법이다. ■ 후진 제거 (Backward Elimination Method) k개의 설명 변수들 중에서 가장 작게 영향을 주리라고 여겨지는 변수부터 하나씩 제거 하여 더 이상 제거할 변수가 없다고 판단될 때 변수의 제거를 중단하는 방법이다. ■ 전진 선택 ( Forward Selection Method ) k개의 설명 변수들 중에서 가장 중요하다고 판단되는 변수부터 하나씩 골라 주어가면서 더 이상 중요한 변수가 없다고 판단 될 때에 중단하여 주고, 이미 선택된 변수들만을 중요한 변수들로 간주하여 주는 방법이다. ■ 단계적 회귀(전진 및 후진) ( Stepwise Regression Method ) 앞으로부터 선택하는 방법을 개선한 것으로, 중요한 변수를 하나씩 추가 선택하여 나가면서 미리 들어간 변수가 새로운 변수가 들어가면서 중요성을 상실하여 밖으로 나오게 되는가를 매 단계별로 검토하는 선택 방법이다. Copyright ⓒ 2009 LANDKOREA 175
    • 단계적 회귀 분석 Case Data Minitab Case 아래의 데이터를 갖고 후진 제거, 전진 선택, 단계적 회귀의 방법으로 최적회귀방정식을 선택하고 각각 비교 분석하라 Data : 단계적 회귀.mtw Copyright ⓒ 2009 LANDKOREA 176
    • 단계적 회귀 분석 Minitab Case 1) 후진 제거 미니탭 실행 통계분석 > 회귀 분석 > 단계적 회귀 분석 종속변수열 입력 독립변수열 입력 회귀모형에 반드시 들어가야 한다고 여겨지는 독립변수 열 입력 Copyright ⓒ 2009 LANDKOREA 177
    • 단계적 회귀 분석 Minitab Case 알파는 독립변수를 회귀모형에서 제거하기 위한 기준으로 독립변수의 회귀계수에 해당하는 T-통계량의 P값이 지정한 알파값보다 크면 회귀모형에서 제거됨 Copyright ⓒ 2009 LANDKOREA 178
    • 단계적 회귀 분석 Minitab Case 실행 결과 결과 해석 유의하지 않은 인자 X3, X4를 차례로 제거한 후 유의한 인자로만 구성된 식은 y = 52.58 + 1.47x1 + 0.662x2 임. 이때 R-sq = 97.87임 Copyright ⓒ 2009 LANDKOREA 179
    • 단계적 회귀 분석 Minitab Case 2) 전진 선택 미니탭 실행 통계분석 > 회귀 분석 > 단계적 회귀 분석 종속변수열 입력 독립변수열 입력 회귀모형에 반드시 들어가야 한다고 여겨지는 독립변수 열 입력 독립변수를 회귀모형에서 제거하기 위한 기준 Copyright ⓒ 2009 LANDKOREA 180
    • 단계적 회귀 분석 Minitab Case 실행 결과 결과 해석 가장 유의한 인자 X4를 선택하고 다음 X1을 선택하고 더 이상 유의한 인자가 없어 중단 y = 103.1 + 1.44x1 - 0.614x4 임. 이때 R-sq = 97.25임 Copyright ⓒ 2009 LANDKOREA 181
    • 단계적 회귀 분석 Minitab Case 3) 단계적 회귀 미니탭 실행 통계분석 > 회귀 분석 > 단계적 회귀 분석 종속변수열 입력 회귀모형에 반드시 들어가야 한다고 여겨지는 독립변수 열 입력 독립변수열 입력 변수 선택시 유의수준 및 변수 제거시 유의수준 입력 Copyright ⓒ 2009 LANDKOREA 182
    • 단계적 회귀 분석 Minitab Case 실행 결과 결과 해석 Forward로 X4선택, 추가로 X1선택, 추가로 X1선택 했으나 X4가 유의하지 않음. Backward로 X4제거. y = 52.58 + 1.47x1 + 0.662x2로 회귀식 결정. Copyright ⓒ 2009 LANDKOREA 183
    • 최량 부분 집합 메뉴의 용도 Minitab Case 독립변수가 많은 경우에 분석자가 원하는 수만큼의 독립변수에서 최선 회귀모형을 찾고자 할 때 사용하는 MINITAB 메뉴. 중회귀 분석에서 독립변수 모두를 모형에 포함시키기보다는 최량 부분 집합(Best Subsets)을 사용하여 독립변수의 수를 줄이는 것이 모형을 보다 단순화 시킬 수 있음. Case 단계적 회귀 분석 시 사용한 데이터를 이용해 최량 부분집합을 찾음 Data Data : 단계적 회귀.mtw Copyright ⓒ 2009 LANDKOREA 184
    • 최량 부분 집합 미니탭 실행 Minitab Case 통계분석 > 회귀 분석 > 최량 부분 집합 종속변수열 입력 독립변수열 입력 회귀모형에 포함할 최소/최대 독립변수 의 개수를 지정 회귀모형에 반드시 들어가야 한다고 여겨지는 독립변수 열 입력(단, 위의 자 유 예측 변수에서 선 택한 변수는 제외) 회귀모형에 절편을 나타내고자 할 경우 체크 Copyright ⓒ 2009 LANDKOREA 독립변수 조합수 지정. 즉, 각 조합 붕 3순위까지의 조 합 결과를 창에 보이고자 할 경 우 3이라 입력 185
    • 최량 부분 집합 Minitab Case 실행 결과 변수의 개수. 각 조합에서 3순위 까지를 보여줌 결과 해석 분석시 포함시킨 변수를 표시함 R-Sq 값이 가장 큰 것을 선택한다. s는 회귀모형의 적합도를 측정하는 기준이 되는데 그 값이 작을수록 모형의 적합도가 좋다. 따라서 R-Sq 값이 98.2 로 같지만 s 값이 작은 x1, x2, x4 변수가 최적회귀모형으로 선정된다. R제곱 과 R제곱(수정)큰게좋으나 차이가 작은것, C-P,S는 작을수록좋다! Copyright ⓒ 2009 LANDKOREA 186
    • 적합선 그림 메뉴의 용도 Case Minitab Case 산점도와 함께 적합된 단순 회귀직선, 단순 회귀직선의 신뢰구간 등을 도시해 준다. 약품의 순도가 매우 중요한 제품이 있다. 순도는 합성공정의 반응 시간에 많은 영향을 받는 것으로 알려져 있어 반응시간에 따른 순도의 변화를 단순회귀분석을 통해 파악코자 하며 측정한 데이터는 아래 표와 같다. 반응시간 순도 Data Data : 회귀.mtw Copyright ⓒ 2009 LANDKOREA 187
    • 적합선 그림 미니탭 실행 Minitab Case 통계분석 > 회귀 분석 > 적합선 그림 2차, 3차식으로 계산됨 Copyright ⓒ 2009 LANDKOREA 188
    • 적합선 그림 Minitab Case 실행 결과 결과 해석 추정된 회귀직선이 반응시간과 순도간의 관계를 잘 표현하고 있는 것으로 보인다. 따라서 선형 회귀식이 잘 들어 맞음을 알 수 있다 . Copyright ⓒ 2009 LANDKOREA 189
    • 이것만은 기억하자 ! 핵심 Point 1. 회귀 분석 통계학 - 기초 통계학의 회귀 분석내용, 용어설명 및 활용에 대한 학습 2. Minitab 프로그램에서 회귀 분석 - Data 구조에 따른 회귀 분석 메뉴의 선택 - 회귀 분석의 여러 메뉴의 사용학습 - 실행 결과 값의 해석 3. 회귀 분석 - 회귀 분석 - 단계적 회귀 분석 - 적합선 그림 - 비선형 회귀 분석 Copyright ⓒ 2009 LANDKOREA 190
    • 분산 분석 분산 분석을 잘 이해하고 사용하면? 설명  취득한 정보의 분석을 통하여 기초통계학의 분산 분석에 대한 내용에 따라 내용을 학습하고, 결과 값이나 현상에 영향을 주는 분산 분석에 사용되는 각 통계용어를 이해하며, 주요 인자를 확인하여, 세밀한 각종 데이터의 형태에 따라 원하는 분석 활용법을 습득하여, 개별 분석 후 의미 있는 개선가능. 현업에서 실행 가능한 실무학습으로 발전시킨다. 분산 분석을 잘 못 이해하고 사용하면? 핵심 1. 기초통계학의 분산 분석 학습을 통하여 통계의 기본  Data의 분석 후 결과 값이나 용어들을 학습하고, 통계분석 프로그램의 결과 값을 해석 현상에 영향을 주는 요인 인자를 하기 위한 준비를 한다. 잘못 선정하게 되어 치명적인 분석 오류를 범할 수 있다. 2. 학습한 내용을 Minitab의 예제 데이터를 활용하여 분산 분석 메뉴의 기능들에 대하여 실행해보며 결과 값을 해석 해 본다. Copyright ⓒ 2009 LANDKOREA 191
    • 통계분석 분산 분석 • 일원 분산 분석 • 일원 분산 분석(분할된 데이터) • 이원 분산 분석 • 평균 분석 • 균형 분산 분석 • 일반 선형 모형 • 완전 내포 분산 분석 • 균형 다변량 분산 분석 • 일반 다변량 분산 분석 • 등분산 검정 • 구간 그림 • 주효과도 • 교호작용 도 Copyright ⓒ 2009 LANDKOREA 192
    • 분산 분석 분산 분석의 필요성 L회사에 근무하는 G씨는 몇 달 전 새 골프클럽을 구입하였다. G씨의 점수는 전보다는 개선이 되었으나 그것이 우연히 그렇게 된 것인지 다른 원인에 기인한 것인지가 궁금하게 되었다. 근래의 G씨의 점수변동에 대한 요인을 보면.. 1. 골프클럽 2. 주간, 야간 경기 오차의 영향 점수의 변화가 위의 두 가지 관심요인 때문인 지 오차 변동 때문인지 어떻게 판단할 수 있을까? 골프클럽 + 골프 점수 게임시간 관심 요인 Copyright ⓒ 2009 LANDKOREA 193 오차 변동
    • 분산 분석 분산 분석의 정의 분산분석이란 특성치의 산포를 제곱합 (Sum of squares : 변동 또는 자승합)으로 나타내고, 실험과 관련된 요인마다의 제곱합으로 분해하여 오차에 비해 특히 큰 영향을 주는 요인이 무엇인가를 찾아내는 분석방법. 특성치의 산포를 요인별로 분해하여 어느 요인이 큰 산포를 나타내고 있는가를 규명. A의변동 SA B의변동 SB C의변동 SC 총 변동 = ST  SA  SB  SC  Se 오차변동 Se Copyright ⓒ 2009 LANDKOREA 194
    • 분산 분석 분산 분석의 정의 • ANOVA란? - ANalysis Of VAriance (분산 분석) • 데이터 변동(분산)의 원인을 확인하기 위한 통계적 수단 • 고정 효과 단향적 ANOVA는 단일 인자의 다중 단계에서의 평균의 동일성을 테스트하는데 사용된다 변동 (variations) = 인자 수준(factor level) 에 따른 변동 원인 (source) = 그룹 사이 공정 Copyright ⓒ 2009 LANDKOREA + 실험적 잡음 (experimental noise) 에 따른 변동 + 그룹 내 기술 195
    • 분산 분석 분산 분석의 용도 분산 분석은 여러 집단의 평균치를 한번에 비교하기 위해 사용 두 집단의 평균치 비교 기존(μ) VS 개선(χ) 여러 집단의 평균치 비교 기존 개선1 개선2 개선3 t 검정 Ho : χ기존 = χ1 = … = χ4 H1 : μ< χ t= 10회의 t 검정 Ho : μ ≠ χ 개선4 H1 : 같지 않다 μ-χ S/ n >t(n-1, α) t 검정을 통해 표본집단이 개선되었는지를 판단함 Copyright ⓒ 2009 LANDKOREA F= 5C2 σ² 집단차 >F(n1-1, n2-1, α) σ² 오차 ANOVA는 여러 집단을 동시에 비교하는 방법임 196
    • 분산 분석 분산 분석의 의미 분산분석은 여러 집단의 Data가 한 집단에서 온 것인지 여부를 F 검정으로 확인하는 것 두 집단 비교 여러 집단 비교 한 집단 다른 집단 개선집단 기존집단 P값 μ χ ×× ×× ×× ×× ×× ×× ×× ×× ×× ×× × × ×× × ×× ×× × ×× ×× 처리수준 기존 개선1개선2개선3개선4 μ-χ S/ n 개선집단의 평균치가 t 분포상에서 통계적으로 우연히 존재하기 힘든 위치 Copyright ⓒ 2009 LANDKOREA 집단간의 차이가 있는지 여부는 Data의 퍼짐을 가 지고 판단. 즉, 집단간의 Data 퍼짐이 심하며 5개 집단이 한 집단으로 해석될 수 있음 ▶ 퍼짐성은 F 검정 197
    • 분산 분석 분산 분석의 과정 ① 제곱합의 계산 : 전체 특성치의 산포를 제곱합으로 계산하고, 요인별로 제곱합을 분해 ② 분산분석표의 작성 : 전체 제곱합과 요인별 제곱합을 이용하여 분산분석표를 작성하고 F-검정을 실시한다. ③ 분산분석 후의 추정 : 모평균 및 모평균차를 추정하고, 최적조건을 도출. ④ 분석결과의 조치 : 분산분석 및 추정의 결과를 기초로, 기술적 경제적인 고려하여 적절한 조치를 취함. Copyright ⓒ 2009 LANDKOREA 198
    • 분산 분석 Data 구조 Data 구조는 회귀분석과 매우 유사 Data 구조 수학적 구조 y 반복실험 처리수준(Treatment, Level) (Replicate) 기존(1) 2 3 α y3 1 y11 y21 2 y12 y22 3 y13 y23 n y1n y2n y33 · · · yα3 y3n · · · yαn 총 평균 수준별 평균 y1 y2 y3 수준내 제곱합 전체 제곱합 y31 · · · yα1 y32 · · · yα2 yα Σ(y1i - y1)² Σ(y2i - y2)² Σ(y3i - y3)² ΣΣ(yij - y)² Yα y y2 y1 y 1 2 α 3 y1k = y + y1 + e1j y2k = y + y2 + e2j y3k = y + y3 + e3j yij = y + yi + eij = 전체평균 + 수준효과 + 오차 Copyright ⓒ 2009 LANDKOREA 199 수준
    • 분산 분석 변동의 분해 Data의 퍼짐성을 총제곱합/처리제곱합/잔차제곱합으로 분해 개별 Data 분해 퍼짐성(변동)의 분해 y • 모든 Data의 변동은 y(전체평균)에서 떨어진 거리의 제곱합이며 SST = ΣΣ(yij - y)²으로 표현된다 n개의 Data e2j × y₂ • 총제곱합 SST는 옆의 Data 구조처럼 y2 - y : 수준2에 의해 생긴 변동 (군간변동) y2j - y2 : 수준2내에서 오차 때문에 생긴 변동 (군내변동) 2개로 나누어진다. SST = ΣΣ(yij - y)² = ΣΣ[(yi· -y) + (yij - yi)]² y y 수준 1 2 2수준에 속하는 임의의 Data y2j는 y2j = y + y2 + e2j으로 분해된다 Copyright ⓒ 2009 LANDKOREA = nΣ(yi· - y)² + ΣΣ(yij - yi)² 처리 제곱합 (군간 변동) SST 잔차 제곱합 (군내 변동) SSE 200
    • 분산 분석 각 변동의 원천에 의해 설명되는 변화성의 정량적 측정치(σ²) 변동의 원천 제곱합 자유도 (Sum of (Degree of Square) Freedom) 분산 분석표의 이해 제곱 평균은 평균적 산포의 크기 σ²SST Fo = σ²SSE 제곱평균 Fo P값의 의미 P값 (Mean Square) Provability Density F(α, n1-1, n2-1) 유의성을 나타냄 P값 처리 수준간 (군간) SST a-1 MST = SST/a - 1 수준내 오차 (군내) SSE n-a MSE = SSE/n-a Total SST n-1 자유도는 왜 N-1? 평균은 1 Σχi n 1 변동 Σ(χi - χ)² n-1 d1 d2 χ1 χ2 χ3 MST 0.001 MSE Fo F 검정의 의미 F 분포 : 두 집단의 분산의 비는 F 분포에 따름 Fo값이 크다는 것은 처리수준 차이로 변동 (군간변동)이 수준내 오차로 (군내변동) 인한 변 동을 압도한다는 뜻 즉, 처리 수준 값 차이가 유의 Ho : y1 = y2 = … = yα Ha : 최소한 하나는 틀린다에서 Ho 기각 Data는 3개지만 변동은 2개뿐 자유도는 정보량을 표시 Copyright ⓒ 2009 LANDKOREA 경험상 0.05보다 적으면 됨 201
    • 분산 분석 분산 분석의 가정 yij = y + yi + eij에서 eij는 N(0, σ²) 1 정규성(Normality) : Error Term eij는 정규분포에 따름 2 독립성(Independence) : 모든 오차 eij는 서로 독립 3 불편성: 오차 eij의 기대 값은 0이며 치우침은 없다 4 등분산성(Equal Variance) : 모든 i, j에 대해 eij의 분산은 σ²임 Copyright ⓒ 2009 LANDKOREA 202
    • 분산 분석 이원 분산 분석 이원 분산분석은 A인자, B인자 2개를 동시에 검사 y1j • • • Ai • • • yi1 • • • yij • • • yp1 ypj y·1 y·j • • • ) y11 • • • • • • 분산분석표도 2변수를 동시에 검증 y1q • • • y1· • • • yiq • • • yi· • • • ypq yp· y·q y 요 인 변 동 자유도 제곱평균 F MSA MSB MSE MSA/MSE MSB/MSE A B 잔차 SSA SSB SSE p-1 q-1 (p-1)(q-1) 계 SST pq-1 평 균 • • • • • • ( P 수 준 A1 • • • Ap A 인 자 평균 Bq • • • Bj • • • B1 • • • B인자(q 수준) 이원 분산분석은 귀무가설이 2개 Ho : a1 = · · · = ap = 0 Ho : b1 = · · · = bq = 0 SST = ΣΣ(yij - y)² SSA = qΣ(yi· - y)² SSB = pΣ(y·j - y)² SSE = SST - SSA - SSB Data 구조 yij = y + ai + bj + eij ai : A의 i 수준의 효과 Σai = 0 bi : B의 j 수준의 효과 Σbj = 0 : 오차항으로 서로 독립이며 N(0, σ²)에 따름 Copyright ⓒ 2009 LANDKOREA 203
    • 분산 분석 반복이 있는 이원배치법 반복이 되면 교호작용을 검출할 수 있게 됨 A : p 수준, B : q 수준, r 반복 B1 y111 A1 Bq y1q1 • • • • • • y1qr 평균 ④ ③ y111 y11· y1·· yijk - y = (yi·· - y)+(y·j· - y)+(yij - yi··)-(y·j· - y)+(yijk - yij·) ① ② ③ ② ④ y1q· • • • yp11 • • • yp1r • • • ypq2 yp1· ypq· 평균 y·1· y·q· ① ypq1 ① : A인자 효과 y111은 A1에 속한다 ② : B인자 효과 y111은 B1에 속한다 ③ : A 효과가 B에 의해 생긴 산포 ③ - ② : 교호작용 ④ : 오차/잔차 효과 A1B1 내에서 산포 Ap yp·· y ② Copyright ⓒ 2009 LANDKOREA 204
    • 분산 분석 반복이 있는 이원배치법 Two-Way ANOVA에 반복이 가해지면... ANOVA 표 A : p 수준 각 r회 반복 B : q 수준 요 인 변 동 자유도 A SSA p-1 B SSB q-1 SSB = prΣ(y·j· - y)² A×B SSA×B SSA×B = rΣΣ(yij-yi·· - y·j - y)² 잔차 SSE 계 SST 제곱평균 F SST = ΣΣΣ(yijk - y)² SSA = qrΣ(yi·· - y)² SSE = ΣΣΣ(yijk - yij·)² Copyright ⓒ 2009 LANDKOREA MSA = SSA/p-1 MSA/MSE MSB = SSB/q-1 MSB/MSE (p-1)(q-1) MSA×B = SSA×B MSA×B/MSE (p-1)(q-1) pq(r-1) MSE = SSE/pq(r-1) pqr-1 205
    • 일원 분산 분석 메뉴의 용도 Minitab Case 하나의 인자가 측정값에 어떤 영향을 미치는 가를 분석하는 방법으로 특히 종속변수가 워크시트내에 하나의 열(列)에 입력되어 있을 때의 분산분석 Case L씨는 자동차 구입을 앞두고 있고 고유가 시대를 맞아 연비가 우수한 자동차를 선택코자 한다. 시중 동급 자동차 5종류에 대해 시승을 통해 연비를 조사한 결과가 아래 표와 같을 때 자동차간 연비의 차이가 있는지를 분석해보자. Data 분산분석1.mtw Copyright ⓒ 2009 LANDKOREA 206
    • 일원 분산 분석 미니탭 실행 Minitab Case 통계분석 > 분산 분석 > 일원 분산 분석 Copyright ⓒ 2009 LANDKOREA 207
    • 일원 분산 분석 Minitab Case 실행 결과 자동차간 연비차이가 있다고 할 수 있다. 결과 해석 자동차 인자에 대한 P-value가 0.001이므로 유의수준 5%에서 귀무가설을 기각하고 5종류의 자동차 간의 연비는 차이가 있다는 결론을 내린다. 이때, 귀무가설과 대립가설은 H0 : μA = μB = μC = μD = μE H1 : 적어도 하나의 평균이 다르다. Copyright ⓒ 2009 LANDKOREA 208
    • 일원 분산 분석(분할된 데이터) 메뉴의 용도 Case Minitab Case 하나의 인자가 측정값에 어떤 영향을 미치는 가를 분석하는 방법으로 특히 종속변수가 워크시트내에 여러 열(列)에 입력되어 있을 때의 분산분석 4종의 휴대폰에 대해 Noise Level을 조사한 결과가 아래와 같을 때, 휴대폰간 Noise Level에 차이가 있다고 볼 수 있는지를 분석하라. 휴대폰종류 Noise Level Data 분산분석2.mtw Copyright ⓒ 2009 LANDKOREA 209
    • 일원 분산 분석(분할된 데이터) 미니탭 실행 Minitab Case 통계분석 > 분산 분석 > 일원 분산 분석(분할된 데이터) Copyright ⓒ 2009 LANDKOREA 210
    • 일원 분산 분석(분할된 데이터) Minitab Case 실행 결과 결과 해석 P-value가 0.101이므로 휴대폰의 기종이 Noise Level에 차이를 유발한다고 할 수 없다. Copyright ⓒ 2009 LANDKOREA 211
    • 이원 분산 분석 메뉴의 용도 Minitab Case 두개의 인자가 측정값에 어떤 영향을 미치는 가를 분석하는 방법 Case 플라스틱 성형제품의 투명도에 원재료 가공 온도와 농도가 어떤 영향을 주는가를 조사 하고자 한다. Data 분산분석3.mtw Copyright ⓒ 2009 LANDKOREA 212
    • 이원 분산 분석 미니탭 실행 Minitab Case 통계분석 > 분산 분석 > 이원 분산 분석 상호작용이 유 의하지 않다고 판단되면 이곳 을 체크한다 *상호작용 여부는 상호작용 플롯으로 파악 Copyright ⓒ 2009 LANDKOREA 213
    • 이원 분산 분석 Minitab Case 실행 결과 결과 해석 온도의 P-value는 0.007이므로 온도는 여과율에 유의한 영향을 미치고 있으며, 농도의 P-value는 0.170이므로 농도의 효과는 유의하지 않고 온도와 농도간의 교호작용의 P-value는 0.018이므로 여과율에 유의한 영향을 미치고 있다고 볼 수 있다 Copyright ⓒ 2009 LANDKOREA 214
    • 균형 분산 분석 메뉴의 용도 Case 다수의 인자에 대하여 각 주효과 및 상호작용 등의 분석에 활용. 모수모형, 혼합모형 등을 분석할 수 있으며 적절한 구조식을 입력하여 여러 형태의 실험모형을 분석할 수 있음. 또 각 처리 수준의 조합에서 얻어진 측정값의 개수가 모두 같은 데이터인 균형설계 (Balanced Design) 데이터를 분석하는 경우에 활용되며 불균형설계 (Unbalanced Design) 데이터는 일반 선형 모형(General Linear Model)에서 분석한다. 플라스틱 성형 제품의 투명도에 대한 3개 인자의 영향 정도를 조사 하고자 한다. 온도 Data Minitab Case 농도 성형시간 분산분석4.mtw Copyright ⓒ 2009 LANDKOREA 215
    • 균형 분산 분석 미니탭 실행 Minitab Case 통계분석 > 분산 분석 > 균형 분산 분석 Copyright ⓒ 2009 LANDKOREA 216
    • 균형 분산 분석 Minitab Case 실행 결과 결과 해석 유의수준 5%에서 검정하면 위 결과에서 모든 요인에 대한 P-Value가 0.05이상이므로 모든 주효과 및 상호작용은 유의하지 않다. Copyright ⓒ 2009 LANDKOREA 217
    • 일반 선형 모형 메뉴의 용도 Minitab Case 각 인자의 수준 조합에서 실험한 데이터의 개수가 동일한 균형 설계와 불 균형 설계 모두에 대한 분산분석을 실시할 수 있고 보통 인자는 3개 이상에 사용한다. Case 어떤 제품의 품질을 개선하기 위해 하기와 같은 3개 인자의 영향 정도를 조사 하고자 한다. Data 분산분석5.mtw Copyright ⓒ 2009 LANDKOREA 218
    • 일반 선형 모형 미니탭 실행 Minitab Case 통계분석 > 분산 분석 > 일반 선형 모형 Copyright ⓒ 2009 LANDKOREA 219
    • 일반 선형 모형 Minitab Case 실행 결과 결과 해석 유의수준 5%에서 M/TIME만이 품질에 유의한 영향을 미치고 있고 나머지 주효과와 상호작용은 P-Value가 0.05이상이므로 유의하지 않다는 결론을 내릴 수 있다. Copyright ⓒ 2009 LANDKOREA 220
    • 완전 내포 분산 분석 Minitab Case 메뉴의 용도 실험이 계층적일 때(Fully Nested) 사용하는 메뉴로 각각의 반응변수에 대해 분산성분을 추정하기 위해 분석을 수행한다. ☞특징 - 일반적으로 변량 인자의 실험계획법으로 많이 사용된다. - 인자 A의 수준이 정해진 후에 인자 B의 수준이 인자 A의 각 수준으로부터 가지를 쳐 나온 것 같이 되며 이런 경우 B의 수준이 A 수준으로부터 지분 되었다고 말한다. - A 수준의 변화에 따라 B의 수준수가 반드시 같을 필요는 없으나 일반적으로 같게 잡아 준다. - A1 수준에 속해 있는 B1 과 A2 수준에 속해 있는 B1 은 동일하지 않다. Copyright ⓒ 2009 LANDKOREA 221
    • 완전 내포 분산 분석 Data 구조 Minitab Case 균형 분산분석과 일반 선형 모형(GLM)에서 입력하는 형식과 같으며, 예를 들면 공업염을 생산하고 있는 공장에서 산포를 추정할 목적으로 다음과 같이 염도를 측정하였다. 일간의 산포를 위해 랜덤하게 4일을 선택하고, 트럭간의 산포를 위해 랜덤하게 트럭 2대를 선택한다. 그리고 각 트럭 내에서도 모래가 균일한가를 보기 위해 트럭으로부터 랜덤하게 2삽 선택하여 각 삽의 소금에서 두 번씩 염도를 측정하였을 때 데이터 구조는 다음과 같이 구성되어 있다. Copyright ⓒ 2009 LANDKOREA 222
    • 완전 내포 분산 분석 Case Data Minitab Case 곡물을 이용하여 제품을 생산하는 공장에서 곡물수분 함유량에 대한 산포를 분석할 목적으로 먼저 랜덤하게 3일을 선택하고 일자간의 산포를 보고, 역시 저장고도 랜덤하게 2곳을 선택하여 저장고 내에서도 곡물의 수분이 일정한가를 2포대를 랜덤하게 선택하여 곡물을 채취했다. 그리고 각 포대의 곡물을 두 번씩 수분을 측정하였다. 분산분석6.mtw Copyright ⓒ 2009 LANDKOREA 223
    • 완전 내포 분산 분석 미니탭 실행 Minitab Case 통계분석 > 분산 분석 > 완전 내포 분산 분석 Copyright ⓒ 2009 LANDKOREA 224
    • 완전 내포 분산 분석 Minitab Case 실행 결과 결과 해석 일자별로는 유의한 차이가 없고 포대별로도 유의한 차이가 없으나 저장고에 따라 대단히 유의한 차이가 있으므로 저장고에 따른 산포를 줄일 수 있도록 해야 함. 요인들의 분산성분(Variance Components) 과 평균제곱의 기대값들이 같이 출력되며, 완전 내포 분산분석에서는 다단계의 위쪽 요인들이 작은 자유도를 갖고 아래쪽 요인들이 큰 자유도를 가지므로 분산추정을 할 때 아래쪽 요인들의 분산의 정밀도가 더 좋게 추정된다. Copyright ⓒ 2009 LANDKOREA 225
    • 등분산 검정 메뉴의 용도 Minitab Case 각 인자 수준의 조합에서 실험한 데이터간의 등분산성 여부에 대한 가설 검정에 사용 Case 5대의 자동차 연비에 차이가 있는지를 조사하기 위해 분산의 차이가 있는지를 조사코자 한다. Data 분산분석1.mtw Copyright ⓒ 2009 LANDKOREA 226
    • 등분산 검정 미니탭 실행 Minitab Case 통계학 > 분산분석 > 등분산 검정 Copyright ⓒ 2009 LANDKOREA 227
    • 등분산 검정 Minitab Case 실행 결과 결과 해석 Bartlett's Test와 Levene's Test에서 P-Value가 각각 0.794와 0.799로 큰 값을 가진다. 특히 Graph 창에서는 신뢰구간이 비 대칭적으로 나오는데 이는 데이터가 카이제곱(Chi-Square) 분포를 따름을 알 수 있다. 유의수준을 0.05로 할 경우 분산이 같다는 귀무가설을 기각할 수 없으므로 분산이 다르다고 할 수 없다. Bartlett's Test : 데이터가 정규분포로부터 나왔을 때 수행되는 것으로 만약 인자의 수준이 2수준이라면 F-Test가 수행된다. Levene's Test : 데이터가 어떤 분포인지는 알 수 없어도 연속형일 경우에 수행된다. Copyright ⓒ 2009 LANDKOREA 228
    • 구간 그림 메뉴의 용도 Minitab Case 인자의 각 수준 별로 특성치의 평균 값, 평균을 중심으로 표준오차 구간 또는 신뢰구간을 도시한다. Case 5대의 자동차 연비를 조사한 후 연비의 차이가 있는지를 분석 하고자 한다. Data 분산분석1.mtw Copyright ⓒ 2009 LANDKOREA 229
    • 구간 그림 미니탭 실행 Minitab Case 통계분석 > 분산 분석 > 구간 그림 Copyright ⓒ 2009 LANDKOREA 230
    • 구간 그림 Minitab Case 실행 결과 결과 해석 구간플롯을 통해 각 수준 별 평균 값을 비교할 수 있다. 이 예제에서는 자동차 B와 E의 연비가 낮으며 자동차 C와 D의 표준오차 구간이 넓으므로 데이터 변동이 커 보인다. Copyright ⓒ 2009 LANDKOREA 231
    • 주효과도 메뉴의 용도 Case Data Minitab Case 분산분석에서 하나의 인자가 단독으로 반응변수에 미치는 효과인 주효과를 도시 5대의 자동차 연비를 조사한 후 연비의 차이가 있는지를 분석 하고자 한다. 분산분석1.mtw Copyright ⓒ 2009 LANDKOREA 232
    • 주효과도 미니탭 실행 Minitab Case 통계분석 > 분산 분석 > 주효과도 Copyright ⓒ 2009 LANDKOREA 233
    • 주효과도 Minitab Case 실행 결과 결과 해석 자동차 C의 연비가 가장 높으며 자동차 E의 연비가 가장 낮은 것을 볼 수 있으며 자동차 간의 연비는 차이가 있는 것으로 예측된다. Copyright ⓒ 2009 LANDKOREA 234
    • 교호작용도 Minitab Case 메뉴의 용도 분산분석에서 2개 이상의 인자 사이의 조합으로 인해 발생하는 효과인 교호작용을 도시한다. Case 플라스틱 성형제품의 투명도에 원재료 가공 온도와 농도가 어떤 영향을 주는가를 조사 하고자 한다. Data 분산분석3.mtw Copyright ⓒ 2009 LANDKOREA 235
    • 교호작용도 미니탭 실행 Minitab Case 통계분석 > 분산 분석 > 교호작용도 Copyright ⓒ 2009 LANDKOREA 236
    • 교호작용도 Minitab Case 실행 결과 결과 해석 위의 Graph 창에서 점들을 잇는 선이 평행하지 않으므로 온도와 농도간에는 교호 작용이 존재하는 것으로 보인다. Copyright ⓒ 2009 LANDKOREA 237
    • 이것만은 기억하자 ! 핵심 Point 1. 분산 분석 통계학 - 분산 분석 통계학의 내용, 용어설명 및 분산 분석의 활용에 대한 학습 2. Minitab 프로그램에서 분산 분석 - 데이터 구조에 따른 분산 분석 메뉴의 선택 - 분산 분석의 여러 메뉴의 사용 학습 - 실행 결과값의 해석 3. 분산 분석 - 일원 분산 분석 - 일원 분산 분석(분할된 데이터) - 이원 분산 분석 - 균형 분산 분석 - 주효과도 - 교호작용도 Copyright ⓒ 2009 LANDKOREA 238
    • 관리도 관리도를 잘 이해하고 사용하면? 설명  통계를 활용한 경영혁신 등의 기초통계학의 관리도에 대한 내용에 따라 학습하고, 업무개선 이후에 다시 발생 할 수 관리도에 사용되는 각 통계용어를 이해하며, 있는 다양한 문제의 발생을 조기 각종 데이터 형태에 맞는 관리도를 이해하여, 에 발견 조치 할 수 있다. 현업에서 실행 가능한 실무학습으로 발전시킨다. 관리도를 잘 못 이해하고 사용하면? 핵심 1. 기초통계학의 관리도 학습을 통하여 통계의 기본용어들  많은 노력을 투자한 경영혁신 을 학습하고, 실제 통계분석 프로그램에서 Data의 형태에 이 후에 사용할 Data에 맞는 관리 맞는 관리도를 사용하기 위한 준비를 한다. 도를 잘 못 선정하게 되면 불양 혹 2. 학습한 내용을 Minitab의 예제 데이터를 활용하여 프로그 은 오류의 발생을 감지할 수 없어 램 내의 관리도 메뉴의 기능들에 대하여 실행해보며 결과 과거의 문제가 재발 한다. 값을 해석해 본다. Copyright ⓒ 2009 LANDKOREA 239
    • 통계 분석 Box-Cox 변환 부분군 계량형 관리도 개별값 계량형 관리도 계수형 관리도 관리도 • Box Cox 변환 • X bar-R • X bar-S • I-MR-R/S(군간/군내) • X bar •R •S • 구역 • I-MR • Z-MR • 개체[I] • 이동범위[MR] •P • NP •C •U 시간 가중 관리도 • 이동평균[MA] • 지수가중이동평균[EWMA] • 누적합[CUSUM] 시간 가중 관리도 • T 제곱-일반화 분산 관리도 • T 제곱 • 일반화 분산 • 다변량 지수가중이동평균[EWMA] Copyright ⓒ 2009 LANDKOREA 240
    • 관리도 관리도란? • 관리도(Control chart)란? 데이터의 산포를 점과 꺾은 선으로 연결한 그림을 꺾은선 그래프라 하며, 이 꺾은선 그래프 가운데 점의 움직임이 이상인가 어떤가를 판단하기 위해 중심선이나 관리한계를 기입하는 것 • 관리도의 유래 1924년 Bell 연구소의 W.A. Shewhart에 의해 개발 Copyright ⓒ 2009 LANDKOREA 241
    • 관리도 F R E Q U E N C Y 관리도 사용 목적 특별한 원인 UCL LCL 특별한 원인 TIME 관리한계선(Control Limit)은 확률적으로 우연원인(일반적 원인)과 이상원인(특별한 원인)의 변동을 구분하여 준다. 관리도에는 스펙 한계를 표시하지 않는다 Copyright ⓒ 2009 LANDKOREA 242
    • 관리도 관리도의 사용 공정내의 변동을 확인한다.  일반적 변동 원인 변동을 감소시키는 전략을 개발한다.  불안정한 프로세스를 향상시키기 • 프로세스 내에 언제나 존재한다. (특별한 변동원인에 대한 대응 전략) • 변동량이 크지 않다. • 특별한 원인이 신속히 발견 되도록 신속하게 자료를 얻는다.  특별한 변동원인 • 프로세스내에 늘 존재하는 것이 아니다. • 전체변동에 크고 작은 영향을 미치는데 일반적으로 하나의 일반적 원인보다는 더 큰 영향을 미친다. Copyright ⓒ 2009 LANDKOREA • 피해를 최소화 하기 위한 복구책을 신속히 강구 • 원인을 찾는다 - 무엇이 다른지를 알아본다. • 더 장기적인 복구책을 개발한다. 243
    • 관리도 가설검정과 관리도 HO 를 기각하지 않는다 HO 기각 HO 기각 α/2 α/2 HO: 현재평균 = 기대되는 평균 α/2 UCL CL LCL α/2 Copyright ⓒ 2009 LANDKOREA 244
    • 관리도 이상상태 α/2 = 0.00135 관리 이탈점 UCL = μ + 3σ CL = μ LCL = μ - 3σ α/2 = 0.00135 • 관리 한계선은 극단적 값이 나타날 확률적 수준을 정한 것이다. • 관리도는 프로세스의 변화를 연속적으로 관찰하는 도구이다. • 스펙 한계와는 관련성이 없으며 관리 한계선들은 α 의 함수로 통계적으로 결정된다. • 일반적으로 관리도에서는 α =0.0027 값이 사용되어 왔다. Copyright ⓒ 2009 LANDKOREA 245
    • 관리도 관리 한계선의 설정 관리도 A μ + 2σ • 표준관리도는 평균으로부터 3σ 떨어진 곳에 관리한계선을 잡는다 프로세스가 변화하지 않았을 때 관리 이탈점의 확률은 0.27%이다. μ μ - 2σ 관리도 B μ + 4σ • 관리 한계선이 관리도 A와 B에 나타난 대로라면, 거짓경보율 (False Alarm Rate )은 얼마인가? • 토의 문제: 관리도 A와 B중 하나가 거짓 경보율을 놓고 볼 때 다른 하나 보다 낫다면, 그 도표를 쓰지 않는 이유는 무엇인가? μ μ - 4σ Copyright ⓒ 2009 LANDKOREA 246
    • 관리도 관리도 유형 불연속 계수 계수(Counts) 혹은 비율 (proportion) 포아송(Poisson) 분포의 조건을 만족하는가? No No 자료의 종류 비 율 연속 개별단위 계수를 %나 비율로 변환한다. 합리적인 서브그룹 공정이 서서히 변화 하는가? Yes Yes Yes 서브그룹 크기가 6 이하? No Yes No Yes 고정된 표본 크기? No C Indiv-X, MR p No np Indiv-X, MR EWMA, MA, 혹은 CUSUM X-bar, R 주의 : n 이 1000보다 크면, Indiv-X 와 MR 도표가 사용될 수도 있다. Copyright ⓒ 2009 LANDKOREA 계산이 간편해야만 하는가? Yes No U 개별단위의 측정 혹은 서브그룹 ? 이항분포(Binomial) 의 조건을 만족하는가? Yes 기회의 영역( area of opportunity)이 표본 마다 일정한가? 서브그룹의 평균값은 중심극한정리에 의해 정규분포의 경향을 띈다. 247 X-bar, S
    • 관리도 도표 유형 연속형 Data 관리도 목적 적용 서브그룹 크기 X bar (평균) 한 변인의 평균치를 시간에 따라 관찰 Subgroup의 크기가 3 이상인 경우 n>1 R (범위) 단위시간당 한 특성의 변산을 관찰 Subgroup의 크기가 8보다 작은 경우 2< n < 8 S (표준편차) 단위시간당 한 특성의 변산을 관찰 Subgroup 의 크기가 8보다 큰 경우 n>8 한 특성의 변산을 시간에 걸쳐 관찰 표본 하나를 얻는데 오랜 기간이 소모되는 생산영역이나 표본 하나만으로도 의미가 있는 경우 n=1 공정의 작은 변화를 관찰 합리적 서브그룹이 n=1인 영역이나, 공정의 작은 변화를 감지하기 위해 필요한 경우, 혹은 자료가 정상분포가 아닌 경우 Remarks I&MR (개별&이동범위) EWMA (Exponentially Weighted Moving Average) CUSUM (Cumulative Sum) 공정의 작은 변화를 관찰 공정의 변화의 누적합 관찰 Copyright ⓒ 2009 LANDKOREA n>1 n>1 표본크기가 커지면서 민감성이 증가한다. 정밀한 통제가 필요하거나 표본에 드는 비용을 고려할 필요가 없는 경우에 사용 Shewhart Chart가 아님. 큰 변화에 빨리 반응하지 못함. 예견된 결과를 생산. 경향(trends)를 강조하기 위해 자료를 처리함 . 최근의 자료를 강조하기 위해 가중치를 사용. Shewhart Chart 가 아님 . EWMA와 같은 정도의 민감성. 손으로 도표를 그리기 힘들다. 248
    • 관리도 도표 유형 NP Chart (Number of Nonconforming Units) P Chart (Fraction of Nonconforming Units) 이산형 Data 관리도 목적 서브그룹 내에서 기각 된 Unit의 수 관찰 서브그룹 내에서 기각된 Unit의 비 관찰 기각된 Unit 수 검사된 Unit 수 적용 모든 서브그룹에 대해 관리 한계를 재설정하는 수고 를 없애기 위해 고정된 크기의 서브그룹을 사용. -->p chart보다 편리 일반적으로 각 단위에 대해 하나 이상의 제품속성이 검사되고 합격/불합격 의 결정이 내려지는 품질 관리 점에서 사용된다. C Chart (Number of Nonconformances per Subgroup) Unit 내에서 부적합의 수 관찰 모든 서브그룹에 대해 관리 한계를 재설정하는 수고 를 없애기 위해 고정된 크기의 서브그룹을 사용. U Chart (Average Nonconformances per Unit ) 검사 Unit 당 부적 합의 수 관찰 검사 Unit 당 평균 부적합의 수를 기록 서브그룹 크기 Subgroup 크기 고정 서브그룹 크기 (Variable subgroup size)가 충분히 커서, 적어도 하나 이상의 기각된 Unit가 존재할 정도의 크기가 되어야 한다. Subgroup 크기는 한 Unit이며 다수의 결함을 포함한다. Subgroup size는 일정 검사 Unit의 크기가 가변적-- 검사 Unit의 수로서 표현된다 . Subgroup내 결함 수 검사된 Unit 수 Copyright ⓒ 2009 LANDKOREA 249
    • 관리도 관리도 성격 관리도의 선택 분포특성 관리도 요약통계 - 개별값 X-bar - 표본평균 MR(이동범위) R(범위) S(표준편차) - 개별값의 이동범위 - 표본 범위 - 표본 편차 - 부분군내 불량수 p - 부품군의 불량률 c - 결점수 u 위치 Individual X np 중심 - 단위당 평균 결점수 계량형 산포도 계수형 Copyright ⓒ 2009 LANDKOREA 250
    • B0X-COX 변환 메뉴의 용도 Case Minitab Case 데이터가 정규분포를 따르지 않을 때, 특히 한쪽 꼬리가 긴 치우친 형태의 분포를 따르는 데이터를 정규분포로 변환하고자 할 때 사용할 수 있다. 10일 동안 10개씩 타일의 뒤틀림을 측정한 후 타일 제조 공정의 공정상태를 분석코자 하는데 이미 해당 Data는 치우침이 있는 데이타임을 알고 있어 Box-Cox 변환으로 정규분포 Data로 변환코자 한다. Copyright ⓒ 2009 LANDKOREA 251
    • B0X-COX 변환 데이터 미니탭 실행 Minitab Case Tiles.mtw 통계분석 > 관리도 > Box-Cox 변환 Copyright ⓒ 2009 LANDKOREA 252
    • B0X-COX 변환 미니탭 실행 Minitab Case 통계분석 > 관리도 > Box-Cox 변환 측정데이터가 포함 된 열을 입력한다. 측정데이터가 포함 된 열을 입력한다. 변환된 값을 저장할 Column을 지정 Copyright ⓒ 2009 LANDKOREA 253
    • B0X-COX 변환 Minitab Case 실행 결과 결과 해석 표준편차를 가장 작게 하는 최적의 Lambda (λ)는 0.43이다. Copyright ⓒ 2009 LANDKOREA 254
    • Xbar-R Case 데이터 Minitab Case 하루에 4개씩 8일에 걸쳐 측정한 Noise Level Data를 X bar-R 관리도로 분석하여 프로세스 안정성을 판단코자 한다. Xbarr.mtw Copyright ⓒ 2009 LANDKOREA 255
    • Xbar-R 미니탭 실행 Minitab Case 통계분석 > 관리도 > 부분군 계량형 관리도 > Xbar-R Data 모두 선택 Copyright ⓒ 2009 LANDKOREA 256
    • Xbar-R Minitab Case 실행 결과 결과 해석 X bar관리도와 R관리도를 보면 모든 점들이 관리한계선 안에 타점 되어 있으며 특별한 패턴이 있는 것으로 보이지는 않는 것으로 보아 이 프로세스는 안정적이라 판단한다. Copyright ⓒ 2009 LANDKOREA 257
    • Xbar-S Case 데이터 Minitab Case 휘발유의 순도는 원료에 포함되는 불순물의 함량에 의해 크게 좌우된다. 아래의 자료는 휘발유내의 불순물 함량을 측정한 값들이다. 부분군 크기가 5인 X bar-S 관리도를 이용하여 공정이 안정적인지를 판단하라. Xbars.mtw Copyright ⓒ 2009 LANDKOREA 258
    • Xbar-S 미니탭 실행 Minitab Case 통계분석 > 관리도 > 부분군 계량형 관리도 > Xbar-S 측정 Data가 포함된 열 선택 부분군 크기 Copyright ⓒ 2009 LANDKOREA 259
    • Xbar-S Minitab Case 실행 결과 결과 해석 S관리도의 경우 모든 점들이 S관리도의 관리한계선에 안에 타점 되어 있지만, X bar관리도를 보면 5번째 Test(연속적인 3점 중에서 2점이 중심선으로부터 2시그마를 벗어나는 점에 대해 Test)를 실패했으므로 공정이 안정상태라고 판단할 수 없다. Copyright ⓒ 2009 LANDKOREA 260
    • Xbar-S Minitab Case 관리도의 검정 Copyright ⓒ 2009 LANDKOREA 261
    • I-MR-R/S Case 데이터 Minitab Case 두 스위치간 간극(Gap)을 일정하게 유지해야 하는 공정이 있다. 이 공정에서 부분군의 크기가 3인 Gap Data를 10회에 걸쳐 측정한 후 공정의 안정 상태를 I-MR-R/S 관리도를 이용하여 분석코자 한다. I-MR-R_S.mtw Copyright ⓒ 2009 LANDKOREA 262
    • I-MR-R/S 미니탭 실행 Minitab Case 통계분석 > 관리도 > 부분군 계량형 관리도 > I-MR-R/S(군간/군내) 측정 Data가 포함된 열 선택 부분군 열 선택 Copyright ⓒ 2009 LANDKOREA 263
    • I-MR-R/S 실행 결과 Minitab Case 부분군간의 표준편차 부분군내의 표준편차 전체 데이터의 표준편차 첫 번째 부분군의 평균 첫 번째 부분군의 평균과 두 번째 부분군의 평균의 차이 첫 번째 부분군의 범위 결과 해석 모든 점들이 Individual 관리도, MR관리도, 그리고 R관리도의 관리한계선에 안에 타점되어 있고 특별한 패턴이 보이지 않으므로 공정이 안정상태라고 판단할 수 있다. 여기서, Individual관리도는 공정의 평균이 관리 상태인지를 판단하고, MR관리도는 부분군간의 변동이 관리 상태인지를, 그리고 R관리도는 부분군내의 변동이 관리 상태인지를 판단한다. Copyright ⓒ 2009 LANDKOREA 264
    • Xbar 메뉴의 용도 Case 데이터 Minitab Case 공정 평균을 관리하기 위해 X bar 관리도를 사용한다. 서울시 폐수의 pH를 관리하기 위하여 매일 4번의 표본을 추출하여 20일 동안 pH를 측정하였다. X bar 관리도를 이용하여 관리상태를 파악하시오. Xbar.mtw Copyright ⓒ 2009 LANDKOREA 265
    • Xbar 미니탭 실행 Minitab Case 통계분석 > 관리도 > 부분군 계량형 관리도 > Xbar 관리한계선을 임의 로 지정할 수 있다. 가령 1 2 3이라고 두면 중심선으로 부터 위아래로 1시 그마씩 증가하는 선이 그려진다. 부분군에 해당 하는 데이터가 여러 열로 저장 되어 있는 경우 모든 열을 선택 Copyright ⓒ 2009 LANDKOREA 266
    • Xbar Minitab Case 실행 결과 결과 해석 16번째 부분군에서 6번 Test에 대해 문제가 발생한 것을 알 수 있다. 참고로 6번 Test는 연속적인 5점 중에서 4점이 중심선으로부터 1시그마를 벗어나는 점이 있는지를 파악하는 Test이다. 따라서, 이 프로세스는 안정상태에 있다고 할 수 없다. Copyright ⓒ 2009 LANDKOREA 267
    • R Minitab Case 메뉴의 용도 공정의 표준편차 관리를 위해 범위(XMax - XMin )를 이용한 R 관리도를 사용한다. Case 서울시 폐수의 pH를 관리하기 위하여 매일 4번의 표본을 추출하여 20일 동안 pH를 측정하였다. R 관리도를 이용하여 관리상태를 파악하시오. 데이터 R.mtw Copyright ⓒ 2009 LANDKOREA 268
    • R 미니탭 실행 Minitab Case 통계분석 > 관리도 > 부분군 계량형 관리도 > R 부분군에 해당 하는 데이터가 여러 열로 저장 되어 있는 경우 모든 열을 선택 Copyright ⓒ 2009 LANDKOREA 269
    • R Minitab Case 실행 결과 결과 해석 점들이 모두 관리한계선 안에 랜덤하게 분포함을 알 수 있다. 따라서, 이 프로세스는 안정상태에 있다고 할 수 있다. Copyright ⓒ 2009 LANDKOREA 270
    • S 메뉴의 용도 Case 데이터 Minitab Case R관리도와 마찬가지로 공정의 산포를 관리하기 위한 관리도이다. 일반적으로 범위 R이 표준편차 S를 구하는 것보다 편하기 때문에 R관리도가 널리 사용된다. 하지만 부분군의 크기가 비교적 클 때는(n>6) R을 이용하는 것 보다 S를 이용하는 것이 더 효율적이다. 서울시 폐수의 pH를 관리하기 위하여 매일 4번의 표본을 추출하여 20일 동안 pH를 측정하였다. S 관리도를 이용하여 관리상태를 파악하시오. R.mtw Copyright ⓒ 2009 LANDKOREA 271
    • S 미니탭 실행 Minitab Case 통계분석 > 관리도 > 부분군 계량형 관리도 > S 부분군에 해당 하는 데이터가 여러 열로 저장 되어 있는 경우 모든 열을 선택 Copyright ⓒ 2009 LANDKOREA 272
    • S Minitab Case 실행 결과 결과 해석 점들이 모두 관리한계선 안에 랜덤하게 분포함을 알 수 있다. 따라서, 이 프로세스는 안정상태에 있다고 할 수 있다. Copyright ⓒ 2009 LANDKOREA 273
    • 구역 메뉴의 용도 Case 데이터 Minitab Case Xbar 관리도(또는 X관리도)와 CUSUM관리도의 장점을 취하여 만든 관리도이다. 이 관리도는 중심선으로부터 1,2,3 시그마 "구역" (Zones)에 근거한 누적점수를 타점한다. 지대 관리도는 Xbar(또는 X)관리도 보다 간결하기 때문에 선호된다. 이상 상태는 간단히 판별되는데 누적 점수가 8이거나 8보다 크면 공정이 이상상태라고 판정한다. 섬유의 길이가 공정의 변동에 영향을 미치고 있다는 것을 알고 있다. 이에 부분군의 크기가 5인 10개의 부분군을 얻어서 섬유의 길이를 측정하였다. Zone 관리도를 이용하여 관리상태 여부를 판정하여라. Zone.mtw Copyright ⓒ 2009 LANDKOREA 274
    • 구역 미니탭 실행 Minitab Case 통계분석 > 관리도 > 부분군 계량형 관리도 > 구역 측정 데이 터가 포함 되어 있는 열을 선택 하고 부분 군의 크기 를 입력한 다. Copyright ⓒ 2009 LANDKOREA 275
    • 구역 Minitab Case 실행 결과 결과 해석 이상이라 판단 할 수 있는 8점 이상이 세 곳에서 확인됨. Copyright ⓒ 2009 LANDKOREA 276
    • I-MR Case 데이터 Minitab Case 접착용 풀의 점도를 안정적으로 관리해야 하는 공정이 있다. 이 풀의 점도를 1일 1회 30일 동안 측정하고 I-MR 관리도를 이용하여 공정의 안정 상태를 분석코자 한다. I_mr.mtw Copyright ⓒ 2009 LANDKOREA 277
    • I-MR 미니탭 실행 Minitab Case 통계분석 > 관리도 > 개별값 계량형 관리도 > I-MR 측정 Data가 포함된 열 선택 Copyright ⓒ 2009 LANDKOREA 278
    • I-MR Minitab Case 실행 결과 결과 해석 모든 점들이 Individual 관리도와 MR관리도 관리한계선에 안에 타점 되어 있고 특별한 패턴이 보이지 않으므로 공정이 안정상태라고 판단할 수 있다. Copyright ⓒ 2009 LANDKOREA 279
    • Z-MR 메뉴의 용도 Minitab Case 표준화된 개별 관측치(Z)와 Moving Range를 그리는 관리도로 단기 프로스세에서 각각의 Run에 대해 충분한 데이터를 얻지 못할 때 사용할 수 있는데 각각의 Run 으로 부터 수집된 데이터를 하나의 관리도를 통해 해석이 가능하다. Case 3종류의 섬유에서 15개의 탄력성 Data를 추출하였는데 섬유 종류에 관계없이 표준화된 관리도를 이용하여 관리하고자 한다. 데이터 Z_MR.mtw Copyright ⓒ 2009 LANDKOREA 280
    • Z-MR 미니탭 실행 Minitab Case 통계분석 > 관리도 > 개별값 계량형 관리도 > Z-MR 측정데이터와 부품 혹은 제품을 포함하는 열을 선택한다. Copyright ⓒ 2009 LANDKOREA 281
    • Z-MR Minitab Case 실행 결과 결과 해석 모든 점들이 관리한계선 내에 있으므로 이 프로세스는 공정에 이상이 없는 것으로 판단한다. Copyright ⓒ 2009 LANDKOREA 282
    • 개체[I] 메뉴의 용도 Case 데이터 Minitab Case 개체 관리도는 X관리도라고도 한다. 제품의 품질을 관리할 목적으로 각각의 측정 값을 하나의 점으로 기입하는 관리도를 말한다. X관리도에서는 한 개의 측정 값이 얻어지면 곧 관리도에 점으로 기록되므로, 각각의 측정으로부터 공정의 안정상태의 판정 및 조치까지시간적인 지연이 없는 것이 특징이다. 유리의 특성중 투과율(%)이 중요하다. 이 특성을 관리하기 위해 16일 동안 매일 하나의 제품에 대해 투과율을 측정하였다. 개체 관리도를 이용하여 프로세스가 안정적인지를 판단하라 Individuals.mtw Copyright ⓒ 2009 LANDKOREA 283
    • 개체[I] 미니탭 실행 Minitab Case 통계분석 > 관리도 > 개별값 계량형 관리도 > 개체[I] 측정데이터가 포함된 열을 선택한다. Copyright ⓒ 2009 LANDKOREA 284
    • 개체[I] Minitab Case 실행 결과 결과 해석 모든 점들이 관리한계선 내에 있으며 특별한 패턴이 보이지 않는 것으로 보아 공정에 이상이 없다고 판단한다. Copyright ⓒ 2009 LANDKOREA 285
    • 이동 범위[MR] 메뉴의 용도 Case 데이터 Minitab Case 관리도를 위해 공정으로부터 부분군을 추출할 때 한번에 여러 개의 제품들을 추출할 수 없는 경우가 많다. 제품 또는 제조공정의 특성상 한번에 하나의 제품밖에 얻을 수 없는 경우도 있고, 생산속도가 너무 느려 둘 이상의 제품으로 부분군을 형성하기가 어려운 경우도 있다. 이러한 경우에는 공정의 표준편차를 관리하기 위해 인접한 두 데이터간의 범위를 사용한다 유리의 투과율(%)을 관리하기 위해 16일 동안 매일 하나의 제품에 대해 투과율을 측정하였다. 이동범위 관리도를 이용하여 프로세스가 안정적인지를 판단하라 . Moving Range.mtw Copyright ⓒ 2009 LANDKOREA 286
    • 이동 범위[MR] 미니탭 실행 Minitab Case 통계분석 > 관리도 > 개별값 계량형 관리도 > 이동 범위[MR] 측정데이터가 포함된 열을 선택한다. Copyright ⓒ 2009 LANDKOREA 287
    • 이동 범위[MR] Minitab Case 실행 결과 결과 해석 모든 점들이 관리한계선 내에 있으며 특별한 패턴이 보이지 않는 것으로 보아 공정에 이상이 없다고 판단한다. Copyright ⓒ 2009 LANDKOREA 288
    • P 메뉴의 용도 Case 데이터 Minitab Case 불량률 관리도로 관리 한계선이 부분군의 수에 따라 변화한다. 2370개의 PVC Resign 제품의 표면돌기 발생수를 조사한 결과 192개의 표면돌기가 발생했다. P 관리도를 이용하여 공정의 관리 상태를 파악하고자 한다. P.mtw Copyright ⓒ 2009 LANDKOREA 289
    • P 미니탭 실행 Minitab Case 통계분석 > 관리도 > 계수형 관리도 > P 관측된 손상 표면돌 기 수가 입력된 열을 선택한다. 서로 다른 부분군의 크기가 n열에 입력되 어 있다. Copyright ⓒ 2009 LANDKOREA 290
    • P Minitab Case 실행 결과 모든 검정 수 행시 나타남. 결과 해석 P9=0.175값이 관리 상한을 벗어나므로 공정은 이상상태이다. 이 시점에서 손상 비율이 상당히 증가하였음을 나타낸다. 그 이유는 조사되고 교정되어야 한다. 또한 표본 4~17을 보면 14개의 연속된 점들이 상하로 반복이동하고 있다 Copyright ⓒ 2009 LANDKOREA 291
    • NP 메뉴의 용도 Minitab Case 불량률 관리도에서 부분군의 크기가 일정할 때 사용하며 P관리도 보다 계산이 편리 Case 2차 전지 생산업체에서 불량품의 개수를 샘플 크기는 50으로 일정하게 하여 800개의 제품에 대해 검사하였다. NP관리도를 이용하여 공정관리 상태를 판단하고자 한다. 데이터 NP.mtw Copyright ⓒ 2009 LANDKOREA 292
    • NP 미니탭 실행 Minitab Case 통계분석 > 관리도 > 계수형 관리도 > NP 관측된 불량수 가 입력된 열을 선택한다. 부분군의 크기 50 으로 동일하다. Copyright ⓒ 2009 LANDKOREA 293
    • NP Minitab Case 실행 결과 결과 해석 관리한계에서 벗어난 점이 없으며, 특별한 추세나 런(Run)도 나타나지 않는다. 따라서, 이 추세는 안정적이고 50개의 제품 중 불량 수는 대략 10이라 할 수 있으며, 이러한 추세는 가까운 미래에도 계속될 것이라고 믿을 수 있다. Copyright ⓒ 2009 LANDKOREA 294
    • C 메뉴의 용도 Case 데이터 Minitab Case 부분군의 크기가 일정한 결점수 관리도 하루에 하나의 주조 생산품만 생산하는 업체에서 결점수를 관측하고 공정의 관리 상태를 판단하고자 한다. C.mtw Copyright ⓒ 2009 LANDKOREA 295
    • C 미니탭 실행 Minitab Case 통계학 > 관리도 > 계수형 관리도 > C 관측된 결점수 가 입력된 열을 선택한다. Copyright ⓒ 2009 LANDKOREA 296
    • C Minitab Case 실행 결과 결과 해석 관리한계를 벗어난 점이 없으며, 특별한 런(Run)이나 추세도 보이지 않는다. 따라서, 주조 공정에서 결점수의 분포는 안정적이라고 결론지을 수 있다. 또한 공정이 변화되지 않는다면 주조당 평균 결점수는 가까운 미래에도 대략 7.9를 유지할 것이라고 결론지을 수 있다. Copyright ⓒ 2009 LANDKOREA 297
    • U 메뉴의 용도 Case 데이터 Minitab Case 불량률 관리도와 같이 부분군의 크기가 다른 결점수 관리도로 관리 한계선이 부분군의 크기에 따라 변화한다. PVD 바닥재의 단위 면적당 표면의 기포 발생 개수를 4일동안 측정한 결과 11374개 발견 되었다. U 관리도를 이용하여 공정의 관리 상태를 파악하고자 한다. U.mtw Copyright ⓒ 2009 LANDKOREA 298
    • U 미니탭 실행 Minitab Case 통계분석 > 관리도 > 계수형 관리도 > U 관측된 흠집 개 수가 입력된 열 을 선택한다. 서로 다른 부분 군의 크기가 a 열에 입력되어 있다. Copyright ⓒ 2009 LANDKOREA 299
    • U Minitab Case 실행 결과 결과 해석 u값은 표본 1, 6, 9에서 관리한계를 벗어난다. 따라서 단위 면적당 기포 발생 개수는 시간에 따라 변한다고 볼 수 있다. 표본 9는 관리상한을 벗어났으므로 그 이유를 조사하여 시정해야 할 것이며, 표본 1과 6은 공정의 향상을 말해주므로 향상의 요인이 무엇인지를 밝혀내야 할 것이다. Copyright ⓒ 2009 LANDKOREA 300
    • 지수가중이동평균[EWMA] 메뉴의 용도 Case 데이터 Minitab Case 공정평균의 미세한 이동(변동)을 탐지하는 데에 효과적이다. 유리 제품의 중요 특성인 투과율(%) 관리를 위해 16일 동안 매일 하나의 제품에 대해 투과율을 측정하였다. 지수가중 이동평균(EWMA) 관리도를 이용하여 프로세스가 안정적인지를 판단하라 EWMA.mtw Copyright ⓒ 2009 LANDKOREA 301
    • 지수가중이동평균[EWMA] 미니탭 실행 Minitab Case 통계분석 > 관리도 > 시간 가중 관리도 > 지수가중이동평균[EWMA] 과거의 평균과 표준편차를 알고 있는 경우 그 값 을 입력하여 관 리한계선을 작성 할 수 있다. EWMA의 가중치를 지정한다.가중치의 범위는 0과 1사이 의 값이다. 가중치 가 작을 수록 변동 을 잘 감지한다. 부분군의 데이 터가 여러 열 인 경우 Copyright ⓒ 2009 LANDKOREA 302
    • 지수가중이동평균[EWMA] Minitab Case 경고선으로 사용 할 수 있다. 앞서 배운 S 활용한다. 실행 결과 결과 해석 모든 점들이 관리한계선 내에 있으며 특별한 패턴이 보이지 않는 것으로 보아 공정에 이상이 없다고 판단한다. Copyright ⓒ 2009 LANDKOREA 303
    • 누적합[CUSUM] 메뉴의 용도 Case 데이터 Minitab Case 하나의 관측치로 부분군이 형성되는 공정에 효율적이며, 공정평균의 증가 또는 감소와 같이 단측 검증의 경우에 특히 효과적이다. 표준편차가 1.0인 공정으로부터 n=1인 부분군 30개를 취한 것으로, 처음 20개는 관리상태( =10)에서 얻은 것이고 나머지 10개는 공정평균이 1.0σ만큼 증가한 이상상태에서 얻은 것이다. 이 자료에 대해 누적합 관리도를 사용하여 공정 평균이 증가했는지를 판단하시오 cusum.mtw Copyright ⓒ 2009 LANDKOREA 304
    • 누적합[CUSUM] 미니탭 실행 Minitab Case 통계분석 > 관리도 > 시간 가중 관리도 > 누적합[CUSUM] 측정 데이터가 포함되 어 있는 열을 선택하 고 부분군의 크기를 입력한다. Copyright ⓒ 2009 LANDKOREA 목표값을 입력하고 과거의 표준편차를 알고 있는 경우 입력하여 관리한계선을 작성할 수 있다. 305
    • 누적합[CUSUM] Minitab Case 실행 결과 결과 해석 UCL은 h×σ로 구 해진다. 여기서 UCL = 4×1=4가 된다. 21번째 이후의 누적합이 계속해서 증가하여 28,29번째와 30번째 점들이 관리한계선을 벗어나게 됨을 알 수 있다. 따라서 공정평균이 증가했음을 알 수 있다. Copyright ⓒ 2009 LANDKOREA 306
    • 이것만은 기억하자 ! 핵심 Point 1. 관리도 통계학 - 관리도의 내용, 용어설명 및 사용에 대한 이론 학습 2. Minitab 프로그램에서 관리도 - Data 구조와 분산에 따른 적당한 관리도의 선정방법 - 여러 가지 관리도 프로그램의 실행학습 - 관리도 실행 후 결과값의 해석 및 조치 3. 관리도 - BOX-COX 변환 - 부분군 계량형 관리도 - 개별값 계량형 관리도 - 계수형 관리도 Copyright ⓒ 2009 LANDKOREA 307
    • 품질 도구 품질 도구를 잘 이해하고 프로그램을 사용하면? 설명  현황 파악을 위한 측정장비의 기초통계학의 품질 도구의 내용에 따라 학습하고, 신뢰성이 확보되고, 측정된 품질 도구 분석에 사용되는 각 통계용어를 이해하며, 공정능력이 신뢰성을 가져 정확한 Gage 연구와 공정능력분석 활용법을 습득하여, 품질개선을 실행할 수 있다. 현업에서 실행 가능한 실무학습으로 발전시킨다. 품질 도구를 잘 못 이해하고 프로그램을 사용하면? 핵심 1. 품질 도구의 학습을 통하여Gage과 공정능력분석의 용어  측정장비의 신뢰성이 확보되지 들을 학습하고, 실제 통계분석 프로그램의 결과값을 해석 않으며, 이로 인하여 측정된 공정 하기 위한 준비를 한다. 능력의 수준도 불명확하게 되어 효율적인 경영혁신이 어려워 진다. 2. 학습한 내용을 Minitab의 예제 데이터를 활용하여 프로그 램 내의 품질 도구 메뉴의 기능들에 대하여 실행해보며 결과 값을 해석해 본다. Copyright ⓒ 2009 LANDKOREA 308
    • 통계 분석 품질 도구 • 런 차트 • Pareto 차트 • 특성 요인도 • 개별분포 식별 • Johnson 변환 • 공정능력 분석 • Capability Sixpack • Gage 연구 • 계수형 합치도 분석 워크시트 생성 • 계수형 합치도 분석 • 계수형 합격 표본 추출 • 계량형 합격 표본 추출 • 다변량 차트 • 대칭도 Copyright ⓒ 2009 LANDKOREA 309
    • 런 차트 런 차트란? Run Chart는 시간의 흐름에 따른 Data의 변화를 관찰하는데 이용된다. 공정이 안정되게 유지되고 있으며 Sampling이 Random하게 이루어졌다면 Run Chart상의 Data는 일정한 범위 안에서 Random 하게 분포한다. 따라서 Run Chart를 이용하면 Data가 특정 형태를 보이는지 여부 즉, Non-Random 경향을 보이는지 여부를 점검할 수 있으며 이상원인이 존재하는지를 판단할 수 있다. 이러한 경우는 이유를 파악하여 이상원인을 제거하고 Data를 다시 모은 Random Data로 공정능력을 파악해야 한다. SFT 13.5 13.0 12.5 12.0 10 Copyright ⓒ 2009 LANDKOREA 20 Observation 30 40 310 50
    • 런 차트 Mixture 중앙값 근처로 데이터가 나타나지 않는 경향으로, 두 모집단으로부터 혼합된 데이터가 취해 졌을 경우 이런 경향을 보이는 경우가 있다. Run Chart for A 7.25 Mixture Pattern 7.15 A 7.05 6.95 6.85 6.75 6.65 5 15 25 Observation Number of runs about median: Expected number of runs: Longest run about median: Approx P-Value for Clustering: Approx P-Value for Mixtures: 21.0000 15.4828 2.0000 0.9817 0.0183 Copyright ⓒ 2009 LANDKOREA Number of runs up or dow n: Expected number of runs: Longest run up or dow n: Approx P-Value for Trends: Approx P-Value for Oscillation: 20.0000 19.0000 3.0000 0.6754 0.3246 311
    • 런 차트 Cluster 특정 영역에 데이터가 집단으로 모여 있는 경우로서, 측정 오류 및 표본 추출 오류 등에 따른 이상 원인에 의한 산포를 나타낸다. Run Chart for Cluster Cluster Pattern 7.26 Cluster 7.16 7.06 6.96 6.86 6.76 6.66 10 20 30 Observation Number of runs about median: Expected number of runs: Longest run about median: Approx P-Value for Clustering: Approx P-Value for Mixtures: Copyright ⓒ 2009 LANDKOREA 9.0000 16.0000 6.0000 0.0046 0.9954 Number of runs up or dow n: Expected number of runs: Longest run up or dow n: Approx P-Value for Trends: Approx P-Value for Oscillation: 17.0000 19.6667 3.0000 0.1168 0.8832 312
    • 런 차트 Oscillation 데이터가 특정 영역에서 아래 위로 빠르게 변화하는 경우로, 공정이 안정되지 않음을 나타낸다. Run Chart for Oscill Oscillation Pattern 7.2 Oscill 7.1 7.0 6.9 6.8 6.7 6.6 10 20 30 Observation Number of runs about median: Expected number of runs: Longest run about median: Approx P-Value for Clustering: Approx P-Value for Mixtures: Copyright ⓒ 2009 LANDKOREA 18.0000 16.0000 3.0000 0.7713 0.2287 Number of runs up or dow n: Expected number of runs: Longest run up or dow n: Approx P-Value for Trends: Approx P-Value for Oscillation: 313 25.0000 19.6667 3.0000 0.9914 0.0086
    • 런 차트 Trend 특정 영역의 데이터가 집단적으로 증가하거나 감소하는 경향을 보이는 경우로서, 공정이 곧 관리 상태에서 벗어 날 수 있음을 경고하는 것이다. 부품 마모, 장비 Setting 의 변경, 작업자 변경 등으로 인하여 발생될 수 있다. Run Chart for Trend Trend Pattern 7.28 7.18 Trend 7.08 6.98 6.88 6.78 6.68 10 20 30 Observation Number of runs about median: Expected number of runs: Longest run about median: Approx P-Value for Clustering: Approx P-Value for Mixtures: Copyright ⓒ 2009 LANDKOREA 14.0000 16.0000 7.0000 0.2287 0.7713 Number of runs up or dow n: Expected number of runs: Longest run up or dow n: Approx P-Value for Trends: Approx P-Value for Oscillation: 314 15.0000 19.6667 5.0000 0.0185 0.9815
    • 런 차트 메뉴의 용도 Case 데이터 Minitab Case 데이터를 타점하여 꺽은선 그래프로 나타낸 그림으로 군집(Clustering), 혼합 (Mixtures), 경향(Trends), 순환(Oscillation)의 경향분석이 가능함. 부분군의 크기가 3인 Gap Data를 10회에 걸쳐 측정한 후 측정 Data에 특정 패턴이 있는지를 Run Chart를 이용하여 분석하고자 한다. Analgraph01.mtw Copyright ⓒ 2009 LANDKOREA 315
    • 런 차트 미니탭 실행 Minitab Case 통계분석 > 품질 도구 > 런 차트 Copyright ⓒ 2009 LANDKOREA 316
    • 런 차트 Minitab Case 실행 결과 결과 해석 군집(Clustering), 혼합(Mixtures), 추세(Trends), 진동(Oscillation)에 대한 P-value가 모두 0.05이상이므로 '간격 데이터는 특정 패턴을 보이지 않고 랜덤하다'라는 결론을 내릴 수 있다. Copyright ⓒ 2009 LANDKOREA 317
    • Pareto 차트 Pareto 분석이란? 문제의 80%를 만들어 내는 소수인자(20%)를 찾아내는 것 파레토(Pareto)법칙 19세기 이탈리아의 경제학자 Vilfredo Pareto에 의해 발견 “국가 전체의 80%의 부(Wealth)가 국민 전체의 20%에 의해 소유” “80/20 법칙” Juran “20%의 원인이 80%의 불량을 만들어 낸다” Vital Few, Trivial Many (“Trivial Many”로부터 “Vital Few”를 이끌어 냄) Copyright ⓒ 2009 LANDKOREA 318
    • Pareto 차트 Pareto 분석 파레토 분석을 도식화해 보면... 파레토 차트의 예(불량분석) 80% Cum Percent Percent 소수 치명인자 (Vital Few) 누적 Line 다수 사소인자 (Trivial Many) Copyright ⓒ 2009 LANDKOREA 319
    • Pareto 차트 Pareto 차트의 특성 • 정의 Data를 항목별로 분류해서 크기순서대로 나열한 그림으로서 -. 문제가 되는 결점이나, 불량, 사고, 고장, 실패 등을 그 현상이나 원인별로 분류 -. 수집한 data 를 가로축에 큰 순서대로 나열 -. 세로축에 손실금액, 불량 개수, 불량율, 발생수 등 크기를 막대그래프와 누적곡선으로 나타낸 그림. • 특성 1) 문제의 크기, 순위를 한눈에 알 수 있다. 2) 어느 항목이 큰 문제가 되는지를 쉽게 찾아낼 수 있다. 3) 각 항목(또는 중점항목)이 전체의 어느 정도를 점유하는지 알 수 있다. 4) 문제의 크기를 한눈에 볼 수 있기 때문에 설득력이 있다. 5) 복잡한 계산을 필요로 하지 않기 때문에 수월하게 그림을 그릴수가 있다. Copyright ⓒ 2009 LANDKOREA 320
    • Pareto 차트 메뉴의 용도 Case 데이터 Minitab Case 불량, 결점, 고장 등의 발생건수나 손실금액을 항목별로 나누어 발생빈도의 순으로 나열하고, 발생빈도의 누적합도 표시한 그림 휴대폰을 생산하는 공정에서 1000개 불량품의 불량 유형을 분석하고자 한다. Analgraph02.mtw Copyright ⓒ 2009 LANDKOREA 321
    • Pareto 차트 미니탭 실행 Minitab Case 통계분석 > 품질 도구 > Pareto 차트 Copyright ⓒ 2009 LANDKOREA 322
    • Pareto 차트 Minitab Case 실행 결과 결과 해석 중점관리대상은 납땜 불량임을 알 수 있다. 막대그래프 위의 빨간색 꺾은선 그래프는 누적 퍼센트 값이다. 납땜불량 항목을 개선한 후 데이터를 수집하여 다시 파레토 차트를 작성함으로써 품질 개선효과를 계속 높일 수 있다. Copyright ⓒ 2009 LANDKOREA 323
    • 특성요인도 특성요인도란? 일의 결과(제품특성, CTQ, Y)에 영향을 미치는 원인(요인, CTQ의 영향 인자)이 무엇인지 명확히 하고, 중요하다고 생각되는 원인에 대해 대책을 세우기 위해 결과에 영향을 미치는 잠재원인을 물고기 뼈 모양으로 정리한 것. 요인 특성 특성(일, 공정의 결과) 요 인 (원 인) * 동경대학 石川(이시가와) 교수가 1953년에 고안한 기법 * Fish-bone , Cause-Effect Diagrams 등으로도 불림. Copyright ⓒ 2009 LANDKOREA 324
    • 특성요인도 메뉴의 용도 Minitab Case 품질특성에 영향을 주는 원인이 어떻게 관계하고 있는가를 한 눈으로 알 수 있도록 작성한 그래프로 생선뼈 그림(Fishbone Diagram) 또는 이시가와 다이아 그램 (Ishikawa Diagram)이라고도 한다. Case 오일 배출통의 주된 반품 원인이 성형불량 이였는데 이를 해결하기 위한 특성요인도를 그리고자 한다. 데이터 Analgraph06.mtw Copyright ⓒ 2009 LANDKOREA 325
    • 특성요인도 미니탭 실행 Minitab Case 통계분석 > 품질 도구 > 특성요인도 Copyright ⓒ 2009 LANDKOREA 326
    • 특성요인도 Minitab Case 실행 결과 결과 해석 해결하고자 하는 문제는 성형불량이며, 이에 대한 주요 요인으로 작업자, 재료, 도구, 작업조건, 작업방법 등 5가지가 있으며, 이들 주요 요인들에 대한 특성과 잠재적인 원인이 여러개가 도출되어 개선의 실마리를 쉽게 찾을 수 있다. Copyright ⓒ 2009 LANDKOREA 327
    • 개별 분포 식별 메뉴의 용도 Minitab Case 정규성을 따르지 않는 데이터가 비정규의 여러 분포들 중 어떤 분포에 적합한지 식별함. Case 하루에 10개씩 10일 동안 휘어짐(Warping) 데이터를 수집하여 공정능력을 분석을 하고자 한다. 이 데이터의 분포는 정규성을 따르지 않음. 데이터 Capa02.mtw Copyright ⓒ 2009 LANDKOREA 328
    • 개별 분포 식별 미니탭 실행 Minitab Case 통계분석 > 품질 도구 > 개별 분포 식별 Copyright ⓒ 2009 LANDKOREA 329
    • 개별 분포 식별 Minitab Case 실행 결과 Copyright ⓒ 2009 LANDKOREA 330
    • 개별 분포 식별 Minitab Case 실행 결과 결과 해석 AD값은 낮고, P값은 큰 분포를 적절한 분포로 선택한다. (Weibull 분포) 이전에 경험적으로 사용된 비슷한 분포가 있다면, 그 분포를 사용한다. AD는 단지 수학적인 값으로 실제상황에 대한 메커니즘을 잘 이해할 필요가 있음. Copyright ⓒ 2009 LANDKOREA 331
    • 공정 능력 분석 공정 능력 지수 공정능력지수는 설계능력(규격) 대비 공정이 나타내고 있는 6 sigma 범위(공정능력)의 비율임. Cp = 설계능력(규격) / 공정능력 -3sst μ0 +3sst 공정능력 Process Width Design Width 설계능력(규격) T LSL USL Copyright ⓒ 2009 LANDKOREA 332
    • 공정 능력 분석 단기 공정 능력 지수[Cp] • 공정이 달성 할 수 있는 최고의 능력을 의미 함 • 최소의 공정 변동을 나타내는 기간 동안의 능력 • 최고의 공정 능력을 나타내는 기간 동안의 성과 • 일반적으로 단기 공정 능력이 공정 개선을 위한 잠재력을 정량화 하기 위한 목표로 사용됨 -3sst m0 +3sst Cp = Cp = Process Width Design Width (특성치의 최대 허용가능한 범위) (공정의 자연적인 변동 -- Short Term) │USL-LSL│ ±3s st Zst = 3 Cp T LSL USL 시간에 따른 변화를 고려안함. Copyright ⓒ 2009 LANDKOREA 333
    • 공정 능력 분석 단기 공정 능력 지수[Cpk] Cpk = Cp (1 - k) * K는 공차범위에서 정적인(Static) 평균의 변화(Shift)가 차지하는 비율을 말함 │T - m│ k = (USL-LSL)/2 Example: Cp = 2, k = .25 Cpk = 2( 1 - .25 ) = 1.5 m0 m1 6s st 4.5s st 0 ppm LSL 3.4 ppm T USL 시간에 따른 변화를 고려함. Copyright ⓒ 2009 LANDKOREA 334
    • 공정 능력 분석 단기 공정 능력 지수의 중요성 • 현재 공정이 나타내고 있는 성과( Long Term Performance)와, 공정이 최고로 나타낼 수 있는 공정 능력( Short Term Capability ) 간의 차이를 이해 함으로서 개선 방향을 설정할 수 있다. • 위의 두 지표 간의 차이가 클수록, 공정 관리가 잘되고 있지 않음을 의미한다. •단기 공정 능력은 시간이 흐름에 따라 평균적으로 1.5 sigma 만큼 자연스럽게 이동한다. Zst : 우연원인 Zst: 이상원인 + 우연원인 Copyright ⓒ 2009 LANDKOREA 335
    • 공정 능력 분석 장기 공정 능력 지수[Pp] Pp = m0 -3slt +3slt Pp = (특성치의 최대 허용가능한 범위) (공정의 정상적인 변동 -- Long Term) │USL-LSL│ ±3s lt Process Width Zlt = 3 Pp Design Width T LSL USL Short-term 분포 오직 순수한 에러, 즉 White Noise만을 보여준다. 평균은 인위적으로 목표값(target)에 일치한다. Long-term 분포 white noise와 black noise를 보여준다. 이 경우에 black noise는 표준편차를 크게하는 경향이 있는 공정 의 non-random한 변동을 말한다. Pp의 경우에, 평균은 인위적으로 목표값(target)에 일치한다. Note: Pp 는 한가지 예외를 제외하고는 Cp와 공식이 같다. 즉, Pp는 long-term의 표준편차를 적용하고 Cp는 shortterm의 표준편차를 적용한다. Copyright ⓒ 2009 LANDKOREA 336
    • 공정 능력 분석 장기 공정 능력 지수[Ppk] Ppk = Pp (1 - k) │T - m│ k = (USL-LSL)/2 *K는 공차범위에서 정적인(Static) 평균의 변화(Shift)가 차지하는 비율을 말함 Long Term m0 m1 정적인 변화가 있는 Long Term Short Term LSL T USL Note: Ppk 는 한가지 예외를 제외하고는 Cpk와 공식이 같다. 즉, Ppk는 long-term의 표준편차를 적용하고 Cpk 는 short-term의 표준편차를 적용한다. Copyright ⓒ 2009 LANDKOREA 337
    • 공정 능력 분석 표준편차의 비교 Overall 표준편차와 Pooled 표준편차 시간1 시간2 시간3 시간4 시간1 시간2 시간3 시간4 Short Term Long Term μ LSL USL 장기 공정 성과 계산을 위한 표준 편차. 총변동, 즉, 우연요인과 이상요인이 모두 작용한 변동. Overall 표준편차 =s lt  T USL Pooled 표준편차 Overall 표준편차 ^ LSL (X i - X )2 n -1 단기 공정 능력 계산을 위한 표준 편차. 군내변동 즉, 우연요인/ Noise만 작용한 변동. 시간이 지남에 따라 군간에 발생하는 차이는 고려하지 않음 ^ Pooled 표준편차 =s st  S P   ( X i j 338 - X i )2  (n - 1) i i Copyright ⓒ 2009 LANDKOREA ij
    • 공정 능력 분석 Z bench란? 어떤 공정 특성치에 대하여 우리가 양쪽 스펙으로, 즉 USL, LSL 로 관리 하고 있다면, 양쪽 스펙을 벗 어나는 불량을 동시에 고려해 주는 Z 값을 계산해 줄 필요가 있다. 그래서, Z Bench 는 현 공정이 가지 고 있는 전체 불량을 나타내는 지수로 쓰인다. Z Bench 는 ZUSL 와 ZLSL 을 계산 했을 때 추정되는 불 량률을 합한 전체 불량 율을, 다시 Z 값으로 나타낸 값이다. LSL USL Z Bench  Z ( p ( d )USL+ p ( d ) LSL ) = Z ( 0.1190 + 0.0174 ) = Z ( 0.1364 ) Z Bench  Z ( p ( d )USL+ p ( d ) LSL ) Copyright ⓒ 2009 LANDKOREA = 1.0966 339
    • 공정 능력 분석 공정 능력 지수 요약 산포만을 고려 단기 표준 편차 산포와 중심의 위치를 고려 Cp Cpk Zst [한쪽 스펙인 경우] Pp 장기 표준 편차 [사용되지 않음] Ppk 공장 정기 이간 동에 의 정걸 도친 Zlt 프로세스가 중심에 위치하는 정도 • 위의 두 Block에서 값들간의 큰 차이는 프로세스가 Target 상에 있지 않음을 가리킨다. 이 때는 평균을 Target 에 가까이 위치시키기 위한 노력이 필요해진다. • 오른쪽 두 Block에서의 값들간의 큰 차이는 장기간에 걸쳐 프로세스가 이동 (Shift)하고 있음을 가리킨다. 프로세스 관리가 개선되고 있음을 알 수 있다. Copyright ⓒ 2009 LANDKOREA 340
    • 공정 능력 분석(정규 분포) 메뉴의 용도 Case 데이터 Minitab Case 히스토그램을 정규분포곡선과 함께 도시해 주고 데이터의 평균, 단기 및 장기 표준편차, 단기 및 장기 공정능력지수, 관측된 PPM, 단기 및 장기 예상 PPM 등을 함께 나타낸다. 접착용 풀을 생산하는 6개의 생산라인으로 부터 각 5개의 점도 데이터를 취하여 공정 능력을 계산하고자 한다. (단, 규격 : 3,500±500cps) Capa01.mtw Copyright ⓒ 2009 LANDKOREA 341
    • 공정 능력 분석(정규 분포) 메뉴의 용도 Minitab Case 통계분석 > 품질 도구 > 공정 능력 분석 > 정규 분포 규격 상한과 하한 부분군의 크기 혹은 부 분군 Index가 들어있는 칼럼 기입 Copyright ⓒ 2009 LANDKOREA 342
    • 공정 능력 분석(정규 분포) Minitab Case 실행 결과 결과 해석 공정능력분석 결과 부분군내 변동만을 고려한 단기표준편차는 130.695이고, 장기표준편차는 166.848이다. 그리고 현재의 프로세스가 도달할 수 있는 최적조건의 공정능력, 즉, 공정의 잠재능력을 의미하는 Cp는 1.28, 현재 프로세스의 능력을 의미하는 Ppk (실제공정능력지수)는 0.91이며 PVC 점도에 대한 공정 불량률은 3725.63 PPM이다. Copyright ⓒ 2009 LANDKOREA 343
    • 공정 능력 분석(정규 분포) Copyright ⓒ 2009 LANDKOREA 용어 344
    • 공정 능력 분석(군간/군내) 메뉴의 용도 Case 데이터 Minitab Case 장기공정능력지수와 함께 부분 군내의 변동과 부분 군간의 변동을 따로 구하여 이들의 합을 기준으로 계산한 공정능력지수를 보여준다. 접착용 풀을 생산하는 6개의 생산라인으로 부터 각 5개의 점도 데이터를 취하여 공정능력을 계산하고자 한다. (단, 규격 : 3,500±500cps) Capa01.mtw Copyright ⓒ 2009 LANDKOREA 345
    • 공정 능력 분석(군간/군내) 미니탭 실행 Minitab Case 통계분석 > 품질 도구 > 공정 능력 분석 > 군간/군내 Copyright ⓒ 2009 LANDKOREA 346
    • 공정 능력 분석(군간/군내) Minitab Case 실행 결과 결과 해석 부분 군내 및 군간 변동을 합하여 구한 표준편차 StDev(Total)를 이용하여 구한 공정능력 지수는 Cp = 1.11, 전체적인 공정능력은 Ppk = 0.91이다. 만약, 부분 군간 표준편차 사이 (Between)의 값이 0에 가까우면 공정이 매우 안정되어 있거나, 부분 군이 합리적으로 형성되지 않았음을 의미한다. 따라서 현실적으로 이와 같은 상황이 발생하면 도시된 히스토그램의 검토와 함께 부분 군 형성이 합리적으로 되었는지를 일차적으로 점검해야 한다. 부분 군간 표준편차(Between)의 값이 0이 되면, 계산 상으로는 단기 표준편차 (Within)가 전체 표준편차(Overall)보다 크게 된다. Copyright ⓒ 2009 LANDKOREA 347
    • 공정 능력 분석(비정규 분포) 메뉴의 용도 Minitab Case 데이터가 정규 분포를 따르지 않으나, Box-cox 변환 시 정규분포를 따를 경우 장기공정능력지수의 정보를 제공한다. Case 하루에 10개씩 10일 동안 휘어짐(Warping) 데이터를 수집하여 공정능력을 분석을 하고자 한다. (단, 규격상한이 8로서 한쪽 규격만 주어져 있다. ) 데이터 Capa02.mtw Copyright ⓒ 2009 LANDKOREA 348
    • 공정 능력 분석(비정규 분포) Minitab Case 미니탭 실행 1) 표준편차를 최소로 하는 λ = 0.43 2) 변환된 값의 정규분포 확인 3) 공정능력 분석 (정규) 활용 4) λ 설정 Copyright ⓒ 2009 LANDKOREA 349
    • 공정 능력 분석(비정규 분포) Minitab Case 실행 결과 결과 해석 현재 공정능력은 PPK = 0.77로서 개선이 요구됨을 알 수 있고, 뒤틀림에 대한 전체 공정불량률은 15785.72PPM이다 Copyright ⓒ 2009 LANDKOREA 350
    • 공정 능력 분석(비정규 분포) 메뉴의 용도 Minitab Case 데이터가 정규 분포를 따르지 않고, Box-cox 변환 시에도 정규분포를 따르지 않는 경우 장기공정능력지수의 정보를 제공한다. Case 하루에 10개씩 10일 동안 휘어짐(Warping) 데이터를 수집하여 공정능력을 분석을 하고자 한다. (단, 규격상한이 8로서 한쪽 규격만 주어져 있다. ) 데이터 Capa02.mtw 앞선 공정능력분석 (비정규) Box-Cox 와 동일한 Data이나,교육을 위하여 Box-Cox변환시에도 정규분포를 따르 지 않는다고 가정한다. 앞서 Study한 개별 분포 식별에서 우 리는 이 Data가 Weibull 분포에 적합 하다는 것을 찾았음. Copyright ⓒ 2009 LANDKOREA 351
    • 공정 능력 분석(비정규 분포) 미니탭 실행 Minitab Case 통계분석 > 품질 도구 > 공정 능력 분석 > 비정규 분포 Copyright ⓒ 2009 LANDKOREA 352
    • 공정 능력 분석(비정규 분포) Minitab Case 실행 결과 결과 해석 실제 데이터의 분포를 나타내는 히스토그램과 적색 곡선으로 도시된 이론적인 와이블 분포 곡선 사이에 심각한 차이가 없으므로 데이터가 와이블 분포를 따른다고 볼 수 있다. 따라서, 분석결과 계산된 PPU, PPK, PPM은 올바른 값으로 볼 수 있다. 현재 공정능력은 PPK = 0.73으로서 개선이 요구됨을 알 수 있고, 뒤틀림에 대한 전체 공정불량률은 10764.5PPM이다 Copyright ⓒ 2009 LANDKOREA 353
    • 공정 능력 분석(비정규 분포) Minitab Case 실습 전화비용.mtw를 Open하여 공정 능력을 구하시오. (이상치로 판단되는 데이터를 버리지 않고 모두 포함한다.) Case XXX 프로젝트 팀은 전화비용을 절감하기 위하여 프로젝트를 진행 중이며, 측정 지표로써 개별 전화기의 비용을 Y로 선정하였다. 그리고, 동일 업종의 동일 규모 회사의 전화기 비용인 40,000(원/개별 전화기)을 Spec.으로 규정하였다. 질문 정규분포를 따르는가? Box-Cox 변환에 따라서 정규분포를 따르는가? 어떤 비정규 분포가 적합한가? Copyright ⓒ 2009 LANDKOREA 354
    • 공정 능력 분석(이항 분포) 메뉴의 용도 Minitab Case 데이터가 불량품의 수 등으로 이항분포를 따를 때 공정능력의 평가를 위해 사용할 수 있으며 P관리도, 누적불량률 꺾은선 그래프, 이항확률지, 불량률의 분포를 한꺼번에 도시하여 공정의 관리상태와 공정능력의 부족 여부를 한 눈에 파악할 수 있도록 해주고 불량률도 함께 나타내 준다. Case 입고 검사에서 발견된 불량품의 개수를 나타낸 데이터가 아래와 같을 때 공정능력을 계산하라. 샘플의 크기는 20이다. 데이터 Capa03.mtw Copyright ⓒ 2009 LANDKOREA 355
    • 공정 능력 분석(이항 분포) 미니탭 실행 Minitab Case 통계분석 > 품질 도구 > 공정 능력 분석 > 이항 분포 모집단에 대 한 불량률을 알고 있을 때 그 값을 입력 샘플크기가 동일한 경우 샘플크기가 다른 경우 샘 플크기를 입 력한 열 선택 목표 불량률 지정 Copyright ⓒ 2009 LANDKOREA 356
    • 공정 능력 분석(이항 분포) Minitab Case 실행 결과 ① ③ ② 결과 해석 ④ ①은 P관리도로 관리한계선을 벗어나는 점들이 없고 모든 점들이 관리한계선 내에 랜 덤하게 분포되어 공정이 안정상태에 있다. 누적불량률 챠트는 불량률에 대해 안정한 추정치를 줄 수 있는 충분한 데이터를 가졌는지를 확인할 수 있도록 해준다. 그림②에 서 샘플 10부터 누적불량률이 큰 변동 없이 이어져가고 있으며 갈수록 평균에 가까워 지고 있으므로 불량률의 추정에 충분한 데이터가 확보되었다고 하겠다. 그림 ③은 이 항분포를 가정할 때의 기대 불량 개수와 관측 불량 개수의 관계를 보여주는데 타점된 결과가 기울기 1인 직선에 근사하므로 불량품 수가 이항분포를 따른다고 하겠다. 그 림 ④는 표본 불량률의 분포를 나타내는 히스토그램이다. 현재 이 공정의 불량률은 115,000 PPM이며 95%신뢰구간은 (85436 , 150403)으로 개선이 많이 요구되는 공 정이라 하겠다. Copyright ⓒ 2009 LANDKOREA 357
    • 공정 능력 분석(포아송) 메뉴의 용도 Minitab Case 데이터가 결점수 등으로 Poisson 분포를 따를 때 공정능력의 평가를 위해 사용되며 U관리도, 누적 DPU 꺾은선 그래프, 표본크기별 DPU Dot Plot, DPU의 분포를 한꺼번에 도시하여 공정의 관리상태와 공정능력의 부족 여부를 한 눈에 파악할 수 있도록 해주고 DPU도 함께 나타내 준다. Case 옷감의 단위 면적당 표면에 발생한 얼룩 불량 수를 샘플링 순서에 따라 나타낸 데이터가 아래와 같을 때 공정능력을 평가하라. 데이터 Capa04.mtw Copyright ⓒ 2009 LANDKOREA 358
    • 공정 능력 분석(포아송) 미니탭 실행 Minitab Case 통계분석 > 품질 도구 > 공정 능력 분석 > 포아송 샘플크기가 동일한 경우 모집단에 대한 결점수 의 평균을 알고 있을 때 그 값을 입력 샘플크기가 다른 경우 샘 플크기를 입 력한 열 선택 단위당 결함수에 대한 목표치 지정 Copyright ⓒ 2009 LANDKOREA 359
    • 공정 능력 분석(포아송) Minitab Case 실행 결과 ① ③ ④ ② 결과 해석 C 관리도(①)에서 관리한계선을 벗어나는 점들이 없으며 모든 점들이 관리한계선 내에 랜덤하게 분포되어 공정이 안정상태에 있다. 누적DPU 챠트(②)에서 DPU에 대해 안정된 추정치를 줄 수 있는 충분한 데이터를 가졌는지를 확인할 수 있는데, 샘플 18부터 누적 DPU 가 큰 변동 없이 평균에 가까워지고 있으므로 이 데이터에 의한 DPU에 대한 추정치가 올바르다고 하겠다. Poisson Plot(③)에서는 관측된 결함수와 Poisson분포를 가정하고 추정된 결함수의 기대치와의 관계를 나타내고 있는데, 타점된 모양이 기울기 1인 직선에 근사하므로 주어진 데이터가 Poission분포를 따른다고 볼 수 있다. 만일 시료군의 크기가 동일하지 않은 경우 Dialog box에서 Use sizes in..을 지정하였다면 그림 ③에는 샘플의 크기에 의해 불량률이 영향을 받고 있는가를 평가하는 Defect Rate 가 생성될 것이다. 그림 ④는 DPU의 분포를 보여준다. 분석 결과, 평균 DPU는 2.95개이며 95% 신뢰구간은 (2.24568 , 3.80529)으로서 단위 면적당 평균 3개 정도의 기포불량이 발생하고 있다. Copyright ⓒ 2009 LANDKOREA 360
    • Capability Sixpack 메뉴의 용도 Minitab Case 관리도(2개), Dot Plot, 히스토그램, 정규확률지, Capability Plot을 한꺼번에 도시 하여 공정의 관리상태 여부, 데이터의 정규성, 공정능력의 부족 여부를 한 눈에 파악 할 수 있도록 해 준다. Case 접착용 풀을 생산하는 6개의 생산라인으로 부터 각 5개의 점도 데이터를 취하여 공정능력을 계산하고자 한다. (단, 규격 : 3,500±500cps) 데이터 Capa01.mtw Copyright ⓒ 2009 LANDKOREA 361
    • Capability Sixpack 미니탭 실행 Minitab Case 통계분석 > 품질 도구 > Capability Sixpack > 정규 분포 Copyright ⓒ 2009 LANDKOREA 362
    • Capability Sixpack Minitab Case 실행 결과 ① ④ ② ⑤ ③ ⑥ 결과 해석 Xbar 관리도(①)에는 세번 째 점이 관리 상한선을 벗어나, 공정 평균에 변화가 있었음을 알 수 있고 R관리도(②)로 보아 공정 산포에는 이상이 없음을 알 수 있다. Run chart(③)에는 경향이나 주기 등 공정 변화의 뚜렷한 패턴이 나타나지 않고 있다. 또, Capability Histrogram(④)이 적색으로 도시된 이론적인 정규분포 곡선과 큰 차이를 보이지 않고 정규 확률지(⑤)는 근사적으로 직선의 형태를 취하고 있으므로 데이터는 정규분포를 따른다고 할 수 있다. 따라서, 이 데이터에 의하여 분석된 결과는 대체로 올바르다고 하겠다. 분석 결과, 실제 공정능력은 Ppk = 0.91로서 가이드라인 1.33보다 작으므로 1차적으로 관리를 통하여 공정을 안정시켜야 한다. 이 공정의 최적 조건에서의 잠재능력이 Cp = 1.28로서 1.33보다 작으므로 공정이 안정된다고 하더라도 공정의 산포를 감소시키기 위한 2차적인 노력이 필요하다고 하겠다. Copyright ⓒ 2009 LANDKOREA 363
    • Capability Sixpack 메뉴의 용도 Minitab Case 데이터가 Weibull 분포를 따를 때, 관리도, Dot Plot, 히스토그램, 정규확률지, Capability Plot을 한꺼번에 도시하여 공정의 관리상태 여부, 데이터의 정규성, 공 정능력의 부족 여부를 한 눈에 파악 할 수 있도록 해 준다. Case 하루에 10개씩 10일 동안 휘어짐(Warping) 데이터를 수집하여 공정능력을 분석을 하고자 한다. (단, 규격상한이 8로서 한쪽 규격만 주어져 있다. ) 데이터 Capa02.mtw Copyright ⓒ 2009 LANDKOREA 364
    • Capability Sixpack 미니탭 실행 Minitab Case 통계분석 > 품질도구 > Capability sixpack > 비정규 분포 앞서 비정규 분포에 대 하여 개별분포 식별에 서 Weibull을 찾았고, 이를 활용함. Copyright ⓒ 2009 LANDKOREA 365
    • Capability Sixpack Minitab Case 실행 결과 ① ④ ② ⑤ ③ 결과 해석 ⑥ Xbar 관리도(①)와 R관리도(②) 모두 관리한계선을 벗어나는 점이 없이 모든 점들이 관리 한계선 내에 랜덤하게 분포되어 공정이 안정상태에 있다고 할 수 있다. 또, Run chart(③) 에서도 점들이 부분군 순으로 수평으로 랜덤하게 산포되어있으며 어떤 경향이나 주기 등을 발견할 수 없다. Capability Histrogram(④)에서 실제 데이터의 분포를 나타내는 히스토 그램과 적색으로 도시된 이론적인 와이블 분포 곡선 간에 심각한 차이를 보이지 않고, 와이블 확률 plot(⑤)에서도 데이터들이 근사적으로 직선의 형태로 분포되어 있다. 따라서, 데이터는 와이블 분포를 따른다고 할 수 있고 이에 의거한 공정능력분석 결과는 올바르다고 하겠다. 현재 공정은 안정되어 있지만 공정능력지수가 Ppk = 0.73로서 공정능력 판정 가이드라인 1.33보다 작기 때문에 산포를 감소시키는 노력을 기울여야 한다. Copyright ⓒ 2009 LANDKOREA 366
    • Gage 연구 Gage R&R 이란? • 정의 - 측정시스템 자체가 공정의 변동 값에 얼마나 영향을 주는지를 통계적으로 검정하는 방법 총변동 = 부품간 변동 + Gage R & R 반복성(Repeatability) 한사람의 측정자가 동일 부품의 동일특성을 동일한 Gage로 반복측정 하였을때 얻어지는 변동 (Gage 의 오차) Copyright ⓒ 2009 LANDKOREA 재현성(Reproducibility) 서로다른 측정자가 동일 부품의 동일 특성치에 대하여 동일한 Gage로 반복 측정하였을때 얻어지는 변동 (측정자의 오차) 367
    • Gage 연구 변동의 분해 측정된 실제 변동 부품간 발생되는 변동 군간변동 측정오차로 인한 변동 측정자변동 (Reproducibility) 군내변동 Gage 변동 정확도 M 반복성 AN POWER ETHOD ATERIAL ACHINE & ENVIRONMENT EASUREMENT Copyright ⓒ 2009 LANDKOREA 안정성 선형성 368
    • Gage 연구 용어의 이해 • 반복성(Repeatability) 이란? 반복성(Repeatability) : “일관성 있는 결과를 얻는 것” 반복 측정시의 변동 • 재현성(Reproducibility)이란? 측정자 B 측정자 C 측정자 A 재현성 Copyright ⓒ 2009 LANDKOREA 369
    • Gage 연구 용어의 이해 • 안정성(Stability) 이란? • 선형성(Linearity)이란? Time1 측정값 USL LSL 참값 안정성 Time2 측정값 (편차 없음) 참값 ☞ 표준품(Master품)을 동일한 계측기를 사용하여 동일한 특성치에 대하여 시간 간격을 두고 측정하였을 때 얻어지는 측정치의 변동 정확도 편차 大 Copyright ⓒ 2009 LANDKOREA 정확도 편차 小 370
    • Gage 연구 측정 시스템 분석결과 해석 1. %R&R ≤ 10% (혹은 20) - 측정 시스템이 양호 함. 2. 10% < %R&R < 30% - 사용될 수도 있음 - 측정하는 특성치, 하드웨어 적용, 고객 요구, 공정의 Sigma 수준에 의해 결정됨. 3. %R&R ≥ 30% - 사용에 부적절함. - 문제를 찾고, 근본 원인을 제거한다. Copyright ⓒ 2009 LANDKOREA 371
    • Gage 런 차트 Minitab Case 메뉴의 용도 Gage R&R결과 측정시스템이 만족스럽지 못할 경우, 그 원인을 추적하는데 사용 할 수 있음. Case 10개의 표본에 대해 3명의 측정자가 2회 반복 측정 하였다. 측정치의 이상 경향을 분석 하고자 한다. 데이터 Gage01.mtw Copyright ⓒ 2009 LANDKOREA 372
    • Gage 런 차트 미니탭 실행 Minitab Case 통계분석 > 품질 도구 > Gage 연구 > Gage 런 차트 Copyright ⓒ 2009 LANDKOREA 373
    • Gage 런 차트 Minitab Case 실행 결과 결과 해석 작업자 2는 대부분의 경우 첫 번째 측정치보다 두 번째 측정치를 작게 측정하는 경향이 있으며 부품 10의 경우 각 작업자 별로 상이한 측정치를 보여 주고 있어 그 원인을 규명할 필요가 있음을 알 수 있다. Copyright ⓒ 2009 LANDKOREA 374
    • Gage 선형성 및 치우침 연구 메뉴의 용도 Minitab Case Gage의 측정값에 따른 정확도 차이 즉, 선형성을 분석한다. Case Master값이 7~15인 5개의 Master 샘플을 반복 측정하여 Gage의 선형성을 분석하고자 한다. 단, Process variance는 15라는 사실을 알고 있음. 데이터 Gage03.mtw Copyright ⓒ 2009 LANDKOREA 375
    • Gage 선형성 및 치우침 연구 미니탭 실행 Minitab Case 통계분석 > 품질 도구 > Gage 연구 > Gage 선형성 및 치우침 연구 Copyright ⓒ 2009 LANDKOREA 376
    • Gage 선형성 및 치우침 연구 Minitab Case 실행 결과 결과 해석 이 계측기는 측정 구간에 따라 오차의 부호 및 값이 선형으로 변하고 있고, %선형성은 13.2로서 아래 평가 기준치와 비교해 볼 때, 계측기로서 사용이 부적합하므로 적절한 교정이 요구되고 있다. 편향성은 양호한 것으로 판단됨. Copyright ⓒ 2009 LANDKOREA 377
    • Gage R&R (교차) 연구 메뉴의 용도 Case Minitab Case 일반적인 측정장비의 반복성과 재현성을 분석할 수 있다. 10개의 표본에 대해 3명의 측정자가 2회 반복 측정 하였다. 측정치의 반복성과 재현성을 분석하고자 한다. 규격공차 : 1  X +- 0.5 데이터 Gage01.mtw Copyright ⓒ 2009 LANDKOREA 378
    • Gage R&R (교차) 연구 미니탭 실행 Minitab Case 통계분석 > 품질 도구 > Gage 연구 > Gage R&R (교차) 연구 %Tolerance를 얻기 위해 규격폭을 입력 Copyright ⓒ 2009 LANDKOREA 379
    • Gage R&R (교차) 연구 Minitab Case 실행 결과 R&R, Repeat, Reprod의 높이가 0에 가까울수록 좋음. 작업자별 반복 측정치가 안정 되어있는가를 판단 서로다른 부품을 구별하는 능력이 충분한가를 판단. 관리선을 많이 벗어날수록 좋음. 선정된 표본이 공정의 산포를 제대로 표현 하는지를 판단. ① ④ ② ⑤ 작업자간 유의차 판단 ③ ⑥ 표본에 따라 작업자가 동일하게 측정하는지 판단. 결과 해석 %Tolerance는 40.16%로서 평가 기준치와 비교해 볼 때 측정시스템이 만족스럽지 못함. 특히 재현성과 관련하여 문제를 찾고 개선해야 함. 측정자간 차이가 큼. 샘플을 뽑을때 LSL~USL전반에걸쳐 뽑는다 측정자가 특정 부품에서의 변동이 큼 범주의수가 5이상되야함. (Part 10) Copyright ⓒ 2009 LANDKOREA 380
    • Gage R&R (내포) 연구 메뉴의 용도 Case Minitab Case 파괴 검사가 되는 Gage의 분석시 사용됨. 동일 조건에서 생산된 제품들로 배치를 구성하여 총 15개의 배치로부터 각 2개씩 표분을 취하였다. 해당 표본을 3명의 측정자가 각각 5개 배치로 부터 취해진 10개 표본에 대한 강도를 측정하고 Gage의 정밀도를 분석하고자 한다. 데이터 Copyright ⓒ 2009 LANDKOREA (Gage02.mtw) 381
    • Gage R&R (내포) 연구 미니탭 실행 Minitab Case 통계분석 > 품질 도구 > Gage 연구 > Gage R&R (내포) 연구 Copyright ⓒ 2009 LANDKOREA 382
    • Gage R&R (내포) 연구 Minitab Case 실행 결과 ① 전체 변동중 측정 시스템 변동이 매우 큼. 측정 시스템이 부품 특성의 차이를 거의 식별하지 못함. ④ ② ⑤ ③ ⑥ 부품과 측정자간의 교호작용을 따로 분리 못하기에 그림도 없음. 결과 해석 %Tolerance는 43.58%로서 평가 기준치와 비교해 볼 때 측정시스템이 만족스럽지 못하다. Copyright ⓒ 2009 LANDKOREA 383
    • 다변량 차트 Minitab Case 메뉴의 용도 다수의 요인들이 특성치에 영향을 미칠 때, 각 요인 별로 특성치에 미치는 효과를 표 시한 그래프. 측정값의 요인 별 경향과 관련성을 시각적으로 파악한다. Case Hole의 직경 데이터에 대한 산포가 문제가 되어 2개의 제품을 뽑아 Top, Middle, Bottom 3곳의 위치에서 각 Hole의 직경을 측정하여 각 인자와의 관련성을 분석코자 한다. 데이터 Analgraph05.mtw Copyright ⓒ 2009 LANDKOREA 384
    • 다변량 차트 미니탭 실행 Minitab Case 통계분석 > 품질 도구 > 다변량 차트 Copyright ⓒ 2009 LANDKOREA 385
    • 다변량 차트 Minitab Case 실행 결과 Part1, 위치 Top에서 측정한 Hole 1,2,3,4 직경의 평균이다. 위치 Middle에서 측정한 직경의 평균이다. 결과 해석 조립 Hole 중에서는 Hole 1의 직경이 가장 크고 조립 Hole 4의 직경이 가장 작은 것을 볼 수 있 다. 또 위치 Middle에서 직경이 Bottom이나 Top보다 작으며 Part간에는 Part 1의 직경이 Part 2 보다 큰 경향이 있다. Copyright ⓒ 2009 LANDKOREA 386
    • 대칭도 메뉴의 용도 Case 데이터 Minitab Case 표본 데이터가 좌우 대칭인 모집단 분포로부터 추출된 것인지 여부를 알고자 할 때 사용되는 그래프로 완벽한 좌우대칭인 경우 기울기 1인 직선상에 타점된다. 접착용 풀을 생산하는 6개의 생산라인으로 부터 각 5개의 점도 데이터를 취하여 공정 능력을 측정할 예정으로 데이터 분포의 대칭성을 Symmetry Plot을 이용하여 검토하 려고 한다. Normal01.mtw Copyright ⓒ 2009 LANDKOREA 387
    • 대칭도 미니탭 실행 Minitab Case 통계분석 > 품질 도구 > 대칭도 Copyright ⓒ 2009 LANDKOREA 388
    • 대칭도 Minitab Case 실행 결과 결과 해석 우측 하단 부분에 치우쳐져 있는 것으로 보아 우측 꼬리가 다소 긴 분포를 하고 있다. Copyright ⓒ 2009 LANDKOREA 389
    • 이것만은 기억하자 ! 핵심 Point 1. 품질 도구 통계학 - 품질 도구 통계학의 내용, 용어설명 및 측정의 기본적인 이론에 대한 학습 2. Minitab 프로그램에서 품질 도구 - 런 차트, Pareto 차트의 실행 및 해석 - Gage 연구를 위한 시험 table 구성 - Gage R&R 및 공정 능력 분석 실행 후 결과값의 해석 3. 품질 도구 - Pareto 차트 - 개별 분포 식별 - 공정 능력 분석 - Gage 연구 Copyright ⓒ 2009 LANDKOREA 390