SlideShare a Scribd company logo
1 of 105
데이터 분석을 위한 통계와 확률
확률, 통계 기초부터 회귀, 트리 알고리즘까지
Contents
목차
ch01
데이터 분석과 파이썬 이해
1-1. 데이터 분석 절차의 이해
1-2. Python 기초
ch02
집계와 시각화
2-1. 한 변수의 집계와 시각화
2-2. 변수 관계의 집계와 시각화
ch03
통계 검정의 이해
3-1. 통계 검정의 주요 개념
3-2. 변수 관계의 유의성에 대한 검정
ch04
알고리즘의 이해
4-1. 집계와 머신 러닝의 비교
4-2. 선형 회귀와 의사결정 나무 모형의
활용
1
ch05
프로젝트 실습
주어진 데이터 활용 문제 해결 수행
데이터 분석을 위한 통계와 확률
ch1. 데이터 분석과 파이썬 이해
데이터 분석을 위한 통계와
확률
데이터의 가치
데이터의 활용 가능성과 파급 효과를 고려
무엇을
결국!
얼마나
“데이터는 금광”
“Data is a gold mine”
“데이터는 새로운 석유”
“Data is the new oil”
3
데이터 분석을 위한 통계와
확률
요리와 닮은 데이터 분석 과정
재료 저장 손질 조리 음식
데이터 적재/저장 추출/전처리 분석 리포트/모형
4
데이터 분석을 위한 통계와
확률
형태와 시점에 따른 데이터의 분류
5
정형 데이터
(structured)
비정형 데이터
(unstructured)
종단 데이터
(cross-sectional)
시계열 데이터
(time series)
텍스트와 이미지
표 형태의 수치와 값 복수 대상과 고정된 시점 한 대상의 복수 시점
데이터의 형태와 시점에 따라 적절한 분석 방법을 선택
데이터 분석을 위한 통계와
확률
데이터 분석의 목적
6
정보의 인식 정보의 고도화
현황 파악 등을 목적으로
데이터의 수많은 정보를
인식 가능한 수준으로 축약하는 과정
효율적인 의사결정과
가치 있는 인사이트 도출을 위해
데이터의 복잡한 정보를 해석하는 과정
데이터에서 의미 있는 차이, 관계, 패턴을 확인하고 설명하는 과정
데이터 분석을 위한 통계와
확률
제조업과 데이터 분석
7
원자재 및 원재료 구매
수요 예측 및 납품업체 관리
생산재고 관리
판매/유통 채널 관리
공정 설계 및 제품 생산
생산 현황 파악 및 관리
불량 등 품질관리
1 2 3
구매 생산 판매
예측 어려움 식스시그마(6𝜎) 활용
Internet of Things
센서로 수집한 데이터를
통신을 통해 전달
예측 어려움
IoT, AI 활용
식스 시그마 새로운 분석 트렌드
문제 정의 후 실험 계획에 따라
통제(control)된 데이터를 계획적으로 수집
분산 분석 등 비교적 간단한 분석 방법을 활용
분석 결과 자체가 가설에 대한 검증이므로
비교적 수월한 적용
생산, 운영 과정에서 다양한 목적으로 수집
IoT를 활용해서 다양한 형태의 데이터 수집
복잡한 변수 관계를 설명하는
알고리즘 활용이 필수적
비즈니스 경험 등을 토대로 한 적절한 해석과
추가 파일럿 테스트 등 필요
데이터
Data
분석방법
Analysis
적용
Operation
8
데이터 분석을 위한 통계와
확률
제조업의 AI 활용 - AI 기반 품질 검사 체계
9
https://news.skhynix.co.kr/post/yesterday-in-the-data-science-organization
데이터 분석을 위한 통계와
확률
제조업의 AI 활용 - 자율주행
10
데이터 분석을 위한 통계와
확률
11
처 : 빅데이터 기반의 스마트 제조 의사결정, 조현보 외, KEIT PD ISSUE REPORT VOL 17-10
스마트 팩토리 - 빅데이터 기반 의사결정지원 표준 아키텍처
데이터 분석을 위한 통계와
확률
스마트 팩토리 - 스마트 제조
12 * 출처 : 스마트제조혁신추진단
데이터 분석을 위한 통계와
확률
Python 분석 환경 설정
데이터 집계와 시각화 뿐만 아니라
알고리즘 활용 등 가능
Python을 포함한 다양한 도구를
통합적으로 관리하는 프로그램
인터랙티브 Python 코딩을 지원하는
대표적인 웹 서비스
Python Anaconda Jupyter
13
데이터 분석을 위한 통계와 확률
ch1-2. Python 기초
데이터 분석을 위한 통계와
확률
Python 기초 문법 – 라이브러리 설치 및 관리
!pip
라이브러리 설치 및 업데이트, 제거 등에 활용
# 라이브러리 설치
!pip install pandas matplotlib seaborn
# 라이브러리 제거
!pip uninstall pandas
# 라이브러리 목록 확인
!pip list
Python
15
데이터 분석을 위한 통계와
확률
Python 기초 문법 – 라이브러리 불러오기
import, from, as
라이브러리를 불러올 때 impor를 활용
from으로 특정한 모듈이나 함수만 불러올 수 있고, as로 별명(alias) 지정 가능
# 라이브러리 불러오기
import pandas
# 라이브러리 별명 지정하고 불러오기
import pandas as pd
# 라이브러리에서 특정 함수만 불러오기
from pandas import read_csv
Python
16
데이터 분석을 위한 통계와
확률
Python 기초 문법 – 수치형과 문자열
1, ‘가’
수치형(int, float) 객체는 그대로 입력하고 사칙연산자 등 활용 가능
문자열(str) 객체는 따옴표(‘’, “”)를 활용하여 입력
# 사칙연산
1+2*3/4
# 문자열의 입력
‘삼성전자’
“삼성전자”
# +를 활용한 문자열 결합
‘Python ’ + ‘데이터 분석’
Python
17
데이터 분석을 위한 통계와
확률
Python 기초 문법 – 할당과 출력
=, print()
=을 활용하여 다양한 형식의 객체를 저장 가능
print()를 활용하여 jupyter 셀 하단 혹은 콘솔창에 값 등을 출력 가능
# =을 활용한 할당
a=10
a
# print()를 활용한 출력
print(a)
Python
18
데이터 분석을 위한 통계와
확률
Python 기초 문법 – 리스트의 생성과 활용
[], list(), append()
대괄호 []나 list()를 활용하여 리스트(list)를 생성 가능
append()를 활용하여 요소를 추가 가능
# []를 활용한 리스트 생성
x=[1,3,5,7,9]
x
# append()를 활용한 요소 추가
x.append(11)
x
Python
19
데이터 분석을 위한 통계와
확률
Python 기초 문법 – index와 슬라이스
[], :
[]를 활용하여 생성된 리스트 등에서 일부를 선택가능
:를 활용하여 연속적인 일정 범위의 값을 선택 가능
# []를 활용한 리스트 생성과 부분 선택
x=[1,3,5,7,9]
x[0]
# :의 활용
x[2:4]
x[:3]
Python
20
데이터 분석을 위한 통계와
확률
데이터 처리 – pandas의 활용
DataFrame 형식의 이해
Python에서 정형 데이터를 처리, 집계할 때 주로 pandas 라이브러리를 활용
pandas에서 데이터는 DataFrame 형식으로 저장되며, DataFrame은 Series의 결합 형태
columns
index
“Series”
21
데이터 분석을 위한 통계와
확률
데이터 불러오기 – csv 파일 불러오기
22
pandas.read_csv()
pandas 라이브러리의 read_csv()를 활용하여 csv 파일을 불러오기 가능
불러온 데이터는 DataFrame 형식으로 저장되고 다양한 메서드 활용 가능
# csv 파일 불러오기
df = pandas.read_csv(‘경로/파일이름.csv’)
df
# 간단히 데이터 살펴보기
df.shape # 관측치, 변수 개수 확인
df.head(n=) # 앞 n개 관측치 확인
df.columns # 변수 이름 목록 확인
df.dtypes # 변수 형식 확인
Python
데이터 분석을 위한 통계와
확률
부분 선택 – 조건 일치 관측치 선택
23
True/False, &, |
변수 선택과 다양한 조건문을 활용하여 조건과 일치하는 일부 관측치 선택 가능
and, or를 활용하여 복수의 조건의 논리 연산 활용 가능
# x1이 10이상인 관측치 선택
df[df[‘x1’] >= 10]
# x1이 10이상이고 x2는 ‘A’ 혹은 ‘Z’의 값을 갖는 관측치 선택
df[(df[‘x1’] >= 10) & (df[‘x1’].isin([‘A’, ‘Z’])]
Python
데이터 분석을 위한 통계와
확률
집계값 계산 – 건수, 합계, 평균
count(), sum(), mean()
관심 대상 수치형 변수를 선택하고, count(), sum(), mean() 등의 함수를 활용하여 집계값 계산
# x1의 건수, 합계, 평균 계산
df[‘x1’].count()
df[‘x1’].sum()
df[‘x1’].mean()
Python
24
데이터 분석을 위한 통계와
확률
집계값 계산 – 그룹별 집계
groupby()
groupby()를 활용하여 그룹 변수를 지정하고 그룹별 집계값 계산 가능
# x2별 x1의 건수, 합계, 평균 계산
df.groupby(‘x2’)[‘x1’].count()
df.groupby(‘x2’)[‘x1’].sum()
df.groupby(‘x2’)[‘x1’].mean()
Python
25
데이터 분석을 위한 통계와
확률
집계값 계산 – 범주형 변수의 집계
unique(), nunique (), value_counts()
관심 대상 범주형 변수를 선택하고, unique() 등을 활용하여 수준 목록 확인 및 집계값 계산
# x2의 수준 목록 확인
df[‘x2’].unique()
# x2의 수준 개수 확인
df[‘x2’].nunique()
# x2의 수준별 관측치 수 계산
df[‘x2’].value_counts()
Python
26
데이터 분석을 위한 통계와
확률
집계값 계산 – 교차표 생성
pandas.crosstab()
crosstab()을 활용하여 교차표 생성 가능
# x2, x3의 교차표 생성
pandas.crosstab(df[‘x2’], df[‘x3’])
# x2, x3의 행백분율 교차표 생성
pandas.crosstab(df[‘x2’], df[‘x3’], normalize=‘index’)
# x2, x3의 열백분율 교차표 생성
pandas.crosstab(df[‘x2’], df[‘x3’], normalize=‘columns’)
Python
27
데이터 분석을 위한 통계와
확률
집계값 계산 – 피벗 테이블 생성
pandas.pivot_table()
pivot_table()을 활용하여 표형태로 집계값 계산 가능
# x2, x3별 x1의 평균을 표형태로 계산
pandas.pivot_table(df, index=‘x2’, columns=‘x3’, values=‘x1’,
aggfunc=‘mean’)
# x2, x3별 x1의 평균을 표형태로 계산
df.pivot_table(index=‘x2’, columns=‘x3’, values=‘x1’, aggfunc=‘mean’)
Python
28
데이터 분석을 위한 통계와
확률
데이터 시각화 – 라이브러리의 활용
29
matplotlib과 seaborn
matplotlib
https://matplotlib.org/stable/gallery/index.html
seaborn
https://seaborn.pydata.org/examples/index.html
데이터 분석을 위한 통계와
확률
그래프 작성 – 히스토그램과 막대그래프
seaborn.histplot(), seaborn.countplot()
히스토그램, 막대그래프 등의 그래프를 생성하고 활용
# x1의 히스토그램 생성
seaborn.histplot(data=df, x=‘x1’)
# x2의 막대그래프 생성
seaborn.countplot(data=df, x=‘x2’)
Python
30
데이터 분석을 위한 통계와
확률
그래프 작성 – 산점도와 열지도
seaborn.scatterplot(), seaborn.heatmap()
두 수치형 변수는 산점도를 그리고 피벗테이블과 같은 표 형태의 데이터는 열지도를 활용
# x1과 x4의 산점도 생성
seaborn.scatterplot(data=df, x=‘x1’, y=‘x4’)
# x2에 따라 색을 다르게 한 x1과 x4의 산점도 생성
seaborn.scatterplot(data=df, x=‘x1’, y=‘x4’, hue=‘x2’)
# 열지도 생성
seaborn.heatmap(data=df)
Python
31
데이터 분석을 위한 통계와 확률
ch2. 집계와 시각화
데이터 분석을 위한 통계와
확률
데이터와 공간, 선형 대수
데이터 변수 공간
몸무게
키
민서
민준
데이터와 공간
변수 개수만큼 차원이 만들어지고
관측치 개수만큼 점이 찍힘
33
𝑿 =
민서
민준
서연
= 키 몸무게 =
165 60
180 75
175 80
선형대수(Linear Algebra)
행렬로 표현한 데이터와 데이터 공간을 다루는 학문
데이터 분석을 위한 통계와
확률
벡터, 행렬로 표현한 데이터
34
 1차원 − 벡터 ∶ 𝑛개 관측치(행 or 열)를 가진 벡터 𝒙𝒋:
𝒙𝒋 =
𝑥1𝑗
⋮
𝑥𝑖𝑗
⋮
𝑥𝑛𝑗
, 𝒙𝒋
T
= 𝑥1𝑗 … 𝑥𝑖𝑗 … 𝑥𝑛𝑗
 2차원 − 행렬 ∶ 𝑛개 관측치(행)와 𝑝개 변수(열) 𝒙𝟏, ⋯ , 𝒙𝒑를 가진 행렬 𝑿:
𝑿 = 𝒙𝟏 … 𝒙𝒋 … 𝒙𝒑 =
𝑥11 ⋯ 𝑥1𝑗 ⋯ 𝑥1𝑝
⋮ ⋮ ⋮
𝑥𝑖1 ⋯ 𝑥𝑖𝑗 ⋯ 𝑥𝑖𝑝
⋮ ⋮ ⋮
𝑥𝑛1 ⋯ 𝑥𝑛𝑗 ⋯ 𝑥𝑛𝑝
,
𝑿T
=
𝒙𝟏
T
⋮
𝒙𝒑
T
=
𝑥11 ⋯ 𝑥𝑛1
⋮ ⋮
𝑥1𝑝 ⋯ 𝑥𝑛𝑝
데이터 분석을 위한 통계와
확률
35
기술 통계량과 차이
통계량
(Statistics)
기술 통계량
(Descriptive
Statistics)
데이터로부터 계산된
모든 숫자
변수나 변수의 관계 등
데이터의 특성을 설명하는 통계량
절대적인 차이
관측치의 실제 값이나 데이터를
요약해서 얻은 숫자의 차이
[예] 상품별 매출액
상대적인 차이
절대적인 차이를 상대적인 값으로
바꾼 숫자의 차이
[예] 상품 매출 순위
데이터 분석을 위한 통계와
확률
범주형 변수와 수준
36
범주형(categorical) 변수
관측치들이 몇 개의 정해진 값만 가질 수 있음
범주형 변수의 수준(levels)
어떤 범주형 변수의 관측치들이 가질 수 있는 값들의 묶음
처리(treatment), 그룹(group)
[예] 변수 “성별”의 수준 : (남, 여)
[예] 변수 “연령대”의 수준 :
(10대, 20대, 30대, 40대, 50대, 60대 이상)
빈도표(frequency table)
관측치들이 몇 개의 정해진 값만 가질 수 있음
상대빈도(relative frequency)
빈도표에서 각 수준의 비율(proportion)을 계산
수준 간 상대적인 차이를 확인
막대그래프와 원그래프
데이터 분석을 위한 통계와
확률
수치형 변수의 집계
37
수치형(numerical) 변수
관측치들이 다양한 숫자 값을 가짐
합계를 활용한 집계
평균, 분산 등 관측치들의 전반적인 크기 등 특성을 확인
순서를 활용한 집계
최솟값, 최댓값, 중앙값 등 관측치들의 전반적인 위치를
확인
데이터 분석을 위한 통계와
확률
사분위수와 상자그림
38
사분위수(quartile)
25% 간격으로 계산한 5개 분위수(quantile)
상자그림(boxplot)
사분위수를 수직선에 표현한 그래프
최솟값(minimum) : 정렬 후 0% 위치 값
Q1(1st quartile) : 정렬 후 25% 위치 값
중앙값(median) : 정렬 후 50% 위치 값
Q3(3rd quartile) : 정렬 후 75% 위치 값
최댓값(maximum): 정렬 후 100% 위치 값
데이터 분석을 위한 통계와
확률
상자그림을 활용한 이상치 탐지
39
이상치(outlier)
다른 관측치들과 확연히 다르게
크거나 작은 값을 가지는 관측치
이상치 탐지의 관점 변화
과거 : 평균 비교 중심 분석에서 이상치의 영향을 배제
현재 : 특이값, 이상치의 판별 및 탐지 중심 분석
“파레토 법칙(20/80) vs 롱테일”
사분위수를 활용한 이상치 탐지
사분위범위 등을 활용해서 이상치 임계값 설정
범위(range) : 최댓값 – 최솟값
사분위범위(IQR ; Inter-Quartile Range) : Q3-Q1
이상치 기준: Q3+1.5*IQR 혹은 Q1-1.5*IQR
이상치
Q3+1.5 IQR
이상치
Q1-1.5 IQR
데이터 분석을 위한 통계와
확률
도수분포표와 히스토그램
40
도수분포표(frequency table)
적절한 구간 값을 활용하여 구간화하고
각 구간의 관측치 수를 정리한 표
수치형 변수에서 관측치 분포를 확인
히스토그램(histogram)
도수분포표를 높이로 표현한 그림
각 구간의 비중을 확인
구간 51~60 61~70 71~80 81~90 91~100
학생수 1 1 3 3 1
학생 10명의 성적 분포
데이터 분석을 위한 통계와
확률
평균과 분산, 표준편차
41
평균
(mean)
분산
(variance)
표준편차
(standard deviation)
𝑛 : 관측치 수
𝑥 : 어떤 수치형 변수
𝑥𝑖 : 𝑥의 𝑖번째 관측치
: 무언가의 합계
𝑥 =
1
𝑛
𝑖=1
𝑛
𝑥𝑖 𝑠𝑥
2
=
1
𝑛 − 1
𝑖=1
𝑛
(𝑥𝑖 − 𝑥)2
𝑠𝑥 = 𝑠𝑥
2
모든 관측치를 더하고
관측치 개수로 나눈 값
관측치들의 전반적인 크기를 의미
(관측치에서 평균을 뺀 것)의
제곱의 평균
관측치들이 평균을 중심으로
흩어져 있는 정도
분산의 제곱근
분산이 갖는
단위(scale/unit) 문제 해결
데이터 분석을 위한 통계와
확률
1차원에서 2차원으로
42
한 변수의
분석
두 변수의
분석
1차원 공간에서
관측치들의 흩어진 패턴을 파악
주로 변수의 특성을 확인하는데 초점
2차원 공간에서
관측치들의 흩어진 패턴을 파악
두 변수의 관계를 설명하는 데 초점
데이터 분석을 위한 통계와
확률
두 범주형 변수의 요약과 시각화
43
교차표(contingency table)
두 범주형 변수의 요약을 위한 2차원 표
두 범주형 변수의 수준 조합에 대한 빈도표
수준 조합의 절대적인 차이를 확인
열지도, 히트맵(heatmap)
2차원 교차표를 숫자 대신 색으로 표현한 그림
숫자 대신 색의 진하기로 크기를 표현
성별 연령대
남 20대
여 30대
여 20대
남 30대
여 30대
여 20대
여 30대
남 30대
남 30대
20대 30대
남 1 3
여 2 3
성별과 연령대의 요약과 시각화
데이터 분석을 위한 통계와
확률
행백분율과 열백분율의 계산과 활용
44
교차표의 상대적인 차이 확인 필요
절대적인 차이 : “이 칸에 관측치가 많다”
상대적인 차이 : “이 칸이 상대적으로 비율이 높다“
각 행(열)에서 상대빈도를 계산한 행/열 백분율 활용
남 여 합계
찬성 15 15 30
반대 45 25 70
합계 60 40 100
남 여 합
찬성 25% 38% 30%
반대 75% 62% 70%
합계 100% 100% 100%
남 여 합
찬성 50% 50% 100%
반대 64% 36% 100%
합계 60% 40% 100%
성별 찬성/반대 교차표 행 백분율 교차표 열 백분율 교차표
데이터 분석을 위한 통계와
확률
산점도를 활용한 2차원 공간의 시각화
45
산점도(scatterplot)
두 수치형 변수 값을 좌표로 활용하여 그린 그래프
2차원 공간에 관측치의 수만큼 찍힌 점의 패턴을 파악
보조선의 중요성
두 변수의 평균을 활용해서 수직/수평선 추가
두 직선이 만나는 지점이 2차원 공간의 무게 중심
공부시간 점수
0 60
4 78
3 83
6 74
6 100
7 80
8 90
8 85
3 70
데이터 분석을 위한 통계와
확률
사분면과 관측치 분류
46
사분면(quadrant)
2차원 공간에서 무게 중심 기준으로 나눠진 4개 면
오른쪽 위 제 1사분면부터 반시계 반향으로 순서를 지정
산점도와 사분면 관측치 분류
사분면 첫번째 변수 두번째 변수
1 평균 이상 평균 이상
2 평균 이하 평균 이상
3 평균 이하 평균 이하
4 평균 이상 평균 이하
데이터 분석을 위한 통계와
확률
사분면과 두 변수의 상관 관계
47
두 수치형 변수의 관계
양의 상관 = “비례한다”
음의 상관 = “반비례한다”
산점도의 패턴과 두 변수의 관계
제 1, 3사분면의 관측치 수 ↑ : 두 변수의 양의 상관을
의미
제 2, 4사분면의 관측치 수 ↑ : 두 변수의 음의 상관을
의미 상관 관계를 고려한 산점도 시각화
데이터 분석을 위한 통계와
확률
공분산과 상관계수
48
공분산
(covariance) 𝑞𝑥𝑦 =
1
𝑛 − 1
𝑖=1
𝑛
(𝑥𝑖 − 𝑥)(𝑦𝑖 − 𝑦)
피어슨 상관계수
(Pearson’s
correlation coefficient)
𝑟𝑥𝑦 =
𝑞𝑥𝑦
𝑠𝑥 𝑠𝑦
=
1
𝑛 − 1
𝑖=1
𝑛
(𝑥𝑖 − 𝑥)
𝑠𝑥
(𝑦𝑖 − 𝑦)
𝑠𝑦
, −1 ≤ 𝑟𝑥𝑦 ≤ 1
표준화된 두 수치형 변수로 계산된 공분산
-> 공분산의 단위(scale/unit) 문제 해결
𝑟𝑥𝑦 = 0 : 두 변수가 상관이 없음
𝑟𝑥𝑦 > 0 : 두 변수가 함께 증가하거나 감소하는 양의 상관을 가짐
𝑟𝑥𝑦 < 0 : 한 변수가 증가하면 나머지 한 변수는 감소하는 음의 상관을 가짐
데이터 분석을 위한 통계와
확률
수치형 변수와 범주형 변수의 관계
49
그룹 평균
범주형 변수의 수준별로 수치형 변수의 평균을 계산
그룹별 전반적인 크기를 비교
그룹별 상자그림
각 수준별로 수치형 변수의 상자그림을 나란히 작성
수준에 따른 수치형 변수의 분포를 비교
고객번호 거주지역 방문횟수
1 가 6
2 다 30
⋮ ⋮ ⋮
1,000 라 13
거주지역 평균
가 13.9
나 12.9
다 15.2
라 12.8
전체 13.8
거주지역별 방문횟수 평균 및 분포 비교
데이터 분석을 위한 통계와 확률
ch3. 통계 검정의 이해
데이터 분석을 위한 통계와
확률
기술 통계와 추론 통계
51
데이터의 전반적인 특성을 설명하는 과정
현황 파악 등 과거 자체나 현실에 초점
기술 통계
Descriptive
Statistics
추론 통계
Inferential
Statistics
기술 통계의 결과를 일반화, 추정, 예측하는 과정
가설 검정, 예측 등 미래에 초점
데이터 분석을 위한 통계와
확률
검정 중심 추론 통계의 흐름
52
모수
Parameter
통계량
Statistics
모집단
Population
표본
Sample
특성
설명
표본 추출
Sampling
특성
정의
추정 / 검정
Estimation / Test
데이터 분석을 위한 통계와
확률
사건과 확률
53
사건(event)
관측치나 데이터가 특정 조건을 만족시키는 상황
[예] 로또 1등에 당첨될 사건
확률(probability)
관심있는 사건이 발생할 가능성을
0부터 1사이 숫자로 표현한 값
[예] 로또 1등에 당첨될 확률
국어점수가
90점 이상일 확률
= 3/10 = 0.3
국어/수학 모두
90점 이상일 확률
= 2/10 = 0.2
국어 혹은 수학이
90점 이상일 확률
= 5/10 = 0.5
학생 10명의 국어점수와 수학점수와 확률
데이터 분석을 위한 통계와
확률
이론적 확률과 경험적 확률
54
이론적 확률
수학적 원리를 기반으로 하는 확률
[예] 동전을 던질 경우 앞면이 나올 이론적 확률은 0.5
미래 예측의 의미
경험적 확률(Empirical probability)
관찰된 데이터와 실제 결과를 기반으로 하는 확률
[예] 동전을 100번 던져 앞면이 47번 나왔다면, 앞면이 나올 확률은
0.47
과거 빈도의 의미
데이터 분석을 위한 통계와
확률
조건부 확률
55
어떤 사건이 발생한다는 조건을 활용하는 확률
개념
𝑃 𝐴 𝐵 =
𝑛(𝐴 ∩ 𝐵)
𝑛(𝐵)
=
𝑃(𝐴 ∩ 𝐵)
𝑃(𝐵)
예시) 중학생/고등학생 학생 수
데이터 분석을 위한 통계와
확률
모집단과 표본 예제
56
표본 추출 예제
[예] 수학 점수 80점을 기준으로 계산된 조건부 확률 수학 점수
모집단 표본2
표본1
표본3
사건 𝐴 : 하나의 관측치를 뽑았을 때 빨강인 사건
모집단 : 𝑃 𝐴 =
10
20
= 0.5
표본 : 𝑃 𝐴 =
6
10
= 0.6
데이터 분석을 위한 통계와
확률
조건부 확률 예제
57
데이터 공간과 조건부 확률
[예] 빨강 10개, 파랑 10개인 모집단에서 10개 관측치 표본 추출
국어점수가 90점 이상일 확률
= 3/10 = 0.3
수학점수가 80점 미만일 때,
국어 점수가 90점 이상일 확률
= 1/4 = 0.25
수학점수가 80점 이상일 때,
국어 점수가 90점 이상일 확률
= 2/6 = 0.33
데이터 분석을 위한 통계와
확률
조건부 확률과 독립
58
조건부 확률(Conditional Probability)
특정한 조건, 영역에서 계산된 확률
𝑃 𝐴 𝐵 =
𝑛(𝐴 ∩ 𝐵)
𝑛(𝐵)
=
𝑃(𝐴 ∩ 𝐵)
𝑃(𝐵)
독립(Independence)
전체 확률과 조건부 확률이 동일한 경우
𝑃 𝐴 𝐵 =
𝑃(𝐴 ∩ 𝐵)
𝑃(𝐵)
= 𝑃(𝐴)
독립을 가정한 확률 계산
두 사건이 동시에 발생할 확률을 두 확률의 곱으로
계산
𝑃 𝐴 ∩ 𝐵 = 𝑃(𝐴)𝑃(𝐵)
A B
데이터 분석을 위한 통계와
확률
독립과 배반
59
𝑃 𝐴 ∩ 𝐵 = 0
배반(Disjoint)
: 사건 A와 사건 B는 동시에 일어날 수 없다.
𝑃 𝐴 ∩ 𝐵 = 𝑃(𝐴)𝑃(𝐵)
독립(Independence)
: 사건 A가 일어나는 것이 사건 B가 일어날 확률에
영향을 미치지 않는다.
데이터 분석을 위한 통계와
확률
귀무가설과 대립가설
60
귀무가설
null hypothesis
𝐻0
대립가설
alternative hyp.
𝐻1, 𝐻𝑎
모집단의 특성에 대해 차이, 관계가 없음을
가정
비교의 기준점 역할
귀무가설과 반대로 차이, 관계가 있음을 가정
유의미함
[예1] 두 수치형 변수의 관계
𝐻0 : 두 변수가 상관이 없다. ( 상관계수 𝜌𝑋𝑌 = 0 )
𝐻1 : 두 변수가 상관이 있다. ( 상관계수 𝜌𝑋𝑌 ≠ 0 )
[예2] 한 수치형 변수와 한 범주형 변수의 관계
𝐻0 : 모든 그룹의 평균이 같다. (𝑘개 그룹의 평균 𝜇1 = 𝜇2 = ⋯ = 𝜇𝑘)
𝐻1 : 적어도 어떤 두 그룹의 평균이 다르다. (𝜇𝑖 ≠ 𝜇𝑗)
데이터 분석을 위한 통계와
확률
확률적 의사결정, 유의확률과 검정
61
검정(Test)
귀무가설(𝐻0)과 대립가설(𝐻1) 둘 중에서 확률적으로 더 나은 쪽을 선택하는 과정
보수적으로 판단하기 위해서 귀무가설(𝐻0)을 기준으로 판단
유의 확률(significance probability), p-값(p-value)
귀무가설이 맞다는 가정하에 데이터 속 차이/관계가 나올 가능성을 계산한 조건부 확률
p-value가 작을수록 귀무가설을 기각하고 대립가설을 채택하게 된다(e.g. 개발한 신약은 효과가 있다)
유의 수준(significance level)
유의 확률(p-값)에 대한 판단의 기준 값.
일반적으로 0.05 활용
유의 확률(p-값) ≤ 0.05 : 대립가설(𝐻1)을 선택
유의 확률(p-값) > 0.05 : 귀무가설(𝐻0)을 선택
*귀무가설 : ~차이가 없다. ~효과가 없다.
*대립가설 : ~차이가 있다. ~효과가 있다.
데이터 분석을 위한 통계와
확률
양측 검정과 단측 검정
62
양측 검정(Two-tailed test)
: 대립 가설이 효과의 방향을 지정하지 않을 경우
𝐻0 : 𝜇𝑋 = 𝜇𝑌 (두 그룹의 평균이 같다.)
𝐻1 : 𝜇𝑋 ≠ 𝜇𝑌 (두 그룹의 평균이 다르다. )
단측 검정(One-tailed test)
: 대립 가설이 효과의 방향을 지정하는 경우
𝐻0 : 𝜇𝑋 = 𝜇𝑌 (두 그룹의 평균이 같다.)
𝐻1 : 𝜇𝑋 > 𝜇𝑌 (첫번째 그룹의 평균이 더 크다.)
데이터 분석을 위한 통계와
확률
두 수치형 변수의 관계 검정 예제
63
공부시간 점수
0 60
4 78
3 83
6 74
6 100
7 80
8 90
8 85
3 70
가설 설정
𝐻0 : 두 변수가 상관이 없다. ( 상관계수 𝜌𝑋𝑌 = 0 )
𝐻1 : 두 변수가 상관이 있다. ( 상관계수 𝜌𝑋𝑌 ≠ 0 )
검정 방향
두 변수가 상관이 없다는 가정하에
상관계수 0.7이 나올 가능성을 수치화(유의확률)
상관계수 = 0.7
데이터 분석을 위한 통계와
확률
의미 없는 상관계수 분포 확인
64
“상관 계수의 분포”
[예] 공부시간, 점수 순서를 마음대로 섞은 데이터로 계산한
상관계수 : -0.15
공부시간 점수
0 60
4 78
3 83
6 74
6 100
7 80
8 90
8 85
3 70
[예] 10번 반복해서 구한 상관계수 10개
-0.15, 0.18, -0.06, 0.30, -0.80, -0.28, -0.62, 0.28, 0.37, -0.23
[예] 1000번 반복해서 구한 상관계수 1000개의
히스토그램
데이터 분석을 위한 통계와
확률
의미 없는 상관계수 분포를 활용한 유의확률 계산
65
“유의확률 계산 및 검정”
1,000개 상관계수를 활용한 유의 확률 계산
±0.7보다 더 큰 상관계수 25개
귀무가설(𝐻0 : 𝜌𝑋𝑌 = 0) 기준 두 변수의 상관계수가 0.7보다 클 확률
유의 확률 = 0.025
유의 수준 0.05를 기준으로 대립가설(𝐻1 )을 선택
“두 변수 공부시간과 점수는 유의미한 양의 상관을 가진다고 할 수 있다”
데이터 분석을 위한 통계와
확률
검정 통계량의 활용
66
검정 통계량(Test statistics)
분포를 활용하여 차이, 관계의 정도를 숫자로 표현
데이터가 귀무가설(𝐻0)과 얼마나 다른지 계산한 통계량
일반적으로 검정 통계량이 클 수록 차이가 큼
𝑡, 𝜒2, 𝐹 등 기성 분포를 활용하여 계산
𝑡 분포
𝑍가 표준 정규 분포를 따르고, 𝑋가 자유도가 𝜈인 𝜒2
분포를 따르며
𝑍와 𝑋가 서로 독립이라고 가정하면,
확률 변수 𝑇 =
𝑍
𝑋/𝜈
는 자유도가 𝜈인 𝑡분포를 따름
𝜒2
(카이제곱) 분포
표준 정규 분포를 따르는 확률 변수들의 제곱합이 따르는 분포
표준 정규 분포를 따르는 𝑘개의 확률 변수 𝑍1, 𝑍2, ⋯ 𝑍𝑘에 대해
확률 변수 𝑋 = 𝑍1
2
+ 𝑍2
2
+ ⋯ 𝑍𝑘
2
는 자유도가 𝑘인 𝜒2 분포를 따름
𝐹 분포
𝑈가 자유도가 𝑑1인 𝜒2
분포를 따르고
𝑉가 자유도가 𝑑2인 𝜒2
분포를 따르며
𝑈와 𝑉가 서로 독립이라고 가정하면,
확률변수 𝑋 =
𝑈/𝑑1
𝑉/𝑑2
는 자유도 𝑑1, 𝑑2인 𝐹분포를 따름
*자유도 : 매개변수를 추정하거나 통계를 계산하는 데
사용할 수 있는 독립적인 관찰의 수를 설명하는 데
사용되는 용어.
일반적으로 샘플의 자유도는 샘플 크기에서 추정해야
하는 매개변수 수를 뺀 값과 같습니다.
데이터 분석을 위한 통계와
확률
상황 별 통계 분석법
67
데이터 분석을 위한 통계와
확률
68
분산 분석(ANOVA)
카이제곱 검정
종속
변수
독립변수
데이터 그룹간 비교 예측
독립 표본 T검정
대응 표본 T검정
2그룹 3그룹
단순 선형회귀
단변수 다변수
다중 선형회귀
연속
범주
로지스틱 회귀
피어슨 상관분석
상황 별 통계 분석법
데이터 분석을 위한 통계와
확률
주요 분포 – 정규 분포
69
정규 분포(normal distribution)
평균이 𝜇이고 분산은 𝜎2인 종모양의 형태로
키 등 자연적인 현상을 설명
변수를 표준화한 표준 정규 분포 활용 가능
𝑡, 𝜒2, 𝐹 등의 분포로 확장
모수(파라미터)
위치 모수 𝜇
척도 모수 𝜎2
확률 분포
𝑋~𝑁(𝜇, 𝜎2)
𝑓 𝑥 =
1
2𝜋𝜎
𝑒
−
1
2
𝑥−𝜇
𝜎
2
, −∞ < 𝑥 < ∞
𝐸 𝑋 = 𝜇
𝑉 𝑋 = 𝜎2
데이터 분석을 위한 통계와
확률
주요 분포 – 이항 분포
70
이항 분포(binomial distribution)
“동전을 100번 던졌을 때 앞면이 나올 횟수는?”
독립적인 𝑛번의 베르누이 시행 반복 결과 성공 횟수
최솟값 0, 최댓값 𝑛
모수(파라미터)
시행 횟수 𝑛
성공 확률 𝑝
확률 밀도 함수 및 기대값과 분산
성공 횟수 X~𝐵 𝑛, 𝑝
𝑝 𝑥 = 𝑃 𝑋 = 𝑥 =
𝑛
𝑥
𝑝𝑥
(1 − 𝑝)𝑛−𝑥
, 𝑥 = 0, 1, ⋯ , 𝑛
𝐸 𝑋 = 𝑛𝑝
𝑉 𝑋 = 𝑛𝑝(1 − 𝑝)
데이터 분석을 위한 통계와
확률
주요 분포 – 지수 분포
71
지수 분포(exponential distribution)
“돈” 분포
특정 사건이 발생한 이후
다음 사건이 발생할 때까지 소요 시간을 설명
모수(파라미터)
빈도 모수 𝜆
확률 분포
𝑋~𝐸𝑥𝑝(𝜆)
𝑓 𝑥 = 𝜆𝑒−𝜆𝑥
, 0 < 𝑥 < ∞
𝐸 𝑋 = 1/𝜆
𝑉 𝑋 = 1/𝜆2
데이터 분석을 위한 통계와
확률
왜도와 따른 평균과 중앙값 비교
72
왜도(Skewness)
봉우리가 하나인 어떤 분포가 특정한 방향으로 쏠린 정도
1
𝑛 𝑖=1
𝑛
(𝑥𝑖 − 𝑥)3
1
𝑛 − 1 𝑖=1
𝑛
(𝑥𝑖 − 𝑥)2
3/2
왜도 > 0; Right Skewed, Positive Skew
평균 > 중앙값
왜도 < 0; Left Skewed, Negative Skew
평균 < 중앙값 * 출처: ”Skewness”, Wikipedia
데이터 분석을 위한 통계와
확률
두 수치형 변수의 상관 분석
73
상관 분석(correlation analysis)
두 수치형 변수의 상관계수에 대한 유의성 검정
검정 통계량 𝑇값 계산과 𝑡분포의 활용
𝑇 = 𝑛 − 2
𝑟𝑋𝑌
1 − 𝑟𝑋𝑌
2
~ 𝑡 𝑛 − 2
- 𝑛 : 관측치 수
- 𝑟𝑋𝑌 : 실제 데이터에서 두 변수 𝑋, 𝑌로 계산된 상관계수
- 𝑡 𝑛 − 2 : 자유도가 𝑛인 𝑡분포
상관 분석 예제
[예] 공부시간과 점수의 상관계수 T값
- 상관계수 = 0.7
- 관측치 수 = 9
𝑇 = 𝑛 − 2
𝑟𝑋𝑌
1 − 𝑟𝑋𝑌
2
= 9 − 2
0.7
1 − 0.72
= 2.60
유의 확률 = 0.032
데이터 분석을 위한 통계와
확률
두 독립 그룹의 평균 차이 검정 프로세스
74
가설 설정
𝐻0 : 𝜇𝑋 = 𝜇𝑌
𝐻1 : 𝜇𝑋 ≠ 𝜇𝑌
정규성 검정
“정규분포를 따르는가?”
모분산 확인
“모분산을 알고 있는가?”
“표본이 충분한가?”
(일반적으로 n>30)
표본 크기 확인
독립 표본 z검정
독립 표본 t검정
순위합 검정
YE
S
NO
YE
S
NO
YE
S
독립 표본 t검정
모집단 분산을 모르고 표본이 적을 때, 두 집단 간 평균 차이가
유의미한지 검정.
𝑇 =
𝑋1 − 𝑋2
𝑆𝑝
2
(
1
𝑛1
+
1
𝑛2
)
~ 𝑡(𝑛1 + 𝑛2 − 2)
𝑋1:표본1 평균, 𝑋2:표본2 평균, 𝑆𝑝
2 : 두 표본의 통합분산
Shapiro-Wilk test
NO
독립 표본 z검정
모집단 분산을 알고 있을 때, 두 집단 간 평균 차이가 유의미한지 검정.
Z =
𝑋1 − 𝑋2
(
𝜎1
2
𝑛1
+
𝜎2
2
𝑛2
)
𝑋1:표본1 평균, 𝑋2:표본2 평균,
𝜎1: 모집단1 표준편차, 𝜎2: 모집단2 표준편차,
n1 : 표본1 표본수, n2 : 표본2 표본수
데이터 분석을 위한 통계와
확률
일반적인 그룹 평균 비교와 분산 분석
75
분산 분석(analysis of variance ; ANOVA)
여러 그룹별 평균의 차이에 대한 검정
전체 그룹 평균 대비 그룹별 평균 차이의 정도를 측정
ANOVA 테스트에서는 F 통계량을 사용한다
분산분석의 귀무가설과 대립가설
𝐻0 : 𝜏1 = 𝜏2 = ⋯ = 𝜏𝑘 ; 그룹 간 평균 차이가 없음
𝐻1 : 𝑛𝑜𝑡 𝐻0 ; 적어도 두 그룹은 평균차이가 있음
데이터 분석을 위한 통계와
확률
일반적인 그룹의 평균 차이 검정 프로세스
76
가설 설정
𝐻0 : 𝜏1 = 𝜏2 = ⋯ = 𝜏𝑘
𝐻1 : 𝑁𝑜𝑡 𝐻0
정규성 검정
“정규분포를 따르는가?”
등분산 검정
“분산이 같은가?” Welch ANOVA
ANOVA
Kruskal–Wallis
검정
NO
NO
YE
S
YE
S
분산분석(ANOVA)
두 개 이상 그룹 평균 비교에 활용
각 모집단이 정규분포를 따르고 모분산 𝜎2이 동일하다고
가정
F ~ 𝐹(𝑘 − 1, 𝑛 − 𝑘)
Shapiro-Wilk test
Bartlett’s test
데이터 분석을 위한 통계와
확률
제곱합의 분해(feat. 분산)
77
𝑖=1
𝑘
𝑗=1
𝑛𝑗
(𝑦𝑖𝑗 − 𝑦)2
=
𝑖=1
𝑘
𝑗=1
𝑛𝑗
(𝑦𝑖 − 𝑦)2
+
𝑖=1
𝑘
𝑗=1
𝑛𝑗
(𝑦𝑖𝑗 − 𝑦𝑖)2
- ΣΣ(𝑦𝑖𝑗 − 𝑦)2
: TSS 전체 제곱합, 관측치 간의 전반적인 차이를 의미
- ΣΣ(𝑦𝑖 − 𝑦)2
: SST 그룹 간 제곱합, 그룹간 평균 차이의 정도를 의미
- ΣΣ(𝑦𝑖𝑗 − 𝑦𝑖)2
: SSE 그룹 내 제곱합, 각 그룹 안에서 관측치 간 차이를 의미
TSS
(Total
Sum of Squares)
SST
(Sum of Squares
For Treatments)
SSE
(Sum of Squares
For Errors)
“관측치들의 차이는 그룹 간 차이와 그룹 내 차이로 나눠 설명할 수 있다”
데이터 분석을 위한 통계와
확률
검정 통계량 F값의 계산
78
F값 계산 절차
제곱합과 그룹 수(k), 관측치 수(n) 등을 활용하여 계산
제곱합 자유도 제곱합 평균 검정 통계량
그룹 𝑆𝑆𝑇 𝑘 − 1 𝑀𝑆𝑇 =
𝑆𝑆𝑇
𝑘 − 1
𝐹 =
𝑀𝑆𝑇
𝑀𝑆𝐸
잔차 𝑆𝑆𝐸 𝑛 − 𝑘 𝑀𝑆𝐸 =
𝑆𝑆𝐸
𝑛 − 𝑘
합계 𝑇𝑆𝑆 𝑛 − 1
SST : 그룹 간 제곱합
SSE : 그룹 내 제곱합
k : 그룹 수
n : 관측치 수
데이터 분석을 위한 통계와
확률
F값 계산 예제
79
“그룹 평균의 비교”
[예] 세 팀별 다섯 직원의 점수
전체 평균 : 10
TSS=262, SST=40 , SSE=222
직원 팀1 팀2 팀3
1 0 8 10
2 15 12 11
3 5 10 9
4 10 10 9
5 10 20 11
평균 8 12 10
제곱합 자유도 제곱합 평균 검정 통계량
그룹 40 3 − 1 = 2 𝑀𝑆𝑇 =
40
2
= 20 𝐹 =
20
18.5
= 𝟏. 𝟎𝟖
잔차 222 15 − 3 = 12 𝑀𝑆𝐸 =
222
12
= 18.5
합계 262 15 − 1 = 14
데이터 분석을 위한 통계와
확률
교차표의 독립성 검정
80
독립성 검정(test of independence)
두 범주형 변수가 서로 독립인지 아닌지를 판단하는 과정
두 범주형 변수의 교차표와 독립을 가정한 교차표를 비교
독립성 검정의 가설
𝐻0: 두 범주형 변수가 독립
𝐻1: 두 범주형 변수가 독립이 아님
독립성 검정 예제
[예] 연령대별 상품 주문량 교차표
20대는 상품 A, 30대는 상품 C를 선호
상품 20대 30대 합계
A 30 0 30
B 20 20 40
C 0 30 30
합계 50 50 100
상품 20대 30대 합계
A 15 15 30
B 20 20 40
C 15 15 30
합계 50 50 100
독립을 가정한
교차표 생성 가능
데이터 분석을 위한 통계와
확률
독립성 검정과 카이제곱값 계산
81
카이제곱 값
독립성 검정을 위한 카이제곱값의 계산
교차표의 각 칸이 귀무가설 기준 예상값보다
전반적으로 얼마나 큰 지를 계산
𝑋 =
𝑗=1
𝑐
𝑖=1
𝑟
(𝑋𝑖𝑗 − 𝑛𝑖𝑗)2
𝑛𝑖𝑗
~𝜒2
𝑟 − 1 𝑐 − 1
- 𝑋𝑖𝑗 : 첫번째 변수의 𝑖 범주,
두번째 변수의 𝑗 범주 조합에 대한 실제 빈도
- 𝑛𝑖𝑗 : 두 변수의 독립을 가정하고
관측치 수 𝑛을 고려한 각 조합의 기대 빈도
카이제곱값을 활용한 유의확률 계산 절차
데이터 분석을 위한 통계와
확률
카이제곱 검정의 활용
82
이표본 비율 검정
두 그룹의 비율이 동일한 지 대한 검정
2X2 교차표에 대한 독립성 검정과 동일
가설 설정
𝐻0: 𝑝1 = 𝑝2 ; 두 그룹의 비율이 동일
𝐻1: 𝑝1 ≠ 𝑝2
데이터 분석을 위한 통계와
확률
검정과 오류
83
검정 오류(error) 발생
데이터 1개와 가정으로 판단하는 검정의 과정에서
확률을 활용하기 때문에 오류가 발생할 수 밖에 없음
1종 오류(Type 1 error)
귀무가설이 사실인데도 기각한 오류
데이터에 차이/관계가 있는 것처럼 보였지만
실제로는 차이/관계가 없는 경우
2종 오류(Type 2 error)
귀무가설이 거짓인데 기각을 못한 오류
데이터에 차이/관계가 없었지만
실제로는 차이/관계가 있는 경우
𝐻0이 참 𝐻1이 참
𝐻0을 기각하지 못함 올바른 결정
제 2종 오류
(𝛽)
𝐻0을 기각
제 1종 오류
(𝛼)
올바른 결정
검정 결과
실제
데이터 분석을 위한 통계와
확률
참고 – 신뢰 구간
84
신뢰 구간(confidence interval)
“선거 출구 조사”
관심있는 모수의 위치를 특정 범위로 확률적으로 추측
특정 분포를 가정하고 활용
신뢰 구간 예제
[예] 평균이 𝜇이고 분산이 𝜎2인 어떤 모집단에서 추출한
표본 𝑋1, 𝑋2, ⋯ , 𝑋𝑛을 활용한 𝜇에 대한
95% 신뢰 구간 추정(단, 𝑛 > 30)
𝑍 =
𝑋 − 𝜇
𝜎
𝑛
~ 𝑁(0, 1)
⇒ 𝑃 𝑋 − 𝑧0.025
𝜎
𝑛
≤ 𝜇 ≤ 𝑋 + 𝑧0.025
𝜎
𝑛
= 1 − 0.05
⇒ 𝑃 −𝑧0.025 ≤
𝑋 − 𝜇
𝜎
𝑛
≤ 𝑧0.025 = 1 − 0.05
따라서 𝜇에 대한 95% 신뢰구간: 𝑋 − 𝑧0.025
𝜎
𝑛
, 𝑋 + 𝑧0.025
𝜎
𝑛
데이터 분석을 위한 통계와 확률
ch4. 알고리즘의 이해
데이터 분석을 위한 통계와
확률
알고리즘의 활용의 효율성
알고리즘을 활용해 주요 변수를 선택하고 예측에 활용 가능!
사건 발생 확률
사용자 불만 발생 예제데이터
불만 발생과 관련이 있을 것 같은 서비스 품질 관련 700여개 변수 포함
“어떻게 분석할까?”
86
데이터 분석을 위한 통계와
확률
머신 러닝과 알고리즘의 정의
87
머신 러닝(Machine Learning)
“the study of computer algorithms that improve automatically through experience”
알고리즘(Algorithm)
“finite sequence of instructions to solve a class of problems”
목적함수(손실함수)를 정의하고 연산을 통해 최적화된 파라미터를 계산
데이터 분석을 위한 통계와
확률
알고리즘 활용의 필요성
88
그룹별 합계, 평균 등
단편적인 정보 중심의 집계
분석자/실무자의 경험에
의존한 주요 변수 선택
1
단순 집계값의 한계
일반적인 비즈니스 데이터는
실험과 달리 통제 불가능
관심 대상에 대한 요인을
특정하기 어려움
2
통제(control) 불가능
단순 집계 중심의 정보는
예측에 활용하기 어려움
알고리즘을 활용해
개별 관측치 예측값 계산 가능
3
예측에 효과적
알고리즘을 활용하여
복잡한 변수 관계를 설명 가능
높은 설명력을 바탕으로
예측 등 활용 시 높은 성능
기대
4
설명력/성능 향상
데이터 분석을 위한 통계와
확률
더 많은 변수 활용의 필요성
89
심슨의 역설(Simpson’s paradox)
어떤 집단이 모든 부분에서 상대적으로 확률/평균이 높아도
전체 확률/평균은 오히려 작은 현상
그룹별 확률/평균 차이와
집단별 선호 그룹의 차이 등으로 발생
남 여
구분 지원자 합격률 지원자 합격률
전체 8,442 44% 4,321 35%
남 여
학과 지원자 합격률 지원자 합격률
A 825 62% 108 82%
B 560 63% 25 68%
C 325 37% 593 34%
D 417 33% 375 35%
⋮ ⋮ ⋮ ⋮ ⋮
전체 8,442 44% 4,321 35%
1973년 UC Berkeley 합격률 요약 데이터
데이터 분석을 위한 통계와
확률
선형 회귀 모형의 이해
90
상관계수 예제
[예] 아빠 키와 아들 키의 상관계수는 0.5
“아빠 키가 클 수록 아들 키도 크다”
관계식과 회귀 모형 적합
일차 함수를 활용한 관계의 표현
𝑦 = 𝑎 + 𝑏𝑥
회귀 모형 적합 = 회귀 계수의 계산 = 추세선 그리기
단순 선형 회귀(simple linear regression)
수치형 관심변수를 수치형 설명변수의 정비례로 설명하는 모형
𝑌 = 𝛽0 + 𝛽1𝑋 + 𝜀
- 𝑋가 1씩 커질 때 마다 𝑌는 𝑏만큼 비례해서 변화
- 𝑌에는 𝑋로는 설명할 수 없는 오차 𝜀가 존재
선형 회귀 적합 예제
[예] 아빠 키와 아들 키의 관계
𝑦 = 86.07 + 0.514𝑥
데이터 분석을 위한 통계와
확률
일반적인 선형 회귀 모형
91
선형 회귀
Linear Regression
설명변수(독립변수)와
관심변수(종속변수)의
직선적인 관계를 설명
𝒚 = 𝛽0 + 𝛽1𝒙𝟏 + 𝛽2𝒙𝟐 + ⋯ + 𝛽𝑝𝒙𝒑 + 𝜺, 𝜺~ 𝑁 0, 𝜎2
회귀 계수 𝛽𝑖에 대한 검정(t검정)
관심변수 𝒀를 설명하는 회귀 모형에서 설명변수 𝑿𝒊 에 대응하는 계수 𝛽𝑖에 대한 검정
𝐻0 ∶ 𝛽𝑖 = 0; 변수 𝑿𝒊는 필요 없다
𝐻1 ∶ 𝛽𝑖 ≠ 0
오차항 𝜀 에 대한 가정
정규성(normality) : 오차가 정규분포를 따름
등분산성(homoscedasticity) : 오차의 분산 𝜎2
이 일정함
독립성(independence) : 오차들 간에는 상관이 없음
데이터 분석을 위한 통계와
확률
결정 계수의 계산
92
결정 계수(Coefficient of determination), R2(R-Squared)
선형 회귀 모형 등의 설명력의 척도
클수록 좋은 모델(0.8 이상이면 어느정도 큰 모델)
관심변수 𝒚의 분산과 모형 설명 분산을 비율로 계산
𝑖=1
𝑛
(𝑌𝑖 − 𝑌)2
=
𝑖=1
𝑛
(𝑌𝑖 − 𝑌)2
+
𝑖=1
𝑛
(𝑌𝑖 − 𝑌𝑖)2
- 𝑌𝑖 : 𝑖번째 관측치의 실제 관심변수 값
- 𝑌 : 관심변수의 전체 평균
- 𝑌𝑖 : 회귀모형을 활용한 𝑖번째 관측치의 예측값
𝑅2
= 1 −
𝑆𝑆𝐸
𝑆𝑆𝑇
=
𝑆𝑆𝑅
𝑆𝑆𝑇
SST SSR SSE
데이터 분석을 위한 통계와
확률
션형 회귀 통계 해석
93
[R-squared]
- 모델의 데이터 설명력(에러를 모델이 얼마나 개선했는가)
- 클수록 좋은 모델(0.8 이상이면 충분히 큰 모델)
- Adj. R-suared가 더욱 적절한 평가 기준이다. 그 이유는
독립 변수가 많아지면 R-squared는 무조건 증가하는데,
변수의 개수까지 고려한 것이 Adj. R-suared이기 때문.
[Coefficient]
- 각 독립 변수의 영향력(강도와 방향)
- 직선의 기울기
- 특정 독립 변수의 Coef가 크면, 독립 변수 값이 조금만 커져도 종속
변수가 크게 변하게 된다.
(데이터 스케일을 맞춰준 상태에서, Coef를 비교하는 것이 맞음)
[P-value]
- 신뢰할 수 있는 결과인가? 에 대한 척도
- 일반적으로 유의수준 0.05 이하면 모델이 통계적으로 유의하다라고
판단
만약 0.05 이상이면 이 정보를 신뢰할 수 없다(맞는지 확신 불가)
데이터 분석을 위한 통계와
확률
로지스틱 회귀모형의 활용
94
로지스틱 회귀
Logistic Regression
𝑙𝑜𝑔𝑖𝑡(𝜋) = log
𝜋
1 − 𝜋
= 𝛽0 + 𝛽1𝑥1 + ⋯ + 𝛽𝑝𝑥𝑝 + 𝜀
회귀의 개념을 활용하되
확률의 범위(0~1)문제를 해결하기 위해서
로짓(logit) 변환을 활용
⇒ 𝑒𝑦
= 𝑒𝛽0+𝛽1𝑥1+⋯+𝛽𝑝𝑥𝑝+𝜀
⇒ 𝜋 =
𝑒𝑦
1+𝑒𝑦 =
𝑒𝛽0+𝛽1𝑥1+⋯+𝛽𝑝𝑥𝑝+𝜀
1+𝑒𝛽0+𝛽1𝑥1+⋯+𝛽𝑝𝑥𝑝+𝜀
데이터 분석을 위한 통계와
확률
의사결정 나무 모형의 활용
95
집계
수많은 요인을 모두 직접 탐색
관심있는 변수의 차이를
잘 설명할 수 있는 요인을
알고리즘이 대신 탐색
의사결정나무 모형의 분할 예제
의사결정 나무
Decision Tree
데이터 분석을 위한 통계와
확률
예제로 살펴보는 분할
96
2
2
3
4
4
5
6
7
3
4
=
TARGET SHAPE COLOR SIZE
2 tri blue big
2 tri blue small
3 tri red small
4 tri red small
4 tri red big
3 rect red big
4 rect red big
5 rect blue small
6 rect blue small
7 rect blue big
데이터 분석을 위한 통계와
확률
평균 비교를 통한 우선 순위 선택
97
1 2 3
모양 색깔 크기
SHAPE MEAN
tri 3.0
rect 5.0
COLOR MEAN
blue 4.4
red 3.6
SIZE MEAN
big 4.0
small 4.0
분할 기준 선택
두 그룹의 평균 차이가 클 수록 정보↑
[예] “SHAPE”으로 나눠 설명하는 것이 효과적
데이터 분석을 위한 통계와
확률
제곱합을 활용한 최적 분할 기준 탐색
98
관심 노드(node)와 제곱합
제곱합은 관심 그룹 내 관측치 간 차이의 정도를 표현
𝑆𝑆(𝑅𝑗) =
𝒙𝒊∈𝑅𝑗
𝑦𝑖 − 𝑦𝑗
2
의사결정 나무의 목적함수
아래의 목적함수를 최대화하는 분할 기준 탐색
𝑆𝑆 𝑅𝑗 − 𝑆𝑆 𝑅𝐿 + 𝑆𝑆 𝑅𝑅
= 𝑆𝑆 𝑅𝑗 −
𝒙𝒊∈𝑅𝐿
𝑦𝑖 − 𝑦𝑗
2
+
𝒙𝒊∈𝑅𝑅
𝑦𝑖 − 𝑦𝑗
2
- 나눠진 두 그룹의 제곱합이 작을 수록 유리
- 그룹 내 관측치가 차이가 적을 수록 유리
𝑅𝑗
𝑅𝐿 𝑅𝑅
데이터 분석을 위한 통계와
확률
모형 평가 지표의 활용과 성능 비교(회귀)
99
실제값과 예측값의 평균적인 차이
1
𝑛
𝑖=1
𝑛
𝑦𝑖 − 𝑦𝑖
1
MAE
(Mean Absolute Error)
실제값 대비 오차 비율의 평균
1
𝑛
𝑖=1
𝑛
𝑦𝑖 − 𝑦𝑖
𝑦𝑖
2
MAPE
(… Percentile Error)
오차 제곱 평균의 제곱근
1
𝑛
𝑖=1
𝑛
𝑦𝑖 − 𝑦𝑖
2
3
RMSE
(Root Mean Squared Error)
데이터 분석을 위한 통계와
확률
모형 평가 지표의 활용과 성능 비교(분류)
100
오차행렬(Confusion Matrix)
실제 수준과 예측 수준을 비교한 표, 혼동행렬
Positive(+) Negative(-)
Positive(+)
True positive
(𝑎)
False positive
(𝑐, Type I error)
Negative(-)
False negative
(𝑏, Type II Error)
True negative
(𝑑)
실제
예측
2x2 오차행렬의 구성
데이터 분석을 위한 통계와
확률
분류 모형의 주요 평가 지표
101
전체 중에서 적중한 것의 비중
𝑎 + 𝑑
𝑎 + 𝑏 + 𝑐 + 𝑑
1
정확도
(Accuracy)
전체 중에서 오분류한 것의 비중
𝑏 + 𝑐
𝑎 + 𝑏 + 𝑐 + 𝑑
2
오분류율
(Error rate)
정확도의 한계
데이터 분석을 위한 통계와
확률
분류 모형의 주요 평가 지표
102
감염자의 검사결과가 양성일 확률
𝑎
𝑎 + 𝑏
1
민감도
(Sensitivity, Recall)
양성으로 판단한 사람 중 실제
감염자의 비중
𝑎
𝑎 + 𝑐
2
정밀도
(Precision)
precision과 recall의 조화 평균
2𝑎
2𝑎 + 𝑏 + 𝑐
3
F1 스코어
데이터 분석을 위한 통계와 확률
ch5. 프로젝트 실습
감사합니다.

More Related Content

Similar to ★강의교재_데이터 분석을 위한 통계와 확률_v2.pptx

시계열 분석의 이해와 활용
시계열 분석의 이해와 활용시계열 분석의 이해와 활용
시계열 분석의 이해와 활용Seung-Woo Kang
 
Week5 data vis(2)
Week5 data vis(2)Week5 data vis(2)
Week5 data vis(2)Eun Yu
 
[파인트리오픈클래스] 엑셀을 활용한 데이터 분석과 이해
[파인트리오픈클래스] 엑셀을 활용한 데이터 분석과 이해[파인트리오픈클래스] 엑셀을 활용한 데이터 분석과 이해
[파인트리오픈클래스] 엑셀을 활용한 데이터 분석과 이해Min Kyu Lee
 
파이썬 데이터 분석 3종세트
파이썬 데이터 분석 3종세트파이썬 데이터 분석 3종세트
파이썬 데이터 분석 3종세트itproman35
 
2.supervised learning(epoch#2)-1
2.supervised learning(epoch#2)-12.supervised learning(epoch#2)-1
2.supervised learning(epoch#2)-1Haesun Park
 
Amugona study 1회 jjw
Amugona study 1회 jjwAmugona study 1회 jjw
Amugona study 1회 jjw정완 전
 
Amugona study 1회 jjw
Amugona study 1회 jjwAmugona study 1회 jjw
Amugona study 1회 jjw정완 전
 
2011 미니탭(Minitab) 교재(랜드코리아)
2011 미니탭(Minitab) 교재(랜드코리아)2011 미니탭(Minitab) 교재(랜드코리아)
2011 미니탭(Minitab) 교재(랜드코리아)Elvin Jung
 
캐빈머피 머신러닝 Kevin Murphy Machine Learning Statistic
캐빈머피 머신러닝 Kevin Murphy Machine Learning Statistic캐빈머피 머신러닝 Kevin Murphy Machine Learning Statistic
캐빈머피 머신러닝 Kevin Murphy Machine Learning Statistic용진 조
 
5.model evaluation and improvement
5.model evaluation and improvement5.model evaluation and improvement
5.model evaluation and improvementHaesun Park
 
Doing data science_ch2
Doing data science_ch2Doing data science_ch2
Doing data science_ch2박 민규
 
RUCK 2017 REx: 엑셀 기반 R 연동 통계분석 소프트웨어
RUCK 2017 REx: 엑셀 기반 R 연동 통계분석 소프트웨어RUCK 2017 REx: 엑셀 기반 R 연동 통계분석 소프트웨어
RUCK 2017 REx: 엑셀 기반 R 연동 통계분석 소프트웨어r-kor
 
알파고의 알고리즘
알파고의 알고리즘알파고의 알고리즘
알파고의 알고리즘SeokWon Kim
 
[SOPT] 데이터 구조 및 알고리즘 스터디 - #02 : 스택, 큐, 수식 연산
[SOPT] 데이터 구조 및 알고리즘 스터디 - #02 : 스택, 큐, 수식 연산[SOPT] 데이터 구조 및 알고리즘 스터디 - #02 : 스택, 큐, 수식 연산
[SOPT] 데이터 구조 및 알고리즘 스터디 - #02 : 스택, 큐, 수식 연산S.O.P.T - Shout Our Passion Together
 
인포그래픽스 데이터분석과 저널리즘 3장 데이터수집,정제에서 분석까지
인포그래픽스 데이터분석과 저널리즘 3장 데이터수집,정제에서 분석까지인포그래픽스 데이터분석과 저널리즘 3장 데이터수집,정제에서 분석까지
인포그래픽스 데이터분석과 저널리즘 3장 데이터수집,정제에서 분석까지Han Woo PARK
 

Similar to ★강의교재_데이터 분석을 위한 통계와 확률_v2.pptx (20)

시계열 분석의 이해와 활용
시계열 분석의 이해와 활용시계열 분석의 이해와 활용
시계열 분석의 이해와 활용
 
Week5 data vis(2)
Week5 data vis(2)Week5 data vis(2)
Week5 data vis(2)
 
분석6기 4조
분석6기 4조분석6기 4조
분석6기 4조
 
[파인트리오픈클래스] 엑셀을 활용한 데이터 분석과 이해
[파인트리오픈클래스] 엑셀을 활용한 데이터 분석과 이해[파인트리오픈클래스] 엑셀을 활용한 데이터 분석과 이해
[파인트리오픈클래스] 엑셀을 활용한 데이터 분석과 이해
 
파이썬 데이터 분석 3종세트
파이썬 데이터 분석 3종세트파이썬 데이터 분석 3종세트
파이썬 데이터 분석 3종세트
 
2.supervised learning(epoch#2)-1
2.supervised learning(epoch#2)-12.supervised learning(epoch#2)-1
2.supervised learning(epoch#2)-1
 
Amugona study 1회 jjw
Amugona study 1회 jjwAmugona study 1회 jjw
Amugona study 1회 jjw
 
Amugona study 1회 jjw
Amugona study 1회 jjwAmugona study 1회 jjw
Amugona study 1회 jjw
 
2011 미니탭(Minitab) 교재(랜드코리아)
2011 미니탭(Minitab) 교재(랜드코리아)2011 미니탭(Minitab) 교재(랜드코리아)
2011 미니탭(Minitab) 교재(랜드코리아)
 
파이썬 데이터 분석 (18년)
파이썬 데이터 분석 (18년)파이썬 데이터 분석 (18년)
파이썬 데이터 분석 (18년)
 
캐빈머피 머신러닝 Kevin Murphy Machine Learning Statistic
캐빈머피 머신러닝 Kevin Murphy Machine Learning Statistic캐빈머피 머신러닝 Kevin Murphy Machine Learning Statistic
캐빈머피 머신러닝 Kevin Murphy Machine Learning Statistic
 
Power bi
Power biPower bi
Power bi
 
5.model evaluation and improvement
5.model evaluation and improvement5.model evaluation and improvement
5.model evaluation and improvement
 
Equation Solving
Equation SolvingEquation Solving
Equation Solving
 
Doing data science_ch2
Doing data science_ch2Doing data science_ch2
Doing data science_ch2
 
RUCK 2017 REx: 엑셀 기반 R 연동 통계분석 소프트웨어
RUCK 2017 REx: 엑셀 기반 R 연동 통계분석 소프트웨어RUCK 2017 REx: 엑셀 기반 R 연동 통계분석 소프트웨어
RUCK 2017 REx: 엑셀 기반 R 연동 통계분석 소프트웨어
 
강의자료3
강의자료3강의자료3
강의자료3
 
알파고의 알고리즘
알파고의 알고리즘알파고의 알고리즘
알파고의 알고리즘
 
[SOPT] 데이터 구조 및 알고리즘 스터디 - #02 : 스택, 큐, 수식 연산
[SOPT] 데이터 구조 및 알고리즘 스터디 - #02 : 스택, 큐, 수식 연산[SOPT] 데이터 구조 및 알고리즘 스터디 - #02 : 스택, 큐, 수식 연산
[SOPT] 데이터 구조 및 알고리즘 스터디 - #02 : 스택, 큐, 수식 연산
 
인포그래픽스 데이터분석과 저널리즘 3장 데이터수집,정제에서 분석까지
인포그래픽스 데이터분석과 저널리즘 3장 데이터수집,정제에서 분석까지인포그래픽스 데이터분석과 저널리즘 3장 데이터수집,정제에서 분석까지
인포그래픽스 데이터분석과 저널리즘 3장 데이터수집,정제에서 분석까지
 

★강의교재_데이터 분석을 위한 통계와 확률_v2.pptx

  • 1. 데이터 분석을 위한 통계와 확률 확률, 통계 기초부터 회귀, 트리 알고리즘까지
  • 2. Contents 목차 ch01 데이터 분석과 파이썬 이해 1-1. 데이터 분석 절차의 이해 1-2. Python 기초 ch02 집계와 시각화 2-1. 한 변수의 집계와 시각화 2-2. 변수 관계의 집계와 시각화 ch03 통계 검정의 이해 3-1. 통계 검정의 주요 개념 3-2. 변수 관계의 유의성에 대한 검정 ch04 알고리즘의 이해 4-1. 집계와 머신 러닝의 비교 4-2. 선형 회귀와 의사결정 나무 모형의 활용 1 ch05 프로젝트 실습 주어진 데이터 활용 문제 해결 수행
  • 3. 데이터 분석을 위한 통계와 확률 ch1. 데이터 분석과 파이썬 이해
  • 4. 데이터 분석을 위한 통계와 확률 데이터의 가치 데이터의 활용 가능성과 파급 효과를 고려 무엇을 결국! 얼마나 “데이터는 금광” “Data is a gold mine” “데이터는 새로운 석유” “Data is the new oil” 3
  • 5. 데이터 분석을 위한 통계와 확률 요리와 닮은 데이터 분석 과정 재료 저장 손질 조리 음식 데이터 적재/저장 추출/전처리 분석 리포트/모형 4
  • 6. 데이터 분석을 위한 통계와 확률 형태와 시점에 따른 데이터의 분류 5 정형 데이터 (structured) 비정형 데이터 (unstructured) 종단 데이터 (cross-sectional) 시계열 데이터 (time series) 텍스트와 이미지 표 형태의 수치와 값 복수 대상과 고정된 시점 한 대상의 복수 시점 데이터의 형태와 시점에 따라 적절한 분석 방법을 선택
  • 7. 데이터 분석을 위한 통계와 확률 데이터 분석의 목적 6 정보의 인식 정보의 고도화 현황 파악 등을 목적으로 데이터의 수많은 정보를 인식 가능한 수준으로 축약하는 과정 효율적인 의사결정과 가치 있는 인사이트 도출을 위해 데이터의 복잡한 정보를 해석하는 과정 데이터에서 의미 있는 차이, 관계, 패턴을 확인하고 설명하는 과정
  • 8. 데이터 분석을 위한 통계와 확률 제조업과 데이터 분석 7 원자재 및 원재료 구매 수요 예측 및 납품업체 관리 생산재고 관리 판매/유통 채널 관리 공정 설계 및 제품 생산 생산 현황 파악 및 관리 불량 등 품질관리 1 2 3 구매 생산 판매 예측 어려움 식스시그마(6𝜎) 활용 Internet of Things 센서로 수집한 데이터를 통신을 통해 전달 예측 어려움 IoT, AI 활용
  • 9. 식스 시그마 새로운 분석 트렌드 문제 정의 후 실험 계획에 따라 통제(control)된 데이터를 계획적으로 수집 분산 분석 등 비교적 간단한 분석 방법을 활용 분석 결과 자체가 가설에 대한 검증이므로 비교적 수월한 적용 생산, 운영 과정에서 다양한 목적으로 수집 IoT를 활용해서 다양한 형태의 데이터 수집 복잡한 변수 관계를 설명하는 알고리즘 활용이 필수적 비즈니스 경험 등을 토대로 한 적절한 해석과 추가 파일럿 테스트 등 필요 데이터 Data 분석방법 Analysis 적용 Operation 8
  • 10. 데이터 분석을 위한 통계와 확률 제조업의 AI 활용 - AI 기반 품질 검사 체계 9 https://news.skhynix.co.kr/post/yesterday-in-the-data-science-organization
  • 11. 데이터 분석을 위한 통계와 확률 제조업의 AI 활용 - 자율주행 10
  • 12. 데이터 분석을 위한 통계와 확률 11 처 : 빅데이터 기반의 스마트 제조 의사결정, 조현보 외, KEIT PD ISSUE REPORT VOL 17-10 스마트 팩토리 - 빅데이터 기반 의사결정지원 표준 아키텍처
  • 13. 데이터 분석을 위한 통계와 확률 스마트 팩토리 - 스마트 제조 12 * 출처 : 스마트제조혁신추진단
  • 14. 데이터 분석을 위한 통계와 확률 Python 분석 환경 설정 데이터 집계와 시각화 뿐만 아니라 알고리즘 활용 등 가능 Python을 포함한 다양한 도구를 통합적으로 관리하는 프로그램 인터랙티브 Python 코딩을 지원하는 대표적인 웹 서비스 Python Anaconda Jupyter 13
  • 15. 데이터 분석을 위한 통계와 확률 ch1-2. Python 기초
  • 16. 데이터 분석을 위한 통계와 확률 Python 기초 문법 – 라이브러리 설치 및 관리 !pip 라이브러리 설치 및 업데이트, 제거 등에 활용 # 라이브러리 설치 !pip install pandas matplotlib seaborn # 라이브러리 제거 !pip uninstall pandas # 라이브러리 목록 확인 !pip list Python 15
  • 17. 데이터 분석을 위한 통계와 확률 Python 기초 문법 – 라이브러리 불러오기 import, from, as 라이브러리를 불러올 때 impor를 활용 from으로 특정한 모듈이나 함수만 불러올 수 있고, as로 별명(alias) 지정 가능 # 라이브러리 불러오기 import pandas # 라이브러리 별명 지정하고 불러오기 import pandas as pd # 라이브러리에서 특정 함수만 불러오기 from pandas import read_csv Python 16
  • 18. 데이터 분석을 위한 통계와 확률 Python 기초 문법 – 수치형과 문자열 1, ‘가’ 수치형(int, float) 객체는 그대로 입력하고 사칙연산자 등 활용 가능 문자열(str) 객체는 따옴표(‘’, “”)를 활용하여 입력 # 사칙연산 1+2*3/4 # 문자열의 입력 ‘삼성전자’ “삼성전자” # +를 활용한 문자열 결합 ‘Python ’ + ‘데이터 분석’ Python 17
  • 19. 데이터 분석을 위한 통계와 확률 Python 기초 문법 – 할당과 출력 =, print() =을 활용하여 다양한 형식의 객체를 저장 가능 print()를 활용하여 jupyter 셀 하단 혹은 콘솔창에 값 등을 출력 가능 # =을 활용한 할당 a=10 a # print()를 활용한 출력 print(a) Python 18
  • 20. 데이터 분석을 위한 통계와 확률 Python 기초 문법 – 리스트의 생성과 활용 [], list(), append() 대괄호 []나 list()를 활용하여 리스트(list)를 생성 가능 append()를 활용하여 요소를 추가 가능 # []를 활용한 리스트 생성 x=[1,3,5,7,9] x # append()를 활용한 요소 추가 x.append(11) x Python 19
  • 21. 데이터 분석을 위한 통계와 확률 Python 기초 문법 – index와 슬라이스 [], : []를 활용하여 생성된 리스트 등에서 일부를 선택가능 :를 활용하여 연속적인 일정 범위의 값을 선택 가능 # []를 활용한 리스트 생성과 부분 선택 x=[1,3,5,7,9] x[0] # :의 활용 x[2:4] x[:3] Python 20
  • 22. 데이터 분석을 위한 통계와 확률 데이터 처리 – pandas의 활용 DataFrame 형식의 이해 Python에서 정형 데이터를 처리, 집계할 때 주로 pandas 라이브러리를 활용 pandas에서 데이터는 DataFrame 형식으로 저장되며, DataFrame은 Series의 결합 형태 columns index “Series” 21
  • 23. 데이터 분석을 위한 통계와 확률 데이터 불러오기 – csv 파일 불러오기 22 pandas.read_csv() pandas 라이브러리의 read_csv()를 활용하여 csv 파일을 불러오기 가능 불러온 데이터는 DataFrame 형식으로 저장되고 다양한 메서드 활용 가능 # csv 파일 불러오기 df = pandas.read_csv(‘경로/파일이름.csv’) df # 간단히 데이터 살펴보기 df.shape # 관측치, 변수 개수 확인 df.head(n=) # 앞 n개 관측치 확인 df.columns # 변수 이름 목록 확인 df.dtypes # 변수 형식 확인 Python
  • 24. 데이터 분석을 위한 통계와 확률 부분 선택 – 조건 일치 관측치 선택 23 True/False, &, | 변수 선택과 다양한 조건문을 활용하여 조건과 일치하는 일부 관측치 선택 가능 and, or를 활용하여 복수의 조건의 논리 연산 활용 가능 # x1이 10이상인 관측치 선택 df[df[‘x1’] >= 10] # x1이 10이상이고 x2는 ‘A’ 혹은 ‘Z’의 값을 갖는 관측치 선택 df[(df[‘x1’] >= 10) & (df[‘x1’].isin([‘A’, ‘Z’])] Python
  • 25. 데이터 분석을 위한 통계와 확률 집계값 계산 – 건수, 합계, 평균 count(), sum(), mean() 관심 대상 수치형 변수를 선택하고, count(), sum(), mean() 등의 함수를 활용하여 집계값 계산 # x1의 건수, 합계, 평균 계산 df[‘x1’].count() df[‘x1’].sum() df[‘x1’].mean() Python 24
  • 26. 데이터 분석을 위한 통계와 확률 집계값 계산 – 그룹별 집계 groupby() groupby()를 활용하여 그룹 변수를 지정하고 그룹별 집계값 계산 가능 # x2별 x1의 건수, 합계, 평균 계산 df.groupby(‘x2’)[‘x1’].count() df.groupby(‘x2’)[‘x1’].sum() df.groupby(‘x2’)[‘x1’].mean() Python 25
  • 27. 데이터 분석을 위한 통계와 확률 집계값 계산 – 범주형 변수의 집계 unique(), nunique (), value_counts() 관심 대상 범주형 변수를 선택하고, unique() 등을 활용하여 수준 목록 확인 및 집계값 계산 # x2의 수준 목록 확인 df[‘x2’].unique() # x2의 수준 개수 확인 df[‘x2’].nunique() # x2의 수준별 관측치 수 계산 df[‘x2’].value_counts() Python 26
  • 28. 데이터 분석을 위한 통계와 확률 집계값 계산 – 교차표 생성 pandas.crosstab() crosstab()을 활용하여 교차표 생성 가능 # x2, x3의 교차표 생성 pandas.crosstab(df[‘x2’], df[‘x3’]) # x2, x3의 행백분율 교차표 생성 pandas.crosstab(df[‘x2’], df[‘x3’], normalize=‘index’) # x2, x3의 열백분율 교차표 생성 pandas.crosstab(df[‘x2’], df[‘x3’], normalize=‘columns’) Python 27
  • 29. 데이터 분석을 위한 통계와 확률 집계값 계산 – 피벗 테이블 생성 pandas.pivot_table() pivot_table()을 활용하여 표형태로 집계값 계산 가능 # x2, x3별 x1의 평균을 표형태로 계산 pandas.pivot_table(df, index=‘x2’, columns=‘x3’, values=‘x1’, aggfunc=‘mean’) # x2, x3별 x1의 평균을 표형태로 계산 df.pivot_table(index=‘x2’, columns=‘x3’, values=‘x1’, aggfunc=‘mean’) Python 28
  • 30. 데이터 분석을 위한 통계와 확률 데이터 시각화 – 라이브러리의 활용 29 matplotlib과 seaborn matplotlib https://matplotlib.org/stable/gallery/index.html seaborn https://seaborn.pydata.org/examples/index.html
  • 31. 데이터 분석을 위한 통계와 확률 그래프 작성 – 히스토그램과 막대그래프 seaborn.histplot(), seaborn.countplot() 히스토그램, 막대그래프 등의 그래프를 생성하고 활용 # x1의 히스토그램 생성 seaborn.histplot(data=df, x=‘x1’) # x2의 막대그래프 생성 seaborn.countplot(data=df, x=‘x2’) Python 30
  • 32. 데이터 분석을 위한 통계와 확률 그래프 작성 – 산점도와 열지도 seaborn.scatterplot(), seaborn.heatmap() 두 수치형 변수는 산점도를 그리고 피벗테이블과 같은 표 형태의 데이터는 열지도를 활용 # x1과 x4의 산점도 생성 seaborn.scatterplot(data=df, x=‘x1’, y=‘x4’) # x2에 따라 색을 다르게 한 x1과 x4의 산점도 생성 seaborn.scatterplot(data=df, x=‘x1’, y=‘x4’, hue=‘x2’) # 열지도 생성 seaborn.heatmap(data=df) Python 31
  • 33. 데이터 분석을 위한 통계와 확률 ch2. 집계와 시각화
  • 34. 데이터 분석을 위한 통계와 확률 데이터와 공간, 선형 대수 데이터 변수 공간 몸무게 키 민서 민준 데이터와 공간 변수 개수만큼 차원이 만들어지고 관측치 개수만큼 점이 찍힘 33 𝑿 = 민서 민준 서연 = 키 몸무게 = 165 60 180 75 175 80 선형대수(Linear Algebra) 행렬로 표현한 데이터와 데이터 공간을 다루는 학문
  • 35. 데이터 분석을 위한 통계와 확률 벡터, 행렬로 표현한 데이터 34  1차원 − 벡터 ∶ 𝑛개 관측치(행 or 열)를 가진 벡터 𝒙𝒋: 𝒙𝒋 = 𝑥1𝑗 ⋮ 𝑥𝑖𝑗 ⋮ 𝑥𝑛𝑗 , 𝒙𝒋 T = 𝑥1𝑗 … 𝑥𝑖𝑗 … 𝑥𝑛𝑗  2차원 − 행렬 ∶ 𝑛개 관측치(행)와 𝑝개 변수(열) 𝒙𝟏, ⋯ , 𝒙𝒑를 가진 행렬 𝑿: 𝑿 = 𝒙𝟏 … 𝒙𝒋 … 𝒙𝒑 = 𝑥11 ⋯ 𝑥1𝑗 ⋯ 𝑥1𝑝 ⋮ ⋮ ⋮ 𝑥𝑖1 ⋯ 𝑥𝑖𝑗 ⋯ 𝑥𝑖𝑝 ⋮ ⋮ ⋮ 𝑥𝑛1 ⋯ 𝑥𝑛𝑗 ⋯ 𝑥𝑛𝑝 , 𝑿T = 𝒙𝟏 T ⋮ 𝒙𝒑 T = 𝑥11 ⋯ 𝑥𝑛1 ⋮ ⋮ 𝑥1𝑝 ⋯ 𝑥𝑛𝑝
  • 36. 데이터 분석을 위한 통계와 확률 35 기술 통계량과 차이 통계량 (Statistics) 기술 통계량 (Descriptive Statistics) 데이터로부터 계산된 모든 숫자 변수나 변수의 관계 등 데이터의 특성을 설명하는 통계량 절대적인 차이 관측치의 실제 값이나 데이터를 요약해서 얻은 숫자의 차이 [예] 상품별 매출액 상대적인 차이 절대적인 차이를 상대적인 값으로 바꾼 숫자의 차이 [예] 상품 매출 순위
  • 37. 데이터 분석을 위한 통계와 확률 범주형 변수와 수준 36 범주형(categorical) 변수 관측치들이 몇 개의 정해진 값만 가질 수 있음 범주형 변수의 수준(levels) 어떤 범주형 변수의 관측치들이 가질 수 있는 값들의 묶음 처리(treatment), 그룹(group) [예] 변수 “성별”의 수준 : (남, 여) [예] 변수 “연령대”의 수준 : (10대, 20대, 30대, 40대, 50대, 60대 이상) 빈도표(frequency table) 관측치들이 몇 개의 정해진 값만 가질 수 있음 상대빈도(relative frequency) 빈도표에서 각 수준의 비율(proportion)을 계산 수준 간 상대적인 차이를 확인 막대그래프와 원그래프
  • 38. 데이터 분석을 위한 통계와 확률 수치형 변수의 집계 37 수치형(numerical) 변수 관측치들이 다양한 숫자 값을 가짐 합계를 활용한 집계 평균, 분산 등 관측치들의 전반적인 크기 등 특성을 확인 순서를 활용한 집계 최솟값, 최댓값, 중앙값 등 관측치들의 전반적인 위치를 확인
  • 39. 데이터 분석을 위한 통계와 확률 사분위수와 상자그림 38 사분위수(quartile) 25% 간격으로 계산한 5개 분위수(quantile) 상자그림(boxplot) 사분위수를 수직선에 표현한 그래프 최솟값(minimum) : 정렬 후 0% 위치 값 Q1(1st quartile) : 정렬 후 25% 위치 값 중앙값(median) : 정렬 후 50% 위치 값 Q3(3rd quartile) : 정렬 후 75% 위치 값 최댓값(maximum): 정렬 후 100% 위치 값
  • 40. 데이터 분석을 위한 통계와 확률 상자그림을 활용한 이상치 탐지 39 이상치(outlier) 다른 관측치들과 확연히 다르게 크거나 작은 값을 가지는 관측치 이상치 탐지의 관점 변화 과거 : 평균 비교 중심 분석에서 이상치의 영향을 배제 현재 : 특이값, 이상치의 판별 및 탐지 중심 분석 “파레토 법칙(20/80) vs 롱테일” 사분위수를 활용한 이상치 탐지 사분위범위 등을 활용해서 이상치 임계값 설정 범위(range) : 최댓값 – 최솟값 사분위범위(IQR ; Inter-Quartile Range) : Q3-Q1 이상치 기준: Q3+1.5*IQR 혹은 Q1-1.5*IQR 이상치 Q3+1.5 IQR 이상치 Q1-1.5 IQR
  • 41. 데이터 분석을 위한 통계와 확률 도수분포표와 히스토그램 40 도수분포표(frequency table) 적절한 구간 값을 활용하여 구간화하고 각 구간의 관측치 수를 정리한 표 수치형 변수에서 관측치 분포를 확인 히스토그램(histogram) 도수분포표를 높이로 표현한 그림 각 구간의 비중을 확인 구간 51~60 61~70 71~80 81~90 91~100 학생수 1 1 3 3 1 학생 10명의 성적 분포
  • 42. 데이터 분석을 위한 통계와 확률 평균과 분산, 표준편차 41 평균 (mean) 분산 (variance) 표준편차 (standard deviation) 𝑛 : 관측치 수 𝑥 : 어떤 수치형 변수 𝑥𝑖 : 𝑥의 𝑖번째 관측치 : 무언가의 합계 𝑥 = 1 𝑛 𝑖=1 𝑛 𝑥𝑖 𝑠𝑥 2 = 1 𝑛 − 1 𝑖=1 𝑛 (𝑥𝑖 − 𝑥)2 𝑠𝑥 = 𝑠𝑥 2 모든 관측치를 더하고 관측치 개수로 나눈 값 관측치들의 전반적인 크기를 의미 (관측치에서 평균을 뺀 것)의 제곱의 평균 관측치들이 평균을 중심으로 흩어져 있는 정도 분산의 제곱근 분산이 갖는 단위(scale/unit) 문제 해결
  • 43. 데이터 분석을 위한 통계와 확률 1차원에서 2차원으로 42 한 변수의 분석 두 변수의 분석 1차원 공간에서 관측치들의 흩어진 패턴을 파악 주로 변수의 특성을 확인하는데 초점 2차원 공간에서 관측치들의 흩어진 패턴을 파악 두 변수의 관계를 설명하는 데 초점
  • 44. 데이터 분석을 위한 통계와 확률 두 범주형 변수의 요약과 시각화 43 교차표(contingency table) 두 범주형 변수의 요약을 위한 2차원 표 두 범주형 변수의 수준 조합에 대한 빈도표 수준 조합의 절대적인 차이를 확인 열지도, 히트맵(heatmap) 2차원 교차표를 숫자 대신 색으로 표현한 그림 숫자 대신 색의 진하기로 크기를 표현 성별 연령대 남 20대 여 30대 여 20대 남 30대 여 30대 여 20대 여 30대 남 30대 남 30대 20대 30대 남 1 3 여 2 3 성별과 연령대의 요약과 시각화
  • 45. 데이터 분석을 위한 통계와 확률 행백분율과 열백분율의 계산과 활용 44 교차표의 상대적인 차이 확인 필요 절대적인 차이 : “이 칸에 관측치가 많다” 상대적인 차이 : “이 칸이 상대적으로 비율이 높다“ 각 행(열)에서 상대빈도를 계산한 행/열 백분율 활용 남 여 합계 찬성 15 15 30 반대 45 25 70 합계 60 40 100 남 여 합 찬성 25% 38% 30% 반대 75% 62% 70% 합계 100% 100% 100% 남 여 합 찬성 50% 50% 100% 반대 64% 36% 100% 합계 60% 40% 100% 성별 찬성/반대 교차표 행 백분율 교차표 열 백분율 교차표
  • 46. 데이터 분석을 위한 통계와 확률 산점도를 활용한 2차원 공간의 시각화 45 산점도(scatterplot) 두 수치형 변수 값을 좌표로 활용하여 그린 그래프 2차원 공간에 관측치의 수만큼 찍힌 점의 패턴을 파악 보조선의 중요성 두 변수의 평균을 활용해서 수직/수평선 추가 두 직선이 만나는 지점이 2차원 공간의 무게 중심 공부시간 점수 0 60 4 78 3 83 6 74 6 100 7 80 8 90 8 85 3 70
  • 47. 데이터 분석을 위한 통계와 확률 사분면과 관측치 분류 46 사분면(quadrant) 2차원 공간에서 무게 중심 기준으로 나눠진 4개 면 오른쪽 위 제 1사분면부터 반시계 반향으로 순서를 지정 산점도와 사분면 관측치 분류 사분면 첫번째 변수 두번째 변수 1 평균 이상 평균 이상 2 평균 이하 평균 이상 3 평균 이하 평균 이하 4 평균 이상 평균 이하
  • 48. 데이터 분석을 위한 통계와 확률 사분면과 두 변수의 상관 관계 47 두 수치형 변수의 관계 양의 상관 = “비례한다” 음의 상관 = “반비례한다” 산점도의 패턴과 두 변수의 관계 제 1, 3사분면의 관측치 수 ↑ : 두 변수의 양의 상관을 의미 제 2, 4사분면의 관측치 수 ↑ : 두 변수의 음의 상관을 의미 상관 관계를 고려한 산점도 시각화
  • 49. 데이터 분석을 위한 통계와 확률 공분산과 상관계수 48 공분산 (covariance) 𝑞𝑥𝑦 = 1 𝑛 − 1 𝑖=1 𝑛 (𝑥𝑖 − 𝑥)(𝑦𝑖 − 𝑦) 피어슨 상관계수 (Pearson’s correlation coefficient) 𝑟𝑥𝑦 = 𝑞𝑥𝑦 𝑠𝑥 𝑠𝑦 = 1 𝑛 − 1 𝑖=1 𝑛 (𝑥𝑖 − 𝑥) 𝑠𝑥 (𝑦𝑖 − 𝑦) 𝑠𝑦 , −1 ≤ 𝑟𝑥𝑦 ≤ 1 표준화된 두 수치형 변수로 계산된 공분산 -> 공분산의 단위(scale/unit) 문제 해결 𝑟𝑥𝑦 = 0 : 두 변수가 상관이 없음 𝑟𝑥𝑦 > 0 : 두 변수가 함께 증가하거나 감소하는 양의 상관을 가짐 𝑟𝑥𝑦 < 0 : 한 변수가 증가하면 나머지 한 변수는 감소하는 음의 상관을 가짐
  • 50. 데이터 분석을 위한 통계와 확률 수치형 변수와 범주형 변수의 관계 49 그룹 평균 범주형 변수의 수준별로 수치형 변수의 평균을 계산 그룹별 전반적인 크기를 비교 그룹별 상자그림 각 수준별로 수치형 변수의 상자그림을 나란히 작성 수준에 따른 수치형 변수의 분포를 비교 고객번호 거주지역 방문횟수 1 가 6 2 다 30 ⋮ ⋮ ⋮ 1,000 라 13 거주지역 평균 가 13.9 나 12.9 다 15.2 라 12.8 전체 13.8 거주지역별 방문횟수 평균 및 분포 비교
  • 51. 데이터 분석을 위한 통계와 확률 ch3. 통계 검정의 이해
  • 52. 데이터 분석을 위한 통계와 확률 기술 통계와 추론 통계 51 데이터의 전반적인 특성을 설명하는 과정 현황 파악 등 과거 자체나 현실에 초점 기술 통계 Descriptive Statistics 추론 통계 Inferential Statistics 기술 통계의 결과를 일반화, 추정, 예측하는 과정 가설 검정, 예측 등 미래에 초점
  • 53. 데이터 분석을 위한 통계와 확률 검정 중심 추론 통계의 흐름 52 모수 Parameter 통계량 Statistics 모집단 Population 표본 Sample 특성 설명 표본 추출 Sampling 특성 정의 추정 / 검정 Estimation / Test
  • 54. 데이터 분석을 위한 통계와 확률 사건과 확률 53 사건(event) 관측치나 데이터가 특정 조건을 만족시키는 상황 [예] 로또 1등에 당첨될 사건 확률(probability) 관심있는 사건이 발생할 가능성을 0부터 1사이 숫자로 표현한 값 [예] 로또 1등에 당첨될 확률 국어점수가 90점 이상일 확률 = 3/10 = 0.3 국어/수학 모두 90점 이상일 확률 = 2/10 = 0.2 국어 혹은 수학이 90점 이상일 확률 = 5/10 = 0.5 학생 10명의 국어점수와 수학점수와 확률
  • 55. 데이터 분석을 위한 통계와 확률 이론적 확률과 경험적 확률 54 이론적 확률 수학적 원리를 기반으로 하는 확률 [예] 동전을 던질 경우 앞면이 나올 이론적 확률은 0.5 미래 예측의 의미 경험적 확률(Empirical probability) 관찰된 데이터와 실제 결과를 기반으로 하는 확률 [예] 동전을 100번 던져 앞면이 47번 나왔다면, 앞면이 나올 확률은 0.47 과거 빈도의 의미
  • 56. 데이터 분석을 위한 통계와 확률 조건부 확률 55 어떤 사건이 발생한다는 조건을 활용하는 확률 개념 𝑃 𝐴 𝐵 = 𝑛(𝐴 ∩ 𝐵) 𝑛(𝐵) = 𝑃(𝐴 ∩ 𝐵) 𝑃(𝐵) 예시) 중학생/고등학생 학생 수
  • 57. 데이터 분석을 위한 통계와 확률 모집단과 표본 예제 56 표본 추출 예제 [예] 수학 점수 80점을 기준으로 계산된 조건부 확률 수학 점수 모집단 표본2 표본1 표본3 사건 𝐴 : 하나의 관측치를 뽑았을 때 빨강인 사건 모집단 : 𝑃 𝐴 = 10 20 = 0.5 표본 : 𝑃 𝐴 = 6 10 = 0.6
  • 58. 데이터 분석을 위한 통계와 확률 조건부 확률 예제 57 데이터 공간과 조건부 확률 [예] 빨강 10개, 파랑 10개인 모집단에서 10개 관측치 표본 추출 국어점수가 90점 이상일 확률 = 3/10 = 0.3 수학점수가 80점 미만일 때, 국어 점수가 90점 이상일 확률 = 1/4 = 0.25 수학점수가 80점 이상일 때, 국어 점수가 90점 이상일 확률 = 2/6 = 0.33
  • 59. 데이터 분석을 위한 통계와 확률 조건부 확률과 독립 58 조건부 확률(Conditional Probability) 특정한 조건, 영역에서 계산된 확률 𝑃 𝐴 𝐵 = 𝑛(𝐴 ∩ 𝐵) 𝑛(𝐵) = 𝑃(𝐴 ∩ 𝐵) 𝑃(𝐵) 독립(Independence) 전체 확률과 조건부 확률이 동일한 경우 𝑃 𝐴 𝐵 = 𝑃(𝐴 ∩ 𝐵) 𝑃(𝐵) = 𝑃(𝐴) 독립을 가정한 확률 계산 두 사건이 동시에 발생할 확률을 두 확률의 곱으로 계산 𝑃 𝐴 ∩ 𝐵 = 𝑃(𝐴)𝑃(𝐵) A B
  • 60. 데이터 분석을 위한 통계와 확률 독립과 배반 59 𝑃 𝐴 ∩ 𝐵 = 0 배반(Disjoint) : 사건 A와 사건 B는 동시에 일어날 수 없다. 𝑃 𝐴 ∩ 𝐵 = 𝑃(𝐴)𝑃(𝐵) 독립(Independence) : 사건 A가 일어나는 것이 사건 B가 일어날 확률에 영향을 미치지 않는다.
  • 61. 데이터 분석을 위한 통계와 확률 귀무가설과 대립가설 60 귀무가설 null hypothesis 𝐻0 대립가설 alternative hyp. 𝐻1, 𝐻𝑎 모집단의 특성에 대해 차이, 관계가 없음을 가정 비교의 기준점 역할 귀무가설과 반대로 차이, 관계가 있음을 가정 유의미함 [예1] 두 수치형 변수의 관계 𝐻0 : 두 변수가 상관이 없다. ( 상관계수 𝜌𝑋𝑌 = 0 ) 𝐻1 : 두 변수가 상관이 있다. ( 상관계수 𝜌𝑋𝑌 ≠ 0 ) [예2] 한 수치형 변수와 한 범주형 변수의 관계 𝐻0 : 모든 그룹의 평균이 같다. (𝑘개 그룹의 평균 𝜇1 = 𝜇2 = ⋯ = 𝜇𝑘) 𝐻1 : 적어도 어떤 두 그룹의 평균이 다르다. (𝜇𝑖 ≠ 𝜇𝑗)
  • 62. 데이터 분석을 위한 통계와 확률 확률적 의사결정, 유의확률과 검정 61 검정(Test) 귀무가설(𝐻0)과 대립가설(𝐻1) 둘 중에서 확률적으로 더 나은 쪽을 선택하는 과정 보수적으로 판단하기 위해서 귀무가설(𝐻0)을 기준으로 판단 유의 확률(significance probability), p-값(p-value) 귀무가설이 맞다는 가정하에 데이터 속 차이/관계가 나올 가능성을 계산한 조건부 확률 p-value가 작을수록 귀무가설을 기각하고 대립가설을 채택하게 된다(e.g. 개발한 신약은 효과가 있다) 유의 수준(significance level) 유의 확률(p-값)에 대한 판단의 기준 값. 일반적으로 0.05 활용 유의 확률(p-값) ≤ 0.05 : 대립가설(𝐻1)을 선택 유의 확률(p-값) > 0.05 : 귀무가설(𝐻0)을 선택 *귀무가설 : ~차이가 없다. ~효과가 없다. *대립가설 : ~차이가 있다. ~효과가 있다.
  • 63. 데이터 분석을 위한 통계와 확률 양측 검정과 단측 검정 62 양측 검정(Two-tailed test) : 대립 가설이 효과의 방향을 지정하지 않을 경우 𝐻0 : 𝜇𝑋 = 𝜇𝑌 (두 그룹의 평균이 같다.) 𝐻1 : 𝜇𝑋 ≠ 𝜇𝑌 (두 그룹의 평균이 다르다. ) 단측 검정(One-tailed test) : 대립 가설이 효과의 방향을 지정하는 경우 𝐻0 : 𝜇𝑋 = 𝜇𝑌 (두 그룹의 평균이 같다.) 𝐻1 : 𝜇𝑋 > 𝜇𝑌 (첫번째 그룹의 평균이 더 크다.)
  • 64. 데이터 분석을 위한 통계와 확률 두 수치형 변수의 관계 검정 예제 63 공부시간 점수 0 60 4 78 3 83 6 74 6 100 7 80 8 90 8 85 3 70 가설 설정 𝐻0 : 두 변수가 상관이 없다. ( 상관계수 𝜌𝑋𝑌 = 0 ) 𝐻1 : 두 변수가 상관이 있다. ( 상관계수 𝜌𝑋𝑌 ≠ 0 ) 검정 방향 두 변수가 상관이 없다는 가정하에 상관계수 0.7이 나올 가능성을 수치화(유의확률) 상관계수 = 0.7
  • 65. 데이터 분석을 위한 통계와 확률 의미 없는 상관계수 분포 확인 64 “상관 계수의 분포” [예] 공부시간, 점수 순서를 마음대로 섞은 데이터로 계산한 상관계수 : -0.15 공부시간 점수 0 60 4 78 3 83 6 74 6 100 7 80 8 90 8 85 3 70 [예] 10번 반복해서 구한 상관계수 10개 -0.15, 0.18, -0.06, 0.30, -0.80, -0.28, -0.62, 0.28, 0.37, -0.23 [예] 1000번 반복해서 구한 상관계수 1000개의 히스토그램
  • 66. 데이터 분석을 위한 통계와 확률 의미 없는 상관계수 분포를 활용한 유의확률 계산 65 “유의확률 계산 및 검정” 1,000개 상관계수를 활용한 유의 확률 계산 ±0.7보다 더 큰 상관계수 25개 귀무가설(𝐻0 : 𝜌𝑋𝑌 = 0) 기준 두 변수의 상관계수가 0.7보다 클 확률 유의 확률 = 0.025 유의 수준 0.05를 기준으로 대립가설(𝐻1 )을 선택 “두 변수 공부시간과 점수는 유의미한 양의 상관을 가진다고 할 수 있다”
  • 67. 데이터 분석을 위한 통계와 확률 검정 통계량의 활용 66 검정 통계량(Test statistics) 분포를 활용하여 차이, 관계의 정도를 숫자로 표현 데이터가 귀무가설(𝐻0)과 얼마나 다른지 계산한 통계량 일반적으로 검정 통계량이 클 수록 차이가 큼 𝑡, 𝜒2, 𝐹 등 기성 분포를 활용하여 계산 𝑡 분포 𝑍가 표준 정규 분포를 따르고, 𝑋가 자유도가 𝜈인 𝜒2 분포를 따르며 𝑍와 𝑋가 서로 독립이라고 가정하면, 확률 변수 𝑇 = 𝑍 𝑋/𝜈 는 자유도가 𝜈인 𝑡분포를 따름 𝜒2 (카이제곱) 분포 표준 정규 분포를 따르는 확률 변수들의 제곱합이 따르는 분포 표준 정규 분포를 따르는 𝑘개의 확률 변수 𝑍1, 𝑍2, ⋯ 𝑍𝑘에 대해 확률 변수 𝑋 = 𝑍1 2 + 𝑍2 2 + ⋯ 𝑍𝑘 2 는 자유도가 𝑘인 𝜒2 분포를 따름 𝐹 분포 𝑈가 자유도가 𝑑1인 𝜒2 분포를 따르고 𝑉가 자유도가 𝑑2인 𝜒2 분포를 따르며 𝑈와 𝑉가 서로 독립이라고 가정하면, 확률변수 𝑋 = 𝑈/𝑑1 𝑉/𝑑2 는 자유도 𝑑1, 𝑑2인 𝐹분포를 따름 *자유도 : 매개변수를 추정하거나 통계를 계산하는 데 사용할 수 있는 독립적인 관찰의 수를 설명하는 데 사용되는 용어. 일반적으로 샘플의 자유도는 샘플 크기에서 추정해야 하는 매개변수 수를 뺀 값과 같습니다.
  • 68. 데이터 분석을 위한 통계와 확률 상황 별 통계 분석법 67
  • 69. 데이터 분석을 위한 통계와 확률 68 분산 분석(ANOVA) 카이제곱 검정 종속 변수 독립변수 데이터 그룹간 비교 예측 독립 표본 T검정 대응 표본 T검정 2그룹 3그룹 단순 선형회귀 단변수 다변수 다중 선형회귀 연속 범주 로지스틱 회귀 피어슨 상관분석 상황 별 통계 분석법
  • 70. 데이터 분석을 위한 통계와 확률 주요 분포 – 정규 분포 69 정규 분포(normal distribution) 평균이 𝜇이고 분산은 𝜎2인 종모양의 형태로 키 등 자연적인 현상을 설명 변수를 표준화한 표준 정규 분포 활용 가능 𝑡, 𝜒2, 𝐹 등의 분포로 확장 모수(파라미터) 위치 모수 𝜇 척도 모수 𝜎2 확률 분포 𝑋~𝑁(𝜇, 𝜎2) 𝑓 𝑥 = 1 2𝜋𝜎 𝑒 − 1 2 𝑥−𝜇 𝜎 2 , −∞ < 𝑥 < ∞ 𝐸 𝑋 = 𝜇 𝑉 𝑋 = 𝜎2
  • 71. 데이터 분석을 위한 통계와 확률 주요 분포 – 이항 분포 70 이항 분포(binomial distribution) “동전을 100번 던졌을 때 앞면이 나올 횟수는?” 독립적인 𝑛번의 베르누이 시행 반복 결과 성공 횟수 최솟값 0, 최댓값 𝑛 모수(파라미터) 시행 횟수 𝑛 성공 확률 𝑝 확률 밀도 함수 및 기대값과 분산 성공 횟수 X~𝐵 𝑛, 𝑝 𝑝 𝑥 = 𝑃 𝑋 = 𝑥 = 𝑛 𝑥 𝑝𝑥 (1 − 𝑝)𝑛−𝑥 , 𝑥 = 0, 1, ⋯ , 𝑛 𝐸 𝑋 = 𝑛𝑝 𝑉 𝑋 = 𝑛𝑝(1 − 𝑝)
  • 72. 데이터 분석을 위한 통계와 확률 주요 분포 – 지수 분포 71 지수 분포(exponential distribution) “돈” 분포 특정 사건이 발생한 이후 다음 사건이 발생할 때까지 소요 시간을 설명 모수(파라미터) 빈도 모수 𝜆 확률 분포 𝑋~𝐸𝑥𝑝(𝜆) 𝑓 𝑥 = 𝜆𝑒−𝜆𝑥 , 0 < 𝑥 < ∞ 𝐸 𝑋 = 1/𝜆 𝑉 𝑋 = 1/𝜆2
  • 73. 데이터 분석을 위한 통계와 확률 왜도와 따른 평균과 중앙값 비교 72 왜도(Skewness) 봉우리가 하나인 어떤 분포가 특정한 방향으로 쏠린 정도 1 𝑛 𝑖=1 𝑛 (𝑥𝑖 − 𝑥)3 1 𝑛 − 1 𝑖=1 𝑛 (𝑥𝑖 − 𝑥)2 3/2 왜도 > 0; Right Skewed, Positive Skew 평균 > 중앙값 왜도 < 0; Left Skewed, Negative Skew 평균 < 중앙값 * 출처: ”Skewness”, Wikipedia
  • 74. 데이터 분석을 위한 통계와 확률 두 수치형 변수의 상관 분석 73 상관 분석(correlation analysis) 두 수치형 변수의 상관계수에 대한 유의성 검정 검정 통계량 𝑇값 계산과 𝑡분포의 활용 𝑇 = 𝑛 − 2 𝑟𝑋𝑌 1 − 𝑟𝑋𝑌 2 ~ 𝑡 𝑛 − 2 - 𝑛 : 관측치 수 - 𝑟𝑋𝑌 : 실제 데이터에서 두 변수 𝑋, 𝑌로 계산된 상관계수 - 𝑡 𝑛 − 2 : 자유도가 𝑛인 𝑡분포 상관 분석 예제 [예] 공부시간과 점수의 상관계수 T값 - 상관계수 = 0.7 - 관측치 수 = 9 𝑇 = 𝑛 − 2 𝑟𝑋𝑌 1 − 𝑟𝑋𝑌 2 = 9 − 2 0.7 1 − 0.72 = 2.60 유의 확률 = 0.032
  • 75. 데이터 분석을 위한 통계와 확률 두 독립 그룹의 평균 차이 검정 프로세스 74 가설 설정 𝐻0 : 𝜇𝑋 = 𝜇𝑌 𝐻1 : 𝜇𝑋 ≠ 𝜇𝑌 정규성 검정 “정규분포를 따르는가?” 모분산 확인 “모분산을 알고 있는가?” “표본이 충분한가?” (일반적으로 n>30) 표본 크기 확인 독립 표본 z검정 독립 표본 t검정 순위합 검정 YE S NO YE S NO YE S 독립 표본 t검정 모집단 분산을 모르고 표본이 적을 때, 두 집단 간 평균 차이가 유의미한지 검정. 𝑇 = 𝑋1 − 𝑋2 𝑆𝑝 2 ( 1 𝑛1 + 1 𝑛2 ) ~ 𝑡(𝑛1 + 𝑛2 − 2) 𝑋1:표본1 평균, 𝑋2:표본2 평균, 𝑆𝑝 2 : 두 표본의 통합분산 Shapiro-Wilk test NO 독립 표본 z검정 모집단 분산을 알고 있을 때, 두 집단 간 평균 차이가 유의미한지 검정. Z = 𝑋1 − 𝑋2 ( 𝜎1 2 𝑛1 + 𝜎2 2 𝑛2 ) 𝑋1:표본1 평균, 𝑋2:표본2 평균, 𝜎1: 모집단1 표준편차, 𝜎2: 모집단2 표준편차, n1 : 표본1 표본수, n2 : 표본2 표본수
  • 76. 데이터 분석을 위한 통계와 확률 일반적인 그룹 평균 비교와 분산 분석 75 분산 분석(analysis of variance ; ANOVA) 여러 그룹별 평균의 차이에 대한 검정 전체 그룹 평균 대비 그룹별 평균 차이의 정도를 측정 ANOVA 테스트에서는 F 통계량을 사용한다 분산분석의 귀무가설과 대립가설 𝐻0 : 𝜏1 = 𝜏2 = ⋯ = 𝜏𝑘 ; 그룹 간 평균 차이가 없음 𝐻1 : 𝑛𝑜𝑡 𝐻0 ; 적어도 두 그룹은 평균차이가 있음
  • 77. 데이터 분석을 위한 통계와 확률 일반적인 그룹의 평균 차이 검정 프로세스 76 가설 설정 𝐻0 : 𝜏1 = 𝜏2 = ⋯ = 𝜏𝑘 𝐻1 : 𝑁𝑜𝑡 𝐻0 정규성 검정 “정규분포를 따르는가?” 등분산 검정 “분산이 같은가?” Welch ANOVA ANOVA Kruskal–Wallis 검정 NO NO YE S YE S 분산분석(ANOVA) 두 개 이상 그룹 평균 비교에 활용 각 모집단이 정규분포를 따르고 모분산 𝜎2이 동일하다고 가정 F ~ 𝐹(𝑘 − 1, 𝑛 − 𝑘) Shapiro-Wilk test Bartlett’s test
  • 78. 데이터 분석을 위한 통계와 확률 제곱합의 분해(feat. 분산) 77 𝑖=1 𝑘 𝑗=1 𝑛𝑗 (𝑦𝑖𝑗 − 𝑦)2 = 𝑖=1 𝑘 𝑗=1 𝑛𝑗 (𝑦𝑖 − 𝑦)2 + 𝑖=1 𝑘 𝑗=1 𝑛𝑗 (𝑦𝑖𝑗 − 𝑦𝑖)2 - ΣΣ(𝑦𝑖𝑗 − 𝑦)2 : TSS 전체 제곱합, 관측치 간의 전반적인 차이를 의미 - ΣΣ(𝑦𝑖 − 𝑦)2 : SST 그룹 간 제곱합, 그룹간 평균 차이의 정도를 의미 - ΣΣ(𝑦𝑖𝑗 − 𝑦𝑖)2 : SSE 그룹 내 제곱합, 각 그룹 안에서 관측치 간 차이를 의미 TSS (Total Sum of Squares) SST (Sum of Squares For Treatments) SSE (Sum of Squares For Errors) “관측치들의 차이는 그룹 간 차이와 그룹 내 차이로 나눠 설명할 수 있다”
  • 79. 데이터 분석을 위한 통계와 확률 검정 통계량 F값의 계산 78 F값 계산 절차 제곱합과 그룹 수(k), 관측치 수(n) 등을 활용하여 계산 제곱합 자유도 제곱합 평균 검정 통계량 그룹 𝑆𝑆𝑇 𝑘 − 1 𝑀𝑆𝑇 = 𝑆𝑆𝑇 𝑘 − 1 𝐹 = 𝑀𝑆𝑇 𝑀𝑆𝐸 잔차 𝑆𝑆𝐸 𝑛 − 𝑘 𝑀𝑆𝐸 = 𝑆𝑆𝐸 𝑛 − 𝑘 합계 𝑇𝑆𝑆 𝑛 − 1 SST : 그룹 간 제곱합 SSE : 그룹 내 제곱합 k : 그룹 수 n : 관측치 수
  • 80. 데이터 분석을 위한 통계와 확률 F값 계산 예제 79 “그룹 평균의 비교” [예] 세 팀별 다섯 직원의 점수 전체 평균 : 10 TSS=262, SST=40 , SSE=222 직원 팀1 팀2 팀3 1 0 8 10 2 15 12 11 3 5 10 9 4 10 10 9 5 10 20 11 평균 8 12 10 제곱합 자유도 제곱합 평균 검정 통계량 그룹 40 3 − 1 = 2 𝑀𝑆𝑇 = 40 2 = 20 𝐹 = 20 18.5 = 𝟏. 𝟎𝟖 잔차 222 15 − 3 = 12 𝑀𝑆𝐸 = 222 12 = 18.5 합계 262 15 − 1 = 14
  • 81. 데이터 분석을 위한 통계와 확률 교차표의 독립성 검정 80 독립성 검정(test of independence) 두 범주형 변수가 서로 독립인지 아닌지를 판단하는 과정 두 범주형 변수의 교차표와 독립을 가정한 교차표를 비교 독립성 검정의 가설 𝐻0: 두 범주형 변수가 독립 𝐻1: 두 범주형 변수가 독립이 아님 독립성 검정 예제 [예] 연령대별 상품 주문량 교차표 20대는 상품 A, 30대는 상품 C를 선호 상품 20대 30대 합계 A 30 0 30 B 20 20 40 C 0 30 30 합계 50 50 100 상품 20대 30대 합계 A 15 15 30 B 20 20 40 C 15 15 30 합계 50 50 100 독립을 가정한 교차표 생성 가능
  • 82. 데이터 분석을 위한 통계와 확률 독립성 검정과 카이제곱값 계산 81 카이제곱 값 독립성 검정을 위한 카이제곱값의 계산 교차표의 각 칸이 귀무가설 기준 예상값보다 전반적으로 얼마나 큰 지를 계산 𝑋 = 𝑗=1 𝑐 𝑖=1 𝑟 (𝑋𝑖𝑗 − 𝑛𝑖𝑗)2 𝑛𝑖𝑗 ~𝜒2 𝑟 − 1 𝑐 − 1 - 𝑋𝑖𝑗 : 첫번째 변수의 𝑖 범주, 두번째 변수의 𝑗 범주 조합에 대한 실제 빈도 - 𝑛𝑖𝑗 : 두 변수의 독립을 가정하고 관측치 수 𝑛을 고려한 각 조합의 기대 빈도 카이제곱값을 활용한 유의확률 계산 절차
  • 83. 데이터 분석을 위한 통계와 확률 카이제곱 검정의 활용 82 이표본 비율 검정 두 그룹의 비율이 동일한 지 대한 검정 2X2 교차표에 대한 독립성 검정과 동일 가설 설정 𝐻0: 𝑝1 = 𝑝2 ; 두 그룹의 비율이 동일 𝐻1: 𝑝1 ≠ 𝑝2
  • 84. 데이터 분석을 위한 통계와 확률 검정과 오류 83 검정 오류(error) 발생 데이터 1개와 가정으로 판단하는 검정의 과정에서 확률을 활용하기 때문에 오류가 발생할 수 밖에 없음 1종 오류(Type 1 error) 귀무가설이 사실인데도 기각한 오류 데이터에 차이/관계가 있는 것처럼 보였지만 실제로는 차이/관계가 없는 경우 2종 오류(Type 2 error) 귀무가설이 거짓인데 기각을 못한 오류 데이터에 차이/관계가 없었지만 실제로는 차이/관계가 있는 경우 𝐻0이 참 𝐻1이 참 𝐻0을 기각하지 못함 올바른 결정 제 2종 오류 (𝛽) 𝐻0을 기각 제 1종 오류 (𝛼) 올바른 결정 검정 결과 실제
  • 85. 데이터 분석을 위한 통계와 확률 참고 – 신뢰 구간 84 신뢰 구간(confidence interval) “선거 출구 조사” 관심있는 모수의 위치를 특정 범위로 확률적으로 추측 특정 분포를 가정하고 활용 신뢰 구간 예제 [예] 평균이 𝜇이고 분산이 𝜎2인 어떤 모집단에서 추출한 표본 𝑋1, 𝑋2, ⋯ , 𝑋𝑛을 활용한 𝜇에 대한 95% 신뢰 구간 추정(단, 𝑛 > 30) 𝑍 = 𝑋 − 𝜇 𝜎 𝑛 ~ 𝑁(0, 1) ⇒ 𝑃 𝑋 − 𝑧0.025 𝜎 𝑛 ≤ 𝜇 ≤ 𝑋 + 𝑧0.025 𝜎 𝑛 = 1 − 0.05 ⇒ 𝑃 −𝑧0.025 ≤ 𝑋 − 𝜇 𝜎 𝑛 ≤ 𝑧0.025 = 1 − 0.05 따라서 𝜇에 대한 95% 신뢰구간: 𝑋 − 𝑧0.025 𝜎 𝑛 , 𝑋 + 𝑧0.025 𝜎 𝑛
  • 86. 데이터 분석을 위한 통계와 확률 ch4. 알고리즘의 이해
  • 87. 데이터 분석을 위한 통계와 확률 알고리즘의 활용의 효율성 알고리즘을 활용해 주요 변수를 선택하고 예측에 활용 가능! 사건 발생 확률 사용자 불만 발생 예제데이터 불만 발생과 관련이 있을 것 같은 서비스 품질 관련 700여개 변수 포함 “어떻게 분석할까?” 86
  • 88. 데이터 분석을 위한 통계와 확률 머신 러닝과 알고리즘의 정의 87 머신 러닝(Machine Learning) “the study of computer algorithms that improve automatically through experience” 알고리즘(Algorithm) “finite sequence of instructions to solve a class of problems” 목적함수(손실함수)를 정의하고 연산을 통해 최적화된 파라미터를 계산
  • 89. 데이터 분석을 위한 통계와 확률 알고리즘 활용의 필요성 88 그룹별 합계, 평균 등 단편적인 정보 중심의 집계 분석자/실무자의 경험에 의존한 주요 변수 선택 1 단순 집계값의 한계 일반적인 비즈니스 데이터는 실험과 달리 통제 불가능 관심 대상에 대한 요인을 특정하기 어려움 2 통제(control) 불가능 단순 집계 중심의 정보는 예측에 활용하기 어려움 알고리즘을 활용해 개별 관측치 예측값 계산 가능 3 예측에 효과적 알고리즘을 활용하여 복잡한 변수 관계를 설명 가능 높은 설명력을 바탕으로 예측 등 활용 시 높은 성능 기대 4 설명력/성능 향상
  • 90. 데이터 분석을 위한 통계와 확률 더 많은 변수 활용의 필요성 89 심슨의 역설(Simpson’s paradox) 어떤 집단이 모든 부분에서 상대적으로 확률/평균이 높아도 전체 확률/평균은 오히려 작은 현상 그룹별 확률/평균 차이와 집단별 선호 그룹의 차이 등으로 발생 남 여 구분 지원자 합격률 지원자 합격률 전체 8,442 44% 4,321 35% 남 여 학과 지원자 합격률 지원자 합격률 A 825 62% 108 82% B 560 63% 25 68% C 325 37% 593 34% D 417 33% 375 35% ⋮ ⋮ ⋮ ⋮ ⋮ 전체 8,442 44% 4,321 35% 1973년 UC Berkeley 합격률 요약 데이터
  • 91. 데이터 분석을 위한 통계와 확률 선형 회귀 모형의 이해 90 상관계수 예제 [예] 아빠 키와 아들 키의 상관계수는 0.5 “아빠 키가 클 수록 아들 키도 크다” 관계식과 회귀 모형 적합 일차 함수를 활용한 관계의 표현 𝑦 = 𝑎 + 𝑏𝑥 회귀 모형 적합 = 회귀 계수의 계산 = 추세선 그리기 단순 선형 회귀(simple linear regression) 수치형 관심변수를 수치형 설명변수의 정비례로 설명하는 모형 𝑌 = 𝛽0 + 𝛽1𝑋 + 𝜀 - 𝑋가 1씩 커질 때 마다 𝑌는 𝑏만큼 비례해서 변화 - 𝑌에는 𝑋로는 설명할 수 없는 오차 𝜀가 존재 선형 회귀 적합 예제 [예] 아빠 키와 아들 키의 관계 𝑦 = 86.07 + 0.514𝑥
  • 92. 데이터 분석을 위한 통계와 확률 일반적인 선형 회귀 모형 91 선형 회귀 Linear Regression 설명변수(독립변수)와 관심변수(종속변수)의 직선적인 관계를 설명 𝒚 = 𝛽0 + 𝛽1𝒙𝟏 + 𝛽2𝒙𝟐 + ⋯ + 𝛽𝑝𝒙𝒑 + 𝜺, 𝜺~ 𝑁 0, 𝜎2 회귀 계수 𝛽𝑖에 대한 검정(t검정) 관심변수 𝒀를 설명하는 회귀 모형에서 설명변수 𝑿𝒊 에 대응하는 계수 𝛽𝑖에 대한 검정 𝐻0 ∶ 𝛽𝑖 = 0; 변수 𝑿𝒊는 필요 없다 𝐻1 ∶ 𝛽𝑖 ≠ 0 오차항 𝜀 에 대한 가정 정규성(normality) : 오차가 정규분포를 따름 등분산성(homoscedasticity) : 오차의 분산 𝜎2 이 일정함 독립성(independence) : 오차들 간에는 상관이 없음
  • 93. 데이터 분석을 위한 통계와 확률 결정 계수의 계산 92 결정 계수(Coefficient of determination), R2(R-Squared) 선형 회귀 모형 등의 설명력의 척도 클수록 좋은 모델(0.8 이상이면 어느정도 큰 모델) 관심변수 𝒚의 분산과 모형 설명 분산을 비율로 계산 𝑖=1 𝑛 (𝑌𝑖 − 𝑌)2 = 𝑖=1 𝑛 (𝑌𝑖 − 𝑌)2 + 𝑖=1 𝑛 (𝑌𝑖 − 𝑌𝑖)2 - 𝑌𝑖 : 𝑖번째 관측치의 실제 관심변수 값 - 𝑌 : 관심변수의 전체 평균 - 𝑌𝑖 : 회귀모형을 활용한 𝑖번째 관측치의 예측값 𝑅2 = 1 − 𝑆𝑆𝐸 𝑆𝑆𝑇 = 𝑆𝑆𝑅 𝑆𝑆𝑇 SST SSR SSE
  • 94. 데이터 분석을 위한 통계와 확률 션형 회귀 통계 해석 93 [R-squared] - 모델의 데이터 설명력(에러를 모델이 얼마나 개선했는가) - 클수록 좋은 모델(0.8 이상이면 충분히 큰 모델) - Adj. R-suared가 더욱 적절한 평가 기준이다. 그 이유는 독립 변수가 많아지면 R-squared는 무조건 증가하는데, 변수의 개수까지 고려한 것이 Adj. R-suared이기 때문. [Coefficient] - 각 독립 변수의 영향력(강도와 방향) - 직선의 기울기 - 특정 독립 변수의 Coef가 크면, 독립 변수 값이 조금만 커져도 종속 변수가 크게 변하게 된다. (데이터 스케일을 맞춰준 상태에서, Coef를 비교하는 것이 맞음) [P-value] - 신뢰할 수 있는 결과인가? 에 대한 척도 - 일반적으로 유의수준 0.05 이하면 모델이 통계적으로 유의하다라고 판단 만약 0.05 이상이면 이 정보를 신뢰할 수 없다(맞는지 확신 불가)
  • 95. 데이터 분석을 위한 통계와 확률 로지스틱 회귀모형의 활용 94 로지스틱 회귀 Logistic Regression 𝑙𝑜𝑔𝑖𝑡(𝜋) = log 𝜋 1 − 𝜋 = 𝛽0 + 𝛽1𝑥1 + ⋯ + 𝛽𝑝𝑥𝑝 + 𝜀 회귀의 개념을 활용하되 확률의 범위(0~1)문제를 해결하기 위해서 로짓(logit) 변환을 활용 ⇒ 𝑒𝑦 = 𝑒𝛽0+𝛽1𝑥1+⋯+𝛽𝑝𝑥𝑝+𝜀 ⇒ 𝜋 = 𝑒𝑦 1+𝑒𝑦 = 𝑒𝛽0+𝛽1𝑥1+⋯+𝛽𝑝𝑥𝑝+𝜀 1+𝑒𝛽0+𝛽1𝑥1+⋯+𝛽𝑝𝑥𝑝+𝜀
  • 96. 데이터 분석을 위한 통계와 확률 의사결정 나무 모형의 활용 95 집계 수많은 요인을 모두 직접 탐색 관심있는 변수의 차이를 잘 설명할 수 있는 요인을 알고리즘이 대신 탐색 의사결정나무 모형의 분할 예제 의사결정 나무 Decision Tree
  • 97. 데이터 분석을 위한 통계와 확률 예제로 살펴보는 분할 96 2 2 3 4 4 5 6 7 3 4 = TARGET SHAPE COLOR SIZE 2 tri blue big 2 tri blue small 3 tri red small 4 tri red small 4 tri red big 3 rect red big 4 rect red big 5 rect blue small 6 rect blue small 7 rect blue big
  • 98. 데이터 분석을 위한 통계와 확률 평균 비교를 통한 우선 순위 선택 97 1 2 3 모양 색깔 크기 SHAPE MEAN tri 3.0 rect 5.0 COLOR MEAN blue 4.4 red 3.6 SIZE MEAN big 4.0 small 4.0 분할 기준 선택 두 그룹의 평균 차이가 클 수록 정보↑ [예] “SHAPE”으로 나눠 설명하는 것이 효과적
  • 99. 데이터 분석을 위한 통계와 확률 제곱합을 활용한 최적 분할 기준 탐색 98 관심 노드(node)와 제곱합 제곱합은 관심 그룹 내 관측치 간 차이의 정도를 표현 𝑆𝑆(𝑅𝑗) = 𝒙𝒊∈𝑅𝑗 𝑦𝑖 − 𝑦𝑗 2 의사결정 나무의 목적함수 아래의 목적함수를 최대화하는 분할 기준 탐색 𝑆𝑆 𝑅𝑗 − 𝑆𝑆 𝑅𝐿 + 𝑆𝑆 𝑅𝑅 = 𝑆𝑆 𝑅𝑗 − 𝒙𝒊∈𝑅𝐿 𝑦𝑖 − 𝑦𝑗 2 + 𝒙𝒊∈𝑅𝑅 𝑦𝑖 − 𝑦𝑗 2 - 나눠진 두 그룹의 제곱합이 작을 수록 유리 - 그룹 내 관측치가 차이가 적을 수록 유리 𝑅𝑗 𝑅𝐿 𝑅𝑅
  • 100. 데이터 분석을 위한 통계와 확률 모형 평가 지표의 활용과 성능 비교(회귀) 99 실제값과 예측값의 평균적인 차이 1 𝑛 𝑖=1 𝑛 𝑦𝑖 − 𝑦𝑖 1 MAE (Mean Absolute Error) 실제값 대비 오차 비율의 평균 1 𝑛 𝑖=1 𝑛 𝑦𝑖 − 𝑦𝑖 𝑦𝑖 2 MAPE (… Percentile Error) 오차 제곱 평균의 제곱근 1 𝑛 𝑖=1 𝑛 𝑦𝑖 − 𝑦𝑖 2 3 RMSE (Root Mean Squared Error)
  • 101. 데이터 분석을 위한 통계와 확률 모형 평가 지표의 활용과 성능 비교(분류) 100 오차행렬(Confusion Matrix) 실제 수준과 예측 수준을 비교한 표, 혼동행렬 Positive(+) Negative(-) Positive(+) True positive (𝑎) False positive (𝑐, Type I error) Negative(-) False negative (𝑏, Type II Error) True negative (𝑑) 실제 예측 2x2 오차행렬의 구성
  • 102. 데이터 분석을 위한 통계와 확률 분류 모형의 주요 평가 지표 101 전체 중에서 적중한 것의 비중 𝑎 + 𝑑 𝑎 + 𝑏 + 𝑐 + 𝑑 1 정확도 (Accuracy) 전체 중에서 오분류한 것의 비중 𝑏 + 𝑐 𝑎 + 𝑏 + 𝑐 + 𝑑 2 오분류율 (Error rate) 정확도의 한계
  • 103. 데이터 분석을 위한 통계와 확률 분류 모형의 주요 평가 지표 102 감염자의 검사결과가 양성일 확률 𝑎 𝑎 + 𝑏 1 민감도 (Sensitivity, Recall) 양성으로 판단한 사람 중 실제 감염자의 비중 𝑎 𝑎 + 𝑐 2 정밀도 (Precision) precision과 recall의 조화 평균 2𝑎 2𝑎 + 𝑏 + 𝑐 3 F1 스코어
  • 104. 데이터 분석을 위한 통계와 확률 ch5. 프로젝트 실습

Editor's Notes

  1. @ 자율 주행 최적의 주행 선택 × 주행 데이터 × 딥러닝/강화학습 @ ai기반 품질 검사 체계
  2. @ 자율 주행 최적의 주행 선택 × 주행 데이터 × 딥러닝/강화학습 @ ai기반 품질 검사 체계
  3. 귀무가설이 참이라고 가정했을 때, 표본 데이터가 수집될 확률을 의미하는 개념은? -> p-value
  4. 지수 분포는 종종 금융 거래 또는 이벤트 사이의 시간을 모델링하는 데 사용되기 때문에 "돈 분포"라고도 합니다. 예를 들어 ATM 거래 사이의 시간 또는 주식 시장 거래 사이의 시간은 지수 분포를 사용하여 모델링할 수 있습니다. 지수 분포는 특정 이벤트가 발생하기 전에 일정 시간 동안 대기할 확률을 설명하는 연속 확률 분포입니다. 금융에서 이것은 주식 거래 사이의 시간 또는 상점에서 두 번의 연속 고객 거래 사이의 시간을 나타낼 수 있습니다. 지수 분포는 이벤트 사이의 대기 시간을 모델링하는 데 유용한 몇 가지 속성이 있기 때문에 금융에서 자주 사용됩니다.
  5. T값이 2.60이 나왔는데, t-값이 2.60이고 자유도가 8일 때, t-분포표 또는 소프트웨어를 사용하여 p-값을 계산할 수 있습니다. 양측 유의 수준을 0.05로 가정하면 p-값은 약 0.0322입니다. 즉, 귀무가설이 참이라면 8자유도에서 2.60보다 극단적이거나 더 극단적인 t값을 얻을 확률은 0.0322이다. p-값이 유의 수준 0.05보다 작기 때문에 귀무 가설을 기각하고 0.05 유의 수준에서 비교되는 그룹 간에 통계적으로 유의한 차이가 있다고 결론을 내립니다.
  6. 두 그룹 평균의 차이를 검정하는 데 필요한 대표 값은 검정 통계량이며, 표본 크기와 모집단 표준 편차를 알고 있는지 여부에 따라 일반적으로 t-통계량 또는 z-통계량입니다. 1. z검정 모집단 표준 편차를 알고 있고 표본 크기가 큰 경우(일반적으로 n > 30) 검정 통계량은 다음과 같이 계산되는 z-통계량입니다. z = (x1 - x2) / (시그마 / sqrt(n)) 여기서 x1과 x2는 두 그룹의 표본 평균이고 시그마는 모집단 표준 편차이며 n은 표본 크기입니다. 2. t검정 모집단 표준 편차를 알 수 없거나 표본 크기가 작은 경우(일반적으로 n < 30) 검정 통계량은 다음과 같이 계산되는 t-통계량입니다. t = (x1 - x2) / (s_p * sqrt(1/n1 + 1/n2)) 여기서 s_p는 두 그룹의 합동 표준 편차이며 다음과 같이 계산됩니다. s_p = sqrt(((n1 - 1) * s1^2 + (n2 - 1) * s2^2) / (n1 + n2 - 2)) 여기서 s1과 s2는 두 그룹의 표본 표준 편차이고 n1과 n2는 표본 크기입니다.
  7. ANOVA는 분산 분석(Analysis of Variance)의 약자이며 세 개 이상의 그룹 평균 간의 차이를 테스트하는 데 사용되는 통계적 방법입니다. ANOVA는 연속 변수를 기반으로 그룹 평균 간에 통계적으로 유의미한 차이가 있는지 여부를 확인하는 데 사용됩니다. ANOVA의 목표는 그룹 간 변동이 그룹 내 변동보다 큰지 여부를 결정하는 것이며, 이는 그룹 평균 간에 통계적으로 유의미한 차이가 있음을 나타냅니다. 그룹 내 변동은 각 그룹 내에서 자연스럽게 발생하는 변동이며, 그룹 간 변동은 그룹 평균 간에 발생하는 변동입니다. ANOVA는 그룹 내 변동에 대한 그룹 간 변동의 비율인 검정 통계량을 계산하기 위해 F-테스트를 ​​사용합니다. F-통계량이 임계값보다 크면 그룹의 평균이 다르다는 증거가 있습니다. ANOVA는 다른 학교 학생의 평균 시험 점수를 비교하거나 다른 지역의 평균 제품 판매를 비교하는 등 다양한 응용 프로그램에 사용할 수 있습니다. ANOVA는 연구원이 세 개 이상의 그룹의 평균을 비교하는 데 관심이 있는 실험 설계에 자주 사용됩니다. 그룹 평균 간에 통계적으로 유의미한 차이가 있는지 여부를 결정함으로써 ANOVA는 결과 변수의 차이에 기여하는 요인에 대한 통찰력을 제공할 수 있습니다.
  8. F 값이 선택한 유의 수준에 대한 임계 F 값(일반적으로 0.05)보다 크면 귀무 가설을 기각하고 비교 대상 그룹 중 두 개 이상 간에 상당한 차이가 있다는 결론을 내립니다. F 값이 임계 F 값보다 작으면 귀무 가설을 기각하지 못하고 그룹 간에 유의미한 차이를 제안할 증거가 충분하지 않다는 결론을 내립니다.
  9. 종종 R²로 표시되는 결정 계수는 회귀 모델이 관찰된 데이터에 얼마나 잘 맞는지 평가하기 위해 선형 회귀 분석에 사용되는 통계 측정입니다. 회귀 모델을 사용하여 독립 변수(들)(입력)에 의해 설명될 수 있는 종속 변수(출력)의 총 변동 비율을 정량화합니다. R²의 범위는 0에서 1까지이며, 1에 가까울수록 적합도가 높고 0에 가까울수록 적합도가 낮습니다. 즉, R² 값이 1에 가까우면 회귀 모델이 종속 변수의 대부분의 변동을 설명하고 0에 가까운 값은 모델이 변동을 많이 설명하지 않는다는 것을 의미합니다. 높은 R² 값은 선형 회귀 모델의 독립 변수가 종속 변수의 변동을 효과적으로 설명할 수 있음을 나타냅니다. 그러나 높은 R²가 반드시 모델이 모든 상황에 정확하거나 적합하다는 것을 의미하지는 않는다는 점에 유의해야 합니다. 회귀 모델의 품질을 평가할 때 선형 회귀의 기본 가정과 같은 다른 요소를 고려하는 것이 항상 중요합니다.
  10. 종종 R²로 표시되는 결정 계수는 회귀 모델이 관찰된 데이터에 얼마나 잘 맞는지 평가하기 위해 선형 회귀 분석에 사용되는 통계 측정입니다. 회귀 모델을 사용하여 독립 변수(들)(입력)에 의해 설명될 수 있는 종속 변수(출력)의 총 변동 비율을 정량화합니다. R²의 범위는 0에서 1까지이며, 1에 가까울수록 적합도가 높고 0에 가까울수록 적합도가 낮습니다. 즉, R² 값이 1에 가까우면 회귀 모델이 종속 변수의 대부분의 변동을 설명하고 0에 가까운 값은 모델이 변동을 많이 설명하지 않는다는 것을 의미합니다. 높은 R² 값은 선형 회귀 모델의 독립 변수가 종속 변수의 변동을 효과적으로 설명할 수 있음을 나타냅니다. 그러나 높은 R²가 반드시 모델이 모든 상황에 정확하거나 적합하다는 것을 의미하지는 않는다는 점에 유의해야 합니다. 회귀 모델의 품질을 평가할 때 선형 회귀의 기본 가정과 같은 다른 요소를 고려하는 것이 항상 중요합니다.