1. BASIC - CORRELATION10-MIN
MATHEMATICS
상관 관계의 정의와 유형
Types and Definitions of Correlation
1. 상관관계의 정의
상관 관계약함 있음
두 변량 중 한 쪽이 증가함에 따라, 다른 한 쪽이 증가 또는 감소할 때 두 변량의 관계를 말한다.
참고 - https://terms.naver.com/entry.nhn?docId=1109630&cid=40942&categoryId=32217
2. BASIC - CORRELATION10-MIN
MATHEMATICS
상관 관계의 정의와 유형
Types and Definitions of Correlation
2. 상관 관계의 유형
3. 상관 관계의 유형별 상관 계수
1) 명목척도 상관관계
1) 명목척도에 대한 상관계수: 피어슨 상관계수(Pearson Correlation Coefficient) 등
참고 - 필드 케이디, 처음 배우는 데이터 과학 (한빛미디어, 2018)
(단위: 순위)
2) 서열척도에 대한 상관계수: 스피어만 상관계수(Spearman Correlation Coefficient), 켄달 순위 상관계수(Kenall Rank Correlation Coefficient) 등
2) 서열척도 상관관계
키
몸무게
심사위원1
심사위원2
1
참가자1
2
2
참가자2
1
3
참가자3
5
4
참가자4
3
5
참가자5
4
6
참가자6
6
심사위원3 3 4 1 2 6 5
3. BASIC - CORRELATION10-MIN
MATHEMATICS
피어슨 상관계수
Pearson Correlation Coefficient
1. 피어슨 상관계수의 정의
상관계수의 한 형태로서, 변인 X와 변인Y 간의 선형 관계성의 정도를 -1~1 사이의 척도 상에서 기술해 주는 통계치.
X와 Y가 함께 변하는 정도
(X가 변하는 정도) (Y가 변하는 정도)X
ρ
ρ=1 ρ≒0
ρ≒0
ρ=-1
σ Yσ
Xσ Yσ
X,Y
ρX,Y
cov(X, Y)
cov(X, Y)=
y=sin(x)
E[(X -μ ) (Y -μ )]
-
X Y
= E[X²] (E[X])²
=
= 1
=
-E[Y²] (E[Y])²
~ if X=Y, E[(X -μ )²]X =Var(X)
-E[X²] (E[X])²~ if X=Y, =Var(X)
4. BASIC - CORRELATION10-MIN
MATHEMATICS
스피어만 순위 상관계수
Spearman’s Rank Correlation Coefficient
1. 스피어만 상관계수의 정의
2. 스피어만 상관계수 공식과 예시
데이터가 서열척도인 경우 즉 자료의 값 대신 순위를 이용하는 경우의 상관계수로서, 데이터를 작은 것부터 차례로 순위를 매겨 서열 순서로 바꾼
뒤, 순위를 이용해 상관계수를 구한다.(-1≤ρ≤1)
ρ
= 1 -
990
618
= 1 - 0.624
= 0.376
= =1 - 1 -
n(n²-1)
6∑di
2
10(10²-1)
6(4+25+9+25+4+0+1+16+16+4)
구분
영어(A)
수학(B)
순위(A)
순위(B)
차(d)
학생1 학생2 학생3 학생4 학생5 학생6 학생7 학생8 학생9 학생10
차(d) 4 25 9 25 4 0 1 16 16 4
80
70
7
9
2
85
70
4
9
5
87
85
3
6
3
79
92
8
3
5
64
77
10
8
2
90
95
2
2
0
84
90
5
4
1
84
100
5
1
4
95
87
1
5
4
76
80
9
7
2
2
참고 - https://statistics.laerd.com/statistical-guides/spearmans-rank-order-correlation-statistical-guide-2.php
ρ 1 -= =n(n²-1)
6∑di
2
di ix iy와 의 순위의 차 =n 데이터셋의 수
5. BASIC - CORRELATION10-MIN
MATHEMATICS
켄달 순위 상관계수
Kendall Rank Correlation coefficient
1. 켄달 순위 상관계수의 정의
2. 켄달 순위 상관계수 공식과 예시
서열변인에 적용될 수 있는, 켄달이 제안한 등위상관계수의 하나로써, τ(tau)로 나타내는데 τ는 S라는 통계치로부터 계산되며 S는 일련의 등위에
있어서 그 순서가 얼마나 일관성이 있는가를 나타낸다.(-1≤τ≤1)
참고 - https://terms.naver.com/entry.nhn?docId=512376&cid=42126&categoryId=42126, https://en.wikipedia.org/wiki/Kendall_rank_correlation_coefficient
τ= n(n-1)/2
(Concordant Pairs의 개수) - (Discordant Pairs의 개수)
Concordant
두 서열 변수 X,Y 에 대한
와 같은 쌍이 있을 때, (x , y ),i i (x , y )j j
xif i x 일때, 또는j y< <i yj xi x 일때, 이면j y< <i yj
Discordantxif i x 일때, 또는j y< <i yj xi x 일때,
이면,
이면j y<< i yj
Neither Concordant nor Discordantxif i x 또는j y= i yj=
(x₁, y₁), (x₂, y₂), (x₃, y₃), , (x , y )n n
서로 다른 두 개의 쌍 에 대하여(i≠j)
구분
영어(A)
수학(B)
순위(A)
순위(B)
학생1 학생2 학생3 학생4 학생5 학생6 학생7 학생8 학생9 학생10
80
70
7
9
85
70
4
9
87
85
3
6
79
92
8
3
64
77
10
8
90
95
2
2
84
90
5
4
84
100
5
1
95
87
1
5
76
80
9
7
순위(A)
순위(B)
1
5
2
2
3
6
4
9
5
1
5
4
7
9
8
3
9
7
10
8
Discordant: 4+1+3+5+0+1+3+0+0=17
Concordant: 5+7+4+0+4+3+0+2+1=26
τ= =
26 - 17
10(10-1)/2
0.2