2. 2
1. 논문 요약
통계분석을 이용하여 프로야구의 순위를 분석했다는 점이 흥미로움
산술평균, 가중평균, 주성분 분석, 주성분 회귀분석이라는 네 가지 분석 방법을 각각 적용하고 그 결과
를 비교했다는 점이 이 논문에서 가장 주목할만한 점임
따라서 본 발표에서는 이 네 가지 방법에 대해 알아보고자 함
모든 통계 분석에서 공통적으로
사용된 변수는 다음과 같음
3. 3
2. 논문에서 사용된 통계 기법
1. 산술 평균 방법
각 변수의 측정단위가 서로 다르고, 값의 크기도 차이가 크기 때문에 변수를 표준화하여 분석
여기서 표준화란 변수의 평균을 0, 표준편차를 1로 만들어 각각의 변수를 그 고유의 값이나 단위가 아
닌 ‘표준편차의 몇 배 거리만큼 떨어져 있는가'로 통일하는 것, 즉
이렇게 계산하여 나온 값들을 각 팀 내에서 단순 산술 평균하여 팀끼리 비교
비슷한 것을 측정하는 변수가 여러 개 있기 때문에, 특정 능력이 좋은 팀이 지나치게 높은 점수를 가져
간다는 점에서 치명적인 한계를 가짐
4. 4
2. 논문에서 사용된 통계 기법
2. 가중 평균 방법
산술 평균 방법의 한계를 해결하기 위해 상관 관계 분석을 통해서 비슷한 변수끼리 그룹화함, 아래는
그 결과표.
각 Group 내에서의 평균을 구한 다음(ex. 선발과 불펜의 호흡력은 8개의 평균, 불펜력은 2개의 평균)
그 평균끼리의 합을 더하여 다시 평균을 구한 값을 팀끼리 비교
오히려 산술 평균 방법에서보다도 예측력이 떨어짐
상관계수가 높게 나왔다는 이유로 비슷한 변수라고 판단한 것이 오류인 것 같으며,
순위에 중요한 영향을 미치는 능력이 과소평가되고 영향을 덜 미치는 능력이 과대평가되는 오류 발생
5. 5
2. 논문에서 사용된 통계 기법
3. 주성분 분석 방법
변수의 개수가 너무 많을 때(다중공선성의 문제가 발생할 확률이 높고 전체적인 상을 파악하기가 힘드
므로), 축약하여 몇 가지 ‘새로운’ 변수 안에 담아내는 통계적 기법
예를 들어 다음과 같은 변수들이 있다고 한다면, 이들을 통합하여 온도라는 변수로 만드는 것
① 빙판길 미끄러짐 사고 ② 수도관 동파 ③ 제설 차량 이용으로 인한 소비 금액 ④ 폭설로 인한 휴교 횟수
기존의 변수 중 가장 유의해보이는 것을 뽑아쓰는 feature selection이 아니라 그 특징을 잘 반영하는
새로운 변수를 만드는 feature extraction임.
새로운 변수(주성분)는 그 데이터를 잘 설명할 수 있어야 한다. 즉 그 데이터의 분산을 잘 나타낼 수 있
어야 한다.
즉 왼쪽의 그림에서 PC1 이 가장 적절한 주성분이라고 할 수 있다
6. 6
2. 논문에서 사용된 통계 기법
3. 주성분 분석 방법
이 주성분의 분산을 나타내는 것이 고유값이며, 일반적으로 고유값이 1이상인 주성분을 남겨 변수로
활용한다. 또한 동시에 주성분들의 누적설명력이 0.8이상이 되어야 한다.
표에 나와있는 7개 이후로도 각각 17개, 20개, 37개의 주성분이 더 나와야 한다. 그러나 모두 7개까지
만 나와있고 심지어 7개에서 누적설명력이 1로 되는 것으로 보아, 저자는 애초에 변수들을 다 넣은 것
이 아니라 7개만 선정해서 넣은 것으로 보인다. 따라서 표에 나와있는 설명력도 신뢰할 수 없으며, 이
는 이 논문의 가장 큰 한계이다.
7. 7
2. 논문에서 사용된 통계 기법
3. 주성분 분석 방법
이 주성분의 분산을 나타내는 것이 고유값이며, 일반적으로 고유값이 1이상인 주성분을 남겨 변수로
활용한다. 또한 동시에 주성분들의 누적설명력이 0.8이상이 되어야 한다.
표에 나와있는 7개 이후로도 각각 17개, 20개, 37개의 주성분이 더 나와야 한다. 그러나 모두 7개까지
만 나와있고 심지어 7개에서 누적설명력이 1로 되는 것으로 보아, 저자는 애초에 변수들을 다 넣은 것
이 아니라 7개만 선정해서 넣은 것으로 보인다. 따라서 표에 나와있는 설명력도 신뢰할 수 없으며, 이
는 이 논문의 가장 큰 한계이다.