1. 야구선수 연봉 예측
Team Project / 데이터 전처리 및 모델링
Giwook Lee
https://github.com/GWL22/DSS
2. Description
Goal
기록되어 있는 야구 선수 데이터를 바탕으로 다음해의 연봉을 예측
Why
야구 선수들의 연봉이 정말 능력 위주로 측정되는지
그렇다면 어떤 요소가 제일 큰 영향을 미치는지 알고자 함.
How
Statiz란 야구 데이터 사이트에서 222명의 타자 기록을 통해 다음해 연봉을
예측하는 모델링을 PCA를 통해 구현
5. Why PCA?
회귀분석의 전제 조건 :
Feature(X)는 서로 독립
야구 특성상 X 끼리
상관관계가 높은 것이 있음.
또한 X가 많아 이를 줄이기
위해 주성분회귀분석, 즉
PCA를 사용하기로 함.
<그림1.> Feature 간의 상관정도를 나타낸 Heatmap
6. Result
21개의 X는 PCA를 사용해
3개의 축으로 압축,
OLS 분석을 실시함
PC3의 영향이 크다고 판단할
수 있으며
OLS 결과
예측 결과 75%의 정확도 가짐
7. Insight
PC1, PC2, PC3를 분석
각 축에서의 주성분을 파악
다음과 같이 그룹명을 지음
PC1 : 공격력
PC2 : 장타력
PC3 : 타팀의 견제
즉, 타팀의 견제 정도가 강할수록
타자가 받는 연봉이 높다고 할 수
있다.
하지만...
PC1 PC2 PC3
PA(타석) B3(3루타) HBP(사구)
AB(타수) HR(홈런) IBB(고의사구)
R(득점) RBI(타점) GDP(병살타)
H(안타) SBA(도루) SACF(희생타)
B2(2루타) CS(도루실패)
TB(루타) SLG(장타율)
BB(볼넷)
SO(삼진)
AVG(타율)
OBP(출루율)
8. Critical Point
1. 0이 많은 데이터를 줄이기 위하여, 100타석 이상을 기준으로 하였으며, 이에
따라 85명에 대한 PCA 회귀분석을 진행
2. 85명의 데이터를 3등분하여 적은 데이터로 모델링을 진행함
3. 0.75라는 나쁘지 않은 R-Square 값을 보이나 모델에 대한 신뢰도가 떨어짐
향후계획
- 222명의 선수 전체를 대상으로 PCA를 진행
- 선수의 데이터는 매년 축적되므로 일반 회귀분석이 아닌 시계열 분석을
실시해 연봉 예측 모델링을 진행 예정
10. Feature 설명
G 경기수
P 포지션
PA 타석
AB 타수
R 득점
H 안타
B2 2루타
B3 3루타
HR 홈런
TB 루타
RBI 타점
SB 도루
CS 도루실패
BB 볼넷
HBP 사구
IBB 고의사구
SO 삼진
GDP 병살타
SAC 희생번트
SAF 희생타
OBP 출루율
SLG 장타율