1. 데이터 사이언스 SCHOOL
1
Abstract
야구 선수 연봉 책정에 있어 선수 개인의 기록을 바탕으로 연봉을 예측해보고자 한다.
개인 기록은 KBO 기록실과 Statiz 사이트에 있는 데이터를 바탕으로 측정한다. 총
109개의 지표 중 도메인 지식을 활용하여 39개로 줄이고 PCA(주성분분석)을 사용해
예측을 진행하였고 이를 바탕으로 야구선수 연봉에 중요한 요인을 찾아 내었다.
Project Description -1
GOAL
- 야구선수 데이터(2016)를 바탕으로 다음해의 연봉(2017)을 예측
WHY
- 야구 선수들의 연봉에 어떤 지표가 중요한 영향을 미치는가에 대한 궁금증에서 시작함
Hyphothesis
선수들의 경기력 지표이외에(경력, 결혼 등등)과 같이 간접적으로 연봉에 영향을 미치는
요소는 제외함(Naive Assumption)
How
◆ 데이터 수집
- X : Statiz 웹 사이트에서의 총 234명의 타자의 기록(타점, 타율, 출루율 등 총 39개)
- Y : 2017년 연봉
◆ 방법론
- Regression(회귀분석)
> PCA를 통한 회귀 분석(76.5%의 설명력을 가짐)
Baseball Player Salary Prediction
개인 Project / 2017.04.01 ~ 2017.04.16
<그림 1> Outlier 제거 전 OLS 리포트 <그림 2> Outlier 제거 후 OLS 리포트
2. 데이터 사이언스 SCHOOL
2
Project Description 2
Outlier(44 두산 김재환)
- 갑자기 성적이 좋아져 (0.325 37홈런 외야수 골든글러브) 전체 연봉수준에 대비해
성적에 비해 돈을 적게 받음(아웃라이어로 적절함)
<그림 3> Leverage vs Residual Squared plot
Why Choose the PCA?
- 야구 특성상 Feature(X)끼리 상관관계가 높은 것이 존재하여 일반 회귀분석이 힘듬
(회귀분석의 전제조건인 X는 서로 독립에서 벗어남)
- 많은 Feature(X)의 수를 효율적으로 줄이기 위해 선택
<그림 4> Feature(x)사이의 상관관계를 나타낸 Heatmap
Baseball Player Salary Prediction
개인 Project / 2017.04.01 ~ 2017.04.16
3. 데이터 사이언스 SCHOOL
3
Project Description 3
PCA Explanation
- PC1: WAR, WPA, RAA-Adj, RAR, WAA, WPA.1에 (+)영향을 많이 받음 => 즉
주전이면서 득점을 많이하고 팀 승리 기여도가 높은선수가 연봉을 많이 받음
- PC2: SPD, PSN, PoilOut, PoilMissing, Poil out%에 (-)영향을 많이 받음 => 즉
스피드가 빠르면서 실책을 많이 한 선수가 연봉을 적게 받음
- PC3: PA, AB, R, TB, RPrun에 (+)영향을 많이 받음 => 대체선수가 없는 확고한 주전인
선수가 연봉을 많이 받음
- PC4: IsoP, PoilOut에 (+) 영향을 많이 받음 => 견제사는 많이 당해도 장타율이 높은
선수가 연봉을 많이 받음
Limitation
- 50타석 이상 선수들의 정보부터 유의미 하기때문에 타자 샘플이 123개로 줄어듬
- 적은 데이터로 Train을 하여 높은 정확도를 기대하기 어려움
Future Plan
- 연봉 대비 더 가치 있는 타자 vs 연봉 대비 더 가치 없는 타자를 구별하여 Classification
진행해볼 계획
- 야구 데이터는 계속 축적되기 때문에 일반 회귀분석이 아닌 시계열 분석을 실시해볼
계획
Baseball Player Salary Prediction
개인 Project / 2017.04.01 ~ 2017.04.16