[패스트캠퍼스] 야구선수 연봉예측

1. 데이터 사이언스 SCHOOL 1 Abstract 야구 선수 연봉 책정에 있어 선수 개인의 기록을 바탕으로 연봉을 예측해보고자 한다. 개인 기록은 KBO 기록실과 Statiz 사이트에 있는 데이터를 바탕으로 측정한다. 총 109개의 지표 중 도메인 지식을 활용하여 39개로 줄이고 PCA(주성분분석)을 사용해 예측을 진행하였고 이를 바탕으로 야구선수 연봉에 중요한 요인을 찾아 내었다. Project Description -1 GOAL - 야구선수 데이터(2016)를 바탕으로 다음해의 연봉(2017)을 예측 WHY - 야구 선수들의 연봉에 어떤 지표가 중요한 영향을 미치는가에 대한 궁금증에서 시작함 Hyphothesis 선수들의 경기력 지표이외에(경력, 결혼 등등)과 같이 간접적으로 연봉에 영향을 미치는 요소는 제외함(Naive Assumption) How ◆ 데이터 수집 - X : Statiz 웹 사이트에서의 총 234명의 타자의 기록(타점, 타율, 출루율 등 총 39개) - Y : 2017년 연봉 ◆ 방법론 - Regression(회귀분석) > PCA를 통한 회귀 분석(76.5%의 설명력을 가짐) Baseball Player Salary Prediction 개인 Project / 2017.04.01 ~ 2017.04.16 <그림 1> Outlier 제거 전 OLS 리포트 <그림 2> Outlier 제거 후 OLS 리포트

2. 데이터 사이언스 SCHOOL 2 Project Description 2 Outlier(44 두산 김재환) - 갑자기 성적이 좋아져 (0.325 37홈런 외야수 골든글러브) 전체 연봉수준에 대비해 성적에 비해 돈을 적게 받음(아웃라이어로 적절함) <그림 3> Leverage vs Residual Squared plot Why Choose the PCA? - 야구 특성상 Feature(X)끼리 상관관계가 높은 것이 존재하여 일반 회귀분석이 힘듬 (회귀분석의 전제조건인 X는 서로 독립에서 벗어남) - 많은 Feature(X)의 수를 효율적으로 줄이기 위해 선택 <그림 4> Feature(x)사이의 상관관계를 나타낸 Heatmap Baseball Player Salary Prediction 개인 Project / 2017.04.01 ~ 2017.04.16

3. 데이터 사이언스 SCHOOL 3 Project Description 3 PCA Explanation - PC1: WAR, WPA, RAA-Adj, RAR, WAA, WPA.1에 (+)영향을 많이 받음 => 즉 주전이면서 득점을 많이하고 팀 승리 기여도가 높은선수가 연봉을 많이 받음 - PC2: SPD, PSN, PoilOut, PoilMissing, Poil out%에 (-)영향을 많이 받음 => 즉 스피드가 빠르면서 실책을 많이 한 선수가 연봉을 적게 받음 - PC3: PA, AB, R, TB, RPrun에 (+)영향을 많이 받음 => 대체선수가 없는 확고한 주전인 선수가 연봉을 많이 받음 - PC4: IsoP, PoilOut에 (+) 영향을 많이 받음 => 견제사는 많이 당해도 장타율이 높은 선수가 연봉을 많이 받음 Limitation - 50타석 이상 선수들의 정보부터 유의미 하기때문에 타자 샘플이 123개로 줄어듬 - 적은 데이터로 Train을 하여 높은 정확도를 기대하기 어려움 Future Plan - 연봉 대비 더 가치 있는 타자 vs 연봉 대비 더 가치 없는 타자를 구별하여 Classification 진행해볼 계획 - 야구 데이터는 계속 축적되기 때문에 일반 회귀분석이 아닌 시계열 분석을 실시해볼 계획 Baseball Player Salary Prediction 개인 Project / 2017.04.01 ~ 2017.04.16

[패스트캠퍼스] 야구선수 연봉예측

Recommended

Recommended

More Related Content

Featured

Featured (20)

[패스트캠퍼스] 야구선수 연봉예측