SlideShare a Scribd company logo
1 of 10
Download to read offline
야구선수 연봉 예측
Team Project / 데이터 전처리 및 모델링
Giwook Lee
https://github.com/GWL22/DSS
Description
Goal
기록되어 있는 야구 선수 데이터를 바탕으로 다음해의 연봉을 예측
Why
야구 선수들의 연봉이 정말 능력 위주로 측정되는지
그렇다면 어떤 요소가 제일 큰 영향을 미치는지 알고자 함.
How
Statiz란 야구 데이터 사이트에서 222명의 타자 기록을 통해 다음해 연봉을
예측하는 모델링을 PCA를 통해 구현
HOW
Regression(회귀분석)
하지만…
왼쪽과 같이
21개의 Column을 그대로
사용할 경우
Conflict
Strong multicollinearity
높은 상관관계를 가지고
있는 X가 한개 이상
존재하여 분석 결과를
신뢰할 수 없음
Why PCA?
회귀분석의 전제 조건 :
Feature(X)는 서로 독립
야구 특성상 X 끼리
상관관계가 높은 것이 있음.
또한 X가 많아 이를 줄이기
위해 주성분회귀분석, 즉
PCA를 사용하기로 함.
<그림1.> Feature 간의 상관정도를 나타낸 Heatmap
Result
21개의 X는 PCA를 사용해
3개의 축으로 압축,
OLS 분석을 실시함
PC3의 영향이 크다고 판단할
수 있으며
OLS 결과
예측 결과 75%의 정확도 가짐
Insight
PC1, PC2, PC3를 분석
각 축에서의 주성분을 파악
다음과 같이 그룹명을 지음
PC1 : 공격력
PC2 : 장타력
PC3 : 타팀의 견제
즉, 타팀의 견제 정도가 강할수록
타자가 받는 연봉이 높다고 할 수
있다.
하지만...
PC1 PC2 PC3
PA(타석) B3(3루타) HBP(사구)
AB(타수) HR(홈런) IBB(고의사구)
R(득점) RBI(타점) GDP(병살타)
H(안타) SBA(도루) SACF(희생타)
B2(2루타) CS(도루실패)
TB(루타) SLG(장타율)
BB(볼넷)
SO(삼진)
AVG(타율)
OBP(출루율)
Critical Point
1. 0이 많은 데이터를 줄이기 위하여, 100타석 이상을 기준으로 하였으며, 이에
따라 85명에 대한 PCA 회귀분석을 진행
2. 85명의 데이터를 3등분하여 적은 데이터로 모델링을 진행함
3. 0.75라는 나쁘지 않은 R-Square 값을 보이나 모델에 대한 신뢰도가 떨어짐
향후계획
- 222명의 선수 전체를 대상으로 PCA를 진행
- 선수의 데이터는 매년 축적되므로 일반 회귀분석이 아닌 시계열 분석을
실시해 연봉 예측 모델링을 진행 예정
감사합니다
Giwook Lee
https://github.com/GWL22/DSS
Feature 설명
G 경기수
P 포지션
PA 타석
AB 타수
R 득점
H 안타
B2 2루타
B3 3루타
HR 홈런
TB 루타
RBI 타점
SB 도루
CS 도루실패
BB 볼넷
HBP 사구
IBB 고의사구
SO 삼진
GDP 병살타
SAC 희생번트
SAF 희생타
OBP 출루율
SLG 장타율

More Related Content

What's hot

Electric motor optimization
Electric motor optimizationElectric motor optimization
Electric motor optimizationScilab
 
Slides, thesis dissertation defense, deep generative neural networks for nove...
Slides, thesis dissertation defense, deep generative neural networks for nove...Slides, thesis dissertation defense, deep generative neural networks for nove...
Slides, thesis dissertation defense, deep generative neural networks for nove...mehdi Cherti
 
東京都市大学 データ解析入門 7 回帰分析とモデル選択 2
東京都市大学 データ解析入門 7 回帰分析とモデル選択 2東京都市大学 データ解析入門 7 回帰分析とモデル選択 2
東京都市大学 データ解析入門 7 回帰分析とモデル選択 2hirokazutanaka
 
Randomforestで高次元の変数重要度を見る #japanr LT
 Randomforestで高次元の変数重要度を見る #japanr LT Randomforestで高次元の変数重要度を見る #japanr LT
Randomforestで高次元の変数重要度を見る #japanr LTAkifumi Eguchi
 
Low-rank matrix approximations in Python by Christian Thurau PyData 2014
Low-rank matrix approximations in Python by Christian Thurau PyData 2014Low-rank matrix approximations in Python by Christian Thurau PyData 2014
Low-rank matrix approximations in Python by Christian Thurau PyData 2014PyData
 
ベンダーズの分解法
ベンダーズの分解法ベンダーズの分解法
ベンダーズの分解法Takahiro Suzuki
 
すだちハッカソン発表資料
すだちハッカソン発表資料すだちハッカソン発表資料
すだちハッカソン発表資料Eigoro Yamamura
 
データ解析のための勉強会第7章
データ解析のための勉強会第7章データ解析のための勉強会第7章
データ解析のための勉強会第7章TokorosawaYoshio
 
Deep neural networks and tabular data
Deep neural networks and tabular dataDeep neural networks and tabular data
Deep neural networks and tabular dataJimmyLiang20
 
「機械学習 By スタンフォード大学」勉強会 2015.09.11
「機械学習 By スタンフォード大学」勉強会 2015.09.11「機械学習 By スタンフォード大学」勉強会 2015.09.11
「機械学習 By スタンフォード大学」勉強会 2015.09.11Minoru Chikamune
 
Anderson局在入門
Anderson局在入門Anderson局在入門
Anderson局在入門Keikusl
 
PRML上巻勉強会 at 東京大学 資料 第1章前半
PRML上巻勉強会 at 東京大学 資料 第1章前半PRML上巻勉強会 at 東京大学 資料 第1章前半
PRML上巻勉強会 at 東京大学 資料 第1章前半Ohsawa Goodfellow
 
【論文レベルで理解しよう!】​ 欠測値処理編​
【論文レベルで理解しよう!】​ 欠測値処理編​【論文レベルで理解しよう!】​ 欠測値処理編​
【論文レベルで理解しよう!】​ 欠測値処理編​ARISE analytics
 
AIシステムの要求とプロジェクトマネジメント-後半:機械学習応用システムのための 要求工学と安全性
AIシステムの要求とプロジェクトマネジメント-後半:機械学習応用システムのための要求工学と安全性AIシステムの要求とプロジェクトマネジメント-後半:機械学習応用システムのための要求工学と安全性
AIシステムの要求とプロジェクトマネジメント-後半:機械学習応用システムのための 要求工学と安全性Nobukazu Yoshioka
 
PythonとRによるデータ分析環境の構築と機械学習によるデータ認識
PythonとRによるデータ分析環境の構築と機械学習によるデータ認識PythonとRによるデータ分析環境の構築と機械学習によるデータ認識
PythonとRによるデータ分析環境の構築と機械学習によるデータ認識Katsuhiro Morishita
 

What's hot (20)

IATA Certificate
IATA CertificateIATA Certificate
IATA Certificate
 
Electric motor optimization
Electric motor optimizationElectric motor optimization
Electric motor optimization
 
Scheda32 il condizionale
Scheda32 il condizionaleScheda32 il condizionale
Scheda32 il condizionale
 
Slides, thesis dissertation defense, deep generative neural networks for nove...
Slides, thesis dissertation defense, deep generative neural networks for nove...Slides, thesis dissertation defense, deep generative neural networks for nove...
Slides, thesis dissertation defense, deep generative neural networks for nove...
 
東京都市大学 データ解析入門 7 回帰分析とモデル選択 2
東京都市大学 データ解析入門 7 回帰分析とモデル選択 2東京都市大学 データ解析入門 7 回帰分析とモデル選択 2
東京都市大学 データ解析入門 7 回帰分析とモデル選択 2
 
2 3.GLMの基礎
2 3.GLMの基礎2 3.GLMの基礎
2 3.GLMの基礎
 
Randomforestで高次元の変数重要度を見る #japanr LT
 Randomforestで高次元の変数重要度を見る #japanr LT Randomforestで高次元の変数重要度を見る #japanr LT
Randomforestで高次元の変数重要度を見る #japanr LT
 
Low-rank matrix approximations in Python by Christian Thurau PyData 2014
Low-rank matrix approximations in Python by Christian Thurau PyData 2014Low-rank matrix approximations in Python by Christian Thurau PyData 2014
Low-rank matrix approximations in Python by Christian Thurau PyData 2014
 
ベンダーズの分解法
ベンダーズの分解法ベンダーズの分解法
ベンダーズの分解法
 
すだちハッカソン発表資料
すだちハッカソン発表資料すだちハッカソン発表資料
すだちハッカソン発表資料
 
データ解析のための勉強会第7章
データ解析のための勉強会第7章データ解析のための勉強会第7章
データ解析のための勉強会第7章
 
Deep neural networks and tabular data
Deep neural networks and tabular dataDeep neural networks and tabular data
Deep neural networks and tabular data
 
DeepLearning 5章
DeepLearning 5章DeepLearning 5章
DeepLearning 5章
 
「機械学習 By スタンフォード大学」勉強会 2015.09.11
「機械学習 By スタンフォード大学」勉強会 2015.09.11「機械学習 By スタンフォード大学」勉強会 2015.09.11
「機械学習 By スタンフォード大学」勉強会 2015.09.11
 
Islam Aur Nikah Urdu Book.pdf
Islam Aur Nikah Urdu Book.pdfIslam Aur Nikah Urdu Book.pdf
Islam Aur Nikah Urdu Book.pdf
 
Anderson局在入門
Anderson局在入門Anderson局在入門
Anderson局在入門
 
PRML上巻勉強会 at 東京大学 資料 第1章前半
PRML上巻勉強会 at 東京大学 資料 第1章前半PRML上巻勉強会 at 東京大学 資料 第1章前半
PRML上巻勉強会 at 東京大学 資料 第1章前半
 
【論文レベルで理解しよう!】​ 欠測値処理編​
【論文レベルで理解しよう!】​ 欠測値処理編​【論文レベルで理解しよう!】​ 欠測値処理編​
【論文レベルで理解しよう!】​ 欠測値処理編​
 
AIシステムの要求とプロジェクトマネジメント-後半:機械学習応用システムのための 要求工学と安全性
AIシステムの要求とプロジェクトマネジメント-後半:機械学習応用システムのための要求工学と安全性AIシステムの要求とプロジェクトマネジメント-後半:機械学習応用システムのための要求工学と安全性
AIシステムの要求とプロジェクトマネジメント-後半:機械学習応用システムのための 要求工学と安全性
 
PythonとRによるデータ分析環境の構築と機械学習によるデータ認識
PythonとRによるデータ分析環境の構築と機械学習によるデータ認識PythonとRによるデータ分析環境の構築と機械学習によるデータ認識
PythonとRによるデータ分析環境の構築と機械学習によるデータ認識
 

야구선수 연봉 예측

  • 1. 야구선수 연봉 예측 Team Project / 데이터 전처리 및 모델링 Giwook Lee https://github.com/GWL22/DSS
  • 2. Description Goal 기록되어 있는 야구 선수 데이터를 바탕으로 다음해의 연봉을 예측 Why 야구 선수들의 연봉이 정말 능력 위주로 측정되는지 그렇다면 어떤 요소가 제일 큰 영향을 미치는지 알고자 함. How Statiz란 야구 데이터 사이트에서 222명의 타자 기록을 통해 다음해 연봉을 예측하는 모델링을 PCA를 통해 구현
  • 4. Conflict Strong multicollinearity 높은 상관관계를 가지고 있는 X가 한개 이상 존재하여 분석 결과를 신뢰할 수 없음
  • 5. Why PCA? 회귀분석의 전제 조건 : Feature(X)는 서로 독립 야구 특성상 X 끼리 상관관계가 높은 것이 있음. 또한 X가 많아 이를 줄이기 위해 주성분회귀분석, 즉 PCA를 사용하기로 함. <그림1.> Feature 간의 상관정도를 나타낸 Heatmap
  • 6. Result 21개의 X는 PCA를 사용해 3개의 축으로 압축, OLS 분석을 실시함 PC3의 영향이 크다고 판단할 수 있으며 OLS 결과 예측 결과 75%의 정확도 가짐
  • 7. Insight PC1, PC2, PC3를 분석 각 축에서의 주성분을 파악 다음과 같이 그룹명을 지음 PC1 : 공격력 PC2 : 장타력 PC3 : 타팀의 견제 즉, 타팀의 견제 정도가 강할수록 타자가 받는 연봉이 높다고 할 수 있다. 하지만... PC1 PC2 PC3 PA(타석) B3(3루타) HBP(사구) AB(타수) HR(홈런) IBB(고의사구) R(득점) RBI(타점) GDP(병살타) H(안타) SBA(도루) SACF(희생타) B2(2루타) CS(도루실패) TB(루타) SLG(장타율) BB(볼넷) SO(삼진) AVG(타율) OBP(출루율)
  • 8. Critical Point 1. 0이 많은 데이터를 줄이기 위하여, 100타석 이상을 기준으로 하였으며, 이에 따라 85명에 대한 PCA 회귀분석을 진행 2. 85명의 데이터를 3등분하여 적은 데이터로 모델링을 진행함 3. 0.75라는 나쁘지 않은 R-Square 값을 보이나 모델에 대한 신뢰도가 떨어짐 향후계획 - 222명의 선수 전체를 대상으로 PCA를 진행 - 선수의 데이터는 매년 축적되므로 일반 회귀분석이 아닌 시계열 분석을 실시해 연봉 예측 모델링을 진행 예정
  • 10. Feature 설명 G 경기수 P 포지션 PA 타석 AB 타수 R 득점 H 안타 B2 2루타 B3 3루타 HR 홈런 TB 루타 RBI 타점 SB 도루 CS 도루실패 BB 볼넷 HBP 사구 IBB 고의사구 SO 삼진 GDP 병살타 SAC 희생번트 SAF 희생타 OBP 출루율 SLG 장타율