** 홈런치기 좋은 날 - 날씨 변화와 야구 경기기록의 관계 시각화 **
이 프로젝트는 '대구구장에서는 왜 홈런이 많이 나올까? 혹시 날이 더워서?' 라는 물음에서
출발했다. 날씨가 야구 기록에 정말 영향을 미칠까? 기온, 습도, 전운량 등의 날씨 요소와 안타율, 장타율 등 주요 야구 기록 사이의 관계를 살펴보고 그 결과를 시각화했다.
8기 일반 이민영
8기 일반 김현중
8기 시각화 박은우
8기 시각화부문 이수빈
** 국내 최초 대학생 빅데이터 연합동아리 BOAZ **
블로그: http://blog.naver.com/boazbigdata
페이스북: https://www.facebook.com/BOAZbigdata
5. 주제
1. 주제 및 목표 설정
날씨와 야구경기 기록의 관계에 대한 기존의 몇
가지 가설들을 실제 데이터로 검증하고 이를
시각화하기
날씨와 야구 경기 기록 간의 관계
목표
2 . 주 제 및 목 표 설 정
6. 3. 데이터 처리 과정
(1) 데이터 수집
2. 시각화 과정
(1) 사용 툴 소개
3 . 데 이 터 처 리 과 정
7. 3. 데이터 처리 과정
(1) 데이터 수집
야구 경기 기록 수집
- 2016년 경기 기록 수집
- 정규 리그 경기 한정
- 팀, 타자, 투수 데이터
- 크롤링 이용
3. 데이터 처리 과정
(1) 데이터 수집
2. 시각화 과정
( 1 ) 데 이 터 수 집
3 . 데 이 터 처 리 과 정
8. 3. 데이터 처리 과정
(1) 데이터 수집
3. 데이터 처리 과정
(1) 데이터 수집
2. 시각화 과정
( 1 ) 데 이 터 수 집
3 . 데 이 터 처 리 과 정
기상 자료 수집
- 2016년 날씨 자료 수집
- 구장 위치한 지역의 기상 데이터
- 시간대별 자료로 수집
- 포털 제공 자료 직접 다운로드
9. 3. 데이터 처리 과정
(1) 데이터 수집
야구 경기 기록 수집
-경기일정 데이터
경기 구장, 팀명, 날짜,
승패여부, 점수,
시작시간
3. 데이터 처리 과정
(1) 데이터 수집
3. 데이터 처리 과정
(1) 데이터 수집
2. 시각화 과정
( 1 ) 데 이 터 수 집
3 . 데 이 터 처 리 과 정
10. 3. 데이터 처리 과정
(1) 데이터 수집
야구 경기 기록 수집
-타자 데이터
땅볼, 플라이, 4구, 데드볼, 홈런, 삼진, 희생, 병살, 직선타, 결승타 등
타자와 관련된 경기 기록 크롤링
3. 데이터 처리 과정
(1) 데이터 수집
3. 데이터 처리 과정
(1) 데이터 수집
2. 시각화 과정
( 1 ) 데 이 터 수 집
3 . 데 이 터 처 리 과 정
11. 3. 데이터 처리 과정
(1) 데이터 수집
야구 경기 기록 수집
-투수 데이터
결과, 이닝, 타자, 투구, 타수, 안타 등 투수와 관련된 경기 데이터
3. 데이터 처리 과정
(1) 데이터 수집
3. 데이터 처리 과정
(1) 데이터 수집
2. 시각화 과정
( 1 ) 데 이 터 수 집
3 . 데 이 터 처 리 과 정
12. 기상 자료 수집
3. 데이터 처리 과정
(1) 데이터 수집
- 기온, 강수량, 풍속, 풍향, 습도, 증기압, 일조, 일사, 전운량 등의 날씨 요소 포함
-지점은 각 관측소마다 고유 번호로 나타남
서울(108) 인천(112) 수원(119) 대전(133) 대구(143)
창원(155) 부산(159) 울산(152) 광주(156)
3. 데이터 처리 과정
(1) 데이터 수집
3. 데이터 처리 과정
(1) 데이터 수집
2. 시각화 과정
( 1 ) 데 이 터 수 집
3 . 데 이 터 처 리 과 정
13. 날씨 데이터 전처리
- 각 관측소 별 고유 번호를 관측소명으로 변경
-분석에만 필요한 요소만을 선정 → 기온, 강수량, 풍속, 풍향, 습도, 일조, 일사
3. 데이터 처리 과정
(2) 데이터 전처리
3. 데이터 처리 과정
(1) 데이터 수집
3. 데이터 처리 과정
(1) 데이터 수집
2. 시각화 과정
( 2 ) 데 이 터 전 처 리
3 . 데 이 터 처 리 과 정
14. 3. 데이터 처리 과정
(2) 데이터 전처리
날씨 데이터 전처리 결과(팀+날씨)
3. 데이터 처리 과정
(2) 데이터 전처리
3. 데이터 처리 과정
(2) 데이터 전처리
3. 데이터 처리 과정
(1) 데이터 수집
3. 데이터 처리 과정
(1) 데이터 수집
2. 시각화 과정
( 2 ) 데 이 터 전 처 리
3 . 데 이 터 처 리 과 정
15. 3. 데이터 처리 과정
(2) 데이터 전처리
날씨 데이터 전처리 결과(팀+선수+날씨)
3. 데이터 처리 과정
(2) 데이터 전처리
3. 데이터 처리 과정
(2) 데이터 전처리
3. 데이터 처리 과정
(1) 데이터 수집
3. 데이터 처리 과정
(1) 데이터 수집
2. 시각화 과정
( 2 ) 데 이 터 전 처 리
3 . 데 이 터 처 리 과 정
16. 3. 데이터 처리 과정
(1) 데이터 수집
2. 시각화 과정
(1) 사용 툴 소개
4 . 시 각 화 과 정
17. 기온과 홈런?
2. 시각화 과정
(2) 2차 시각화
2. 시각화 과정
(2) 1차&2차 시각화
4. 시각화 과정
- 기온이 높을수록 홈런을 많이 친다?
18.
19.
20. 습도와 장타?
2. 시각화 과정
(2) 2차 시각화
2. 시각화 과정
(2) 1차&2차 시각화
4. 시각화 과정
- 습할수록 장타율이 높다?
장타율: = (단타 + (2루타*2) + (3루타*3) + (홈런*4)) / 타수
21.
22.
23. 강수량과 안타?
2. 시각화 과정
(2) 2차 시각화
2. 시각화 과정
(2) 1차&2차 시각화
4. 시각화 과정
비가 많이 올수록 안타를 칠 확률이 증가한다?
24.
25.
26. 불쾌지수와 홈런?
2. 시각화 과정
(2) 2차 시각화
2. 시각화 과정
(2) 1차&2차 시각화
4. 시각화 과정
- 불쾌지수란?
: 기온과 습도의 조합으로 사람이 느끼는 온도를 표현한 것
- 불쾌지수 = 9/5*T - 0.55*(1-RH/100)(9/5*T-26)+32
(T: 기온(섭씨), RH: 상대습도(%))