SlideShare a Scribd company logo
1 of 27
Download to read offline
파이썬을 활용한 데이터 분석
-야구데이터를통한실습
- plotly를이용한데이터시각화
강사:신재춘,박은상
강사소개
강의 목표
- 데이터분석이란?
- 파이썬기본적인사용법
- pandas,plotly사용법
- 데이터분석실습
영화 머니볼
-Sabermetrics
데이터 분석?
- 데이터를수집하고처리해유의미한가치를창출하는과정
크게3가지목적 통계적검정
- Ttest
- Ftest
예측
- Regression
- Michine
learning
데이터시각화및
인사이트도출
데이터 시각화 및
인사이트 도출
코로나2차확산이
시작됨에따른
마스크검색량증가
데이터 분석 예시
통계적검정 예측
캘리포니아의코로나확진자는?
데이터 분석 과정
문제정의,
기획
데이터전처리
탐색적
자료분석(EDA)
모델링(예측,검정)데이터수집
데이터시각화/
인사이트도출
U
0. 분석 기획
문제/가설을설정하고데이터분석내용을기획하는단계
- 부동산관련데이터분석?
- 야구선수나이가높을수록연봉이높아질까?
- 코로나는언제쯤잠잠해질까?
->~~데이터를이용해서~~방법으로분석
1. 데이터 수집
공공데이터포털/kaggle/통계청(kosis)등다양한사이트가존재
이곳에서엑셀형식의파일다운가능
공공데이터포털(국내데이터) kaggle(globaldata)
크롤링
원하는데이터를제공해주는곳이없을때는직접사이트의내용을수집가능
(python,R,javascript 등이용)
statiz(야구통계사이트) 네이버뉴스기사
2. 데이터 전처리
- 분석을위해데이터를가공하는과정
- 엑셀,파이썬등을이용
결측치(NA값)처리 분석방향에맞는데이터로변환
2. 데이터 전처리
데이터결합
전처리 단계의 중요성
데이터분석과정별소요시간(출처–포브스)
3.탐색적 데이터
분석(EDA)
데이터를다양한각도에서관찰하고이해하는과정:그래프등사용
- 각각의변수가무엇을의미하는지
- 각각변수의분포
- 변수끼리의관계
- 요약통계량(평균,분산)
위와같이데이터를탐색하는모든것
3. EDA
-포지션(RF, SS 등)이
의미하는것은?
- G의의미는?
- 타석과타수의차이는?
야구선수연봉분포
NA값이 생긴 이유는?
3. EDA(데이터 시각화
및 인사이트 도출)
야구선수나이와연봉의관계–나이가증가할수록연봉이증가?
4. 모델링
나이가 x1이고, 타율이 x2인 선수는 y만큼의 연봉을 받을
것이다(예측)
4. 모델링(예측)
- MachineLearning
- DeepLearning
- ARIMA
등등많은방법들이존재.
Why use python?
데이터 핸들링 - 엑셀 vs 파이썬
파이썬
- pandas, numpy 등 데이터 핸들링
도구이용
-대용량처리가능
- 자동화 편함 : 코드 재사용으로
반복적인작업 쉽게가능
-크롤링등으로웹데이터수집가능
엑셀
- 쉽다
데이터 시각화 - 엑셀 vs 파이썬
엑셀:선택창이용(마우스) 파이썬:코드이용(키보드)
Plotly
Python의 시각화 라이브러리
(기능들의집합)
다양한종류의plot이용가능
프로그래밍
언어로서의 파이썬
- 세계적으로인기있는프로그래밍언어중하나
- 배우기쉽다
- pandas,numpy,plotly등데이터분석관련기능많이제공
- C,JAVA등에비해서는느리다.
Python for
Mathematician
미분/적분 함수시각화 시뮬레이션
수업 계획
- contents
1일차-파이썬설치,주피터설치및기초문법
2일차–기초문법+pandas,plotly이용한간단한시각화
3일차–파이썬문법복습하며야구데이터실습
4일차- 실습마무리/개별실습
출처
포 브 스 전 처 리 - https://www.forbes.com/sites/gilpress/2016/03/23/data-preparation-most-time-
consuming-least-enjoyable-data-science-task-survey-says/#6827879d6f63
엑셀 vs 파이썬- https://www.gapintelligence.com/blog/a-look-at-python-versus-excel/
엑셀 vs 파이썬 table - https://www.nobledesktop.com/learn/python/python-vs-excel
엑셀 시각화 - https://www.tutorialspoint.com/excel_data_analysis/excel_data_analysis_visualization.htm
경영학과 아동학과 여성 비율 - https://blog.naver.com/gracestock_1/120200076090
데이터 분석 과정 - https://www.123rf.com/photo_100511312_stock-vector-data-mining-four-stage-
process-infographic-big-data-analysis-design-.html

More Related Content

Similar to Data analysis with python - for Ulsan science high school teachers

[D2 CAMPUS] Tech meet-up `data science` 발표자료
[D2 CAMPUS] Tech meet-up `data science` 발표자료[D2 CAMPUS] Tech meet-up `data science` 발표자료
[D2 CAMPUS] Tech meet-up `data science` 발표자료NAVER D2
 
Peopleplus hr session(2) people analytics, start today
Peopleplus hr session(2) people analytics, start todayPeopleplus hr session(2) people analytics, start today
Peopleplus hr session(2) people analytics, start todayYoungchan Jo
 
데이터 분석 동향과 비즈스프링이 제공하는 데이터
데이터 분석 동향과 비즈스프링이 제공하는 데이터데이터 분석 동향과 비즈스프링이 제공하는 데이터
데이터 분석 동향과 비즈스프링이 제공하는 데이터BizSpring Inc.
 
IT전략계획- 02.정보전략계획(isp)
IT전략계획- 02.정보전략계획(isp)IT전략계획- 02.정보전략계획(isp)
IT전략계획- 02.정보전략계획(isp)InGuen Hwang
 
파이썬 데이터 분석 3종세트
파이썬 데이터 분석 3종세트파이썬 데이터 분석 3종세트
파이썬 데이터 분석 3종세트itproman35
 
RU5th Open Project_COACH
RU5th Open Project_COACHRU5th Open Project_COACH
RU5th Open Project_COACHRightBrain inc.
 
빅데이터 활용에 관한 모든것
빅데이터 활용에 관한 모든것빅데이터 활용에 관한 모든것
빅데이터 활용에 관한 모든것Hyojoung Shin
 
조직역량 강화 방안
조직역량 강화 방안조직역량 강화 방안
조직역량 강화 방안Seoungcheol Lee
 
데이터 사이언티스트를 꿈꾸는 분들을 위한 개인적인 데이터 사이언스 경험과 소회 - what I experienced as a data sc...
데이터 사이언티스트를 꿈꾸는 분들을 위한 개인적인 데이터 사이언스 경험과 소회 - what I experienced as a data sc...데이터 사이언티스트를 꿈꾸는 분들을 위한 개인적인 데이터 사이언스 경험과 소회 - what I experienced as a data sc...
데이터 사이언티스트를 꿈꾸는 분들을 위한 개인적인 데이터 사이언스 경험과 소회 - what I experienced as a data sc...Jungmin Lee
 
BS501 발표자료
BS501 발표자료BS501 발표자료
BS501 발표자료Park Sungpil
 

Similar to Data analysis with python - for Ulsan science high school teachers (11)

[D2 CAMPUS] Tech meet-up `data science` 발표자료
[D2 CAMPUS] Tech meet-up `data science` 발표자료[D2 CAMPUS] Tech meet-up `data science` 발표자료
[D2 CAMPUS] Tech meet-up `data science` 발표자료
 
Peopleplus hr session(2) people analytics, start today
Peopleplus hr session(2) people analytics, start todayPeopleplus hr session(2) people analytics, start today
Peopleplus hr session(2) people analytics, start today
 
데이터 분석 동향과 비즈스프링이 제공하는 데이터
데이터 분석 동향과 비즈스프링이 제공하는 데이터데이터 분석 동향과 비즈스프링이 제공하는 데이터
데이터 분석 동향과 비즈스프링이 제공하는 데이터
 
IT전략계획- 02.정보전략계획(isp)
IT전략계획- 02.정보전략계획(isp)IT전략계획- 02.정보전략계획(isp)
IT전략계획- 02.정보전략계획(isp)
 
파이썬 데이터 분석 3종세트
파이썬 데이터 분석 3종세트파이썬 데이터 분석 3종세트
파이썬 데이터 분석 3종세트
 
Rdata 180320
Rdata 180320Rdata 180320
Rdata 180320
 
RU5th Open Project_COACH
RU5th Open Project_COACHRU5th Open Project_COACH
RU5th Open Project_COACH
 
빅데이터 활용에 관한 모든것
빅데이터 활용에 관한 모든것빅데이터 활용에 관한 모든것
빅데이터 활용에 관한 모든것
 
조직역량 강화 방안
조직역량 강화 방안조직역량 강화 방안
조직역량 강화 방안
 
데이터 사이언티스트를 꿈꾸는 분들을 위한 개인적인 데이터 사이언스 경험과 소회 - what I experienced as a data sc...
데이터 사이언티스트를 꿈꾸는 분들을 위한 개인적인 데이터 사이언스 경험과 소회 - what I experienced as a data sc...데이터 사이언티스트를 꿈꾸는 분들을 위한 개인적인 데이터 사이언스 경험과 소회 - what I experienced as a data sc...
데이터 사이언티스트를 꿈꾸는 분들을 위한 개인적인 데이터 사이언스 경험과 소회 - what I experienced as a data sc...
 
BS501 발표자료
BS501 발표자료BS501 발표자료
BS501 발표자료
 

Recently uploaded

캐드앤그래픽스 2024년 5월호 목차
캐드앤그래픽스 2024년 5월호 목차캐드앤그래픽스 2024년 5월호 목차
캐드앤그래픽스 2024년 5월호 목차캐드앤그래픽스
 
MOODv2 : Masked Image Modeling for Out-of-Distribution Detection
MOODv2 : Masked Image Modeling for Out-of-Distribution DetectionMOODv2 : Masked Image Modeling for Out-of-Distribution Detection
MOODv2 : Masked Image Modeling for Out-of-Distribution DetectionKim Daeun
 
Merge (Kitworks Team Study 이성수 발표자료 240426)
Merge (Kitworks Team Study 이성수 발표자료 240426)Merge (Kitworks Team Study 이성수 발표자료 240426)
Merge (Kitworks Team Study 이성수 발표자료 240426)Wonjun Hwang
 
Continual Active Learning for Efficient Adaptation of Machine LearningModels ...
Continual Active Learning for Efficient Adaptation of Machine LearningModels ...Continual Active Learning for Efficient Adaptation of Machine LearningModels ...
Continual Active Learning for Efficient Adaptation of Machine LearningModels ...Kim Daeun
 
A future that integrates LLMs and LAMs (Symposium)
A future that integrates LLMs and LAMs (Symposium)A future that integrates LLMs and LAMs (Symposium)
A future that integrates LLMs and LAMs (Symposium)Tae Young Lee
 
Console API (Kitworks Team Study 백혜인 발표자료)
Console API (Kitworks Team Study 백혜인 발표자료)Console API (Kitworks Team Study 백혜인 발표자료)
Console API (Kitworks Team Study 백혜인 발표자료)Wonjun Hwang
 

Recently uploaded (6)

캐드앤그래픽스 2024년 5월호 목차
캐드앤그래픽스 2024년 5월호 목차캐드앤그래픽스 2024년 5월호 목차
캐드앤그래픽스 2024년 5월호 목차
 
MOODv2 : Masked Image Modeling for Out-of-Distribution Detection
MOODv2 : Masked Image Modeling for Out-of-Distribution DetectionMOODv2 : Masked Image Modeling for Out-of-Distribution Detection
MOODv2 : Masked Image Modeling for Out-of-Distribution Detection
 
Merge (Kitworks Team Study 이성수 발표자료 240426)
Merge (Kitworks Team Study 이성수 발표자료 240426)Merge (Kitworks Team Study 이성수 발표자료 240426)
Merge (Kitworks Team Study 이성수 발표자료 240426)
 
Continual Active Learning for Efficient Adaptation of Machine LearningModels ...
Continual Active Learning for Efficient Adaptation of Machine LearningModels ...Continual Active Learning for Efficient Adaptation of Machine LearningModels ...
Continual Active Learning for Efficient Adaptation of Machine LearningModels ...
 
A future that integrates LLMs and LAMs (Symposium)
A future that integrates LLMs and LAMs (Symposium)A future that integrates LLMs and LAMs (Symposium)
A future that integrates LLMs and LAMs (Symposium)
 
Console API (Kitworks Team Study 백혜인 발표자료)
Console API (Kitworks Team Study 백혜인 발표자료)Console API (Kitworks Team Study 백혜인 발표자료)
Console API (Kitworks Team Study 백혜인 발표자료)
 

Data analysis with python - for Ulsan science high school teachers