SlideShare a Scribd company logo
1 of 12
Download to read offline
Doing Data Science
통계적 추론, 탐색적 데이터분석과 데이터 과학 과정
통계적 추론
● 데이터 과학 학습의 적절한 출발점이지 않을까?
● 모수(parameter)에 대한 어떤 판단을 내리기 위하여, 모
집단(population)에서 표본(sample)을 추출하여 데이터
를 얻고 이 데이터를 기초로 하여 통계이론에 의한 결론
을 내리는 과정
모집단과 표본
모집단(population): 관심의 대
상이 되는 모든 개체의 특성을
나타내는 관측값이나 측정 값
의 전체 집합
표본(sample): 통계적 분석을
위하여 실제로 관측한 측정값
의 집합
빅데이터의 모집단과 표본
● 빅데이터인데 모집단과 표본이 필요한가?
○ 응. 데이터와 머신들이 무한하진 않잖아?
● ex) 허리케인 샌디 전후의 트윗 분석에 대한
오판, 47p
● 사실 모집단이 표본이였고 더큰 모집단이 있
었어. One more thing. 더큰 모집단이 또있지
롱. 그래서 표본을 잘 만들어야....
● 쌓이는 데이터 포맷은 다양
빅데이터는 커다란 가정?
● 보통 아닌데?
● 데이터는 단지 사건들의 정량적이며 수동적
인 반향일 뿐이다.
모형화(Model)
● 건축가는 청사진과 3차원 축소 모형, 분자생
물학자는 아미노산연결을 3차원화, 데이터 과
학자는 데이터의 형태와 구조를 표현하는 수
학적 함수로 데이터 생성과정의 불확실성과
무작위성을 포착
● 우선 탐색적 데이터분석(EDA) 부터 시도하면
서 그래프를 그리고 선형함수도 적어보고 이
것저것 주관적으로 끼워맞춘다.
● 경험이 쌓이면 모형을 만드는 자신만의 툴킷
이 생기고 그중 하나로 확률분포를 써라.
● 만들고나면 적합, 과적합이 된다. 적합한 모형
을 만들기 위해 R, Python을 이용하자.
모형은 어떻게 만들어요?
확률분포
탐색적 데이터 분석
● 가설이나 검증에 치우치지 않고 도표, 그래프,
요약 통계 같은 방법으로 데이터 자체를 분석
데이터과학 과정
리얼다이렉트 사례
아.... 읽고 한번 이야기 해봐요....
끝

More Related Content

Similar to Doing data science_ch2

Process for Big Data Analysis
Process for Big Data AnalysisProcess for Big Data Analysis
Process for Big Data AnalysisMyunggoon Choi
 
세월호/ 타이타닉호 사고의 빅 데이터 방법론적 분석
세월호/ 타이타닉호 사고의 빅 데이터 방법론적 분석세월호/ 타이타닉호 사고의 빅 데이터 방법론적 분석
세월호/ 타이타닉호 사고의 빅 데이터 방법론적 분석Kwang Woo NAM
 
[파인트리오픈클래스] 엑셀을 활용한 데이터 분석과 이해
[파인트리오픈클래스] 엑셀을 활용한 데이터 분석과 이해[파인트리오픈클래스] 엑셀을 활용한 데이터 분석과 이해
[파인트리오픈클래스] 엑셀을 활용한 데이터 분석과 이해pinetreeopenclass
 
★강의교재_데이터 분석을 위한 통계와 확률_v2.pptx
★강의교재_데이터 분석을 위한 통계와 확률_v2.pptx★강의교재_데이터 분석을 위한 통계와 확률_v2.pptx
★강의교재_데이터 분석을 위한 통계와 확률_v2.pptxDonghwan Lee
 
1.introduction(epoch#2)
1.introduction(epoch#2)1.introduction(epoch#2)
1.introduction(epoch#2)Haesun Park
 
Bigdate & R programming
Bigdate & R programmingBigdate & R programming
Bigdate & R programmingSeongWan Son
 
[통계페스티발] 무덤에서 요람까지 통계와 함께
[통계페스티발] 무덤에서 요람까지 통계와 함께[통계페스티발] 무덤에서 요람까지 통계와 함께
[통계페스티발] 무덤에서 요람까지 통계와 함께백승민 Baek Seung Min
 
(독서광) 책 vs 책: 정형 vs 비정형 딥러닝
(독서광) 책 vs 책: 정형 vs 비정형 딥러닝(독서광) 책 vs 책: 정형 vs 비정형 딥러닝
(독서광) 책 vs 책: 정형 vs 비정형 딥러닝Jay Park
 
Doing data science Chapter 9
Doing data science Chapter 9Doing data science Chapter 9
Doing data science Chapter 9Ji Hun Kim
 
계량정보분석 해외사례 조사분석.
계량정보분석 해외사례 조사분석.계량정보분석 해외사례 조사분석.
계량정보분석 해외사례 조사분석.Han Woo PARK
 
빅데이터전문가교육 2학기
빅데이터전문가교육 2학기빅데이터전문가교육 2학기
빅데이터전문가교육 2학기Kangwook Lee
 
[통계분석연구회] 2016년 겨울 맞이 추천 도서와 영상
[통계분석연구회] 2016년 겨울 맞이 추천 도서와 영상[통계분석연구회] 2016년 겨울 맞이 추천 도서와 영상
[통계분석연구회] 2016년 겨울 맞이 추천 도서와 영상백승민 Baek Seung Min
 
인공지능기반 디지털교과서비스 전략 탐색
인공지능기반 디지털교과서비스 전략 탐색인공지능기반 디지털교과서비스 전략 탐색
인공지능기반 디지털교과서비스 전략 탐색Euisuk Jeong
 
통계분석연구회 2015년 겨울 맞이 추천 도서와 영상
통계분석연구회 2015년 겨울 맞이 추천 도서와 영상통계분석연구회 2015년 겨울 맞이 추천 도서와 영상
통계분석연구회 2015년 겨울 맞이 추천 도서와 영상백승민 Baek Seung Min
 
웹보메트릭스02 1
웹보메트릭스02 1웹보메트릭스02 1
웹보메트릭스02 1Inho Cho
 
웹보메트릭스와 계량정보학02 1
웹보메트릭스와 계량정보학02 1웹보메트릭스와 계량정보학02 1
웹보메트릭스와 계량정보학02 1Han Woo PARK
 
연구패러다임 변화와-데이터-집중-과학 국립해양생물자원관
연구패러다임 변화와-데이터-집중-과학 국립해양생물자원관연구패러다임 변화와-데이터-집중-과학 국립해양생물자원관
연구패러다임 변화와-데이터-집중-과학 국립해양생물자원관Suntae Kim
 

Similar to Doing data science_ch2 (20)

Process for Big Data Analysis
Process for Big Data AnalysisProcess for Big Data Analysis
Process for Big Data Analysis
 
세월호/ 타이타닉호 사고의 빅 데이터 방법론적 분석
세월호/ 타이타닉호 사고의 빅 데이터 방법론적 분석세월호/ 타이타닉호 사고의 빅 데이터 방법론적 분석
세월호/ 타이타닉호 사고의 빅 데이터 방법론적 분석
 
[파인트리오픈클래스] 엑셀을 활용한 데이터 분석과 이해
[파인트리오픈클래스] 엑셀을 활용한 데이터 분석과 이해[파인트리오픈클래스] 엑셀을 활용한 데이터 분석과 이해
[파인트리오픈클래스] 엑셀을 활용한 데이터 분석과 이해
 
★강의교재_데이터 분석을 위한 통계와 확률_v2.pptx
★강의교재_데이터 분석을 위한 통계와 확률_v2.pptx★강의교재_데이터 분석을 위한 통계와 확률_v2.pptx
★강의교재_데이터 분석을 위한 통계와 확률_v2.pptx
 
빅데이터
빅데이터빅데이터
빅데이터
 
1.introduction(epoch#2)
1.introduction(epoch#2)1.introduction(epoch#2)
1.introduction(epoch#2)
 
Bigdate & R programming
Bigdate & R programmingBigdate & R programming
Bigdate & R programming
 
[통계페스티발] 무덤에서 요람까지 통계와 함께
[통계페스티발] 무덤에서 요람까지 통계와 함께[통계페스티발] 무덤에서 요람까지 통계와 함께
[통계페스티발] 무덤에서 요람까지 통계와 함께
 
(독서광) 책 vs 책: 정형 vs 비정형 딥러닝
(독서광) 책 vs 책: 정형 vs 비정형 딥러닝(독서광) 책 vs 책: 정형 vs 비정형 딥러닝
(독서광) 책 vs 책: 정형 vs 비정형 딥러닝
 
Doing data science Chapter 9
Doing data science Chapter 9Doing data science Chapter 9
Doing data science Chapter 9
 
계량정보분석 해외사례 조사분석.
계량정보분석 해외사례 조사분석.계량정보분석 해외사례 조사분석.
계량정보분석 해외사례 조사분석.
 
빅데이터전문가교육 2학기
빅데이터전문가교육 2학기빅데이터전문가교육 2학기
빅데이터전문가교육 2학기
 
122
122122
122
 
[통계분석연구회] 2016년 겨울 맞이 추천 도서와 영상
[통계분석연구회] 2016년 겨울 맞이 추천 도서와 영상[통계분석연구회] 2016년 겨울 맞이 추천 도서와 영상
[통계분석연구회] 2016년 겨울 맞이 추천 도서와 영상
 
인공지능기반 디지털교과서비스 전략 탐색
인공지능기반 디지털교과서비스 전략 탐색인공지능기반 디지털교과서비스 전략 탐색
인공지능기반 디지털교과서비스 전략 탐색
 
Mahout
MahoutMahout
Mahout
 
통계분석연구회 2015년 겨울 맞이 추천 도서와 영상
통계분석연구회 2015년 겨울 맞이 추천 도서와 영상통계분석연구회 2015년 겨울 맞이 추천 도서와 영상
통계분석연구회 2015년 겨울 맞이 추천 도서와 영상
 
웹보메트릭스02 1
웹보메트릭스02 1웹보메트릭스02 1
웹보메트릭스02 1
 
웹보메트릭스와 계량정보학02 1
웹보메트릭스와 계량정보학02 1웹보메트릭스와 계량정보학02 1
웹보메트릭스와 계량정보학02 1
 
연구패러다임 변화와-데이터-집중-과학 국립해양생물자원관
연구패러다임 변화와-데이터-집중-과학 국립해양생물자원관연구패러다임 변화와-데이터-집중-과학 국립해양생물자원관
연구패러다임 변화와-데이터-집중-과학 국립해양생물자원관
 

More from 박 민규

딥러닝제대로시작히기 Ch5 자기부호화기
딥러닝제대로시작히기 Ch5 자기부호화기딥러닝제대로시작히기 Ch5 자기부호화기
딥러닝제대로시작히기 Ch5 자기부호화기박 민규
 
HTTP 완벽가이드- 19장 배포시스템
HTTP 완벽가이드- 19장 배포시스템HTTP 완벽가이드- 19장 배포시스템
HTTP 완벽가이드- 19장 배포시스템박 민규
 
HTTP 완벽가이드- 18 웹 호스팅
HTTP 완벽가이드- 18 웹 호스팅HTTP 완벽가이드- 18 웹 호스팅
HTTP 완벽가이드- 18 웹 호스팅박 민규
 
HTTP 완벽가이드- 13 다이제스트 인증
HTTP 완벽가이드- 13 다이제스트 인증HTTP 완벽가이드- 13 다이제스트 인증
HTTP 완벽가이드- 13 다이제스트 인증박 민규
 
HTTP 완벽가이드- 12 기본 인증
HTTP 완벽가이드- 12 기본 인증HTTP 완벽가이드- 12 기본 인증
HTTP 완벽가이드- 12 기본 인증박 민규
 
실무로 배우는 시스템 성능 최적화 - 프로세스의 메모리 구조 2
실무로 배우는 시스템 성능 최적화 - 프로세스의 메모리 구조 2실무로 배우는 시스템 성능 최적화 - 프로세스의 메모리 구조 2
실무로 배우는 시스템 성능 최적화 - 프로세스의 메모리 구조 2박 민규
 
실무로 배우는 시스템 성능 최적화
실무로 배우는 시스템 성능 최적화실무로 배우는 시스템 성능 최적화
실무로 배우는 시스템 성능 최적화박 민규
 
함수형사고 4장 열심히보다는현명하게
함수형사고 4장 열심히보다는현명하게함수형사고 4장 열심히보다는현명하게
함수형사고 4장 열심히보다는현명하게박 민규
 
HTTP 완벽가이드 10장 http2.0, 11장_클라이언트식별과쿠키
HTTP 완벽가이드 10장 http2.0, 11장_클라이언트식별과쿠키HTTP 완벽가이드 10장 http2.0, 11장_클라이언트식별과쿠키
HTTP 완벽가이드 10장 http2.0, 11장_클라이언트식별과쿠키박 민규
 
HTTP 완벽가이드 7장 캐시
HTTP 완벽가이드 7장 캐시HTTP 완벽가이드 7장 캐시
HTTP 완벽가이드 7장 캐시박 민규
 
HTTP 완벽가이드 4장 커넥션관리
HTTP 완벽가이드 4장 커넥션관리HTTP 완벽가이드 4장 커넥션관리
HTTP 완벽가이드 4장 커넥션관리박 민규
 
API.Design.for.CPlusPlus.Ch5
API.Design.for.CPlusPlus.Ch5API.Design.for.CPlusPlus.Ch5
API.Design.for.CPlusPlus.Ch5박 민규
 
Basic stack, queue
Basic stack, queueBasic stack, queue
Basic stack, queue박 민규
 

More from 박 민규 (14)

딥러닝제대로시작히기 Ch5 자기부호화기
딥러닝제대로시작히기 Ch5 자기부호화기딥러닝제대로시작히기 Ch5 자기부호화기
딥러닝제대로시작히기 Ch5 자기부호화기
 
HTTP 완벽가이드- 19장 배포시스템
HTTP 완벽가이드- 19장 배포시스템HTTP 완벽가이드- 19장 배포시스템
HTTP 완벽가이드- 19장 배포시스템
 
HTTP 완벽가이드- 18 웹 호스팅
HTTP 완벽가이드- 18 웹 호스팅HTTP 완벽가이드- 18 웹 호스팅
HTTP 완벽가이드- 18 웹 호스팅
 
HTTP 완벽가이드- 13 다이제스트 인증
HTTP 완벽가이드- 13 다이제스트 인증HTTP 완벽가이드- 13 다이제스트 인증
HTTP 완벽가이드- 13 다이제스트 인증
 
HTTP 완벽가이드- 12 기본 인증
HTTP 완벽가이드- 12 기본 인증HTTP 완벽가이드- 12 기본 인증
HTTP 완벽가이드- 12 기본 인증
 
실무로 배우는 시스템 성능 최적화 - 프로세스의 메모리 구조 2
실무로 배우는 시스템 성능 최적화 - 프로세스의 메모리 구조 2실무로 배우는 시스템 성능 최적화 - 프로세스의 메모리 구조 2
실무로 배우는 시스템 성능 최적화 - 프로세스의 메모리 구조 2
 
실무로 배우는 시스템 성능 최적화
실무로 배우는 시스템 성능 최적화실무로 배우는 시스템 성능 최적화
실무로 배우는 시스템 성능 최적화
 
함수형사고 4장 열심히보다는현명하게
함수형사고 4장 열심히보다는현명하게함수형사고 4장 열심히보다는현명하게
함수형사고 4장 열심히보다는현명하게
 
HTTP 완벽가이드 10장 http2.0, 11장_클라이언트식별과쿠키
HTTP 완벽가이드 10장 http2.0, 11장_클라이언트식별과쿠키HTTP 완벽가이드 10장 http2.0, 11장_클라이언트식별과쿠키
HTTP 완벽가이드 10장 http2.0, 11장_클라이언트식별과쿠키
 
HTTP 완벽가이드 7장 캐시
HTTP 완벽가이드 7장 캐시HTTP 완벽가이드 7장 캐시
HTTP 완벽가이드 7장 캐시
 
HTTP 완벽가이드 4장 커넥션관리
HTTP 완벽가이드 4장 커넥션관리HTTP 완벽가이드 4장 커넥션관리
HTTP 완벽가이드 4장 커넥션관리
 
API.Design.for.CPlusPlus.Ch5
API.Design.for.CPlusPlus.Ch5API.Design.for.CPlusPlus.Ch5
API.Design.for.CPlusPlus.Ch5
 
Basic stack, queue
Basic stack, queueBasic stack, queue
Basic stack, queue
 
Pig
PigPig
Pig
 

Doing data science_ch2

  • 1. Doing Data Science 통계적 추론, 탐색적 데이터분석과 데이터 과학 과정
  • 2. 통계적 추론 ● 데이터 과학 학습의 적절한 출발점이지 않을까? ● 모수(parameter)에 대한 어떤 판단을 내리기 위하여, 모 집단(population)에서 표본(sample)을 추출하여 데이터 를 얻고 이 데이터를 기초로 하여 통계이론에 의한 결론 을 내리는 과정
  • 3. 모집단과 표본 모집단(population): 관심의 대 상이 되는 모든 개체의 특성을 나타내는 관측값이나 측정 값 의 전체 집합 표본(sample): 통계적 분석을 위하여 실제로 관측한 측정값 의 집합
  • 4. 빅데이터의 모집단과 표본 ● 빅데이터인데 모집단과 표본이 필요한가? ○ 응. 데이터와 머신들이 무한하진 않잖아? ● ex) 허리케인 샌디 전후의 트윗 분석에 대한 오판, 47p ● 사실 모집단이 표본이였고 더큰 모집단이 있 었어. One more thing. 더큰 모집단이 또있지 롱. 그래서 표본을 잘 만들어야.... ● 쌓이는 데이터 포맷은 다양
  • 5. 빅데이터는 커다란 가정? ● 보통 아닌데? ● 데이터는 단지 사건들의 정량적이며 수동적 인 반향일 뿐이다.
  • 6. 모형화(Model) ● 건축가는 청사진과 3차원 축소 모형, 분자생 물학자는 아미노산연결을 3차원화, 데이터 과 학자는 데이터의 형태와 구조를 표현하는 수 학적 함수로 데이터 생성과정의 불확실성과 무작위성을 포착
  • 7. ● 우선 탐색적 데이터분석(EDA) 부터 시도하면 서 그래프를 그리고 선형함수도 적어보고 이 것저것 주관적으로 끼워맞춘다. ● 경험이 쌓이면 모형을 만드는 자신만의 툴킷 이 생기고 그중 하나로 확률분포를 써라. ● 만들고나면 적합, 과적합이 된다. 적합한 모형 을 만들기 위해 R, Python을 이용하자. 모형은 어떻게 만들어요?
  • 9. 탐색적 데이터 분석 ● 가설이나 검증에 치우치지 않고 도표, 그래프, 요약 통계 같은 방법으로 데이터 자체를 분석
  • 11. 리얼다이렉트 사례 아.... 읽고 한번 이야기 해봐요....
  • 12.