SlideShare a Scribd company logo
1 of 33
February 2015
권재명
실리콘 밸리
데이터 사이언티스트의 하루
권재명
● 통계학자
o "빅데이터" + 머신 러닝 + 데이터 사이언스
● 경력
o Berkeley Transportation Systems (2000~2007): 대용량 교통 데이터
o Wichorus (2009): 와이파이 데이터 모델링
o AOL Platforms (2009-): 온라인 광고 데이터
o Percolata* (2015): 리테일 애널리틱 데이터
o Molocoads.com* (2015): 모빌 DSP
(* : 자문 / 투자)
2
실리콘 밸리 "데이터" 기업들
서비스 (검색,
추천, 뉴스, ...)
사용자
클릭, 구매, "
좋아요", ...
알고리즘 / 서
비스 개선
사용 데이터
서비스 이용
3
서비스 - 사용자 - 데
이터 선순환
(positive feedback)
데이터보다 성공적
인 서비스가 선행
광고 알고리즘
온라인 광고
사용자 (3rd
party)
광고 클릭 / 구
매
광고 알고리즘
개선
클릭 / 구매 데이터
온라인 광고
노출
4
빅데이터 / 데이터 사이언스 대
표 분야
하루에 몇조개의 관측치 생성
수백-수천개의 변량을 이용한
클릭/구매 예측모형
0.001초 내로 "클릭 확률 예측"
5
http://www.lumapartners.com/lumascapes/display-ad-tech-lumascape/
"빅데이터"
웹서버 로그. 검색엔진 문서 자료/인덱스. 온라인 광고 로그. 소셜 네트웍
로그. 교통자료. 과학 자료. 의료자료. 센서 자료. 사물인터넷...
컴한대로 저장/처리 불가 → 분산
기존 소프트웨어로 처리 불가 → 하둡+
수집 / 저장 / 처리 / 분석 / 예측
하둡과 아마존 웹 서비스 (AWS) 로 코모디티 화 완료
6
7
http://www.google.com/trends/
서비스-사용자-데이터 선순환
"간단한" 통계분석
애널리틱
리포팅
"복잡한" 통계
머신러닝
코어 알고리즘 개발
8
"데이터 인력"
데이터 인프라
온디매드 클라우드
컴퓨팅
오픈 소스 빅데이터
소프트웨어 (Hadoop)
데이터 엔
지니어
데이터 사이언
티스트
머신러닝 사이
언티스트
* 링크드인의 2014 구조조정
통계 / 머신 러닝
코딩
적용 영역 지식
데이터 사이언스
9
통계 / 머신
러닝
코딩 적용 영역 지
식
전통적인 통계학자
10
통계 / 머신 러닝
코딩
적용 영역 지식
"데이터 엔지니어"
11
통계 / 머신 러닝
코딩
적용 영역 지식
"데이터 사이언티스트"
12
통계 / 머신 러닝
코딩
적용 영역 지식
"머신러닝 사이언티스트" ("통계학자")
13
통계 / 머신 러닝
코딩
적용 영역 지식
네 직업군의 수요-공급*
14
머신 러닝 사이
언티스트
데이터 엔지니어
데이터 사이언
티스트
데이터 엔지니어
전통 통계학자
수요-공급 불균형의 이유?
"데이터 사이언티스트"로 입사한 똑똑한 이공계분야 신입사
원의 경우:
● 적용분야 지식: 1-3개월+
● 코딩: 6-12개월+
● 통계의 올바른 적용: 1년+
● 고급 모델링과 알고리즘 개발: 보통 석/박사를 뽑는다.
통계학 / 머신러닝이 쉽지 않다
15
16
http://scikit-learn.org/
예측 프로덕션 시스템
어려운 통계
모델 구축 (Build
model)
데이터 사이언티스트(팀)의 하루
자료 추출
(Acquire)
자료 청소
(Clean)
대화형 분석
(Interactive
Analysis)
시각화 분석
(Visual
Analysis)
탐색적 자료 분
석 (EDA)
자료 저장 / 관리
(Store)
자료 랭글링
(Wrangle)
스토리 텔링
(Story-telling)
보고서 쓰기
(Reporting)
엔지니어들과의 협
업
문제 정의
모델 디플로이
(Deploy Model)
모델 모니터
(Monitor model)
비즈니스의 필요
랩장/선임(chief scientist)의 리더쉽
연구원들간의 개방적인 토론
구글 닥을 통한 동기부여(motivation)와 요구사
항 (requirements) 공유
문제 정의
자료 추출
(Acquire)
Hadoop, RDBMS (SQL)
Python (Streaming), Hive ...
코딩 능력이 가장 많이 필요
보통 데이터 사이언티스트들이 자체적으로
해냄
종종 데이터 엔지니어들의 도움
Git 트랙킹 시작
자료 청소
(Clean)
생각보다 많은 시간이 걸림...
Unix + Python + R
스타일 가이드
(pylint, pep 8...)
Git 트랙킹
자료 저장 / 관리
(Store)
자료 랭글링
(Wrangle)
R (가끔 Python)
자료의 문제가 수시로
발견됨
Git 트랙킹
결과는 구글 닥 공유시각화 분석
(Visual
Analysis)
탐색적 자료 분
석 (EDA)
대화형 분석
(Interactive
Analysis)
R
통계 고수의 도움이 필요한
때
베이지안 모델
계층모형 (Hierarchical
model)
어려운 통계
스토리 텔링
(Story-telling)
고품질 작문 (writing)
고품질 시각화 (ggplot2)
구글 닥
팀내 공유 필수
전사 공유 권고
코드 리뷰
Git
보고서 쓰기
(Visual
Analysis)
프로덕션 시스템
모델 구축 (Build
model)
엔지니어들과의 협
업
모델 디플로이
(Deploy Model)
모델 모니터
(Monitor model)
Python (+R)
좀더 엄격한 코드 리뷰
요구사항은 Python Pseudocode로
Git 집중활용 (fork/pull model)
리서치 + 프로덕션 거리를 좁히려 노력
데이터 사이언스 툴채인
● Powerful text editor (Sublime)
● Python
● R / RStudio
● Unix / bash
● Git
● RDBMS (SQL)
● Google App / Slack / JIRA / ...: 개방된 협업
데이터 사이언스 베스트 프랙티스
26
1. 툴 채인 통일 (OSX/Unix, Sublime Editor, RStudio, ...)
2. 스타일 가이드 (R, Python, Bash, Java)
3. 도큐먼트 탬플릿
4. 적극적인 문서 / 코드 공유
5. 코드 리뷰 / 피어 코딩
6. 준-애자일 워크플로우 (Semi-Agile process)
7. 재생가능 연구 (reproducible research)
조금은 심한 개방 / 협업
28https://github.com/WhiteHouse/2016-budget-data https://www.atlassian.com/software/jira
https://www.atlassian.com/software/sourcetree/overviewhttps://www.atlassian.com/git/tutorials/comparing-workflows/gitflow-workflow
데이터 = 신호 + 잡음
y = μ + 𝜀
y = β x + 𝜀
사실 = 진실 + 우연
뉴스 = 역사 + 우연
주식주가 = 가치 + 우연
성공 = 실력 + 우연
통계적 세계관: 신호와 잡음
데이터 = 신호 + 잡음
오버피팅
오차한도 / 신뢰구간
샘플링 에러 ~ 1/sqrt(n)
한계효용 체감의 법칙
탐색적 자료분석 (EDA)
자료는 항상 오염되어 있다
베이지언 기법들 (데이터가 부족한 경우 / 초기화)
계층 모형 (변량이 많은 경우)
데이터 사이언스 필수 통계 개념들
데이터 사이언스의 사내 도입
데이터에 기반한 의사결정 문화가 선행되어야
"솔루션"은 상대적으로 덜 중요
데이터 사이언스 전문 인력 / 팀이 필요
애널리틱과 서비스를 만드는 팀은 보통 분리
통계 내공이 도움이 된다
"데이터 기업"은 데이터 사이언스 인력/팀에 충분한 독립성 부여
엔지니어 팀과의 긴밀한 협업과 소통이 중요
신뢰받는 테크 리더쉽 + 베스트 프랙티스
31
요약
1. 실리콘 벨리 데이터 기업들
2. 온라인 광고 사업
3. 데이터 사이언티스트, 데이터 엔지니어, 머신러닝 사이언티스트
4. 실리콘 벨리 데이터 사이언티스트의 하루
5. 데이터 사이언스 툴채인
6. 데이터 사이언스 베스트 프랙티스
7. 데이터 사이언스 필수 통계 개념
8. 사내 데이터 사이언스 도입
32
Q&A

More Related Content

What's hot

개발을잘하고싶어요-네이버랩스 송기선님
개발을잘하고싶어요-네이버랩스 송기선님개발을잘하고싶어요-네이버랩스 송기선님
개발을잘하고싶어요-네이버랩스 송기선님
NAVER D2
 

What's hot (20)

데이터 분석가는 어떤 SKILLSET을 가져야 하는가? - 데이터 분석가 되기
데이터 분석가는 어떤 SKILLSET을 가져야 하는가?  - 데이터 분석가 되기데이터 분석가는 어떤 SKILLSET을 가져야 하는가?  - 데이터 분석가 되기
데이터 분석가는 어떤 SKILLSET을 가져야 하는가? - 데이터 분석가 되기
 
데이터는 차트가 아니라 돈이 되어야 한다.
데이터는 차트가 아니라 돈이 되어야 한다.데이터는 차트가 아니라 돈이 되어야 한다.
데이터는 차트가 아니라 돈이 되어야 한다.
 
린분석 with 레진코믹스 ( Lean Analytics with Lezhin Comics )
린분석 with 레진코믹스 ( Lean Analytics with Lezhin Comics )린분석 with 레진코믹스 ( Lean Analytics with Lezhin Comics )
린분석 with 레진코믹스 ( Lean Analytics with Lezhin Comics )
 
화성에서 온 개발자, 금성에서 온 기획자
화성에서 온 개발자, 금성에서 온 기획자화성에서 온 개발자, 금성에서 온 기획자
화성에서 온 개발자, 금성에서 온 기획자
 
분석 현장에서 요구되는 데이터과학자의 역량과 자질
분석 현장에서 요구되는 데이터과학자의 역량과 자질분석 현장에서 요구되는 데이터과학자의 역량과 자질
분석 현장에서 요구되는 데이터과학자의 역량과 자질
 
빅데이터, 클라우드, IoT, 머신러닝. 왜 이렇게 많은 것들이 나타날까?
빅데이터, 클라우드, IoT, 머신러닝. 왜 이렇게 많은 것들이 나타날까?빅데이터, 클라우드, IoT, 머신러닝. 왜 이렇게 많은 것들이 나타날까?
빅데이터, 클라우드, IoT, 머신러닝. 왜 이렇게 많은 것들이 나타날까?
 
[우리가 데이터를 쓰는 법] 모바일 게임 로그 데이터 분석 이야기 - 엔터메이트 공신배 팀장
[우리가 데이터를 쓰는 법] 모바일 게임 로그 데이터 분석 이야기 - 엔터메이트 공신배 팀장[우리가 데이터를 쓰는 법] 모바일 게임 로그 데이터 분석 이야기 - 엔터메이트 공신배 팀장
[우리가 데이터를 쓰는 법] 모바일 게임 로그 데이터 분석 이야기 - 엔터메이트 공신배 팀장
 
실전 스타트업 데이터분석: 소셜데이팅 이음은 이렇게 한다
실전 스타트업 데이터분석: 소셜데이팅 이음은 이렇게 한다실전 스타트업 데이터분석: 소셜데이팅 이음은 이렇게 한다
실전 스타트업 데이터분석: 소셜데이팅 이음은 이렇게 한다
 
데이터가 흐르는 조직 만들기 - 마이리얼트립
데이터가 흐르는 조직 만들기 - 마이리얼트립데이터가 흐르는 조직 만들기 - 마이리얼트립
데이터가 흐르는 조직 만들기 - 마이리얼트립
 
그래프에서 대시보드까지, 서비스를 위한 데이터 시각화
그래프에서 대시보드까지, 서비스를 위한 데이터 시각화그래프에서 대시보드까지, 서비스를 위한 데이터 시각화
그래프에서 대시보드까지, 서비스를 위한 데이터 시각화
 
현업 엔지니어의 시각에서 본 알고리즘 공부의 장점과 단점
현업 엔지니어의 시각에서 본 알고리즘 공부의 장점과 단점현업 엔지니어의 시각에서 본 알고리즘 공부의 장점과 단점
현업 엔지니어의 시각에서 본 알고리즘 공부의 장점과 단점
 
boosting 기법 이해 (bagging vs boosting)
boosting 기법 이해 (bagging vs boosting)boosting 기법 이해 (bagging vs boosting)
boosting 기법 이해 (bagging vs boosting)
 
[NDC 발표] 모바일 게임데이터분석 및 실전 활용
[NDC 발표] 모바일 게임데이터분석 및 실전 활용[NDC 발표] 모바일 게임데이터분석 및 실전 활용
[NDC 발표] 모바일 게임데이터분석 및 실전 활용
 
[MLOps KR 행사] MLOps 춘추 전국 시대 정리(210605)
[MLOps KR 행사] MLOps 춘추 전국 시대 정리(210605)[MLOps KR 행사] MLOps 춘추 전국 시대 정리(210605)
[MLOps KR 행사] MLOps 춘추 전국 시대 정리(210605)
 
2011 H3 컨퍼런스-파이썬으로 클라우드 하고 싶어요
2011 H3 컨퍼런스-파이썬으로 클라우드 하고 싶어요2011 H3 컨퍼런스-파이썬으로 클라우드 하고 싶어요
2011 H3 컨퍼런스-파이썬으로 클라우드 하고 싶어요
 
Spark + S3 + R3를 이용한 데이터 분석 시스템 만들기
Spark + S3 + R3를 이용한 데이터 분석 시스템 만들기Spark + S3 + R3를 이용한 데이터 분석 시스템 만들기
Spark + S3 + R3를 이용한 데이터 분석 시스템 만들기
 
How To Become Better Engineer
How To Become Better EngineerHow To Become Better Engineer
How To Become Better Engineer
 
개발을잘하고싶어요-네이버랩스 송기선님
개발을잘하고싶어요-네이버랩스 송기선님개발을잘하고싶어요-네이버랩스 송기선님
개발을잘하고싶어요-네이버랩스 송기선님
 
로그 기깔나게 잘 디자인하는 법
로그 기깔나게 잘 디자인하는 법로그 기깔나게 잘 디자인하는 법
로그 기깔나게 잘 디자인하는 법
 
서비스 기획자를 위한 데이터분석 시작하기
서비스 기획자를 위한 데이터분석 시작하기서비스 기획자를 위한 데이터분석 시작하기
서비스 기획자를 위한 데이터분석 시작하기
 

Viewers also liked

Viewers also liked (11)

Python 오픈소스의 네이밍 특징들-파이콘격월세미나
Python 오픈소스의 네이밍 특징들-파이콘격월세미나Python 오픈소스의 네이밍 특징들-파이콘격월세미나
Python 오픈소스의 네이밍 특징들-파이콘격월세미나
 
ML + 주식 phase 2
ML + 주식  phase 2ML + 주식  phase 2
ML + 주식 phase 2
 
머신러닝 + 주식 삽질기
머신러닝 + 주식 삽질기머신러닝 + 주식 삽질기
머신러닝 + 주식 삽질기
 
세바시15분 게임으로 세상을 바꾸다 - 피터리 놀공발전소 대표
세바시15분 게임으로 세상을 바꾸다 - 피터리 놀공발전소 대표세바시15분 게임으로 세상을 바꾸다 - 피터리 놀공발전소 대표
세바시15분 게임으로 세상을 바꾸다 - 피터리 놀공발전소 대표
 
세바시15분 스마트폰으로부터 아이를 구출하라 - 권장희 놀이미디어교육센터 소장
세바시15분 스마트폰으로부터 아이를 구출하라 - 권장희 놀이미디어교육센터 소장세바시15분 스마트폰으로부터 아이를 구출하라 - 권장희 놀이미디어교육센터 소장
세바시15분 스마트폰으로부터 아이를 구출하라 - 권장희 놀이미디어교육센터 소장
 
Jupyter notebook 이해하기
Jupyter notebook 이해하기 Jupyter notebook 이해하기
Jupyter notebook 이해하기
 
[데이터야놀자2107] 강남 출근길에 판교/정자역에 내릴 사람 예측하기
[데이터야놀자2107] 강남 출근길에 판교/정자역에 내릴 사람 예측하기 [데이터야놀자2107] 강남 출근길에 판교/정자역에 내릴 사람 예측하기
[데이터야놀자2107] 강남 출근길에 판교/정자역에 내릴 사람 예측하기
 
Spring boot 를 적용한 전사모니터링 시스템 backend 개발 사례
Spring boot 를 적용한 전사모니터링 시스템 backend 개발 사례Spring boot 를 적용한 전사모니터링 시스템 backend 개발 사례
Spring boot 를 적용한 전사모니터링 시스템 backend 개발 사례
 
스프링 부트와 로깅
스프링 부트와 로깅스프링 부트와 로깅
스프링 부트와 로깅
 
Spark 의 핵심은 무엇인가? RDD! (RDD paper review)
Spark 의 핵심은 무엇인가? RDD! (RDD paper review)Spark 의 핵심은 무엇인가? RDD! (RDD paper review)
Spark 의 핵심은 무엇인가? RDD! (RDD paper review)
 
중국 VR 보고서 - 2016
중국 VR 보고서 - 2016중국 VR 보고서 - 2016
중국 VR 보고서 - 2016
 

Similar to 실리콘 밸리 데이터 사이언티스트의 하루

AWS Partner Techshift - (SaaS) 사업을 위한 데이터 기반 세일즈/마케팅 전략과 노하우 (트레져데이터 고영혁 수석)
AWS Partner Techshift - (SaaS) 사업을 위한 데이터 기반 세일즈/마케팅 전략과 노하우 (트레져데이터 고영혁 수석)AWS Partner Techshift - (SaaS) 사업을 위한 데이터 기반 세일즈/마케팅 전략과 노하우 (트레져데이터 고영혁 수석)
AWS Partner Techshift - (SaaS) 사업을 위한 데이터 기반 세일즈/마케팅 전략과 노하우 (트레져데이터 고영혁 수석)
Amazon Web Services Korea
 
[Partner TechForum] 고객을 360도로 이해하고 수익으로 연결하는 글로벌 선도 금융 기업들의 데이터 플랫폼 활용 사례
[Partner TechForum] 고객을 360도로 이해하고 수익으로 연결하는 글로벌 선도 금융 기업들의 데이터 플랫폼 활용 사례[Partner TechForum] 고객을 360도로 이해하고 수익으로 연결하는 글로벌 선도 금융 기업들의 데이터 플랫폼 활용 사례
[Partner TechForum] 고객을 360도로 이해하고 수익으로 연결하는 글로벌 선도 금융 기업들의 데이터 플랫폼 활용 사례
Amazon Web Services Korea
 
빅 데이터 환경의 고급 분석 기법과 지원 기술 동향 (Advanced Analytics and Technologies for Big Data)
빅 데이터 환경의 고급 분석 기법과 지원 기술 동향 (Advanced Analytics and Technologies for Big Data)빅 데이터 환경의 고급 분석 기법과 지원 기술 동향 (Advanced Analytics and Technologies for Big Data)
빅 데이터 환경의 고급 분석 기법과 지원 기술 동향 (Advanced Analytics and Technologies for Big Data)
Myungjin Lee
 

Similar to 실리콘 밸리 데이터 사이언티스트의 하루 (20)

AWS Partner Techshift - (SaaS) 사업을 위한 데이터 기반 세일즈/마케팅 전략과 노하우 (트레져데이터 고영혁 수석)
AWS Partner Techshift - (SaaS) 사업을 위한 데이터 기반 세일즈/마케팅 전략과 노하우 (트레져데이터 고영혁 수석)AWS Partner Techshift - (SaaS) 사업을 위한 데이터 기반 세일즈/마케팅 전략과 노하우 (트레져데이터 고영혁 수석)
AWS Partner Techshift - (SaaS) 사업을 위한 데이터 기반 세일즈/마케팅 전략과 노하우 (트레져데이터 고영혁 수석)
 
[DDC 2018] Metatron 오픈소스화 및 생태계 구축 (SKT 이정룡, 김지호)
[DDC 2018] Metatron 오픈소스화 및 생태계 구축 (SKT 이정룡, 김지호)[DDC 2018] Metatron 오픈소스화 및 생태계 구축 (SKT 이정룡, 김지호)
[DDC 2018] Metatron 오픈소스화 및 생태계 구축 (SKT 이정룡, 김지호)
 
데이터드리븐 DX 추진방안_202306.pdf
데이터드리븐 DX 추진방안_202306.pdf데이터드리븐 DX 추진방안_202306.pdf
데이터드리븐 DX 추진방안_202306.pdf
 
Case Study를 통해 본 데이터사이언스 협업 플랫폼의 필요성 (옥주영 컨설턴트, Hancom MDS) :: AWS Techforum ...
Case Study를 통해 본 데이터사이언스 협업 플랫폼의 필요성 (옥주영 컨설턴트, Hancom MDS) :: AWS Techforum ...Case Study를 통해 본 데이터사이언스 협업 플랫폼의 필요성 (옥주영 컨설턴트, Hancom MDS) :: AWS Techforum ...
Case Study를 통해 본 데이터사이언스 협업 플랫폼의 필요성 (옥주영 컨설턴트, Hancom MDS) :: AWS Techforum ...
 
2019.06 devgroud kurly-advanced analyticsteam-aboutourdataculture
2019.06 devgroud kurly-advanced analyticsteam-aboutourdataculture2019.06 devgroud kurly-advanced analyticsteam-aboutourdataculture
2019.06 devgroud kurly-advanced analyticsteam-aboutourdataculture
 
[Ankus Open Source Conference 2013] Introduction to Ankus / data mining
[Ankus Open Source Conference 2013] Introduction to Ankus / data mining [Ankus Open Source Conference 2013] Introduction to Ankus / data mining
[Ankus Open Source Conference 2013] Introduction to Ankus / data mining
 
[2A7]Linkedin'sDataScienceWhyIsItScience
[2A7]Linkedin'sDataScienceWhyIsItScience[2A7]Linkedin'sDataScienceWhyIsItScience
[2A7]Linkedin'sDataScienceWhyIsItScience
 
AWS기반 서버리스 데이터레이크 구축하기 - 김진웅 (SK C&C) :: AWS Community Day 2020
AWS기반 서버리스 데이터레이크 구축하기 - 김진웅 (SK C&C) :: AWS Community Day 2020AWS기반 서버리스 데이터레이크 구축하기 - 김진웅 (SK C&C) :: AWS Community Day 2020
AWS기반 서버리스 데이터레이크 구축하기 - 김진웅 (SK C&C) :: AWS Community Day 2020
 
AWS기반 서버리스 데이터레이크 구축하기 - 김진웅 (SK C&C) :: AWS Community Day 2020
AWS기반 서버리스 데이터레이크 구축하기 - 김진웅 (SK C&C) :: AWS Community Day 2020 AWS기반 서버리스 데이터레이크 구축하기 - 김진웅 (SK C&C) :: AWS Community Day 2020
AWS기반 서버리스 데이터레이크 구축하기 - 김진웅 (SK C&C) :: AWS Community Day 2020
 
[2016 데이터 그랜드 컨퍼런스] 1 3. bk3(엔코아)데이터그랜드컨퍼런스 4차산업혁명의 핵심-데이터경제-엔코아
[2016 데이터 그랜드 컨퍼런스] 1 3. bk3(엔코아)데이터그랜드컨퍼런스 4차산업혁명의 핵심-데이터경제-엔코아[2016 데이터 그랜드 컨퍼런스] 1 3. bk3(엔코아)데이터그랜드컨퍼런스 4차산업혁명의 핵심-데이터경제-엔코아
[2016 데이터 그랜드 컨퍼런스] 1 3. bk3(엔코아)데이터그랜드컨퍼런스 4차산업혁명의 핵심-데이터경제-엔코아
 
발표자료 4차 산업혁명 시대를 선도하는 스타트업분석 동우상_170720_v1.2
발표자료 4차 산업혁명 시대를 선도하는 스타트업분석 동우상_170720_v1.2발표자료 4차 산업혁명 시대를 선도하는 스타트업분석 동우상_170720_v1.2
발표자료 4차 산업혁명 시대를 선도하는 스타트업분석 동우상_170720_v1.2
 
빅데이터 윈윈 컨퍼런스-4차 산업혁명 핵심:데이터 가공 플랫폼
빅데이터 윈윈 컨퍼런스-4차 산업혁명 핵심:데이터 가공 플랫폼빅데이터 윈윈 컨퍼런스-4차 산업혁명 핵심:데이터 가공 플랫폼
빅데이터 윈윈 컨퍼런스-4차 산업혁명 핵심:데이터 가공 플랫폼
 
글로벌 사례로 보는 데이터로 돈 버는 법 - 트레저데이터 (Treasure Data)
글로벌 사례로 보는 데이터로 돈 버는 법 - 트레저데이터 (Treasure Data)글로벌 사례로 보는 데이터로 돈 버는 법 - 트레저데이터 (Treasure Data)
글로벌 사례로 보는 데이터로 돈 버는 법 - 트레저데이터 (Treasure Data)
 
[Partner TechForum] 고객을 360도로 이해하고 수익으로 연결하는 글로벌 선도 금융 기업들의 데이터 플랫폼 활용 사례
[Partner TechForum] 고객을 360도로 이해하고 수익으로 연결하는 글로벌 선도 금융 기업들의 데이터 플랫폼 활용 사례[Partner TechForum] 고객을 360도로 이해하고 수익으로 연결하는 글로벌 선도 금융 기업들의 데이터 플랫폼 활용 사례
[Partner TechForum] 고객을 360도로 이해하고 수익으로 연결하는 글로벌 선도 금융 기업들의 데이터 플랫폼 활용 사례
 
데이터 가공(DMP)와 스마트 시티 - 엔코아 김옥기 센터장
데이터 가공(DMP)와 스마트 시티 - 엔코아 김옥기 센터장데이터 가공(DMP)와 스마트 시티 - 엔코아 김옥기 센터장
데이터 가공(DMP)와 스마트 시티 - 엔코아 김옥기 센터장
 
[코세나, kosena] 빅데이터 구축 및 제안 가이드
[코세나, kosena] 빅데이터 구축 및 제안 가이드[코세나, kosena] 빅데이터 구축 및 제안 가이드
[코세나, kosena] 빅데이터 구축 및 제안 가이드
 
학습분석(Learning Analytics) 활용 가능성 및 전망
학습분석(Learning Analytics) 활용 가능성 및 전망학습분석(Learning Analytics) 활용 가능성 및 전망
학습분석(Learning Analytics) 활용 가능성 및 전망
 
빅 데이터 환경의 고급 분석 기법과 지원 기술 동향 (Advanced Analytics and Technologies for Big Data)
빅 데이터 환경의 고급 분석 기법과 지원 기술 동향 (Advanced Analytics and Technologies for Big Data)빅 데이터 환경의 고급 분석 기법과 지원 기술 동향 (Advanced Analytics and Technologies for Big Data)
빅 데이터 환경의 고급 분석 기법과 지원 기술 동향 (Advanced Analytics and Technologies for Big Data)
 
링크브릭스 2019
링크브릭스 2019링크브릭스 2019
링크브릭스 2019
 
Week1 ot
Week1 otWeek1 ot
Week1 ot
 

More from Jaimie Kwon (권재명)

데이터분석의 길 3 “r 워크플로우 (스토리텔링)”
데이터분석의 길 3   “r 워크플로우 (스토리텔링)”데이터분석의 길 3   “r 워크플로우 (스토리텔링)”
데이터분석의 길 3 “r 워크플로우 (스토리텔링)”
Jaimie Kwon (권재명)
 

More from Jaimie Kwon (권재명) (6)

효율적 데이터 과학을 위한 7가지 팁
효율적 데이터 과학을 위한 7가지 팁효율적 데이터 과학을 위한 7가지 팁
효율적 데이터 과학을 위한 7가지 팁
 
데이터분석의 길 5: “고수는 큰자료를 두려워하지 않는다” (클릭확률예측 상편)
데이터분석의 길 5:  “고수는 큰자료를 두려워하지 않는다” (클릭확률예측 상편)데이터분석의 길 5:  “고수는 큰자료를 두려워하지 않는다” (클릭확률예측 상편)
데이터분석의 길 5: “고수는 큰자료를 두려워하지 않는다” (클릭확률예측 상편)
 
데이터분석의 길 4: “고수는 통계학습의 달인이다”
데이터분석의 길 4:  “고수는 통계학습의 달인이다”데이터분석의 길 4:  “고수는 통계학습의 달인이다”
데이터분석의 길 4: “고수는 통계학습의 달인이다”
 
데이터분석의 길 3 “r 워크플로우 (스토리텔링)”
데이터분석의 길 3   “r 워크플로우 (스토리텔링)”데이터분석의 길 3   “r 워크플로우 (스토리텔링)”
데이터분석의 길 3 “r 워크플로우 (스토리텔링)”
 
데이터분석의 길 2: “고수는 최고의 연장을 사용한다” (툴채인)
데이터분석의 길 2:  “고수는 최고의 연장을 사용한다” (툴채인)데이터분석의 길 2:  “고수는 최고의 연장을 사용한다” (툴채인)
데이터분석의 길 2: “고수는 최고의 연장을 사용한다” (툴채인)
 
데이터 분석의 길 1. “고수는 생선 잡는 법을 알고있다” (검색과 영어)
데이터 분석의 길 1. “고수는 생선 잡는 법을 알고있다” (검색과 영어)데이터 분석의 길 1. “고수는 생선 잡는 법을 알고있다” (검색과 영어)
데이터 분석의 길 1. “고수는 생선 잡는 법을 알고있다” (검색과 영어)
 

실리콘 밸리 데이터 사이언티스트의 하루

  • 2. 권재명 ● 통계학자 o "빅데이터" + 머신 러닝 + 데이터 사이언스 ● 경력 o Berkeley Transportation Systems (2000~2007): 대용량 교통 데이터 o Wichorus (2009): 와이파이 데이터 모델링 o AOL Platforms (2009-): 온라인 광고 데이터 o Percolata* (2015): 리테일 애널리틱 데이터 o Molocoads.com* (2015): 모빌 DSP (* : 자문 / 투자) 2
  • 3. 실리콘 밸리 "데이터" 기업들 서비스 (검색, 추천, 뉴스, ...) 사용자 클릭, 구매, " 좋아요", ... 알고리즘 / 서 비스 개선 사용 데이터 서비스 이용 3 서비스 - 사용자 - 데 이터 선순환 (positive feedback) 데이터보다 성공적 인 서비스가 선행
  • 4. 광고 알고리즘 온라인 광고 사용자 (3rd party) 광고 클릭 / 구 매 광고 알고리즘 개선 클릭 / 구매 데이터 온라인 광고 노출 4 빅데이터 / 데이터 사이언스 대 표 분야 하루에 몇조개의 관측치 생성 수백-수천개의 변량을 이용한 클릭/구매 예측모형 0.001초 내로 "클릭 확률 예측"
  • 6. "빅데이터" 웹서버 로그. 검색엔진 문서 자료/인덱스. 온라인 광고 로그. 소셜 네트웍 로그. 교통자료. 과학 자료. 의료자료. 센서 자료. 사물인터넷... 컴한대로 저장/처리 불가 → 분산 기존 소프트웨어로 처리 불가 → 하둡+ 수집 / 저장 / 처리 / 분석 / 예측 하둡과 아마존 웹 서비스 (AWS) 로 코모디티 화 완료 6
  • 8. 서비스-사용자-데이터 선순환 "간단한" 통계분석 애널리틱 리포팅 "복잡한" 통계 머신러닝 코어 알고리즘 개발 8 "데이터 인력" 데이터 인프라 온디매드 클라우드 컴퓨팅 오픈 소스 빅데이터 소프트웨어 (Hadoop) 데이터 엔 지니어 데이터 사이언 티스트 머신러닝 사이 언티스트 * 링크드인의 2014 구조조정
  • 9. 통계 / 머신 러닝 코딩 적용 영역 지식 데이터 사이언스 9 통계 / 머신 러닝 코딩 적용 영역 지 식
  • 10. 전통적인 통계학자 10 통계 / 머신 러닝 코딩 적용 영역 지식
  • 11. "데이터 엔지니어" 11 통계 / 머신 러닝 코딩 적용 영역 지식
  • 12. "데이터 사이언티스트" 12 통계 / 머신 러닝 코딩 적용 영역 지식
  • 13. "머신러닝 사이언티스트" ("통계학자") 13 통계 / 머신 러닝 코딩 적용 영역 지식
  • 14. 네 직업군의 수요-공급* 14 머신 러닝 사이 언티스트 데이터 엔지니어 데이터 사이언 티스트 데이터 엔지니어 전통 통계학자
  • 15. 수요-공급 불균형의 이유? "데이터 사이언티스트"로 입사한 똑똑한 이공계분야 신입사 원의 경우: ● 적용분야 지식: 1-3개월+ ● 코딩: 6-12개월+ ● 통계의 올바른 적용: 1년+ ● 고급 모델링과 알고리즘 개발: 보통 석/박사를 뽑는다. 통계학 / 머신러닝이 쉽지 않다 15
  • 17. 예측 프로덕션 시스템 어려운 통계 모델 구축 (Build model) 데이터 사이언티스트(팀)의 하루 자료 추출 (Acquire) 자료 청소 (Clean) 대화형 분석 (Interactive Analysis) 시각화 분석 (Visual Analysis) 탐색적 자료 분 석 (EDA) 자료 저장 / 관리 (Store) 자료 랭글링 (Wrangle) 스토리 텔링 (Story-telling) 보고서 쓰기 (Reporting) 엔지니어들과의 협 업 문제 정의 모델 디플로이 (Deploy Model) 모델 모니터 (Monitor model)
  • 18. 비즈니스의 필요 랩장/선임(chief scientist)의 리더쉽 연구원들간의 개방적인 토론 구글 닥을 통한 동기부여(motivation)와 요구사 항 (requirements) 공유 문제 정의
  • 19. 자료 추출 (Acquire) Hadoop, RDBMS (SQL) Python (Streaming), Hive ... 코딩 능력이 가장 많이 필요 보통 데이터 사이언티스트들이 자체적으로 해냄 종종 데이터 엔지니어들의 도움 Git 트랙킹 시작
  • 20. 자료 청소 (Clean) 생각보다 많은 시간이 걸림... Unix + Python + R 스타일 가이드 (pylint, pep 8...) Git 트랙킹 자료 저장 / 관리 (Store) 자료 랭글링 (Wrangle)
  • 21. R (가끔 Python) 자료의 문제가 수시로 발견됨 Git 트랙킹 결과는 구글 닥 공유시각화 분석 (Visual Analysis) 탐색적 자료 분 석 (EDA) 대화형 분석 (Interactive Analysis)
  • 22. R 통계 고수의 도움이 필요한 때 베이지안 모델 계층모형 (Hierarchical model) 어려운 통계
  • 23. 스토리 텔링 (Story-telling) 고품질 작문 (writing) 고품질 시각화 (ggplot2) 구글 닥 팀내 공유 필수 전사 공유 권고 코드 리뷰 Git 보고서 쓰기 (Visual Analysis)
  • 24. 프로덕션 시스템 모델 구축 (Build model) 엔지니어들과의 협 업 모델 디플로이 (Deploy Model) 모델 모니터 (Monitor model) Python (+R) 좀더 엄격한 코드 리뷰 요구사항은 Python Pseudocode로 Git 집중활용 (fork/pull model) 리서치 + 프로덕션 거리를 좁히려 노력
  • 25. 데이터 사이언스 툴채인 ● Powerful text editor (Sublime) ● Python ● R / RStudio ● Unix / bash ● Git ● RDBMS (SQL) ● Google App / Slack / JIRA / ...: 개방된 협업
  • 26. 데이터 사이언스 베스트 프랙티스 26 1. 툴 채인 통일 (OSX/Unix, Sublime Editor, RStudio, ...) 2. 스타일 가이드 (R, Python, Bash, Java) 3. 도큐먼트 탬플릿 4. 적극적인 문서 / 코드 공유 5. 코드 리뷰 / 피어 코딩 6. 준-애자일 워크플로우 (Semi-Agile process) 7. 재생가능 연구 (reproducible research) 조금은 심한 개방 / 협업
  • 27.
  • 29. 데이터 = 신호 + 잡음 y = μ + 𝜀 y = β x + 𝜀 사실 = 진실 + 우연 뉴스 = 역사 + 우연 주식주가 = 가치 + 우연 성공 = 실력 + 우연 통계적 세계관: 신호와 잡음
  • 30. 데이터 = 신호 + 잡음 오버피팅 오차한도 / 신뢰구간 샘플링 에러 ~ 1/sqrt(n) 한계효용 체감의 법칙 탐색적 자료분석 (EDA) 자료는 항상 오염되어 있다 베이지언 기법들 (데이터가 부족한 경우 / 초기화) 계층 모형 (변량이 많은 경우) 데이터 사이언스 필수 통계 개념들
  • 31. 데이터 사이언스의 사내 도입 데이터에 기반한 의사결정 문화가 선행되어야 "솔루션"은 상대적으로 덜 중요 데이터 사이언스 전문 인력 / 팀이 필요 애널리틱과 서비스를 만드는 팀은 보통 분리 통계 내공이 도움이 된다 "데이터 기업"은 데이터 사이언스 인력/팀에 충분한 독립성 부여 엔지니어 팀과의 긴밀한 협업과 소통이 중요 신뢰받는 테크 리더쉽 + 베스트 프랙티스 31
  • 32. 요약 1. 실리콘 벨리 데이터 기업들 2. 온라인 광고 사업 3. 데이터 사이언티스트, 데이터 엔지니어, 머신러닝 사이언티스트 4. 실리콘 벨리 데이터 사이언티스트의 하루 5. 데이터 사이언스 툴채인 6. 데이터 사이언스 베스트 프랙티스 7. 데이터 사이언스 필수 통계 개념 8. 사내 데이터 사이언스 도입 32
  • 33. Q&A