[2A7]Linkedin'sDataScienceWhyIsItScience

Data Science – 왜 ‘과학’ 인가?
김형진(Evion Kim)

가상의 그분의 대사
유저 로그 데이터도 전부 모으고 있고,
하둡 클러스터도 다 구축 했습니다.
이제 빅데이터로 뭐 그럴듯 한 거 하기만 하면 됩니다.
-어떤 데이터 팀 팀장
http://www.resumeexamplesweb.com/images/combination-resume.jpg

뭐 그럴 듯 한거 뭐, 어떻게 하실건가요?
What, How

본 발표는 공개되어있는 링크드인의 연구/발표자료등을 토대로 만들어졌습니다.
하지만 발표에서 제시되는 의견들은 저 개인의 것이며, 링크드인의 공식적인 입장과는 상이할 수 있습니다.

오늘의 발표
1. Big Data의 3요소 + 2목표
2. Data Science란?
3. Data Science @ Linkedin
- Data Product: People You May Know
- Data Analytics: Skills
4.결론

빅데이터의 정의
인터넷을 사용하는 사람들에 의해 발생하는 굉장히 큰 데이터 셋을 지칭하며
특별한 툴과 방법론을 이용해서만 저장,이해 및 사용 될 수 있다
– 캠브리지 사전

+ 빅데이터의 – 3 요소와 2 목표
툴
3 요소 2 목표
큰 데이터
셋
이해:
Data Analytics
방법론 사용:
Data Products
http://icons.iconarchive.com/icons/icons8/ios7/128/Data-Mind-Map-icon.png, http://www.clker.com/clipart-white-tool-box.html, http://www.publicdomainpictures.net/pictures/40000/nahled/question-mark.jpg,
http://www.flaticon.com/free-icon/data-analytics-graphic-on-a-presentation-screen_38897,
https://www.iconfinder.com/icons/198841/box_bundle_cargo_freight_gift_load_loading_package_parcel_product_icon

+ 목표 1. 이해 – Data Analytics
기존 데이터를 분석하여 새로운 인사이트를 찾아내는 것
http://en.wikipedia.org/wiki/File:Google_Analytics_Sample_Dashboard.jpg

+ 목표 2. 사용 – Data Product
추천, 검색, 개인화 등 사용자에게 보여지는 제품에 데이터를 기반으로
한 알고리즘이 깊이 녹아들어가 있는 제품.
데이터를 통해 유저의 만족을 극대화하는 것이 목표.

+ 요소 1. 굉장히 큰 데이터 set
인류문명이 시작된 이래 2003년까지 만들어진 데이터양은 통틀어
5엑사바이트에 불과했습니다. 지금은 이틀마다 그만큼씩의 데이터가 새로
추가되고 있으며, 이 속도는 점점 빨라지고 있습니다. –에릭 슈미트, Technomy
2010
기회&도전
http://en.wikipedia.org/wiki/File:Google_Analytics_Sample_Dashboard.jpg

+ 요소 3. 방법론
빅데이터를 다룰 수 있는 새로운 방법론의 필요

가상의 그분의 대사 – version 2
이제 빅데이터를 분석도 하고, 데이터 프로덕트도 만들고자 합니다.

남은 질문: 어떻게 하실건가요??
How

Missing
Piece
방법론
http://static.wixstatic.com/media/779878_d6071e23f5a2fab184116f2fda8e9a6f.jpg_srz_p_398_181_75_22_0.50_1.20_0.00_jpg_srz

+ 데이터 사이언스란?
데이터
사이언스
방법론
hhttp://www.iconpng.com/icon/58699

Data Science 는 데이터로부터 일반화 가능한 지식을 추출하는
학문으로써, 키워드는 “Science”이다. Data Science는 signal
processing, mathematics, probability models, machine learning,
statistical learning, computer programming, data engineering, pattern
recognition and learning, visualization, uncertainty modeling, data
warehousing, and high performance computing 등 다양한 분야의
학문을 접목시켜서, 데이터로부터 의미를 추출하거나 데이터
프로덕트를 만드는 것을 목표로 한다. …
-en.wikipedia.org, “data science”

http://www.jumpgate.io/assets/img/datascience.jpg

툴
3 요소 2 목표
큰 데이터
셋
이해:
Data Analytics
방법론 사용:
Data Products

툴
3 요소 2 목표
큰 데이터
셋
이해:
Data Analytics
사용:
Data Products
데이터
사이언스

+ 왜 과학인가?
과학적 방법론을 사용하기 때문
가설 설정:
Hypothesis
모델 수립:
Model
실험:
A/B Testing
입증 / 반증

+ 과학적 방법론: 가설 설정 / 모델 수립
유저의 행동을 잘 설명할 수 있는 가설을 설정:
한국인일수록 LOL 실력이 좋다?
코딩을 한 기간이 길수록 연봉이 높다?
가설을 바탕으로 수학적 모델을 수립:
P(LOL 플래티넘 랭크) = 0.5 + if(한국인 == true) 0.2, else -0.2
연봉 = 평균 연봉 * (1 + (코딩 한 년수 / 100년))

+ 과학적 방법론: 실험 – A/B Testing
서로 다른 모델을 통해 만들어진 결과물을 서로 다른 유저 그룹에게
동시에 보여주며 반응을 측정.
변인통제가 중요 – 실험하고자 하는 모델의 결과물(조작변인) 이외에
다른 변인들은 일치해야한다. => 랜덤하게 유저 그룹을 선택
http://cartytrax.com/split-testing-for-e-commerce

버락 오바마 미국 대통령의 선거 캠페인

A/B/C/D/E/F …… Testing?
야후의 CEO 마리사 메이어는 구글 재직 시절 여러가지로 유명하지만,
“40 shades of blue” 는 그녀의 성향을 특히 더 잘 설명합니다. Google
Mail 과 Google page에서 보여지는 파란색을 결정하기 위해서, 그녀는
서로 다른 음영의 40가지의 파란색이 각각 2.5%의 사용자에게 보여지게
하였습니다.가장 많은 클릭을 받은 파란색이 여러분들이 오늘날 Google
과 Google Mail에서 보는 파란색입니다. - http://www.theguardian.com/
http://commons.wikimedia.org/wiki/File:Color_gradient_map_(blue)_palette.png

+ 과학적 방법론: 입증/반증
입증된 모델의 경우:
가설을 받아들임 and 데이터 프로덕트에 적용
반증된 모델의 경우:
가설/모델/실험 단계에서 잘못된 점을 검토

+ LinkedIn: 프로페셔널 소셜 네트워크
3억 1천 3백만 사용자

+ 링크드인의 데이터 프로덕트들
People You May Know – 친구 추천

Skills and Endorsements – 누구의 어떤 스킬을 승인(like)할 것인가?

Jobs You May be Interested In – 어떤 새 직장에 관심이 있을 것인가?
News Recommendation – 어떤 뉴스를 읽고 싶은가?
Feed – 유저가 관심가질만한 정보로 이루어진 메인 페이지

+ 특징 1. Big Data Ecosystem
하둡 클러스터 Key/Value Storage
유저 인터랙션 데이터

+ 특징 2. 오픈소스의 활용
Apache Hadoop: 분산 처리 시스템
Apache Kafka: 분산 메세징 시스템
Azkaban: 웹 기반 하둡 scheduler
Voldemort: Key/Value Storage
Apache Pig: 하둡 쿼리 언어
DataFu: 피그용 UDF 모음

+ 특징 3. Encapsulation
시스템에 대해 잘 모르는 데이터 사이언티스트가 Recommendation
Algorithm을 만들고 싶다면?
Analytics/Modeling Layer
R, Linkedin’s Azkaban(Hadoop workflow management),
Apache Pig, LinkedIn’s DataFu
Infrastructure Layer
Hadoop, LinkedIn’s Voldemort(Key/Value storage)
데이터 모델링, 분석 레벨의 지식과
인프라스트럭쳐 레벨의 지식이 분리됨.

+ People You May Know (PYMK)
39

+ People You May Know?
소셜 네트워크 그래프 상에서의 Link Prediction 문제
?

+ People You May Know - HowTo
1. 기존의 유저 데이터를 활용, 머신 러닝 모델을 Train
Model Training
http://www.vorterix.com/malditosnerds/notas/4918/los-creadores-de-siri-preparan-algo-especial.html

2. Hadoop Flow 를 통해, 추천 데이터 생성

3. 유저에게 추천.

4. 새로운 데이터 생성
? !

+ PYMK – 2008 vs 2014
2008 2014
 3천만 유저
 Single node fully offline (Oracle) then
MPP database
 3억 유저
 Distributed offline (Hadoop) w/ online
adjustments

+ PYMK 새 input 추가: 조직 오버랩
어떤 두 링크드인 유저가 같은 회사, 같은 학교에 함께 있었던 기간을
People You May Know에 활용 할 수 있을까?
Can we compute edge affinity based on organizational overlap?

+ People You May Know 조직 오버랩: 과학적 방법론
가설 설정:
Hypothesis
모델 수립:
Model
실험:
A/B Testing
입증 / 반증

+ 조직 오버랩 : 가설 설정
가설 1. 시간
같은 직장/학교에 함께 있었던 시간이 길수록, 서로 알 확률이 높을
것이다.

+ 조직 오버랩 : 가설 설정
가설 2. 조직의 크기
직장/학교가 클 수록, 서로 알 확률은 낮아질 것이다

+ 조직 오버랩 : 모델 수립
모델 1. 시간
t시간동안 함께 한 회사에 있었던 유저 둘이 서로를 알 확률:
P(t) = μ(1 - e-λt)
=> 함께 조직에 있었던 시간 t가 길어질수록, 서로 알 확률이 높아진다

+ 조직 오버랩 : 모델 수립
모델 2. 조직의 크기
λ: 각 조직별로 달라지는 변수. 조직의 크기(|S|)에 따라 달라짐:
log(λ) = -0.8 log (|S|)
=> 조직의 크기가 클수록 서로 알 확률이 낮아진다

+ 조직 오버랩 : 실험
A/B Testing
기존 모델 vs. 조직 오버랩을 활용한 모델
어떤 모델이 유저들에게 더 반응이 좋은가?
A 그룹: 기존
모델
B 그룹: 기존 모델 + 조직 오버랩
More Clicks!

+ 조직 오버랩: 입증/반증
입증!

가설 : 실리콘 밸리에 쿨한 회사는 모두 북쪽에, 지루한 회사는 모두
남쪽에 있다?
San Francisco
Mountain View
San
Jose
Redwood City

진짜 가설 : 실리콘 밸리의 회사 분포는, Network OSI 7 layer를 닮았다.
San Francisco
Mountain View
San
Jose
Redwood City

모델 수립 / 실험
1.실리콘 밸리를 남~북 순으로 네개의 지역으로 나눔
2.각 지역별로 IT회사들을 정리
3.회사 직원들의 링크드인 프로필상 스킬을 모음
4.각 지역별로 가장 빈번히 보이는 스킬들은, 북쪽 지역일수록
Application layer, 남쪽 지역일수록 Physical layer의 스킬 일 것이다.

San Francisco
San Jose
Redwood City
Mountain View
Application
Presentation
Network &
Transport
Data Link &
Physical

가상의 그분의 대사 - Before

가상의 그분의 대사 - After
이제 데이터에 대한 가설을 설정하고 이를 입/반증하는 과정을 통해서,
로그 데이터 분석을 통해 사용자에 대한 이해도를 높이고
사용자들에게 더 좋은 반응을 이끌어 낼 수 있는 데이터 프로덕트를
만들고자 합니다.

+ 결론(1) 빅데이터의 3 요소와 2 목표
툴
3 요소 2 목표
큰 데이터
셋
이해:
Data Analytics
사용:
Data Products
방법론

+ 결론(2): 데이터 사이언스 = 과학
과학적 방법론을 사용하기 때문
가설 설정:
Hypothesis
모델 수립:
Model
실험:
A/B Testing
입증 / 반증

+ 그렇다면 무엇을 해야하나
1. 가설 설정은 인간의 몫임을 잊지 말라
http://www.portaloko.hr/slika/76532/0/800/69/576/1046/0/terminator.jpg

2. 데이터 프로덕트는 수많은 앱/사이트의 곳곳에 숨어있다.

3. 기존의 통계적 방법론을 공부하라
http://image.kyobobook.co.kr/images/book/large/231/l9788988399231.jpg

4. 끊임없이 삽질해보라
http://cfile10.uf.tistory.com/image/146891404E0BC492379C1C

[2A7]Linkedin'sDataScienceWhyIsItScience

More Related Content

What's hot

Viewers also liked

Similar to [2A7]Linkedin'sDataScienceWhyIsItScience

More from NAVER D2

[2A7]Linkedin'sDataScienceWhyIsItScience

Editor's Notes