Data Science – 왜 ‘과학’ 인가? 
김형진(Evion Kim)
가상의 그분의 대사 
유저 로그 데이터도 전부 모으고 있고, 
하둡 클러스터도 다 구축 했습니다. 
이제 빅데이터로 뭐 그럴듯 한 거 하기만 하면 됩니다. 
-어떤 데이터 팀 팀장 
http://www.resumeexamplesweb.com/images/combination-resume.jpg
가상의 그분의 대사 
유저 로그 데이터도 전부 모으고 있고, 
하둡 클러스터도 다 구축 했습니다. 
이제 빅데이터로 뭐 그럴듯 한 거 하기만 하면 됩니다. 
-어떤 데이터 팀 팀장
뭐 그럴 듯 한거 뭐, 어떻게 하실건가요? 
What, How
본 발표는 공개되어있는 링크드인의 연구/발표자료등을 토대로 만들어졌습니다. 
하지만 발표에서 제시되는 의견들은 저 개인의 것이며, 링크드인의 공식적인 입장과는 상이할 수 있습니다.
오늘의 발표 
1. Big Data의 3요소 + 2목표 
2. Data Science란? 
3. Data Science @ Linkedin 
- Data Product: People You May Know 
- Data Analytics: Skills 
4.결론
빅데이터의 정의 
인터넷을 사용하는 사람들에 의해 발생하는 굉장히 큰 데이터 셋을 지칭하며 
특별한 툴과 방법론을 이용해서만 저장,이해 및 사용 될 수 있다 
– 캠브리지 사전
+ 빅데이터의 – 3 요소와 2 목표 
툴 
3 요소 2 목표 
큰 데이터 
셋 
이해: 
Data Analytics 
방법론 사용: 
Data Products 
http://icons.iconarchive.com/icons/icons8/ios7/128/Data-Mind-Map-icon.png, http://www.clker.com/clipart-white-tool-box.html, http://www.publicdomainpictures.net/pictures/40000/nahled/question-mark.jpg, 
http://www.flaticon.com/free-icon/data-analytics-graphic-on-a-presentation-screen_38897, 
https://www.iconfinder.com/icons/198841/box_bundle_cargo_freight_gift_load_loading_package_parcel_product_icon
+ 목표 1. 이해 – Data Analytics 
기존 데이터를 분석하여 새로운 인사이트를 찾아내는 것 
http://en.wikipedia.org/wiki/File:Google_Analytics_Sample_Dashboard.jpg
+ 목표 2. 사용 – Data Product 
추천, 검색, 개인화 등 사용자에게 보여지는 제품에 데이터를 기반으로 
한 알고리즘이 깊이 녹아들어가 있는 제품. 
데이터를 통해 유저의 만족을 극대화하는 것이 목표.
+ 요소 1. 굉장히 큰 데이터 set 
인류문명이 시작된 이래 2003년까지 만들어진 데이터양은 통틀어 
5엑사바이트에 불과했습니다. 지금은 이틀마다 그만큼씩의 데이터가 새로 
추가되고 있으며, 이 속도는 점점 빨라지고 있습니다. –에릭 슈미트, Technomy 
2010 
기회&도전 
http://en.wikipedia.org/wiki/File:Google_Analytics_Sample_Dashboard.jpg
+ 요소 2. 툴
+ 요소 3. 방법론 
빅데이터를 다룰 수 있는 새로운 방법론의 필요
가상의 그분의 대사 
유저 로그 데이터도 전부 모으고 있고, 
하둡 클러스터도 다 구축 했습니다. 
이제 빅데이터로 뭐 그럴듯 한 거 하기만 하면 됩니다.
가상의 그분의 대사 – version 2 
유저 로그 데이터도 전부 모으고 있고, 
하둡 클러스터도 다 구축 했습니다. 
이제 빅데이터를 분석도 하고, 데이터 프로덕트도 만들고자 합니다.
남은 질문: 어떻게 하실건가요?? 
How
Missing 
Piece 
방법론 
http://static.wixstatic.com/media/779878_d6071e23f5a2fab184116f2fda8e9a6f.jpg_srz_p_398_181_75_22_0.50_1.20_0.00_jpg_srz
오늘의 발표 
1. Big Data의 3요소 + 2목표 
2. Data Science란? 
3. Data Science @ Linkedin 
- Data Product: People You May Know 
- Data Analytics: Skills 
4.결론
+ 데이터 사이언스란? 
데이터 
사이언스 
방법론 
hhttp://www.iconpng.com/icon/58699
+ 데이터 사이언스란? 
Data Science 는 데이터로부터 일반화 가능한 지식을 추출하는 
학문으로써, 키워드는 “Science”이다. Data Science는 signal 
processing, mathematics, probability models, machine learning, 
statistical learning, computer programming, data engineering, pattern 
recognition and learning, visualization, uncertainty modeling, data 
warehousing, and high performance computing 등 다양한 분야의 
학문을 접목시켜서, 데이터로부터 의미를 추출하거나 데이터 
프로덕트를 만드는 것을 목표로 한다. … 
-en.wikipedia.org, “data science”
+ 데이터 사이언스란? 
http://www.jumpgate.io/assets/img/datascience.jpg
+ 빅데이터의 – 3 요소와 2 목표 
툴 
3 요소 2 목표 
큰 데이터 
셋 
이해: 
Data Analytics 
방법론 사용: 
Data Products
+ 빅데이터의 – 3 요소와 2 목표 
툴 
3 요소 2 목표 
큰 데이터 
셋 
이해: 
Data Analytics 
사용: 
Data Products 
데이터 
사이언스
+ 왜 과학인가? 
과학적 방법론을 사용하기 때문 
가설 설정: 
Hypothesis 
모델 수립: 
Model 
실험: 
A/B Testing 
입증 / 반증
+ 과학적 방법론: 가설 설정 / 모델 수립 
유저의 행동을 잘 설명할 수 있는 가설을 설정: 
한국인일수록 LOL 실력이 좋다? 
코딩을 한 기간이 길수록 연봉이 높다? 
가설을 바탕으로 수학적 모델을 수립: 
P(LOL 플래티넘 랭크) = 0.5 + if(한국인 == true) 0.2, else -0.2 
연봉 = 평균 연봉 * (1 + (코딩 한 년수 / 100년))
+ 과학적 방법론: 실험 – A/B Testing 
서로 다른 모델을 통해 만들어진 결과물을 서로 다른 유저 그룹에게 
동시에 보여주며 반응을 측정. 
변인통제가 중요 – 실험하고자 하는 모델의 결과물(조작변인) 이외에 
다른 변인들은 일치해야한다. => 랜덤하게 유저 그룹을 선택 
http://cartytrax.com/split-testing-for-e-commerce
+ 과학적 방법론: 실험 – A/B Testing 
버락 오바마 미국 대통령의 선거 캠페인
+ 과학적 방법론: 실험 – A/B Testing 
A/B/C/D/E/F …… Testing? 
야후의 CEO 마리사 메이어는 구글 재직 시절 여러가지로 유명하지만, 
“40 shades of blue” 는 그녀의 성향을 특히 더 잘 설명합니다. Google 
Mail 과 Google page에서 보여지는 파란색을 결정하기 위해서, 그녀는 
서로 다른 음영의 40가지의 파란색이 각각 2.5%의 사용자에게 보여지게 
하였습니다.가장 많은 클릭을 받은 파란색이 여러분들이 오늘날 Google 
과 Google Mail에서 보는 파란색입니다. - http://www.theguardian.com/ 
http://commons.wikimedia.org/wiki/File:Color_gradient_map_(blue)_palette.png
+ 과학적 방법론: 입증/반증 
입증된 모델의 경우: 
가설을 받아들임 and 데이터 프로덕트에 적용 
반증된 모델의 경우: 
가설/모델/실험 단계에서 잘못된 점을 검토
오늘의 발표 
1. Big Data의 3요소 + 2목표 
2. Data Science란? 
3. Data Science @ Linkedin 
- Data Product: People You May Know 
- Data Analytics: Skills 
4.결론
+ LinkedIn: 프로페셔널 소셜 네트워크 
3억 1천 3백만 사용자
+ 링크드인의 데이터 프로덕트들 
People You May Know – 친구 추천
+ 링크드인의 데이터 프로덕트들 
Skills and Endorsements – 누구의 어떤 스킬을 승인(like)할 것인가?
+ 링크드인의 데이터 프로덕트들 
Jobs You May be Interested In – 어떤 새 직장에 관심이 있을 것인가? 
News Recommendation – 어떤 뉴스를 읽고 싶은가? 
Feed – 유저가 관심가질만한 정보로 이루어진 메인 페이지
+ 특징 1. Big Data Ecosystem 
하둡 클러스터 Key/Value Storage 
유저 인터랙션 데이터
+ 특징 2. 오픈소스의 활용 
Apache Hadoop: 분산 처리 시스템 
Apache Kafka: 분산 메세징 시스템 
Azkaban: 웹 기반 하둡 scheduler 
Voldemort: Key/Value Storage 
Apache Pig: 하둡 쿼리 언어 
DataFu: 피그용 UDF 모음
+ 특징 3. Encapsulation 
시스템에 대해 잘 모르는 데이터 사이언티스트가 Recommendation 
Algorithm을 만들고 싶다면? 
Analytics/Modeling Layer 
R, Linkedin’s Azkaban(Hadoop workflow management), 
Apache Pig, LinkedIn’s DataFu 
Infrastructure Layer 
Hadoop, LinkedIn’s Voldemort(Key/Value storage) 
데이터 모델링, 분석 레벨의 지식과 
인프라스트럭쳐 레벨의 지식이 분리됨.
오늘의 발표 
1. Big Data의 3요소 + 2목표 
2. Data Science란? 
3. Data Science @ Linkedin 
- Data Product: People You May Know 
- Data Analytics: Skills 
4.결론
+ People You May Know (PYMK) 
39
+ People You May Know? 
소셜 네트워크 그래프 상에서의 Link Prediction 문제 
?
+ People You May Know - HowTo 
1. 기존의 유저 데이터를 활용, 머신 러닝 모델을 Train 
Model Training 
http://www.vorterix.com/malditosnerds/notas/4918/los-creadores-de-siri-preparan-algo-especial.html
+ People You May Know - HowTo 
2. Hadoop Flow 를 통해, 추천 데이터 생성
+ People You May Know - HowTo 
3. 유저에게 추천.
+ People You May Know - HowTo 
4. 새로운 데이터 생성 
? !
+ PYMK – 2008 vs 2014 
2008 2014 
 3천만 유저 
 Single node fully offline (Oracle) then 
MPP database 
 3억 유저 
 Distributed offline (Hadoop) w/ online 
adjustments
+ PYMK 새 input 추가: 조직 오버랩 
어떤 두 링크드인 유저가 같은 회사, 같은 학교에 함께 있었던 기간을 
People You May Know에 활용 할 수 있을까? 
Can we compute edge affinity based on organizational overlap?
+ People You May Know 조직 오버랩: 과학적 방법론 
가설 설정: 
Hypothesis 
모델 수립: 
Model 
실험: 
A/B Testing 
입증 / 반증
+ 조직 오버랩 : 가설 설정 
가설 1. 시간 
같은 직장/학교에 함께 있었던 시간이 길수록, 서로 알 확률이 높을 
것이다.
+ 조직 오버랩 : 가설 설정 
가설 2. 조직의 크기 
직장/학교가 클 수록, 서로 알 확률은 낮아질 것이다
+ 조직 오버랩 : 모델 수립 
모델 1. 시간 
t시간동안 함께 한 회사에 있었던 유저 둘이 서로를 알 확률: 
P(t) = μ(1 - e-λt) 
=> 함께 조직에 있었던 시간 t가 길어질수록, 서로 알 확률이 높아진다
+ 조직 오버랩 : 모델 수립 
모델 2. 조직의 크기 
λ: 각 조직별로 달라지는 변수. 조직의 크기(|S|)에 따라 달라짐: 
log(λ) = -0.8 log (|S|) 
=> 조직의 크기가 클수록 서로 알 확률이 낮아진다
+ 조직 오버랩 : 실험 
A/B Testing 
기존 모델 vs. 조직 오버랩을 활용한 모델 
어떤 모델이 유저들에게 더 반응이 좋은가? 
A 그룹: 기존 
모델 
B 그룹: 기존 모델 + 조직 오버랩 
More Clicks!
+ 조직 오버랩: 입증/반증 
입증!
오늘의 발표 
1. Big Data의 3요소 + 2목표 
2. Data Science란? 
3. Data Science @ Linkedin 
- Data Product: People You May Know 
- Data Analytics: Skills 
4.결론
+ Skills & Endorsements
가설 : 실리콘 밸리에 쿨한 회사는 모두 북쪽에, 지루한 회사는 모두 
남쪽에 있다? 
San Francisco 
Mountain View 
San 
Jose 
Redwood City
가설 : 실리콘 밸리에 쿨한 회사는 모두 북쪽에, 지루한 회사는 모두 
남쪽에 있다? 
San Francisco 
Mountain View 
San 
Jose 
Redwood City
진짜 가설 : 실리콘 밸리의 회사 분포는, Network OSI 7 layer를 닮았다. 
San Francisco 
Mountain View 
San 
Jose 
Redwood City
모델 수립 / 실험 
1.실리콘 밸리를 남~북 순으로 네개의 지역으로 나눔 
2.각 지역별로 IT회사들을 정리 
3.회사 직원들의 링크드인 프로필상 스킬을 모음 
4.각 지역별로 가장 빈번히 보이는 스킬들은, 북쪽 지역일수록 
Application layer, 남쪽 지역일수록 Physical layer의 스킬 일 것이다.
San Francisco 
San Jose 
Redwood City 
Mountain View 
Application 
Presentation 
Network & 
Transport 
Data Link & 
Physical
오늘의 발표 
1. Big Data의 3요소 + 2목표 
2. Data Science란? 
3. Data Science @ Linkedin 
- Data Product: People You May Know 
- Data Analytics: Skills 
4.결론
가상의 그분의 대사 - Before 
유저 로그 데이터도 전부 모으고 있고, 
하둡 클러스터도 다 구축 했습니다. 
이제 빅데이터로 뭐 그럴듯 한 거 하기만 하면 됩니다. 
-어떤 데이터 팀 팀장
가상의 그분의 대사 - After 
유저 로그 데이터도 전부 모으고 있고, 
하둡 클러스터도 다 구축 했습니다. 
이제 데이터에 대한 가설을 설정하고 이를 입/반증하는 과정을 통해서, 
로그 데이터 분석을 통해 사용자에 대한 이해도를 높이고 
사용자들에게 더 좋은 반응을 이끌어 낼 수 있는 데이터 프로덕트를 
만들고자 합니다. 
-어떤 데이터 팀 팀장
가상의 그분의 대사 - After 
유저 로그 데이터도 전부 모으고 있고, 
하둡 클러스터도 다 구축 했습니다. 
이제 데이터에 대한 가설을 설정하고 이를 입/반증하는 과정을 통해서, 
로그 데이터 분석을 통해 사용자에 대한 이해도를 높이고 
사용자들에게 더 좋은 반응을 이끌어 낼 수 있는 데이터 프로덕트를 
만들고자 합니다. 
-어떤 데이터 팀 팀장
+ 결론(1) 빅데이터의 3 요소와 2 목표 
툴 
3 요소 2 목표 
큰 데이터 
셋 
이해: 
Data Analytics 
사용: 
Data Products 
방법론
+ 결론(2): 데이터 사이언스 = 과학 
과학적 방법론을 사용하기 때문 
가설 설정: 
Hypothesis 
모델 수립: 
Model 
실험: 
A/B Testing 
입증 / 반증
+ 그렇다면 무엇을 해야하나 
1. 가설 설정은 인간의 몫임을 잊지 말라 
http://www.portaloko.hr/slika/76532/0/800/69/576/1046/0/terminator.jpg
+ 그렇다면 무엇을 해야하나 
2. 데이터 프로덕트는 수많은 앱/사이트의 곳곳에 숨어있다.
+ 그렇다면 무엇을 해야하나 
3. 기존의 통계적 방법론을 공부하라 
http://image.kyobobook.co.kr/images/book/large/231/l9788988399231.jpg
+ 그렇다면 무엇을 해야하나 
4. 끊임없이 삽질해보라 
http://cfile10.uf.tistory.com/image/146891404E0BC492379C1C
data.linkedin.com

[2A7]Linkedin'sDataScienceWhyIsItScience

  • 1.
    Data Science –왜 ‘과학’ 인가? 김형진(Evion Kim)
  • 2.
    가상의 그분의 대사 유저 로그 데이터도 전부 모으고 있고, 하둡 클러스터도 다 구축 했습니다. 이제 빅데이터로 뭐 그럴듯 한 거 하기만 하면 됩니다. -어떤 데이터 팀 팀장 http://www.resumeexamplesweb.com/images/combination-resume.jpg
  • 3.
    가상의 그분의 대사 유저 로그 데이터도 전부 모으고 있고, 하둡 클러스터도 다 구축 했습니다. 이제 빅데이터로 뭐 그럴듯 한 거 하기만 하면 됩니다. -어떤 데이터 팀 팀장
  • 4.
    뭐 그럴 듯한거 뭐, 어떻게 하실건가요? What, How
  • 5.
    본 발표는 공개되어있는링크드인의 연구/발표자료등을 토대로 만들어졌습니다. 하지만 발표에서 제시되는 의견들은 저 개인의 것이며, 링크드인의 공식적인 입장과는 상이할 수 있습니다.
  • 6.
    오늘의 발표 1.Big Data의 3요소 + 2목표 2. Data Science란? 3. Data Science @ Linkedin - Data Product: People You May Know - Data Analytics: Skills 4.결론
  • 7.
    빅데이터의 정의 인터넷을사용하는 사람들에 의해 발생하는 굉장히 큰 데이터 셋을 지칭하며 특별한 툴과 방법론을 이용해서만 저장,이해 및 사용 될 수 있다 – 캠브리지 사전
  • 8.
    + 빅데이터의 –3 요소와 2 목표 툴 3 요소 2 목표 큰 데이터 셋 이해: Data Analytics 방법론 사용: Data Products http://icons.iconarchive.com/icons/icons8/ios7/128/Data-Mind-Map-icon.png, http://www.clker.com/clipart-white-tool-box.html, http://www.publicdomainpictures.net/pictures/40000/nahled/question-mark.jpg, http://www.flaticon.com/free-icon/data-analytics-graphic-on-a-presentation-screen_38897, https://www.iconfinder.com/icons/198841/box_bundle_cargo_freight_gift_load_loading_package_parcel_product_icon
  • 9.
    + 목표 1.이해 – Data Analytics 기존 데이터를 분석하여 새로운 인사이트를 찾아내는 것 http://en.wikipedia.org/wiki/File:Google_Analytics_Sample_Dashboard.jpg
  • 10.
    + 목표 2.사용 – Data Product 추천, 검색, 개인화 등 사용자에게 보여지는 제품에 데이터를 기반으로 한 알고리즘이 깊이 녹아들어가 있는 제품. 데이터를 통해 유저의 만족을 극대화하는 것이 목표.
  • 11.
    + 요소 1.굉장히 큰 데이터 set 인류문명이 시작된 이래 2003년까지 만들어진 데이터양은 통틀어 5엑사바이트에 불과했습니다. 지금은 이틀마다 그만큼씩의 데이터가 새로 추가되고 있으며, 이 속도는 점점 빨라지고 있습니다. –에릭 슈미트, Technomy 2010 기회&도전 http://en.wikipedia.org/wiki/File:Google_Analytics_Sample_Dashboard.jpg
  • 12.
  • 13.
    + 요소 3.방법론 빅데이터를 다룰 수 있는 새로운 방법론의 필요
  • 14.
    가상의 그분의 대사 유저 로그 데이터도 전부 모으고 있고, 하둡 클러스터도 다 구축 했습니다. 이제 빅데이터로 뭐 그럴듯 한 거 하기만 하면 됩니다.
  • 15.
    가상의 그분의 대사– version 2 유저 로그 데이터도 전부 모으고 있고, 하둡 클러스터도 다 구축 했습니다. 이제 빅데이터를 분석도 하고, 데이터 프로덕트도 만들고자 합니다.
  • 16.
    남은 질문: 어떻게하실건가요?? How
  • 17.
    Missing Piece 방법론 http://static.wixstatic.com/media/779878_d6071e23f5a2fab184116f2fda8e9a6f.jpg_srz_p_398_181_75_22_0.50_1.20_0.00_jpg_srz
  • 18.
    오늘의 발표 1.Big Data의 3요소 + 2목표 2. Data Science란? 3. Data Science @ Linkedin - Data Product: People You May Know - Data Analytics: Skills 4.결론
  • 19.
    + 데이터 사이언스란? 데이터 사이언스 방법론 hhttp://www.iconpng.com/icon/58699
  • 20.
    + 데이터 사이언스란? Data Science 는 데이터로부터 일반화 가능한 지식을 추출하는 학문으로써, 키워드는 “Science”이다. Data Science는 signal processing, mathematics, probability models, machine learning, statistical learning, computer programming, data engineering, pattern recognition and learning, visualization, uncertainty modeling, data warehousing, and high performance computing 등 다양한 분야의 학문을 접목시켜서, 데이터로부터 의미를 추출하거나 데이터 프로덕트를 만드는 것을 목표로 한다. … -en.wikipedia.org, “data science”
  • 21.
    + 데이터 사이언스란? http://www.jumpgate.io/assets/img/datascience.jpg
  • 22.
    + 빅데이터의 –3 요소와 2 목표 툴 3 요소 2 목표 큰 데이터 셋 이해: Data Analytics 방법론 사용: Data Products
  • 23.
    + 빅데이터의 –3 요소와 2 목표 툴 3 요소 2 목표 큰 데이터 셋 이해: Data Analytics 사용: Data Products 데이터 사이언스
  • 24.
    + 왜 과학인가? 과학적 방법론을 사용하기 때문 가설 설정: Hypothesis 모델 수립: Model 실험: A/B Testing 입증 / 반증
  • 25.
    + 과학적 방법론:가설 설정 / 모델 수립 유저의 행동을 잘 설명할 수 있는 가설을 설정: 한국인일수록 LOL 실력이 좋다? 코딩을 한 기간이 길수록 연봉이 높다? 가설을 바탕으로 수학적 모델을 수립: P(LOL 플래티넘 랭크) = 0.5 + if(한국인 == true) 0.2, else -0.2 연봉 = 평균 연봉 * (1 + (코딩 한 년수 / 100년))
  • 26.
    + 과학적 방법론:실험 – A/B Testing 서로 다른 모델을 통해 만들어진 결과물을 서로 다른 유저 그룹에게 동시에 보여주며 반응을 측정. 변인통제가 중요 – 실험하고자 하는 모델의 결과물(조작변인) 이외에 다른 변인들은 일치해야한다. => 랜덤하게 유저 그룹을 선택 http://cartytrax.com/split-testing-for-e-commerce
  • 27.
    + 과학적 방법론:실험 – A/B Testing 버락 오바마 미국 대통령의 선거 캠페인
  • 28.
    + 과학적 방법론:실험 – A/B Testing A/B/C/D/E/F …… Testing? 야후의 CEO 마리사 메이어는 구글 재직 시절 여러가지로 유명하지만, “40 shades of blue” 는 그녀의 성향을 특히 더 잘 설명합니다. Google Mail 과 Google page에서 보여지는 파란색을 결정하기 위해서, 그녀는 서로 다른 음영의 40가지의 파란색이 각각 2.5%의 사용자에게 보여지게 하였습니다.가장 많은 클릭을 받은 파란색이 여러분들이 오늘날 Google 과 Google Mail에서 보는 파란색입니다. - http://www.theguardian.com/ http://commons.wikimedia.org/wiki/File:Color_gradient_map_(blue)_palette.png
  • 29.
    + 과학적 방법론:입증/반증 입증된 모델의 경우: 가설을 받아들임 and 데이터 프로덕트에 적용 반증된 모델의 경우: 가설/모델/실험 단계에서 잘못된 점을 검토
  • 30.
    오늘의 발표 1.Big Data의 3요소 + 2목표 2. Data Science란? 3. Data Science @ Linkedin - Data Product: People You May Know - Data Analytics: Skills 4.결론
  • 31.
    + LinkedIn: 프로페셔널소셜 네트워크 3억 1천 3백만 사용자
  • 32.
    + 링크드인의 데이터프로덕트들 People You May Know – 친구 추천
  • 33.
    + 링크드인의 데이터프로덕트들 Skills and Endorsements – 누구의 어떤 스킬을 승인(like)할 것인가?
  • 34.
    + 링크드인의 데이터프로덕트들 Jobs You May be Interested In – 어떤 새 직장에 관심이 있을 것인가? News Recommendation – 어떤 뉴스를 읽고 싶은가? Feed – 유저가 관심가질만한 정보로 이루어진 메인 페이지
  • 35.
    + 특징 1.Big Data Ecosystem 하둡 클러스터 Key/Value Storage 유저 인터랙션 데이터
  • 36.
    + 특징 2.오픈소스의 활용 Apache Hadoop: 분산 처리 시스템 Apache Kafka: 분산 메세징 시스템 Azkaban: 웹 기반 하둡 scheduler Voldemort: Key/Value Storage Apache Pig: 하둡 쿼리 언어 DataFu: 피그용 UDF 모음
  • 37.
    + 특징 3.Encapsulation 시스템에 대해 잘 모르는 데이터 사이언티스트가 Recommendation Algorithm을 만들고 싶다면? Analytics/Modeling Layer R, Linkedin’s Azkaban(Hadoop workflow management), Apache Pig, LinkedIn’s DataFu Infrastructure Layer Hadoop, LinkedIn’s Voldemort(Key/Value storage) 데이터 모델링, 분석 레벨의 지식과 인프라스트럭쳐 레벨의 지식이 분리됨.
  • 38.
    오늘의 발표 1.Big Data의 3요소 + 2목표 2. Data Science란? 3. Data Science @ Linkedin - Data Product: People You May Know - Data Analytics: Skills 4.결론
  • 39.
    + People YouMay Know (PYMK) 39
  • 40.
    + People YouMay Know? 소셜 네트워크 그래프 상에서의 Link Prediction 문제 ?
  • 41.
    + People YouMay Know - HowTo 1. 기존의 유저 데이터를 활용, 머신 러닝 모델을 Train Model Training http://www.vorterix.com/malditosnerds/notas/4918/los-creadores-de-siri-preparan-algo-especial.html
  • 42.
    + People YouMay Know - HowTo 2. Hadoop Flow 를 통해, 추천 데이터 생성
  • 43.
    + People YouMay Know - HowTo 3. 유저에게 추천.
  • 44.
    + People YouMay Know - HowTo 4. 새로운 데이터 생성 ? !
  • 45.
    + PYMK –2008 vs 2014 2008 2014  3천만 유저  Single node fully offline (Oracle) then MPP database  3억 유저  Distributed offline (Hadoop) w/ online adjustments
  • 46.
    + PYMK 새input 추가: 조직 오버랩 어떤 두 링크드인 유저가 같은 회사, 같은 학교에 함께 있었던 기간을 People You May Know에 활용 할 수 있을까? Can we compute edge affinity based on organizational overlap?
  • 47.
    + People YouMay Know 조직 오버랩: 과학적 방법론 가설 설정: Hypothesis 모델 수립: Model 실험: A/B Testing 입증 / 반증
  • 48.
    + 조직 오버랩: 가설 설정 가설 1. 시간 같은 직장/학교에 함께 있었던 시간이 길수록, 서로 알 확률이 높을 것이다.
  • 49.
    + 조직 오버랩: 가설 설정 가설 2. 조직의 크기 직장/학교가 클 수록, 서로 알 확률은 낮아질 것이다
  • 50.
    + 조직 오버랩: 모델 수립 모델 1. 시간 t시간동안 함께 한 회사에 있었던 유저 둘이 서로를 알 확률: P(t) = μ(1 - e-λt) => 함께 조직에 있었던 시간 t가 길어질수록, 서로 알 확률이 높아진다
  • 51.
    + 조직 오버랩: 모델 수립 모델 2. 조직의 크기 λ: 각 조직별로 달라지는 변수. 조직의 크기(|S|)에 따라 달라짐: log(λ) = -0.8 log (|S|) => 조직의 크기가 클수록 서로 알 확률이 낮아진다
  • 52.
    + 조직 오버랩: 실험 A/B Testing 기존 모델 vs. 조직 오버랩을 활용한 모델 어떤 모델이 유저들에게 더 반응이 좋은가? A 그룹: 기존 모델 B 그룹: 기존 모델 + 조직 오버랩 More Clicks!
  • 53.
    + 조직 오버랩:입증/반증 입증!
  • 54.
    오늘의 발표 1.Big Data의 3요소 + 2목표 2. Data Science란? 3. Data Science @ Linkedin - Data Product: People You May Know - Data Analytics: Skills 4.결론
  • 55.
    + Skills &Endorsements
  • 56.
    가설 : 실리콘밸리에 쿨한 회사는 모두 북쪽에, 지루한 회사는 모두 남쪽에 있다? San Francisco Mountain View San Jose Redwood City
  • 57.
    가설 : 실리콘밸리에 쿨한 회사는 모두 북쪽에, 지루한 회사는 모두 남쪽에 있다? San Francisco Mountain View San Jose Redwood City
  • 58.
    진짜 가설 :실리콘 밸리의 회사 분포는, Network OSI 7 layer를 닮았다. San Francisco Mountain View San Jose Redwood City
  • 59.
    모델 수립 /실험 1.실리콘 밸리를 남~북 순으로 네개의 지역으로 나눔 2.각 지역별로 IT회사들을 정리 3.회사 직원들의 링크드인 프로필상 스킬을 모음 4.각 지역별로 가장 빈번히 보이는 스킬들은, 북쪽 지역일수록 Application layer, 남쪽 지역일수록 Physical layer의 스킬 일 것이다.
  • 60.
    San Francisco SanJose Redwood City Mountain View Application Presentation Network & Transport Data Link & Physical
  • 61.
    오늘의 발표 1.Big Data의 3요소 + 2목표 2. Data Science란? 3. Data Science @ Linkedin - Data Product: People You May Know - Data Analytics: Skills 4.결론
  • 62.
    가상의 그분의 대사- Before 유저 로그 데이터도 전부 모으고 있고, 하둡 클러스터도 다 구축 했습니다. 이제 빅데이터로 뭐 그럴듯 한 거 하기만 하면 됩니다. -어떤 데이터 팀 팀장
  • 63.
    가상의 그분의 대사- After 유저 로그 데이터도 전부 모으고 있고, 하둡 클러스터도 다 구축 했습니다. 이제 데이터에 대한 가설을 설정하고 이를 입/반증하는 과정을 통해서, 로그 데이터 분석을 통해 사용자에 대한 이해도를 높이고 사용자들에게 더 좋은 반응을 이끌어 낼 수 있는 데이터 프로덕트를 만들고자 합니다. -어떤 데이터 팀 팀장
  • 64.
    가상의 그분의 대사- After 유저 로그 데이터도 전부 모으고 있고, 하둡 클러스터도 다 구축 했습니다. 이제 데이터에 대한 가설을 설정하고 이를 입/반증하는 과정을 통해서, 로그 데이터 분석을 통해 사용자에 대한 이해도를 높이고 사용자들에게 더 좋은 반응을 이끌어 낼 수 있는 데이터 프로덕트를 만들고자 합니다. -어떤 데이터 팀 팀장
  • 65.
    + 결론(1) 빅데이터의3 요소와 2 목표 툴 3 요소 2 목표 큰 데이터 셋 이해: Data Analytics 사용: Data Products 방법론
  • 66.
    + 결론(2): 데이터사이언스 = 과학 과학적 방법론을 사용하기 때문 가설 설정: Hypothesis 모델 수립: Model 실험: A/B Testing 입증 / 반증
  • 67.
    + 그렇다면 무엇을해야하나 1. 가설 설정은 인간의 몫임을 잊지 말라 http://www.portaloko.hr/slika/76532/0/800/69/576/1046/0/terminator.jpg
  • 68.
    + 그렇다면 무엇을해야하나 2. 데이터 프로덕트는 수많은 앱/사이트의 곳곳에 숨어있다.
  • 69.
    + 그렇다면 무엇을해야하나 3. 기존의 통계적 방법론을 공부하라 http://image.kyobobook.co.kr/images/book/large/231/l9788988399231.jpg
  • 70.
    + 그렇다면 무엇을해야하나 4. 끊임없이 삽질해보라 http://cfile10.uf.tistory.com/image/146891404E0BC492379C1C
  • 71.

Editor's Notes

  • #2 Data Science : Why is it “science?
  • #3 Imaginary conversation: I’m collecting user log data, I finished setting up hadoop cluster. Now I just want to do “something interesting” with big data
  • #4 Imaginary conversation: I’m collecting user log data, I finished setting up hadoop cluster. Now I just want to do “something interesting” with big data
  • #5 How can u do “something interesting” with big data?
  • #6 Disclaimer: This presentation is based on public research/presentations of LinkedIn. However, opinions presented here is mine, and can be differ from official stance of Linkedin. 2:05
  • #8 Definition of Big Data Very large sets of data that are produced by people using the internet, and that can only be stored, understood, and used with the help of special tools and methods – Cambridge Dictionary
  • #9 3 elements of big data 각각의 요소에 대해 자세히 말할 필요는 없음(다음슬라이드들에서 할것이기 때문에)
  • #12 Element 1: very large data set
  • #13 Element 2: Tools 기하급수적
  • #14 Element 3: Methodology = Data Science
  • #15 Imaginary conversation: I’m collecting user log data, I finished setting up hadoop cluster. Now I just want to do “something interesting” with big data
  • #16 Imaginary conversation: I’m collecting user log data, I finished setting up hadoop cluster. Now I just want to do “something interesting” with big data
  • #17 How can u do “something interesting” with big data?
  • #18 Methodology is missing! 7:08
  • #21 What is data science?
  • #23 3 elements of big data 각각의 요소에 대해 자세히 말할 필요는 없음(다음슬라이드들에서 할것이기 때문에)
  • #24 3 elements of big data 각각의 요소에 대해 자세히 말할 필요는 없음(다음슬라이드들에서 할것이기 때문에)
  • #25 Why is it science?
  • #26 Hypothesis & Model building
  • #27 A/B Testing 오프라인 테스트도 언급?
  • #28 A/B Testing : Obama election campaign
  • #29 A/B Testing : Google “40shades of blue”
  • #30 Accept or decline the hypothesis 14:17
  • #32 313million linkedin users
  • #33 Linkedin’s Data Products
  • #34 Linkedin’s Data Products
  • #35 Linkedin’s Data Products
  • #36 Big Data Ecosystem : Big data Product -> User Interaction Data -> Hadoop Cluster -> Key/Value Storage
  • #37 Open source projects used in Linkedin Data team.
  • #38 Analytics/Modeling layer’s knowledge is separated from infrastructure layer’s knowledge 18:17
  • #41 PYMK: Link Prediction On Social Network
  • #42 PYMK: Train the machine learning model using existing connection data
  • #43 PYMK: Hadoop workflow
  • #44 PYMK: serving data to users
  • #45 User’s reaction will be the new input data
  • #46 How PYMK has been changed from 2008 21:19
  • #47 Can we use organizational overlap on PYMK?
  • #48 Using scientific method
  • #49 The longer two users were on same organization, the higher the probability for them to know each other
  • #50 The larger the size of organization, the lower the probability for members within it to know each other
  • #51 Model of organizational overlap
  • #52 Model of organizational overlap
  • #53 Experiment of Organizational overlap: A/B Testing
  • #54 Organizational overlap: Hypothesis accepted
  • #57 Hypothesis: All cool companies are at north of silicon valley, while companies at south of silicon valley are boring?(joke)
  • #58 Hypothesis: All cool companies are at north of silicon valley, while companies at south of silicon valley are boring?(joke)
  • #59 Real Hypothesis: Silicon Valley’s distribution of the company resembles that of Network OSI 7 layer
  • #60 Methodology we used to extract skills by the region of silicon valley
  • #61 31:00
  • #63 Imaginary conversation: I’m collecting user log data, I finished setting up hadoop cluster. Now I just want to do “something interesting” with big data
  • #64 Imaginary conversation: I’m collecting user log data, I finished setting up hadoop cluster. Now I just want to do “something interesting” with big data
  • #65 Imaginary conversation: I’m collecting user log data, I finished setting up hadoop cluster. Now I just want to do “something interesting” with big data
  • #66 3 elements of big data 각각의 요소에 대해 자세히 말할 필요는 없음(다음슬라이드들에서 할것이기 때문에)
  • #67 Why is it science?
  • #68 Action Item 1: Don’t forget Hypothesis setup must be done by human
  • #69 Action Item 3: Be aware that data product is everywhere
  • #70 Action Item 2: Review statistics
  • #71 Action Item 4: Trial & Error – lots of iteration is the key
  • #72 38:46