링크드인의 Big Data Recommendation Products - 어제의 데이터를 통해 내일을 예측한다Evion Kim
DEVIEW 2013 발표 내용입니다 - http://deview.kr/2013/detail.nhn?topicSeq=36
링크드인 플랫폼 상의 다양한 Recommendation Product들, 이 제품들의 키워드는 바로 'Relevance(연관성)' 입니다. 가장 관련있는 데이터들을 제공함으로써 사용자의 삶을 더 쉽고 편하게 만들어 주는것이 링크드인 데이터 팀의 목표라 할 수 있겠습니다. 그렇다면 어떻게 해야 사용자에게 가장 연관성 높은 데이터를 제공 할 수 있을까요? 이에 대한 답을 한문장으로 요약하자면 '어제의 데이터를 분석하여 내일의 사용자의 행동을 예측한다' 가 될 것 같습니다.
본 발표에서는 이 한 문장을 좀 더 길게 풀어보려 합니다. 링크드인에서는 Hadoop, Key-Value Storage, Machine Learning등의 기술을 어떤 식으로 활용하여 연관성 높은 Recommendation Product를 만들고 있는지에 대해 소개해보겠습니다.
오늘 밤부터 쓰는 google analytics (구글 애널리틱스, GA) Yongho Ha
http://ga.yonghosee.com 에서 진행하는 구글 어날리틱스(google analytics) 에 대한 강의 슬라이드 입니다. 이 슬라이드는 샘플이지만, 초반부는 실재 강의 교재 그대로 입니다. 이것 자체로도 여러분이 GA를 이해하는데 좀 도움이 된다면 기쁘겠습니다^^ 감사합니다.
데이터 분석에 필요한 기본 개념: 지표, Funnel 등 데이터를 이해하기 위한 멘탈 모델(Mental Model)Minwoo Kim
- 강의록 전문 읽기: http://bit.ly/2KKtzRA
데이터 분석(데이터 사이언스 말고, 통상적으로 스타트업에서 '데이터 분석'이나 '그로스'에 쓰는 데이터 분석)을 공부하려면, 어떤 기본 개념을 가지고 계시면 좋을지에 대해 만들어 본 강의 자료입니다.
카우앤독에서 지인 위주로 꾸린 강의에서 꽤 좋은 평가를 받았으나, 강의안 준비가 너무 힘들어서 실제 유료 강의로 이어지지는 않은 비운의 슬라이드...
멘탈 모델이란 무엇인지, 지표는 무엇이며 퍼널(Funnel)은 무엇인지, 등등의 이야기를 합니다. 기승전 결론은 SQL 배우세요. (https://brunch.co.kr/@minu-log/4)
AWS April 2016 Webinar Series - Best Practices for Apache Spark on AWSAmazon Web Services
Organizations need to perform increasingly complex analysis on data — streaming analytics, ad-hoc querying, and predictive analytics — in order to get better customer insights and actionable business intelligence. Apache Spark has recently emerged as the framework of choice to address many of these challenges.
In this webinar, we show you how to use Apache Spark on AWS to implement and scale common big data use cases such as real-time data processing, interactive data science, predictive analytics, and more. We will talk about common architectures and best practices to quickly create Spark clusters using Amazon Elastic MapReduce (EMR), and ways to use Spark with Amazon Redshift, Amazon DynamoDB, Amazon Kinesis, and other big data applications in the Apache Hadoop ecosystem.
Learning Objectives:
Learn why Spark is great for ad-hoc interactive analysis and real-time stream processing
How to deploy and tune scalable clusters running Spark on Amazon EMR
How to use EMR File System (EMRFS) with Spark to query data directly in Amazon S3
Common architectures to leverage Spark with DynamoDB, Redshift, Kinesis, and more
Apache Hadoop and Spark on AWS: Getting started with Amazon EMR - Pop-up Loft...Amazon Web Services
Amazon EMR is a managed service that makes it easy for customers to use big data frameworks and applications like Apache Hadoop, Spark, and Presto to analyze data stored in HDFS or on Amazon S3, Amazon’s highly scalable object storage service. In this session, we will introduce Amazon EMR and the greater Apache Hadoop ecosystem, and show how customers use them to implement and scale common big data use cases such as batch analytics, real-time data processing, interactive data science, and more. Then, we will walk through a demo to show how you can start processing your data at scale within minutes.
(BDT309) Data Science & Best Practices for Apache Spark on Amazon EMRAmazon Web Services
Organizations need to perform increasingly complex analysis on their data — streaming analytics, ad-hoc querying and predictive analytics — in order to get better customer insights and actionable business intelligence. However, the growing data volume, speed, and complexity of diverse data formats make current tools inadequate or difficult to use. Apache Spark has recently emerged as the framework of choice to address these challenges. Spark is a general-purpose processing framework that follows a DAG model and also provides high-level APIs, making it more flexible and easier to use than MapReduce. Thanks to its use of in-memory datasets (RDDs), embedded libraries, fault-tolerance, and support for a variety of programming languages, Apache Spark enables developers to implement and scale far more complex big data use cases, including real-time data processing, interactive querying, graph computations and predictive analytics. In this session, we present a technical deep dive on Spark running on Amazon EMR. You learn why Spark is great for ad-hoc interactive analysis and real-time stream processing, how to deploy and tune scalable clusters running Spark on Amazon EMR, how to use EMRFS with Spark to query data directly in Amazon S3, and best practices and patterns for Spark on Amazon EMR.
Organizations need to perform increasingly complex analysis on data — streaming analytics, ad-hoc querying, and predictive analytics — in order to get better customer insights and actionable business intelligence. Apache Spark has recently emerged as the framework of choice to address many of these challenges. In this session, we show you how to use Apache Spark on AWS to implement and scale common big data use cases such as real-time data processing, interactive data science, predictive analytics, and more. We will talk about common architectures, best practices to quickly create Spark clusters using Amazon EMR, and ways to integrate Spark with other big data services in AWS.
Learning Objectives:
• Learn why Spark is great for ad-hoc interactive analysis and real-time stream processing.
• How to deploy and tune scalable clusters running Spark on Amazon EMR.
• How to use EMR File System (EMRFS) with Spark to query data directly in Amazon S3.
• Common architectures to leverage Spark with Amazon DynamoDB, Amazon Redshift, Amazon Kinesis, and more.
Organizations need to perform increasingly complex analysis on data — streaming analytics, ad-hoc querying, and predictive analytics — in order to get better customer insights and actionable business intelligence. Apache Spark has recently emerged as the framework of choice to address many of these challenges. In this session, we show you how to use Apache Spark on AWS to implement and scale common big data use cases such as real-time data processing, interactive data science, predictive analytics, and more. We will talk about common architectures, best practices to quickly create Spark clusters using Amazon EMR, and ways to integrate Spark with other big data services in AWS.
Learning Objectives:
• Learn why Spark is great for ad-hoc interactive analysis and real-time stream processing.
• How to deploy and tune scalable clusters running Spark on Amazon EMR.
• How to use EMR File System (EMRFS) with Spark to query data directly in Amazon S3.
• Common architectures to leverage Spark with Amazon DynamoDB, Amazon Redshift, Amazon Kinesis, and more.
링크드인의 Big Data Recommendation Products - 어제의 데이터를 통해 내일을 예측한다Evion Kim
DEVIEW 2013 발표 내용입니다 - http://deview.kr/2013/detail.nhn?topicSeq=36
링크드인 플랫폼 상의 다양한 Recommendation Product들, 이 제품들의 키워드는 바로 'Relevance(연관성)' 입니다. 가장 관련있는 데이터들을 제공함으로써 사용자의 삶을 더 쉽고 편하게 만들어 주는것이 링크드인 데이터 팀의 목표라 할 수 있겠습니다. 그렇다면 어떻게 해야 사용자에게 가장 연관성 높은 데이터를 제공 할 수 있을까요? 이에 대한 답을 한문장으로 요약하자면 '어제의 데이터를 분석하여 내일의 사용자의 행동을 예측한다' 가 될 것 같습니다.
본 발표에서는 이 한 문장을 좀 더 길게 풀어보려 합니다. 링크드인에서는 Hadoop, Key-Value Storage, Machine Learning등의 기술을 어떤 식으로 활용하여 연관성 높은 Recommendation Product를 만들고 있는지에 대해 소개해보겠습니다.
오늘 밤부터 쓰는 google analytics (구글 애널리틱스, GA) Yongho Ha
http://ga.yonghosee.com 에서 진행하는 구글 어날리틱스(google analytics) 에 대한 강의 슬라이드 입니다. 이 슬라이드는 샘플이지만, 초반부는 실재 강의 교재 그대로 입니다. 이것 자체로도 여러분이 GA를 이해하는데 좀 도움이 된다면 기쁘겠습니다^^ 감사합니다.
데이터 분석에 필요한 기본 개념: 지표, Funnel 등 데이터를 이해하기 위한 멘탈 모델(Mental Model)Minwoo Kim
- 강의록 전문 읽기: http://bit.ly/2KKtzRA
데이터 분석(데이터 사이언스 말고, 통상적으로 스타트업에서 '데이터 분석'이나 '그로스'에 쓰는 데이터 분석)을 공부하려면, 어떤 기본 개념을 가지고 계시면 좋을지에 대해 만들어 본 강의 자료입니다.
카우앤독에서 지인 위주로 꾸린 강의에서 꽤 좋은 평가를 받았으나, 강의안 준비가 너무 힘들어서 실제 유료 강의로 이어지지는 않은 비운의 슬라이드...
멘탈 모델이란 무엇인지, 지표는 무엇이며 퍼널(Funnel)은 무엇인지, 등등의 이야기를 합니다. 기승전 결론은 SQL 배우세요. (https://brunch.co.kr/@minu-log/4)
AWS April 2016 Webinar Series - Best Practices for Apache Spark on AWSAmazon Web Services
Organizations need to perform increasingly complex analysis on data — streaming analytics, ad-hoc querying, and predictive analytics — in order to get better customer insights and actionable business intelligence. Apache Spark has recently emerged as the framework of choice to address many of these challenges.
In this webinar, we show you how to use Apache Spark on AWS to implement and scale common big data use cases such as real-time data processing, interactive data science, predictive analytics, and more. We will talk about common architectures and best practices to quickly create Spark clusters using Amazon Elastic MapReduce (EMR), and ways to use Spark with Amazon Redshift, Amazon DynamoDB, Amazon Kinesis, and other big data applications in the Apache Hadoop ecosystem.
Learning Objectives:
Learn why Spark is great for ad-hoc interactive analysis and real-time stream processing
How to deploy and tune scalable clusters running Spark on Amazon EMR
How to use EMR File System (EMRFS) with Spark to query data directly in Amazon S3
Common architectures to leverage Spark with DynamoDB, Redshift, Kinesis, and more
Apache Hadoop and Spark on AWS: Getting started with Amazon EMR - Pop-up Loft...Amazon Web Services
Amazon EMR is a managed service that makes it easy for customers to use big data frameworks and applications like Apache Hadoop, Spark, and Presto to analyze data stored in HDFS or on Amazon S3, Amazon’s highly scalable object storage service. In this session, we will introduce Amazon EMR and the greater Apache Hadoop ecosystem, and show how customers use them to implement and scale common big data use cases such as batch analytics, real-time data processing, interactive data science, and more. Then, we will walk through a demo to show how you can start processing your data at scale within minutes.
(BDT309) Data Science & Best Practices for Apache Spark on Amazon EMRAmazon Web Services
Organizations need to perform increasingly complex analysis on their data — streaming analytics, ad-hoc querying and predictive analytics — in order to get better customer insights and actionable business intelligence. However, the growing data volume, speed, and complexity of diverse data formats make current tools inadequate or difficult to use. Apache Spark has recently emerged as the framework of choice to address these challenges. Spark is a general-purpose processing framework that follows a DAG model and also provides high-level APIs, making it more flexible and easier to use than MapReduce. Thanks to its use of in-memory datasets (RDDs), embedded libraries, fault-tolerance, and support for a variety of programming languages, Apache Spark enables developers to implement and scale far more complex big data use cases, including real-time data processing, interactive querying, graph computations and predictive analytics. In this session, we present a technical deep dive on Spark running on Amazon EMR. You learn why Spark is great for ad-hoc interactive analysis and real-time stream processing, how to deploy and tune scalable clusters running Spark on Amazon EMR, how to use EMRFS with Spark to query data directly in Amazon S3, and best practices and patterns for Spark on Amazon EMR.
Organizations need to perform increasingly complex analysis on data — streaming analytics, ad-hoc querying, and predictive analytics — in order to get better customer insights and actionable business intelligence. Apache Spark has recently emerged as the framework of choice to address many of these challenges. In this session, we show you how to use Apache Spark on AWS to implement and scale common big data use cases such as real-time data processing, interactive data science, predictive analytics, and more. We will talk about common architectures, best practices to quickly create Spark clusters using Amazon EMR, and ways to integrate Spark with other big data services in AWS.
Learning Objectives:
• Learn why Spark is great for ad-hoc interactive analysis and real-time stream processing.
• How to deploy and tune scalable clusters running Spark on Amazon EMR.
• How to use EMR File System (EMRFS) with Spark to query data directly in Amazon S3.
• Common architectures to leverage Spark with Amazon DynamoDB, Amazon Redshift, Amazon Kinesis, and more.
Organizations need to perform increasingly complex analysis on data — streaming analytics, ad-hoc querying, and predictive analytics — in order to get better customer insights and actionable business intelligence. Apache Spark has recently emerged as the framework of choice to address many of these challenges. In this session, we show you how to use Apache Spark on AWS to implement and scale common big data use cases such as real-time data processing, interactive data science, predictive analytics, and more. We will talk about common architectures, best practices to quickly create Spark clusters using Amazon EMR, and ways to integrate Spark with other big data services in AWS.
Learning Objectives:
• Learn why Spark is great for ad-hoc interactive analysis and real-time stream processing.
• How to deploy and tune scalable clusters running Spark on Amazon EMR.
• How to use EMR File System (EMRFS) with Spark to query data directly in Amazon S3.
• Common architectures to leverage Spark with Amazon DynamoDB, Amazon Redshift, Amazon Kinesis, and more.
* 행사 정보 :2016년 10월 14일 MARU180 에서 진행된 '데이터야 놀자' 1day 컨퍼런스 발표 자료
* 발표자 : Dylan Ko (고영혁) Data Scientist / Data Architect at Treasure Data
* 발표 내용
- 데이터사이언티스트 고영혁 소개
- Treasure Data (트레저데이터) 소개
- 데이터로 돈 버는 글로벌 사례 #1
>> MUJI : 전통적 리테일에서 데이터 기반 O2O
- 데이터로 돈 버는 글로벌 사례 #2
>> WISH : 개인화&자동화를 통한 쇼핑 최적화
- 데이터로 돈 버는 글로벌 사례 #3
>> Oisix : 머신러닝으로 이탈고객 예측&방지
- 데이터로 돈 버는 글로벌 사례 #4
>> 워너브로스 : 프로세스 자동화로 시간과 돈 절약
- 데이터로 돈 버는 글로벌 사례 #5
>> Dentsu 등의 애드테크(Adtech) 회사들
- 데이터로 돈을 벌고자 할 때 반드시 체크해야 하는 것
라이트브레인 UX 아카데미 2기 오픈 프로젝트 주제는 '직장인들을 위한 일상생활 도우미, 스마트태그' UX 디자인입니다. 16주간의 긴 교육과정의 최종 과제 결과물을 공유합니다.
스마트태그 UX 디자인의 기본 전제조건은 아래와 같습니다.
- 2015년 하반기 출시
- 독자적인 기술은 없음 (현존하는 기술 활용)
- 일상생활에서 필요한 탁월한 서비스를 제공하는 데 주력
- 부담없이 구매할 수 있는 가격대 : 3~5만원
- 하나가 아닌 세트 구성
2조가 정리한 과제결과물 '미어캣'입니다.
최보경 : 실무자를 위한 인과추론 활용 - Best Practices
발표영상 https://youtu.be/wTPEZDc6fw4
---
PAP가 준비한 팝콘 시즌1에서 프로덕트와 함께 성장하는 데이터 실무자들의 이야기를 담았습니다.
---
PAP(Product Analytics Playground)는 프로덕트 데이터 분석에 대해 편안하게 이야기할 수 있는 커뮤니티입니다.
우리는 데이터 드리븐 프로덕트 문화를 더 많은 분들이 각자의 자리에서 이끌어갈 수 있도록 하는 것을 목표로 합니다.
다양한 직군의 사람들이 모여 프로덕트를 만들듯 PAP 역시 다양한 멤버로 구성되어 있으며, 여러분들의 참여로 만들어집니다.
---
공식 페이지 : https://playinpap.oopy.io
페이스북 그룹 : https://www.facebook.com/groups/talkinpap
팀블로그 : https://playinpap.github.io
1. Enablement & Deployment
- 오프라인 기초 교육 (격주로 진행)
- 무료 온라인 학습 페이지 (기능별, 주제별, 웹 세미나, 유튜브 강의)
- 도움말 & 유저 커뮤니티
- Tableau Blueprint
2. References
- Tableau Public: Best 시각화 예시, 샘플 대시보드 검색
- Tableau Conference & Tableau Experience
3. Tableau Certification
- Desktop: Specialist, Associate, Professional | Server: Associate, Professional
- https://www.tableau.com/ko-kr/learn/certification
39. 데이터 분석
그리고
신메뉴 개발
# 잠시 패밀리 레스토랑
주방장으로 빙의 되어 보자
데이터분석 과정과
신메뉴 개발과정은
아주 흡사하다구...
40. - 가설을 통한 분석(메뉴개발)
- 구체적으로 궁금한 것
(먹고 싶은 것)을 나열 하기
어떤 것이 가능한가?
Q. 하위 20% 유저의 튜토리얼 단계별 실패율
Q. 매력 아이템의 보상등급,수량에 따른 재 구매율
Q. 퀘스트 성공율과 이탈률은 반비례 하는가 ?
Q. DT가 높은 유저들이 캐시아이템을 구매 하는가 ?
반대로, 캐시아이템을 구매하면 DT 증대 되는가 ?
Q. SMS를 프로모션을 해야 하는데.. 문구는? 몇시에? 어떻게? 누구에게?
Step1. 메뉴(분석주제)선택
41. 요리의 생명은 신선한 재료
데이터분석의 생명은 양질의 데이터
* Tip
- 가능한 작은 데이터 부터 수집 (우선 보는것이 중요)
- 양이 중요한 데이터와, 패턴이 중요한 데이터를 구분
- 초반부터 로그포멧에 너무 집중 하면 시작도 못하게 됨
Step2. 재료(데이터) 준비&손질
42. 조리 & 분석
가설(궁금증)에 부합하는 데이터를 이용, 분석(검증)
추가로, 뭔가 새로운 것이 더 있나 찾아 본다
* Tip
- 넓은 범위에서 좁은 범위로
- 비교 대상을 만들면, 좀더 쉽게 접근 할 수 있다
- 조리시간이 필요이상으로 길어지면 손님이 짜증을 낸다
Step3. 조리(분석)시작
43. Good
개발한 음식이 맛있다 (시나리오가 맞다, 소득이 있다)
Bad
이건 도저히 못 먹겠다 (시나리오랑 다르다, 소득이 없다)
Lucky !
의도하진 않았지만 새로운 맛의 발견 (새로운 경향을 발견)
도출된 결과를 기반으로 기획 & 적용
Step4. 음식(분석결과)를 시식
44. 분석의 주제, 진행상황, 결과를
가급적 Fact 위주로 상세하게 정리
요리사가 매번 같은 맛을 내기위해
메뉴의 레시피를 만드는 것과 동일
경험의 지식화
최종적으로는 사람이 바뀌었을 때
경험/통찰력이 리셋되는 것을 방지 하기 위함
Step5. 기록하고 정리 (레시피 작성)
54. 매출, 플레이 시간,
일별 방문자,
구매유저, 통화량, 킬 / 데스,
동접, 레벨업 속도,
평균 구매액, 어뷰져,
신규가입,
이탈율,1판 플레이시간, 단위 경험치, 퀘스트 성공율
평균의 함정
55. 평균의 함정
연못의 평균 깊이가 3ft 라고 쓰여 있다면 ??
반 평균이 높다고, 모두가 좋은 점수를 받은 것은 아님
평균값 해석에 있어
평균의 함정을 인지
항상 주의가 필요
* 분석결과의 수치를 맹신하면 안됨
56. 분류 기준을 다양화 하자
Segmentation = 쪼개어 살펴 보기
“레벨”은 가장 보편적인 사용자 분류 기준
“레벨”이 아닌 다른 관점으로 사용자를 쪼개 보자
어떤 것이 가능한가?
1. 이탈유저, 비이탈 유저
2. 부자유저, 가난한 유저
3. 플레이어(사람)의 실력
4. 유저의 가입기간에 따라
57. (증가) 신규 가입자
(감소) 장기 가입자
Case1. “가입기간”에 따른 유저의 반응
X = 일자 (월)
Y=UniqueVisitor
전체 이용자
장기 가입자
신규 가입자
(증가) 장기 가입자
(감소) 신규 가입자
60. Case2. 실력과 승률의 상관관계 (3)
레벨(x), 승률(y)실력점수(x), 승률(y)
실력과 승률의 관계는 상당히 높음
61. 관계(Network)를 이용
플레이어의 실력, 능력, 경제력등의 지표가 아닌
사람들의 관계(Network)로 살펴보기
어떤 것이 가능한가?
게임의 업데이트나 변경 내용을
낮은 비용으로 빠르게 확산 시키기
당장엔 직접적인 수익(매출)의 도움이 안되지만
플레이어들 간의 중심이 되는 “키 사용자”를 관리 (동반 이탈방지)
62. Case3. 관계(Network)을 이용한 소문내기
소문내기
한 명을 이용해 소문을 낸다면 누구에게 알리는 게 가장 효과적인가?
네트워크는 크지만 고립
2~3차 전달력 없음
네트워크의 크기는 작지만
2~3차 전달력이 높음
63. DQA (Data-Driven Quality Assurance)
유저의 플레이 기록을 통해 이상현상을 감지
시스템을 이용한 감지가 가능, 좀더 빠른 발견속도
어떤 것이 가능한가?
1. 어뷰져 탐색
2. 해킹시도의 탐지, 해킹유저의 탐지
3. 서비스 중인 게임의 개발/기획적 오류(Hole) 발견
65. 변화량 추적하기 (스토킹)
1.분류 기준을 활용하여 유저를 집단으로 묶음
2.묶인 집단의 변화량을 지속적으로 추적 관리
지표의 변화량을 집단별로 비교관찰
이벤트, 패치의 효과분석이 편리해짐
어떤 것이 가능한가?
1. 컨트롤 실력이 부족한 이용자
2. 방학 프로모션에 반응 이용자
3. 회귀촉진(귀환) 이벤트 반응한 이용자
4. 패치 후 7일 이내에 접속한 회귀 이용자