SlideShare a Scribd company logo
1 of 19
Download to read offline
+ CHI 2016
/류명균
Data-driven Personas:
Constructing Archetypal Users
with Clickstreams and User
telemetry
- Xiang Zhang, Hans-Frederick Brown, Anil
Shankar
01
02
03
04
05
06
07
WHY THIS PAPER
INTRODUCTION
TELEMETRY AND CLICKSTREAMS
CONSTRUCTING PERSONAS
FIVE PERSONAS VIA HIERARCHICAL CLUSTERING
AND MIXED MODELS
DISCUSSION AND FUTURE WORK
TAKEAWAY
01 WHY THIS PAPER
data-driven 

퍼소나
어떤 데이터를 사용하는지?
데이터를 어떻게 해석해야 하는지?
Data-driven 퍼소나 제작의 전반적인 과정을 상세히 기술한 논문
데이터 클러스터링은 어떻게?

- 몇 개의 클러스터?
유효한 퍼소나일까?
02 INTRODUCTION
1) Big data 분석 플랫폼'Platfora'의 새로운 퍼소나 도출하고자 함
- 4 종류의 퍼소나가 이미 존재하지만, 사업이 확장됨에 따라 새로운 타입의 유저가 생김
- 질적 퍼소나는 사용자의 행동 데이터를 반영할 수 없다는 한계가 있음
웹사이트의 Click data를 활용한 data-driven 퍼소나 방법을 제시하고자 함
- Bottom-up 방식

- 서베이나 인터뷰 대신 2단계의 통계적 머신러닝 기법 활용
2) Data-driven 퍼소나로 접근
03 TELEMETRY AND CLICKSTREAM
데이터 수집 및 처리
- 웹 사이트의 Click 데이터 수집

- 수집 기간 : 2년간 수집 (2013~2015)
수집 된 Click 데이터를 Clickstream으로 변환
- 한 로그인 세션의 모든 Click 데이터 시퀀스

- 적어도 20개 이상의 Click 데이터


(20개 이하는 의미를 갖기에 너무 짧음)

- ID도 같이 매핑

- 시작시간으로 구분
- 총 3.5백만개의 Click 데이터 → 39,000개의 Clickstream
- 30개 거래처의 2,400 명의 유저
데이터 수
04 CONSTRUCTING PERSONAS
Step 1 : Clickstream 간의 거리 행렬 계산
Step 2 : Clickstream 클러스터링
Step 3 : Clickstream을 common workflow로 매핑
Step 4 : Mixed model 사용하여 퍼소나 제작
04 CONSTRUCTING PERSONAS
Step 1 : Clickstream 간의 거리 행렬 계산
Step 2 : Clickstream 클러스터링
Step 3 : Clickstream을 common workflow으로 매핑
Step 4 : Mixed model 사용하여 퍼소나 제작
04 CONSTRUCTING PERSONAS
Step 1 : Clickstream 간의 거리 행렬 계산
Jaccard index를 사용하여 유사도 계산
: 전체 unique click 수에서 공통 unique click 수의 비율
2개의 Clickstream의 유사도; S1, S2

S1 = {A, B, B, C, D, B, A, C}

S2 = {E, F, F, B, A, C, B, B}
전체 unique click = {A, B, C, D, E, F}

공통 unique clikc = {A, B, C}
두 clickstram의 유사도

0.5 = 3/6
(예시)
04 CONSTRUCTING PERSONAS
Step 2 : Clickstream 클러스터링
Ward's hierarchical clustering
- 클러스터의 수를 정할 필요가 없음
04 CONSTRUCTING PERSONAS
Step 4 : Mixed model 사용
가정 : common workflow의 빈도가 비슷하다면 같은 퍼소나를 가질 것이다.
Expectation-Maximization(EM) 알고리듬을 이용하여 

Maximum Likelihood Estimators(MLE) 계산
[빨강 0.5 / 노랑 0.5]
[초록 지배적]
[분홍 0.5 / 파랑 0.5]
* 하나의 원은 하나의 Clickstream
05 FIVE PERSONAS VIA HIERARCHICAL CLUSTERING AND MIXED MODELS
1. Click data 수집
2. Click data를 Clickstream으로 변환
3. Clickstream을 클러스터링하여 10개의 common workflow 도출
4. 각 유저의 common workflow 빈도 계산
5. 5개의 퍼소나 생성
05 FIVE PERSONAS VIA HIERARCHICAL CLUSTERING AND MIXED MODELS
Clickstream을 클러스터링하여 10개의 common workflow 도출
- 전문가 관점과 각 클러스터의 25개 대표 Click을 보고, 클러스터링의 기준을 잡음

- 기존 퍼소나는 클러스터링 과정에 도움을 줌
05 FIVE PERSONAS VIA HIERARCHICAL CLUSTERING AND MIXED MODELS
- 사용자 행동 전문가와 함께 14개의 웹 페이지 key step을 도출함

- Figure 7은 각 클러스터의 key step click 빈도를 나타냄
Clickstream을 클러스터링하여 10개의 common workflow 도출
05 FIVE PERSONAS VIA HIERARCHICAL CLUSTERING AND MIXED MODELS
: Build lens with optional modification to a dataset
Clickstream을 클러스터링하여 10개의 common workflow 도출
- Key step 빈도를 이용하여 Cluster3은 다음과 같이 설명할 수 있음
05 FIVE PERSONAS VIA HIERARCHICAL CLUSTERING AND MIXED MODELS
Clickstream을 클러스터링하여 10개의 common workflow 도출
- 모든 common workflow의 특징
05 FIVE PERSONAS VIA HIERARCHICAL CLUSTERING AND MIXED MODELS
- 사용자 행동 전문가 의견을 바탕으로 5개의 퍼소나 생성

- 사용자 수 : 총 1,011명 (Clickstream 수 5이상)
5개의 퍼소나 생성
05 FIVE PERSONAS VIA HIERARCHICAL CLUSTERING AND MIXED MODELS
Luis
Jeffrey
Debra
Marybeth
Dave
5개의 퍼소나 생성
- Common workflow를 바탕으로 description 작성
5. Pure Vizboards user
(Debra):


Unlike the previous personas,
this persona’s clickstreams has
a 95 percent probability of
representing just one of the
three common work
fl
ows
related to Vizboards. This is
the only non Full-stack user
among the
fi
ve personas.
06 DISCUSSION AND FUTURE WORK
- Interviewer or noisy self-report에 의한 추론이 적다
5개의 퍼소나는 사용자 행동 전문가 인터뷰에 의해 

해당 프로덕트의 전형적인 유저라는 것이 증명되었다
자동으로 데이터가 모이기 때문에 비용이 적게 들고, 직접적인 접근 방법이다
Clickstream 기반 퍼소나 제작은 확장성을 가지고 있다
기존의 퍼소나가 변하는 것을 목격했다
기존 퍼소나 Jeffrey
- 데이터 사이언티스트

- dataset을 다루는 것에 능숙함

- Data curation과 visualization 전문가

- 인사이트를 공유하는 것에 관심 없음
Clikstream의 순서 정보를 포함시키는 것은 의미가 있을 것이다
우리의 접근 방식이 clickstream 데이터나 분석 플랫폼에 한정적이지 않다 (Domain neutral)
새로운 퍼소나 Jeffrey
- full-stack user

- dataset을 다루는 것에 능숙함

- Data curation과 visualization 전문가

- 인사이트를 공유하는 것에 관심 있음
07 TAKEAWAY
1. 적당한 가정을 세우는 것이 필요하다.
예) common workflow의 빈도가 비슷하다면 같은 퍼소나를 가질 것이다.
2. 행동 변수를 클러스터링하고, 사람은 클러스터의 비율로 분류하는 것은 유효하다.
3. 사람의 행동을 대변할 수 있는 하나의 행동 변수를 찾는 것이 필요하다.
예) click의 합을 clickstream으로 변환하여 사용
4. Bottom-up 퍼소나가 능사는 아니다..?
- 너무 지엽적인 행동에 대한 퍼소나가 아닌지?

- 그럼 어느정도 퍼소나가 되야하는지?
5. 전문가 인터뷰를 통해 퍼소나가 타당한지 증명하는 것이 옳을까..?

More Related Content

Similar to Data-driven personas: constructing archetypal users with clickstreams and user telemetry

사업계획서 알음알음 포스코기술투자
사업계획서 알음알음 포스코기술투자사업계획서 알음알음 포스코기술투자
사업계획서 알음알음 포스코기술투자
Sangmo Kang
 
사업계획서 알음알음 포스코기술투자
사업계획서 알음알음 포스코기술투자사업계획서 알음알음 포스코기술투자
사업계획서 알음알음 포스코기술투자
Sangmo Kang
 
Recommendation System History
Recommendation System HistoryRecommendation System History
Recommendation System History
Tae Young Lee
 

Similar to Data-driven personas: constructing archetypal users with clickstreams and user telemetry (14)

BS501 발표자료
BS501 발표자료BS501 발표자료
BS501 발표자료
 
사업계획서 알음알음 포스코기술투자
사업계획서 알음알음 포스코기술투자사업계획서 알음알음 포스코기술투자
사업계획서 알음알음 포스코기술투자
 
인공지능추천시스템 airs개발기_모델링과시스템
인공지능추천시스템 airs개발기_모델링과시스템인공지능추천시스템 airs개발기_모델링과시스템
인공지능추천시스템 airs개발기_모델링과시스템
 
Ruby on Rails와 함께 하는 애자일 웹 개발
Ruby on Rails와 함께 하는 애자일 웹 개발Ruby on Rails와 함께 하는 애자일 웹 개발
Ruby on Rails와 함께 하는 애자일 웹 개발
 
인터넷서비스사업의개요
인터넷서비스사업의개요인터넷서비스사업의개요
인터넷서비스사업의개요
 
사업계획서 알음알음 포스코기술투자
사업계획서 알음알음 포스코기술투자사업계획서 알음알음 포스코기술투자
사업계획서 알음알음 포스코기술투자
 
Recommendation System History
Recommendation System HistoryRecommendation System History
Recommendation System History
 
Recommendatioin system basic
Recommendatioin system basicRecommendatioin system basic
Recommendatioin system basic
 
[Msd06]mapping
[Msd06]mapping[Msd06]mapping
[Msd06]mapping
 
[HBR] How to launch your Digital platform
[HBR] How to launch your Digital platform[HBR] How to launch your Digital platform
[HBR] How to launch your Digital platform
 
그로스 해킹의 시작, 모두가 데이터의 가치를 알게 하는 법!
그로스 해킹의 시작, 모두가 데이터의 가치를 알게 하는 법!그로스 해킹의 시작, 모두가 데이터의 가치를 알게 하는 법!
그로스 해킹의 시작, 모두가 데이터의 가치를 알게 하는 법!
 
[225]NSML: 머신러닝 플랫폼 서비스하기 & 모델 튜닝 자동화하기
[225]NSML: 머신러닝 플랫폼 서비스하기 & 모델 튜닝 자동화하기[225]NSML: 머신러닝 플랫폼 서비스하기 & 모델 튜닝 자동화하기
[225]NSML: 머신러닝 플랫폼 서비스하기 & 모델 튜닝 자동화하기
 
Understanding MLOps
Understanding MLOpsUnderstanding MLOps
Understanding MLOps
 
데이터분석을 통한 의사결정 장혜린 박재욱
데이터분석을 통한 의사결정  장혜린 박재욱 데이터분석을 통한 의사결정  장혜린 박재욱
데이터분석을 통한 의사결정 장혜린 박재욱
 

More from Myeonggyun Ryu

More from Myeonggyun Ryu (11)

Assumptions Checked: How Families Learn About and Use the Echo Dot
Assumptions Checked: How Families Learn About and Use the Echo DotAssumptions Checked: How Families Learn About and Use the Echo Dot
Assumptions Checked: How Families Learn About and Use the Echo Dot
 
Summary : Understanding the long term use of smart speaker assistants
Summary : Understanding the long term use of smart speaker assistantsSummary : Understanding the long term use of smart speaker assistants
Summary : Understanding the long term use of smart speaker assistants
 
resilient chatbots: repair strategy preferences for conversational breakdowns
resilient chatbots: repair strategy preferences for conversational breakdownsresilient chatbots: repair strategy preferences for conversational breakdowns
resilient chatbots: repair strategy preferences for conversational breakdowns
 
What Can I say? Effects of Discoverability in VUIs on Task Performance and Us...
What Can I say? Effects of Discoverability in VUIs on Task Performance and Us...What Can I say? Effects of Discoverability in VUIs on Task Performance and Us...
What Can I say? Effects of Discoverability in VUIs on Task Performance and Us...
 
Guidelines for Human-AI 
Interaction / CHI2019
Guidelines for Human-AI 
Interaction / CHI2019Guidelines for Human-AI 
Interaction / CHI2019
Guidelines for Human-AI 
Interaction / CHI2019
 
Understanding Users’ Perception Towards Automated Personality Detection with ...
Understanding Users’ Perception Towards Automated Personality Detection with ...Understanding Users’ Perception Towards Automated Personality Detection with ...
Understanding Users’ Perception Towards Automated Personality Detection with ...
 
Book 'Ghost Work' summary
Book 'Ghost Work' summaryBook 'Ghost Work' summary
Book 'Ghost Work' summary
 
A framework for interaction driven user modeling of mobile news reading behav...
A framework for interaction driven user modeling of mobile news reading behav...A framework for interaction driven user modeling of mobile news reading behav...
A framework for interaction driven user modeling of mobile news reading behav...
 
Understanding self reflection: how people refelct on personal data through vi...
Understanding self reflection: how people refelct on personal data through vi...Understanding self reflection: how people refelct on personal data through vi...
Understanding self reflection: how people refelct on personal data through vi...
 
Guess the data, data work to understand how people make sense of and use simp...
Guess the data, data work to understand how people make sense of and use simp...Guess the data, data work to understand how people make sense of and use simp...
Guess the data, data work to understand how people make sense of and use simp...
 
How users of shared smart speakers perceive and cope with privacy risks
How users of shared smart speakers perceive and cope with privacy risksHow users of shared smart speakers perceive and cope with privacy risks
How users of shared smart speakers perceive and cope with privacy risks
 

Data-driven personas: constructing archetypal users with clickstreams and user telemetry

  • 1. + CHI 2016 /류명균 Data-driven Personas: Constructing Archetypal Users with Clickstreams and User telemetry - Xiang Zhang, Hans-Frederick Brown, Anil Shankar
  • 2. 01 02 03 04 05 06 07 WHY THIS PAPER INTRODUCTION TELEMETRY AND CLICKSTREAMS CONSTRUCTING PERSONAS FIVE PERSONAS VIA HIERARCHICAL CLUSTERING AND MIXED MODELS DISCUSSION AND FUTURE WORK TAKEAWAY
  • 3. 01 WHY THIS PAPER data-driven 퍼소나 어떤 데이터를 사용하는지? 데이터를 어떻게 해석해야 하는지? Data-driven 퍼소나 제작의 전반적인 과정을 상세히 기술한 논문 데이터 클러스터링은 어떻게? - 몇 개의 클러스터? 유효한 퍼소나일까?
  • 4. 02 INTRODUCTION 1) Big data 분석 플랫폼'Platfora'의 새로운 퍼소나 도출하고자 함 - 4 종류의 퍼소나가 이미 존재하지만, 사업이 확장됨에 따라 새로운 타입의 유저가 생김 - 질적 퍼소나는 사용자의 행동 데이터를 반영할 수 없다는 한계가 있음 웹사이트의 Click data를 활용한 data-driven 퍼소나 방법을 제시하고자 함 - Bottom-up 방식 - 서베이나 인터뷰 대신 2단계의 통계적 머신러닝 기법 활용 2) Data-driven 퍼소나로 접근
  • 5. 03 TELEMETRY AND CLICKSTREAM 데이터 수집 및 처리 - 웹 사이트의 Click 데이터 수집 - 수집 기간 : 2년간 수집 (2013~2015) 수집 된 Click 데이터를 Clickstream으로 변환 - 한 로그인 세션의 모든 Click 데이터 시퀀스 - 적어도 20개 이상의 Click 데이터 
 (20개 이하는 의미를 갖기에 너무 짧음) - ID도 같이 매핑 - 시작시간으로 구분 - 총 3.5백만개의 Click 데이터 → 39,000개의 Clickstream - 30개 거래처의 2,400 명의 유저 데이터 수
  • 6. 04 CONSTRUCTING PERSONAS Step 1 : Clickstream 간의 거리 행렬 계산 Step 2 : Clickstream 클러스터링 Step 3 : Clickstream을 common workflow로 매핑 Step 4 : Mixed model 사용하여 퍼소나 제작
  • 7. 04 CONSTRUCTING PERSONAS Step 1 : Clickstream 간의 거리 행렬 계산 Step 2 : Clickstream 클러스터링 Step 3 : Clickstream을 common workflow으로 매핑 Step 4 : Mixed model 사용하여 퍼소나 제작
  • 8. 04 CONSTRUCTING PERSONAS Step 1 : Clickstream 간의 거리 행렬 계산 Jaccard index를 사용하여 유사도 계산 : 전체 unique click 수에서 공통 unique click 수의 비율 2개의 Clickstream의 유사도; S1, S2 S1 = {A, B, B, C, D, B, A, C} S2 = {E, F, F, B, A, C, B, B} 전체 unique click = {A, B, C, D, E, F} 공통 unique clikc = {A, B, C} 두 clickstram의 유사도 0.5 = 3/6 (예시)
  • 9. 04 CONSTRUCTING PERSONAS Step 2 : Clickstream 클러스터링 Ward's hierarchical clustering - 클러스터의 수를 정할 필요가 없음
  • 10. 04 CONSTRUCTING PERSONAS Step 4 : Mixed model 사용 가정 : common workflow의 빈도가 비슷하다면 같은 퍼소나를 가질 것이다. Expectation-Maximization(EM) 알고리듬을 이용하여 Maximum Likelihood Estimators(MLE) 계산 [빨강 0.5 / 노랑 0.5] [초록 지배적] [분홍 0.5 / 파랑 0.5] * 하나의 원은 하나의 Clickstream
  • 11. 05 FIVE PERSONAS VIA HIERARCHICAL CLUSTERING AND MIXED MODELS 1. Click data 수집 2. Click data를 Clickstream으로 변환 3. Clickstream을 클러스터링하여 10개의 common workflow 도출 4. 각 유저의 common workflow 빈도 계산 5. 5개의 퍼소나 생성
  • 12. 05 FIVE PERSONAS VIA HIERARCHICAL CLUSTERING AND MIXED MODELS Clickstream을 클러스터링하여 10개의 common workflow 도출 - 전문가 관점과 각 클러스터의 25개 대표 Click을 보고, 클러스터링의 기준을 잡음 - 기존 퍼소나는 클러스터링 과정에 도움을 줌
  • 13. 05 FIVE PERSONAS VIA HIERARCHICAL CLUSTERING AND MIXED MODELS - 사용자 행동 전문가와 함께 14개의 웹 페이지 key step을 도출함 - Figure 7은 각 클러스터의 key step click 빈도를 나타냄 Clickstream을 클러스터링하여 10개의 common workflow 도출
  • 14. 05 FIVE PERSONAS VIA HIERARCHICAL CLUSTERING AND MIXED MODELS : Build lens with optional modification to a dataset Clickstream을 클러스터링하여 10개의 common workflow 도출 - Key step 빈도를 이용하여 Cluster3은 다음과 같이 설명할 수 있음
  • 15. 05 FIVE PERSONAS VIA HIERARCHICAL CLUSTERING AND MIXED MODELS Clickstream을 클러스터링하여 10개의 common workflow 도출 - 모든 common workflow의 특징
  • 16. 05 FIVE PERSONAS VIA HIERARCHICAL CLUSTERING AND MIXED MODELS - 사용자 행동 전문가 의견을 바탕으로 5개의 퍼소나 생성 - 사용자 수 : 총 1,011명 (Clickstream 수 5이상) 5개의 퍼소나 생성
  • 17. 05 FIVE PERSONAS VIA HIERARCHICAL CLUSTERING AND MIXED MODELS Luis Jeffrey Debra Marybeth Dave 5개의 퍼소나 생성 - Common workflow를 바탕으로 description 작성 5. Pure Vizboards user (Debra): 
 Unlike the previous personas, this persona’s clickstreams has a 95 percent probability of representing just one of the three common work fl ows related to Vizboards. This is the only non Full-stack user among the fi ve personas.
  • 18. 06 DISCUSSION AND FUTURE WORK - Interviewer or noisy self-report에 의한 추론이 적다 5개의 퍼소나는 사용자 행동 전문가 인터뷰에 의해 해당 프로덕트의 전형적인 유저라는 것이 증명되었다 자동으로 데이터가 모이기 때문에 비용이 적게 들고, 직접적인 접근 방법이다 Clickstream 기반 퍼소나 제작은 확장성을 가지고 있다 기존의 퍼소나가 변하는 것을 목격했다 기존 퍼소나 Jeffrey - 데이터 사이언티스트 - dataset을 다루는 것에 능숙함 - Data curation과 visualization 전문가 - 인사이트를 공유하는 것에 관심 없음 Clikstream의 순서 정보를 포함시키는 것은 의미가 있을 것이다 우리의 접근 방식이 clickstream 데이터나 분석 플랫폼에 한정적이지 않다 (Domain neutral) 새로운 퍼소나 Jeffrey - full-stack user - dataset을 다루는 것에 능숙함 - Data curation과 visualization 전문가 - 인사이트를 공유하는 것에 관심 있음
  • 19. 07 TAKEAWAY 1. 적당한 가정을 세우는 것이 필요하다. 예) common workflow의 빈도가 비슷하다면 같은 퍼소나를 가질 것이다. 2. 행동 변수를 클러스터링하고, 사람은 클러스터의 비율로 분류하는 것은 유효하다. 3. 사람의 행동을 대변할 수 있는 하나의 행동 변수를 찾는 것이 필요하다. 예) click의 합을 clickstream으로 변환하여 사용 4. Bottom-up 퍼소나가 능사는 아니다..? - 너무 지엽적인 행동에 대한 퍼소나가 아닌지? - 그럼 어느정도 퍼소나가 되야하는지? 5. 전문가 인터뷰를 통해 퍼소나가 타당한지 증명하는 것이 옳을까..?