[Causal Inference KR] 스타트업에서의 인과추론

스타트업에서의 인과추론
부제: 프로덕트 데이터 분석가의 인과추론 분석 회고
2021.11.02 최보경 | Causal Inference KR

오늘은 연구 사례가 아닌
실무 이야기 나눔입니다.

저를 모르실테니
최보경이라고 합니다.
§ 매스프레소에서 프로덕트 데이터 분석가(Product Analyst)로 일하고 있습니다.
§ 매스프레소는 콴다(QANDA)라는 앱을 서비스하고, 콴다는 학생들이 모르는 문제를
검색하고 선생님께 질문해서 해결하고, 친구들끼리 소통도 할 수 있는 앱이에요.
§ 학부는 고려대학교에서 경영학, 인공지능학을 공부했습니다.
§ 요즘은 블로그를 씁니다! https://medium.com/bondata

4개의 목차
인과추론에
빠져드는 이유
A/B 테스트
현실, 왜
안된다고 할까?
실험이 예상치
못한 제품 지표를
침해했다
기능을 늘리는 게
MAU 성장에
도움이 될까?

1. 인과추론에 빠져드는 이유

인과추론에 빠져드는 이유
스타트업에서 인과추론이 중요한 단계
1. 신 제품이 시장에서 니즈가 있는 것인지 검증 (리텐션을 통한 Product Market Fit)
2. PMF 검증을 한 후, 지표의 성장을 위해 다수의 실험을 진행.
3. 실험 진행의 목적은 지표를 성장시킬 수 있는 인과 관계를 찾는 것.
§ 생존을 위한 성장
§ 성장을 위한 인과관계 발굴
§ 인과관계를 찾기 위한 실험
인과관계 분석에 따라 비즈니스 전략을 세우는 것이 기업의 일상적인 업무가 되어가고 있다.
- 이토 고이치로, <데이터 분석의 힘> (2018)

[1] 대 그로스 시대로 실험이 더 많이 보급되고 핫해짐. 사내에서도 실험의 인기 화끈!
§ 2014년 ~ 2016년 : 실험 중시의 시대 (린 스타트업, A/B 테스트)
§ 2016년 ~ 2018년 : 머신러닝 유행과 데이터의 일반화
§ 2018년 ~ 2020년 : 대 그로스 시대 (그로스 해킹이 트렌드화, 제품화, 모든 직군이
데이터를 보기 시작)
출처: 하용호님, FastCampus 강의
[2] 실험을 설계할 때 복잡도가 올라가는 경우 엄밀히 설계하기 위해
§ 종종 테스트의 복잡도가 올라감 (실험군의 개수가 증가, 변인의 개수가 증가)
§ Summer Session 강의들, 연구들, 해외 블로그 글들 보며 어떻게 세팅했는지
참고하기 시작
[3] 실무에서 실험이 불가능한 상황들이 있지만, 그래도 우리는 효과가 어떠하냐는
질문에 대답해야 하기 때문에
§ 실험이 없었을 때도 결론을 내릴 수 있는 대안 방법론들을 찾기 시작
그래서 왜 빠져드냐?

다른 발표에서도 인과추론 공부를 추천드렸습니다.
저는 이미 빠져서..
모바일 프로덕트(앱) 개선 + 인과추론 등등 에 관심 있는 분들을 모으는 공간을 만들기도 하구요.
https://www.facebook.com/groups/talkinpap

개인적인 생각
§ 기업에서 인과추론을 공부하고 사용하는 의미는 데이터 분석 방법론 활용하는 것 그 이상
§ 기업의 의사결정이 ‘데이터, 논리, 인과관계’를 기반으로 이루어질 수 있길 바라는 마음
공감
출처: 이윤석님, Causal Inference in Industy (1) AB Test

2. A/B 테스트 현실, 왜 안된다고 할까?

A/B 테스트 현실, 왜 안된다고 할까?
Spillover Effect
Case 1 : Uber
§ 미국 드라이버들은 Trip마다 팁을 받는데, 드라이버별로 현금 팁 or 신용 카드를 통한
팁에 대한 선호가 있다고 합니다.
§ Ride request 팝업에 현금 결제 Trip인지 신용카드 결제 Trip 인지 여부를 보여주는
피쳐를 만들고 [1] Ride acceptance rate(Ride request를 수락하는 비율 )’와 [2]
Unpaid Service fees(Uber가 드라이버에게 청구하는 수수료)’변화를 측정.
출처: Uber’s synthetic control 발표
새롭게 런칭하는 Ride request 팝업 기능

Spillover Effect
Case 1 : Uber
§ 실험군이 Ride request를 거절하면 → 그 거절된 Ride request들을 전부 대조군이 받게
되는 형태 (다수의 드라이버들이 Service Fee가 자동으로 떼이지 않는 Cash Trip을 선호)
§ 실험군에 처치를 적용한 결과가 대조군에 영향을 주는 구조
출처: Uber’s synthetic control 발표
실험군이 Cash Trip을
모두 차지하고, 남은
Credit Card Trip은
대조군의 몫이 됨

Spillover Effect
Case 2 : SNS 피드
§ 실험군 유저, 대조군 유저가 SNS상에서 친구
§ 실험군 유저의 피드에 실험이 적용되어 ‘상품 X’가 노출되었고 구매하고, 좋아요를 클릭
§ 대조군 유저의 피드에 실험군 유저가 좋아요를 클릭한 ‘상품 X’가 피드에 노출되어 구매
§ 실험군과 대조군이 서로 상호 작용 가능 / 실험군의 행동이 대조군에게 영향을 미치는 구조
Spillover VS SUTVA (Stable Unit Treatment Value Assumption)
§ SUTVA implies no unmodeled spillovers.
§ SUTVA rules out "spillover effects" that occur, for example, when treated
individuals transmit the information contained in the treatment to the control
group (Rosenbaum 2007).
출처:
§ https://community.lawschool.cornell.ed
u/wp-content/uploads/2020/12/Green-
presentation-on-SUTVA-for-CELS.pdf
§ https://www.jstor.org/stable/23317173

이런 설계가 불가능한 상황이 아니어도 테스트가 안될 때가 있다
§ 앞서 말한 Spillover Effect 가 발생하는 상황이 아니어도, 테스트가 어려움.
§ 데이터도 많고, 설계도 가능한 조건인데 Why not?
상위 위계인 랜덤 실험,
가장 빠르고 정확한데 왜 안될까?

이런 설계가 불가능한 상황이 아니어도 안될 때가 있다
§ 앞서 말한 Spillover Effect 가 발생하는 상황이 아니어도 안되는 경우들이 존재
§ 데이터도 많고, 설계도 가능한 조건인데 Why not?
상위 위계인 랜덤 실험,
가장 빠르고 정확한데 왜 안될까?
실무에서 협업하면서
알 수 있었던 그 이유는?

Product Owner/ Manager 입장에서 A/B 테스트를 지양하게 되는 케이스들이 존재
§ 개발 리소스 및 타임라인을 적절히 설정하는 것 VS 정확한 효과를 측정하는 것
§ 테스트 가능한 유저의 수가 적을 때 VS 많을 때
§ 기능에 대한 강한 확신과 근거가 있을 때(Low risk) VS 없을 때(High risk)
A/B Test
참고: https://www.braze.com/resources/articles/not-worth-ab-testing
100%
Rollout

De-risking for Product Managers
§ 프로덕트 개발의 리스크를 줄이는 방법들: 사용자 리서치, 데이터 분석, A/B 테스트 등
§ 상황에 맞게 다른 방법들을 적용 가능: 유저 수 트래픽, Sophistication 축에 따라
출처: https://www.minwookim.kr/de-risking-for-product-managers/
§ 유저가 본인의 니즈를 잘 알고 있는 정도
§ 서비스의 복잡도를 잘 이해하고 있는 정도
§ 유저 수 트래픽

3. 실험이 예상치 못한 제품 지표를 침해했다

실험이 예상치 못한 제품 지표를 침해했다
광고 실험
6개월 간 5차례 (30일씩)
풀고자 하는 문제
§ 유저들에게 어떤 지면에 어떤 광고 형태를 얼마의 노출 빈도로 보여줘야 유저의
이탈이 통계적으로 유의하게 없는 수준에서 매출을 최대화할 수 있을까?
§ 총 7개의 언어권에 서비스 중이고 유저의 특성이 다르므로, 언어권별로 실험 세팅을
달리하자.
국가별 다변량 테스트 진행
지면, 광고 형태 예시

광고 실험 결과 (3차 실험)
§ 유저가 문제를 검색하고, 풀이 결과를 기다리는 지면에서 광고를 추가
§ 총 11가지의 메트릭에 대해 통계적 검정을 진행
§ 풀이 결과 이후 ‘같은 유형의 문제'를 조회하는 개수가 실험군에서 대조군 대비 증가
실험 기간
대조군들

광고 실험 결과
§ 현상을 이해하기 위해서 UX Flow 확인!
문제 검색 검색 결과 유사 문제 풀기

검색 기능에
광고 추가
문제 조회
횟수 상승
대체 왜 광고가 추가된 실험군에서 문제 조회 개수가 상승했지?
검색에서 광고를 보는 행동이 문제를 풀고자 하는 의사랑 무슨 관계가..?

검색 기능에
광고 추가
문제 조회
횟수 상승
광고 스킵 위해
주황색 하단 버튼
연타
유저들이 광고가 뜰 때 검색 결과를 보러 가기 위한 버튼 (CTA)을 미리 연타해,
광고를 빠르게 넘기고자 함.
이 때 의도치 않게, 같은 위치에 있던 ‘다음’ 버튼까지 눌러서 문제 조회까지
전환되는 현상
검색 기능에
광고 추가
문제 조회
횟수 상승

배운 것
§ 유저의 경험을 저해할 수 있는 실험을 진행할 때에는 기능이 추가되는 지면 외에도
프로덕트 전반에 걸쳐 영향을 받는 메트릭이 없는지를 살피는 것이 중요
§ 광고가 유저의 검색 경험을 불편하게 만드는 부분을 파악하고 대응하는 것도 중요
(단계별로 검색 결과를 보여주는 프로덕트가 마침 제거되고 있는 수순을 밟고 있어서
해결되었습니다)
이해 안되는 인과 관계 이해 완료

4. 기능을 늘리는 게 MAU 성장에 도움이 될까?
MAU : Monthly Active User (월간 활성 이용자 수)

기능을 늘리는 게 MAU 성장에 도움이 될까?
슈퍼앱
§ 슈퍼앱: 하나의 앱에 여러 기능 및 서비스를 담은 앱
§ 본래 트래픽을 키울 수 있었던, 성공적이었던 기능의 도메인을 기반으로 서비스를
확장합니다. + 성공적이었던 국가를 기반으로, 해외 국가로 서비스를 확장할 수도 있구요.
예시
§ 야놀자 : 여가 슈퍼앱 (숙박 => 교통, 해외 여행, 원데이 클래스 등)
§ 배달의민족 : 푸드 슈퍼앱 (음식 배달 => 장보기, 쇼핑라이브, 선물하기, 맛집 배달 등)
§ 콴다 : 교육 슈퍼앱 (검색 => 타이머, 문제집, 퀴즈 이벤트, 커뮤니티 등)

A/B 테스트는 안했지만, 2020년 11월에 출시됐던
퀴즈퀴즈 기능이 유저의 리텐션을 얼마나 높였는지 그
효과를 알려주세요. (글로벌 확장 목적)
테스트를 진행하지 않아 가장 정답에
가까운 인과 효과는 볼 수 없겠지만,
대안 방법론들로 추정해볼게요.
기능 사용 재방문 MAU
실무에서 들어온 질문

퀴즈퀴즈
§ 콴다 앱에서 매주 2~3회 열리는 수학 퀴즈 대회
§ 1등으로 우승하면 ‘코인’ 제공
§ ‘코인’은 앱 내에서 선생님들한테 질문할 때 사용할 수 있는 화폐 단위 (유료 충전 가능)

고민의 과정
1. 통제 집단으로 사용할 수 있는 샘플이 있을까? (예: 다른 국가, 출시 시기가 늦어졌던 OS,
기능이 없는 앱 버전을 사용하는 유저, 기능이 배포되지 않은 학년 등)
2. 인과추론 서머 세션의 다이어그램을 따라가면 어떤 방법을 쓸 수 있을까?

고민의 과정
1. 통제 집단으로 사용할 수 있는 샘플이 있을까? (예: 다른 국가, 출시 시기가 늦어졌던 OS,
기능이 없는 앱 버전을 사용하는 유저, 기능이 배포되지 않은 학년 등)
2. 인과추론 서머 세션의 다이어그램을 따라가면 어떤 방법을 쓸 수 있을까?
고민의 결론
Matching 으로 통제 집단을
설정한 후 DID를 사용하자.
통제 집단 설정 없이,
Counterfactual 데이터를
예측하는 CausalImpact 를
사용하자.

Matching & DID
§ 대조군 없이 100% 배포가 되었던 상황이므로, 대조군처럼 사용할 수 있는 집단을
찾아서 통제 집단으로 가정. 통제 집단 대비 실험군에서 발생한 지표의 증분 상승을
통해서 인과 효과를 추정하는 Difference-in-Differences 방식을 사용
§ 통제 집단을 찾기 위해서 Look-forward Matching 을 사용
슬라이드 출처 : 서머 셰션

Look-forward Matching
실험군 Adoption Period 대조군 Adoption Period
실험, 대조군 리텐션 측정 기간
기능 출시일
2020-11-16
§ 실험군 : 2020-11-16 부터 2021-02-07 까지 퀴즈퀴즈에 1회 이상 참여한 유저
(출시 ~ 출시 후 3개월 이내)
§ 대조군 : 2020-11-16 부터 2021-02-07 까지 퀴즈퀴즈에 참여하지 않고, 2021-
02-07 부터 2021-04-04 까지 퀴즈퀴즈에 1회 이상 참여한 유저 (출시 후 3개월
~ 출시 후 5개월 이내)
§ 베이스라인 : 2020-11-16 부터 2021-04-04 까지 퀴즈퀴즈에 참여하지 않은
유저 (출시 ~ 출시 후 5개월 이내)
§ 리텐션 측정 기간 : 2020-08-25 부터 2021-02-07까지 (출시 전 3개월 ~ 출시
후 3개월 이내)

Difference-in-Differences
차트에 2가지 라인 중 (가정) 값은 2020-11-16부터는
존재하지 않는 Counterfactual 데이터로 이해를 돕기 위해
가상으로 숫자를 기입하였다.
2020-08-31 ~ 2020-11-16까지 퀴즈퀴즈 출시하기 전
실험군, 대조군, 베이스라인 간의 WR 이 Parallel Trend
Assumption (트렌드가 평행할 것)을 만족한다.
21년 2월에는 설날 연휴로 2주간 일주일에 하루씩 퀴즈퀴즈를
운영하지 않았다.

결론
Limitations
§ Look-forward matching 에서 실험군과 통제 집단 사이에 차이를 줄 수 있는 변수를
생각해봤을 때 가입일 분포가 다를 수 있을 것으로 판단했습니다. 확인 결과, ‘기능
출시일 – 가입일’의 평균을 두 그룹간 비교할 경우 7일 정도 차이를 보였습니다. (평균
500 ~ 600일대)
§ 주어진 시간의 한계로 Robustness check를 위해 어떤 걸 해보면 좋았을까? 에 대한
고민과 실행이 모자랐다는 점.
§ 1월에 실험군의 WR이 감소하는 경향을 퀴즈퀴즈 운영 플랜 변경 외로, 다른 설명할 수
있는 원인을 찾기 어려웠던 점.

CausalImpact (Predicting counterfactual data)
§ 대조군으로 유추할 수 있는 데이터가 1개도 없는 상황입니다.
§ 이벤트 이전의 데이터들을 기반으로, 이벤트 이후 기간에 ‘이벤트’가 없었을 경우의 y의 흐름을
예측합니다.
§ 예측된 그 y의 흐름이 곧 synthetic control로, 가상의 대조군으로 사용합니다.
§ 실제 데이터(실험군) - 가상의 대조군 = 이벤트를 통한 인과 효과를 추정합니다.
출시 시점 MAU

CausalImpact (Predicting counterfactual data)
[1] 이벤트 이후 y의 예측에 있어서, 이벤트 이전의 y와 상관이 높은 공변량 변수들을 찾고,
검증하는 과정 (y: daily MAU)
§ y의 흐름과 유사하면서 반드시 이벤트에 영향을 받지 않는 변수여야 합니다.
[2] Google CausalImpact의 기본이 되는 인과 효과 추정에 사용되는 예측 모델은 텐서플로우의
Bayesian Structured Time Series (BSTS)입니다. Time-series forecasting and causal
analysis in R with Facebook Prophet and Google CausalImpact (2020.09)를
참고하여,시즈널리티 반영 및 튜닝할 수 있는 여지가 많아 성능이 좋기로 유명한 시계열 예측
패키지 Facebook의 Prophet과의 오차 비율을 함께 보았습니다..
BSTS와 Prophet의 y값이
유사해지도록, 또한 각 모델이
이벤트 이전 y 데이터에
오버피팅이 되지 않도록
파라미터들을 조정했습니다.
Prophet 에는 중간고사,
기말고사, 주요 프로덕트
업데이트 일자를 반영

Getting Covariates
§ 동 시기에 특정 이벤트(퀴즈퀴즈 출시)가 없었던 국가의 Daily MAU (Daily Sliding Window)
§ 경쟁사 DAU (Sensortower 활용)
§ 검색어 트래픽 (Google Trends)
§ y와 상관 계수 0.6 이상인 변수만 사용했습니다.

§ event date: 2020-11-30 (점진적
학년별 출시 마무리일)
§ train dataset: 2019-12-02 ~
2020-11-29
§ Predicted dataset: 2020-11-30 ~
2021-02-21
§ features correlation coefficient
threshold: 0.6
CausalImpact Result

CausalImpact Result with Prophet
2020-11-29
2021-02-21
threshold: 0.6

CausalImpact Result with Prophet
Error rate = (실제 y 값 - 예측된 y값)/ 실제 y값
2020-11-29
2021-02-21
threshold: 0.6

CausalImpact 결론
§ 퀴즈퀴즈 출시일 이후 평균적인 MAU (Daily) 증가는 +2.13% 였습니다. (BSTS 기준)
§ BSTS 기준 95% Interval : [0.08%, 4.08%]
§ BSTS p-value : 0.02
기능 자체가 보이는 리텐션과
MAU 상승간의 상관관계는
뚜렷하지 않았다 (정성적 판단)

Limitations
Quasi-experiments 및 Counterfactuals의 한계점
§ 특정 시기를 기점으로 이벤트 전후의 인과 효과를 측정하므로, ‘기능 출시’뿐이 아니라 이
시점의 ‘여러 가지 이벤트 및 다른 roll out, A/B 실험’의 효과는 배제할 수 없습니다.
§ y에 영향을 미치기 어려울 정도로 작은 효과는 감지하기 어렵습니다.
§ 모든 것을 큰 단위로 묶어서 보기 때문에, 유저 단위의 효과로는 파고들 수 없습니다.
CausalImpact를 사용함에 있어서의 한계점
§ 성능이 좋은 Prophet 패키지와 추세를 유사하게 그리도록 파라미터를 바꿔보지만, 결과의
신뢰성을 높여줄 validation으로는 충분하지 않다고 생각합니다. CausalImpact 활용에
있어서 sensitivity analysis를 어떻게 연결할 수 있을지 해답을 찾지 못했다는 점이
한계입니다.
§ (참고) PyData New York 2019에서 HelloFresh(밀키트 배달 서비스)에서 지역별 실험이
어려워 Google Causal Impact를 사용한 발표 를 보여줬는데요. 특별한 Validation 절차는
없이 causalimpact를 돌려보고 report 결과를 해석하며 발표를 마무리합니다. 다른
분들은 어떻게 validation 하시는지 궁금합니다!

마무리
§ 인과추론 방법론을 적용하고 성공은 물론, 삽질한 케이스들도 자유롭게 다뤄지면
좋을 것 같습니다.
§ 인과추론 공부는 ‘데이터로 현상을 이해할 수 있는 방법론’을 배워갈 수 있어서 참
재미있습니다. 인과추론만 연구하는 직무는 국내에 없나요?
§ 스터디 운영하시느라 고생 많으십니다.

들어주셔서 감사합니다.

[Causal Inference KR] 스타트업에서의 인과추론

More Related Content

What's hot

Similar to [Causal Inference KR] 스타트업에서의 인과추론

[Causal Inference KR] 스타트업에서의 인과추론