이윤희 : 다짜고짜 배워보는 인과추론
발표영상 https://youtu.be/fShRiqe1Cf0
---
PAP가 준비한 팝콘 시즌1에서 프로덕트와 함께 성장하는 데이터 실무자들의 이야기를 담았습니다.
---
PAP(Product Analytics Playground)는 프로덕트 데이터 분석에 대해 편안하게 이야기할 수 있는 커뮤니티입니다.
우리는 데이터 드리븐 프로덕트 문화를 더 많은 분들이 각자의 자리에서 이끌어갈 수 있도록 하는 것을 목표로 합니다.
다양한 직군의 사람들이 모여 프로덕트를 만들듯 PAP 역시 다양한 멤버로 구성되어 있으며, 여러분들의 참여로 만들어집니다.
---
공식 페이지 : https://playinpap.oopy.io
페이스북 그룹 : https://www.facebook.com/groups/talkinpap
팀블로그 : https://playinpap.github.io
8. 상관관계 vs. 인과관계
맥도날드 점포가 많아진다 물가가 상승한다x
맥도날드 점포가 많아졌기 때문에, 물가가 상승했다 !?
상관관계
인과관계
9. 상관관계는 인과관계가 아니다!
- 다른 요인이 맥도날드 점포 수와 물가
지수에 동시에 영향을 미쳤을 가능성
- 예시) 수요 증가 / 공급 감소, 생산비
원자재 가격 상승, 유통 구조 등
다른 요인이 영향을 미쳤을 수도.. 인과관계가 반대일 수도..
- 물가가 상승했기 때문에, 맥도날드 점포
수가 늘어났을 가능성
10. 예측 vs. 추론 (feat. 충성고객)
예측
추론
어떤 사람이 충성 고객이 될까? 그 사람을 타깃해보자!
➡ 결과 맞추기, 오차를 최소화 하는 게 중요해요!
사용자에게 무엇을 해주면 충성고객이 될까? 포인트를 쌓는
게 좋을지, 배송비 무료 쿠폰을 주는 게 좋을지 고민 돼 😵
➡ 원인과 결과 사이의 관계 알아내기
13. 인과관계 입증에 있어 중요한 관점
개입을 받은 집단
예시) 타이레놀을 복용한 사람들이 모인 그룹
개입을 받지 않은 집단 (= 대조군, 통제군)
예시) 타이레놀을 복용하지 않은 사람들이 모인 그룹
개입 효과
Treatment Effect
14. 현실에서 인과관계를 입증하기 어려운 이유
세상에는 통제할 수 없는 것이 너무 많아 😭
- Treatment를 명확히 정의 할 수 없다.
오프라인 매장의 매출을 증감 요인 9,999+가지
- Control Group의 결과를 알 수 없다.
메뉴 가격 상승과 매출 간의 인과관계를 본다면?
- Group에 무작위로 배정되지 않는다.
멤버십 가입에 따른 객단가를 분석한다면?
(선택에 의해서 배정 ➡ Self-Selection Bias)
15. 한 눈에 보는 인과추론 방법론
��
Source) Jiyong Park. “Korea Summer Session on Causal Inference 2021”. https://youtu.be/kr-7PXLefyc
16. 한 눈에 보는 인과추론 방법론
종합 선물셋트 🎁
무작위 비교 실험 A/B Test
통제 환경을 가정
통제 환경을 가정하기 어려울 때
회귀분석 - 개정판
회귀분석 y = f(x) + e
도구변수
준 실험
Source) Jiyong Park. “Korea Summer Session on Causal Inference 2021”. https://youtu.be/kr-7PXLefyc
17. 데이터에 경계선이 있다면, RD 디자인 Regression Discontinuity
Source) Prof. Eric Dunford. “Accelerated Statistics for Public Policy” .McCourt School of Public Policy.
http://ericdunford.com/ppol561/Lectures/week_08/week08-regression-discontinuity-ppol561.html#1
Control
Group
Treatment
Group
18. RD 디자인 적용 사례
Source 1) Srikanth Kadiyala and Erin Strumpf. 2014. “How Effective is Population-Based Cancer Screening”. Forum for Health Economics and Policy
Source 2) Hoekstra, Mark. 2009. “The Effect of Attending the Flagship State University on Earnings: A Discontinuity-Based Approach”. Review of
Economics and Statistics 91 (4): 717–24.
20. 왜 A/B 테스트가 아닌 준 실험을 활용할까?
Source 1) Colin McFarland, Michael Pow, Julia Glick. 2018. “Quasi Experimentation at Netflix”.
https://netflixtechblog.com/quasi-experimentation-at-netflix-566b57d2e362
- 기술적으로 개별 사용자를 대상으로 무작위 배정을 시행할 수 없는 경우
- 기술적으로는 가능하지만, 다른 변수가 개입할 여지가 있는 경우
(대중매체 노출, 개인화된 추천 시스템, 사용자 사이의 소문 등)
21. (사례) 옥외광고를 통한 가입 효과 분석
Source 1) Colin McFarland, Michael Pow, Julia Glick. 2018. “Quasi Experimentation at Netflix”.
https://netflixtechblog.com/quasi-experimentation-at-netflix-566b57d2e362