2. Dev Ground 2019 에 참여해주신 여러분!
어깨만 스쳐도 인연이라는데 이렇게 만나게 되어 반가워요,
여러분께 들려주고 싶은 저희 컬리의
“’맛있는” 데이터를 물어다 주는 멍멍이에 대해
지금 소개합니다!
3. 2019. 4 ~ Kurly Manager, Advanced analytics Team, UX-Product Division
- 데이터베이스 분석용 데이터 인프라 확장 설계 (Treasure data)
- 트래킹프로덕트 고객 경험 증대를 위한 UX KPI 시스템 설계 (Product KPI)
- 검색프로덕트 고객 시그널 및 알고리즘 기반 검색 시스템 설계 (Apache Solr)
- 추천프로덕트 추천 시스템 설계 (“이 상품 어때요?”) (R on EC2)
2017. 2 ~ Kurly Manager, Advanced analytics Team, Management Support Division
- 대시보드 사내 기능별 대시보드 설계 및 운영 (R shiny on EC2)
- 데이터베이스 분석용 데이터 인프라 설계 및 운영 (Aurora on AWS)
- 예측시스템 매출 및 물류 예측 시스템을 통한 비즈니스 알람 시스템 설계 및 운영 (a.k.a 데멍이)
- 분류시스템 고객 페르소나 클러스터링을 통한 연관 상품 추천 시스템(Aurora on AWS)
2016. 8 ~ Kurly Staff, Strategic planning Division.
- 분석프로젝트 200여개의 Ad-hoc 분석 (매출, 주문, 고객, 상품, 배송, 생산 등)
2016. 3 ~ Kurly Freelancer, Strategic planning Division.
- 대시보드 주간 매출 대시보드 설계
- 데이터베이스 분석용 데이터 베이스 운영
2016. 1 ~ Bit-consulting, Analyst
- 컨설팅 KT&G 브랜드 포트폴리오 전략
- 컨설팅 웰컴 저축 은행 CRM 전략
발표자 소개
2016.8 ~
• 現 Market Kurly, 데이터 농장팀 팀장
2016.1 ~ 2016.7
• bit-consulting, Analyst
sangrae.noe@kurlycorp.com
노상래
4. 1
2
3
4
소개
마켓컬리 데이터 시스템의 과거와 현재
급성장하는 회사에서 데이터는 우리 조직문화에 어떤 기여를 했을까요?
맺으며
| 마켓컬리와 데이터 농장
| 지난 4년 동안의 시행착오 (엑셀의 시대, AWS 시대, 자체 봇과 실시간 대시보드의 시대)
| 데이터 분석에 대한 구성원의 의식 변화, 그리고 데멍이의 기능과 성과
| 앞으로 컬리에서 데이터 분석팀이 갖는 숙제와 고민 그리고 Q&A
목차
5
데이터를 물어다주는 멍멍이 ‘데멍이’
| 데멍이의 역할과 예측 퍼포먼스에 대한 소개
5. Since 2014
마켓 컬리
15-2Q 15-3Q 15-4Q 16-1Q 16-2Q 16-3Q 16-4Q 17-1Q 17-2Q 17-3Q 17-4Q 18-1Q 18-2Q 18-3Q 18-4Q 19-1Q
29 174 465 1571 !!
2015 2016 2017 2018 2019
• 2014년 12월 설립, 5월부터 시작한 식료품 전문 유통업체
• “더 좋은 상품을, 더 합리적으로 그리고 더 편하게”
• 최적의 서비스 제공을 위한 상품 소싱/제조, 주문처리, 재고관리, 배송, 데이터 분석, 큐레이션, UX 역량의 내재화
단위 (억)
6. Since 2016
데이터 농장
• 알고리즘 프로덕트
• 대시보드 & 데이터 툴
• Ad-hoc
• IR 제작
• 데이터 프로덕트
• 분석용 데이터 베이스
7. Since 2016
데이터 농장
• 내부 & 외부
원천 데이터 수집
• 비즈니스 목표 이해
• 기능별 운영 및 조직간
업무 이해
데이터 농장팀은 데이터로 고객의 경험을 이해하고,
프로덕트로 향상된 고객 경험의 제공을 목표합니다.
Team, Advanced analytics
8.
9. 2 마켓컬리 데이터 시스템의 과거와 현재
| 지난 4년 동안의 시행착오 (엑셀의 시대, R& AWS 시대, 자체 봇과 실시간 대시보드의 시대)
10. 2-1) 엑셀의 시대 (2015 ~ 2016)
• 데이터 분석부터 운영 업무에 관련된 대부분의 데이터가 엑셀 자료로 이뤄지던 시기
1. 현황
2. 문제점
① 데이터 분석에 너무나 많은 시간이 소요. 최소 2~3시간에서 많게는 하루까지 소요됨
② 주요 데이터가 팀 별로 흩어져 개별적으로 관리되어 통합적 분석이 어려움
③ 수기로 기입
3. 문제 예시
① 주간 현황 분석을 위해 엑셀 Vlookup 진행 시, 모든 팀원이 매일 2~3시간 씩 일해야 했음
② 데이터를 퍼즐 조각처럼 하나씩 모으기 위해, 옆 팀부터 ~ 물류센터까지 일일이 찾아다녀야함
11. ① 데이터 분석을 위해 엑셀 작업만 매일 2~3시간
• Xlsx 데이터 크기 1~3gb로 분석
• 파일 열기 ~ vlookup 까지 2~3시간 소요 (대부분이, 매일)
• R을 활용하여 2~3시간 업무 → 1분 내외로 단축
• 사내 프로그래밍 강의를 통한 데이터 업무 효율성 증강
② 데이터 수집을 위한 발품 팔이
• 분석을 위한 주요 데이터가 팀별로 흩어져 관리됨
• 컬리는 물류센터에도 업무를 진행함
• 주요 운영 데이터의 수기 기입으로 오류 발생이 쉬움
• 상품명이 비슷한 상품에 수량이나 가격에 0이 하나 더 있거나/없다던지…
• 돌아다니며 직접 수집하러 다님 → 비즈니스와 조직을 이해할 수 있었음
2-1) 엑셀의 시대 (2015 ~ 2016)
12. ① 회사의 급성장으로 인한 예측 시스템의 필요성 대두
② AWS 도입을 통한 분석용 데이터 인프라의 설계 (EC2, RDS)
③ 슬랙 도입 후, (매출 현황 등) 주요 지표의 전사 공유 시스템 도입 : 데멍이 개시
1. 현황
2. 문제점
① 데이터 인프라 설계 경험과 지식 부족
② 데이터 추출이 가속화되자, 데이터 추출 업무만 하루에 20개씩 진행
3. 문제 예시
① AWS 인스턴스 설계 후 실수로 개발팀 인스턴스를 drop 시키는 힘든 상황 발생
② #데멍이의 첫 등장 #사내 대시보드 개발
2-2) AWS의 시대 (2016 ~ 2017)
13. ① 데이터 인프라 설계 경험의 전무
• (당시 상황) 분석용 인프라와 개발 환경 인프라는 한 계정으로 활용함
• 리서치를 위해 하루에서 여러 번 인스턴스를 날리고 새로 만드는 과정의 반복
• 어느 주말 실수로 개발팀 인스턴스를 drop... (drop 했는지도 인지 하지 못함)
• 다음날 큰 난리가 남. (다행히 테스트 인스턴스 + 백업 코드 있어 복구)
• 개발팀에서 많은 도움과 자문 그리고 협조 지원을 통해 극복함 (지금도)
② 데이터 분석 요청이 지나치게 많았음
• 회사의 급성장으로 데이터 분석 요청이 기하급수적으로 늘어남
• 마케팅/ 재고/ 배송/ 재무/ CC/ 영업 팀 골고루 일평균 10~20개씩
• 대시보드 설계를 통해 주요 현황을 쉽게 보고할 수 있게 됨
2-2) AWS의 시대 (2016 ~ 2017)
14. ① 데이터 플랫폼 인프라 확대 (Dynamo DB, S3, Elastic search)
② 주요 지표의 전사 공유 시스템 활성화
③ 각 기능별/팀별 실시간 대시보드를 통한 업무 효율화
1. 현황
2. 앞으로의 고민
① 고객 경험 완성을 위한 데이터 프로덕트의 설계와 운영
② 자체 알고리즘 활용을 통한 검색 경험의 고도화
③ 사내 데이터 시스템 고도화
④ 조직적으로 데이터 활용 및 수준 대한 제고
2-3) 자체 봇 & 실시간 대시보드 시대 (2018~ 현재)
🔺 마켓컬리의 데멍이
15. 상품 현황 대시보드 배송 현황 대시보드
상품 후기 대시보드 물류 현황 대시보드 SNS 현황 대시보드
참고) 사내 보안을 위해 주요 값은 삭제 하였습니다.
2-3) 자체 봇 & 실시간 대시보드 시대 (2018~ 현재)
고객 현황 대시보드
16. ① 10분 단위로 현황 공유 및 예측
② D-1 전일 주요 현황 전사공유
③ 운영 데이터 수집 관리 ④ D-1 전일 물류 예측 현황 공유
2-3) 자체 봇 & 실시간 대시보드 시대 (2018~ 현재)
17. ① 데이터 플랫폼 인프라 확대 (Dynamo DB, S3, Elastic search)
② 주요 지표의 전사 공유 시스템 활성화
③ 각 기능별/팀별 실시간 대시보드를 통한 업무 효율화
1. 현황
2. 앞으로의 고민
① 고객 경험 완성을 위한 데이터 프로덕트의 설계와 운영
② 자체 알고리즘 활용을 통한 검색 경험의 고도화
③ 사내 데이터 시스템 고도화
④ 조직적으로 데이터 활용 및 수준 대한 제고
2-3) 자체 봇 & 실시간 대시보드 시대 (2018~ 현재)
🔺 마켓컬리의 데멍이
18. 데이터의 가치 활용 집중
데이터 인프라 관리 집중
데이터와 비즈니스 이해 집중
마켓컬리 데이터 시스템의 과거와 현재
| 지난 4년 동안의 시행착오 (엑셀의 시대, R& AWS 시대, 자체 봇과 실시간 대시보드의 시대)
2
19. 3 데이터를 물어다주는 멍멍이 ‘데멍이’
| 데멍이의 역할과 예측 퍼포먼스에 대한 소개
데멍이
예측 시스템 공유 시스템
• 매출, 물류 현황 등 전사 주요 지표 공유
• 기능별 운영 데이터 및 현황 공유
• 데이터 인지 알림을 위한 피옹이
• 매출 예측 (분단위, 일단위, 주단위)
• 주문, B/S(AOV), 매출 예측 단위
• 물류 예측 (센터별 주문량, 생산마감시간 예측)
데이터 과학으로서의 가치 조직 문화로서의 가치
20. 주 예측 일 예측
매출/물류
예측 시스템
Prophet Decision tree 최근성 가중치
A
최근성 가중치
Z
…..
• 1년치 Backdata로 학습/평가
• 차주 요일별 예측치 제시
• 편차가 적은 부적합 경향
• 6개월치 Backdata로 학습/평가
• 차주 요일별 예측치 제시
• 편차가 큰 과적합 경향
• 3개월치 Backdata로 각 ‘시각별’ 비중을 토대로 예측
• 최근성에 대한 가중치를 각 실험 설계를 통해 개선
• 서로 상쇄 후 결합
과소 예측 경향 과대 예측 경향
• 서로 상쇄 후 결합 • 서로 상쇄 후 결합
마케팅/물류3 데이터를 물어다주는 멍멍이 ‘데멍이’
22. 각 시각별 트렌드로 구성된 로직
→ 주차/요일/시간/분의 편차와 평균으로 구성
학습과 평가 기반의 M/L 로직
→ Prophet(Facebook)/ Decision tree (time series)
• 프로모션, 유행에 거의 즉각적으로 반영되는 모델.
• 파라미터의 작은 조정만 해도 되는 비교적 쉬운 요
소로만 구성
※ 설명이 어렵거나, 조정이 어려운 변수는 설명도 쉽지 않으므로 가능
한한 제한.
• 급격한 편차에 영향을 주는 요소에도 안정적
※ 설명이 어렵거나, 조정이 어려운 변수는 설명도 쉽지 않으므로 가
능한한 제한.
• B2B 목적인 대량 주문의 경우 등은 현재에 급격한
영향을 주는 요소에 예측 값이 쉽게 흔들림
23. 현황
공유
데이터
공유
기능별
공유 시스템
전일 주요 지표
매출 상세 지표
물류 상세 지표
고객 관리 현황
동접자 현황
물류 데이터 피드백
증정 재고 현황
프로모션 재고 현황
신상품 리스트 공유
원재료 리스트 공유
신상품 베스트 공유
할인 리스트 공유
물류 센터 데이터 공유
3 데이터를 물어다주는 멍멍이 ‘데멍이’
| 데멍이의 역할과 예측 퍼포먼스에 대한 소개
24. 4 데이터가 조직문화에 미치는 긍정적 영향
| 데이터 분석에 대한 구성원의 의식 변화, 그리고 데멍이의 기능과 성과
① 데이터 업무의 효율화
운영 업무 자동화
② 인사이트 도출
비즈니스 이해와
문제 해결
③ 같은 눈높이의 공유 문화
공동 목표를 위한
데이터 가치 공유
Xlsx → R & AWS 예측 시스템 도입과 성과
데멍이 도입을 통한
공동 가치의 합치
데이터로 함께 일하는
조직 문화
④ 조직 문화 발전
맛 맛 맛
25. 맺으며
| 앞으로 컬리에서 데이터 분석팀이 갖는 숙제와 고민 그리고 Q&A
앞으로의 데이터 농장팀
사내 데이터 문화 융성과 데이터 기반 고객 경험 서비스.
그리고 이를 기반한 비즈니스 기회 영역의 모색.
5