로그를 기록하는 과정부터
중앙repository에 붓는 작업을
한정식에서 라면화 시켜야 한다.
고민없이 가져다 쓸 수 있는
로그 레시피의 제작 및 보급
그래야
남는다
28.
• “우리도 데이터있어요”
• 막상 가보면 DB에 현재의 state만 남아있음
• 예를 들어 같은 통장 잔고 100만원도
• 1000만원 벌고 900만원 탕진한 100만원인 사람과
• 110만원 벌고 10만원 아껴써서 100만원인 사람 다름
• 이력이 필요합니다. state가 아니라 history
2) 왜 쓸 수가 없나?
왜 hive table와시키나요?
• 생짜 로그 파일은 그 자체로 자기 기술적이지 못함
• 몇번째 필드는 이름은 뭐고, 어떤 속성인지 등 메타와 바인드 필요
• 이거 분석가가 자꾸 직접 해야 하면 화낸다.
• 꼭 hive를 query엔진으로 쓰지 않는다 하더라도
• Impala, Tajo, SparkSQL 다른 멋진 query엔진들
• 저들이 native로 읽어갈 수 있는 표준 자료 저장소로 좋은 포맷
• 보유 프로세스 비용이 없음. 안돌릴 땐 메타서버만 살아있음
• 평소에 CPU, RAM등을 차지하고 있지 않음
36.
Hive Table 만드시고
쓰는것은
Impala, Tajo, SparkSQL
원하는대로 쓰세요
+ Hue (web ui)는 꼭 열어줄 것
-접하기 쉬워야 많이들 쓴다-
이 일은 참고되다.
• 많은 MR, Spark, Hive job들이 얼기 설기 섞여 돌아간다.
• 각 작업은 다른 여러 작업들에 dependent할 때가 많다.
• 자료의 입수가 때로는 지연된다.
• 머신 Fail로 뭔가가 안만들어지는 경우도 많다.
• 안되요. 어 앞의 것이 안되었네. 어 그 앞의 것이. 또 앞의..
현재 어려움이 있는부서로 가세요
• 잘나가는 부서는 인사이트를 드려도 심드렁 합니다.
• 잘하고 있거든요!
• 힘들어하는 부서는 데이터 조직에게 아이디어를 줍니다
• 그리고 잘 도와줍니다. Action을 함께 할 수 있습니다.
• Small Win을 쌓으세요. 이걸로 큰 부서에 영업하세요
분석의 목적은 기적의창조가 아님
• 대부분의 경향성은 현업도 알고 있습니다.
• 분석의 힘은 정량화 - 양과 크기를 안다 - 에 있음
• 돌을 던지면 날아간다는 초딩도 알지만
• 힘, 각도, 날아간 거리를 재면 사람이 달도 간다.
• “양을 정확히 안다.” -> “예상과 액션을 가능케 한다”
61.
그리고 현업이
빠지기쉬운 함정이 있다.
심슨 패러독스
(이 심슨 아님)
(Simpson’s paradox)
언제나 중요한 것은채널!
고객이 우리를 떠나 있을 때
그들에게 접촉할 수 있는 채널!
이메일, SMS, PUSH
70.
“에이 요새 누가이메일 읽어요.
보내도 오픈 안해요”
0.0%
6.3%
12.5%
18.8%
25.0%
5.2%
전체유저
0.0%
6.3%
12.5%
18.8%
25.0%
15.4%
지난달 1번이라도 방문한 유저
한 쇼핑몰의 케이스
나누어보자
심슨패러독스!
71.
전체를 보면 죽은채널 같아 보여도
최근 사용 유저들에겐 매우 유효한 채널
그래서 넘버웍스는 뭘했나?
고객마다 개인화하여 다른 메일내용으로
기계가 자동 뉴스 레터를 보내게 했다.
(사람이 언제 다 만드나)
오픈 후 클릭율은 21%증가 클릭후 장바구니율 25%증가
베스트 상품 vs 개인화 메일
상식을 믿지말고 실험으로검증하라
• 당연히? 당연한거 없음
• 크고 아름다운 배너 < 배너 없음 < 얇은 배너
• ‘배너 없음’에게도 지다니!?
• 진리는 그곳에 따라 다름.
• 이곳은 단골 비중이 높은 회사.
• 단골은 다음방문부터 배너 때문에 폰 스크롤이 지겹다.
• 상품에 쓸 지면을 낭비하고 있었던 것
77.
항상 A/B test로증명해야 한다.
• A/B test로 증명하지 않으면
• 상식에 반하는 결과를 만날때나
• 논공행상에 문제가 생긴다.
• 특히 외부가 크게 변하는 시기에는 더욱 두드러진다.
• (이건 너희가 잘해서가 아니라, 원래 그런 흐름이야?)
• 무조건 A/B test는 쓰라. 안 쓸 생각을 마라.