25. 현업의 로그는 어떤 양상?
없거나
쓸 수 없거나
(그런거 없ㅋ엉ㅋ)
(현재 상태 DB만 있는뎅)
26. 로그를 남기려면 고민이 필요
“뭘 남기지?”
“어떤 형식으로 남기지?”
“어떻게 전송하지?”
“어디에 저장하지?”
몰라@.@
정하기
어려워
안남기면
해결된다.
의식의 흐름
1) 왜 없나?
27. 로그를 기록하는 과정부터
중앙 repository에 붓는 작업을
한정식에서 라면화 시켜야 한다.
고민없이 가져다 쓸 수 있는
로그 레시피의 제작 및 보급
그래야
남는다
28. • “우리도 데이터 있어요”
• 막상 가보면 DB에 현재의 state만 남아있음
• 예를 들어 같은 통장 잔고 100만원도
• 1000만원 벌고 900만원 탕진한 100만원인 사람과
• 110만원 벌고 10만원 아껴써서 100만원인 사람 다름
• 이력이 필요합니다. state가 아니라 history
2) 왜 쓸 수가 없나?
35. 왜 hive table와 시키나요?
• 생짜 로그 파일은 그 자체로 자기 기술적이지 못함
• 몇번째 필드는 이름은 뭐고, 어떤 속성인지 등 메타와 바인드 필요
• 이거 분석가가 자꾸 직접 해야 하면 화낸다.
• 꼭 hive를 query엔진으로 쓰지 않는다 하더라도
• Impala, Tajo, SparkSQL 다른 멋진 query엔진들
• 저들이 native로 읽어갈 수 있는 표준 자료 저장소로 좋은 포맷
• 보유 프로세스 비용이 없음. 안돌릴 땐 메타서버만 살아있음
• 평소에 CPU, RAM등을 차지하고 있지 않음
36. Hive Table 만드시고
쓰는 것은
Impala, Tajo, SparkSQL
원하는대로 쓰세요
+ Hue (web ui)는 꼭 열어줄 것
-접하기 쉬워야 많이들 쓴다-
40. 이 일은 참 고되다.
• 많은 MR, Spark, Hive job들이 얼기 설기 섞여 돌아간다.
• 각 작업은 다른 여러 작업들에 dependent할 때가 많다.
• 자료의 입수가 때로는 지연된다.
• 머신 Fail로 뭔가가 안만들어지는 경우도 많다.
• 안되요. 어 앞의 것이 안되었네. 어 그 앞의 것이. 또 앞의..
46. 우리가 하는 일도 pipe의 연장과 연장
• 이거 되고 나서, 이거 되야 하고
• 저기서 물길이 들어오면
• 요 물길과 합쳐서 섞어 다음으로 보내고
47. luigi : 각 자료마다
자신이 만들어지기 위한 의존성을
정의해 놓고 모아놓으면
뭐 어떻게든 다 잘될거야.
D
C C
A B
A
0 1 2
48. D
C C
A B
A
0 1 2
D C
A
B
0
1
2
D를 주세요! 있으면 가져오고 없으면 자동으로 만든다.
49.
50. luigi를 도입하고
• 앞에 어떠한 데이터가 망가졌어도
• 최종적으로 가지고 싶은 데이터 테이블만 지정 실행하면
• 그것을 위한 모든 dependency가 계산되어
자동으로 만들어진다.
• reprocessing? = 코드 수정 + 과거 날리고 + luigi run
58. 현재 어려움이 있는 부서로 가세요
• 잘나가는 부서는 인사이트를 드려도 심드렁 합니다.
• 잘하고 있거든요!
• 힘들어하는 부서는 데이터 조직에게 아이디어를 줍니다
• 그리고 잘 도와줍니다. Action을 함께 할 수 있습니다.
• Small Win을 쌓으세요. 이걸로 큰 부서에 영업하세요
60. 분석의 목적은 기적의 창조가 아님
• 대부분의 경향성은 현업도 알고 있습니다.
• 분석의 힘은 정량화 - 양과 크기를 안다 - 에 있음
• 돌을 던지면 날아간다는 초딩도 알지만
• 힘, 각도, 날아간 거리를 재면 사람이 달도 간다.
• “양을 정확히 안다.” -> “예상과 액션을 가능케 한다”
61. 그리고 현업이
빠지기 쉬운 함정이 있다.
심슨 패러독스
(이 심슨 아님)
(Simpson’s paradox)
69. 언제나 중요한 것은 채널!
고객이 우리를 떠나 있을 때
그들에게 접촉할 수 있는 채널!
이메일, SMS, PUSH
70. “에이 요새 누가 이메일 읽어요.
보내도 오픈 안해요”
0.0%
6.3%
12.5%
18.8%
25.0%
5.2%
전체유저
0.0%
6.3%
12.5%
18.8%
25.0%
15.4%
지난달 1번이라도 방문한 유저
한 쇼핑몰의 케이스
나누어보자
심슨패러독스!
71. 전체를 보면 죽은 채널 같아 보여도
최근 사용 유저들에겐 매우 유효한 채널
그래서 넘버웍스는 뭘했나?
고객마다 개인화하여 다른 메일내용으로
기계가 자동 뉴스 레터를 보내게 했다.
(사람이 언제 다 만드나)
오픈 후 클릭율은 21%증가 클릭후 장바구니율 25%증가
베스트 상품 vs 개인화 메일
76. 상식을 믿지말고 실험으로 검증하라
• 당연히? 당연한거 없음
• 크고 아름다운 배너 < 배너 없음 < 얇은 배너
• ‘배너 없음’에게도 지다니!?
• 진리는 그곳에 따라 다름.
• 이곳은 단골 비중이 높은 회사.
• 단골은 다음방문부터 배너 때문에 폰 스크롤이 지겹다.
• 상품에 쓸 지면을 낭비하고 있었던 것
77. 항상 A/B test로 증명해야 한다.
• A/B test로 증명하지 않으면
• 상식에 반하는 결과를 만날때나
• 논공행상에 문제가 생긴다.
• 특히 외부가 크게 변하는 시기에는 더욱 두드러진다.
• (이건 너희가 잘해서가 아니라, 원래 그런 흐름이야?)
• 무조건 A/B test는 쓰라. 안 쓸 생각을 마라.