오늘 밤부터 쓰는 google analytics (구글 애널리틱스, GA) Yongho Ha
http://ga.yonghosee.com 에서 진행하는 구글 어날리틱스(google analytics) 에 대한 강의 슬라이드 입니다. 이 슬라이드는 샘플이지만, 초반부는 실재 강의 교재 그대로 입니다. 이것 자체로도 여러분이 GA를 이해하는데 좀 도움이 된다면 기쁘겠습니다^^ 감사합니다.
[우리가 데이터를 쓰는 법] 좋다는 건 알겠는데 좀 써보고 싶소. 데이터! - 넘버웍스 하용호 대표Dylan Ko
Gonnector(고넥터) 고영혁 대표가 주최한 스타트업 데이터 활용 세미나 '우리가 데이터를 쓰는 법' 의 첫 번째 발표 자료
세미나 : 우리가 데이터를 쓰는 법 (How We Use Data)
일시 : 2016년 4월 12일 화요일 10:00 ~ 18:00
장소 : 마루180 (Maru180) B1 Think 홀
제목 : 좋다는 건 알겠는데 좀 써보고 싶소. 데이터!
연사 : 넘버웍스 하용호 대표
Little Big Data #1 다양한 사람들의 데이터 사이언스 이야기에서 발표한 자료입니다
궁금한 것은 언제나 문의주세요 :)
행사 후기는 https://zzsza.github.io/etc/2018/04/21/little-big-data/ 에 있습니다!
(2018.5 내용 추가) 현재 회사가 없으니, 제게 관심있으신 분들도 연락 환영합니다 :)
오늘 밤부터 쓰는 google analytics (구글 애널리틱스, GA) Yongho Ha
http://ga.yonghosee.com 에서 진행하는 구글 어날리틱스(google analytics) 에 대한 강의 슬라이드 입니다. 이 슬라이드는 샘플이지만, 초반부는 실재 강의 교재 그대로 입니다. 이것 자체로도 여러분이 GA를 이해하는데 좀 도움이 된다면 기쁘겠습니다^^ 감사합니다.
[우리가 데이터를 쓰는 법] 좋다는 건 알겠는데 좀 써보고 싶소. 데이터! - 넘버웍스 하용호 대표Dylan Ko
Gonnector(고넥터) 고영혁 대표가 주최한 스타트업 데이터 활용 세미나 '우리가 데이터를 쓰는 법' 의 첫 번째 발표 자료
세미나 : 우리가 데이터를 쓰는 법 (How We Use Data)
일시 : 2016년 4월 12일 화요일 10:00 ~ 18:00
장소 : 마루180 (Maru180) B1 Think 홀
제목 : 좋다는 건 알겠는데 좀 써보고 싶소. 데이터!
연사 : 넘버웍스 하용호 대표
Little Big Data #1 다양한 사람들의 데이터 사이언스 이야기에서 발표한 자료입니다
궁금한 것은 언제나 문의주세요 :)
행사 후기는 https://zzsza.github.io/etc/2018/04/21/little-big-data/ 에 있습니다!
(2018.5 내용 추가) 현재 회사가 없으니, 제게 관심있으신 분들도 연락 환영합니다 :)
데이터 분석에 필요한 기본 개념: 지표, Funnel 등 데이터를 이해하기 위한 멘탈 모델(Mental Model)Minwoo Kim
- 강의록 전문 읽기: http://bit.ly/2KKtzRA
데이터 분석(데이터 사이언스 말고, 통상적으로 스타트업에서 '데이터 분석'이나 '그로스'에 쓰는 데이터 분석)을 공부하려면, 어떤 기본 개념을 가지고 계시면 좋을지에 대해 만들어 본 강의 자료입니다.
카우앤독에서 지인 위주로 꾸린 강의에서 꽤 좋은 평가를 받았으나, 강의안 준비가 너무 힘들어서 실제 유료 강의로 이어지지는 않은 비운의 슬라이드...
멘탈 모델이란 무엇인지, 지표는 무엇이며 퍼널(Funnel)은 무엇인지, 등등의 이야기를 합니다. 기승전 결론은 SQL 배우세요. (https://brunch.co.kr/@minu-log/4)
2018년 6월 24일 "백수들의 Conference"에서 발표한 개발자를 위한 (블로그) 글쓰기 intro입니다
좋은 글을 많이 보는 노하우 + 꾸준히 글을 작성하는 노하우에 대해 주로 이야기했습니다! (어떻게 글을 작성하는가는 없어요!)
피드백은 언제나 환영합니다 :)
빅데이터, 클라우드, IoT, 머신러닝. 왜 이렇게 많은 것들이 나타날까?Yongho Ha
클라우드라는 말이 들리더니, 어느새 빅데이터가 유행했습니다. 데이터가 중요하다는 것을 겨우 받아들일까 하는 판국에, 이제는 IoT라던가 머신러닝이 중요하다고 합니다. 이 많은 유행들은 그냥 일시적인 걸까요? 아니면 동시에 나타나게된 이유가 있는 걸까요? 이것들 뒤에 큰 흐름이 있지는 않을까요? 있다면 그것은 어디에서 시작되고 있을까요? numberworks.io
한빛데브그라운드에서 발표했던 내용입니다.
발표 영상 : https://youtu.be/ohpfSLf0V3Y
--
스타트업 비즈니스에서 데이터를 활용한 전략 수립과 의사결정은 필수적인 요소입니다. 서비스 운영 데이터에서부터 다양한 고객의 행동 로그, 소셜 미디어 데이터까지 다양한 데이터를 모두 모아 분석 환경을 구축하기 위해서는 많은 준비와 고민이 필요합니다. 스타트업에서 빠른 속도와 최소한의 비용, 다양한 분석 Tool들과 연동되는 Data Pipeline, Data Lake, Data Warehouse 구축 경험기를 공유하고자 합니다. 이 과정을 통해 애널리틱스 파이프라인을 구축 과정과 S3, Glue, Athena,EMR, Quicksight와 같은 서버리스 애널리틱스 서비스에 대한 구축 사례를 확인하실 수 있습니다.
Spark 의 핵심은 무엇인가? RDD! (RDD paper review)Yongho Ha
요즘 Hadoop 보다 더 뜨고 있는 Spark.
그 Spark의 핵심을 이해하기 위해서는 핵심 자료구조인 Resilient Distributed Datasets (RDD)를 이해하는 것이 필요합니다.
RDD가 어떻게 동작하는지, 원 논문을 리뷰하며 살펴보도록 합시다.
http://www.cs.berkeley.edu/~matei/papers/2012/sigmod_shark_demo.pdf
데이터 분석에 필요한 기본 개념: 지표, Funnel 등 데이터를 이해하기 위한 멘탈 모델(Mental Model)Minwoo Kim
- 강의록 전문 읽기: http://bit.ly/2KKtzRA
데이터 분석(데이터 사이언스 말고, 통상적으로 스타트업에서 '데이터 분석'이나 '그로스'에 쓰는 데이터 분석)을 공부하려면, 어떤 기본 개념을 가지고 계시면 좋을지에 대해 만들어 본 강의 자료입니다.
카우앤독에서 지인 위주로 꾸린 강의에서 꽤 좋은 평가를 받았으나, 강의안 준비가 너무 힘들어서 실제 유료 강의로 이어지지는 않은 비운의 슬라이드...
멘탈 모델이란 무엇인지, 지표는 무엇이며 퍼널(Funnel)은 무엇인지, 등등의 이야기를 합니다. 기승전 결론은 SQL 배우세요. (https://brunch.co.kr/@minu-log/4)
2018년 6월 24일 "백수들의 Conference"에서 발표한 개발자를 위한 (블로그) 글쓰기 intro입니다
좋은 글을 많이 보는 노하우 + 꾸준히 글을 작성하는 노하우에 대해 주로 이야기했습니다! (어떻게 글을 작성하는가는 없어요!)
피드백은 언제나 환영합니다 :)
빅데이터, 클라우드, IoT, 머신러닝. 왜 이렇게 많은 것들이 나타날까?Yongho Ha
클라우드라는 말이 들리더니, 어느새 빅데이터가 유행했습니다. 데이터가 중요하다는 것을 겨우 받아들일까 하는 판국에, 이제는 IoT라던가 머신러닝이 중요하다고 합니다. 이 많은 유행들은 그냥 일시적인 걸까요? 아니면 동시에 나타나게된 이유가 있는 걸까요? 이것들 뒤에 큰 흐름이 있지는 않을까요? 있다면 그것은 어디에서 시작되고 있을까요? numberworks.io
한빛데브그라운드에서 발표했던 내용입니다.
발표 영상 : https://youtu.be/ohpfSLf0V3Y
--
스타트업 비즈니스에서 데이터를 활용한 전략 수립과 의사결정은 필수적인 요소입니다. 서비스 운영 데이터에서부터 다양한 고객의 행동 로그, 소셜 미디어 데이터까지 다양한 데이터를 모두 모아 분석 환경을 구축하기 위해서는 많은 준비와 고민이 필요합니다. 스타트업에서 빠른 속도와 최소한의 비용, 다양한 분석 Tool들과 연동되는 Data Pipeline, Data Lake, Data Warehouse 구축 경험기를 공유하고자 합니다. 이 과정을 통해 애널리틱스 파이프라인을 구축 과정과 S3, Glue, Athena,EMR, Quicksight와 같은 서버리스 애널리틱스 서비스에 대한 구축 사례를 확인하실 수 있습니다.
Spark 의 핵심은 무엇인가? RDD! (RDD paper review)Yongho Ha
요즘 Hadoop 보다 더 뜨고 있는 Spark.
그 Spark의 핵심을 이해하기 위해서는 핵심 자료구조인 Resilient Distributed Datasets (RDD)를 이해하는 것이 필요합니다.
RDD가 어떻게 동작하는지, 원 논문을 리뷰하며 살펴보도록 합시다.
http://www.cs.berkeley.edu/~matei/papers/2012/sigmod_shark_demo.pdf
세바시15분 스마트폰으로부터 아이를 구출하라 - 권장희 놀이미디어교육센터 소장cbs15min
스마트폰(손 안의 TV, 인터넷, 게임)에 눈을 빼앗긴 아이들. 교실에서 무기력한 아이들, 생각하기 싫어하고, 논리적으로 말을 할 수 없으며, 쓰기를 거부하는 아이들을 볼 때 그들은 단지 눈이 아니라 영혼을 빼앗기고 있는지도 모르겠다는 생각이 듭니다. 초겨울 마른 건초처럼 영혼이 시들어가는 아이들에게 생기를 불어넣고, 삶을 디자인을 하도록 키우기 위해 스마트폰에 빼앗긴 눈길을 찾아와야합니다.
논리는 결론을 낳을 뿐이지만 감정은 행동을 낳는다(케빈 로버츠). 한국의 ImproveEverywhere라고 불리며 사람들로 하여금 몰입하고 엮이고 들끓고 넘치게 만드는 시츄에이션 디자인 분야의 최강자 놀공의 이야기는 여러분의 몸을 근질근질하게 만들 것이라고 확신합니다.
장그래를 통해 배우는 보고서를 쓸 때 문장을 줄이는 방법
본 자료는 가천대학교 산업경영공학과 기술 경영 연구실 TeamLab에서 작성하였습니다.
상업적인 용도의 사용외 무단 복제 및 전재에 제한을 두지 않습니다.
→ 9/25 17:30 pm 추가
생각보다 많이 보셔서 자세한 출처를 적습니다.
1) 모자 관련된 얘기는 Refactoring과 관련된 프로그램밍 책에서 나온 얘기입니다. 프로그래밍도 보고서를 쓰는 것과 비슷해서 Simple하게 코드를 작성하는게 중요하죠. 정확한 책 제목이 생각안나서 (TDD 또는 Refactoring인데...) 나중에 다시 정확히 적겠습니다.
2) 두 번째 얘기는 다들 아시겠지만 "미생" 이라고 하는 웹툰에서 주인공 장그래가 보고서를 쓰는 법을 배우는 과정입니다. 해당 부분의 맨끝에는 "미생" 버전이 있고, 그 앞에는 제가 수업시간에 수정한 내용을 정리한 겁니다.
3) 세 번쨰 얘기는 제가 쓴 보고서를 직접 줄인 겁니다.
웹 올릴때 늘 "조심해야지" 생각하면서도 또 귀찮아서 대충 일을 해버렸군요. 혹시 오해가 있으셨다면 너그러이 이해해 주시기 바랍니다.
(오리지널 구글 프리젠테이션은 http://goo.gl/uiX2UH 에)
- 권재명 (Jaimyoung Kwon)
1. 실리콘 벨리 데이터 기업들
2. 온라인 광고 사업
3. 데이터 사이언티스트, 데이터 엔지니어, 머신러닝 사이언티스트
4. 실리콘 벨리 데이터 사이언티스트의 하루
5. 데이터 사이언스 툴채인
6. 데이터 사이언스 베스트 프랙티스
7. 데이터 사이언스 필수 통계 개념
8. 사내 데이터 사이언스 도입
title: 중국 VR 보고서 - 2016
1. 중국 TMT 기업의 VR 접점
2. 중국 VR산업 투자 현황(2015년 1분기-2016년 2분기)
3. VR산업의 이상과 현실
4. VR 콘텐츠 출시 계획
5. VR - 차세대 플랫폼
6. AR, VR 그리고 MR
7. 중국 VR산업 투자리스트
<마비노기 영웅전>의 사례에 기반하여 다음의 내용을 설명합니다.
1. 국내 및 해외에서 라이브 서비스 중에 발생하는 작업장 이슈에 대응하기 위해서 실시간 로그 수집 프로세스를 구축하면서 고민하였던 내용과
2. 수집한 로그 데이터를 활용하여 온라인 액션 게임에서 캐릭터 애니메이션 패턴간의 유사도(TF-IDF, Cosine Similarity)를 분석하여 현업 실무의 어뷰징 탐지에 활용한 사례를 공유합니다.
라이브 서비스 환경에서 국내 및 해외의 실시간 로그 수집에 대해서 고민하시는 개발자나 온라인 게임에서의 봇탐지에 관심있는 분석가들에게 유용한 사례를 소개해드릴 수 있을 것으로 생각합니다.
14년 2월 강동구청에서 개최한 대기업 취업설명회에서 제가 발표한 자료입니다. 취업 준비를 위해 일반적으로 고려해야할 사항들을 정리하였으며, 발표했던 내용 중 회사 관련 내용은 삭제하였습니다. 슬라이드는 전적으로 제 개인의 의견일 뿐, 회사의 공식적인 정책/입장과는 무관합니다.
2015년 11월 20일, 패스트캠퍼스가 개최한 [데이터를 부탁해] 오픈 세미나의 4번째 세션에서 발표하신, [러닝머신 CAMP]를 수강하셨던 황준식 님의 자료입니다.
http://www.fastcampus.co.kr/dab_openlecture_151120/
[머신러닝 CAMP] 자세히 보기 ↓
http://www.fastcampus.co.kr/data_camp_mlearning/
25. 현업의 로그는 어떤 양상?
없거나
쓸 수 없거나
(그런거 없ㅋ엉ㅋ)
(현재 상태 DB만 있는뎅)
26. 로그를 남기려면 고민이 필요
“뭘 남기지?”
“어떤 형식으로 남기지?”
“어떻게 전송하지?”
“어디에 저장하지?”
몰라@.@
정하기
어려워
안남기면
해결된다.
의식의 흐름
1) 왜 없나?
27. 로그를 기록하는 과정부터
중앙 repository에 붓는 작업을
한정식에서 라면화 시켜야 한다.
고민없이 가져다 쓸 수 있는
로그 레시피의 제작 및 보급
그래야
남는다
28. • “우리도 데이터 있어요”
• 막상 가보면 DB에 현재의 state만 남아있음
• 예를 들어 같은 통장 잔고 100만원도
• 1000만원 벌고 900만원 탕진한 100만원인 사람과
• 110만원 벌고 10만원 아껴써서 100만원인 사람 다름
• 이력이 필요합니다. state가 아니라 history
2) 왜 쓸 수가 없나?
35. 왜 hive table와 시키나요?
• 생짜 로그 파일은 그 자체로 자기 기술적이지 못함
• 몇번째 필드는 이름은 뭐고, 어떤 속성인지 등 메타와 바인드 필요
• 이거 분석가가 자꾸 직접 해야 하면 화낸다.
• 꼭 hive를 query엔진으로 쓰지 않는다 하더라도
• Impala, Tajo, SparkSQL 다른 멋진 query엔진들
• 저들이 native로 읽어갈 수 있는 표준 자료 저장소로 좋은 포맷
• 보유 프로세스 비용이 없음. 안돌릴 땐 메타서버만 살아있음
• 평소에 CPU, RAM등을 차지하고 있지 않음
36. Hive Table 만드시고
쓰는 것은
Impala, Tajo, SparkSQL
원하는대로 쓰세요
+ Hue (web ui)는 꼭 열어줄 것
-접하기 쉬워야 많이들 쓴다-
40. 이 일은 참 고되다.
• 많은 MR, Spark, Hive job들이 얼기 설기 섞여 돌아간다.
• 각 작업은 다른 여러 작업들에 dependent할 때가 많다.
• 자료의 입수가 때로는 지연된다.
• 머신 Fail로 뭔가가 안만들어지는 경우도 많다.
• 안되요. 어 앞의 것이 안되었네. 어 그 앞의 것이. 또 앞의..
46. 우리가 하는 일도 pipe의 연장과 연장
• 이거 되고 나서, 이거 되야 하고
• 저기서 물길이 들어오면
• 요 물길과 합쳐서 섞어 다음으로 보내고
47. luigi : 각 자료마다
자신이 만들어지기 위한 의존성을
정의해 놓고 모아놓으면
뭐 어떻게든 다 잘될거야.
D
C C
A B
A
0 1 2
48. D
C C
A B
A
0 1 2
D C
A
B
0
1
2
D를 주세요! 있으면 가져오고 없으면 자동으로 만든다.
49.
50. luigi를 도입하고
• 앞에 어떠한 데이터가 망가졌어도
• 최종적으로 가지고 싶은 데이터 테이블만 지정 실행하면
• 그것을 위한 모든 dependency가 계산되어
자동으로 만들어진다.
• reprocessing? = 코드 수정 + 과거 날리고 + luigi run
58. 현재 어려움이 있는 부서로 가세요
• 잘나가는 부서는 인사이트를 드려도 심드렁 합니다.
• 잘하고 있거든요!
• 힘들어하는 부서는 데이터 조직에게 아이디어를 줍니다
• 그리고 잘 도와줍니다. Action을 함께 할 수 있습니다.
• Small Win을 쌓으세요. 이걸로 큰 부서에 영업하세요
60. 분석의 목적은 기적의 창조가 아님
• 대부분의 경향성은 현업도 알고 있습니다.
• 분석의 힘은 정량화 - 양과 크기를 안다 - 에 있음
• 돌을 던지면 날아간다는 초딩도 알지만
• 힘, 각도, 날아간 거리를 재면 사람이 달도 간다.
• “양을 정확히 안다.” -> “예상과 액션을 가능케 한다”
61. 그리고 현업이
빠지기 쉬운 함정이 있다.
심슨 패러독스
(이 심슨 아님)
(Simpson’s paradox)
69. 언제나 중요한 것은 채널!
고객이 우리를 떠나 있을 때
그들에게 접촉할 수 있는 채널!
이메일, SMS, PUSH
70. “에이 요새 누가 이메일 읽어요.
보내도 오픈 안해요”
0.0%
6.3%
12.5%
18.8%
25.0%
5.2%
전체유저
0.0%
6.3%
12.5%
18.8%
25.0%
15.4%
지난달 1번이라도 방문한 유저
한 쇼핑몰의 케이스
나누어보자
심슨패러독스!
71. 전체를 보면 죽은 채널 같아 보여도
최근 사용 유저들에겐 매우 유효한 채널
그래서 넘버웍스는 뭘했나?
고객마다 개인화하여 다른 메일내용으로
기계가 자동 뉴스 레터를 보내게 했다.
(사람이 언제 다 만드나)
오픈 후 클릭율은 21%증가 클릭후 장바구니율 25%증가
베스트 상품 vs 개인화 메일
76. 상식을 믿지말고 실험으로 검증하라
• 당연히? 당연한거 없음
• 크고 아름다운 배너 < 배너 없음 < 얇은 배너
• ‘배너 없음’에게도 지다니!?
• 진리는 그곳에 따라 다름.
• 이곳은 단골 비중이 높은 회사.
• 단골은 다음방문부터 배너 때문에 폰 스크롤이 지겹다.
• 상품에 쓸 지면을 낭비하고 있었던 것
77. 항상 A/B test로 증명해야 한다.
• A/B test로 증명하지 않으면
• 상식에 반하는 결과를 만날때나
• 논공행상에 문제가 생긴다.
• 특히 외부가 크게 변하는 시기에는 더욱 두드러진다.
• (이건 너희가 잘해서가 아니라, 원래 그런 흐름이야?)
• 무조건 A/B test는 쓰라. 안 쓸 생각을 마라.