BigQuery의 모든 것(기획자, 마케터, 신입 데이터 분석가를 위한) 입문편Seongyun Byeon
The document contains log data from user activities on a platform. There are three columns - user_id, event, and event_date. It logs the activities of 5 users over several days, including events like logins, posts, comments, views. It also includes some aggregated data on unique events and totals by user.
The document discusses deep learning paper reading roadmaps and lists several github repositories that aggregate deep learning papers. It also discusses developing mobile applications that utilize machine learning and the differences between developing for iOS versus Android. Lastly, it mentions continuing to learn through practice and experimentation with deep learning techniques.
Causal Inference KR 커뮤니티에서 진행한 발표입니다.
프로덕트 개발 조직의 데이터 분석가로 일하며 진행했던 인과추론 분석을 회고하는 내용입니다.
자료 조회가 안되실 경우 https://drive.google.com/file/d/1GAuAqggoxbX50EEwdzTaV4z4G0j8pLRf/view?usp=sharing 를 확인해주세요.
1. 인과추론에 빠져드는 이유
2. A/B 테스트의 현실, 왜 안된다고 할까?
3. 실험이 예상치 못한 지표를 침해했다
4. 기능을 늘리는 게 MAU 성장에 도움이 될까?
BigQuery의 모든 것(기획자, 마케터, 신입 데이터 분석가를 위한) 입문편Seongyun Byeon
The document contains log data from user activities on a platform. There are three columns - user_id, event, and event_date. It logs the activities of 5 users over several days, including events like logins, posts, comments, views. It also includes some aggregated data on unique events and totals by user.
The document discusses deep learning paper reading roadmaps and lists several github repositories that aggregate deep learning papers. It also discusses developing mobile applications that utilize machine learning and the differences between developing for iOS versus Android. Lastly, it mentions continuing to learn through practice and experimentation with deep learning techniques.
Causal Inference KR 커뮤니티에서 진행한 발표입니다.
프로덕트 개발 조직의 데이터 분석가로 일하며 진행했던 인과추론 분석을 회고하는 내용입니다.
자료 조회가 안되실 경우 https://drive.google.com/file/d/1GAuAqggoxbX50EEwdzTaV4z4G0j8pLRf/view?usp=sharing 를 확인해주세요.
1. 인과추론에 빠져드는 이유
2. A/B 테스트의 현실, 왜 안된다고 할까?
3. 실험이 예상치 못한 지표를 침해했다
4. 기능을 늘리는 게 MAU 성장에 도움이 될까?
오늘 밤부터 쓰는 google analytics (구글 애널리틱스, GA) Yongho Ha
http://ga.yonghosee.com 에서 진행하는 구글 어날리틱스(google analytics) 에 대한 강의 슬라이드 입니다. 이 슬라이드는 샘플이지만, 초반부는 실재 강의 교재 그대로 입니다. 이것 자체로도 여러분이 GA를 이해하는데 좀 도움이 된다면 기쁘겠습니다^^ 감사합니다.
(오리지널 구글 프리젠테이션은 http://goo.gl/uiX2UH 에)
- 권재명 (Jaimyoung Kwon)
1. 실리콘 벨리 데이터 기업들
2. 온라인 광고 사업
3. 데이터 사이언티스트, 데이터 엔지니어, 머신러닝 사이언티스트
4. 실리콘 벨리 데이터 사이언티스트의 하루
5. 데이터 사이언스 툴채인
6. 데이터 사이언스 베스트 프랙티스
7. 데이터 사이언스 필수 통계 개념
8. 사내 데이터 사이언스 도입
[우리가 데이터를 쓰는 법] 좋다는 건 알겠는데 좀 써보고 싶소. 데이터! - 넘버웍스 하용호 대표Dylan Ko
Gonnector(고넥터) 고영혁 대표가 주최한 스타트업 데이터 활용 세미나 '우리가 데이터를 쓰는 법' 의 첫 번째 발표 자료
세미나 : 우리가 데이터를 쓰는 법 (How We Use Data)
일시 : 2016년 4월 12일 화요일 10:00 ~ 18:00
장소 : 마루180 (Maru180) B1 Think 홀
제목 : 좋다는 건 알겠는데 좀 써보고 싶소. 데이터!
연사 : 넘버웍스 하용호 대표
제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [BAOBAB 팀] : 반려동물 미용업 모바일 서비스 분석BOAZ Bigdata
데이터 시각화 프로젝트를 진행한 BAOBAB 팀에서는 아래와 같은 프로젝트를 진행했습니다.
반려동물 미용업 모바일 서비스 분석
17기 강지민 숙명여자대학교 통계학과
17기 김나연 고려대학교 통계학과
17기 김지윤 성신여자대학교 융합보안공학과
17기 박이정 인하대학교 경영학과
17기 이세영 동덕여자대학교 국제경영/정보통계학과
Pristones가 실제 서비스에 Growth Haking을 적용한 경험을 '삼성전자 미디어 솔루션 센터'와 상암 DMC 스타트업 모임 Spark@DMC에서 발표한 자료입니다.
주요 내용
- Growth Hacking의 개념 정의와 대표적 사례
- Growth Hacking의 기본 분석 방법론
- Growth Hacking 기법의 로켓펀치(http://rocketpun.ch/), 클럽믹스(http://clubmix.co.kr/) 실제 적용 사례
데이터 분석에 필요한 기본 개념: 지표, Funnel 등 데이터를 이해하기 위한 멘탈 모델(Mental Model)Minwoo Kim
- 강의록 전문 읽기: http://bit.ly/2KKtzRA
데이터 분석(데이터 사이언스 말고, 통상적으로 스타트업에서 '데이터 분석'이나 '그로스'에 쓰는 데이터 분석)을 공부하려면, 어떤 기본 개념을 가지고 계시면 좋을지에 대해 만들어 본 강의 자료입니다.
카우앤독에서 지인 위주로 꾸린 강의에서 꽤 좋은 평가를 받았으나, 강의안 준비가 너무 힘들어서 실제 유료 강의로 이어지지는 않은 비운의 슬라이드...
멘탈 모델이란 무엇인지, 지표는 무엇이며 퍼널(Funnel)은 무엇인지, 등등의 이야기를 합니다. 기승전 결론은 SQL 배우세요. (https://brunch.co.kr/@minu-log/4)
제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [Secret X 팀] : XAI를 활용한 수능 영어영역 문제풀이BOAZ Bigdata
데이터 분석 프로젝트를 진행한 Secret X 팀에서는 아래와 같은 프로젝트를 진행했습니다.
비밀집단에서는 영어 문제를 풀고 XAI를 이용해 이를 해설합니다.
17기 권강미 연세대학교 문헌정보학과
17기 김지수 고려대학교 통계학과
17기 이수경 성균관대학교 데이터사이언스전공
이수지님은 17년 8월 오픈하여 3개월 만에 facebook 50만 좋아요와 누적 100만 사용자, 누적 100만 다운로드, 120만 AU를 달성한 타로챗봇 라마마와 친구들, 헬로우봇(http://hellobot.co/)의 기획자 겸 대표입니다.
#여기컨18 에서는 "스타트업 기획자의 월화수목금"이라는 제목으로 헬로우봇 리서치부터 출시, 운영까지 시기별 기획자의 한 주를 공유해주셨습니다.
제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [코끼리책방 팀] : 사용자 스크랩 내용 기반 도서 추천 BOAZ Bigdata
데이터 분석 프로젝트를 진행한 코끼리책방 팀에서는 아래와 같은 프로젝트를 진행했습니다.
사용자 스크랩 내용 기반 도서 추천
16기 이지혜 이화여자대학교 컴퓨터공학과
17기 권예은 한국항공대학교 컴퓨터공학과
17기 변강준 동국대학교 산업시스템공학과
17기 이현지 이화여자대학교 통계학과
17기 홍지원 국민대학교 AI빅데이터융합경영학과
This document discusses using BigQuery and Dataflow for ETL processes. It explains loading raw data from databases into BigQuery, transforming the data with Dataflow, and writing the results. It also mentions pricing of $5 per terabyte for BigQuery storage and notes that Dataflow provides virtual CPUs and RAM. Finally, it includes a link about performing ETL from relational databases to BigQuery.
** ITS와 유동인구 데이터를 활용한 교통 예측 모델 **
강변북로, 올림픽대로 두 도시고속도로의 구간별 속도를 예측하는 차별화된 모델을 만들기 위해 ITS데이터와 유동인구 데이터를 포함한 다양한 특징변수를 고려하여 신경망 알고리즘으로 지역별 교통 상황을 예측해본다.
7기 일반 정회빈
7기 일반 구민수
7기 일반 구유림
** 국내 최초 대학생 빅데이터 연합동아리 BOAZ **
블로그: http://blog.naver.com/boazbigdata
페이스북: https://www.facebook.com/BOAZbigdata
제가 멘토로 참여한 한 팀과제를 올려봅니다.
참여 팀원들 모두 고생하셨습니다.
---
관심 : 장애인복지시설 개선에 대한 관심으로 시작,
주제 : 평균 1시간 이상씩 걸리는 "장애인콜택시" 대기시간 분석
목표 : 어떻게 개선할 수 있을까를 도출함.
참고 : http://data.seoul.go.kr
교육과정 : SBA 빅데이터 교육과정, PBL 과제
오늘 밤부터 쓰는 google analytics (구글 애널리틱스, GA) Yongho Ha
http://ga.yonghosee.com 에서 진행하는 구글 어날리틱스(google analytics) 에 대한 강의 슬라이드 입니다. 이 슬라이드는 샘플이지만, 초반부는 실재 강의 교재 그대로 입니다. 이것 자체로도 여러분이 GA를 이해하는데 좀 도움이 된다면 기쁘겠습니다^^ 감사합니다.
(오리지널 구글 프리젠테이션은 http://goo.gl/uiX2UH 에)
- 권재명 (Jaimyoung Kwon)
1. 실리콘 벨리 데이터 기업들
2. 온라인 광고 사업
3. 데이터 사이언티스트, 데이터 엔지니어, 머신러닝 사이언티스트
4. 실리콘 벨리 데이터 사이언티스트의 하루
5. 데이터 사이언스 툴채인
6. 데이터 사이언스 베스트 프랙티스
7. 데이터 사이언스 필수 통계 개념
8. 사내 데이터 사이언스 도입
[우리가 데이터를 쓰는 법] 좋다는 건 알겠는데 좀 써보고 싶소. 데이터! - 넘버웍스 하용호 대표Dylan Ko
Gonnector(고넥터) 고영혁 대표가 주최한 스타트업 데이터 활용 세미나 '우리가 데이터를 쓰는 법' 의 첫 번째 발표 자료
세미나 : 우리가 데이터를 쓰는 법 (How We Use Data)
일시 : 2016년 4월 12일 화요일 10:00 ~ 18:00
장소 : 마루180 (Maru180) B1 Think 홀
제목 : 좋다는 건 알겠는데 좀 써보고 싶소. 데이터!
연사 : 넘버웍스 하용호 대표
제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [BAOBAB 팀] : 반려동물 미용업 모바일 서비스 분석BOAZ Bigdata
데이터 시각화 프로젝트를 진행한 BAOBAB 팀에서는 아래와 같은 프로젝트를 진행했습니다.
반려동물 미용업 모바일 서비스 분석
17기 강지민 숙명여자대학교 통계학과
17기 김나연 고려대학교 통계학과
17기 김지윤 성신여자대학교 융합보안공학과
17기 박이정 인하대학교 경영학과
17기 이세영 동덕여자대학교 국제경영/정보통계학과
Pristones가 실제 서비스에 Growth Haking을 적용한 경험을 '삼성전자 미디어 솔루션 센터'와 상암 DMC 스타트업 모임 Spark@DMC에서 발표한 자료입니다.
주요 내용
- Growth Hacking의 개념 정의와 대표적 사례
- Growth Hacking의 기본 분석 방법론
- Growth Hacking 기법의 로켓펀치(http://rocketpun.ch/), 클럽믹스(http://clubmix.co.kr/) 실제 적용 사례
데이터 분석에 필요한 기본 개념: 지표, Funnel 등 데이터를 이해하기 위한 멘탈 모델(Mental Model)Minwoo Kim
- 강의록 전문 읽기: http://bit.ly/2KKtzRA
데이터 분석(데이터 사이언스 말고, 통상적으로 스타트업에서 '데이터 분석'이나 '그로스'에 쓰는 데이터 분석)을 공부하려면, 어떤 기본 개념을 가지고 계시면 좋을지에 대해 만들어 본 강의 자료입니다.
카우앤독에서 지인 위주로 꾸린 강의에서 꽤 좋은 평가를 받았으나, 강의안 준비가 너무 힘들어서 실제 유료 강의로 이어지지는 않은 비운의 슬라이드...
멘탈 모델이란 무엇인지, 지표는 무엇이며 퍼널(Funnel)은 무엇인지, 등등의 이야기를 합니다. 기승전 결론은 SQL 배우세요. (https://brunch.co.kr/@minu-log/4)
제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [Secret X 팀] : XAI를 활용한 수능 영어영역 문제풀이BOAZ Bigdata
데이터 분석 프로젝트를 진행한 Secret X 팀에서는 아래와 같은 프로젝트를 진행했습니다.
비밀집단에서는 영어 문제를 풀고 XAI를 이용해 이를 해설합니다.
17기 권강미 연세대학교 문헌정보학과
17기 김지수 고려대학교 통계학과
17기 이수경 성균관대학교 데이터사이언스전공
이수지님은 17년 8월 오픈하여 3개월 만에 facebook 50만 좋아요와 누적 100만 사용자, 누적 100만 다운로드, 120만 AU를 달성한 타로챗봇 라마마와 친구들, 헬로우봇(http://hellobot.co/)의 기획자 겸 대표입니다.
#여기컨18 에서는 "스타트업 기획자의 월화수목금"이라는 제목으로 헬로우봇 리서치부터 출시, 운영까지 시기별 기획자의 한 주를 공유해주셨습니다.
제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [코끼리책방 팀] : 사용자 스크랩 내용 기반 도서 추천 BOAZ Bigdata
데이터 분석 프로젝트를 진행한 코끼리책방 팀에서는 아래와 같은 프로젝트를 진행했습니다.
사용자 스크랩 내용 기반 도서 추천
16기 이지혜 이화여자대학교 컴퓨터공학과
17기 권예은 한국항공대학교 컴퓨터공학과
17기 변강준 동국대학교 산업시스템공학과
17기 이현지 이화여자대학교 통계학과
17기 홍지원 국민대학교 AI빅데이터융합경영학과
This document discusses using BigQuery and Dataflow for ETL processes. It explains loading raw data from databases into BigQuery, transforming the data with Dataflow, and writing the results. It also mentions pricing of $5 per terabyte for BigQuery storage and notes that Dataflow provides virtual CPUs and RAM. Finally, it includes a link about performing ETL from relational databases to BigQuery.
** ITS와 유동인구 데이터를 활용한 교통 예측 모델 **
강변북로, 올림픽대로 두 도시고속도로의 구간별 속도를 예측하는 차별화된 모델을 만들기 위해 ITS데이터와 유동인구 데이터를 포함한 다양한 특징변수를 고려하여 신경망 알고리즘으로 지역별 교통 상황을 예측해본다.
7기 일반 정회빈
7기 일반 구민수
7기 일반 구유림
** 국내 최초 대학생 빅데이터 연합동아리 BOAZ **
블로그: http://blog.naver.com/boazbigdata
페이스북: https://www.facebook.com/BOAZbigdata
제가 멘토로 참여한 한 팀과제를 올려봅니다.
참여 팀원들 모두 고생하셨습니다.
---
관심 : 장애인복지시설 개선에 대한 관심으로 시작,
주제 : 평균 1시간 이상씩 걸리는 "장애인콜택시" 대기시간 분석
목표 : 어떻게 개선할 수 있을까를 도출함.
참고 : http://data.seoul.go.kr
교육과정 : SBA 빅데이터 교육과정, PBL 과제
도시의 여러 문제 해결의 사례로서 스마트시티 빅데이터 분석 플랫폼과 도시의 문제를 일부 전문가들만이 아닌, 여러 시민과 학생, 데이터 과학자등이 머리를 맞대고 경쟁하여 함께 해결책을 낼 수 있는 개방형 경진대회 플랫폼(COMPAS - Citizen Occupancy Management Problem Analisys Solution)으로의 확장을 실제 사례를 통해 알아보자.
2016 서울시 빅데이터캠퍼스 컨퍼런스 개최
1. 기간장소 ’16.7.14(목) 에스플렉스센터 3D영화관
※ 에스플렉스센터 개관행사와 병행 개최
2. 주 제 빅데이터를 통한 도시 삶의 전환 (Transforming City Life Through Big Data)
- 정책서비스 공급자 입장에서의 빅데이터 분석으로부터 시민이 필요로 하고 체감할 수 있는 빅데이터 분석을 통한 도시 삶의 전환
본 강연에서는 AWS 파트너인 Treasure data의 솔루션을 이용하여 클라우드 환경에서 손쉽게 빅데이터 분석 및 적용하는 법에 대하여 살펴봅니다. 모범 사례에 따른 사용법을 소개하고 JP Morgan 등 해외 선도 고객 사례를 공유합니다.
연사: 고영혁 대표, Treasure Data
1. 기간별 주차장 이용 데이터 분석을
통한 주차 가능 시간 예측 서비스
데만쥬
유희열, 이보민, 김기림, 송혜정
2. 어린이 대공원 방문객의 편의를 증진시키기 위하여
2020년 1월 어린이 대공원 주차장 시간별 주차대수 예측
프로젝트 개요
3. 1. 탐색적 데이터 분석
2. 데이터 전처리
3. 시행착오
4. 가설 설정
5. 결론
4. 탐색적 데이터 분석
2017년(1월 1일 ~ 12월 31일) : 635,142건
2018년(1월 1일 ~ 1월 31일) : 33,828건
2019년(1월 1일 ~ 10월 25일) : 509,461건
년도별 데이터 개수 확인
5. 5
탐색적 데이터 분석
정문 : 429,926건
후문 : 441,842건
구의문 : 304,794건
서버실 : 1,732건
사전무인 : 137건
입출구별 데이터 개수 확인
6. 데이터 전처리
주차시간 분포 그래프를 참고하여 실 이용객 정의
- 주차시간 : 15분 초과, 780 미만
- 진입 시간 : 9시 이후
- 진출시간 : 22시 이전
위 조건의 차량들을 실 이용객으로 간주하여 아웃라이어 데이터 제거 (1307896건, 약 1.1%)
주차시간 이상치 데이터 제거
시설공단측 데이터 내용 확인
- 수동 출차 데이터(6130건) : 진입시각 + 주차시간(분) 으로 변환
- 주차중, 중복입차 데이터 제거 (1686건, 약 0.001%)
진출시각 이상치 데이터 변환, 제거
8. 시계열 분석
시계열 데이터라고 생각하고 시계열 분석을 시도했으나 의미 있는 모델링이 나오지 않음
Rolling Mean
9. 이전 시점의 데이터가 이후 시점의 데이터에 영향을 직접적으로 주지 않음
시간에 따른 패턴은 있지만 시간에 따른 상호작용이 존재하지 않음
날씨 등의 외생변수에 의해 주차장 상황이 결정됨
2017년 데이터만 1월 ~ 12월 데이터가 모두 존재하기 때문에 1년 단위 계절성이 뚜렸한 데이터를 분석하기에는 부족함
EX) 저번주에 어린이대공원을 이용한 사람은 이번주에 이용하지 않는다는 등의 가설을 증명하기 어려움
시계열 분석이 어려운 이유
10. 10
회귀분석 중심으로 계획 변경
외생변수가 되는 데이터들을 가져옴
날씨(기상청)
공휴일(공공데이터 포털)
미세먼지
모델링
선형회귀
Random Forest
XGBoost
11. datetime : 년-월-일-시각
year : 연도
month : 월
date : 날짜
weekday : 요일
count : 해당 시간에 주차되어 있던 차량 수
entrance : 입출구명
• 주차장 데이터
temp : 기온
rain_snow : 강수량 + 적설량
snowfall : 적설량
rainfall : 강수량
windspeed : 풍량
humidity : 습도
sun : 일사량
• 날씨 데이터
dateName : 공휴일 이름
locdate : 공휴일 날짜
weekend : 주말
free_day : 주말 + 공휴일
season : 계절
• 휴일 데이터
데이터셋
13. 2017년 10월 데이터 이상치 확인
2017년 10월에는 약 10일 간의 추석 연휴
2018년 2월 ~ 12월 데이터 존재하지 않음
2017년 10월 이상치 확인
월별 평균 차량 대수 분포(주말 / 평일)
14. 2017년 데이터만 유일하게 1년치 데이터가 모두 존재하므로,
2017년 데이터를 기준으로 training 셋을 만들어
2018년 1월과 2019년 데이터를 예측하는 모델 개발 시도
2018년, 2019년 데이터 예측모델 개발
선형 회귀 모델링
15. 그 외 시도들
유동인구 데이터를 사용하여 해당 문제가 주변 공간에 미치는 영향 분석 시도
-> 광진구 전체의 유동인구 데이터만 존재하기에 구역별 혼잡도 등을 분석할 수 없음
어린이 대공원 이벤트별 입장객 수를 분석해 어린이 대공원의 방문 목적 분석을 시도
-> 상상나라 측 입장객 수 자료를 요청했으나 관할이 달라 제공받지 못함
다이나믹 프라이스를 통해 주차난 해결 아이디어 제안
-> 국가 시설이기때문에 가격을 동적으로 변동할 수 없었음