제1회 DataGeeks(디긱스) 오픈세미나 발표자료
주제 : 데이터 분석과 활용
Google Analytics (이태영) - 모바일과 웹 비즈니스 분석을 위한 Google Analytics 활용
일시 : 12월 13일(토) 오후 13:30 ~ 17:30
장소 : 신논현역(9호선) 1번출구 2분 이내 데브기어 강의장
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [COLLABO-AZ] : 고객 세그멘테이션 기반 개인 맞춤형 추천시스템 for 루빗BOAZ Bigdata
데이터 분석 프로젝트를 진행한 COLLABO-AZ 팀에서는 아래와 같은 프로젝트를 진행했습니다.
고객 세그멘테이션 기반 개인 맞춤형 추천시스템 for 루빗
20기 정지혜 이화여자대학교 통계학과
20기 김지민 중앙대학교 응용통계학과
20기 오태연 단국대학교 정보통계학과
20기 최은선 한양대학교 에리카캠퍼스 정보사회미디어학과
제1회 DataGeeks(디긱스) 오픈세미나 발표자료
주제 : 데이터 분석과 활용
Google Analytics (이태영) - 모바일과 웹 비즈니스 분석을 위한 Google Analytics 활용
일시 : 12월 13일(토) 오후 13:30 ~ 17:30
장소 : 신논현역(9호선) 1번출구 2분 이내 데브기어 강의장
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [COLLABO-AZ] : 고객 세그멘테이션 기반 개인 맞춤형 추천시스템 for 루빗BOAZ Bigdata
데이터 분석 프로젝트를 진행한 COLLABO-AZ 팀에서는 아래와 같은 프로젝트를 진행했습니다.
고객 세그멘테이션 기반 개인 맞춤형 추천시스템 for 루빗
20기 정지혜 이화여자대학교 통계학과
20기 김지민 중앙대학교 응용통계학과
20기 오태연 단국대학교 정보통계학과
20기 최은선 한양대학교 에리카캠퍼스 정보사회미디어학과
- Aiffel과정 특성 상 딥러닝에 초점이 맞춰진 교육이었는데, 데이터 분석 프로젝트를 진행하니까 어려운 부분이 많았습니다.
- 캐글이나 데이콘의 e-commerce 데이터를 다룬 노트북을 참고해서 이해하려고 노력했습니다.
- 여러가지 파생변수를 만들때 효용성과 필요성을 분석하기 위한 여러가지 방법을 추가적으로 학습했습니다.
- 팀 프로젝트 진행 시 코로나로 인해서 온라인 미팅의 어려움이 있었습니다. 그래서 소통과 스케줄링이 더욱 중요하다는 사실을 깨달았습니다.
- 각자 진행하는 파트를 공유하기 위해 적절한 예시와 정리로 온라인 의사소통을 원활하게 진행했습니다.
- 모두 모여서 적절한 파트 분배를 했고, 진행하면서 어려운 부분은 미팅 시간에 화면 공유를 통해 아이디어를 모았습니다.
- 분업을 할 수 있는 부분에서는 파트를 분배하고, 집중해야 될 부분은 단계를 세워서 진행했습니다.
[2016 데이터 그랜드 컨퍼런스] 2 4(빅데이터). 오픈메이트 공간정보로 풀어보는 빅데이터 세상K data
공간정보의 역할? 데이터는 다른 데이터 소스들과 결합할 때 데이터의 진정한 가치가 발휘됩니다. 이중 고강은 많은 데이터 셋이 공존하게 하는 중요한 허브 역할을 합니다. 이와 함께 국가데이터가 개방되면서 공간정보의 역할은 무궁무진해졌습니다. 기존에 상권정보에만 국한되었던 GIS 분석 서비스가 이제는 Location Intelligence로 다양한 역할을 하기 시작하게 되었습니다. 복지시설의 입지 선정, 공공정책의 수립, 그리고 헬스케어 분야까지! 공간정보로 풀수 있는 빅데이터 세상! 그 가능성을 보여드립니다!
(오리지널 구글 프리젠테이션은 http://goo.gl/uiX2UH 에)
- 권재명 (Jaimyoung Kwon)
1. 실리콘 벨리 데이터 기업들
2. 온라인 광고 사업
3. 데이터 사이언티스트, 데이터 엔지니어, 머신러닝 사이언티스트
4. 실리콘 벨리 데이터 사이언티스트의 하루
5. 데이터 사이언스 툴채인
6. 데이터 사이언스 베스트 프랙티스
7. 데이터 사이언스 필수 통계 개념
8. 사내 데이터 사이언스 도입
본 강연에서는 AWS 파트너인 Treasure data의 솔루션을 이용하여 클라우드 환경에서 손쉽게 빅데이터 분석 및 적용하는 법에 대하여 살펴봅니다. 모범 사례에 따른 사용법을 소개하고 JP Morgan 등 해외 선도 고객 사례를 공유합니다.
연사: 고영혁 대표, Treasure Data
- Aiffel과정 특성 상 딥러닝에 초점이 맞춰진 교육이었는데, 데이터 분석 프로젝트를 진행하니까 어려운 부분이 많았습니다.
- 캐글이나 데이콘의 e-commerce 데이터를 다룬 노트북을 참고해서 이해하려고 노력했습니다.
- 여러가지 파생변수를 만들때 효용성과 필요성을 분석하기 위한 여러가지 방법을 추가적으로 학습했습니다.
- 팀 프로젝트 진행 시 코로나로 인해서 온라인 미팅의 어려움이 있었습니다. 그래서 소통과 스케줄링이 더욱 중요하다는 사실을 깨달았습니다.
- 각자 진행하는 파트를 공유하기 위해 적절한 예시와 정리로 온라인 의사소통을 원활하게 진행했습니다.
- 모두 모여서 적절한 파트 분배를 했고, 진행하면서 어려운 부분은 미팅 시간에 화면 공유를 통해 아이디어를 모았습니다.
- 분업을 할 수 있는 부분에서는 파트를 분배하고, 집중해야 될 부분은 단계를 세워서 진행했습니다.
[2016 데이터 그랜드 컨퍼런스] 2 4(빅데이터). 오픈메이트 공간정보로 풀어보는 빅데이터 세상K data
공간정보의 역할? 데이터는 다른 데이터 소스들과 결합할 때 데이터의 진정한 가치가 발휘됩니다. 이중 고강은 많은 데이터 셋이 공존하게 하는 중요한 허브 역할을 합니다. 이와 함께 국가데이터가 개방되면서 공간정보의 역할은 무궁무진해졌습니다. 기존에 상권정보에만 국한되었던 GIS 분석 서비스가 이제는 Location Intelligence로 다양한 역할을 하기 시작하게 되었습니다. 복지시설의 입지 선정, 공공정책의 수립, 그리고 헬스케어 분야까지! 공간정보로 풀수 있는 빅데이터 세상! 그 가능성을 보여드립니다!
(오리지널 구글 프리젠테이션은 http://goo.gl/uiX2UH 에)
- 권재명 (Jaimyoung Kwon)
1. 실리콘 벨리 데이터 기업들
2. 온라인 광고 사업
3. 데이터 사이언티스트, 데이터 엔지니어, 머신러닝 사이언티스트
4. 실리콘 벨리 데이터 사이언티스트의 하루
5. 데이터 사이언스 툴채인
6. 데이터 사이언스 베스트 프랙티스
7. 데이터 사이언스 필수 통계 개념
8. 사내 데이터 사이언스 도입
본 강연에서는 AWS 파트너인 Treasure data의 솔루션을 이용하여 클라우드 환경에서 손쉽게 빅데이터 분석 및 적용하는 법에 대하여 살펴봅니다. 모범 사례에 따른 사용법을 소개하고 JP Morgan 등 해외 선도 고객 사례를 공유합니다.
연사: 고영혁 대표, Treasure Data
1. Ecommerce
고객 특성 분석 2조
201410078 김응주
201610605 박지은
201510792 윤인나
201510642 이준희
201615022 김설하
2. Index
0. 주제 설정
01. Olist
02. 협업 과정
1. 데이터 수집
01. 데이터 정제
02. 결측지 제거
03. 테블로 시각화
2. 데이터 분석
01. 군집 분석
02. 다중 회귀 분석
03. 로지스틱 회귀 분석
04. 랜덤포레스트
3. 상품 추천 알고리즘 및 결론
3. G O O D P E L L O
주제 설정
https://www.pagbrasil.com/market-insights-brazil/, www.olist.com,
https://news.kotra.or.kr/user/globalAllBbs/kotranews/album/2/globalBbsDataAllView.do?d
-1-
브라질의 오픈마켓 ‘olist’
Brazilian E-commerce Market Growth
출처: pagbrasil
출처: olist 공식 홈페이지
4. G O O D P E L L O
주제설정-협업 과정
발표
12월 18일
PPT 제작
12월 14일~
17일
데이터
분석 및
시각화
12월 4일~
14일
주제선정
및 역할
배분
12월 2일
11월 27일
~12월 2일
각자 주제
선정
-2-
5. G O O D P E L L O
주제설정-협업 과정
데이터 주제 선정 GIT HUB 프로젝트 협업
-3-
6. G O O D P E L L O
주제 설정-olist
Kaggle Data - Ecommerce 고객 특성 분석
https://www.kaggle.com/olistbr/brazilian-ecommerce -4-
10. G O O D P E L L O
데이터 수집
Tableau 주별 매출현황
https://public.tableau.com/profile/park.ji.eun#!/vizhome/_28304/sheet0 -8-
11. G O O D P E L L O
데이터 수집
https://public.tableau.com/profile/park.ji.eun#!/vizhome/_28304/sheet2 -9-
Tableau 주별 매출비중
12. G O O D P E L L O
데이터 수집
Tableau 구매 금액(주 단위)
https://public.tableau.com/profile/.37296393#!/vizhome/1_9285/2?publish=yes -10-
13. G O O D P E L L O
Tableau 구매 금액(시 단위)
데이터 수집
https://public.tableau.com/profile/.37296393#!/vizhome/1_9285/1?publish=yes -11-
14. G O O D P E L L O
데이터 수집
Tableau 품목별 판매 비중
https://public.tableau.com/profile/park.ji.eun#!/vizhome/_28304/2 -12-
15. G O O D P E L L O
데이터 분석-군집분석
k-means clustering 분석 코드(Python)
-13-
16. G O O D P E L L O
데이터 분석-군집분석
군집수 4개
군집수 3개 군집수 5개
-14-
군집수 2개 일때 고객 데이터를 가장 잘 구별
최적화 된 군집 수 찾기
17. G O O D P E L L O
기존의 군집수 2개 분석 결과 변수 대체:
배송 소요 기간을 구매 수량으로 대체
변수 3가지: 배송 소요기간, 할부 개월 수, 고객 구매 금액
데이터분석-군집분석
-15-
변수 3가지: 구매수량, 할부 개월 수, 고객 구매 금액
18. G O O D P E L L O
데이터 분석-다중 회귀 분석
결과
https://m.blog.naver.com/PostView.nhn?blogId=samsjang&logNo=221017639342&proxyReferer=htt
ps%3A%2F%2Fwww.google.co.kr%2F
elbow 기법
-16-
19. G O O D P E L L O
데이터 분석- 다중 회귀 분석
결과
종속변수= 고객의 구매 금액
독립변수= 화물 운송 비용, 제품 구매 수량, 제품의 이름 길이,
제품의 설명글 길이, 제품의 사진 개수, 제품의 무게, 제품의
폭, 제품의 길이, 제품의 높이, 할부 개월 수
결과분석 코드(R사용)
-17-
20. G O O D P E L L O
데이터 분석- 다중 회귀 분석
결과R사용 분석 코드결과: 결정계수 0.3215
(전체 데이터의 약 32% 설명)
K-fold 교차 검증 결과:
R-squared 값 0.3204537
-18-
21. G O O D P E L L O
만족,분만족 비욜이 50:50-> 데이터 샘플링 필요 없음
데이터 분석- 로지스틱 회귀분석
-19-
22. G O O D P E L L O
결과로지스틱 회귀분석 코드(Python)
데이터 분석- 로지스틱 회귀분석
-20-
23. G O O D P E L L O
데이터 분석- 로지스틱 회귀분석(수정)
결과결과로지스틱 회귀분석 코드(Python)
-21-
24. G O O D P E L L O
데이터 분석- 로지스틱 회귀분석(수정)
결과로지스틱 회귀분석 코드분석 결과: 모델 성능 0.87
-22-
25. G O O D P E L L O
데이터 분석- 로지스틱 회귀 분석
K-fold 교차검증 코드와 결과
-23-
26. G O O D P E L L O
데이터 분석- 랜덤포레스트
결과
랜덤포레스트 분석 코드
결과: 예측력 0.95
-24-
28. G O O D P E L L O
상품 추천 알고리즘 및 결론
상품 추천 알고리즘(협업 필터링)을 구현하고자 했으나 고객의 구매
데이터와 상품 데이터가 모두 단일 데이터로 불가능.
고객의 직업, 나이 등 고객의 개인 정보에 대한 정보 제공 아쉬움.
-26-
29. G O O D P E L L O
출처
-27-
-분석 데이터 자료 (Ecommerce 고객 특성 분석)
https://www.kaggle.com/olistbr/brazilian-ecommerce
-elbow기법
: https://m.blog.naver.com/PostView.nhn?blogId=samsjang&logNo=221017639342&proxyRefere
r=https%3A%2F%2Fwww.google.co.kr%2F
-랜덤포레스트
https://partrita.github.io/posts/random-forest-python/
-로지스틱 회귀분석
https://3months.tistory.com/28
https://towardsdatascience.com/building-a-logistic-regression-in-python-step-by-step-
becd4d56c9c8