SlideShare a Scribd company logo
1 of 26
Download to read offline
Seoul
12:24 AM
17º
WHAT
THE
WEATHER
융복합 프로젝트형 빅데이터 분석 서비스 개발
최현호 김유철 구혜인
INDEX
1 프로젝트 배경
2 WTW 팀 소개
3 수행 절차 및 방법
4 데이터 수집 및 전처리
5 분석 과정 및 결과
6 느낀점
7 Appendix
Seoul
17º
WTW
01 프로젝트 배경
3융복합 프로젝트형 빅데이터 분석 서비스 개발 전공 프로젝트
날씨로 인해 달라지는 행동과 소비 패턴 분석
날씨와 생활정보 분석 서비스 대시보드
Seoul
17º
WTW
02 WTW 팀 소개
4융복합 프로젝트형 빅데이터 분석 서비스 개발 전공 프로젝트
최현호(팀장)
데이터 수집 및 분석
- Iptv 영화통계
- 배달주문데이터
DB 생성 및 데이터 적재
김유철
데이터 수집 및 분석
- 날씨
- 네이버쇼핑
- 질병
대시보드개발
DB 생성 및 데이터 적재
구혜인
데이터 수집 및 분석
- 농수산물 유통정보
- 국가 화재정보
- 경찰청 교통사고 통계
DB 생성 및 데이터 적재
Seoul
17º
WTW
03 수행절차 및 방법
5융복합 프로젝트형 빅데이터 분석 서비스 개발 전공 프로젝트
10.23(금) ~ 10.30(금)
주제 선정 및 일정 수립
10.31(토) ~ 11.07(토)
데이터 수집 및 전처리
11.08(일) ~ 11.16(월)
분석 시각화 및 모델링
결론 도출
11.13(금) ~ 11.16(월)
왓더웨더 웹페이지 구현
11.17(화)
프로젝트 발표
Seoul
17º
WTW
6융복합 프로젝트형 빅데이터 분석 서비스 개발 전공 프로젝트
03 수행절차 및 방법
수행도구
Seoul
17º
WTW
03 수행절차 및 방법
7융복합 프로젝트형 빅데이터 분석 서비스 개발 전공 프로젝트
오늘과 내일의 온도
습도, 강우량 등 API추출회귀 함수식 적재 회귀 함수식
영역별
회귀 결과 전달
데이터 수집 및
분석
Seoul
17º
WTW
03 수행절차 및 방법
융복합 프로젝트형 빅데이터 분석 서비스 개발 전공 프로젝트 8
WHAT
THE
WEATHER
Seoul
17º
WTW
03 수행결과
융복합 프로젝트형 빅데이터 분석 서비스 개발 전공 프로젝트 9
Seoul
17º
WTW
04 데이터 수집 및 전처리
융복합 프로젝트형 빅데이터 분석 서비스 개발 전공 프로젝트 10
날씨
영화관입장권통합전산망
: 일별 iptv영화 top100 장르
- 2017~2020
- 웹 크롤링
쇼핑 질병 배달
영화 교통사고
TAAS 교통사고 분석 시스템
: 일자별 시도, 시군구별 교통사고
- 2017~2019
- csv
화재발생
소방청 국가 화재정보센터
: 화재 장소별 화재 추세
: 화재 원인별 화재 추세
- 2017~2020
- csv, 웹 크롤링
식품산업
KAMIS 농산물 유통정보
: 일별 품목별 도소매 가격 정보
- 2019.11~2020.10
- Open API
네이버쇼핑
: 일별 2500개 상품 카테고리
별 클릭율
- 2018~2020
- 웹 크롤링
KT빅데이터 플랫폼
: 일별 업종별 평균주문 건수
- 2019.07~2019.08
- CSV
기상청
: 시도/시군구별 일/시간별
온도, 습도, 강우랑, 일조량, 등
- 2017~2020
- CSV + 추가작업
질병관리청 감염병 포털
: 일별 질병 발병건수
- 2017.11~2020.10
- 웹 크롤링
Seoul
17º
WTW
04 데이터 수집 및 전처리
융복합 프로젝트형 빅데이터 분석 서비스 개발 전공 프로젝트 11
1) 날씨
네이버의 시군구 날씨는 예보.
시군구의 실측치는 없음
시군구 레벨의 날씨
: 유클리드 거리의 가중치를 이용
센서1
센서2
센서3
Full join
카카오 API로 추출
250개 시군구 좌표
기상청의 500개
센서 좌표
종로구 좌표에 유클리드
거리가 가장 가까운 3개의
센서 데이터 추출
# 데이터 양(진짜 빅데이터 0_0)
>> 시간별 : 4년 * 365일 * 24시간 * 250시
군구 * 500센서 = 43억 행
종로구 좌표에 가까운 센서들의
거리에 따른 가중치 계산
센서1의 가중치
= 1/2 * (1 - {|d-a1|/(|d-a1| + |d-a2| + |d-a3| + |d-a4|)})
센서2의 가중치
= 1/2 * (1 - {|d-a2|/(|d-a1| + |d-a2| + |d-a3| + |d-a4|)})
센서3의 가중치
= 1/2 * (1 - {|d-a3|/(|d-a1| + |d-a2| + |d-a3| + |d-a4|)})
Seoul
17º
WTW
04 데이터 수집 및 전처리
융복합 프로젝트형 빅데이터 분석 서비스 개발 전공 프로젝트 12
2) 웹 크롤링
기존 Selenium 방식은 시간이 오래 걸린다는
단점을 보완(sleep 그만,,)
>> 그래프 랜더링 전에 특정 URL에서 그래프
의 수치 값을 json으로 받아 오는 것을 발견
개발자도구의 Header와 data의 모양을 똑같이 맞추고
data부분만 조건을 변경하여 5000번 실행
15분만에 끝
sleep 필요 없이 서버에서 200(성공) 받으면 바로 넘어감
<- Response
Request ->
Seoul
17º
WTW
04 데이터 수집 및 전처리
융복합 프로젝트형 빅데이터 분석 서비스 개발 전공 프로젝트 13
3) DB 관리
영역 별로 DB에서 관리
개별로 수집한 데이터 전처리 후
PK를 설정하여 중복 입력을 방지
>> 추후 분석 시 조건에 따른 추출 속도를 높임
>> AWS와 Maria DB 연결하여 테이블 불러온 후 분석 작업
Seoul
17º
WTW
융복합 프로젝트형 빅데이터 분석 서비스 개발 전공 프로젝트 14
1) 분석 방법
05 분석 과정 및 결과
다중회귀분석 선택
- 날씨 + 다른 산업의 데이터 분석
- 서로 다른 데이터의 연관성을 분석하기에
다중회귀분석이 적합하다고 판단
Seoul
17º
WTW
융복합 프로젝트형 빅데이터 분석 서비스 개발 전공 프로젝트 15
2) 변수 선택 및 강수량 데이터 처리
05 분석 과정 및 결과
3) 강수량 데이터 범주화
강수량 데이터의 50% 이상이 0이라서
회귀분석하기 어려움
>> 0인 아닌 데이터를 분류하여 범주화
>> 원핫인코딩
1) EDA과정에서 활용가능한 변수 판단
2) 다중공선성 제거
Seoul
17º
WTW
융복합 프로젝트형 빅데이터 분석 서비스 개발 전공 프로젝트 16
3) 시도별 특성 반영
05 분석 과정 및 결과
시군구 데이터는 정확성은 높을 수 있지만
수치가 너무 낮아서 사용하기 어려움
>> 시도 데이터 사용
화재 / 교통사고 / 식품 등의 데이터를 사용할 때
회귀분석이 각 도시의 특징을 반영하지 못함
>> 도시정보를 원핫인코딩하여 변수로 사용
Seoul
17º
WTW
융복합 프로젝트형 빅데이터 분석 서비스 개발 전공 프로젝트 17
3) 시도별 특성 반영
05 분석 과정 및 결과
Case 1
시군구 시간별 날씨
시군구 시간별 화재
날씨요소
화재 발생 건수
0.06
날씨 데이터에 비해 화재 데
이터 표본이 너무 작음
데이터
독립변수
종속변수
R squared
결과
Case 2
시도 일별 날씨
시도 일별 화재
날씨요소
화재 발생 건수
0.09
시도별 특징을
반영하지 못함
Case 3
시군구 시간별 날씨
시군구 시간별 화재
날씨요소, 시도
화재 발생 건수
0.75
선택
(화재 데이터 예시)
Seoul
17º
WTW
융복합 프로젝트형 빅데이터 분석 서비스 개발 전공 프로젝트 18
4) 데이터 시기 및 범위 조정
05 분석 과정 및 결과
findRsquared 함수개발
입력된 shift값과 group값에 의해 각 독립변수와 종속 변수간의 R squared 값을 추출해줌
파라미터 : 데이터프레임, 독립변수명, 종속변수명, ShiftGap, GroupGap
ShiftGap GroupGap
Seoul
17º
WTW
융복합 프로젝트형 빅데이터 분석 서비스 개발 전공 프로젝트 19
4) 데이터 시기 및 범위 조정
05 분석 과정 및 결과
Ex) 서울시 네이버 쇼핑 클릭율 R스퀘어 0.7이상의 상품 수
findRsquared 함수적용
<질병>
17도시 * 7일 (shift) * 7일 (group) * 7개 반응변수 (질병) = 5,931회 lm수행
초기분석에서 수행된 종속변수 (온도, 강수량, 주말여부)
<네이버 상품>
17도시 * 5일 (shift) * 5일(group) * 2,298개 반응변수 (상품) = 976,650회 lm수행
초기분석에서 수행된 종속변수 (온도, 강수량, 습도)
<식품>
당일, 3일 후, 1주 후, 2주 후 가격비교
# regdf[groc].shift(-10)
90만개의 Rsquared는 appendix에,,
shiftrow 1D 2D 3D 4D 5D 총합계
0 31 50 54 59 135 329
1 33 89 54 69 136 381
2 25 83 75 69 134 386
3 34 86 77 99 141 437
4 36 74 82 97 113 402
총합계 159 382 342 393 659 1,935
Seoul
17º
WTW
06 느낀점
융복합 프로젝트형 빅데이터 분석 서비스 개발 전공 프로젝트 20
최현호(팀장)
김유철
구혜인
데이터분석을 통해 현상 분석을 넘어 새로운 인사이트를
도출하는 과정이 쉽지 않다는 것을 느꼈습니다. 훌륭한
팀원분들 덕분에 분석과정에서 분석 스킬 이외에도 좋은
프로젝트경험을 쌓았던 것 같습니다.
1. 지금 시대에 시군구 레벨의 온도 실측치가 없다니 하
지만 스파크는 멋짐.
2. IT소양과 통계소양은 상호보완 할 수 있다.
3. 다음부터 웹페이지는 만들지 말아야지... ^^
이번 프로젝트는 데이터 분석 중심이라서 통계적 관점의
시각을 배울 수 있었습니다. 팀원분들과 수업에서 배운
것 이상의 스킬들을 배울 수 있어서 좋았습니다.
감사합니다
Seoul
17º
WTW
07 Appendix – 네이버쇼핑/질병 분석결과
융복합 프로젝트형 빅데이터 분석 서비스 개발 전공 프로젝트 22
City R_square Response Xa b dvList grouprow shiftrow
세종특별자치시0.959524 출산/육아 > 유아동의류 > 바지 [-3.755174263123649, 0.12938282345426338, 5.16056279316336, -5.16056279316336] [129.05704521] ['temp_avg', 'amount_of_rain', 'wk0', 'wk1'] 4D 3
세종특별자치시0.948689 출산/육아 > 유아동의류 > 바지 [-3.4073361466361862, 0.18128312339986496, 6.396666948561737, -6.39666694856174] [120.69487419] ['temp_avg', 'amount_of_rain', 'wk0', 'wk1'] 4D 2
대구광역시 0.936538 스포츠/레저 > 캠핑 > 캠핑테이블 [2.2440451814901774, 0.26184228749497984, -2.725958162502425, 2.7259581625024696] [5.86806699] ['temp_avg', 'amount_of_rain', 'wk0', 'wk1'] 5D 2
대구광역시 0.935216 스포츠/레저 > 캠핑 > 캠핑테이블 [2.248443905253643, 0.25547430846508945, 0.038943777496212265, -0.03894377749621215] [6.08906249] ['temp_avg', 'amount_of_rain', 'wk0', 'wk1'] 5D 1
대구광역시 0.934589 스포츠/레저 > 캠핑 > 캠핑테이블 [2.2495892671030644, 0.25562418114334634, 0.5630909273834327, -0.5630909273834346] [6.10834733] ['temp_avg', 'amount_of_rain', 'wk0', 'wk1'] 5D 0
대구광역시 0.9309 스포츠/레저 > 캠핑 > 캠핑의자 [2.130448849045941, 0.20038050648720201, -2.021506458893602, 2.0215064588936342] [2.55280832] ['temp_avg', 'amount_of_rain', 'wk0', 'wk1'] 5D 2
경기도 0.930357 스포츠/레저 > 캠핑 > 캠핑테이블 [2.152999002479256, -0.28705165773034325, -0.9068427828468106, 0.9068427828468101] [14.30506807] ['temp_avg', 'amount_of_rain', 'wk0', 'wk1'] 5D 2
경기도 0.929736 스포츠/레저 > 캠핑 > 캠핑테이블 [2.1573388694788638, -0.2949153001595147, 1.7746155277640339, -1.774615527764035] [14.54347137] ['temp_avg', 'amount_of_rain', 'wk0', 'wk1'] 5D 1
경기도 0.929289 스포츠/레저 > 캠핑 > 캠핑테이블 [2.160748488519547, -0.2983941525814824, 2.2396822877424976, -2.2396822877424967] [14.52469432] ['temp_avg', 'amount_of_rain', 'wk0', 'wk1'] 5D 0
대구광역시 0.928867 스포츠/레저 > 캠핑 > 캠핑의자 [2.1322129598855404, 0.19841963817334765, -0.9496617039832782, 0.9496617039832753] [2.63115229] ['temp_avg', 'amount_of_rain', 'wk0', 'wk1'] 5D 1
경기도 0.928654 스포츠/레저 > 캠핑 > 캠핑의자 [2.0340323570551018, -0.28017700544889196, -0.3189422016922709, 0.3189422016922707] [10.58955032] ['temp_avg', 'amount_of_rain', 'wk0', 'wk1'] 5D 2
세종특별자치시0.928643 출산/육아 > 유아동의류 > 바지 [-4.027743362338512, 0.15300316365944422, 6.539022181319295, -6.539022181319294] [135.95087207] ['temp_avg', 'amount_of_rain', 'wk0', 'wk1'] 4D 4
대구광역시 0.928426 스포츠/레저 > 캠핑 > 캠핑의자 [2.132653136017708, 0.1986994714362224, -0.7604867226169424, 0.7604867226169448] [2.63484294] ['temp_avg', 'amount_of_rain', 'wk0', 'wk1'] 5D 0
경기도 0.927003 스포츠/레저 > 캠핑 > 캠핑의자 [2.035681161083365, -0.2829950916107756, 0.6798193411547161, -0.6798193411547166] [10.67503559] ['temp_avg', 'amount_of_rain', 'wk0', 'wk1'] 5D 1
경기도 0.926614 스포츠/레저 > 캠핑 > 캠핑의자 [2.03692018581878, -0.28340850126289785, 0.8126877436630129, -0.8126877436630126] [10.64872648] ['temp_avg', 'amount_of_rain', 'wk0', 'wk1'] 5D 0
경상북도 0.926193 스포츠/레저 > 캠핑 > 캠핑테이블 [2.2973170338422744, 0.1667342381086668, -2.8431143807717447, 2.8431143807717274] [8.65776334] ['temp_avg', 'amount_of_rain', 'wk0', 'wk1'] 5D 2
경상북도 0.925698 스포츠/레저 > 캠핑 > 캠핑테이블 [2.3014391460977137, 0.1573449967665941, 0.004016659566237724, -0.004016659566237724] [8.92243636] ['temp_avg', 'amount_of_rain', 'wk0', 'wk1'] 5D 1
경상북도 0.925226 스포츠/레저 > 캠핑 > 캠핑테이블 [2.3039146450442467, 0.1568000025276218, 0.5382689051225615, -0.538268905122562] [8.91894533] ['temp_avg', 'amount_of_rain', 'wk0', 'wk1'] 5D 0
서울특별시 0.925146 스포츠/레저 > 캠핑 > 캠핑테이블 [2.1694794826368, -0.23394227208945736, -0.4159952720304537, 0.4159952720304537] [11.171981] ['temp_avg', 'amount_of_rain', 'wk0', 'wk1'] 5D 2
경상남도 0.923387 스포츠/레저 > 캠핑 > 캠핑테이블 [2.425622308775758, 0.085691993371031, -2.609663369310958, 2.6096633693109608] [4.48500253] ['temp_avg', 'amount_of_rain', 'wk0', 'wk1'] 5D 2
서울특별시 0.923378 스포츠/레저 > 캠핑 > 캠핑테이블 [2.1759654676543323, -0.25210965879283614, 2.008901284102441, -2.00890128410244] [11.37432611] ['temp_avg', 'amount_of_rain', 'wk0', 'wk1'] 5D 1
서울특별시 0.922607 스포츠/레저 > 캠핑 > 캠핑테이블 [2.178442919300934, -0.2528493317155449, 2.401129950729403, -2.401129950729403] [11.34483097] ['temp_avg', 'amount_of_rain', 'wk0', 'wk1'] 5D 0
경상북도 0.92245 스포츠/레저 > 캠핑 > 캠핑의자 [2.180694630173407, 0.1195425442438615, -2.1313464725279467, 2.131346472527934] [5.20549655] ['temp_avg', 'amount_of_rain', 'wk0', 'wk1'] 5D 2
경상남도 0.922227 스포츠/레저 > 캠핑 > 캠핑테이블 [2.4324352690030384, 0.0720447341279138, 0.3723780996057388, -0.37237809960573837] [4.73895845] ['temp_avg', 'amount_of_rain', 'wk0', 'wk1'] 5D 1
경상남도 0.921533 스포츠/레저 > 캠핑 > 캠핑테이블 [2.4338981358154657, 0.07036870474713532, 0.9600055512968163, -0.9600055512968176] [4.77030198] ['temp_avg', 'amount_of_rain', 'wk0', 'wk1'] 5D 0
강원도 0.920846 스포츠/레저 > 캠핑 > 캠핑테이블 [2.213663614708303, -0.08058305910328861, -1.6423560367436911, 1.6423560367436916] [13.56717517] ['temp_avg', 'amount_of_rain', 'wk0', 'wk1'] 5D 2
경상북도 0.9207 스포츠/레저 > 캠핑 > 캠핑의자 [2.1823410536074594, 0.11566709593038368, -0.9781927478185756, 0.9781927478185755] [5.31438759] ['temp_avg', 'amount_of_rain', 'wk0', 'wk1'] 5D 1
경상북도 0.92027 스포츠/레저 > 캠핑 > 캠핑의자 [2.18343295225555, 0.1159465188289584, -0.7793658341454396, 0.7793658341454404] [5.30152504] ['temp_avg', 'amount_of_rain', 'wk0', 'wk1'] 5D 0
강원도 0.919435 스포츠/레저 > 캠핑 > 캠핑의자 [2.096849340644685, -0.1007579373019143, -0.9796130425694518, 0.979613042569452] [9.88082852] ['temp_avg', 'amount_of_rain', 'wk0', 'wk1'] 5D 2
강원도 0.919348 스포츠/레저 > 캠핑 > 캠핑테이블 [2.2213988303115637, -0.10055035782388938, 0.9394537242609896, -0.9394537242609894] [13.7893639] ['temp_avg', 'amount_of_rain', 'wk0', 'wk1'] 5D 1
1) 네이버쇼핑
Total : 951,797개
Seoul
17º
WTW
07 Appendix – 네이버쇼핑/질병 분석결과
융복합 프로젝트형 빅데이터 분석 서비스 개발 전공 프로젝트 23
2) 질병
Total : 5,831개
City R_square Response Xa b dvList grouprow shiftrow
경기도 0.888538844 A형간염 [0.13970120897445257, 0.008327585704120774, -0.03476150315741158] [19.34113408] ['temp_avg', 'amount_of_rain', 'r_humidity'] 7D 2
경기도 0.883241429 A형간염 [0.13655402077564108, 0.006178054357540655, -0.03290119797847564] [18.90272623] ['temp_avg', 'amount_of_rain', 'r_humidity'] 7D 1
경기도 0.846943365 A형간염 [0.13673986319717227, -0.00958642513988311, -0.017194370942423706] [11.4005722] ['temp_avg', 'amount_of_rain', 'r_humidity'] 7D 0
충청남도 0.817726937 A형간염 [0.04682212959286827, 0.008271188638063224, -0.017685463822130314] [7.6699157] ['temp_avg', 'amount_of_rain', 'r_humidity'] 6D 1
충청남도 0.812837895 A형간염 [0.04796724553294941, 0.01134381701513322, -0.020983352618014636] [8.98192582] ['temp_avg', 'amount_of_rain', 'r_humidity'] 6D 0
충청남도 0.792994491 A형간염 [0.042482680345307534, 0.0024261974950009336, -0.008977643666042354] [4.33879963] ['temp_avg', 'amount_of_rain', 'r_humidity'] 6D 2
충청남도 0.791741134 A형간염 [0.03818063789197948, 0.017055622870515222, -0.015399387101076481] [7.72442595] ['temp_avg', 'amount_of_rain', 'r_humidity'] 7D 2
서울특별시 0.790831622 A형간염 [0.10955660619376668, 0.009009602830194186, -0.019666164416015014] [6.58585593] ['temp_avg', 'amount_of_rain', 'r_humidity'] 5D 0
서울특별시 0.790708414 A형간염 [0.11002506472363531, 0.00804571037780995, -0.018943883950113972] [6.32839843] ['temp_avg', 'amount_of_rain', 'r_humidity'] 5D 1
경기도 0.78930127 A형간염 [0.1616089502151661, -0.040371785088575814, -0.036259363950168794] [17.93610212] ['temp_avg', 'amount_of_rain', 'r_humidity'] 6D 0
경기도 0.787283291 A형간염 [0.16151397023041963, -0.04267842868068788, -0.03340090923919447] [16.72269074] ['temp_avg', 'amount_of_rain', 'r_humidity'] 6D 1
서울특별시 0.78500227 A형간염 [0.10852975883269105, 0.0026150461717621832, -0.014410797319642054] [5.19303058] ['temp_avg', 'amount_of_rain', 'r_humidity'] 5D 2
충청남도 0.774776819 A형간염 [0.03797451723622854, 0.019098571801645647, -0.017679417390639992] [8.88665364] ['temp_avg', 'amount_of_rain', 'r_humidity'] 7D 1
경기도 0.771570686 A형간염 [0.15798692858388738, -0.0524543192454375, -0.022837238772477862] [12.67839521] ['temp_avg', 'amount_of_rain', 'r_humidity'] 6D 2
충청남도 0.766649653 A형간염 [0.05340515816181188, 0.008503807362921329, -0.019422889664640786] [7.30278001] ['temp_avg', 'amount_of_rain', 'r_humidity'] 5D 1
서울특별시 0.764166688 A형간염 [0.08027763111618294, 0.04297762484971251, -0.02044120184143889] [8.50685929] ['temp_avg', 'amount_of_rain', 'r_humidity'] 7D 1
서울특별시 0.763824095 A형간염 [0.0810589309852397, 0.04216355210217514, -0.019927181757020018] [8.19408757] ['temp_avg', 'amount_of_rain', 'r_humidity'] 7D 2
충청남도 0.763095295 A형간염 [0.05304133891170483, 0.009839402042558495, -0.020290647673407478] [7.64933315] ['temp_avg', 'amount_of_rain', 'r_humidity'] 5D 0
충청남도 0.757511592 A형간염 [0.049766657025550755, 0.002648546887720172, -0.010998631609441168] [4.57599378] ['temp_avg', 'amount_of_rain', 'r_humidity'] 5D 2
충청북도 0.732172364 A형간염 [0.04577643162030125, 0.004376261196867078, -0.00945537531319486] [3.01791639] ['temp_avg', 'amount_of_rain', 'r_humidity'] 4D 0
경기도 0.730683204 A형간염 [0.2288062152156026, 0.00030511380800137103, -0.05267724663513536] [17.39176204] ['temp_avg', 'amount_of_rain', 'r_humidity'] 4D 1
충청북도 0.730551417 A형간염 [0.04657879183171699, 0.004750475303615158, -0.011550342298359275] [3.57381479] ['temp_avg', 'amount_of_rain', 'r_humidity'] 4D 1
경기도 0.729302592 A형간염 [0.22925625842176847, -0.003363241671804554, -0.04709834899632735] [15.76949639] ['temp_avg', 'amount_of_rain', 'r_humidity'] 4D 2
경기도 0.724678867 A형간염 [0.22768278163685146, -0.003041820782980594, -0.04042631185143052] [13.7410276] ['temp_avg', 'amount_of_rain', 'r_humidity'] 4D 0
충청북도 0.724079094 A형간염 [0.028748231446451833, 0.003280260099924319, -0.008508102632474583] [4.36951578] ['temp_avg', 'amount_of_rain', 'r_humidity'] 7D 2
충청북도 0.723560726 A형간염 [0.04688977929264712, 0.0037435386344085047, -0.010228034015654756] [3.19777654] ['temp_avg', 'amount_of_rain', 'r_humidity'] 4D 2
충청북도 0.72187523 A형간염 [0.02803761788220687, 0.003363453800347318, -0.008575625659022387] [4.49544003] ['temp_avg', 'amount_of_rain', 'r_humidity'] 7D 1
대전광역시 0.709164102 A형간염 [0.061324590894430465, 0.021841098302216935, -0.01106994237805862] [6.1083609] ['temp_avg', 'amount_of_rain', 'r_humidity'] 7D 2
경기도 0.706586089 A형간염 [0.19512028613141233, -0.009630141556370804, -0.04495172279593165] [18.43769596] ['temp_avg', 'amount_of_rain', 'r_humidity'] 5D 1
대전광역시 0.705759115 A형간염 [0.06154093875743628, 0.024004551196574957, -0.013227722418730752] [7.10412844] ['temp_avg', 'amount_of_rain', 'r_humidity'] 7D 1
Seoul
17º
WTW
07 Appendix - 영화
융복합 프로젝트형 빅데이터 분석 서비스 개발 전공 프로젝트 24
1) 배달
KT 빅데이터 플랫폼에서 제공받은 1년치 배달주문데이터 중 코로나 이전의 주문건수 자료를 활용
날씨가 평균 배달주문건수에 미치는 영향
평균기온과 배달업종과의 선형관계
코로나가 시작된 올해 2월 이후부터 배달 주문이 폭증
코로나로 인한 영향력을 제외하기 위해 코로나 이전의 배달주문데이터를 이용
또한, 서울 이외의 지역에서는 업종별로 충분한 데이터가 확보되지 않아
서울지역을 대상으로 분석을 진행
날씨변수와 배달업종간의 상관계수 히트맵을 그려보고
평균기온과 4가지 배달업종간 선형관계를 발견
Seoul
17º
WTW
07 Appendix - 배달
융복합 프로젝트형 빅데이터 분석 서비스 개발 전공 프로젝트 25
1) 배달
날씨가 평균 배달주문건수에 미치는 영향
분식부터 한식까지 5가지 업종모두
비가 안왔을 때보다 비가 왔을 때
일평균 주문건수가 10%이상씩 증가
서울에서는 기온이 높아질수록
(돈까스/일식), (아시안/양식)이 배달 주문이 증가하였고,
(피자)와 (회)는 기온이 높아질 수록 배달주문이 감소
Seoul
17º
WTW
07 Appendix – IPTV
융복합 프로젝트형 빅데이터 분석 서비스 개발 전공 프로젝트 26
2) 영화
날씨가 IPTV 영화 장르 선택에 미치는 영향
-평균기온이 높아지면 드라마와 공포, 미스터리 장르 선택은 증가하고
애니메이션 장르선택은 줄어드는 경향이 있음
-가져온 날씨 데이터에서는 강수량 분포가 고르지 못하
여 원핫인코딩으로 구간을 나누어주고 상관관계 확인
-강수량 보다는 평균기온과 장르간의 상관관계를
가지는 것을 발견

More Related Content

What's hot

水晶報表的使用
水晶報表的使用水晶報表的使用
水晶報表的使用ShunYeh
 
331 Ch
331 Ch331 Ch
331 Chanjaan
 
Ruby による Agile 開発
Ruby による Agile 開発Ruby による Agile 開発
Ruby による Agile 開発Kenji Hiranabe
 
서버, 도커 컨테이너, 데이터베이스, WAS, 네트워크, 쿨링랙, 서버 취약점, IP 주소 관리, 가동률 등 IT 인프라 모니터링 솔루션 ...
서버, 도커 컨테이너, 데이터베이스, WAS, 네트워크, 쿨링랙, 서버 취약점, IP 주소 관리, 가동률 등 IT 인프라 모니터링 솔루션 ...서버, 도커 컨테이너, 데이터베이스, WAS, 네트워크, 쿨링랙, 서버 취약점, IP 주소 관리, 가동률 등 IT 인프라 모니터링 솔루션 ...
서버, 도커 컨테이너, 데이터베이스, WAS, 네트워크, 쿨링랙, 서버 취약점, IP 주소 관리, 가동률 등 IT 인프라 모니터링 솔루션 ...옥시즌
 
A framework for interaction driven user modeling of mobile news reading behav...
A framework for interaction driven user modeling of mobile news reading behav...A framework for interaction driven user modeling of mobile news reading behav...
A framework for interaction driven user modeling of mobile news reading behav...Myeonggyun Ryu
 
2021년 1월 9일 개발자 이야기
2021년 1월 9일 개발자 이야기2021년 1월 9일 개발자 이야기
2021년 1월 9일 개발자 이야기Jay Park
 
Second Paper of Knowledge Management for NPD
Second Paper of Knowledge Management for NPDSecond Paper of Knowledge Management for NPD
Second Paper of Knowledge Management for NPDSangmin Cha
 
Recommender Systems in E-Commerce
Recommender Systems in E-CommerceRecommender Systems in E-Commerce
Recommender Systems in E-Commercechuan liang
 
Thailand E-commerce 2008 Forum
Thailand E-commerce 2008 ForumThailand E-commerce 2008 Forum
Thailand E-commerce 2008 ForumOuizz Saebe
 
2021년 1월 16일 개발자 이야기
2021년 1월 16일 개발자 이야기2021년 1월 16일 개발자 이야기
2021년 1월 16일 개발자 이야기Jay Park
 
346 Ch
346 Ch346 Ch
346 Chanjaan
 
Extra Income Plan Eip
Extra Income Plan EipExtra Income Plan Eip
Extra Income Plan EipLeo_Ky
 
eComing Club簡介200802
eComing Club簡介200802eComing Club簡介200802
eComing Club簡介200802Robin Chen
 

What's hot (20)

S24
S24S24
S24
 
水晶報表的使用
水晶報表的使用水晶報表的使用
水晶報表的使用
 
MathSciNet20090526
MathSciNet20090526MathSciNet20090526
MathSciNet20090526
 
S28
S28S28
S28
 
331 Ch
331 Ch331 Ch
331 Ch
 
Ruby による Agile 開発
Ruby による Agile 開発Ruby による Agile 開発
Ruby による Agile 開発
 
S20
S20S20
S20
 
서버, 도커 컨테이너, 데이터베이스, WAS, 네트워크, 쿨링랙, 서버 취약점, IP 주소 관리, 가동률 등 IT 인프라 모니터링 솔루션 ...
서버, 도커 컨테이너, 데이터베이스, WAS, 네트워크, 쿨링랙, 서버 취약점, IP 주소 관리, 가동률 등 IT 인프라 모니터링 솔루션 ...서버, 도커 컨테이너, 데이터베이스, WAS, 네트워크, 쿨링랙, 서버 취약점, IP 주소 관리, 가동률 등 IT 인프라 모니터링 솔루션 ...
서버, 도커 컨테이너, 데이터베이스, WAS, 네트워크, 쿨링랙, 서버 취약점, IP 주소 관리, 가동률 등 IT 인프라 모니터링 솔루션 ...
 
A framework for interaction driven user modeling of mobile news reading behav...
A framework for interaction driven user modeling of mobile news reading behav...A framework for interaction driven user modeling of mobile news reading behav...
A framework for interaction driven user modeling of mobile news reading behav...
 
S19
S19S19
S19
 
2021년 1월 9일 개발자 이야기
2021년 1월 9일 개발자 이야기2021년 1월 9일 개발자 이야기
2021년 1월 9일 개발자 이야기
 
S12
S12S12
S12
 
Second Paper of Knowledge Management for NPD
Second Paper of Knowledge Management for NPDSecond Paper of Knowledge Management for NPD
Second Paper of Knowledge Management for NPD
 
Recommender Systems in E-Commerce
Recommender Systems in E-CommerceRecommender Systems in E-Commerce
Recommender Systems in E-Commerce
 
Thailand E-commerce 2008 Forum
Thailand E-commerce 2008 ForumThailand E-commerce 2008 Forum
Thailand E-commerce 2008 Forum
 
Thailand E Commerce Info 2008
Thailand E Commerce Info 2008Thailand E Commerce Info 2008
Thailand E Commerce Info 2008
 
2021년 1월 16일 개발자 이야기
2021년 1월 16일 개발자 이야기2021년 1월 16일 개발자 이야기
2021년 1월 16일 개발자 이야기
 
346 Ch
346 Ch346 Ch
346 Ch
 
Extra Income Plan Eip
Extra Income Plan EipExtra Income Plan Eip
Extra Income Plan Eip
 
eComing Club簡介200802
eComing Club簡介200802eComing Club簡介200802
eComing Club簡介200802
 

WTW project

  • 1. Seoul 12:24 AM 17º WHAT THE WEATHER 융복합 프로젝트형 빅데이터 분석 서비스 개발 최현호 김유철 구혜인
  • 2. INDEX 1 프로젝트 배경 2 WTW 팀 소개 3 수행 절차 및 방법 4 데이터 수집 및 전처리 5 분석 과정 및 결과 6 느낀점 7 Appendix
  • 3. Seoul 17º WTW 01 프로젝트 배경 3융복합 프로젝트형 빅데이터 분석 서비스 개발 전공 프로젝트 날씨로 인해 달라지는 행동과 소비 패턴 분석 날씨와 생활정보 분석 서비스 대시보드
  • 4. Seoul 17º WTW 02 WTW 팀 소개 4융복합 프로젝트형 빅데이터 분석 서비스 개발 전공 프로젝트 최현호(팀장) 데이터 수집 및 분석 - Iptv 영화통계 - 배달주문데이터 DB 생성 및 데이터 적재 김유철 데이터 수집 및 분석 - 날씨 - 네이버쇼핑 - 질병 대시보드개발 DB 생성 및 데이터 적재 구혜인 데이터 수집 및 분석 - 농수산물 유통정보 - 국가 화재정보 - 경찰청 교통사고 통계 DB 생성 및 데이터 적재
  • 5. Seoul 17º WTW 03 수행절차 및 방법 5융복합 프로젝트형 빅데이터 분석 서비스 개발 전공 프로젝트 10.23(금) ~ 10.30(금) 주제 선정 및 일정 수립 10.31(토) ~ 11.07(토) 데이터 수집 및 전처리 11.08(일) ~ 11.16(월) 분석 시각화 및 모델링 결론 도출 11.13(금) ~ 11.16(월) 왓더웨더 웹페이지 구현 11.17(화) 프로젝트 발표
  • 6. Seoul 17º WTW 6융복합 프로젝트형 빅데이터 분석 서비스 개발 전공 프로젝트 03 수행절차 및 방법 수행도구
  • 7. Seoul 17º WTW 03 수행절차 및 방법 7융복합 프로젝트형 빅데이터 분석 서비스 개발 전공 프로젝트 오늘과 내일의 온도 습도, 강우량 등 API추출회귀 함수식 적재 회귀 함수식 영역별 회귀 결과 전달 데이터 수집 및 분석
  • 8. Seoul 17º WTW 03 수행절차 및 방법 융복합 프로젝트형 빅데이터 분석 서비스 개발 전공 프로젝트 8 WHAT THE WEATHER
  • 9. Seoul 17º WTW 03 수행결과 융복합 프로젝트형 빅데이터 분석 서비스 개발 전공 프로젝트 9
  • 10. Seoul 17º WTW 04 데이터 수집 및 전처리 융복합 프로젝트형 빅데이터 분석 서비스 개발 전공 프로젝트 10 날씨 영화관입장권통합전산망 : 일별 iptv영화 top100 장르 - 2017~2020 - 웹 크롤링 쇼핑 질병 배달 영화 교통사고 TAAS 교통사고 분석 시스템 : 일자별 시도, 시군구별 교통사고 - 2017~2019 - csv 화재발생 소방청 국가 화재정보센터 : 화재 장소별 화재 추세 : 화재 원인별 화재 추세 - 2017~2020 - csv, 웹 크롤링 식품산업 KAMIS 농산물 유통정보 : 일별 품목별 도소매 가격 정보 - 2019.11~2020.10 - Open API 네이버쇼핑 : 일별 2500개 상품 카테고리 별 클릭율 - 2018~2020 - 웹 크롤링 KT빅데이터 플랫폼 : 일별 업종별 평균주문 건수 - 2019.07~2019.08 - CSV 기상청 : 시도/시군구별 일/시간별 온도, 습도, 강우랑, 일조량, 등 - 2017~2020 - CSV + 추가작업 질병관리청 감염병 포털 : 일별 질병 발병건수 - 2017.11~2020.10 - 웹 크롤링
  • 11. Seoul 17º WTW 04 데이터 수집 및 전처리 융복합 프로젝트형 빅데이터 분석 서비스 개발 전공 프로젝트 11 1) 날씨 네이버의 시군구 날씨는 예보. 시군구의 실측치는 없음 시군구 레벨의 날씨 : 유클리드 거리의 가중치를 이용 센서1 센서2 센서3 Full join 카카오 API로 추출 250개 시군구 좌표 기상청의 500개 센서 좌표 종로구 좌표에 유클리드 거리가 가장 가까운 3개의 센서 데이터 추출 # 데이터 양(진짜 빅데이터 0_0) >> 시간별 : 4년 * 365일 * 24시간 * 250시 군구 * 500센서 = 43억 행 종로구 좌표에 가까운 센서들의 거리에 따른 가중치 계산 센서1의 가중치 = 1/2 * (1 - {|d-a1|/(|d-a1| + |d-a2| + |d-a3| + |d-a4|)}) 센서2의 가중치 = 1/2 * (1 - {|d-a2|/(|d-a1| + |d-a2| + |d-a3| + |d-a4|)}) 센서3의 가중치 = 1/2 * (1 - {|d-a3|/(|d-a1| + |d-a2| + |d-a3| + |d-a4|)})
  • 12. Seoul 17º WTW 04 데이터 수집 및 전처리 융복합 프로젝트형 빅데이터 분석 서비스 개발 전공 프로젝트 12 2) 웹 크롤링 기존 Selenium 방식은 시간이 오래 걸린다는 단점을 보완(sleep 그만,,) >> 그래프 랜더링 전에 특정 URL에서 그래프 의 수치 값을 json으로 받아 오는 것을 발견 개발자도구의 Header와 data의 모양을 똑같이 맞추고 data부분만 조건을 변경하여 5000번 실행 15분만에 끝 sleep 필요 없이 서버에서 200(성공) 받으면 바로 넘어감 <- Response Request ->
  • 13. Seoul 17º WTW 04 데이터 수집 및 전처리 융복합 프로젝트형 빅데이터 분석 서비스 개발 전공 프로젝트 13 3) DB 관리 영역 별로 DB에서 관리 개별로 수집한 데이터 전처리 후 PK를 설정하여 중복 입력을 방지 >> 추후 분석 시 조건에 따른 추출 속도를 높임 >> AWS와 Maria DB 연결하여 테이블 불러온 후 분석 작업
  • 14. Seoul 17º WTW 융복합 프로젝트형 빅데이터 분석 서비스 개발 전공 프로젝트 14 1) 분석 방법 05 분석 과정 및 결과 다중회귀분석 선택 - 날씨 + 다른 산업의 데이터 분석 - 서로 다른 데이터의 연관성을 분석하기에 다중회귀분석이 적합하다고 판단
  • 15. Seoul 17º WTW 융복합 프로젝트형 빅데이터 분석 서비스 개발 전공 프로젝트 15 2) 변수 선택 및 강수량 데이터 처리 05 분석 과정 및 결과 3) 강수량 데이터 범주화 강수량 데이터의 50% 이상이 0이라서 회귀분석하기 어려움 >> 0인 아닌 데이터를 분류하여 범주화 >> 원핫인코딩 1) EDA과정에서 활용가능한 변수 판단 2) 다중공선성 제거
  • 16. Seoul 17º WTW 융복합 프로젝트형 빅데이터 분석 서비스 개발 전공 프로젝트 16 3) 시도별 특성 반영 05 분석 과정 및 결과 시군구 데이터는 정확성은 높을 수 있지만 수치가 너무 낮아서 사용하기 어려움 >> 시도 데이터 사용 화재 / 교통사고 / 식품 등의 데이터를 사용할 때 회귀분석이 각 도시의 특징을 반영하지 못함 >> 도시정보를 원핫인코딩하여 변수로 사용
  • 17. Seoul 17º WTW 융복합 프로젝트형 빅데이터 분석 서비스 개발 전공 프로젝트 17 3) 시도별 특성 반영 05 분석 과정 및 결과 Case 1 시군구 시간별 날씨 시군구 시간별 화재 날씨요소 화재 발생 건수 0.06 날씨 데이터에 비해 화재 데 이터 표본이 너무 작음 데이터 독립변수 종속변수 R squared 결과 Case 2 시도 일별 날씨 시도 일별 화재 날씨요소 화재 발생 건수 0.09 시도별 특징을 반영하지 못함 Case 3 시군구 시간별 날씨 시군구 시간별 화재 날씨요소, 시도 화재 발생 건수 0.75 선택 (화재 데이터 예시)
  • 18. Seoul 17º WTW 융복합 프로젝트형 빅데이터 분석 서비스 개발 전공 프로젝트 18 4) 데이터 시기 및 범위 조정 05 분석 과정 및 결과 findRsquared 함수개발 입력된 shift값과 group값에 의해 각 독립변수와 종속 변수간의 R squared 값을 추출해줌 파라미터 : 데이터프레임, 독립변수명, 종속변수명, ShiftGap, GroupGap ShiftGap GroupGap
  • 19. Seoul 17º WTW 융복합 프로젝트형 빅데이터 분석 서비스 개발 전공 프로젝트 19 4) 데이터 시기 및 범위 조정 05 분석 과정 및 결과 Ex) 서울시 네이버 쇼핑 클릭율 R스퀘어 0.7이상의 상품 수 findRsquared 함수적용 <질병> 17도시 * 7일 (shift) * 7일 (group) * 7개 반응변수 (질병) = 5,931회 lm수행 초기분석에서 수행된 종속변수 (온도, 강수량, 주말여부) <네이버 상품> 17도시 * 5일 (shift) * 5일(group) * 2,298개 반응변수 (상품) = 976,650회 lm수행 초기분석에서 수행된 종속변수 (온도, 강수량, 습도) <식품> 당일, 3일 후, 1주 후, 2주 후 가격비교 # regdf[groc].shift(-10) 90만개의 Rsquared는 appendix에,, shiftrow 1D 2D 3D 4D 5D 총합계 0 31 50 54 59 135 329 1 33 89 54 69 136 381 2 25 83 75 69 134 386 3 34 86 77 99 141 437 4 36 74 82 97 113 402 총합계 159 382 342 393 659 1,935
  • 20. Seoul 17º WTW 06 느낀점 융복합 프로젝트형 빅데이터 분석 서비스 개발 전공 프로젝트 20 최현호(팀장) 김유철 구혜인 데이터분석을 통해 현상 분석을 넘어 새로운 인사이트를 도출하는 과정이 쉽지 않다는 것을 느꼈습니다. 훌륭한 팀원분들 덕분에 분석과정에서 분석 스킬 이외에도 좋은 프로젝트경험을 쌓았던 것 같습니다. 1. 지금 시대에 시군구 레벨의 온도 실측치가 없다니 하 지만 스파크는 멋짐. 2. IT소양과 통계소양은 상호보완 할 수 있다. 3. 다음부터 웹페이지는 만들지 말아야지... ^^ 이번 프로젝트는 데이터 분석 중심이라서 통계적 관점의 시각을 배울 수 있었습니다. 팀원분들과 수업에서 배운 것 이상의 스킬들을 배울 수 있어서 좋았습니다.
  • 22. Seoul 17º WTW 07 Appendix – 네이버쇼핑/질병 분석결과 융복합 프로젝트형 빅데이터 분석 서비스 개발 전공 프로젝트 22 City R_square Response Xa b dvList grouprow shiftrow 세종특별자치시0.959524 출산/육아 > 유아동의류 > 바지 [-3.755174263123649, 0.12938282345426338, 5.16056279316336, -5.16056279316336] [129.05704521] ['temp_avg', 'amount_of_rain', 'wk0', 'wk1'] 4D 3 세종특별자치시0.948689 출산/육아 > 유아동의류 > 바지 [-3.4073361466361862, 0.18128312339986496, 6.396666948561737, -6.39666694856174] [120.69487419] ['temp_avg', 'amount_of_rain', 'wk0', 'wk1'] 4D 2 대구광역시 0.936538 스포츠/레저 > 캠핑 > 캠핑테이블 [2.2440451814901774, 0.26184228749497984, -2.725958162502425, 2.7259581625024696] [5.86806699] ['temp_avg', 'amount_of_rain', 'wk0', 'wk1'] 5D 2 대구광역시 0.935216 스포츠/레저 > 캠핑 > 캠핑테이블 [2.248443905253643, 0.25547430846508945, 0.038943777496212265, -0.03894377749621215] [6.08906249] ['temp_avg', 'amount_of_rain', 'wk0', 'wk1'] 5D 1 대구광역시 0.934589 스포츠/레저 > 캠핑 > 캠핑테이블 [2.2495892671030644, 0.25562418114334634, 0.5630909273834327, -0.5630909273834346] [6.10834733] ['temp_avg', 'amount_of_rain', 'wk0', 'wk1'] 5D 0 대구광역시 0.9309 스포츠/레저 > 캠핑 > 캠핑의자 [2.130448849045941, 0.20038050648720201, -2.021506458893602, 2.0215064588936342] [2.55280832] ['temp_avg', 'amount_of_rain', 'wk0', 'wk1'] 5D 2 경기도 0.930357 스포츠/레저 > 캠핑 > 캠핑테이블 [2.152999002479256, -0.28705165773034325, -0.9068427828468106, 0.9068427828468101] [14.30506807] ['temp_avg', 'amount_of_rain', 'wk0', 'wk1'] 5D 2 경기도 0.929736 스포츠/레저 > 캠핑 > 캠핑테이블 [2.1573388694788638, -0.2949153001595147, 1.7746155277640339, -1.774615527764035] [14.54347137] ['temp_avg', 'amount_of_rain', 'wk0', 'wk1'] 5D 1 경기도 0.929289 스포츠/레저 > 캠핑 > 캠핑테이블 [2.160748488519547, -0.2983941525814824, 2.2396822877424976, -2.2396822877424967] [14.52469432] ['temp_avg', 'amount_of_rain', 'wk0', 'wk1'] 5D 0 대구광역시 0.928867 스포츠/레저 > 캠핑 > 캠핑의자 [2.1322129598855404, 0.19841963817334765, -0.9496617039832782, 0.9496617039832753] [2.63115229] ['temp_avg', 'amount_of_rain', 'wk0', 'wk1'] 5D 1 경기도 0.928654 스포츠/레저 > 캠핑 > 캠핑의자 [2.0340323570551018, -0.28017700544889196, -0.3189422016922709, 0.3189422016922707] [10.58955032] ['temp_avg', 'amount_of_rain', 'wk0', 'wk1'] 5D 2 세종특별자치시0.928643 출산/육아 > 유아동의류 > 바지 [-4.027743362338512, 0.15300316365944422, 6.539022181319295, -6.539022181319294] [135.95087207] ['temp_avg', 'amount_of_rain', 'wk0', 'wk1'] 4D 4 대구광역시 0.928426 스포츠/레저 > 캠핑 > 캠핑의자 [2.132653136017708, 0.1986994714362224, -0.7604867226169424, 0.7604867226169448] [2.63484294] ['temp_avg', 'amount_of_rain', 'wk0', 'wk1'] 5D 0 경기도 0.927003 스포츠/레저 > 캠핑 > 캠핑의자 [2.035681161083365, -0.2829950916107756, 0.6798193411547161, -0.6798193411547166] [10.67503559] ['temp_avg', 'amount_of_rain', 'wk0', 'wk1'] 5D 1 경기도 0.926614 스포츠/레저 > 캠핑 > 캠핑의자 [2.03692018581878, -0.28340850126289785, 0.8126877436630129, -0.8126877436630126] [10.64872648] ['temp_avg', 'amount_of_rain', 'wk0', 'wk1'] 5D 0 경상북도 0.926193 스포츠/레저 > 캠핑 > 캠핑테이블 [2.2973170338422744, 0.1667342381086668, -2.8431143807717447, 2.8431143807717274] [8.65776334] ['temp_avg', 'amount_of_rain', 'wk0', 'wk1'] 5D 2 경상북도 0.925698 스포츠/레저 > 캠핑 > 캠핑테이블 [2.3014391460977137, 0.1573449967665941, 0.004016659566237724, -0.004016659566237724] [8.92243636] ['temp_avg', 'amount_of_rain', 'wk0', 'wk1'] 5D 1 경상북도 0.925226 스포츠/레저 > 캠핑 > 캠핑테이블 [2.3039146450442467, 0.1568000025276218, 0.5382689051225615, -0.538268905122562] [8.91894533] ['temp_avg', 'amount_of_rain', 'wk0', 'wk1'] 5D 0 서울특별시 0.925146 스포츠/레저 > 캠핑 > 캠핑테이블 [2.1694794826368, -0.23394227208945736, -0.4159952720304537, 0.4159952720304537] [11.171981] ['temp_avg', 'amount_of_rain', 'wk0', 'wk1'] 5D 2 경상남도 0.923387 스포츠/레저 > 캠핑 > 캠핑테이블 [2.425622308775758, 0.085691993371031, -2.609663369310958, 2.6096633693109608] [4.48500253] ['temp_avg', 'amount_of_rain', 'wk0', 'wk1'] 5D 2 서울특별시 0.923378 스포츠/레저 > 캠핑 > 캠핑테이블 [2.1759654676543323, -0.25210965879283614, 2.008901284102441, -2.00890128410244] [11.37432611] ['temp_avg', 'amount_of_rain', 'wk0', 'wk1'] 5D 1 서울특별시 0.922607 스포츠/레저 > 캠핑 > 캠핑테이블 [2.178442919300934, -0.2528493317155449, 2.401129950729403, -2.401129950729403] [11.34483097] ['temp_avg', 'amount_of_rain', 'wk0', 'wk1'] 5D 0 경상북도 0.92245 스포츠/레저 > 캠핑 > 캠핑의자 [2.180694630173407, 0.1195425442438615, -2.1313464725279467, 2.131346472527934] [5.20549655] ['temp_avg', 'amount_of_rain', 'wk0', 'wk1'] 5D 2 경상남도 0.922227 스포츠/레저 > 캠핑 > 캠핑테이블 [2.4324352690030384, 0.0720447341279138, 0.3723780996057388, -0.37237809960573837] [4.73895845] ['temp_avg', 'amount_of_rain', 'wk0', 'wk1'] 5D 1 경상남도 0.921533 스포츠/레저 > 캠핑 > 캠핑테이블 [2.4338981358154657, 0.07036870474713532, 0.9600055512968163, -0.9600055512968176] [4.77030198] ['temp_avg', 'amount_of_rain', 'wk0', 'wk1'] 5D 0 강원도 0.920846 스포츠/레저 > 캠핑 > 캠핑테이블 [2.213663614708303, -0.08058305910328861, -1.6423560367436911, 1.6423560367436916] [13.56717517] ['temp_avg', 'amount_of_rain', 'wk0', 'wk1'] 5D 2 경상북도 0.9207 스포츠/레저 > 캠핑 > 캠핑의자 [2.1823410536074594, 0.11566709593038368, -0.9781927478185756, 0.9781927478185755] [5.31438759] ['temp_avg', 'amount_of_rain', 'wk0', 'wk1'] 5D 1 경상북도 0.92027 스포츠/레저 > 캠핑 > 캠핑의자 [2.18343295225555, 0.1159465188289584, -0.7793658341454396, 0.7793658341454404] [5.30152504] ['temp_avg', 'amount_of_rain', 'wk0', 'wk1'] 5D 0 강원도 0.919435 스포츠/레저 > 캠핑 > 캠핑의자 [2.096849340644685, -0.1007579373019143, -0.9796130425694518, 0.979613042569452] [9.88082852] ['temp_avg', 'amount_of_rain', 'wk0', 'wk1'] 5D 2 강원도 0.919348 스포츠/레저 > 캠핑 > 캠핑테이블 [2.2213988303115637, -0.10055035782388938, 0.9394537242609896, -0.9394537242609894] [13.7893639] ['temp_avg', 'amount_of_rain', 'wk0', 'wk1'] 5D 1 1) 네이버쇼핑 Total : 951,797개
  • 23. Seoul 17º WTW 07 Appendix – 네이버쇼핑/질병 분석결과 융복합 프로젝트형 빅데이터 분석 서비스 개발 전공 프로젝트 23 2) 질병 Total : 5,831개 City R_square Response Xa b dvList grouprow shiftrow 경기도 0.888538844 A형간염 [0.13970120897445257, 0.008327585704120774, -0.03476150315741158] [19.34113408] ['temp_avg', 'amount_of_rain', 'r_humidity'] 7D 2 경기도 0.883241429 A형간염 [0.13655402077564108, 0.006178054357540655, -0.03290119797847564] [18.90272623] ['temp_avg', 'amount_of_rain', 'r_humidity'] 7D 1 경기도 0.846943365 A형간염 [0.13673986319717227, -0.00958642513988311, -0.017194370942423706] [11.4005722] ['temp_avg', 'amount_of_rain', 'r_humidity'] 7D 0 충청남도 0.817726937 A형간염 [0.04682212959286827, 0.008271188638063224, -0.017685463822130314] [7.6699157] ['temp_avg', 'amount_of_rain', 'r_humidity'] 6D 1 충청남도 0.812837895 A형간염 [0.04796724553294941, 0.01134381701513322, -0.020983352618014636] [8.98192582] ['temp_avg', 'amount_of_rain', 'r_humidity'] 6D 0 충청남도 0.792994491 A형간염 [0.042482680345307534, 0.0024261974950009336, -0.008977643666042354] [4.33879963] ['temp_avg', 'amount_of_rain', 'r_humidity'] 6D 2 충청남도 0.791741134 A형간염 [0.03818063789197948, 0.017055622870515222, -0.015399387101076481] [7.72442595] ['temp_avg', 'amount_of_rain', 'r_humidity'] 7D 2 서울특별시 0.790831622 A형간염 [0.10955660619376668, 0.009009602830194186, -0.019666164416015014] [6.58585593] ['temp_avg', 'amount_of_rain', 'r_humidity'] 5D 0 서울특별시 0.790708414 A형간염 [0.11002506472363531, 0.00804571037780995, -0.018943883950113972] [6.32839843] ['temp_avg', 'amount_of_rain', 'r_humidity'] 5D 1 경기도 0.78930127 A형간염 [0.1616089502151661, -0.040371785088575814, -0.036259363950168794] [17.93610212] ['temp_avg', 'amount_of_rain', 'r_humidity'] 6D 0 경기도 0.787283291 A형간염 [0.16151397023041963, -0.04267842868068788, -0.03340090923919447] [16.72269074] ['temp_avg', 'amount_of_rain', 'r_humidity'] 6D 1 서울특별시 0.78500227 A형간염 [0.10852975883269105, 0.0026150461717621832, -0.014410797319642054] [5.19303058] ['temp_avg', 'amount_of_rain', 'r_humidity'] 5D 2 충청남도 0.774776819 A형간염 [0.03797451723622854, 0.019098571801645647, -0.017679417390639992] [8.88665364] ['temp_avg', 'amount_of_rain', 'r_humidity'] 7D 1 경기도 0.771570686 A형간염 [0.15798692858388738, -0.0524543192454375, -0.022837238772477862] [12.67839521] ['temp_avg', 'amount_of_rain', 'r_humidity'] 6D 2 충청남도 0.766649653 A형간염 [0.05340515816181188, 0.008503807362921329, -0.019422889664640786] [7.30278001] ['temp_avg', 'amount_of_rain', 'r_humidity'] 5D 1 서울특별시 0.764166688 A형간염 [0.08027763111618294, 0.04297762484971251, -0.02044120184143889] [8.50685929] ['temp_avg', 'amount_of_rain', 'r_humidity'] 7D 1 서울특별시 0.763824095 A형간염 [0.0810589309852397, 0.04216355210217514, -0.019927181757020018] [8.19408757] ['temp_avg', 'amount_of_rain', 'r_humidity'] 7D 2 충청남도 0.763095295 A형간염 [0.05304133891170483, 0.009839402042558495, -0.020290647673407478] [7.64933315] ['temp_avg', 'amount_of_rain', 'r_humidity'] 5D 0 충청남도 0.757511592 A형간염 [0.049766657025550755, 0.002648546887720172, -0.010998631609441168] [4.57599378] ['temp_avg', 'amount_of_rain', 'r_humidity'] 5D 2 충청북도 0.732172364 A형간염 [0.04577643162030125, 0.004376261196867078, -0.00945537531319486] [3.01791639] ['temp_avg', 'amount_of_rain', 'r_humidity'] 4D 0 경기도 0.730683204 A형간염 [0.2288062152156026, 0.00030511380800137103, -0.05267724663513536] [17.39176204] ['temp_avg', 'amount_of_rain', 'r_humidity'] 4D 1 충청북도 0.730551417 A형간염 [0.04657879183171699, 0.004750475303615158, -0.011550342298359275] [3.57381479] ['temp_avg', 'amount_of_rain', 'r_humidity'] 4D 1 경기도 0.729302592 A형간염 [0.22925625842176847, -0.003363241671804554, -0.04709834899632735] [15.76949639] ['temp_avg', 'amount_of_rain', 'r_humidity'] 4D 2 경기도 0.724678867 A형간염 [0.22768278163685146, -0.003041820782980594, -0.04042631185143052] [13.7410276] ['temp_avg', 'amount_of_rain', 'r_humidity'] 4D 0 충청북도 0.724079094 A형간염 [0.028748231446451833, 0.003280260099924319, -0.008508102632474583] [4.36951578] ['temp_avg', 'amount_of_rain', 'r_humidity'] 7D 2 충청북도 0.723560726 A형간염 [0.04688977929264712, 0.0037435386344085047, -0.010228034015654756] [3.19777654] ['temp_avg', 'amount_of_rain', 'r_humidity'] 4D 2 충청북도 0.72187523 A형간염 [0.02803761788220687, 0.003363453800347318, -0.008575625659022387] [4.49544003] ['temp_avg', 'amount_of_rain', 'r_humidity'] 7D 1 대전광역시 0.709164102 A형간염 [0.061324590894430465, 0.021841098302216935, -0.01106994237805862] [6.1083609] ['temp_avg', 'amount_of_rain', 'r_humidity'] 7D 2 경기도 0.706586089 A형간염 [0.19512028613141233, -0.009630141556370804, -0.04495172279593165] [18.43769596] ['temp_avg', 'amount_of_rain', 'r_humidity'] 5D 1 대전광역시 0.705759115 A형간염 [0.06154093875743628, 0.024004551196574957, -0.013227722418730752] [7.10412844] ['temp_avg', 'amount_of_rain', 'r_humidity'] 7D 1
  • 24. Seoul 17º WTW 07 Appendix - 영화 융복합 프로젝트형 빅데이터 분석 서비스 개발 전공 프로젝트 24 1) 배달 KT 빅데이터 플랫폼에서 제공받은 1년치 배달주문데이터 중 코로나 이전의 주문건수 자료를 활용 날씨가 평균 배달주문건수에 미치는 영향 평균기온과 배달업종과의 선형관계 코로나가 시작된 올해 2월 이후부터 배달 주문이 폭증 코로나로 인한 영향력을 제외하기 위해 코로나 이전의 배달주문데이터를 이용 또한, 서울 이외의 지역에서는 업종별로 충분한 데이터가 확보되지 않아 서울지역을 대상으로 분석을 진행 날씨변수와 배달업종간의 상관계수 히트맵을 그려보고 평균기온과 4가지 배달업종간 선형관계를 발견
  • 25. Seoul 17º WTW 07 Appendix - 배달 융복합 프로젝트형 빅데이터 분석 서비스 개발 전공 프로젝트 25 1) 배달 날씨가 평균 배달주문건수에 미치는 영향 분식부터 한식까지 5가지 업종모두 비가 안왔을 때보다 비가 왔을 때 일평균 주문건수가 10%이상씩 증가 서울에서는 기온이 높아질수록 (돈까스/일식), (아시안/양식)이 배달 주문이 증가하였고, (피자)와 (회)는 기온이 높아질 수록 배달주문이 감소
  • 26. Seoul 17º WTW 07 Appendix – IPTV 융복합 프로젝트형 빅데이터 분석 서비스 개발 전공 프로젝트 26 2) 영화 날씨가 IPTV 영화 장르 선택에 미치는 영향 -평균기온이 높아지면 드라마와 공포, 미스터리 장르 선택은 증가하고 애니메이션 장르선택은 줄어드는 경향이 있음 -가져온 날씨 데이터에서는 강수량 분포가 고르지 못하 여 원핫인코딩으로 구간을 나누어주고 상관관계 확인 -강수량 보다는 평균기온과 장르간의 상관관계를 가지는 것을 발견