1. 기간별 주차장 이용 데이터 분석을
통한 주차 가능 시간 예측 서비스
데만쥬
유희열, 이보민, 김기림, 송혜정
2. 어린이 대공원 방문객의 편의를 증진시키기 위하여
2020년 1월 어린이 대공원 주차장 시간별 주차대수 예측
프로젝트 개요
3. 1. 탐색적 데이터 분석
2. 데이터 전처리
3. 시행착오
4. 가설 설정
5. 결론
4. 탐색적 데이터 분석
2017년(1월 1일 ~ 12월 31일) : 635,142건
2018년(1월 1일 ~ 1월 31일) : 33,828건
2019년(1월 1일 ~ 10월 25일) : 509,461건
년도별 데이터 개수 확인
5. 5
탐색적 데이터 분석
정문 : 429,926건
후문 : 441,842건
구의문 : 304,794건
서버실 : 1,732건
사전무인 : 137건
입출구별 데이터 개수 확인
6. 데이터 전처리
주차시간 분포 그래프를 참고하여 실 이용객 정의
- 주차시간 : 15분 초과, 780 미만
- 진입 시간 : 9시 이후
- 진출시간 : 22시 이전
위 조건의 차량들을 실 이용객으로 간주하여 아웃라이어 데이터 제거 (1307896건, 약 1.1%)
주차시간 이상치 데이터 제거
시설공단측 데이터 내용 확인
- 수동 출차 데이터(6130건) : 진입시각 + 주차시간(분) 으로 변환
- 주차중, 중복입차 데이터 제거 (1686건, 약 0.001%)
진출시각 이상치 데이터 변환, 제거
8. 시계열 분석
시계열 데이터라고 생각하고 시계열 분석을 시도했으나 의미 있는 모델링이 나오지 않음
Rolling Mean
9. 이전 시점의 데이터가 이후 시점의 데이터에 영향을 직접적으로 주지 않음
시간에 따른 패턴은 있지만 시간에 따른 상호작용이 존재하지 않음
날씨 등의 외생변수에 의해 주차장 상황이 결정됨
2017년 데이터만 1월 ~ 12월 데이터가 모두 존재하기 때문에 1년 단위 계절성이 뚜렸한 데이터를 분석하기에는 부족함
EX) 저번주에 어린이대공원을 이용한 사람은 이번주에 이용하지 않는다는 등의 가설을 증명하기 어려움
시계열 분석이 어려운 이유
10. 10
회귀분석 중심으로 계획 변경
외생변수가 되는 데이터들을 가져옴
날씨(기상청)
공휴일(공공데이터 포털)
미세먼지
모델링
선형회귀
Random Forest
XGBoost
11. datetime : 년-월-일-시각
year : 연도
month : 월
date : 날짜
weekday : 요일
count : 해당 시간에 주차되어 있던 차량 수
entrance : 입출구명
• 주차장 데이터
temp : 기온
rain_snow : 강수량 + 적설량
snowfall : 적설량
rainfall : 강수량
windspeed : 풍량
humidity : 습도
sun : 일사량
• 날씨 데이터
dateName : 공휴일 이름
locdate : 공휴일 날짜
weekend : 주말
free_day : 주말 + 공휴일
season : 계절
• 휴일 데이터
데이터셋
13. 2017년 10월 데이터 이상치 확인
2017년 10월에는 약 10일 간의 추석 연휴
2018년 2월 ~ 12월 데이터 존재하지 않음
2017년 10월 이상치 확인
월별 평균 차량 대수 분포(주말 / 평일)
14. 2017년 데이터만 유일하게 1년치 데이터가 모두 존재하므로,
2017년 데이터를 기준으로 training 셋을 만들어
2018년 1월과 2019년 데이터를 예측하는 모델 개발 시도
2018년, 2019년 데이터 예측모델 개발
선형 회귀 모델링
15. 그 외 시도들
유동인구 데이터를 사용하여 해당 문제가 주변 공간에 미치는 영향 분석 시도
-> 광진구 전체의 유동인구 데이터만 존재하기에 구역별 혼잡도 등을 분석할 수 없음
어린이 대공원 이벤트별 입장객 수를 분석해 어린이 대공원의 방문 목적 분석을 시도
-> 상상나라 측 입장객 수 자료를 요청했으나 관할이 달라 제공받지 못함
다이나믹 프라이스를 통해 주차난 해결 아이디어 제안
-> 국가 시설이기때문에 가격을 동적으로 변동할 수 없었음