SlideShare a Scribd company logo
고양시 공공자전거 스테이션 최적 위치 선정
- 수요와 Rebalancing을 고려한 최적 자전거 스테이션 제안
안푸는문제가없네 팀 박태형 박상욱 최완식
CONTENTS
1.공모 배경
2.데이터 전처리 & EDA
3.후보군 생성
4.수요 예측 모형
5.최적 후보군 선정
6.결론 및 제언
1. 공모 배경
서론
분석 배경
분석 배경
피프틴 현황
우리는 다음과 같은 배경을 갖고 이번 LH공사에서 주관하는 고양시 자전거 스테이션 최적 위치 선정 과제에 도전하였
습니다.
공부해 온 머신러닝과 딥러닝 이론을 활용하여,
현실의 데이터를 갖고 문제를 해결해보는 경험
GIS 기반 데이터라는 새로운 데이터를 공부하고 싶은 마음과
이를 바탕으로 문제 해결에 도전하는 자세
데이터를 활용하여 공공의 이익 실현을 위한 노력
분석 방향
서론
분석 배경
분석 배경
피프틴 현황
프로젝트 전체 진행 기간은 25일 정도였으며, 파이썬으로 모든 분석을 진행하였습니다.
분석 방향
분석 시간
과제 총 분석 기간
 8/10 ~ 9/5 (25일)
 하루 5시간 3명 약 375시간
사용한 툴
 파이썬 중심으로 모든 분석을 진헹
 다양한 파이썬 라이브러리 사용
(geopandas, scipy, networkx 등등)
 COMPAS에서 제공해주는 환경과
구글 Colaboratory을 주로 사용
피프틴 현황
피프틴은 2010년부터 운영되어 온 고양시 공공자전거 서비스이며, 현재 160여개의 거치대와 1700여대의 자전거
를 운영 중이다.
피프틴이란
 고양시 공공자전거 서비스
 현재 160여개의 거치대와 1700여대의 자전거를 운영 중
피프틴 현황
 올해 들어, 코로나19의 여파로 회원수 3배, 이용률 44% 증가
 높아진 수요를 감당하기 위한 추가적인 거치대 필요
 자전거 거치대가 특정 지역에 주로 밀집되어 있음
서론
공모 배경
피프틴 현황
분석 방향
서론
분석 방향
공모 배경
자전거 잠재적 수요 발굴, 공공성 확보, Rebalancing 문제라는 크게 3가지 방향을 갖고 분석을 진행하였습니다.
잠재적 수요 발굴
 새롭게 자전거 거치대를 배치하였을 때, 발생하는 수요를 정확하게 파악할 필요 존재
 피프틴 자전거를 접하지 못하여 놓치고 있는 수요 발굴
 접근성, 주변 시설 위치 등을 고려하여 잠재적 수요를 측정
공공성 확보
 피프틴은 고양시 공공자전거로 많은 고양시민들이 피프틴을 즐길 수 있도록 자전거
거치대에 대한 배치가 필요함
 현재 배치가 되지 않은 지역과 같이 서비스의 사각지대에 위치한 곳들을 우선적으로
고려해야 함
피프틴 현황
분석 방향
서론
분석 방향
공모 배경
자전거 잠재적 수요 발굴, 공공성 확보, Rebalancing 문제라는 크게 3가지 방향을 갖고 분석을 진행하였습니다.
Rebalancing 문제
 Rebalancing(=Repositioning) 문제란, 자전거 거치대의 수요-공급 불균형 문제
 이용 수요에 맞춰 거치대마다 자전거 재고를 항상 유지해야 함
 재배치에 들어가는 많은 비용으로 인한 운영의 비효율성을 예방하기 위해 배치할 때부터
Rebalancing을 고려해야함
 기존 거치대들을 기반으로 새로운 거치대를 배정했을 때의 상호작용도 고려해야 함
피프틴 현황
분석 방향
2. 데이터 전처리
& EDA
데이터 소개
운영이력, 자전거 스테이션을 포함하여 총 34개의 데이터셋을 제공받았으며, 이 중 다음과 같이 총 23개의 데이터를
사용하였다.
피프틴 Data
 운영이력.csv
 자전거스테이션.csv
 코드정의서.csv
 인구(거주)분포도(100M X 100M).geojson
 인구통계.geojson
 행정경계(시군구) .geojson
 행정경계(읍면동) .geojson
 행정경계(행정동기준).geojson
 고양시 공연장 박물관 정보.csv
 고양시 체육시설 현황 정보.csv
 도시계획(공공문화체육시설).geojson
 행사장_공간정보.csv
 주차장정보.csv
 고양시 버스정류소.csv
 버스정류장별 승하차 정보.csv
 전철역_공간정보.csv
 지하철역별 이용객수.csv
대중교통 Data 공공시설 Data
GIS 기반 Data행정통계 Data
 고양시 지적도.geojson
 일반건물분포도(100M X 100M).geojson
 도로명주소_도로.geojson
 고양시덕양구_고도.geojson
 고양시일산동구_고도.geojson
 고양시일산서구_고도.geojson
데이터 전처리
& EDA
데이터 소개
데이터 전처리
EDA
데이터 전처리
좌표계는 위경도 바탕 기본 좌표계와 미터 좌표계 2개를 사용하였으며, 절대 수요와 상대 수요라는 용어를 정의하였다.
데이터 전처리
& EDA
데이터 소개
데이터 전처리
EDA
 좌표계 형식
 용어 정의
미터 좌표계(epsg:5179)
 격자 기반 데이터
 도로, 인구분포도, 일반건물분포도 등
기본 좌표계(epsg:4326)
 지점 기반 데이터들의 좌표계
 자전거 스테이션, 버스정류장, 전철역,
공연장 등
 총 자전거 이용량 (반입량+반출량)의 일별 평균 : 절대 수요 (변수명 = TOTAL_MEAN)
= (return+lease)/totalDay
 총 자전거 변화량 (반입량-반출량)의 일별 평균 : 상대 수요 (변수명 = RTN-LEAS_MEAN)
= (return-lease)/totalDay
데이터 전처리
분석에 앞서 사용하기 어려운 데이터들을 활용하기 위해, 전처리 및 데이터 형식을 변환하였다.
보고서에서는 대표적인 데이터 몇 개만 소개하도록 하겠다.
데이터 전처리
& EDA
데이터 소개
데이터 전처리
EDA
 운영이력 전처리
 운영이력 데이터에서 전체, 정류장별 이용량, 반납량, 반출량을 파악할 필요가 존재
 각 정류장별 일별 이용량, 반납량, 반출량을 추출해주는 createDemandDf 함수 생성
createDemandDf 함수
1. 운영이력 데이터의 RTN_DATE, LEAS_DATE를 datetime 형식으로 변경
2. RTN_DATE, LEAS_DATE 각각에 일치되는 RTN_STATION, LEAS_STATION들을 count
3. 이를 모두 합해서 STATION, DATE 기준으로 정리, 아래 표는 그 결과물
• LEAS_COUNTS: 해당 날짜에 반출된 자전거 수
• RTN_COUNTS: 해당 날짜에 반입된 자전거 수
• TOTAL: 해달 날짜에 정류장을 거쳐간 모든 자전거 수 = 절대 수요
• RTN-LEAS: 해당 날짜에 (반입된 자전거 수) – (반출된 자전거 수) = 상대 수요
데이터 전처리
분석에 앞서 사용하기 어려운 데이터들을 활용하기 위해, 전처리 및 데이터 형식을 변환하였다.
보고서에서는 대표적인 데이터 몇 개만 소개하도록 하겠다.
데이터 전처리
& EDA
데이터 소개
데이터 전처리
EDA
 기타 데이터 전처리
 운영이력 데이터 이외에도, 다양한 EDA와 분석을 진행하기 위해 여러 데이터셋을 제작
 gdf_station: 정류장들의 총 이용량, 반입량, 반출량이 추가된 데이터셋
 gdf_boundary_town: 행정동별 자전거 거치대 정보들(자전거 수, 전체 이용량 등)과
행정동의 인구통계정보(인구 수, 세대 수 등)을 추가한 데이터셋
 지하철, 버스정류장의 경우, 승하차 데이터를 각각 전철역과 버스정류장 좌표 데이터와 합침
EDA 방향
데이터에 대한 전반적인 이해를 위해 EDA를 다음과 같이 크게 4가지 방향에 초점을 맞추어 진행하였다.
수요파악 접근성 공공성 Rebalancing
 자전거 정류장
이용량
 행정동별 이용량
 주거, 상업지역
이용량
 고도
 대중교통시설에
대한 접근성
 공공시설에 대한
접근성
 자전거 정류장에
대한 접근성
 인구 대비
배치도
 미배치된 지역
파악
 시간대별 이용량
 정류장별
IN&OUT
 정류장간 이동량
파악
데이터 전처리
& EDA
데이터 소개
데이터 전처리
EDA
EDA 과정
EDA를 진행하는데 있어서 Folium, Matplotlib, Seaborn 라이브러리를 중점적으로 사용하였다.
데이터 전처리
& EDA
데이터 소개
데이터 전처리
EDA
 시각화 툴
 leaflet.js 기반으로 지도를 그려주는 라이브러리
 행정동 기반 시각화에 주로 사용
1. Folium
2. Matplotlib & Seaborn
 박스그래프, 분포 그래프를 시각화할 때
주로 사용
행정동별 인구수와 자전거 거치대 대비 인구 수를 시각화하여, 거치대가 얼마나 균등하게 배치되어 있는지 확인하였다.
 인구 대비 배치도
 인구 수가 많은 주엽동, 마두동의 경우(파란 박스) 충분한 자전거 거치대가 존재했기에
상대적으로 낮은 거치대 대비 인구 수를 보이나, 행신동(빨간 박스)은 인구 대비 거치대 수가
적고, 고양시 북부의 경우 아예 거치대가 존재하지 않는 등 배치의 불균형성이 보임
행정동별 인구수 행정동별 자전거 거치대 대비 인구 수데이터 전처리
& EDA
데이터 소개
데이터 전처리
EDA
공공성
공공성
피프틴은 고양시 공공자전거로 공공성이 우선적인 가치로 봐야하기에 현재 자전거 거치대에 얼마나 많은 고양시민이
이용할 수 있는지 확인하였다.
 자전거 거치대에 대한 접근성
 충분히 가깝거나, 걸어갈 수 있는
거리 내에 자전거 거치대가 위치해야
시민들이 이용하기 편함
 자전거 거치대에 대한 이용자의
접근성을 200m(논문 참고)*로 판단
 현재 거치대들 주변 200m 반경을
기준으로 거치대들의 접근성
coverage를 구함
*참고 논문) Optimizing the location of stations in bike-
sharing programs: A GIS approach(2012)
현재 자전거 거치대 주변 반경 200m
시각화
데이터 전처리
& EDA
데이터 소개
데이터 전처리
EDA
공공자전거인 피프틴의 특성 상 많은 고양시민들이 접할 수 있는 것이 최우선이 되어야 하며, 이를 위해 현재 미배치된
지역들을 파악하는 것이 중요하다.
자전거 정류장 반경 200m
coverage 시각화  앞서 거치대 주변 반경 200m를
이용객들이 접근하기 용이한
구역으로 판단했을 때,
많은 인구는 존재하나, 현재
자전거 거치대가 cover하지
못하는 지역이 다수 존재
(고양동, 식사동 일대)
 피프틴 자전거가 가지는 공공성
을 생각했을 때, 현재 미배치된
지역에 우선적으로 고려해야 함
데이터 전처리
& EDA
데이터 소개
데이터 전처리
EDA
공공성
 미배치된 지역
*빨간색 박스는 현재 자전거 거치대 미배치 지역
★배치 지역 파악
현재 자전거 거치대가 배치된 지역들의 특성을 파악해보았다.
 현재 거치대는 두가지 위치 특징을 기반으로 설치되었다고 가정
1. 상업지역(유동량, 퇴근)
2. 주거지역(출근)
 이러한 가정 아래, 현재 거치대가 설치된 주변 건물의 특징을 조사한다면, 거치대가 상업지역에 설치되었는지,
주거지역에 설치되었는지 알 수 있음
 여기서 상업지역와 주거지역을 나누기 위한 변수 "house_counts_200_mean"를 사용
 자전거 거치대 배치 지역 파악
데이터 전처리
& EDA
데이터 소개
데이터 전처리
EDA
예시 "house_counts_200_mean"는 거치대 주변 200m 내에 존재하는 주거용
건축물의 수의 평균으로, 만약 200m 반경 내에 4개의 100x100m 격자가 들어가고,
이 격자 각각에 2개 씩의 거주 건물이 들어가 있다면 (4x2)/4 = 2로 생성
 이를 적용했을 때, 평균 1을 기준으로 상업지역와 주거지역이 나뉘는 것을 확인할 수
있었음
(이를 좀더 명시적으로 파악하기 위해 네이버 지도에서 해당 위치와의 비교를 통해 검증)
★배치 지역 파악
HOUSE_COUNTS 변수를 기반으로 정류장 주변 상업지역과 주거지역을 분리했다.
5. "house_counts_200_mean"를 기준으로 상업지구와 거주지구를
나누어 본다.
6. 오른쪽 분포 그래프를 참고하여, 둘을 가장 잘 나눌 수 있는
threshold(= 1)를 설정한다.
7. 상업지구와 거주지구에 따른 차이를 검증한다.
 주거, 상업지역 파악 과정
데이터 전처리
& EDA
데이터 소개
데이터 전처리
EDA
house_counts_200_mean 분포
1. 100x100m 인구 거주도, 100x100m 빌딩 연면적 데이터를 병합한다.
2. 이 데이터에서 인구수가 0이 아니거나 빌딩 면적이 0이 아닌 데이터를 추출한다.
3. 100x100m 안에 포함된 주거용도 건축물 수를 세고, HOUSE_COUNTS 변수를 2번 데이터 프레임에
추가한다.
4. 자전거 정류장 주변 200m 반경 내 주거용도 건축물의 평균 개수인"house_counts_200_mean"를
생성한다
★배치 지역 파악
앞선 과정으로 파악한 주거, 상업지역을 실제 지도와 비교해서 확인했다.
 주거, 상업지역 확인
상업지역 정류장들 네이버 고양시 지적편집도
 상업지역에 위치한 것으로 판단된 자전거 정류장들 주변 지역을 시각화 해보았을 때,
우측 실제 지도에 표시된 상업지역과 거의 일치함
 이를 고양시 상업지구로 판단해도 문제 없다는 것을 확인
핑크색: 상업지역
노란색: 주거지역
데이터 전처리
& EDA
데이터 소개
데이터 전처리
EDA
*노란색이 상업지역
★배치 지역 파악
주거지역과 상업지역에 위치한 자전거 거치대들의 이용량을 시각화 해보았다.
 주거, 상업지역 시각화
데이터 전처리
& EDA
데이터 소개
데이터 전처리
EDA
 주거지역이나 상업지역 어느 곳에도 들지
못한 areatype = 0인 구역에 상당히 많은
아웃라이어가 존재
 이는 현재 배치된 자전거 거치대을 바탕으로
주거, 상업지역을 판단했기 때문으로,
현재 자전거 정류장이 cover하지 못한
주거 지역들이 다수 존재하는 것으로 판단
 따라서 상업지역은 그 지역의 특성을 대변하
는 것으로 사용해도 되지만, 주거지역을 파
악하기 위해서는 추가적인 데이터 참고 필요
 따라서 추후 주거지역을 기반으로 특성을
추출할 때, 이 데이터 이외에 다른 지표를
기반으로 주거지역을 대변할 필요 존재
areatype describe
0 어느 곳에도 포함되지 않는 지역
1 상업지역
2 주거지역
3 상업지역 & 주거지역
수요 파악
자전거 거치대들의 위경도를 이용하여 각자 속한 행정동에 배정하여, 행정동별 자전거 거치대 수를 파악하였다.
 행정동별 자전거 거치대 수
 행정동별 자전거 정류장 배치 수를 보았을 때, 주거지가 많은 주엽동, 마두동, 정발산동 등을
중심으로 많은 정류장이 몰려 있음
데이터 전처리
& EDA
데이터 소개
데이터 전처리
EDA
주엽동
마두동
정발산동
수요 파악
자전거 거치대들의 위경도를 이용하여 각자 속한 행정동에 배정하여, 행정동별 절대수요 평균을 파악하였다.
데이터 전처리
& EDA
데이터 소개
데이터 전처리
EDA
 행정동별 절대수요(반입량+반
출량) 평균을 보았을 때, 장항2
동, 주엽동, 정발산동, 마두동을
중심으로 많은 이용량을 보임
 또한, 호수공원과 라페스타와
같은 주요 상업지역이 밀집된
지역인 장항2동은 높은 이용량
이 있으나, 거주인구가 상대적
으로 적기에 인구 대비 높은
이용량을 보임
 거주지역과 상업지역을 분리
해서 봐야할 필요가 존재
주엽동
마두동
정발산동
장항2동
 행정동별 절대수요 평균
수요 파악
자전거 거치대들의 위경도를 이용하여 각자 속한 행정동에 배정하여, 행정동별 상대수요 평균을 파악하였다.
 행정동별 상대수요 평균
 행정동별 상대수요(반입량-반출량) 평균을 보았을 때, 절대수요가 높았던 주엽동, 장발산동,
마두동은 반출량이 반입량보다 높은 경향을 많이 보임
데이터 전처리
& EDA
데이터 소개
데이터 전처리
EDA
주엽동
마두동
정발산동
수요 파악
앞서 파악한 주거지역과 상업지역에 위치한 자전거 거치대들의 이용량을 시각화 해보았다.
 상업지역이 주거지역보다 자전거 이용량, 주변 인구 대비 이용량 모두 높음
 주거지역의 경우, 상업지역에 비해 반출량이 반입량보다 높음
전체 이용량(절대수요) 인구 대비 이용량 반입량 – 반출량(상대수요)
주거 상업 주거 상업 주거 상업
데이터 전처리
& EDA
데이터 소개
데이터 전처리
EDA
 주거, 상업지역 거치대 이용량 시각화
접근성
일정 고도가 높으면, 시민들의 정류장에 대한 접근성에 영향을 미칠 것이라 판단하여 시각화를 진행하였다.
 고도에 대한 접근성
 자전거 정류장의 높은 고도와 5도
이상의 경사도를 갖을 때, 수요에
영향을 줄 수 있다는 논문*의 연구
결과를 고려
 전반적인 고도의 분포를 보았을 때,
대부분 10~20m 저지대에 위치함
 고도의 상위 1분위수(25)를
기준으로 그 차이를 비교했을 때,
확연한 이용량의 차이를 볼 수
있음
*참고 논문) Bicycle sharing systems demand,
Frade.(2014)
현재 자전거 정류장 고도 분포
고도에 따른 이용량 비교
데이터 전처리
& EDA
데이터 소개
데이터 전처리
EDA
접근성
대중교통시설에서 자전거 거치대까지 혹은 자전거 거치대에서 대중교통시설까지의 접근성을 알아보기 위해 정류장으
로부터 일정 거리 내에 있는 버스정류장과 지하철역의 수를 시각화 해보았다.
 대중교통시설에 대한 접근성
 평균적으로 4~5개 정도의
버스정류장이 자전거 거치대 주변
200m 내에 위치
 300m 내에 버스정류장이 없는
자전거 거치대 수가 2개 불과할
정도로 버스정류장에 있어 매우
좋은 접근성을 보임
 버스정류장과 반대로 지하철역
200m 이내에 위치한 거치대 수는
27개에 불과

주변 지하철역 수 분포(500, 1000, 1500m)
주변 버스정류장 수 분포(200, 300, 500m)
데이터 전처리
& EDA
데이터 소개
데이터 전처리
EDA
버스정류장에 대한 접근성은 좋으나,
지하철역에 대한 접근성은 부족함
접근성
이용객들이 사용할 수 있는 사회인프라 시설들의 접근성을 확인하기 위해 시설들을 교육, 문화, 체육 3가지 그룹으로
묶어, 자전거 거치대 주변의 분포를 파악하였다.
 공공시설에 대한 접근성
주변 교육시설 수 분포 주변 문화시설 수 분포 주변 체육시설 수 분포
 학교와 같은 교육시설들이 자전거 거치대 주변에 평균 3개 정도 위치하는 것을 보아,
통학에 있어서 용이할 것으로 보임
 다만, 박물관, 공연장과 같은 문화시설과 체육관, 수영장과 같은 체육시설에 대한 접근성은
상대적으로 떨어짐
데이터 전처리
& EDA
데이터 소개
데이터 전처리
EDA
접근성
도로명주소에 제공된 좌표를 시각화해본 결과, 고양시를 매우 잘 반영하는 것을 볼 수 있다.
 시〮군〮구 도로 데이터 시각화
 도로명 주소 데이터 중 시〮군〮구 도로의 좌표를 시각화해 보았을 때, 고양시의 모습을 잘 보여줌
 이러한 도로명주소를 기반으로 일정 간격에 따라 점을 찍어 그려보았을 때, 우측과 같이
고양시 전체의 모습을 잘 대변함
데이터 전처리
& EDA
데이터 소개
데이터 전처리
EDA
Rebalancing
피프틴 자전거 이용은 4월부터 11월에 집중되는 것을 볼 수 있다.
 월별 이용량
 월별 자전거 이용량에 있어서 고객들은 4월부터 11월까지 주로 사용하는 것을 알 수 있음
데이터 전처리
& EDA
데이터 소개
데이터 전처리
EDA
Rebalancing
피프틴 자전거 이용은 요일별로 보았을 때, 큰 차이가 존재하지 않는다.
 요일별 이용량
데이터 전처리
& EDA
데이터 소개
데이터 전처리
EDA
 요일별 자전거 이용량에 있어서 큰 차이가 존재하지 않음
Rebalancing
시간대별 이용량을 보면, 출근,등교 시간대인 8시와 퇴근시간인 17~19시에 많은 사용량이 있음을 알 수 있다.
 시간대별 이용량
 출근, 등교 시간대인 8시와 퇴근 시간대인 17~19시에 자전거 이용량이 갑작스럽게
몰리는 것을 볼 수 있음
 특정 시간대에 몰리는 수요를 해결하기 위한 Rebalancing을 고려해야 함
데이터 전처리
& EDA
데이터 소개
데이터 전처리
EDA
Rebalancing
자전거 거치대별 반입량과 반출량의 차이를 시각화하여, 거치대별 이용 상태의 균형을 파악하였다.
 거치대별 IN&OUT
 산점도에서 볼 수 있다시피,
거의 대부분의 거치대들이 반입
량보다 반출량이 많은 매우
불균형한 이용 상태를 가짐
(전체 상대 수요 평균이 -2.3)
 이는 Rebalancing 문제에
있어, 많은 비용을 초래
거치대별 상대수요(반입량-반출량)의
평균 시각화
0
데이터 전처리
& EDA
데이터 소개
데이터 전처리
EDA
Rebalancing
자전거 거치대별 반입량과 반출량의 차이를 시각화하였을 때 발생하는 불균형을 분석해본 결과, 특이 station인 0번
정류장의 영향임을 알게 되었다.
 특이 STATION(0번 STATION)
 앞서 상대 수요 평균이 −2.3 이 나오는 것은 모든 거치대에서 반출이 평균적으로 -2.3개
정도 많다고 생각할 수 있음
 하지만 자전거의 총량이 변화하지 않는다는 가정을 도입한다면 이는 현실적으로 가능하지
않음  이에 운영이력 데이터 전처리과정에서 처리한 0번 station의 의미를 파악해 봄
 파악한 0번의 station의 의미
1. 0번 station은 반입만 있는 거치대
2. 반입의 평균이 다른 거치대 상대 수요의 평균과 정확하게 일치
 이러한 점을 근거로 우리는 이 0번 거치대는 중앙에서 거치대의 Rebalancing을 해소하기
위한 운반이라고 가정하였음
 위 가정 하에, 0번 거치대 이외의 모든 거치대의 상대수요는 평균적으로 2.3 더해져야 함
데이터 전처리
& EDA
데이터 소개
데이터 전처리
EDA
Rebalancing
자전거 거치대별 반입량과 반출량의 차이에 2.3 더한 후 시각화하여, 거치대별 이용 상태의 균형을 파악하였다.
 모든 자전거 거치대에 2.3을
더하여 시각화를 해본 결과,
평균이 0에 가까움을 볼 수 있음
 또한, 이전에 보였던 불균형적
인 모습이 다소 해소 되었음
 허나, 개별적으로 보았을 때,
Rebalancing 문제의 고려가
여전히 필요
거치대별 상대수요 + 2.3의
평균 시각화
0
데이터 전처리
& EDA
데이터 소개
데이터 전처리
EDA
 특이 STATION 시각화
Rebalancing
자전거 거치대 간의 상호작용을 확인해보기 위해 네트워크분석을 진행하였다
 네트워크 분석
데이터 전처리
& EDA
데이터 소개
데이터 전처리
EDA
 Rebalancing 문제는 서로 다른 두 거치대 간의 관계에서 결국 발생하는 것이기에 서로 간의
연결성을 파악하기 위해 네트워크 분석을 진행
 각각의 자전거 거치대를 노드로 잡고, 서로 간의 연결 횟수를 가중치로 설정
 전체 네트워크 안에 존재하는 커뮤니티를 분리해서 보여주는 네트워크 분석 기법인
Louvain algorithm for community detection를 활용해서 사용
Louvain algorithm for community detection
 페이스북 커뮤니티에서 친구를 찾을 사용하는 알고리즘
 참고 사이트: https://mons1220.tistory.com/129
Rebalancing
자전거 거치대 간의 상호작용을 확인해보기 위해 네트워크분석을 진행하였고, 6개의 군집을 얻어냈다.
 네트워크 분석
데이터 전처리
& EDA
데이터 소개
데이터 전처리
EDA
 Louvain algorithm for
community detection를 활
용하여 진행한 분석을 시각화
해본 결과, 시각화를 통해서
는 큰 결론을 내리기 어려움
 다만, 분석 결과를 기반으로
가장 특성을 잘 나누는 6개의
군집으로 잘 분리되었음
EDA 결론
앞서 진행한 EDA를 정리하면 다음과 같다.
1. 수요파악에 있어 단순히 인구 수가 아닌, 해당 지역을 주거, 상업 지역인지 판단하여,
지역적 특성에 맞게 배치를 고려해야 한다.
2. 후보군에 있어서 고도와 주변 대중교통시설, 공공시설과의 거리, 그리고 해당 거치대
에 대한 시민들의 접근성 등 다양한 접근성을 고려해야 한다.
3. 현재 미배치된 지역을 우선적으로 고려하여, 공공자전거로서의 의미를 살려야 한다.
4. 거치대별로 반입/반출량이 상이하며, 이러한 불균형, Rebalancing 문제를 해결
하기 용이한 곳에 배치하여야 한다.
5. 운영이력 데이터에 ‘0번 스테이션’(비정상 반납)의 반입이 많기에, 이를 bias로 도입
한다.
데이터 전처리
& EDA
데이터 소개
데이터 전처리
EDA
3. 후보군 생성
후보군 선정 프로세스
후보군 생성
미배치 지역 배정
EDA 결과를 기반으로 후보군 선정을 하였고, 전체 프로세스는 다음과 같다.
Filtering
후보군 선정
선별된 후보군
1. 시〮군〮구 도로를 기반으로 도로 위에 point를 찍어 후보군을 추출한다.
2. 미배치된 지역을 우선적으로 고려하여 후보군들을 선별한다.
3. EDA의 결과를 참고하여 만든 기준들에 각각 맞는 후보군들을 filtering 한다.
4. Filtering된 후보군들을 모두 합하여 수요예측 직전까지 선별된 후보군을 만든다.
후보군 생성
후보군 생성
미배치 지역 배정
도로명 주소를 기반으로 접근성이 좋은 도로에 후보군을 선정하였고, 약 12000개의 후보군을 랜덤하게 생성하였다.
Filtering
후보군 선정
후보군 시각화
 시민들이 접근하기 좋은 위치인
도로 근처에 자전거를 배치하는 것이 중요
 앞서 EDA에서 시〮군〮구 도로 좌표를 시각화
해 보았을 때, 고양시 대부분의 도로를 대변
하기에 후보군 일반화에 용이
 도로의 경계를 뽑기 위해, 도로의 폭을 1m
기준으로 판단(도로 폭 데이터에 오류가 존재, 추후 보완)

* 300m로 가정한 이유는 사람의 걷는 속도를 시속 3.5km로 보았을 때, 5분 동안
가는 거리이기 때문
도로명 주소 데이터에서 각 후보군마다
300m*의 간격을 주어 약 12000개의
후보군을 생성
 도로 기반 후보군 생성
선별된 후보군
미배치 지역 배정
앞서 진행한 EDA에서 얻은 결론을 바탕으로 후보군을 필터링하여 적절한 후보군을 골라냈다. 먼저, 현재 자전거
거치대가 커버하지 못하는 지역을 우선적으로 고려하였다.
자전거 거치대 반경 200m
coverage 시각화
 이미 배치된 된 장소 주변에 추가적으
로 배치하는 것은 비효율적
 현재 거치대가 커버하지 못하는
미배치 지역(고양동, 식사동 일대 등)
을 고려하여 필터링을 진행
 행정동 전체 인구 데이터가 아닌
100m*100m 인구 통계 데이터를
바탕으로 미배치 지역을 선별
 미배치 지역 중 100m*100m 지역
내 인구 수(GID_POP)이 100 이상인
지역을 우선적으로 고려
후보군 생성
미배치 지역 배정
Filtering
후보군 선정
선별된 후보군
 미배치 지역 선별
미배치 지역 배정
미배치된 지역 자체는 너무 광범위하기에, 몇 가지 조건을 바탕으로 필터링을 진행하여, 적절한 후보군을 산출했다.
 앞서 골라낸 미배치 지역은 매우 광범위함(현재 자전거 정류장이 커버하지 못하는 100m*100m 지역만 4000여개)
 EDA를 통해 얻을 수 있던 몇가지 정보를 기준으로 삼아 후보군을 선별
 지역적 특징과 거주 인구에 대한 조건 추가하여, 앞서 EDA 결과에서 얻은 주거 지역 정보를 보충
상업지역 여부 주거지역 여부 빌딩 연면적
commerical_area
변수가 1인100m*100m
지역에 포함되는
후보군
house_counts
변수가 6 이상인
100m*100m 지역에
포함되는 후보군
주변 200m 반경 내
빌딩 연면적 합
(b_area_200_sum)이
20000 이상인
후보군
후보군 생성
미배치 지역 배정
Filtering
후보군 선정
 미배치 지역 Filtering
선별된 후보군
거주 인구 수
주변 200m 반경 내
인구 수 합(pop_200_sum)
이 1000 이상인
후보군
미배치 지역 후보군 2295개
미배치 지역 배정
미배치 지역 후보군 배정 과정는 다음과 같다.
후보군 생성
미배치 지역 배정
Filtering
후보군 선정
선별된 후보군
미배치 지역 후보군 배정 과정 *[] 안은 데이터셋 명 or 변수명
1. 후보군[candidate_gdf]에 미배치지역 주거인구와 상업지역여부를 병합한다.
2. 후보군 중 상업지역에 포함되는 것들을 따로 선별한다[ candidate_gdf_commercial_area].
3. 이 중 미배치 지역에 인구가 없는 후보군(미배치 지역 주거인구 = 0)을 제거한다.
4. 미배치 지역 중 너무 적은 인구가 거주할 경우(미배치 지역 주거인구 = 100) 제거한다.
5. 4번까지 완료된 후보군[candidate_gdf]에 2번에서 따로 선별해둔 상업지역 내 후보군들을 붙여준
다[ candidate_gdf_with_commercial_area].
6. 3번에서 제작된 후보군에 200m안 거주 건물 수의 평균을 더해준다.
7. 주거 지역[house_counts_200_mean], 빌딩 연면적[b_area_200_mean], 거주인구[pop_200_mean] 일정
이상의 필터를 적용한다[ candidate_pop_gdf)].
8. 7번의 필터를 적용한 data[candidate_pop_gdf]와 6번까지 제작한 후보군[candidate_gdf_with_commercial_area]을
합친다.
최종 데이터셋 = 미배치 지역 배정 후보군[candidate_gdf]
접근성 기반 Filtering
접근성 기반 필터링을 진행한 목적은 아래와 같다.
후보군 생성
미배치 지역 배정
Filtering
후보군 선정
선별된 후보군
 앞서 진행한 미배치 지역 설정은 피프틴 자전거가 갖는 공공성을 기반으로 하여 당장 필요한
지역을 우선적으로 고려
 접근성 기반 Filtering은 EDA 결과를 바탕으로 접근성에 있어서 현재 거치대들이 부족한
부분을 채워줄 수 있는 후보군들을 선별하는데 목적을 둠
 각각 기준에 따라 우수한 접근성을 갖는다고 판단할 수 있는 특정 기준을 선정하여 필터링을
진행
 최종적으로, 접근성이 뛰어난 후보군 집단과 공공성을 고려한 후보군 집단을 모두
합하여서 그 특성을 모두 반영한 후보군을 만들고자 함
접근성 기반 Filtering
먼저, 대중교통시설에 대한 접근성을 바탕으로 필터링을 진행하였다.
 버스정류장
주변 300m 내 버스정류장 분포 주변 300m 내 버스정류장 승하차인원 분포
 주변 버스정류장 수에 있어서 5개가 가장 많은 값을 보이기에 이 점을 기반으로 주변
버스정류장 수가 5개 이상인 후보군들을 선별
 승하차인원이 많은 정류장을 기반으로 후보군을 뽑기 위해 주변 버스정류장 승하차인원이
5000명이 넘는 후보군들을 선별
후보군 생성
미배치 지역 배정
Filtering
후보군 선정
선별된 후보군
접근성 기반 Filtering
먼저, 대중교통시설에 대한 접근성을 바탕으로 필터링을 진행하였다.
 지하철
주변 1km 내 지하철역 분포 주변 1km 내 지하철역 승하차인원 분포
 주변 지하철역의 경우, 지하철역의 수가 몇 없기에, 지하철역 유무 여부로 후보군을 선별
 주변 1km 내 지하철역 수나 지하철역 승하차인원이 0보다 크기만 하면 선별
후보군 생성
미배치 지역 배정
Filtering
후보군 선정
선별된 후보군
접근성 기반 Filtering
다음으로, 공공시설에 대한 접근성을 바탕으로 필터링을 진행하였다.
 교육시설 & 체육시설
 교육시설의 경우, 통학이라는 많은 왕래가
발생할 것을 고려하여, 주변에 학교와
접근하기 용이한 곳에 배치된 후보군들인
교육시설이 5개 이상인 곳들만 선별
 체육시설의 경우, 기존에 자전거 정류장으
로부터 접근성이 떨어진다는 점을
EDA로부터 파악한 결과를 고려하여,
1km 이내 5곳 이상인 후보군들만 선별
주변 체육시설 수 분포
주변 교육시설 수 분포
후보군 생성
미배치 지역 배정
Filtering
후보군 선정
선별된 후보군
접근성 기반 Filtering
마지막으로, 고도를 바탕으로 자전거 거치대 후보군에 대한 접근성에 대하여 필터링을 진행하였다.
 고도
후보군 정류장들의 고도 분포
 고도의 분포는 20m가 제일 많았으며, EDA 결과 고도가 낮을 수록 많은 수요가 있음을 확인
 이에 22m 이하인 후보군들만 선별
후보군 생성
미배치 지역 배정
Filtering
후보군 선정
선별된 후보군
선별된 후보군
미배치 지역과 지역적 특성, 접근성 등을 반영하여 필터링 작업 후, 총 2184개의 선별된 후보군을 도출하였다.
후보군 생성
미배치 지역 배정
Filtering
후보군 선정
선별된 후보군
 앞선 두 차례의 필터링을 바탕으로 선별된 후보군 데이터셋(candidate_after_filter_gdf)을
생성
접근성 기반
Filtering
미배치 지역
Filtering
 미배치 지역
 상업지역
 주거지역
 빌딩 연면적
 주거 인구
 주변 버스 정류장
 주변 지하철역
 주변 교육시설
 주변 체육시설
 고도
전체 후보군
(n = 11905)
선별된
후보군
(n = 2184)
4. 수요 예측 모델
수요 정의
앞서 만든 데이터셋을 바탕으로 선별된 후보군에 대하여 예측 수요를 구하기 이전에, 우리가 구하고자 하는 수요에
대해 명확한 정의를 내렸다.
 절대 수요 & 상대 수요
 자전거 공유 서비스를 사용하는데 있어서 수요는 다양한 측면에서 바라볼 수 있지만, 저희는
총 두가지 관점에서 수요로 파악
1. 절대 수요
거치대 반입량, 반출량의 절대적인 량. 하나의 거치대에서 방문하는 사용자의 총량을 대변
2. 상대 수요
거치대 반입량, 반출량의 차이. 하나의 거치대에서 유입, 유출되는 자전거의 변화량을 의미
 이러한 두가지 지표의 시간 단위를 일(day)로 실정
수요 정의
Modeling
후보군 수요 예측
수요 예측 모형
데이터셋 만들기
모델링을 하기 이전에 앞선 EDA를 통해 얻은 아이디어들을 변수로 만들어, 현재 배치된 정류장들에 추가하였다.
변수들은 아래와 같다.
 사용하는 변수
TOTAL_MEAN RTN-LEAS_MEAN
절대 수요 상대 수요
 종속 변수
 모델을 제작하기 이전에 앞서 진행한 EDA를 바탕으로 유의미한 변수 생성
 전체 독립 변수들(총 43개)
1. 버스 정류장 개수(3)
2. 버스 정류장 승하차 합계/평균(6)
3. 지하철 역 개수(3)
4. 지하철역 승하차 합계/평균(18)
5. 교육시설 개수(3)
6. 체육시설 개수(3)
7. 고도(1)
8. 거주 인구(1)
9. 200m 내 인구 합계(1)
10. 200m 내 건물 연면적 합계(1)
11. 200m내 주거 건물 수 평균(1)
12. 상업/거주 지역 구분(1)
13. 네트워크 분석을 통한 군집(1)
수요 정의
Modeling
후보군 수요 예측
수요 예측 모형
앞서 만든 데이터셋을 바탕으로 수요 예측 모델을 제작하였다. 여러 모델들을 테스트해본 결과, 높은 일반화 성능과
노이즈가 있는 변수에도 잘 대응하는 ExtraTree Regressor 모델을 사용하였다.
 ExtraTree Regressor 모델
Random Forest를 기반으로 더욱 더 랜덤한 요소를
추가하여 일반화 성능을 높인 앙상블 기법
샘플링 : 부트스트랩 X
변수 갯수 : 𝑚
변수 선택 : Random
장점
부트스트랩을 사용하지 않아 샘플링 수 또한 랜덤으로
결정되어 더 높은 일반화 성능을 얻을 수 있음
전체 데이터 셋을 모두 반영함
변수 선택에 있어서 랜덤화 요소가 작용하기 때문에
일반화 성능이 높음
RANDOM FOREST에 비해서 속도가 빠름
노이즈가 있는 FEATURE에 잘 대응
모델 선택
수요 정의
Modeling
후보군 수요 예측
수요 예측 모형
모델링 결과
데이터 수는 부족하였지만, 다음과 같이 높은 성능의 모델링 결과를 얻을 수 있었다.
 Loss
 현재 설치된 거치대를 기준으로 절대수요, 상대수요를 예측한 결과 높은 성능의 모델이
도출됨
 데이터 개수가 많이 부족하지만, 상대적으로 가벼운 모델인 decision tree 기반 모델을
사용하여 최대한 일반화 성능을 높이는 방향으로 모델링을 진행하여 좋은 성능을 얻음
수요 정의
Modeling
후보군 수요 예측
수요 예측 모형
TOTAL_MEAN (절대수요) RTN-LEAS_MEAN (상대수요)
Loss 1.5299*ⅇ−5 3.2190*ⅇ−5
후보군 수요 예측
후보군 수요 예측에 앞서, EDA에서 진행한 자전거 정류장들의 연결성을 파악하는 네트워크 분석에서 얻은 6개의
군집을 후보군에 배정하였다.
 후보군 Network 군집 배정
 EDA에서 네트워크 분석을 통해
현재 배치되어 있는 자전거 거치
대을 6개의 군집으로 나눔
 앞서 선별된 후보군에 네트워크
군집을 적용
 KNN(k-nearest neighbor) 알고
리즘을 사용하여, 거치대 간의 유
클리드 거리 기반으로 가장
가까운 군집을 배정
수요 정의
Modeling
후보군 수요 예측
수요 예측 모형
예시
후보군 수요 예측
후보군들을 앞서 제작한 수요 예측모델에 적용하여 각자 예상되는 수요를 모두 얻어냈다.
 사용하는 변수
 위 변수를 선별된 후보군에 모두 붙여주었으며, 이를 바탕으로 후보군들의 수요를 수요 예측
모델로 도출
수요 정의
Modeling
후보군 수요 예측
수요 예측 모형
1. 버스 정류장 개수(3)
2. 버스 정류장 승하차 합계/평균(6)
3. 지하철 역 개수(3)
4. 지하철역 승하차 합계/평균(18)
5. 교육시설 개수(3)
6. 체육시설 개수(3)
7. 고도(1)
8. 거주 인구(1)
9. 200m 내 인구 합계(1)
10. 200m 내 건물 연면적 합계(1)
11. 200m내 주거 건물 수 평균(1)
12. 상업/거주 지역 구분(1)
13. 네트워크 분석을 통한 군집(1)
수요 예측 결과
후보군들을 ExtraTree로 제작한 수요 예측모델에 적용하여 각자 예상되는 수요를 모두 얻어냈다.
 후보군 수요 예측
geometry TOTAL_MEAN RTN-LEAS_MEAN
0 POINT (126.90327 37.64694) 27.597861 -0.799168
1 POINT (126.88949 37.59500) 23.888901 0.082149
2 POINT (126.89053 37.59579) 21.250070 -0.071134
3 POINT (126.89045 37.59584) 21.250070 -0.071134
4 POINT (126.89127 37.59568) 19.165386 -0.305854
: : : :
 ExtraTree 기반 수요 예측 모델을 활용하여 2184개 후보군들의 절대수요와 상대수요를 구함
수요 정의
Modeling
후보군 수요 예측
수요 예측 모형
5. 최적 후보군 선정
최종 후보군 도출 프로세스
예측된 절대 수요와 상대 수요를 기반으로 최종 후보군 선정을 위한 전체 프로세스는 다음과 같다.
공공성 확보
수요 기반
Clustering
Rebalancing
최종 제안
최종 후보군
제안 방향
최종 후보군 도출 프로세스
예측된 절대 수요와 상대 수요를 기반으로 최종 후보군 선정을 위한 전체 프로세스는 다음과 같다.
 가정 : 자전거의 이동 범위는 지역(행정동)을 크게 벗어나지 않는다.
1. 먼저, 공공성을 고려하여 지역별로 상이한 거치대 배치 비율을 만든다.
2. 제작한 거치대 배치 비율을 기반으로 지역별 필요 거치대 개수를 구한다.
3. 해당 지역에 존재하는 거치대 후보에서, Clustering을 활용하여 절대 수요를 가장
잘 대표하는 후보군 대표를 선정한다.
4. 이렇게 발생한 후보군 대표 중, 상대 수요의 총합이 가장 작은(불균형 문제를 최소로
하는) 것들을 최종 후보군으로 선정한다.
공공성 확보
수요 기반
Clustering
Rebalancing
최종 제안
최종 후보군
제안 방향
 프로세스 순서
지역별 요구 거치대 비율
공공성을 기반으로 최대한 많은 고양시민들이 피프틴을 접할 수 있게, 행정동마다 배정되어야 할 비율을 생성하였다.
공공성 확보
수요 기반
Clustering
Rebalancing
최종 제안
최종 후보군
제안 방향
 지역별 요구 거치대 비율을 구현하는 데 있어 고민한 점은 크게 2가지
1. 공공성을 고려하여 거치대수가 부족한 지역(행정동)에 우선 배정한다.(station_count)
2. 수요가 밀집된 지역에 추가 배치하여 보완한다.(TOTAL_POP)
 위의 두가지 요인을 모두 고려한 지역별 요구 거치대 비율 이라는 변수를 생성
 수식
 station_count(현재 배치된 거치대 수)가 크면, 거치대는 적게 설치해야 하기에 역수 처리
population_ratio(행정동 인구 비율)가 크면, 거치대는 더 설치해야 하기에 그대로 처리
 두 지표를 곱한 후에 이를 정규화하여 해당 지역의 요구 거치대 비율로 사용
 지역별 요구 거치대 비율
이미 많이 배치된 흥도동
= 적은 수가 배정
현재 배치가 안된 고양동과 관산동 = 많은 수가 배정
 LOCATE_NUM은
지역별 요구 거치대 비율에
따라 도출된 추가 배정되어야
거치대 수
 현재 배치된 행정동별 자전거
거치대 수(STATION_COUNT)를
보았을 때
이미 많이 배치된 흥도동
= 적은 수가 배정
현재 배치가 안된 고양동,
관산동 = 많은 수가 배정
지역별 요구 거치대 비율
공공성을 기반으로 최대한 많은 고양시민들이 피프틴을 접할 수 있게, 행정동마다 배정되어야 할 비율을 생성하였다.
공공성 확보
수요 기반
Clustering
Rebalancing
최종 제안
최종 후보군
제안 방향
 지역별 요구 거치대 배정 결과
DONG_NM
행정동명
LOCATE_PROB
지역별 요구 거치대
비율
LOCATE_NUM
비율에 따라 추가
배정된 거치대 수
STATION_COUNT
현재 배치된
자전거 거치대 수
0 주교동 0.052409 7 1.0
1 원신동 0.019919 3 4.0
2 흥도동 0.024718 3 6.0
3 성사1동 0.024474 3 3.0
4 성사2동 0.039033 5 1.0
5 효자동 0.006710 1 0.0
6 삼송동 0.024271 3 3.0
7 창릉동 0.022022 3 3.0
8 고양동 0.041490 6 0.0
9 관산동 0.048736 7 0.0
: : : : :
SUM 1 140 160
이미 많이 배치된 흥도동
= 적은 수가 배정
현재 배치가 안된 고양동과 관산동 = 많은 수가 배정
데이터셋 제작
수요를 기반으로 clustering을 진행하기 이전에 데이터셋을 먼저 제작하였다.
공공성 확보
수요 기반
Clustering
Rebalancing
최종 제안
최종 후보군
제안 방향
 Clustering용 데이터셋 제작
variable means
total 최종 행정동에 배치될 거치대의 총 개수
exist 현재 행정동 내에 존재하는 거치대의 개수
need
요구 거치대 비율을 기반으로
필요한 거치대의 개수
min_x 해당 지역의 x 하한
max_x 해당 지역의 x 상한
min_y 해당 지역의 y 하한
max_y 해당 지역의 y 상한
 Clustering을 기반으로 절대 수요를 대표하는 후보군을 뽑기 위해 위와 같은 변수를 갖는
데이터셋을 제작
 x, y(미터 좌표계)에 대한 정보는 추후 Metric을 생성하는데 사용
절대 수요 기반 Clustering
먼저, 후보군들의 절대 수요를 기반으로 행정동별로 요구되는 거치대 수x3 개의 클러스터링 그룹을 만들었다.
최종 제안
 Clustering 진행
공공성 확보
수요 기반
Clustering
Rebalancing
최종 후보군
제안 방향
 새로 새울 수 있는 140개 거치대 수에 비해 현재 후보군은 2184개로 너무 많음
 절대 수요를 기반으로 지역 별로 요구되는 거치대 개수 x 3 에 해당하는 개수의 클러스터링을 진행
 Clustering 군집으로 후보군을 분리함으로써, 비슷한 절대 수요를 가지는 후보군들끼리 압축하여,
해당 지역의 특징을 반영한 대표군을 생성
클러스터링 이전 후보군 시각화
(빨간색 = 현재 배치된 거치대, 파란색 = 후보군)
클러스터링 이후 후보군 시각화
(빨간색 = 현재 배치된 거치대, 파란색 = 군집 대표 후보군)
상대 수요 기반 Rebalancing
절대 수요 기반으로 clustering을 진행하여 생성된 대표군들의 상대 수요를 바탕으로 Rebalancing을 고려하여
후보군들을 선별하였다.
최종 제안
 상대 수요 기반 Rebalancing 목적
공공성 확보
수요 기반
Clustering
Rebalancing
최종 후보군
제안 방향
 상대 수요는 간단하게 말하면, 해당 거치대에 반입량의 순수합(NET SUM)
 즉, 양수인 경우 반입이 많고, 음수인 경우 반출이 많음
 이는 시스템 운영 비용에 직접적으로 영향을 미치며, 따라서 이러한 상대 수요의 총 합이 0이 되는,
즉 Rebalancing에 도움을 주는 지역을 선정하는 것이 매우 중요
 이용수요에 맞춰 재고를 일정 수준으로 유지하는 방법론을 제시해야 함
 Rebalancing Metric을 제작
Rebalancing Metric
상대 수요를 바탕으로 Rebalancing을 고려하여 후보군들을 선별하기 위하여 Rebalancing Metric을 정의하였다.
최종 제안
 Rebalancing Metric 정의
공공성 확보
수요 기반
Clustering
Rebalancing
최종 후보군
제안 방향
 공유 자전거의 특징 상 하나의 새 거치대 배치는 지역 내에 존재하는 다른 모든 자전거에 영향
 이러한 의존성이 있는 문제에 대한 해답으로 우리는 상대 수요를 기반으로 한 이변량 정규분포의
부피로 제안한 거치대의 Rebalancing 영향도를 측정하였음
 위 Metric 함수(= 상대 수요의 총합 x 이변량 정규 분포)의 부피는 지역 전역에 있는 상대 수요의
총량을 대변함
 이러한 지표를 사용하였을 때, 상대 수요의 총량이 0이 되도록 하는 대표 후보군을 선택하는 방법
으로 최적 거치대를 선정
*여기서 α는 현재 제안된 후보군을 포함한 상대 수요의 총합
Rebalancing Metric
앞서 정의된 Rebalancing Metric를 구하는데 있어서 Greedy 알고리즘을 사용했다.
최종 제안
 앞에서 정의한
Rebalancing
Metric을 구하는데
있어, 해당 알고리즘
에서는 시간 복잡도
문제로 Greedy
알고리즘을 사용
공공성 확보
수요 기반
Clustering
Rebalancing
최종 후보군
제안 방향
 pseudo-algorithm
Rebalancing Metric
Rebalancing Metric을 시각화해본 결과, 다음과 같다.
최종 제안
 Rebalancing Metric 시각화
 좌측 그래프는 우측 그래프를 3차원으로 구현한 것
 극단적으로 치우친 봉오리가 많이 없는 것으로 보아 리벨런싱이 잘 되었다고 생각할 수 있음
 하지만 중간에 극단적인 부분인 호수공원, 킨텍스, 대화역, 주엽역, 라페스타, 웨스턴돔 부분
을 확대해서 관찰할 필요가 있음
공공성 확보
수요 기반
Clustering
Rebalancing
최종 후보군
제안 방향
최적 후보군을 포함한 상대수요(3D) 최적 후보군을 포함한 상대수요(2D)
*빨간색 = Rebalancing 지표가 높고, 반입이 많은 지역
Rebalancing Metric
앞서 진행한 시각화에서 극단적이었던 부분을 확대 시각화해보았다.
최종 제안
 극단적이었던 부분 추가 시각화
 현재 추가적으로 자전거 정류장을 배치했을 때. 조금 더 완만해진 것을 확인할 수 있음
 하지만 추가적으로 배치하였음에도, 아직 Rebalancing 잘 되지 못한 지역 존재
 따라서 이 근처에 차량을 배치하여 관리할 필요가 존재함
공공성 확보
수요 기반
Clustering
Rebalancing
최종 후보군
제안 방향
기존 배치된 정류장들 시각화 현재 배치된 정류장들 시각화
*빨간색 = Rebalancing 지표가 높고, 반입이 많은 지역
최종 후보군
마지막으로 최종 후보군들의 위치를 확인, 재조정해주고, 각 거치대들의 용량을 결정해주었다.
최종 제안
 최종 후보군 위치 재확인
공공성 확보
수요 기반
Clustering
Rebalancing
최종 후보군
제안 방향
 기존에 배치된 자전거 거치대 용량의 평균은 26
 우리는 기존 거치대 용량의 평균에 맞는 숫자를 배정
 결과적으로 상대 수요를 기반으로 정렬하고 이를 3등분하여 순차적으로 30, 25, 20개의
거치대 수량을 배정하여 이 평균치에 맞도록 조절함
 마지막으로 제안된 후보군의 위치를 보정해주는 작업을 진행
 클러스터링 작업 후, 도로에 위치하지 않은 후보군들을 가장 가까운 도로로 이동
 최종 후보군 거치대 용량 결정
최종 후보군
최종 후보군은 다음과 같이 나타난다.
최종 제안
공공성 확보
수요 기반
Clustering
Rebalancing
최종 후보군
제안 방향
스테이션 번호 거치대 수량 X 좌표(위도) Y 좌표(경도)
0 0 25 37.657875 126.831543
1 1 30 37.658882 126.819672
2 2 30 37.656090 126.831375
3 3 30 37.661293 126.821449
4 4 30 37.662880 126.819427
: : : : :
 최종 후보군 시각화
 최종 후보군 데이터셋
최종 후보군
최종 후보군은 이전보다 골고루 배치되었음을 확인할 수 있다.
최종 제안
공공성 확보
수요 기반
Clustering
Rebalancing
최종 후보군
제안 방향
 최종 후보군 시각화
 140개의 자전거 거치대를 추가로 배치하였을 때, 이전에 배치되었던 분포에 비해 훨씬
골고루 분포 되어 있음을 알 수 있다.
행정동별 기존 배치된 자전거 거치대 수 행정동별 최종 자전거 거치대 수
6. 결론
결론
결론
보완사항
결론 및 제언
1. 예상되는 추가 수요
 모든 후보군 거치대를 고려하는데 있어서 절대 수요와 상대 수요를 예측해주는 모델을
제작하였기에, 새로 발생하는 추가 수요를 파악할 수 있음
2. 혜택을 누릴 수 있는 시민 증가
 단순히 인구 수를 중심으로 배치하는 것이 아닌, 현재 미배치된 지역과 행정동별 인구수, 그리고
기존에 배치되어 있던 거치대 수 등을 복합적으로 고려한 지표를 생성
 이를 통해 행정동마다 골고루 자전거 거치대를 분포하여, 최대한 많은 고양시민들이 접할 수
있는 환경 조성
3. Rebalancing 문제 완화
 자전거를 이용하는 시민들의 좋은 서비스 경험과 자전거 운용의 효율성을 위하여, 최종 후보군
배치에 있어 Rebalancing 문제를 고려하여 배치
 또한, 기존에 배치된 거치대에 주변에 Rebalancing을 고려하여 추가적인 거치대를 설치함에
따라 기존 거치대의 반입-반출 불균형 문제를 완화
보완 사항
결론
보완사항
결론 및 제언
1. 수요 예측을 위한 데이터의 부족
 기존에 설치된 거치대를 기반으로 새로운 후보군의 수요를 예측함
 하지만 기존의 정류장 수 160개를 기반으로 이러한 수요 특성을 파악하기에는 모집단의 수가
너무 적다는 문제 존재.
 최대한 일반화 성능을 높히는 방향으로 진행했지만, 한계가 존재
2. 전역 Rebalancing
 시간 복잡도의 문제로, 지역을 기반으로 Rebalancing을 해결하고자 하였음
 우리가 선정한 Metric은 근본적으로 3차원 그래프의 부피를 구하는 작업이기에 굉장히 많은
연산량을 요구함
 따라서 지역의 Rebalancing을 최소화하는 후보군을 선택하고, 이것들의 모임을 전체 고양시
의 거치대의 불균형 문제를 해결하는 답안으로 제출
 더 좋은 Metric을 설정하거나 빠른 연산이 가능하다면 전역 Rebalancing을 해결하는 답안을
찾을 수 있으나 그러지 못함
보완 사항
결론
보완사항
결론 및 제언
3. Greedy Algorithm
 지역적으로 후보군을 찾는데 있어서 역시 완전 탐색을 통한 최적 후보군을 찾지 못함
 이 역시 연산량에서 근간한 문제로, 완전 탐색으로 대표 후보군 3N개로부터 N개의 최적 후보
군을 찾기 위해서는 정도의 시간 복잡도를 요구됨
 현재 서버나 로컬 머신으로는 한계가 있음
 또한, 각각의 Metric을 구하는 것도 6.2에서 말했듯 굉장히 높은 연산량을 요구하기 때문에 이
를 시도하지 못함
4. Rebalancing 차량 정보 부족
 최적 입지를 선정하는데 있어서 수요만을 고려한다면, 우리가 진행한 평균 수요를 기반으로 한
방법은 매우 합리적
 하지만 Rebalancing 문제에 있어서 평균 수요를 가지고 이를 고려하는 것은 정적인 불균형
문제만을 해소하기 때문에 약간의 부족함이 존재
 만약 시간대 별로 자전거 재배치 차량의 동선, 수량 등에 대한 데이터가 있었다면, 좀 더 나은
Rebalancing 해결 방안을 제시할 수 있지 않았을까 하는 아쉬움
참고 논문
Appendix
 Juan Carlos Garcia-Palomares, Javier Gutierrz, and Marta Latorre, “Optimizing the
location of stations in bike-sharing programs: A GIS approach”, in Applied
Geography, 2012
 Ines Frade and Anabela Ribeiro, “Bicycle sharing systems demand”, Procedia,
2013
 Zidong Yang et al., “Mobility Modeling and Prediction in Bike-Sharing Systems”,
Zhejiang University, 2016
 Frderico Chariotti, “A Dynamic Approach to Rebalancing Bike-Sharing Systems”,
Sensors, 2018
 Daniel Chemlaa, Frederic Meuniera, and Roberto Wolfler Calvo, “Bike sharing
systems: Solving the static rebalancing problem”, Discrete Optimization, 2012
 Günes Erdogana, Maria Battarra,and Roberto Wolfler Calvo, “An exact algorithm
for the static rebalancing problem arising in bicycle sharing systems”, European
Journal of Operational Research, 2015
 이은탁, 손봉수, “이용수요 기반의 서울시 공공자전거 재배치전략 도출”, 대한교통학회지,
2019
감사합니다

More Related Content

What's hot

데이터 분석가는 어떤 SKILLSET을 가져야 하는가? - 데이터 분석가 되기
데이터 분석가는 어떤 SKILLSET을 가져야 하는가?  - 데이터 분석가 되기데이터 분석가는 어떤 SKILLSET을 가져야 하는가?  - 데이터 분석가 되기
데이터 분석가는 어떤 SKILLSET을 가져야 하는가? - 데이터 분석가 되기
Hui Seo
 
어떻게 하면 데이터 사이언티스트가 될 수 있나요?
어떻게 하면 데이터 사이언티스트가 될 수 있나요?어떻게 하면 데이터 사이언티스트가 될 수 있나요?
어떻게 하면 데이터 사이언티스트가 될 수 있나요?
Yongho Ha
 
그로스해킹 기초
그로스해킹 기초그로스해킹 기초
그로스해킹 기초
keunbong kwak
 
오늘 밤부터 쓰는 google analytics (구글 애널리틱스, GA)
오늘 밤부터 쓰는 google analytics (구글 애널리틱스, GA) 오늘 밤부터 쓰는 google analytics (구글 애널리틱스, GA)
오늘 밤부터 쓰는 google analytics (구글 애널리틱스, GA)
Yongho Ha
 
[팝콘 시즌1] 이윤희 : 다짜고짜 배워보는 인과추론
[팝콘 시즌1] 이윤희 : 다짜고짜 배워보는 인과추론[팝콘 시즌1] 이윤희 : 다짜고짜 배워보는 인과추론
[팝콘 시즌1] 이윤희 : 다짜고짜 배워보는 인과추론
PAP (Product Analytics Playground)
 
Data Engineering 101
Data Engineering 101Data Engineering 101
Data Engineering 101
DaeMyung Kang
 
제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [기린그림 팀] : 사용자의 손글씨가 담긴 그림 일기 생성 서비스
제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [기린그림 팀] : 사용자의 손글씨가 담긴 그림 일기 생성 서비스제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [기린그림 팀] : 사용자의 손글씨가 담긴 그림 일기 생성 서비스
제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [기린그림 팀] : 사용자의 손글씨가 담긴 그림 일기 생성 서비스
BOAZ Bigdata
 
Dronekitによる python apiとアプリ開発の概要
Dronekitによる python apiとアプリ開発の概要Dronekitによる python apiとアプリ開発の概要
Dronekitによる python apiとアプリ開発の概要
Masami Ogoshi
 
Geopaparazziの説明資料(Geopaparazziハンズオン)
Geopaparazziの説明資料(Geopaparazziハンズオン)Geopaparazziの説明資料(Geopaparazziハンズオン)
Geopaparazziの説明資料(Geopaparazziハンズオン)
Kouichi Kita
 
タブレットを用いた森林の現地確認手法
タブレットを用いた森林の現地確認手法タブレットを用いた森林の現地確認手法
タブレットを用いた森林の現地確認手法
Kouichi Kita
 
FOSS4GとOSMを使って 「逃げ地図」のようなものをつくってみる!
FOSS4GとOSMを使って 「逃げ地図」のようなものをつくってみる! FOSS4GとOSMを使って 「逃げ地図」のようなものをつくってみる!
FOSS4GとOSMを使って 「逃げ地図」のようなものをつくってみる!
IWASAKI NOBUSUKE
 
[Causal Inference KR] 스타트업에서의 인과추론
[Causal Inference KR] 스타트업에서의 인과추론[Causal Inference KR] 스타트업에서의 인과추론
[Causal Inference KR] 스타트업에서의 인과추론
Bokyung Choi
 
지리정보체계(GIS) - [2] 좌표계 이해하기
지리정보체계(GIS) - [2] 좌표계 이해하기지리정보체계(GIS) - [2] 좌표계 이해하기
지리정보체계(GIS) - [2] 좌표계 이해하기
Byeong-Hyeok Yu
 
ロボティクスにおける SLAM 手法と実用化例
ロボティクスにおける SLAM 手法と実用化例ロボティクスにおける SLAM 手法と実用化例
ロボティクスにおける SLAM 手法と実用化例
Yoshitaka HARA
 
서비스 기획자의 데이터 분석
서비스 기획자의 데이터 분석서비스 기획자의 데이터 분석
서비스 기획자의 데이터 분석
YOO SE KYUN
 
최적화 모델을 이용한 카페 위치 선정 제안
최적화 모델을 이용한 카페 위치 선정 제안최적화 모델을 이용한 카페 위치 선정 제안
최적화 모델을 이용한 카페 위치 선정 제안
Yurim Kim
 
제 13회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [GAN 안 쓰는 세얼GAN이들] : 코로나 언택트 시대, 나의 홈트레이닝을 도와줄 AI...
제 13회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [GAN 안 쓰는 세얼GAN이들] : 코로나 언택트 시대, 나의 홈트레이닝을 도와줄 AI...제 13회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [GAN 안 쓰는 세얼GAN이들] : 코로나 언택트 시대, 나의 홈트레이닝을 도와줄 AI...
제 13회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [GAN 안 쓰는 세얼GAN이들] : 코로나 언택트 시대, 나의 홈트레이닝을 도와줄 AI...
BOAZ Bigdata
 
서비스 기획자를 위한 데이터분석 시작하기
서비스 기획자를 위한 데이터분석 시작하기서비스 기획자를 위한 데이터분석 시작하기
서비스 기획자를 위한 데이터분석 시작하기
승화 양
 
스타트업처럼 토이프로젝트하기
스타트업처럼 토이프로젝트하기스타트업처럼 토이프로젝트하기
스타트업처럼 토이프로젝트하기
Sunyoung Shin
 
제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [#인스타툰 팀] : 해시태그 기반 인스타툰 추천 챗봇
제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [#인스타툰 팀] : 해시태그 기반 인스타툰 추천 챗봇제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [#인스타툰 팀] : 해시태그 기반 인스타툰 추천 챗봇
제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [#인스타툰 팀] : 해시태그 기반 인스타툰 추천 챗봇
BOAZ Bigdata
 

What's hot (20)

데이터 분석가는 어떤 SKILLSET을 가져야 하는가? - 데이터 분석가 되기
데이터 분석가는 어떤 SKILLSET을 가져야 하는가?  - 데이터 분석가 되기데이터 분석가는 어떤 SKILLSET을 가져야 하는가?  - 데이터 분석가 되기
데이터 분석가는 어떤 SKILLSET을 가져야 하는가? - 데이터 분석가 되기
 
어떻게 하면 데이터 사이언티스트가 될 수 있나요?
어떻게 하면 데이터 사이언티스트가 될 수 있나요?어떻게 하면 데이터 사이언티스트가 될 수 있나요?
어떻게 하면 데이터 사이언티스트가 될 수 있나요?
 
그로스해킹 기초
그로스해킹 기초그로스해킹 기초
그로스해킹 기초
 
오늘 밤부터 쓰는 google analytics (구글 애널리틱스, GA)
오늘 밤부터 쓰는 google analytics (구글 애널리틱스, GA) 오늘 밤부터 쓰는 google analytics (구글 애널리틱스, GA)
오늘 밤부터 쓰는 google analytics (구글 애널리틱스, GA)
 
[팝콘 시즌1] 이윤희 : 다짜고짜 배워보는 인과추론
[팝콘 시즌1] 이윤희 : 다짜고짜 배워보는 인과추론[팝콘 시즌1] 이윤희 : 다짜고짜 배워보는 인과추론
[팝콘 시즌1] 이윤희 : 다짜고짜 배워보는 인과추론
 
Data Engineering 101
Data Engineering 101Data Engineering 101
Data Engineering 101
 
제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [기린그림 팀] : 사용자의 손글씨가 담긴 그림 일기 생성 서비스
제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [기린그림 팀] : 사용자의 손글씨가 담긴 그림 일기 생성 서비스제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [기린그림 팀] : 사용자의 손글씨가 담긴 그림 일기 생성 서비스
제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [기린그림 팀] : 사용자의 손글씨가 담긴 그림 일기 생성 서비스
 
Dronekitによる python apiとアプリ開発の概要
Dronekitによる python apiとアプリ開発の概要Dronekitによる python apiとアプリ開発の概要
Dronekitによる python apiとアプリ開発の概要
 
Geopaparazziの説明資料(Geopaparazziハンズオン)
Geopaparazziの説明資料(Geopaparazziハンズオン)Geopaparazziの説明資料(Geopaparazziハンズオン)
Geopaparazziの説明資料(Geopaparazziハンズオン)
 
タブレットを用いた森林の現地確認手法
タブレットを用いた森林の現地確認手法タブレットを用いた森林の現地確認手法
タブレットを用いた森林の現地確認手法
 
FOSS4GとOSMを使って 「逃げ地図」のようなものをつくってみる!
FOSS4GとOSMを使って 「逃げ地図」のようなものをつくってみる! FOSS4GとOSMを使って 「逃げ地図」のようなものをつくってみる!
FOSS4GとOSMを使って 「逃げ地図」のようなものをつくってみる!
 
[Causal Inference KR] 스타트업에서의 인과추론
[Causal Inference KR] 스타트업에서의 인과추론[Causal Inference KR] 스타트업에서의 인과추론
[Causal Inference KR] 스타트업에서의 인과추론
 
지리정보체계(GIS) - [2] 좌표계 이해하기
지리정보체계(GIS) - [2] 좌표계 이해하기지리정보체계(GIS) - [2] 좌표계 이해하기
지리정보체계(GIS) - [2] 좌표계 이해하기
 
ロボティクスにおける SLAM 手法と実用化例
ロボティクスにおける SLAM 手法と実用化例ロボティクスにおける SLAM 手法と実用化例
ロボティクスにおける SLAM 手法と実用化例
 
서비스 기획자의 데이터 분석
서비스 기획자의 데이터 분석서비스 기획자의 데이터 분석
서비스 기획자의 데이터 분석
 
최적화 모델을 이용한 카페 위치 선정 제안
최적화 모델을 이용한 카페 위치 선정 제안최적화 모델을 이용한 카페 위치 선정 제안
최적화 모델을 이용한 카페 위치 선정 제안
 
제 13회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [GAN 안 쓰는 세얼GAN이들] : 코로나 언택트 시대, 나의 홈트레이닝을 도와줄 AI...
제 13회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [GAN 안 쓰는 세얼GAN이들] : 코로나 언택트 시대, 나의 홈트레이닝을 도와줄 AI...제 13회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [GAN 안 쓰는 세얼GAN이들] : 코로나 언택트 시대, 나의 홈트레이닝을 도와줄 AI...
제 13회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [GAN 안 쓰는 세얼GAN이들] : 코로나 언택트 시대, 나의 홈트레이닝을 도와줄 AI...
 
서비스 기획자를 위한 데이터분석 시작하기
서비스 기획자를 위한 데이터분석 시작하기서비스 기획자를 위한 데이터분석 시작하기
서비스 기획자를 위한 데이터분석 시작하기
 
스타트업처럼 토이프로젝트하기
스타트업처럼 토이프로젝트하기스타트업처럼 토이프로젝트하기
스타트업처럼 토이프로젝트하기
 
제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [#인스타툰 팀] : 해시태그 기반 인스타툰 추천 챗봇
제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [#인스타툰 팀] : 해시태그 기반 인스타툰 추천 챗봇제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [#인스타툰 팀] : 해시태그 기반 인스타툰 추천 챗봇
제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [#인스타툰 팀] : 해시태그 기반 인스타툰 추천 챗봇
 

Similar to [COMPAS] 고양시 공공자전거 분석과제(장려상)

LH Smartcity for osgeo
LH Smartcity for osgeoLH Smartcity for osgeo
LH Smartcity for osgeo
ssuser3b2776
 
Lh smartcity for_osgeo
Lh smartcity for_osgeoLh smartcity for_osgeo
Lh smartcity for_osgeo
ssuser3b2776
 
Share house
Share houseShare house
Share house
chs71
 
Big Data Analytics and Data Mining
Big Data Analytics and Data MiningBig Data Analytics and Data Mining
Big Data Analytics and Data Mining
SuHyun Jeon
 
서울시 빅데이터캠퍼스 안내
서울시 빅데이터캠퍼스 안내서울시 빅데이터캠퍼스 안내
서울시 빅데이터캠퍼스 안내
bigdatacampus
 
Konjac jelly
Konjac jellyKonjac jelly
Konjac jelly
ssuserce7ad4
 
Konjac jelly
Konjac jellyKonjac jelly
Konjac jelly
ssuserce7ad4
 
실시간 따릉이 잔여대수 예측을 통한 사용자 불만제로 프로젝트
실시간 따릉이 잔여대수 예측을 통한 사용자 불만제로 프로젝트실시간 따릉이 잔여대수 예측을 통한 사용자 불만제로 프로젝트
실시간 따릉이 잔여대수 예측을 통한 사용자 불만제로 프로젝트
김인규
 
2016 통계청 국민디자인단 - 대구도시철도 역세권 정보서비스
2016 통계청 국민디자인단 - 대구도시철도 역세권 정보서비스2016 통계청 국민디자인단 - 대구도시철도 역세권 정보서비스
2016 통계청 국민디자인단 - 대구도시철도 역세권 정보서비스
한국디자인진흥원 공공서비스디자인PD
 
빅데이터 캠퍼스 컨퍼런스 자료집(2016.7.14)
빅데이터 캠퍼스 컨퍼런스 자료집(2016.7.14)빅데이터 캠퍼스 컨퍼런스 자료집(2016.7.14)
빅데이터 캠퍼스 컨퍼런스 자료집(2016.7.14)
bigdatacampus
 
데이터를 통한 지역 시민과의 소통 : 데이터의 공개와 활용
데이터를 통한 지역 시민과의 소통 : 데이터의 공개와 활용데이터를 통한 지역 시민과의 소통 : 데이터의 공개와 활용
데이터를 통한 지역 시민과의 소통 : 데이터의 공개와 활용
Jong-Hyun Kim
 
[2016 데이터 그랜드 컨퍼런스] 2 4(빅데이터). 오픈메이트 공간정보로 풀어보는 빅데이터 세상
[2016 데이터 그랜드 컨퍼런스] 2 4(빅데이터). 오픈메이트 공간정보로 풀어보는 빅데이터 세상[2016 데이터 그랜드 컨퍼런스] 2 4(빅데이터). 오픈메이트 공간정보로 풀어보는 빅데이터 세상
[2016 데이터 그랜드 컨퍼런스] 2 4(빅데이터). 오픈메이트 공간정보로 풀어보는 빅데이터 세상
K data
 
0. Smart public media reference m&m networks vol1
0. Smart public media reference   m&m networks   vol10. Smart public media reference   m&m networks   vol1
0. Smart public media reference m&m networks vol1
M&M Networks
 
Bigdata analysis Team 5
Bigdata analysis Team 5Bigdata analysis Team 5
Bigdata analysis Team 5
fhshsjxj
 
[2016 데이터 그랜드 컨퍼런스] 2 2(빅데이터). skt beyond big data
[2016 데이터 그랜드 컨퍼런스] 2 2(빅데이터). skt beyond big data[2016 데이터 그랜드 컨퍼런스] 2 2(빅데이터). skt beyond big data
[2016 데이터 그랜드 컨퍼런스] 2 2(빅데이터). skt beyond big data
K data
 
Prediction of bus riders at the time of departure
Prediction of bus riders at the time of departurePrediction of bus riders at the time of departure
Prediction of bus riders at the time of departure
HWANGTAEYONG
 
Bigdata analysis team 5
Bigdata analysis team 5Bigdata analysis team 5
Bigdata analysis team 5
fhshsjxj
 
빅데이터 기반의 녹시율 분석
빅데이터 기반의 녹시율 분석빅데이터 기반의 녹시율 분석
빅데이터 기반의 녹시율 분석
Joonho Lee
 
서울 시내 공공 Wifi 분포 패턴 연구
서울 시내 공공 Wifi 분포 패턴 연구서울 시내 공공 Wifi 분포 패턴 연구
서울 시내 공공 Wifi 분포 패턴 연구
Jewon Choi
 
시카고 Array of Things 프로젝트 리뷰
시카고 Array of Things 프로젝트 리뷰시카고 Array of Things 프로젝트 리뷰
시카고 Array of Things 프로젝트 리뷰
Kyuho Kim
 

Similar to [COMPAS] 고양시 공공자전거 분석과제(장려상) (20)

LH Smartcity for osgeo
LH Smartcity for osgeoLH Smartcity for osgeo
LH Smartcity for osgeo
 
Lh smartcity for_osgeo
Lh smartcity for_osgeoLh smartcity for_osgeo
Lh smartcity for_osgeo
 
Share house
Share houseShare house
Share house
 
Big Data Analytics and Data Mining
Big Data Analytics and Data MiningBig Data Analytics and Data Mining
Big Data Analytics and Data Mining
 
서울시 빅데이터캠퍼스 안내
서울시 빅데이터캠퍼스 안내서울시 빅데이터캠퍼스 안내
서울시 빅데이터캠퍼스 안내
 
Konjac jelly
Konjac jellyKonjac jelly
Konjac jelly
 
Konjac jelly
Konjac jellyKonjac jelly
Konjac jelly
 
실시간 따릉이 잔여대수 예측을 통한 사용자 불만제로 프로젝트
실시간 따릉이 잔여대수 예측을 통한 사용자 불만제로 프로젝트실시간 따릉이 잔여대수 예측을 통한 사용자 불만제로 프로젝트
실시간 따릉이 잔여대수 예측을 통한 사용자 불만제로 프로젝트
 
2016 통계청 국민디자인단 - 대구도시철도 역세권 정보서비스
2016 통계청 국민디자인단 - 대구도시철도 역세권 정보서비스2016 통계청 국민디자인단 - 대구도시철도 역세권 정보서비스
2016 통계청 국민디자인단 - 대구도시철도 역세권 정보서비스
 
빅데이터 캠퍼스 컨퍼런스 자료집(2016.7.14)
빅데이터 캠퍼스 컨퍼런스 자료집(2016.7.14)빅데이터 캠퍼스 컨퍼런스 자료집(2016.7.14)
빅데이터 캠퍼스 컨퍼런스 자료집(2016.7.14)
 
데이터를 통한 지역 시민과의 소통 : 데이터의 공개와 활용
데이터를 통한 지역 시민과의 소통 : 데이터의 공개와 활용데이터를 통한 지역 시민과의 소통 : 데이터의 공개와 활용
데이터를 통한 지역 시민과의 소통 : 데이터의 공개와 활용
 
[2016 데이터 그랜드 컨퍼런스] 2 4(빅데이터). 오픈메이트 공간정보로 풀어보는 빅데이터 세상
[2016 데이터 그랜드 컨퍼런스] 2 4(빅데이터). 오픈메이트 공간정보로 풀어보는 빅데이터 세상[2016 데이터 그랜드 컨퍼런스] 2 4(빅데이터). 오픈메이트 공간정보로 풀어보는 빅데이터 세상
[2016 데이터 그랜드 컨퍼런스] 2 4(빅데이터). 오픈메이트 공간정보로 풀어보는 빅데이터 세상
 
0. Smart public media reference m&m networks vol1
0. Smart public media reference   m&m networks   vol10. Smart public media reference   m&m networks   vol1
0. Smart public media reference m&m networks vol1
 
Bigdata analysis Team 5
Bigdata analysis Team 5Bigdata analysis Team 5
Bigdata analysis Team 5
 
[2016 데이터 그랜드 컨퍼런스] 2 2(빅데이터). skt beyond big data
[2016 데이터 그랜드 컨퍼런스] 2 2(빅데이터). skt beyond big data[2016 데이터 그랜드 컨퍼런스] 2 2(빅데이터). skt beyond big data
[2016 데이터 그랜드 컨퍼런스] 2 2(빅데이터). skt beyond big data
 
Prediction of bus riders at the time of departure
Prediction of bus riders at the time of departurePrediction of bus riders at the time of departure
Prediction of bus riders at the time of departure
 
Bigdata analysis team 5
Bigdata analysis team 5Bigdata analysis team 5
Bigdata analysis team 5
 
빅데이터 기반의 녹시율 분석
빅데이터 기반의 녹시율 분석빅데이터 기반의 녹시율 분석
빅데이터 기반의 녹시율 분석
 
서울 시내 공공 Wifi 분포 패턴 연구
서울 시내 공공 Wifi 분포 패턴 연구서울 시내 공공 Wifi 분포 패턴 연구
서울 시내 공공 Wifi 분포 패턴 연구
 
시카고 Array of Things 프로젝트 리뷰
시카고 Array of Things 프로젝트 리뷰시카고 Array of Things 프로젝트 리뷰
시카고 Array of Things 프로젝트 리뷰
 

More from Joonho Lee

크라우드소싱 기반의 도시문제 해결
크라우드소싱 기반의 도시문제 해결크라우드소싱 기반의 도시문제 해결
크라우드소싱 기반의 도시문제 해결
Joonho Lee
 
web geocoder
web geocoder web geocoder
web geocoder
Joonho Lee
 
1 QGIS intro
1 QGIS intro1 QGIS intro
1 QGIS intro
Joonho Lee
 
2 QGIS data creation
2 QGIS data creation2 QGIS data creation
2 QGIS data creation
Joonho Lee
 
3 qgis visualization
3 qgis visualization3 qgis visualization
3 qgis visualization
Joonho Lee
 
6 QGIS layout
6 QGIS layout6 QGIS layout
6 QGIS layout
Joonho Lee
 
4.patial analysis(1)
4.patial analysis(1)4.patial analysis(1)
4.patial analysis(1)
Joonho Lee
 
5_spatial analysis(2)
5_spatial analysis(2)5_spatial analysis(2)
5_spatial analysis(2)
Joonho Lee
 
r project_pt2
r project_pt2r project_pt2
r project_pt2
Joonho Lee
 
R project_pt1
R project_pt1R project_pt1
R project_pt1
Joonho Lee
 
Lego map_qgis
Lego map_qgisLego map_qgis
Lego map_qgis
Joonho Lee
 
191003 compas
191003 compas191003 compas
191003 compas
Joonho Lee
 
191002 COMPAS
191002 COMPAS191002 COMPAS
191002 COMPAS
Joonho Lee
 
데이터학습 보조교재
데이터학습 보조교재데이터학습 보조교재
데이터학습 보조교재
Joonho Lee
 
Qgis 기초 2019
Qgis 기초 2019Qgis 기초 2019
Qgis 기초 2019
Joonho Lee
 

More from Joonho Lee (15)

크라우드소싱 기반의 도시문제 해결
크라우드소싱 기반의 도시문제 해결크라우드소싱 기반의 도시문제 해결
크라우드소싱 기반의 도시문제 해결
 
web geocoder
web geocoder web geocoder
web geocoder
 
1 QGIS intro
1 QGIS intro1 QGIS intro
1 QGIS intro
 
2 QGIS data creation
2 QGIS data creation2 QGIS data creation
2 QGIS data creation
 
3 qgis visualization
3 qgis visualization3 qgis visualization
3 qgis visualization
 
6 QGIS layout
6 QGIS layout6 QGIS layout
6 QGIS layout
 
4.patial analysis(1)
4.patial analysis(1)4.patial analysis(1)
4.patial analysis(1)
 
5_spatial analysis(2)
5_spatial analysis(2)5_spatial analysis(2)
5_spatial analysis(2)
 
r project_pt2
r project_pt2r project_pt2
r project_pt2
 
R project_pt1
R project_pt1R project_pt1
R project_pt1
 
Lego map_qgis
Lego map_qgisLego map_qgis
Lego map_qgis
 
191003 compas
191003 compas191003 compas
191003 compas
 
191002 COMPAS
191002 COMPAS191002 COMPAS
191002 COMPAS
 
데이터학습 보조교재
데이터학습 보조교재데이터학습 보조교재
데이터학습 보조교재
 
Qgis 기초 2019
Qgis 기초 2019Qgis 기초 2019
Qgis 기초 2019
 

[COMPAS] 고양시 공공자전거 분석과제(장려상)

  • 1. 고양시 공공자전거 스테이션 최적 위치 선정 - 수요와 Rebalancing을 고려한 최적 자전거 스테이션 제안 안푸는문제가없네 팀 박태형 박상욱 최완식
  • 2. CONTENTS 1.공모 배경 2.데이터 전처리 & EDA 3.후보군 생성 4.수요 예측 모형 5.최적 후보군 선정 6.결론 및 제언
  • 4. 서론 분석 배경 분석 배경 피프틴 현황 우리는 다음과 같은 배경을 갖고 이번 LH공사에서 주관하는 고양시 자전거 스테이션 최적 위치 선정 과제에 도전하였 습니다. 공부해 온 머신러닝과 딥러닝 이론을 활용하여, 현실의 데이터를 갖고 문제를 해결해보는 경험 GIS 기반 데이터라는 새로운 데이터를 공부하고 싶은 마음과 이를 바탕으로 문제 해결에 도전하는 자세 데이터를 활용하여 공공의 이익 실현을 위한 노력 분석 방향
  • 5. 서론 분석 배경 분석 배경 피프틴 현황 프로젝트 전체 진행 기간은 25일 정도였으며, 파이썬으로 모든 분석을 진행하였습니다. 분석 방향 분석 시간 과제 총 분석 기간  8/10 ~ 9/5 (25일)  하루 5시간 3명 약 375시간 사용한 툴  파이썬 중심으로 모든 분석을 진헹  다양한 파이썬 라이브러리 사용 (geopandas, scipy, networkx 등등)  COMPAS에서 제공해주는 환경과 구글 Colaboratory을 주로 사용
  • 6. 피프틴 현황 피프틴은 2010년부터 운영되어 온 고양시 공공자전거 서비스이며, 현재 160여개의 거치대와 1700여대의 자전거 를 운영 중이다. 피프틴이란  고양시 공공자전거 서비스  현재 160여개의 거치대와 1700여대의 자전거를 운영 중 피프틴 현황  올해 들어, 코로나19의 여파로 회원수 3배, 이용률 44% 증가  높아진 수요를 감당하기 위한 추가적인 거치대 필요  자전거 거치대가 특정 지역에 주로 밀집되어 있음 서론 공모 배경 피프틴 현황 분석 방향
  • 7. 서론 분석 방향 공모 배경 자전거 잠재적 수요 발굴, 공공성 확보, Rebalancing 문제라는 크게 3가지 방향을 갖고 분석을 진행하였습니다. 잠재적 수요 발굴  새롭게 자전거 거치대를 배치하였을 때, 발생하는 수요를 정확하게 파악할 필요 존재  피프틴 자전거를 접하지 못하여 놓치고 있는 수요 발굴  접근성, 주변 시설 위치 등을 고려하여 잠재적 수요를 측정 공공성 확보  피프틴은 고양시 공공자전거로 많은 고양시민들이 피프틴을 즐길 수 있도록 자전거 거치대에 대한 배치가 필요함  현재 배치가 되지 않은 지역과 같이 서비스의 사각지대에 위치한 곳들을 우선적으로 고려해야 함 피프틴 현황 분석 방향
  • 8. 서론 분석 방향 공모 배경 자전거 잠재적 수요 발굴, 공공성 확보, Rebalancing 문제라는 크게 3가지 방향을 갖고 분석을 진행하였습니다. Rebalancing 문제  Rebalancing(=Repositioning) 문제란, 자전거 거치대의 수요-공급 불균형 문제  이용 수요에 맞춰 거치대마다 자전거 재고를 항상 유지해야 함  재배치에 들어가는 많은 비용으로 인한 운영의 비효율성을 예방하기 위해 배치할 때부터 Rebalancing을 고려해야함  기존 거치대들을 기반으로 새로운 거치대를 배정했을 때의 상호작용도 고려해야 함 피프틴 현황 분석 방향
  • 10. 데이터 소개 운영이력, 자전거 스테이션을 포함하여 총 34개의 데이터셋을 제공받았으며, 이 중 다음과 같이 총 23개의 데이터를 사용하였다. 피프틴 Data  운영이력.csv  자전거스테이션.csv  코드정의서.csv  인구(거주)분포도(100M X 100M).geojson  인구통계.geojson  행정경계(시군구) .geojson  행정경계(읍면동) .geojson  행정경계(행정동기준).geojson  고양시 공연장 박물관 정보.csv  고양시 체육시설 현황 정보.csv  도시계획(공공문화체육시설).geojson  행사장_공간정보.csv  주차장정보.csv  고양시 버스정류소.csv  버스정류장별 승하차 정보.csv  전철역_공간정보.csv  지하철역별 이용객수.csv 대중교통 Data 공공시설 Data GIS 기반 Data행정통계 Data  고양시 지적도.geojson  일반건물분포도(100M X 100M).geojson  도로명주소_도로.geojson  고양시덕양구_고도.geojson  고양시일산동구_고도.geojson  고양시일산서구_고도.geojson 데이터 전처리 & EDA 데이터 소개 데이터 전처리 EDA
  • 11. 데이터 전처리 좌표계는 위경도 바탕 기본 좌표계와 미터 좌표계 2개를 사용하였으며, 절대 수요와 상대 수요라는 용어를 정의하였다. 데이터 전처리 & EDA 데이터 소개 데이터 전처리 EDA  좌표계 형식  용어 정의 미터 좌표계(epsg:5179)  격자 기반 데이터  도로, 인구분포도, 일반건물분포도 등 기본 좌표계(epsg:4326)  지점 기반 데이터들의 좌표계  자전거 스테이션, 버스정류장, 전철역, 공연장 등  총 자전거 이용량 (반입량+반출량)의 일별 평균 : 절대 수요 (변수명 = TOTAL_MEAN) = (return+lease)/totalDay  총 자전거 변화량 (반입량-반출량)의 일별 평균 : 상대 수요 (변수명 = RTN-LEAS_MEAN) = (return-lease)/totalDay
  • 12. 데이터 전처리 분석에 앞서 사용하기 어려운 데이터들을 활용하기 위해, 전처리 및 데이터 형식을 변환하였다. 보고서에서는 대표적인 데이터 몇 개만 소개하도록 하겠다. 데이터 전처리 & EDA 데이터 소개 데이터 전처리 EDA  운영이력 전처리  운영이력 데이터에서 전체, 정류장별 이용량, 반납량, 반출량을 파악할 필요가 존재  각 정류장별 일별 이용량, 반납량, 반출량을 추출해주는 createDemandDf 함수 생성 createDemandDf 함수 1. 운영이력 데이터의 RTN_DATE, LEAS_DATE를 datetime 형식으로 변경 2. RTN_DATE, LEAS_DATE 각각에 일치되는 RTN_STATION, LEAS_STATION들을 count 3. 이를 모두 합해서 STATION, DATE 기준으로 정리, 아래 표는 그 결과물 • LEAS_COUNTS: 해당 날짜에 반출된 자전거 수 • RTN_COUNTS: 해당 날짜에 반입된 자전거 수 • TOTAL: 해달 날짜에 정류장을 거쳐간 모든 자전거 수 = 절대 수요 • RTN-LEAS: 해당 날짜에 (반입된 자전거 수) – (반출된 자전거 수) = 상대 수요
  • 13. 데이터 전처리 분석에 앞서 사용하기 어려운 데이터들을 활용하기 위해, 전처리 및 데이터 형식을 변환하였다. 보고서에서는 대표적인 데이터 몇 개만 소개하도록 하겠다. 데이터 전처리 & EDA 데이터 소개 데이터 전처리 EDA  기타 데이터 전처리  운영이력 데이터 이외에도, 다양한 EDA와 분석을 진행하기 위해 여러 데이터셋을 제작  gdf_station: 정류장들의 총 이용량, 반입량, 반출량이 추가된 데이터셋  gdf_boundary_town: 행정동별 자전거 거치대 정보들(자전거 수, 전체 이용량 등)과 행정동의 인구통계정보(인구 수, 세대 수 등)을 추가한 데이터셋  지하철, 버스정류장의 경우, 승하차 데이터를 각각 전철역과 버스정류장 좌표 데이터와 합침
  • 14. EDA 방향 데이터에 대한 전반적인 이해를 위해 EDA를 다음과 같이 크게 4가지 방향에 초점을 맞추어 진행하였다. 수요파악 접근성 공공성 Rebalancing  자전거 정류장 이용량  행정동별 이용량  주거, 상업지역 이용량  고도  대중교통시설에 대한 접근성  공공시설에 대한 접근성  자전거 정류장에 대한 접근성  인구 대비 배치도  미배치된 지역 파악  시간대별 이용량  정류장별 IN&OUT  정류장간 이동량 파악 데이터 전처리 & EDA 데이터 소개 데이터 전처리 EDA
  • 15. EDA 과정 EDA를 진행하는데 있어서 Folium, Matplotlib, Seaborn 라이브러리를 중점적으로 사용하였다. 데이터 전처리 & EDA 데이터 소개 데이터 전처리 EDA  시각화 툴  leaflet.js 기반으로 지도를 그려주는 라이브러리  행정동 기반 시각화에 주로 사용 1. Folium 2. Matplotlib & Seaborn  박스그래프, 분포 그래프를 시각화할 때 주로 사용
  • 16. 행정동별 인구수와 자전거 거치대 대비 인구 수를 시각화하여, 거치대가 얼마나 균등하게 배치되어 있는지 확인하였다.  인구 대비 배치도  인구 수가 많은 주엽동, 마두동의 경우(파란 박스) 충분한 자전거 거치대가 존재했기에 상대적으로 낮은 거치대 대비 인구 수를 보이나, 행신동(빨간 박스)은 인구 대비 거치대 수가 적고, 고양시 북부의 경우 아예 거치대가 존재하지 않는 등 배치의 불균형성이 보임 행정동별 인구수 행정동별 자전거 거치대 대비 인구 수데이터 전처리 & EDA 데이터 소개 데이터 전처리 EDA 공공성
  • 17. 공공성 피프틴은 고양시 공공자전거로 공공성이 우선적인 가치로 봐야하기에 현재 자전거 거치대에 얼마나 많은 고양시민이 이용할 수 있는지 확인하였다.  자전거 거치대에 대한 접근성  충분히 가깝거나, 걸어갈 수 있는 거리 내에 자전거 거치대가 위치해야 시민들이 이용하기 편함  자전거 거치대에 대한 이용자의 접근성을 200m(논문 참고)*로 판단  현재 거치대들 주변 200m 반경을 기준으로 거치대들의 접근성 coverage를 구함 *참고 논문) Optimizing the location of stations in bike- sharing programs: A GIS approach(2012) 현재 자전거 거치대 주변 반경 200m 시각화 데이터 전처리 & EDA 데이터 소개 데이터 전처리 EDA
  • 18. 공공자전거인 피프틴의 특성 상 많은 고양시민들이 접할 수 있는 것이 최우선이 되어야 하며, 이를 위해 현재 미배치된 지역들을 파악하는 것이 중요하다. 자전거 정류장 반경 200m coverage 시각화  앞서 거치대 주변 반경 200m를 이용객들이 접근하기 용이한 구역으로 판단했을 때, 많은 인구는 존재하나, 현재 자전거 거치대가 cover하지 못하는 지역이 다수 존재 (고양동, 식사동 일대)  피프틴 자전거가 가지는 공공성 을 생각했을 때, 현재 미배치된 지역에 우선적으로 고려해야 함 데이터 전처리 & EDA 데이터 소개 데이터 전처리 EDA 공공성  미배치된 지역 *빨간색 박스는 현재 자전거 거치대 미배치 지역
  • 19. ★배치 지역 파악 현재 자전거 거치대가 배치된 지역들의 특성을 파악해보았다.  현재 거치대는 두가지 위치 특징을 기반으로 설치되었다고 가정 1. 상업지역(유동량, 퇴근) 2. 주거지역(출근)  이러한 가정 아래, 현재 거치대가 설치된 주변 건물의 특징을 조사한다면, 거치대가 상업지역에 설치되었는지, 주거지역에 설치되었는지 알 수 있음  여기서 상업지역와 주거지역을 나누기 위한 변수 "house_counts_200_mean"를 사용  자전거 거치대 배치 지역 파악 데이터 전처리 & EDA 데이터 소개 데이터 전처리 EDA 예시 "house_counts_200_mean"는 거치대 주변 200m 내에 존재하는 주거용 건축물의 수의 평균으로, 만약 200m 반경 내에 4개의 100x100m 격자가 들어가고, 이 격자 각각에 2개 씩의 거주 건물이 들어가 있다면 (4x2)/4 = 2로 생성  이를 적용했을 때, 평균 1을 기준으로 상업지역와 주거지역이 나뉘는 것을 확인할 수 있었음 (이를 좀더 명시적으로 파악하기 위해 네이버 지도에서 해당 위치와의 비교를 통해 검증)
  • 20. ★배치 지역 파악 HOUSE_COUNTS 변수를 기반으로 정류장 주변 상업지역과 주거지역을 분리했다. 5. "house_counts_200_mean"를 기준으로 상업지구와 거주지구를 나누어 본다. 6. 오른쪽 분포 그래프를 참고하여, 둘을 가장 잘 나눌 수 있는 threshold(= 1)를 설정한다. 7. 상업지구와 거주지구에 따른 차이를 검증한다.  주거, 상업지역 파악 과정 데이터 전처리 & EDA 데이터 소개 데이터 전처리 EDA house_counts_200_mean 분포 1. 100x100m 인구 거주도, 100x100m 빌딩 연면적 데이터를 병합한다. 2. 이 데이터에서 인구수가 0이 아니거나 빌딩 면적이 0이 아닌 데이터를 추출한다. 3. 100x100m 안에 포함된 주거용도 건축물 수를 세고, HOUSE_COUNTS 변수를 2번 데이터 프레임에 추가한다. 4. 자전거 정류장 주변 200m 반경 내 주거용도 건축물의 평균 개수인"house_counts_200_mean"를 생성한다
  • 21. ★배치 지역 파악 앞선 과정으로 파악한 주거, 상업지역을 실제 지도와 비교해서 확인했다.  주거, 상업지역 확인 상업지역 정류장들 네이버 고양시 지적편집도  상업지역에 위치한 것으로 판단된 자전거 정류장들 주변 지역을 시각화 해보았을 때, 우측 실제 지도에 표시된 상업지역과 거의 일치함  이를 고양시 상업지구로 판단해도 문제 없다는 것을 확인 핑크색: 상업지역 노란색: 주거지역 데이터 전처리 & EDA 데이터 소개 데이터 전처리 EDA *노란색이 상업지역
  • 22. ★배치 지역 파악 주거지역과 상업지역에 위치한 자전거 거치대들의 이용량을 시각화 해보았다.  주거, 상업지역 시각화 데이터 전처리 & EDA 데이터 소개 데이터 전처리 EDA  주거지역이나 상업지역 어느 곳에도 들지 못한 areatype = 0인 구역에 상당히 많은 아웃라이어가 존재  이는 현재 배치된 자전거 거치대을 바탕으로 주거, 상업지역을 판단했기 때문으로, 현재 자전거 정류장이 cover하지 못한 주거 지역들이 다수 존재하는 것으로 판단  따라서 상업지역은 그 지역의 특성을 대변하 는 것으로 사용해도 되지만, 주거지역을 파 악하기 위해서는 추가적인 데이터 참고 필요  따라서 추후 주거지역을 기반으로 특성을 추출할 때, 이 데이터 이외에 다른 지표를 기반으로 주거지역을 대변할 필요 존재 areatype describe 0 어느 곳에도 포함되지 않는 지역 1 상업지역 2 주거지역 3 상업지역 & 주거지역
  • 23. 수요 파악 자전거 거치대들의 위경도를 이용하여 각자 속한 행정동에 배정하여, 행정동별 자전거 거치대 수를 파악하였다.  행정동별 자전거 거치대 수  행정동별 자전거 정류장 배치 수를 보았을 때, 주거지가 많은 주엽동, 마두동, 정발산동 등을 중심으로 많은 정류장이 몰려 있음 데이터 전처리 & EDA 데이터 소개 데이터 전처리 EDA 주엽동 마두동 정발산동
  • 24. 수요 파악 자전거 거치대들의 위경도를 이용하여 각자 속한 행정동에 배정하여, 행정동별 절대수요 평균을 파악하였다. 데이터 전처리 & EDA 데이터 소개 데이터 전처리 EDA  행정동별 절대수요(반입량+반 출량) 평균을 보았을 때, 장항2 동, 주엽동, 정발산동, 마두동을 중심으로 많은 이용량을 보임  또한, 호수공원과 라페스타와 같은 주요 상업지역이 밀집된 지역인 장항2동은 높은 이용량 이 있으나, 거주인구가 상대적 으로 적기에 인구 대비 높은 이용량을 보임  거주지역과 상업지역을 분리 해서 봐야할 필요가 존재 주엽동 마두동 정발산동 장항2동  행정동별 절대수요 평균
  • 25. 수요 파악 자전거 거치대들의 위경도를 이용하여 각자 속한 행정동에 배정하여, 행정동별 상대수요 평균을 파악하였다.  행정동별 상대수요 평균  행정동별 상대수요(반입량-반출량) 평균을 보았을 때, 절대수요가 높았던 주엽동, 장발산동, 마두동은 반출량이 반입량보다 높은 경향을 많이 보임 데이터 전처리 & EDA 데이터 소개 데이터 전처리 EDA 주엽동 마두동 정발산동
  • 26. 수요 파악 앞서 파악한 주거지역과 상업지역에 위치한 자전거 거치대들의 이용량을 시각화 해보았다.  상업지역이 주거지역보다 자전거 이용량, 주변 인구 대비 이용량 모두 높음  주거지역의 경우, 상업지역에 비해 반출량이 반입량보다 높음 전체 이용량(절대수요) 인구 대비 이용량 반입량 – 반출량(상대수요) 주거 상업 주거 상업 주거 상업 데이터 전처리 & EDA 데이터 소개 데이터 전처리 EDA  주거, 상업지역 거치대 이용량 시각화
  • 27. 접근성 일정 고도가 높으면, 시민들의 정류장에 대한 접근성에 영향을 미칠 것이라 판단하여 시각화를 진행하였다.  고도에 대한 접근성  자전거 정류장의 높은 고도와 5도 이상의 경사도를 갖을 때, 수요에 영향을 줄 수 있다는 논문*의 연구 결과를 고려  전반적인 고도의 분포를 보았을 때, 대부분 10~20m 저지대에 위치함  고도의 상위 1분위수(25)를 기준으로 그 차이를 비교했을 때, 확연한 이용량의 차이를 볼 수 있음 *참고 논문) Bicycle sharing systems demand, Frade.(2014) 현재 자전거 정류장 고도 분포 고도에 따른 이용량 비교 데이터 전처리 & EDA 데이터 소개 데이터 전처리 EDA
  • 28. 접근성 대중교통시설에서 자전거 거치대까지 혹은 자전거 거치대에서 대중교통시설까지의 접근성을 알아보기 위해 정류장으 로부터 일정 거리 내에 있는 버스정류장과 지하철역의 수를 시각화 해보았다.  대중교통시설에 대한 접근성  평균적으로 4~5개 정도의 버스정류장이 자전거 거치대 주변 200m 내에 위치  300m 내에 버스정류장이 없는 자전거 거치대 수가 2개 불과할 정도로 버스정류장에 있어 매우 좋은 접근성을 보임  버스정류장과 반대로 지하철역 200m 이내에 위치한 거치대 수는 27개에 불과  주변 지하철역 수 분포(500, 1000, 1500m) 주변 버스정류장 수 분포(200, 300, 500m) 데이터 전처리 & EDA 데이터 소개 데이터 전처리 EDA 버스정류장에 대한 접근성은 좋으나, 지하철역에 대한 접근성은 부족함
  • 29. 접근성 이용객들이 사용할 수 있는 사회인프라 시설들의 접근성을 확인하기 위해 시설들을 교육, 문화, 체육 3가지 그룹으로 묶어, 자전거 거치대 주변의 분포를 파악하였다.  공공시설에 대한 접근성 주변 교육시설 수 분포 주변 문화시설 수 분포 주변 체육시설 수 분포  학교와 같은 교육시설들이 자전거 거치대 주변에 평균 3개 정도 위치하는 것을 보아, 통학에 있어서 용이할 것으로 보임  다만, 박물관, 공연장과 같은 문화시설과 체육관, 수영장과 같은 체육시설에 대한 접근성은 상대적으로 떨어짐 데이터 전처리 & EDA 데이터 소개 데이터 전처리 EDA
  • 30. 접근성 도로명주소에 제공된 좌표를 시각화해본 결과, 고양시를 매우 잘 반영하는 것을 볼 수 있다.  시〮군〮구 도로 데이터 시각화  도로명 주소 데이터 중 시〮군〮구 도로의 좌표를 시각화해 보았을 때, 고양시의 모습을 잘 보여줌  이러한 도로명주소를 기반으로 일정 간격에 따라 점을 찍어 그려보았을 때, 우측과 같이 고양시 전체의 모습을 잘 대변함 데이터 전처리 & EDA 데이터 소개 데이터 전처리 EDA
  • 31. Rebalancing 피프틴 자전거 이용은 4월부터 11월에 집중되는 것을 볼 수 있다.  월별 이용량  월별 자전거 이용량에 있어서 고객들은 4월부터 11월까지 주로 사용하는 것을 알 수 있음 데이터 전처리 & EDA 데이터 소개 데이터 전처리 EDA
  • 32. Rebalancing 피프틴 자전거 이용은 요일별로 보았을 때, 큰 차이가 존재하지 않는다.  요일별 이용량 데이터 전처리 & EDA 데이터 소개 데이터 전처리 EDA  요일별 자전거 이용량에 있어서 큰 차이가 존재하지 않음
  • 33. Rebalancing 시간대별 이용량을 보면, 출근,등교 시간대인 8시와 퇴근시간인 17~19시에 많은 사용량이 있음을 알 수 있다.  시간대별 이용량  출근, 등교 시간대인 8시와 퇴근 시간대인 17~19시에 자전거 이용량이 갑작스럽게 몰리는 것을 볼 수 있음  특정 시간대에 몰리는 수요를 해결하기 위한 Rebalancing을 고려해야 함 데이터 전처리 & EDA 데이터 소개 데이터 전처리 EDA
  • 34. Rebalancing 자전거 거치대별 반입량과 반출량의 차이를 시각화하여, 거치대별 이용 상태의 균형을 파악하였다.  거치대별 IN&OUT  산점도에서 볼 수 있다시피, 거의 대부분의 거치대들이 반입 량보다 반출량이 많은 매우 불균형한 이용 상태를 가짐 (전체 상대 수요 평균이 -2.3)  이는 Rebalancing 문제에 있어, 많은 비용을 초래 거치대별 상대수요(반입량-반출량)의 평균 시각화 0 데이터 전처리 & EDA 데이터 소개 데이터 전처리 EDA
  • 35. Rebalancing 자전거 거치대별 반입량과 반출량의 차이를 시각화하였을 때 발생하는 불균형을 분석해본 결과, 특이 station인 0번 정류장의 영향임을 알게 되었다.  특이 STATION(0번 STATION)  앞서 상대 수요 평균이 −2.3 이 나오는 것은 모든 거치대에서 반출이 평균적으로 -2.3개 정도 많다고 생각할 수 있음  하지만 자전거의 총량이 변화하지 않는다는 가정을 도입한다면 이는 현실적으로 가능하지 않음  이에 운영이력 데이터 전처리과정에서 처리한 0번 station의 의미를 파악해 봄  파악한 0번의 station의 의미 1. 0번 station은 반입만 있는 거치대 2. 반입의 평균이 다른 거치대 상대 수요의 평균과 정확하게 일치  이러한 점을 근거로 우리는 이 0번 거치대는 중앙에서 거치대의 Rebalancing을 해소하기 위한 운반이라고 가정하였음  위 가정 하에, 0번 거치대 이외의 모든 거치대의 상대수요는 평균적으로 2.3 더해져야 함 데이터 전처리 & EDA 데이터 소개 데이터 전처리 EDA
  • 36. Rebalancing 자전거 거치대별 반입량과 반출량의 차이에 2.3 더한 후 시각화하여, 거치대별 이용 상태의 균형을 파악하였다.  모든 자전거 거치대에 2.3을 더하여 시각화를 해본 결과, 평균이 0에 가까움을 볼 수 있음  또한, 이전에 보였던 불균형적 인 모습이 다소 해소 되었음  허나, 개별적으로 보았을 때, Rebalancing 문제의 고려가 여전히 필요 거치대별 상대수요 + 2.3의 평균 시각화 0 데이터 전처리 & EDA 데이터 소개 데이터 전처리 EDA  특이 STATION 시각화
  • 37. Rebalancing 자전거 거치대 간의 상호작용을 확인해보기 위해 네트워크분석을 진행하였다  네트워크 분석 데이터 전처리 & EDA 데이터 소개 데이터 전처리 EDA  Rebalancing 문제는 서로 다른 두 거치대 간의 관계에서 결국 발생하는 것이기에 서로 간의 연결성을 파악하기 위해 네트워크 분석을 진행  각각의 자전거 거치대를 노드로 잡고, 서로 간의 연결 횟수를 가중치로 설정  전체 네트워크 안에 존재하는 커뮤니티를 분리해서 보여주는 네트워크 분석 기법인 Louvain algorithm for community detection를 활용해서 사용 Louvain algorithm for community detection  페이스북 커뮤니티에서 친구를 찾을 사용하는 알고리즘  참고 사이트: https://mons1220.tistory.com/129
  • 38. Rebalancing 자전거 거치대 간의 상호작용을 확인해보기 위해 네트워크분석을 진행하였고, 6개의 군집을 얻어냈다.  네트워크 분석 데이터 전처리 & EDA 데이터 소개 데이터 전처리 EDA  Louvain algorithm for community detection를 활 용하여 진행한 분석을 시각화 해본 결과, 시각화를 통해서 는 큰 결론을 내리기 어려움  다만, 분석 결과를 기반으로 가장 특성을 잘 나누는 6개의 군집으로 잘 분리되었음
  • 39. EDA 결론 앞서 진행한 EDA를 정리하면 다음과 같다. 1. 수요파악에 있어 단순히 인구 수가 아닌, 해당 지역을 주거, 상업 지역인지 판단하여, 지역적 특성에 맞게 배치를 고려해야 한다. 2. 후보군에 있어서 고도와 주변 대중교통시설, 공공시설과의 거리, 그리고 해당 거치대 에 대한 시민들의 접근성 등 다양한 접근성을 고려해야 한다. 3. 현재 미배치된 지역을 우선적으로 고려하여, 공공자전거로서의 의미를 살려야 한다. 4. 거치대별로 반입/반출량이 상이하며, 이러한 불균형, Rebalancing 문제를 해결 하기 용이한 곳에 배치하여야 한다. 5. 운영이력 데이터에 ‘0번 스테이션’(비정상 반납)의 반입이 많기에, 이를 bias로 도입 한다. 데이터 전처리 & EDA 데이터 소개 데이터 전처리 EDA
  • 41. 후보군 선정 프로세스 후보군 생성 미배치 지역 배정 EDA 결과를 기반으로 후보군 선정을 하였고, 전체 프로세스는 다음과 같다. Filtering 후보군 선정 선별된 후보군 1. 시〮군〮구 도로를 기반으로 도로 위에 point를 찍어 후보군을 추출한다. 2. 미배치된 지역을 우선적으로 고려하여 후보군들을 선별한다. 3. EDA의 결과를 참고하여 만든 기준들에 각각 맞는 후보군들을 filtering 한다. 4. Filtering된 후보군들을 모두 합하여 수요예측 직전까지 선별된 후보군을 만든다.
  • 42. 후보군 생성 후보군 생성 미배치 지역 배정 도로명 주소를 기반으로 접근성이 좋은 도로에 후보군을 선정하였고, 약 12000개의 후보군을 랜덤하게 생성하였다. Filtering 후보군 선정 후보군 시각화  시민들이 접근하기 좋은 위치인 도로 근처에 자전거를 배치하는 것이 중요  앞서 EDA에서 시〮군〮구 도로 좌표를 시각화 해 보았을 때, 고양시 대부분의 도로를 대변 하기에 후보군 일반화에 용이  도로의 경계를 뽑기 위해, 도로의 폭을 1m 기준으로 판단(도로 폭 데이터에 오류가 존재, 추후 보완)  * 300m로 가정한 이유는 사람의 걷는 속도를 시속 3.5km로 보았을 때, 5분 동안 가는 거리이기 때문 도로명 주소 데이터에서 각 후보군마다 300m*의 간격을 주어 약 12000개의 후보군을 생성  도로 기반 후보군 생성 선별된 후보군
  • 43. 미배치 지역 배정 앞서 진행한 EDA에서 얻은 결론을 바탕으로 후보군을 필터링하여 적절한 후보군을 골라냈다. 먼저, 현재 자전거 거치대가 커버하지 못하는 지역을 우선적으로 고려하였다. 자전거 거치대 반경 200m coverage 시각화  이미 배치된 된 장소 주변에 추가적으 로 배치하는 것은 비효율적  현재 거치대가 커버하지 못하는 미배치 지역(고양동, 식사동 일대 등) 을 고려하여 필터링을 진행  행정동 전체 인구 데이터가 아닌 100m*100m 인구 통계 데이터를 바탕으로 미배치 지역을 선별  미배치 지역 중 100m*100m 지역 내 인구 수(GID_POP)이 100 이상인 지역을 우선적으로 고려 후보군 생성 미배치 지역 배정 Filtering 후보군 선정 선별된 후보군  미배치 지역 선별
  • 44. 미배치 지역 배정 미배치된 지역 자체는 너무 광범위하기에, 몇 가지 조건을 바탕으로 필터링을 진행하여, 적절한 후보군을 산출했다.  앞서 골라낸 미배치 지역은 매우 광범위함(현재 자전거 정류장이 커버하지 못하는 100m*100m 지역만 4000여개)  EDA를 통해 얻을 수 있던 몇가지 정보를 기준으로 삼아 후보군을 선별  지역적 특징과 거주 인구에 대한 조건 추가하여, 앞서 EDA 결과에서 얻은 주거 지역 정보를 보충 상업지역 여부 주거지역 여부 빌딩 연면적 commerical_area 변수가 1인100m*100m 지역에 포함되는 후보군 house_counts 변수가 6 이상인 100m*100m 지역에 포함되는 후보군 주변 200m 반경 내 빌딩 연면적 합 (b_area_200_sum)이 20000 이상인 후보군 후보군 생성 미배치 지역 배정 Filtering 후보군 선정  미배치 지역 Filtering 선별된 후보군 거주 인구 수 주변 200m 반경 내 인구 수 합(pop_200_sum) 이 1000 이상인 후보군 미배치 지역 후보군 2295개
  • 45. 미배치 지역 배정 미배치 지역 후보군 배정 과정는 다음과 같다. 후보군 생성 미배치 지역 배정 Filtering 후보군 선정 선별된 후보군 미배치 지역 후보군 배정 과정 *[] 안은 데이터셋 명 or 변수명 1. 후보군[candidate_gdf]에 미배치지역 주거인구와 상업지역여부를 병합한다. 2. 후보군 중 상업지역에 포함되는 것들을 따로 선별한다[ candidate_gdf_commercial_area]. 3. 이 중 미배치 지역에 인구가 없는 후보군(미배치 지역 주거인구 = 0)을 제거한다. 4. 미배치 지역 중 너무 적은 인구가 거주할 경우(미배치 지역 주거인구 = 100) 제거한다. 5. 4번까지 완료된 후보군[candidate_gdf]에 2번에서 따로 선별해둔 상업지역 내 후보군들을 붙여준 다[ candidate_gdf_with_commercial_area]. 6. 3번에서 제작된 후보군에 200m안 거주 건물 수의 평균을 더해준다. 7. 주거 지역[house_counts_200_mean], 빌딩 연면적[b_area_200_mean], 거주인구[pop_200_mean] 일정 이상의 필터를 적용한다[ candidate_pop_gdf)]. 8. 7번의 필터를 적용한 data[candidate_pop_gdf]와 6번까지 제작한 후보군[candidate_gdf_with_commercial_area]을 합친다. 최종 데이터셋 = 미배치 지역 배정 후보군[candidate_gdf]
  • 46. 접근성 기반 Filtering 접근성 기반 필터링을 진행한 목적은 아래와 같다. 후보군 생성 미배치 지역 배정 Filtering 후보군 선정 선별된 후보군  앞서 진행한 미배치 지역 설정은 피프틴 자전거가 갖는 공공성을 기반으로 하여 당장 필요한 지역을 우선적으로 고려  접근성 기반 Filtering은 EDA 결과를 바탕으로 접근성에 있어서 현재 거치대들이 부족한 부분을 채워줄 수 있는 후보군들을 선별하는데 목적을 둠  각각 기준에 따라 우수한 접근성을 갖는다고 판단할 수 있는 특정 기준을 선정하여 필터링을 진행  최종적으로, 접근성이 뛰어난 후보군 집단과 공공성을 고려한 후보군 집단을 모두 합하여서 그 특성을 모두 반영한 후보군을 만들고자 함
  • 47. 접근성 기반 Filtering 먼저, 대중교통시설에 대한 접근성을 바탕으로 필터링을 진행하였다.  버스정류장 주변 300m 내 버스정류장 분포 주변 300m 내 버스정류장 승하차인원 분포  주변 버스정류장 수에 있어서 5개가 가장 많은 값을 보이기에 이 점을 기반으로 주변 버스정류장 수가 5개 이상인 후보군들을 선별  승하차인원이 많은 정류장을 기반으로 후보군을 뽑기 위해 주변 버스정류장 승하차인원이 5000명이 넘는 후보군들을 선별 후보군 생성 미배치 지역 배정 Filtering 후보군 선정 선별된 후보군
  • 48. 접근성 기반 Filtering 먼저, 대중교통시설에 대한 접근성을 바탕으로 필터링을 진행하였다.  지하철 주변 1km 내 지하철역 분포 주변 1km 내 지하철역 승하차인원 분포  주변 지하철역의 경우, 지하철역의 수가 몇 없기에, 지하철역 유무 여부로 후보군을 선별  주변 1km 내 지하철역 수나 지하철역 승하차인원이 0보다 크기만 하면 선별 후보군 생성 미배치 지역 배정 Filtering 후보군 선정 선별된 후보군
  • 49. 접근성 기반 Filtering 다음으로, 공공시설에 대한 접근성을 바탕으로 필터링을 진행하였다.  교육시설 & 체육시설  교육시설의 경우, 통학이라는 많은 왕래가 발생할 것을 고려하여, 주변에 학교와 접근하기 용이한 곳에 배치된 후보군들인 교육시설이 5개 이상인 곳들만 선별  체육시설의 경우, 기존에 자전거 정류장으 로부터 접근성이 떨어진다는 점을 EDA로부터 파악한 결과를 고려하여, 1km 이내 5곳 이상인 후보군들만 선별 주변 체육시설 수 분포 주변 교육시설 수 분포 후보군 생성 미배치 지역 배정 Filtering 후보군 선정 선별된 후보군
  • 50. 접근성 기반 Filtering 마지막으로, 고도를 바탕으로 자전거 거치대 후보군에 대한 접근성에 대하여 필터링을 진행하였다.  고도 후보군 정류장들의 고도 분포  고도의 분포는 20m가 제일 많았으며, EDA 결과 고도가 낮을 수록 많은 수요가 있음을 확인  이에 22m 이하인 후보군들만 선별 후보군 생성 미배치 지역 배정 Filtering 후보군 선정 선별된 후보군
  • 51. 선별된 후보군 미배치 지역과 지역적 특성, 접근성 등을 반영하여 필터링 작업 후, 총 2184개의 선별된 후보군을 도출하였다. 후보군 생성 미배치 지역 배정 Filtering 후보군 선정 선별된 후보군  앞선 두 차례의 필터링을 바탕으로 선별된 후보군 데이터셋(candidate_after_filter_gdf)을 생성 접근성 기반 Filtering 미배치 지역 Filtering  미배치 지역  상업지역  주거지역  빌딩 연면적  주거 인구  주변 버스 정류장  주변 지하철역  주변 교육시설  주변 체육시설  고도 전체 후보군 (n = 11905) 선별된 후보군 (n = 2184)
  • 53. 수요 정의 앞서 만든 데이터셋을 바탕으로 선별된 후보군에 대하여 예측 수요를 구하기 이전에, 우리가 구하고자 하는 수요에 대해 명확한 정의를 내렸다.  절대 수요 & 상대 수요  자전거 공유 서비스를 사용하는데 있어서 수요는 다양한 측면에서 바라볼 수 있지만, 저희는 총 두가지 관점에서 수요로 파악 1. 절대 수요 거치대 반입량, 반출량의 절대적인 량. 하나의 거치대에서 방문하는 사용자의 총량을 대변 2. 상대 수요 거치대 반입량, 반출량의 차이. 하나의 거치대에서 유입, 유출되는 자전거의 변화량을 의미  이러한 두가지 지표의 시간 단위를 일(day)로 실정 수요 정의 Modeling 후보군 수요 예측 수요 예측 모형
  • 54. 데이터셋 만들기 모델링을 하기 이전에 앞선 EDA를 통해 얻은 아이디어들을 변수로 만들어, 현재 배치된 정류장들에 추가하였다. 변수들은 아래와 같다.  사용하는 변수 TOTAL_MEAN RTN-LEAS_MEAN 절대 수요 상대 수요  종속 변수  모델을 제작하기 이전에 앞서 진행한 EDA를 바탕으로 유의미한 변수 생성  전체 독립 변수들(총 43개) 1. 버스 정류장 개수(3) 2. 버스 정류장 승하차 합계/평균(6) 3. 지하철 역 개수(3) 4. 지하철역 승하차 합계/평균(18) 5. 교육시설 개수(3) 6. 체육시설 개수(3) 7. 고도(1) 8. 거주 인구(1) 9. 200m 내 인구 합계(1) 10. 200m 내 건물 연면적 합계(1) 11. 200m내 주거 건물 수 평균(1) 12. 상업/거주 지역 구분(1) 13. 네트워크 분석을 통한 군집(1) 수요 정의 Modeling 후보군 수요 예측 수요 예측 모형
  • 55. 앞서 만든 데이터셋을 바탕으로 수요 예측 모델을 제작하였다. 여러 모델들을 테스트해본 결과, 높은 일반화 성능과 노이즈가 있는 변수에도 잘 대응하는 ExtraTree Regressor 모델을 사용하였다.  ExtraTree Regressor 모델 Random Forest를 기반으로 더욱 더 랜덤한 요소를 추가하여 일반화 성능을 높인 앙상블 기법 샘플링 : 부트스트랩 X 변수 갯수 : 𝑚 변수 선택 : Random 장점 부트스트랩을 사용하지 않아 샘플링 수 또한 랜덤으로 결정되어 더 높은 일반화 성능을 얻을 수 있음 전체 데이터 셋을 모두 반영함 변수 선택에 있어서 랜덤화 요소가 작용하기 때문에 일반화 성능이 높음 RANDOM FOREST에 비해서 속도가 빠름 노이즈가 있는 FEATURE에 잘 대응 모델 선택 수요 정의 Modeling 후보군 수요 예측 수요 예측 모형
  • 56. 모델링 결과 데이터 수는 부족하였지만, 다음과 같이 높은 성능의 모델링 결과를 얻을 수 있었다.  Loss  현재 설치된 거치대를 기준으로 절대수요, 상대수요를 예측한 결과 높은 성능의 모델이 도출됨  데이터 개수가 많이 부족하지만, 상대적으로 가벼운 모델인 decision tree 기반 모델을 사용하여 최대한 일반화 성능을 높이는 방향으로 모델링을 진행하여 좋은 성능을 얻음 수요 정의 Modeling 후보군 수요 예측 수요 예측 모형 TOTAL_MEAN (절대수요) RTN-LEAS_MEAN (상대수요) Loss 1.5299*ⅇ−5 3.2190*ⅇ−5
  • 57. 후보군 수요 예측 후보군 수요 예측에 앞서, EDA에서 진행한 자전거 정류장들의 연결성을 파악하는 네트워크 분석에서 얻은 6개의 군집을 후보군에 배정하였다.  후보군 Network 군집 배정  EDA에서 네트워크 분석을 통해 현재 배치되어 있는 자전거 거치 대을 6개의 군집으로 나눔  앞서 선별된 후보군에 네트워크 군집을 적용  KNN(k-nearest neighbor) 알고 리즘을 사용하여, 거치대 간의 유 클리드 거리 기반으로 가장 가까운 군집을 배정 수요 정의 Modeling 후보군 수요 예측 수요 예측 모형 예시
  • 58. 후보군 수요 예측 후보군들을 앞서 제작한 수요 예측모델에 적용하여 각자 예상되는 수요를 모두 얻어냈다.  사용하는 변수  위 변수를 선별된 후보군에 모두 붙여주었으며, 이를 바탕으로 후보군들의 수요를 수요 예측 모델로 도출 수요 정의 Modeling 후보군 수요 예측 수요 예측 모형 1. 버스 정류장 개수(3) 2. 버스 정류장 승하차 합계/평균(6) 3. 지하철 역 개수(3) 4. 지하철역 승하차 합계/평균(18) 5. 교육시설 개수(3) 6. 체육시설 개수(3) 7. 고도(1) 8. 거주 인구(1) 9. 200m 내 인구 합계(1) 10. 200m 내 건물 연면적 합계(1) 11. 200m내 주거 건물 수 평균(1) 12. 상업/거주 지역 구분(1) 13. 네트워크 분석을 통한 군집(1)
  • 59. 수요 예측 결과 후보군들을 ExtraTree로 제작한 수요 예측모델에 적용하여 각자 예상되는 수요를 모두 얻어냈다.  후보군 수요 예측 geometry TOTAL_MEAN RTN-LEAS_MEAN 0 POINT (126.90327 37.64694) 27.597861 -0.799168 1 POINT (126.88949 37.59500) 23.888901 0.082149 2 POINT (126.89053 37.59579) 21.250070 -0.071134 3 POINT (126.89045 37.59584) 21.250070 -0.071134 4 POINT (126.89127 37.59568) 19.165386 -0.305854 : : : :  ExtraTree 기반 수요 예측 모델을 활용하여 2184개 후보군들의 절대수요와 상대수요를 구함 수요 정의 Modeling 후보군 수요 예측 수요 예측 모형
  • 61. 최종 후보군 도출 프로세스 예측된 절대 수요와 상대 수요를 기반으로 최종 후보군 선정을 위한 전체 프로세스는 다음과 같다. 공공성 확보 수요 기반 Clustering Rebalancing 최종 제안 최종 후보군 제안 방향
  • 62. 최종 후보군 도출 프로세스 예측된 절대 수요와 상대 수요를 기반으로 최종 후보군 선정을 위한 전체 프로세스는 다음과 같다.  가정 : 자전거의 이동 범위는 지역(행정동)을 크게 벗어나지 않는다. 1. 먼저, 공공성을 고려하여 지역별로 상이한 거치대 배치 비율을 만든다. 2. 제작한 거치대 배치 비율을 기반으로 지역별 필요 거치대 개수를 구한다. 3. 해당 지역에 존재하는 거치대 후보에서, Clustering을 활용하여 절대 수요를 가장 잘 대표하는 후보군 대표를 선정한다. 4. 이렇게 발생한 후보군 대표 중, 상대 수요의 총합이 가장 작은(불균형 문제를 최소로 하는) 것들을 최종 후보군으로 선정한다. 공공성 확보 수요 기반 Clustering Rebalancing 최종 제안 최종 후보군 제안 방향  프로세스 순서
  • 63. 지역별 요구 거치대 비율 공공성을 기반으로 최대한 많은 고양시민들이 피프틴을 접할 수 있게, 행정동마다 배정되어야 할 비율을 생성하였다. 공공성 확보 수요 기반 Clustering Rebalancing 최종 제안 최종 후보군 제안 방향  지역별 요구 거치대 비율을 구현하는 데 있어 고민한 점은 크게 2가지 1. 공공성을 고려하여 거치대수가 부족한 지역(행정동)에 우선 배정한다.(station_count) 2. 수요가 밀집된 지역에 추가 배치하여 보완한다.(TOTAL_POP)  위의 두가지 요인을 모두 고려한 지역별 요구 거치대 비율 이라는 변수를 생성  수식  station_count(현재 배치된 거치대 수)가 크면, 거치대는 적게 설치해야 하기에 역수 처리 population_ratio(행정동 인구 비율)가 크면, 거치대는 더 설치해야 하기에 그대로 처리  두 지표를 곱한 후에 이를 정규화하여 해당 지역의 요구 거치대 비율로 사용  지역별 요구 거치대 비율
  • 64. 이미 많이 배치된 흥도동 = 적은 수가 배정 현재 배치가 안된 고양동과 관산동 = 많은 수가 배정  LOCATE_NUM은 지역별 요구 거치대 비율에 따라 도출된 추가 배정되어야 거치대 수  현재 배치된 행정동별 자전거 거치대 수(STATION_COUNT)를 보았을 때 이미 많이 배치된 흥도동 = 적은 수가 배정 현재 배치가 안된 고양동, 관산동 = 많은 수가 배정 지역별 요구 거치대 비율 공공성을 기반으로 최대한 많은 고양시민들이 피프틴을 접할 수 있게, 행정동마다 배정되어야 할 비율을 생성하였다. 공공성 확보 수요 기반 Clustering Rebalancing 최종 제안 최종 후보군 제안 방향  지역별 요구 거치대 배정 결과 DONG_NM 행정동명 LOCATE_PROB 지역별 요구 거치대 비율 LOCATE_NUM 비율에 따라 추가 배정된 거치대 수 STATION_COUNT 현재 배치된 자전거 거치대 수 0 주교동 0.052409 7 1.0 1 원신동 0.019919 3 4.0 2 흥도동 0.024718 3 6.0 3 성사1동 0.024474 3 3.0 4 성사2동 0.039033 5 1.0 5 효자동 0.006710 1 0.0 6 삼송동 0.024271 3 3.0 7 창릉동 0.022022 3 3.0 8 고양동 0.041490 6 0.0 9 관산동 0.048736 7 0.0 : : : : : SUM 1 140 160
  • 65. 이미 많이 배치된 흥도동 = 적은 수가 배정 현재 배치가 안된 고양동과 관산동 = 많은 수가 배정 데이터셋 제작 수요를 기반으로 clustering을 진행하기 이전에 데이터셋을 먼저 제작하였다. 공공성 확보 수요 기반 Clustering Rebalancing 최종 제안 최종 후보군 제안 방향  Clustering용 데이터셋 제작 variable means total 최종 행정동에 배치될 거치대의 총 개수 exist 현재 행정동 내에 존재하는 거치대의 개수 need 요구 거치대 비율을 기반으로 필요한 거치대의 개수 min_x 해당 지역의 x 하한 max_x 해당 지역의 x 상한 min_y 해당 지역의 y 하한 max_y 해당 지역의 y 상한  Clustering을 기반으로 절대 수요를 대표하는 후보군을 뽑기 위해 위와 같은 변수를 갖는 데이터셋을 제작  x, y(미터 좌표계)에 대한 정보는 추후 Metric을 생성하는데 사용
  • 66. 절대 수요 기반 Clustering 먼저, 후보군들의 절대 수요를 기반으로 행정동별로 요구되는 거치대 수x3 개의 클러스터링 그룹을 만들었다. 최종 제안  Clustering 진행 공공성 확보 수요 기반 Clustering Rebalancing 최종 후보군 제안 방향  새로 새울 수 있는 140개 거치대 수에 비해 현재 후보군은 2184개로 너무 많음  절대 수요를 기반으로 지역 별로 요구되는 거치대 개수 x 3 에 해당하는 개수의 클러스터링을 진행  Clustering 군집으로 후보군을 분리함으로써, 비슷한 절대 수요를 가지는 후보군들끼리 압축하여, 해당 지역의 특징을 반영한 대표군을 생성 클러스터링 이전 후보군 시각화 (빨간색 = 현재 배치된 거치대, 파란색 = 후보군) 클러스터링 이후 후보군 시각화 (빨간색 = 현재 배치된 거치대, 파란색 = 군집 대표 후보군)
  • 67. 상대 수요 기반 Rebalancing 절대 수요 기반으로 clustering을 진행하여 생성된 대표군들의 상대 수요를 바탕으로 Rebalancing을 고려하여 후보군들을 선별하였다. 최종 제안  상대 수요 기반 Rebalancing 목적 공공성 확보 수요 기반 Clustering Rebalancing 최종 후보군 제안 방향  상대 수요는 간단하게 말하면, 해당 거치대에 반입량의 순수합(NET SUM)  즉, 양수인 경우 반입이 많고, 음수인 경우 반출이 많음  이는 시스템 운영 비용에 직접적으로 영향을 미치며, 따라서 이러한 상대 수요의 총 합이 0이 되는, 즉 Rebalancing에 도움을 주는 지역을 선정하는 것이 매우 중요  이용수요에 맞춰 재고를 일정 수준으로 유지하는 방법론을 제시해야 함  Rebalancing Metric을 제작
  • 68. Rebalancing Metric 상대 수요를 바탕으로 Rebalancing을 고려하여 후보군들을 선별하기 위하여 Rebalancing Metric을 정의하였다. 최종 제안  Rebalancing Metric 정의 공공성 확보 수요 기반 Clustering Rebalancing 최종 후보군 제안 방향  공유 자전거의 특징 상 하나의 새 거치대 배치는 지역 내에 존재하는 다른 모든 자전거에 영향  이러한 의존성이 있는 문제에 대한 해답으로 우리는 상대 수요를 기반으로 한 이변량 정규분포의 부피로 제안한 거치대의 Rebalancing 영향도를 측정하였음  위 Metric 함수(= 상대 수요의 총합 x 이변량 정규 분포)의 부피는 지역 전역에 있는 상대 수요의 총량을 대변함  이러한 지표를 사용하였을 때, 상대 수요의 총량이 0이 되도록 하는 대표 후보군을 선택하는 방법 으로 최적 거치대를 선정 *여기서 α는 현재 제안된 후보군을 포함한 상대 수요의 총합
  • 69. Rebalancing Metric 앞서 정의된 Rebalancing Metric를 구하는데 있어서 Greedy 알고리즘을 사용했다. 최종 제안  앞에서 정의한 Rebalancing Metric을 구하는데 있어, 해당 알고리즘 에서는 시간 복잡도 문제로 Greedy 알고리즘을 사용 공공성 확보 수요 기반 Clustering Rebalancing 최종 후보군 제안 방향  pseudo-algorithm
  • 70. Rebalancing Metric Rebalancing Metric을 시각화해본 결과, 다음과 같다. 최종 제안  Rebalancing Metric 시각화  좌측 그래프는 우측 그래프를 3차원으로 구현한 것  극단적으로 치우친 봉오리가 많이 없는 것으로 보아 리벨런싱이 잘 되었다고 생각할 수 있음  하지만 중간에 극단적인 부분인 호수공원, 킨텍스, 대화역, 주엽역, 라페스타, 웨스턴돔 부분 을 확대해서 관찰할 필요가 있음 공공성 확보 수요 기반 Clustering Rebalancing 최종 후보군 제안 방향 최적 후보군을 포함한 상대수요(3D) 최적 후보군을 포함한 상대수요(2D) *빨간색 = Rebalancing 지표가 높고, 반입이 많은 지역
  • 71. Rebalancing Metric 앞서 진행한 시각화에서 극단적이었던 부분을 확대 시각화해보았다. 최종 제안  극단적이었던 부분 추가 시각화  현재 추가적으로 자전거 정류장을 배치했을 때. 조금 더 완만해진 것을 확인할 수 있음  하지만 추가적으로 배치하였음에도, 아직 Rebalancing 잘 되지 못한 지역 존재  따라서 이 근처에 차량을 배치하여 관리할 필요가 존재함 공공성 확보 수요 기반 Clustering Rebalancing 최종 후보군 제안 방향 기존 배치된 정류장들 시각화 현재 배치된 정류장들 시각화 *빨간색 = Rebalancing 지표가 높고, 반입이 많은 지역
  • 72. 최종 후보군 마지막으로 최종 후보군들의 위치를 확인, 재조정해주고, 각 거치대들의 용량을 결정해주었다. 최종 제안  최종 후보군 위치 재확인 공공성 확보 수요 기반 Clustering Rebalancing 최종 후보군 제안 방향  기존에 배치된 자전거 거치대 용량의 평균은 26  우리는 기존 거치대 용량의 평균에 맞는 숫자를 배정  결과적으로 상대 수요를 기반으로 정렬하고 이를 3등분하여 순차적으로 30, 25, 20개의 거치대 수량을 배정하여 이 평균치에 맞도록 조절함  마지막으로 제안된 후보군의 위치를 보정해주는 작업을 진행  클러스터링 작업 후, 도로에 위치하지 않은 후보군들을 가장 가까운 도로로 이동  최종 후보군 거치대 용량 결정
  • 73. 최종 후보군 최종 후보군은 다음과 같이 나타난다. 최종 제안 공공성 확보 수요 기반 Clustering Rebalancing 최종 후보군 제안 방향 스테이션 번호 거치대 수량 X 좌표(위도) Y 좌표(경도) 0 0 25 37.657875 126.831543 1 1 30 37.658882 126.819672 2 2 30 37.656090 126.831375 3 3 30 37.661293 126.821449 4 4 30 37.662880 126.819427 : : : : :  최종 후보군 시각화  최종 후보군 데이터셋
  • 74. 최종 후보군 최종 후보군은 이전보다 골고루 배치되었음을 확인할 수 있다. 최종 제안 공공성 확보 수요 기반 Clustering Rebalancing 최종 후보군 제안 방향  최종 후보군 시각화  140개의 자전거 거치대를 추가로 배치하였을 때, 이전에 배치되었던 분포에 비해 훨씬 골고루 분포 되어 있음을 알 수 있다. 행정동별 기존 배치된 자전거 거치대 수 행정동별 최종 자전거 거치대 수
  • 76. 결론 결론 보완사항 결론 및 제언 1. 예상되는 추가 수요  모든 후보군 거치대를 고려하는데 있어서 절대 수요와 상대 수요를 예측해주는 모델을 제작하였기에, 새로 발생하는 추가 수요를 파악할 수 있음 2. 혜택을 누릴 수 있는 시민 증가  단순히 인구 수를 중심으로 배치하는 것이 아닌, 현재 미배치된 지역과 행정동별 인구수, 그리고 기존에 배치되어 있던 거치대 수 등을 복합적으로 고려한 지표를 생성  이를 통해 행정동마다 골고루 자전거 거치대를 분포하여, 최대한 많은 고양시민들이 접할 수 있는 환경 조성 3. Rebalancing 문제 완화  자전거를 이용하는 시민들의 좋은 서비스 경험과 자전거 운용의 효율성을 위하여, 최종 후보군 배치에 있어 Rebalancing 문제를 고려하여 배치  또한, 기존에 배치된 거치대에 주변에 Rebalancing을 고려하여 추가적인 거치대를 설치함에 따라 기존 거치대의 반입-반출 불균형 문제를 완화
  • 77. 보완 사항 결론 보완사항 결론 및 제언 1. 수요 예측을 위한 데이터의 부족  기존에 설치된 거치대를 기반으로 새로운 후보군의 수요를 예측함  하지만 기존의 정류장 수 160개를 기반으로 이러한 수요 특성을 파악하기에는 모집단의 수가 너무 적다는 문제 존재.  최대한 일반화 성능을 높히는 방향으로 진행했지만, 한계가 존재 2. 전역 Rebalancing  시간 복잡도의 문제로, 지역을 기반으로 Rebalancing을 해결하고자 하였음  우리가 선정한 Metric은 근본적으로 3차원 그래프의 부피를 구하는 작업이기에 굉장히 많은 연산량을 요구함  따라서 지역의 Rebalancing을 최소화하는 후보군을 선택하고, 이것들의 모임을 전체 고양시 의 거치대의 불균형 문제를 해결하는 답안으로 제출  더 좋은 Metric을 설정하거나 빠른 연산이 가능하다면 전역 Rebalancing을 해결하는 답안을 찾을 수 있으나 그러지 못함
  • 78. 보완 사항 결론 보완사항 결론 및 제언 3. Greedy Algorithm  지역적으로 후보군을 찾는데 있어서 역시 완전 탐색을 통한 최적 후보군을 찾지 못함  이 역시 연산량에서 근간한 문제로, 완전 탐색으로 대표 후보군 3N개로부터 N개의 최적 후보 군을 찾기 위해서는 정도의 시간 복잡도를 요구됨  현재 서버나 로컬 머신으로는 한계가 있음  또한, 각각의 Metric을 구하는 것도 6.2에서 말했듯 굉장히 높은 연산량을 요구하기 때문에 이 를 시도하지 못함 4. Rebalancing 차량 정보 부족  최적 입지를 선정하는데 있어서 수요만을 고려한다면, 우리가 진행한 평균 수요를 기반으로 한 방법은 매우 합리적  하지만 Rebalancing 문제에 있어서 평균 수요를 가지고 이를 고려하는 것은 정적인 불균형 문제만을 해소하기 때문에 약간의 부족함이 존재  만약 시간대 별로 자전거 재배치 차량의 동선, 수량 등에 대한 데이터가 있었다면, 좀 더 나은 Rebalancing 해결 방안을 제시할 수 있지 않았을까 하는 아쉬움
  • 79. 참고 논문 Appendix  Juan Carlos Garcia-Palomares, Javier Gutierrz, and Marta Latorre, “Optimizing the location of stations in bike-sharing programs: A GIS approach”, in Applied Geography, 2012  Ines Frade and Anabela Ribeiro, “Bicycle sharing systems demand”, Procedia, 2013  Zidong Yang et al., “Mobility Modeling and Prediction in Bike-Sharing Systems”, Zhejiang University, 2016  Frderico Chariotti, “A Dynamic Approach to Rebalancing Bike-Sharing Systems”, Sensors, 2018  Daniel Chemlaa, Frederic Meuniera, and Roberto Wolfler Calvo, “Bike sharing systems: Solving the static rebalancing problem”, Discrete Optimization, 2012  Günes Erdogana, Maria Battarra,and Roberto Wolfler Calvo, “An exact algorithm for the static rebalancing problem arising in bicycle sharing systems”, European Journal of Operational Research, 2015  이은탁, 손봉수, “이용수요 기반의 서울시 공공자전거 재배치전략 도출”, 대한교통학회지, 2019