2. 최규민 소개
개발을 즐기는 개발자입니다.
추천시스템도 만들어보고패킷 분석도 해봤고 데이터 탐색 좋아하여
3. 직장인 하루 출퇴근 시간
참조 : http://bizn.donga.com/dongaTop/Main/3/all/20170717/85387093/1
동아닷컴 2017-07-17 기사
4. 직장인 하루 출퇴근 시간
참조 : http://bizn.donga.com/dongaTop/Main/3/all/20170717/85387093/1
동아닷컴 2017-07-17 기사
1일 = 101 min
1주 = 505 min
1년 = 26,260 min
= 437 hour
= 54.7 work day
(8h/day)
5. 최규민 하루 출퇴근 시간
참조 : http://bizn.donga.com/dongaTop/Main/3/all/20170717/85387093/1
1일 = 120 min
1주 = 600 min
1년 = 31,200 min
= 520 hour
= 65 work day
(8h/day)
동아닷컴 2017-07-17 기사
동천역(수지) → 잠실역
6. 직장인 하루 출퇴근 시간
참조 : http://bizn.donga.com/dongaTop/Main/3/all/20170717/85387093/1
• 1일 = 101분
• 1주 = 505분
• 1년 = 26,260분
지하철에서 생산성을
올리는 방법은?
참조 : http://www.alextip.com/?p=2078
7. 직장인 하루 출퇴근 시간
참조 : http://bizn.donga.com/dongaTop/Main/3/all/20170717/85387093/1
• 1일 = 101분
• 1주 = 505분
• 1년 = 26,260분
지하철에서 생산성을
올리는 유일한 방법은?
참조 : http://www.alextip.com/?p=2078
8. 직장인 하루 출퇴근 시간
참조 : http://bizn.donga.com/dongaTop/Main/3/all/20170717/85387093/1
• 1일 = 101분
• 1주 = 505분
• 1년 = 26,260분
지하철에서 생산성을
올리는 유일한 방법은?
일단 앉아라!!
참조 : http://www.alextip.com/?p=2078
10. ‘지하철 자리앉기’ 검색하면?
!
다양한 자리앉기 꿀팁들!!
!
!
종로 3가에선
할머니/할아버지!관찰력
환승역을 노려라.
!
행선지를 알수 없는 패션 패스
책보는 사람 패스,
자는 사람 패스,
짐을 들고 있는사람
두리번 거리는 사람
자다가 깨어난 사람
백팩을 등에 맨사람, 카드 지갑 꺼내는 사람
무조건 좌석앞에
자리 잡기
경쟁자가 있는 곳을 피하라
360’를 주시하라
내리는 사람
길을 터주어라
반반씩 걸쳐서
자리 확보!
빠른 스캐닝
2,3번 플랫폼
11. ‘지하철 자리앉기’ 검색하면?
!
다양한 자리앉기 꿀팁들!!
!
!
종로 3가에선
할머니/할아버지!관찰력
환승역을 노려라.
!
행선지를 알수 없는 패션 패스
책보는 사람 패스,
자는 사람 패스,
짐을 들고 있는사람
두리번 거리는 사람
자다가 깨어난 사람
백팩을 등에 맨사람, 카드 지갑 꺼내는 사람
무조건 좌석앞에
자리 잡기
경쟁자가 있는 곳을 피하라
360’를 주시하
내리는 사람
길을 터주어라
반반씩 걸쳐서
자리 확보!
빠른 스캐닝
2,3번 플랫1. 지치지 않는 피지컬
12. ‘지하철 자리앉기’ 검색하면?
!
다양한 자리앉기 꿀팁들!!
!
!
종로 3가에선
할머니/할아버지!관찰
환승역을 노려라.
!
행선지를 알수 없는 패션 패스
책보는 사람 패스,
자는 사람 패스,
짐을 들고 있는사람
두리번 거리는 사람
자다가 깨어난 사람
백팩을 등에 맨사람, 카드 지갑 꺼내는 사람
무조건 좌석앞에
자리 잡기
경쟁자가 있는 곳을 피하라
360’를 주시하라
내리는 사람
길을 터주어라
반반씩 걸쳐서
자리 확보!
빠른 스캐닝
2,3번 플랫폼
2. 탁월한
위치 선점 능력
13. ‘지하철 자리앉기’ 검색하면?
!
다양한 자리앉기 꿀팁들!!
!
!
종로 3가에선
할머니/할아버지!관찰
!
행선지를 알수 없는 패션 패스
책보는 사람 패스,
자는 사람 패스,
짐을 들고 있는사람
두리번 거리는 사람
자다가 깨어난 사람
백팩을 등에 맨사람, 카드 지갑 꺼내는 사람
무조건 좌석앞에
자리 잡기
경쟁자가 있는 곳을 피하라
360’를 주시하
내리는 사람
길을 터주어라
반반씩 걸쳐서
자리 확보!
빠른 스캐닝
2,3번 플랫
환승역을 노려라.
3. 냉철한 예측 능력
14. 이제 나도 앉아 갈수 있을까?
동천역 정자역 판교역
청계산입구
양재
시민의숲
양재 강남
잠실역
역삼
선릉
삼성
종합
운동장
잠실내내
나의 출근 경로
15. 이제 나도 앉아 갈수 있을까?
동천역 정자역 판교역
청계산입구
양재
시민의숲
양재 강남
잠실역
역삼
선릉
삼성
종합
운동장
잠실내내
나의 출근 경로
전략대로 해 보았습니다.!!
!
현실을 달랐습니다.
16. 그럼 나도 앉아 갈수 있을까?
동천역 정자역 판교역
청계산입구
양재
시민의숲
양재 강남
잠실역
역삼
선릉
삼성
종합
운동장
잠실내내
정자역 판교역
•개발자스러운 사람?
• 개발자스러운 사람?
• 개발자스러운 사람?
• 개발자스러운 사람?
요기에서 내릴 사람을 찾자
17. ‘지하철 자리앉기’ 검색하면?
!
다양한 자리앉기 꿀팁들!!
!
!
종로 3가에선
할머니/할아버지!관찰력
환승역을 노려라.
!
행선지를 알수 없는 패션 패스
책보는 사람 패스,
자는 사람 패스,
짐을 들고 있는사람
두리번 거리는 사람
자다가 깨어난 사람
백팩을 등에 맨사람, 카드 지갑 꺼내는 사람
무조건 좌석앞에
자리 잡기
경쟁자가 있는 곳을 피하라
360’를 주시하라
내리는 사람
길을 터주어라
반반씩 걸쳐서
자리 확보!
빠른 스캐닝
2,3번 플랫폼
그래서 나의 장기인
데이터로 풀어봤습니다
22. 1. 분석 할 ‘데이터를 수집’ 하고
!
2. 데이터를 읽고, 해석하기 쉽도록 ‘데이터를 정제’하고
!
3. 데이터를 요리조리 ‘탐색’해 보고
!
4. 정자/판교역에 내릴 사람을 ‘예측 모델’을 만들어하여
!
5. 자리에 앉아 가자.
자리앉기 EDA Pipeline
참조 : 캐글 predict-employee-kernelover Kernel Notebook
(Exploratory Data Analysis)
39. Table 데이터 변환
2-1 / 2017-07-13 07:30 / 동천 -> 강남 / 여3정핸노 남4정핸노 여3핸세이:판
플랫폼No 측정시간 이동경로 좌석 위치 + 특징
1. ’/‘으로 컬럼 분리
2-1 2017-07-13 07:30 동천 -> 강남 여3정핸노 남4정핸노 여3핸세이:판
여3정핸노 남4정핸노 여3핸세이:판
2. ’공백’ 으로 승객 분리
3. 승객별
Row로 변환
2-1 2017-07-13 07:30 동천 -> 강남 0번 여3정핸노
2-1 2017-07-13 07:30 동천 -> 강남 1번 남4정핸노
2-1 2017-07-13 07:30 동천 -> 강남 2번 여3핸세이:판
여자 30대 핸드폰 세미정장 이어폰 판교역
4. 읽기 쉽게 Renaming
2-1 2017-07-13 07:30 동천 -> 강남 2번
40. Table 데이터 변환 완료
여자 30대 핸드폰 세미정장 이어폰 판교역2-1 2017-07-13 07:30 동천 -> 강남 2번
여자 30대 핸드폰 세미정장 이어폰 판교역2017-07-13 07:30 2번
day hour seat_loc 성별 나이 행동 복장 이어폰여부 내린역
6. 읽기 좋은 컬럼 Naming
여자 30대 핸드폰 세미정장 이어폰 판교역X2017-07-13 07:30X 2번
5. 불필요한 컬럼 삭제하고
7. 컬럼 값을 의미 기반으로 그룹핑
10대
20대
30대
40대
50대
60대
0번
1번
2번
3번
4번
5번
6번
좌측
사이드
중앙
우측
사이드
청년
청년
청년
58. Correlation Matrix & Heatmap
Positive Correlated Features :
판교/정자역 하차 vs 좌측:사이드 = 0.211
판교/정자역 하차 vs 생각중 = 0.126
남자 vs 중앙좌석 = 0.102
책읽기 vs 장년층 = 0.168
잠자는중 vs 이어폰:X = 0.176
핸드폰 vs 이어폰:O = 0.225
!
Negative Correlated Features :
판교/정자역 하차 vs 중앙 = -0.188
판교/정자역 하차 vs 잠자는중 = -0.111
남자 vs 우측:사이드 = -0.145
핸드폰보기 vs 장년 = -0.202
66. Stop & Think 1 : 나이 vs 행동
지하철에서 장년층은 남자가 많으며, 책읽기와 생각을 즐겨한다.
Stop & Think 2 : 좌석위치 vs 내리는역
좌석의 중간에 앉은 사람이 강남까지 갈 경우가 더 많은 듯하다.
Stop & Think 3 : 행동 vs 이어폰 여부
당연히 잠을 자거나 대화중일때는 이어폰 사용이 감소한다.
Stop & Think 4 : 좌석위치 vs 내리는 역
판교역 하차 승객은 좌측:사이드의 30/40대 중년층과 관련이 있다.
Stop & Think 5 : 나이 vs 이어폰
특히 청소년이 이어폰을 끼고 핸드폰을 본다.
Stop & Think 6 : Pass
우측:사이드에 앉은 사람은 여성 가능성이 높다.
( 참고로 임산부석이 우측:사이드에 있다. )
좀더 상세하게 알아보자.
86. 일단 Model을 만들어 보자
• Scikit-Learn( )에서 쉽게 쓸수 있는
Classification Model을 적용해 보자
• 8개 Model 적용
Tree 계열
Regression
SVM
KNN
Bayesian
Neural Network
DecisionTreeClassifier
RandomForestClassifier
Gradient Boosting Decision Tree
LogisticRegression
SVC
KNeighborsClassifier
MultinomialNB
MLPClassifier
91. Random Forest
Test Set Accuracy = 0.802
0.78
Baseline
Decision Tree이 비해 Train set의 정확도는 낮아 졌으나
Test set의 정확도는 상승함
92. Random Forest
Test Set Accuracy = 0.802
0.78
Baseline
Decision Tree이 비해 Train set
Test set의 정확도는 상승함
그럼 Tree 계열의
GBDT(gradient boosting decision tree)
도 해보자
108. Baseline
Confusion Matrix
예측된 Class
강남역하차
= 0
판교/정자역
하차=1
정답 Class
강남역하차
= 0
A B
판교/정자역
하차=1
C D
Precision = (A)/(A+C)
내가 예측한 것중 얼마나 얼마나 잘 맞추었는가?
Recall
= (A)/(A+B)
정답중에 얼마나
잘 예측했는가?