[2016 데이터 그랜드 컨퍼런스] 4 2(인공지능). 위세아이텍 머신러닝플랫폼기반의철도사고위험예측

머신러닝 플랫폼 기반의
철도사고위험예측
2016 데이터 그랜드 컨퍼런스
2016.11.04

1. 철도 안전 소개
2. 철도 사고위험예측
3. WISE ADVISOR
4. WISE 제품과 머신러닝

최근 잇단 열차 탈선 사고로 인해 철도안전의 중요성 대두
105
93
81 75
66
135
115 113 112
46
235
207
182
178
104
0
50
100
150
200
250
2011년 2012년 2013년 2014년 2015년
단위: 건, 명
한국철도공사, 사상사고 발생현황
사망 사상자 사고건수
철도안전의 중요성
철도 안전 소개

철도사고위험분석
철도
사고위험예측

선로이상 위험예측 프로세스
1. 데이터
엔지니어링
2. 예측모델링
예측
정보
생성
데이터
가공
예측모델
생성
비교검증
모델선
정
3. 운용적용
철도
사고위험예측

 분석범위: 경부고속선
일반선경부고속선경부고속선 일반선 경부고속선
주의 /위험 주의 /위험
 분석대상: KTX와 KTX-산천
 분석데이터 수집기간: 2011년~2015년
*월 1회 / 분기 1회 정기점검으로 결함 정보 부족
선로구간별
정기점검정보
선로구간별
기상정보
선로구간별
유지보수정보
데이터 수집 및 통합
철도
사고위험예측

평 균 5 0 5 . 7 9 6 7
• 다양한 종속변수를 사용하여 모델을 생성하고
테스트한 결과를 바탕으로 설정
• 구간별로 발생하는 결함들의 평균결함면적으로
설정
• 평균결함면적은 결함횟수와 결함면적을 동시에
고려할 수 있음
• 0.1%의 이상치 제거한 데이터의 평균을 기준으
로 주의 (0) / 위험(1) 이항 종속변수 생성
평균 548
데이터가공
모델
생성
검증
종속변수 데이터 가공
철도
사고위험예측

평 균 5 0 5 . 7 9 6 7
• 이전 점검일 사이의 유지보수 관련 정보 가공
이전 점검일 해당 점검일
• 연속적 기상상태의 중요성 (기온, 풍속, 강수량)
3일/ 7일/ 30일 – 평균/최고/최저 기상상태
독립변수 데이터 가공
철도
사고위험예측

로지스틱 회귀분석
• 결함면적을• 결함면적을
• 독립변수(x) – 연속형 / 범주형 포함 : 121 개
기상정보 선로정보 시계열정보
• 다중공선성 분석
1 6 2 7 3 10 4 18 5 22 6 25 7 27 8 31 9 35 10
36 11 39 12 40 13 43 14 45 15 47 16 49 17 50 18
51 19 52 20 53 21 54 22 55 23 56 24 58 25 59 26
60 27 61 28 62 29 63 30 65 31 66 32 67 33 68 34
70 35 71 36 72 37 73 38 74 39 75 40 76 41 77 42
78 43 80 44 81 45 82 46 83 47 85 48 86 49 87 50
88 51 90 52 91 53 92 54 93 55 94 56 95 57 96 58
97 59 98 60 101 61 103 62 104 63 105 64 106 65
107 66 108 67 109 68 120 69 121
121 중 61개의 독립변수 채택
• CONFUSION-MATRIX / ROC 분석
(Receiver-Operating Characteristic curve)
실제위험수준 정확도와 오분류의 관계 설명
예측 정확도 : 70%
Reference
Prediction 위험 주의
위험 1067 327
주의 263 359
철도
사고위험예측

• 결함면적을 • 결함면적을
기상정보
선로
정보 시계열정보
Train data: 800개
• 독립변수(x) – 연속형 / 범주형 포함 : 41 개
Reference
Prediction 위험 주의
위험 235 77
주의 166 322
예측정확도 : 69.75%
Reference
Prediction
위험
위험 주의
주의
서포트 벡터 머신
철도
사고위험예측

• 결함면적을
• 결함면적을
• 결함면적을
예측정확도 : 80.25%
모
델
A
모
델
B
예측정확도 : 71.25%
실제
예측 주의 위험
주의 0 -10
위험 -2 0
실제
주의 343 101
위험 57 299
실제
주의 238 68
위험 162 332
예측정확도 비용-이득
모델 A 80.25% -1,124
모델 B 71.25% -1,004
• 실제로 주의인데 주의로 예측한 경우와 위험인데 위험
으로 예측한 경우, 비용과 이득을 0으로 봄
• 실제로 주의인데 위험으로 예측한 경우 과도한 비용
이 소요될 수 있어 비용을 -2로 측정함
• 실제로 위험인데 주의로 예측한 경우 추가비용이 발생
될 수 있어 비용을 -10으로 보다 높게 측정함
• 모델 A가 예측 정확도 80%로 모델 B보다 높지만,
오분류 결과는 비용발생으로 이어지기 때문에
비용-이득 계산결과가 낮은 모델 B를 채택하였음
비교검증 및 모델선정
철도
사고위험예측

TM
통계 분석, 빅데이터, 웹 포털구축

AS-IS 분석
TO-BE 모델
링
AS-IS/TO-BE
테이블 매핑
이관 개발
이관 검증 이관 테스트 이관 리허설 실제 이관

머신러닝
http://data.gg.go.kr

[2016 데이터 그랜드 컨퍼런스] 4 2(인공지능). 위세아이텍 머신러닝플랫폼기반의철도사고위험예측

[2016 데이터 그랜드 컨퍼런스] 4 2(인공지능). 위세아이텍 머신러닝플랫폼기반의철도사고위험예측

Recommended

Recommended

More Related Content

Viewers also liked

Viewers also liked (10)

More from K data

More from K data (11)

[2016 데이터 그랜드 컨퍼런스] 4 2(인공지능). 위세아이텍 머신러닝플랫폼기반의철도사고위험예측