SlideShare a Scribd company logo
1 of 34
Download to read offline
위험요소에 대한 선제적 대응을 위해 데이터 분석가의 위험환경 탐색 및 맞춤형 기술
내재화로 재난탐지와 대응활동을 체계적인 시나리오에 기반한 국가적 거버넌스로 확립
 사건 발생 사실을 기록하여 일간/사건별로 보도한 문서 집합 (중앙지, 위키)
 사건 발생 사실을 지역별로 상세 보도한 문서 집합 (지방지)
 국내뉴스 기사 DB 구축 : 네이버(128개 언론사), 다음(201개), 기타 지방지(76개)
 사건정보DB 데이터베이스 구성 (사건, 영향 기준 개념화 작업)
 폭염/한파 사건 관련 속성정보의 1, 2, 3차 시계열 순번 부여
 사건 개념 단위 연관 관계 후보 추출 및 통계적 연관도 부여
 폭염/한파 관련 공시적/통시적 인과관계 추출 후 확률적 경로 분석
 통시적 인과관계 기준 경로 역추적 추정 분석
- 재난 관련 뉴스로부터 사건정보의 요약 정보를 반정형 데이터로 데이터베이스에 저장 가능한가?
- 최소 일간 기준으로 사건 동향을 파악하고 이에 기반한 연구 및 분석이 가능한가?
- 시스템 상 구문 패턴의 정확한 추출 품질을 확보를 위해 개발 프레임워크 통일
- 추출된 사건정보를 저장하기 위한 데이터베이스 테이블 설계, 사건 개념정보 저장 설계
- 폭염/한파 사건 관련 속성정보 개념 기반 시계열 순번 부여, 전체 사건정보 맵 구성
- 개념 단위 연관 관계 후보 추출 및 연관도 분석 결과 도출
- 공시적/통시적 인과관계 추출, 사건 개념 단위 확률적 모델링, 경로 추적/역추적 분석
- 데이터 테이블의 정보를 큐브 형태로 관리하여 실시간 분석, 시각화 분석
국제적 재난발생 증가에 따라 통합 위험관리체계를 통해, 국내외 신문 기사로부터 과학적,
통계적으로 재난의 위험요인을 프로파일링하고 비정형 빅데이터를 실시간 분석
 위키피디아 재난정보 DB 구축, 영문 뉴스 수집체계 강화
 재난관련 학술정보 DB 구축
 구문 패턴 분석으로 재난사고의 속성정보를 추출
 재난 사건정보 데이터베이스 구축
 사건 속성정보 검색 기능 개발
 뉴스 본문 텍스트의 통계적 요약 기술 개발
 기존 분석 기능의 사용성 개선
 데이터베이스 기반 사용자 주도형 시각화 분석 기능 개발
- 재난 사건의 백과사전적 요약 정보를 반정형 데이터로 활용하여 데이터베이스로 저장
- 최신 경향의 재난안전 분야의 연구 성과와 동향을 파악하고 이에 착안한 연구 개발 및 분석 능력의 향상
- 시스템 상 구문 패턴의 정확한 추출 품질을 확보위해 개발 프레임워크 통일
- 추출된 정보를 저장하기 위한 데이터베이스 테이블 설계
- 시스템 상 구문 패턴의 정확한 추출 품질을 확보위해 개발 프레임워크 통일
- 추출된 정보를 저장하기 위한 데이터베이스 테이블 설계
- 각종 차트를 위젯 형태의 시각화 프레임워크로 지원
- 데이터 테이블의 정보를 큐브 형태로 관리하여 실시간 분석
극한 기상현상으로 인한 피해를 최소화하기 위해서 데이터 기반으로 주요 결정요인을
귀납적으로 파악하여 대응대책의 근거 마련
1단계 2단계 3단계
재난대응 빅데이터 수집 및
지능형 의사결정지원체계 개발
재난대응 빅데이터 분석 기술 및
의사결정 표준화 방안 개발
재난 빅데이터 분석을 통한
지능형 의사결정지원 시스템 개발
절차 재난대응 체계 및 사례 분석 재난분야 빅데이터 기술 요구분석
재난분야 빅데이터 기술 활용 및
적용방안 도출
시스템 의사결정지원시스템 개발
데이터
재난유형에 따른
빅데이터 데이터베이스 구축
비정형데이터기반재난대응사례및대응패턴분석
연구 인공지능 기법 적용 빅데이터 분석 기술 개발
분석
GIS기반재난피해결정요인분석
해외 재난대응 사례 및 모델 분석 다중 재난 대응 상황에 대한 의사결정 표준화 기술 개발
매뉴얼 및 가이드라인 개발
목표
재난대응 방안 인벤토리 구축
현존 재난 대응 시스템 사례 현황 조사
현존 재난 대응 시스템 사례 현황 조사
현존 재난 대응 시스템 사례 현황 조사
재난 대응 절차와 안전관리 체계의 통합지휘체계를 위한 표준화 방안
개별재난유형에 대해 개발된 표준화 방법 적용
개별재난유형별 지휘체계에 인공지능 적용 Flow
인공지능 모델
데이터
인공지능
학습결과
인공지능
평가결과
인공지능
검증결과
인공지능
탐지결과
외부 위협정보
판단결과
표준화된 AI 데이터 저장소
클러스터 관리 모듈
클러스터 관리
저장 모듈
인덱스 저장 Pooling
인덱스 관리
파티션 관리
IndexWriter 모듈
검색 모듈
검색서버
검색 Pooling
Cache 모듈
IndexReader 모듈
저장소 관리 모듈
인덱스 파일 저장소
통합지휘체계를 위한
검색
인공지능 학습/분석
시스템 검색
개별재난유형별
인공지능 시스템 적용
저장소 관리 데이터 관리
표준화
학습모델
표준화
학습결과
분석결과 위협정보
모델 설정, 검증 과정 반복을 통한 재난 시나리오별 대응체계 개발
모델별 대응 방법론을 기반으로 역할별 최적 대응 방안 개발
“폭염(예시)”
Feature 정의
예비전력부족
에너지가격상승
농업용수부족
소비자물가 상승
수질악화
노동생산성 약화
온열질환자/사망
자
AI 전문가
재난전문가
학습모델
제공
학습모델
수정
학습모델
확정
실
데이터
모델검증
정〮오답
판단
기준확인
강화학습
모델검증
정〮오답
판단
기준확인재 검증
검증 요청
재학습
요청
재검증
요청
검증 요청
재학습
요청
모델
적용
가능
재학습 또는 추가 학습
적용 모델
강화학습
적용모델
재난 유형별 의사결정 시스템 운영 및 검증 프로세스
Data 수집 Data 전처리 모델 학습 모델 탐지 검증
정상-비정상
labeling 없는
원천 Data 사용
학습 모델에
적용하기 위한
유의미한 변수 선정
및 전처리
비지도 학습 방식의 다양한
알고리즘 Training 수행
사전에 분리된
Test set을 활용한 모델
성능 평가
비정상 데이터로
분류된 결과에 대한
검증 수행
Feature Selection
보안 이벤트에 대한
domain knowledge를
바탕으로 유의미한 변수
선정
차원 축소
Log 등 비정형 Text
Data에 Word2Vec
알고리즘 적용 검토
비정상
데이터
정상
데이터
추가 학습
Input
Data
MSE
KNN
DB SCAN
LOF
Gaussian Mixture
OC SVM
Kernel density
OC neural network
Density
Decoder
Distance
One-Class
Robust Covariance
Isolation Forest
Auto-
encoder
빅데이터 분석을 위한 분석 플랫폼으로써 정형+비정형 데이터를 통합
데이터 마이닝 및 통계분석 기반 선제적인 재난 예측 모형을 도출 및 검증 가능한 시스템
▶ 재난관련 정형 / 비정형 통합 분석 개요
정형 데이터 분석
Analyze + Detect
예측 분석 모델 : (예시)
Y = b0 + b1X1 + b2X2
Issue Detection 재난 이슈가 언제
발생되고, 어떤
요인이 어떤 대상에
영향을 주었는지
분석 Issues발견
Analysis 어떤 요인에 영향을
주었고 얼마나 더
영향을 줄 것인지,
피해가 클지 분석
Forecasting
시나리오 예측
확산 모델 예측
비정형 데이터 분석
(Text Analytics)
추이분석
사건정보 분석
영향도 분석
Text Analytics로 생성된 Input 변수
(예시) X3, X4 , X5
추이분석의 구간
값을 Index화해서
정량분석 모델의
변수로 활용
 X4
사건정보 간의
연관관계 값을
인덱스화
 X5
영향도 결과값을
인덱스화
 X3
비정형 + 정형 데이터
통합 분석
통합 분석 모델 (예시)
Y = b0 + b1X1 + b2X2 + b3X3
Y = b0 + b1X1 + b2X2 + b4X4 + b5X5
확산 모형 개발
재난 예측 모형 개발
데이터 수집, 저장 고급 분석
• 재난 유형별 추적
• 시기별 주요 주제
• 경로 역추적 분석
검색 + 분류 전처리 일반 분석
• 국내외 뉴스를 수집하여
사건정보의 원천이 되는
Data Pool 확보
• 뉴스 검색
• 사용자 인터페이스
• 시스템 자동화
• 분류체계
• 전처리 수행
• 재난 관련 개념어 인식
• 통제리스트 관리
• 토픽 분석
• 연관어 분석
• 네트워크 분석
• 인과관계 분석
후보 매체 선정
타당성 검토
데이터 원천 수집
모듈화
DB 구성
…
DB 구성
검색 엔진
택소노미 관리
뉴스 분류
사용자 / 시스템
검색 인터페이스
자동 분류
형태소 분석
재난관련
개체명 인식
재난관련
개념어 인식
통제 리스트 관리
전처리 및 분석
토픽 분석
연관어 /
네트워크 분석
패러프레이즈 분석
재난 유형별 추적
재난 유형별 추적
시기별 주요
주제 추출
경로 역추적 분석
재난유형
추적관리 시스템
R-Scanner 시스템의 분석 과정 개요
데이터 원천 기존 버전 2018년 추가 사항
국문 뉴스 네이버, 다음, 지방지 뉴스 기존과 동일
영문 뉴스 52개 해외 통신사 구글 뉴스
(30개 재난분류 키워드셋)
국문 학술정보 해당 없음. 15개 재난관련 키워드 중심
영문 학술정보 해당 없음. 22개 재난관련 키워드 중심
국문 위키피디아 해당 없음. 재난관련 카테고리 페이지
영문 위키피디아 해당 없음. 재난관련 카테고리 페이지
1. 국내 뉴스, 국외 뉴스
- 재난관련 정보를 인포박스에서 추출
- 반정형 데이터 형태의 데이터베이스(Database, DB)로 저장
2. 학술 정보
- 재난 유형별, 시대별, 지역별 재난관련 국문, 영문 연구동향을 DB화
3. 영문 뉴스
- 구글 RSS의 검색 조건을 활용하여 영문 재난 키워드 기준으로 관련 뉴스를 아웃링크 방식으로
URL을 저장하는 형태의 수집을 진행
재난관련 사건정보를 다루는 페이지를 추출, 인포박스의 내용을 추출 후 데이터 저장
- 위키피디아 덤프 파일의 XML 구조를 파싱한 후 정보 저장
- 재난관련 카테고리로 분류된 데이터를 추출
대한민국의 자연재해, 대한민국의 보건재해, 대한민국의 산불, 대한민국의 산사태, 대한민국의 지진, 대한민국의 태풍, 대한민국의 홍수, 대한민국의 풍수해, 대한민국의 폭발, 대한민국의 화재, 대한민국의 인재 사고, 대한
민국의 붕괴 사고, 대한민국의 해양 사고, 대한민국의 교통 사고, 대한민국의 철도 사고, 대한민국의 인재 사고, 대한민국의 도로 사고, 대한민국에서 일어난 항공 사고, 대한민국의 수질 오염, 대한민국의 기름 유출, 기상재해,
가뭄, 모래폭풍, 번개, 설해, 안개, 열대 저기압, 토네이도, 폭염, 한파, 홍수, 기상 악화로 인한 항공 사고, 기상특보, 낙뢰, 냉해, 라니냐, 박무, 상층대기 번개, 안개, 엘니뇨, 집중호우, 태풍, 폭설, 하이퍼케인, 하향격풍, 한파, 해
수면 상승, 황사, 화이트아웃, 미세먼지, 스모그, 대기 오염, 지구 온난화
구글 뉴스 RSS 서비스를 활용한 영문 뉴스 탐색 체계 강화
- 30분 간격으로 228,864(149×32×48)회 RSS 크롤링을 실시
- 1,035개의 언론사가 작성한 2,312개의 기사를 수집 (2018년 10월 1일 기준)
구글 검색 국가 코드 패러미터 (149개) 재난관련 RSS 검색어 리스트 (32개)
ko, de, uk, fr, af, ach, ak, am, ar, az, be, bem, bg, bh, bn, br, bs, ca, chr, ckb, co, crs, cs, cy,
da, ee, el, en, eo, es, es-419, et, eu, fa, fi, fo, fy, ga, gaa, gd, gl, gn, gu, ha, haw, hi, hr, ht, hu,
hy, ia, id, ig, is, it, iw, ja, jw, ka, kg, kk, km, kn, kri, ku, ky, la, lg, ln, lo, loz, lt, lua, lv, mfe, mg,
mi, mk, ml, mn, mo, mr, ms, mt, ne, nl, nn, no, nso, ny, nyn, oc, om, or, pa, pcm, pl, ps, pt-
BR, pt-PT, qu, rm, rn, ro, ru, rw, sd, sh, si, sk, sl, sn, so, sq, sr, sr-ME, st, su, sv, sw, ta, te, tg,
th, ti, tk, tl, tn, to, tr, tt, tum, tw, ug, ur, uz, vi, wo, xh, xx-bork, xx-elmer, xx-hacker, xx-
klingon, xx-pirate, yi, yo, zh-CN, zh-TW, zu
earthquake, typhoon, heavy rain, flood, strong wind, high
winds, high waves, tsunami, heavy snow, thunderstroke,
drought, yellow dust, green tide, red tide, heat wave, cold
wave, volcano, forest fire, fire, collapse, explosion, traffic
accident, car crash, railroad accident, air crash, ship accident,
disease, chemical accident, fine dust, pollution, radiation
accident, infection
분류기준
세분화
재난관련 뉴스
수집 효율성 강화
기존방법 신규방법
일반
(18%)
일반
(89%)
재난
(11%)
재난
(82%)
분류 상세 유형 예시
재
난
핵심
(67%)
• 실제 현재 재난 관련 사건 뉴스
• 현재 발생 태풍
• 현재 발생 지진
일반
(33%)
• 과거 재난관련 설명 뉴스
• 재난 대책 관련 주제 뉴스
• 과거 쓰나미
• 재난시 행동요령
일
반
연관
(74%)
• 재난 정책 등 연관 주제 뉴스 • 대응 체계
무관
(26%)
• 키워드만 우연히 일치 • 영화 내용 등
52개 국제 통신사 크롤러
일수집 평균 4,300여건
구글 RSS, 구글 검색
일수집 평균 2,300여건
이벤트 속성정보 분석
- 전체 30개 재난유형으로 분류 후 시간/공간/행위자/술어/부정어 정보 등 추출
- 모듈에 각 의미 단위로 태거를 추가 형태로 이벤트 속성정보 추출 기능 확장
COLUMN_NAME DATA_TYPE DATA_LENGTH DESCRIPTION
PK job_id character varying(n) 40 작업별 아이디
PK doc_uid character varying(n) 255 문서 고유 아이디(URL)
PK sent_uid numeric - 문장 고유 아이디
PK business_code character varying(n) 4 NDMI
PK category_code character varying(n) 16 정의 테이블 참조
PK doc_date timestamp without time zone - 문서 작성 날짜
PK disaster_code numeric - 재난 코드
timex_info text - 시간 정보
spatial_info text - 공간 정보
agent1_info text - 행위자1 정보 (피해원인)
agent2_info text - 행위자2 정보 (피해대상)
predicate_info text - 술어 정보
neg_info text - 부정어 정보
disaster_death_info text - 사망자 관련 수치정보
disaster_injury_info 부상자 관련 수치정보
disaster_missing_info 실종자 관련 수치정보
disaster_property_info 재산피해 규모 관련 수치정보
update_date timestamp without time zone - 데이터 업데이트 일시
TABLENAME DW.DOC_DETAIL_EVENT_INFO
DESCRIPTION 문서내 출현 사건 상세 정보 테이블
/usr/lib/python2.7/dist-
packages/semanticTagger.so
Import semanticTagger
smt = semanticTagger.semanticTagger()
- smt.timex_tagger
- smt.negation_tagger
- smt.spatial_tagger
- smt.subject_tagger
- smt.object_tagger
- smt.predicate_tagger
Rule Set tagging disambiguation extraction
오류 케이스 분석 후 룰셋 추가
Data 1 Row Size : 517 byte
택소노미 코드 조합 CODE = CLASS_CODE + CATEGORY_CODE + ITEM_CODE + ALIAS_CODE + PATTERN_CODE + VERSION + BRANCH
택소노미 코드 예시 D01NIC001000AC001PC001V02B00
문서분류 코드 조합 CODE = CLASS_CODE + CATEGORY_CODE + ITEM_CODE + VERSION + BRANCH
문서분류 코드 예시 D01NIC001000V02B00
Varchar (60) Varchar(60) Varchar(30) Varchar(30) Varchar(3) Varchar(3) Varchar(30) Varchar(3) Varchar(30) Varchar(1) Varchar(45) Varchar(9) Varchar(45) Varchar(5) Varchar(120) Varchar(5) DATETIME (8) Varchar(30)
AUTHORITY AUTHORITY_CODE MANAGER MANAGER_CODE VERSION BRANCH CLASS CLASS_CODE CATEGORY CATEGORY_CODE ITEM ITEM_CODE ALIAS ALIAS_CODE PATTERN PATTERN_CODE DATETIME EDITOR
관리주체 관리주체_코드 관리자 관리자_코드 버전 버전상세 대분류 대분류_코드 재난유형 재난유형_코드 재난항목 재난항목_코드 항목유의어 항목유의어_코드 검색패턴 검색패턴_코드 작성일 작성자
태풍 AC001 (태풍)^(상륙, 풍속, 북상, 영향, 호우, 접근) PC001 20160825 DOW1112
타이푼 AC002 (타이푼)^(상륙, 풍속, 북상, 영향, 호우, 접근) PC001 20160825 DOW1112
… … … … … …
홍수 IC0020000 … AC001 (강우, 호우, 폭우, mm, 피해, 수위, 방류, 기후)^(홍수, 범람, 수몰, 물난리, 침수) PC001 20160825 DOW1112
호우 IC0030000 … AC001 (호우, 폭우, 장마, 국지성 호우, 집중호우) PC001 20160825 DOW1112
강풍 IC0040000 … AC001 (강풍, 돌풍) PC001 20160825 DOW1112
풍랑 IC0050000 … AC001 (풍랑) PC001 20160825 DOW1112
해일 IC0060000 … AC001 (지진해일, 쓰나미, 폭풍해일) PC001 20160825 DOW1112
대설 IC0070000 … AC001 (폭설) PC001 20160825 DOW1112
낙뢰 IC0080000 … AC001 (낙뢰, 벼락) PC001 20160825 DOW1112
가뭄 IC0090000 … AC001 (가뭄)^(#야구, #분양, #채용, #수주) PC001 20160825 DOW1112
지진 IC0100000 … AC001 (지진)^(#담배, #담뱃불, #동공) PC001 20160825 DOW1112
황사 IC0110000 … AC001 (황사, 미세먼지) PC001 20160825 DOW1112
조류 IC0120000 … AC001 (적조, 녹조) PC001 20160825 DOW1112
화산 IC0130000 … AC001 (화산,백두산, 후지산, 마그마) PC001 20160825 DOW1112
산사태 IC0140000 … AC001 (산사태) PC001 20160825 DOW1112
폭염 IC0150000 … AC001 (폭염,열대야, 이상고온, 온열질환, 불볕더위, 무더위, 열사병) PC001 20160825 DOW1112
한파 IC0160000 … AC001 (한파) PC001 20160825 DOW1112
우박 IC0170000 … AC001 (우박) PC001 20160825 DOW1112
… … … … … … … …
산불 IC0010000 … AC001 PC001 20160825 DOW1112
화재 IC0020000 … AC001 (방화)^(#삼성화재, #동부화재, #메리츠화재) PC001 20160825 DOW1112
붕괴 IC0030000 … AC001 (붕괴)^(#주식, #증시, #상하이지수, #상하이 지수, #코스피, #코스닥, #선발, #불펜, #실점, #거품, #버블, #멘탈, #달러선, #과반붕괴, #과반 붕괴, #소련 붕괴) PC001 20160825 DOW1112
폭발 IC0040000 … AC001 (폭발) PC001 20160825 DOW1112
(육상)교통사고IC0050000 … AC001 (교통, 지하철, 차량, 다중, 자동차)^(사고, 추돌) PC001 20160825 DOW1112
항공사고 IC0060000 … AC001 (항공, 항공기, 여객기, 비행)^(추락, 사고, 충돌, 이탈) PC001 20160825 DOW1112
해상사고 IC0070000 … AC001 (선박, 여객선, 어선)^(침몰, 좌초, 전복) PC001 20160825 DOW1112
화생방사고 IC0080000 … AC001 (가스, 화학물질)^(누출, 유출) PC001 20160825 DOW1112
원자력사고 IC0090000 … AC001 (방사능, 방사성, 원전)^(누출, 유출) PC001 20160825 DOW1112
환경오염사고(대기)IC0100000 … AC001 (대기)^(오염) PC001 20160825 DOW1112
환경오염사고(수질)IC0110000 … AC001 (수질^오염, 기름^유출) PC001 20160825 DOW1112
환경오염사고(토질)IC0120000 … AC001 (토질)^(오염) PC001 20160825 DOW1112
감염병 IC0130000 … AC001 (전염, 치사율, 감염, 잠복기, 방역, 격리) PC001 20160825 DOW1112
가축전염병 IC0140000 … AC001 (구제역, 조류독감, AI, 조류인플루엔자) PC001 20160825 DOW1112
국가기반시설IC0150000 … AC001 (정전, 블랙아웃, black out, 수급 부족) PC001 20160825 DOW1112
에너지 IC0160000 … AC001 (정전, 누전, 전력 부족, 순환 정전) PC001 20160825 DOW1112
통신 IC0170000 … AC001 (해킹, 통신 마비, 두절, 사이버 테러, 디도스, 통신 대란, 통신 장애, 전산마비) PC001 20160825 DOW1112
교통 IC0180000 … AC001 (기차, 열차, KTX, 무궁화, 새마을^탈선, 다중 추돌, 항만 정지, 화물연대^파업) PC001 20160825 DOW1112
금융 IC0190000 … AC001 (금융, 전산)^(마비,장애,사고) PC001 20160825 DOW1112
의료 IC0200000 … AC001 (혈액)^(부족) PC001 20160825 DOW1112
수도 IC0210000 … AC001 (단수, 제한 급수) PC001 20160825 DOW1112
… … … … … … … …
치안 IC0010000 … AC001 (폭력, 절도, 강도, 강간, 성추행, 성폭력, 살인) PC001 20160825 DOW1112
안전사고 IC0020000 … AC001 (추락, 익사, 맨홀, 승강기, 엘리베이터, 에스컬레이터, 환풍구, 감전) PC001 20160825 DOW1112
… … … … … … … …
IC0010000 … AC001 부상자 PC001 20160825 DOW1112
IC0020000 … AC001 환자 PC001 20160825 DOW1112
… AC001 사망 PC001 20160825 DOW1112
… … 사망자 PC002 20160825 DOW1112
… AC001 실종 PC001 20160825 DOW1112
… … 실종자 PC002 20160825 DOW1112
IC0050000 … AC001 목숨 PC001 20160825 DOW1112
… AC001 숨지다 PC001 20160825 DOW1112
… … 숨졌다 PC002 20160825 DOW1112
… … 숨져 PC003 20160825 DOW1112
… … 죽은 PC004 20160825 DOW1112
… … 죽어가는 PC005 20160825 DOW1112
… … … … … … … …
IC0010000 … AC001 (만원, 백만원, 억원, 십억원)^(피해,손실) PC001 20160825 DOW1112
IC0020000 … AC001 (재산피해, 재산 피해) PC001 20160825 DOW1112
IC0030000 … AC001 (피해, 손실) PC001 20160825 DOW1112
… … … … … … … …
IC0010000 … AC001 붕괴 PC001 20160825 DOW1112
IC0020000 … AC001 파괴 PC001 20160825 DOW1112
IC0030000 … AC001 유실 PC001 20160825 DOW1112
… … … … … … … …
IC0010000 … AC001 폐사 PC001 20160825 DOW1112
IC0020000 … AC001 살처분 PC001 20160825 DOW1112
IC0030000 … AC001 고사 PC001 20160825 DOW1112
… … … … … … … …
국립재난안전연구원 NDMI 김도우 DOW1112 V02 B00
재난
D01
(Disaster)
자연재난
N
(Natural disaster)
피해
D02
(Damage)
인명피해
C
(Casuaties)
시설피해
F
(Facilities)
가축피해
A
(Animals)
태풍 IC0010000
사회재난
S
(Social disaster)
기타안전
O
(Others)
IC0030000
IC0040000
IC0060000
재산피해
P
(Properties)
재난 유형별 관리 항목 체계화
- 폭염, 한파, 가뭄, 폭설 등 확장 가능
문서의 이벤트 속성정보 검색을 위한 기초 데이터 가공
1. 30개 재난분류(R-Scanner 키워드 기반)를 적용하여 최근 3년간 86,001건 문서 분류
2. 각 사건 정보를 문서내에서 문장단위로 semanticTagger를 이용해 추출
3. 재난관련 사건정보를 scale 태깅 후 유형 분류
- 재난유형, 피해유형을 분류 후 사망자, 부상자, 실종자, 재산피해, 발생기간, 발생지역 정보 추출
4. 추출 사건정보의 데이터베이스 적재
2018 2017 2016
추출 사건정보 수량 278152 142880 103213
추출 사건정보 총계
DC01(태풍) 3160 358 898
DC02(호우,홍수) 2357 2557 1007
DC03(강풍) 669 320 406
DC04(풍랑) 154 205 134
DC05(해일) 6 2 7
DC06(대설) 1467 742 477
DC07(낙뢰) 39 50 25
DC08(가뭄) 518 1018 110
DC09(지진) 1201 3370 1608
DC10(황사) 52 55 52
DC11(녹조) 446 298 213
DC12(적조) 120 13 40
DC13(폭염) 5617 1920 1727
DC14(한파) 2169 700 598
DC15(화산) 5 8 0
524245
DC16(산불) 1203 1467 230
DC17(화재) 9330 4284 2679
DC18(붕괴) 1086 1069 874
DC19(폭발) 357 258 204
DC20(교통사고) 3413 3450 2258
DC21(철도사고) 553 193 381
DC22(항공기사고) 74 23 83
DC23(선박사고) 879 784 279
DC24(감염병) 478 182 312
DC25(가축전염병) 749 1281 642
DC26(화학물질) 167 37 44
DC27(미세먼지) 5457 1868 1144
DC28(환경오염) 387 513 292
DC29(방사능사고) 62 21 5
DC30(전력,통신,가스단절) 34 11 6
연도별 집계 42209 27057 16735
총 집계 86001
재난안전 관련 기사 자동 분류
- 재난 상황 관련 기사와 재난관련 정책 기사 간 분류
- 30개 재난 분류 자동화
- 총 10년치 (2009년 10월 1일 ~ 2018년 9월 30일)
- 키워드 기반 학습 데이터 기준 기계학습 (SVM)
수동 결정 키워드 기반 검출
현재(AS-IS) 개선(TO-BE)
키워드 분류의 오류, 시간에 따른 신규용어 발생 머신러닝 활용한 탐지 효율 및 탐지율 지속 개선
[오류케이스 확인] [오류케이스 확인]
수동
모니터링
결과 검증
머신
러닝
수동
모니터링
전수
검사
머신러닝에 의한 자동분류
유출여부
판별
벡터화
계산
재난
분류
자동
분류
정책
기사
자동
분류
실시간
재난
국문
뉴스
실시간
재난
영문
뉴스
과거
재난
뉴스
검출모델
선순환 개선
수동 분류
경험 축적
특정
재난
뉴스
72%
94% 97%
78% 92% 93%
77% 92%
94%
0%
20%
40%
60%
80%
100%
1차 2차 3차
재현율 정밀도 F1 Score
정답여부 분류 제목
오답 환경오염 대구시, 산업단지 주변 악취오염도 조사
정답 환경오염 '녹조라떼' 오명 대청호 상류지역 오염행위 여전
오답 환경오염 울산시, 산업단지 5곳에 수질오염방지시설 13개 설치
정보 분석의 활용성과 확장성을 고려한 데이터베이스 모델링을 통한 데이터베이스 구축
재난대응 의사결정 지원 시스템의 목적별 분석 특성에 따른 정의 및 설계
재난상황자료
- 주요 부처별 재난관련 문서
- 행정협조를 통한 데이터 확보
1
ETL 처리
BI/BA수집계
정형 분석
대시보드
Analytics
비정형 분석
SDW
DW
재난정보 DW
DM
Dashboard 마트
공통
집계
정형분석마트
비정형분석마트
시계열 분석
연관성 분석
패턴 분석
사건정보분석
주제분석
본문요약분석
권역분석
수집자료
- 국내외 뉴스, 보도자료
- 공공데이터
SDW
- ODS, DW, DM 으로 구성
3
대응주체
재난유형
발생시간
피해대상
피해규모
FTP/RawFi
les
2
재난상황자료
상황보고
1
ETL
…
일자별
분류
데이터 저장 시간,
수집기 상태 정보
ODS
수집
임시
저장
수집자료
2
3
재난 주제분석 재난 권역정보재난 사건정보 관련문서 요약 재난 유형분류
현대차 멤버십 서비스 맞춤형 혜택
현대차 멤버십 서비스 맞춤형 혜택
우리카드 영화 당갈 시사회 초청 이벤트
롯데카드 이랜드리테일 롯데카드 출시
임산부 맘 모르는 맘카드
파파존스, BC카드 고객 피자 세트 할인
매뉴얼
연속간행물
국문/영문뉴스
보도자료
공공데이터
발생지역
피해유형
문서의 사건 정보 추출
- 30개 재난유형으로 분류된 기사에서 사건 정보 추출
- 문서의 사건 정보 기록을 위한 상세 테이블 관리
- 9개 DW 테이블(기록), 1개 DM 테이블(화면조회)
1. 시간 정보 : DW.DOC_DETAIL_EVENT_TIMEX_INFO
문서 내 문장 별 시간 정보 기록
2. 공간 정보 : DW.DOC_DETAIL_EVENT_SPATIAL_INFO
문서 내 문장 별 공간 정보 기록
3. 주어 정보 : DW.DOC_DETAIL_EVENT_SUBJECT_INFO
문서 내 문장 별 주어 정보 기록
4. 목적어 정보 : DW.DOC_DETAIL_EVENT_OBJECT_INFO
문서 내 문장 별 목적어 정보 기록
5. 술어 정보 : DW.DOC_DETAIL_EVENT_PREDICATE_INFO
문서 내 문장 별 술어 정보 기록
6. 부정어 정보 : DW.DOC_DETAIL_EVENT_NEGATION_INFO
문서 내 문장 별 부정어 정보 기록
7. 수식어 정보 : DW.DOC_DETAIL_EVENT_MODIFIER_INFO
문서 내 문장 별 수식어 정보 기록 (mod-a : 동작성 수식어, mod-s : 상태성 수식어)
8. 규모 정보 : DW.DOC_DETAIL_EVENT_SCALE_INFO
문서 내 문장 별 규모 정보 기록
9 . 링크 정보 : DW.DOC_DETAIL_EVENT_LINK_INFO
문서 내 문장 별 링크 정보 기록 (tlink : 시간정보 링크, slink : 상태정보 링크)
문서의 시간 정보 추출 (예시)
- 문서의 시간 정보 상세 관리 테이블 (DW.DOC_DETAIL_EVENT_TIMEX_INFO)
- 문서 내 문장단위의 시간 정보를 기록하기 위해 구성된 테이블
- 주요 정보 : timex_idx, position, timex_info
2003년 9월 4일 괌 부근 해상에서 발생한 열대저기압은 느리게 발달하면서 북서쪽으로 나아가 약 이틀이 지난 9월 6일 오후 3시 무렵
제14호 태풍 매미가 되었다.
<timex>2003/SN 년/NNB 9월/NNT 4/SN 일/NNBC</timex> <spatial>괌/NNG 부근/NNG 해상/NNG 에서/JKB</spatial> <mod-
s>발생/NNG 한/XSA+ETM</mod-s> <object>열대저기압/NNG 은/JX</object> <predicate>느리/VA 게/EC <predicate>발달/NNG 하
/VV</predicate></predicate> 면서/EC <spatial>북서쪽/NND 으로/JKB</spatial> <predicate>나아가/VV+EC</predicate> <timex>
약/MM 이틀/NNT</timex> 이/JKS 지난/VV+ETM <timex>9월/NNT 6/SN 일/NNBC 오후/NNT 3/SN 시/NNB 무렵/NNB</timex>
<subject>제/XPN 14/SN 호/NNBC 태풍/NNG 매미/NNG 가/JKS</subject> <predicate>되/VV 었/EP</predicate> 다/EF ./SF
작성일 2018.09.03
ref. table ref. field
job_id PK Y 작업 아이디 character varying(n) 40 작업별 아이디
doc_uid PK Y 문서 고유 아이디 character varying(n) 255 문서 고유 아이디(URL)
sent_uid PK Y 문장 고유 아이디 numeric - 문장 고유 아이디
business_code PK Y 비즈니스 코드 character varying(n) 2 NDMI
category_code PK Y 카테고리 코드 character varying(n) 16 정의 테이블 참조
doc_date PK Y 문서 일자 timestamp without time zone - 문서 작성 날짜
timex_idx PK Y 시간 정보 인덱스 number 시간 정보 인덱스
position PK Y 위치 number 위치
timex_info 시간 정보 text - 시간 정보
load_date 적재일시 timestamp without time zone - 초기적재시간
update_date 데이터 업데이트 일시 timestamp without time zone - 데이터 업데이트 일시
프로젝트명
테이블 개요
No.
R-SCANNER
테이블(파일) 정의서
길이/
Dec.
Check
Table
Currency/Quantity
비고필드 ID TypeKey
작성자 고민수
테이블 명 문서내 출현 사건 상세 정보 테이블
Search
Help
Initia
l
Data
Element
필드명
테이블 ID
Index Key
DW.DOC_DETAIL_EVENT_TIMEX_INFO
문서의 사건 정보 상세 관리 (시간 정보)
문서의 공간 정보 추출 (예시)
- 문서의 공간 정보 상세 관리 테이블 (DW.DOC_DETAIL_EVENT_SPATIAL_INFO)
- 문서 내 문장단위의 공간 정보를 기록하기 위해 구성된 테이블
- 주요 정보 : spatial_idx, position, spatial_info
2003년 9월 4일 괌 부근 해상에서 발생한 열대저기압은 느리게 발달하면서 북서쪽으로 나아가 약 이틀이 지난 9월 6일 오후 3시 무렵
제14호 태풍 매미가 되었다.
<timex>2003/SN 년/NNB 9월/NNT 4/SN 일/NNBC</timex> <spatial>괌/NNG 부근/NNG 해상/NNG 에서/JKB</spatial> <mod-s>
발생/NNG 한/XSA+ETM</mod-s> <object>열대저기압/NNG 은/JX</object> <predicate>느리/VA 게/EC <predicate>발달/NNG 하
/VV</predicate></predicate> 면서/EC <spatial>북서쪽/NND 으로/JKB</spatial> <predicate>나아가/VV+EC</predicate> <timex>
약/MM 이틀/NNT</timex> 이/JKS 지난/VV+ETM <timex>9월/NNT 6/SN 일/NNBC 오후/NNT 3/SN 시/NNB 무렵/NNB</timex>
<subject>제/XPN 14/SN 호/NNBC 태풍/NNG 매미/NNG 가/JKS</subject> <predicate>되/VV 었/EP</predicate> 다/EF ./SF
작성일 2018.09.03
ref. table ref. field
doc_uid PK Y 문서 고유 아이디 character varying(n) 255 문서 고유 아이디(URL)
sent_uid PK Y 문장 고유 아이디 numeric - 문장 고유 아이디
business_code PK Y 비즈니스 코드 character varying(n) 2 NDMI
category_code PK Y 카테고리 코드 character varying(n) 16 정의 테이블 참조
doc_date PK Y 문서 일자 timestamp without time zone - 문서 작성 날짜
spatial_idx PK Y 공간 정보 인덱스 number 공간 정보 인덱스
position PK Y 위치 number 위치
spatial_info 공간 정보 text - 공간 정보
load_date 적재일시 timestamp without time zone - 초기적재시간
update_date 데이터 업데이트 일시 timestamp without time zone - 데이터 업데이트 일시
Key
Initia
l
테이블(파일) 정의서
R-SCANNER
DW.DOC_DETAIL_EVENT_SPATIAL_INFO
문서의 사건 정보 상세 관리 (공간 정보)
문서내 출현 사건 상세 정보 테이블
고민수작성자
테이블 명
비고
테이블 ID
프로젝트명
Type
Data
Element
필드명
테이블 개요
필드 ID
Check
Table
길이/
Dec.
Currency/QuantitySearch
Help
No.
Index Key
문서의 규모 정보 추출 (예시)
- 문서의 규모 정보 상세 관리 테이블 (DW.DOC_DETAIL_EVENT_SCALE_INFO)
- 문서 내 문장단위의 규모 정보를 기록하기 위해 구성된 테이블
- 주요 정보 : spatial_idx, position, spatial_info
제25호 태풍 콩레이가 한반도를 할퀴고 지나가며 2명이 숨지고 1명이 실종됐다. 또 주택 1300여채가 침수됐고 이재민 400여명이 발생
했다. 또 주택 1365채가 침수됐다.
<subject>제/XPN 25/SN 호/NNBC 태풍/NNG 콩레이/NNG 가/JKS</subject> <spatial>한반도/NNP</spatial> 를/JKO
<predicate><predicate>할퀴/VV 고/EC</predicate> 지나가/VV</predicate> 며/EC <scale>2/SN 명/NNBC</scale> 이/JKS
<predicate>숨지/VV 고/EC</predicate> <scale>1/SN 명/NNBC</scale> 이/JKS <predicate>실종/NNG 됐/VV</predicate>+EP 다
/EF ./SF 또/MAG 주택/NNG <scale>1300/SN 여/XSN 채/NNB</scale> 가/JKS <predicate><mod-a>침수/NNG 됐/XSV+EP</mod-
a></predicate> 고/EC 이재민/NNP <scale>400/SN 여/XSN 명/NNBC</scale> 이/JKS <predicate><mod-a>발생/NNG 했
/XSV+EP</mod-a></predicate> 다/EF ./SF 또/MAG 주택/NNG <scale>1365/SN 채/NNB</scale> 가/JKS <predicate><mod-a>침수
/NNG 됐/XSV+EP</mod-a></predicate> 다/EF ./SF
작성일 2018.09.03
ref. table ref. field
job_id PK Y 작업 아이디 character varying(n) 40 작업별 아이디
doc_uid PK Y 문서 고유 아이디 character varying(n) 255 문서 고유 아이디(URL)
sent_uid PK Y 문장 고유 아이디 numeric - 문장 고유 아이디
business_code PK Y 비즈니스 코드 character varying(n) 2 NDMI
category_code PK Y 카테고리 코드 character varying(n) 16 정의 테이블 참조
doc_date PK Y 문서 일자 timestamp without time zone - 문서 작성 날짜
scale_idx PK Y 규모 정보 인덱스 number 규모 정보 인덱스
position PK Y 위치 number 위치
scale_type 규모 정보 유형 character varying(n) 10 규모 정보 유형
scale_info 규모 정보 text - 규모 정보
load_date 적재일시 timestamp without time zone - 초기적재시간
update_date 데이터 업데이트 일시 timestamp without time zone - 데이터 업데이트 일시
Initia
l
Key
Data
Element
필드명
DW.DOC_DETAIL_EVENT_SCALE_INFO
문서의 사건 정보 상세 관리 (규모 정보)
Type
테이블 명 문서내 출현 사건 상세 정보 테이블
R-SCANNER
테이블(파일) 정의서
고민수
Currency/QuantitySearch
Help
작성자
길이/
Dec.
Check
Table
비고필드 IDNo.
테이블 개요
프로젝트명
테이블 ID
Index Key
문서의 사건 정보 상세 관리 테이블 (DM)
- 문서 단위로 문서내 문장별 사건정보를 검색 가능한 테이블로 표상
- DW의 사건정보 기록을 위한 9개 테이블을 사건 대상(Object) 기준으로 JOIN
- 239,721개 레코드 (최근 3년)
재난 사건 검색 UI 개발
- 현재까지 구축된 데이터인 위키피디아 국문, 위키피디아 영문, 국내뉴스, 해외뉴스 대상
- 본 과업 범위 내에서는 최근 3년간 데이터에 대해서 적재
- 과거 전체 기간 데이터에 대해서 순차적으로 배치 프로세스에 의해 진행
인과관계 분석
- 공시적/통시적 인과관계 추출, 사건 개념 단위 확률적 모델링, 경로 추적/역추적 분석
- 데이터 테이블의 정보를 큐브 형태로 관리하여 실시간 분석, 시각화 분석
행정안전부 중앙재난안전상황실 – 재난 상황판 예시
한국환경정책평가연구원 – 재난대응 의사결정지원시스템 예시
한국환경정책평가연구원 – 재난대응 의사결정지원시스템 예시
예방 대비 대응 복구
• 유형별재난 중장기전망
• 재난목표설정 등 예방기획
• 재난별적응대책수립
• 자연재해저감종합계획수립
• 자연재난관리에관한제도개선
• 재난노출지역의시설물점검 및 피
난소위치최적화
• 재해위험지구정비
• 재난대비종합훈련
• 재난대응지침및 의사결정지원
• 위험정보활용 및 제공
• 핫스팟지역의Shelter이동 방안제
공
• 재난구호물품(쿨매트,난방기구등 )
지급
• 비상대응체계운영
• 안전정책실-재난경감과 • 재난협력실– 재난안전조사과
• 재난복구정책관- 복구지원과
• 재난관리실– 재난대응정책과
• 재난관리실- 자연재난대응과
• 자연재난으로인한복구지원
• 자연재난으로인한인명피해비용
및 복구비용보상
누적 피해 현황Shelter(무더위쉼터) 분포취약계층 집중 거주지역
축사 분포
실시간 이슈
과거 피해
시간대별 취약지역
Shelter network
• 안정정책실– 예방안전과
• 안전정책실- 재난영향분석과
시나리오별 대응방안 제시
기술적 성과과학적 성과 사회적 성과
재난 영향 분석
노출 온도 기반
재난 피해 분석
맞춤형 대응절차 및
안전관리매뉴얼,
가이드라인
지능형 재난
의사결정지원
시스템
사회∙경제·산업적 기대효과 정책적 기대효과 과학∙기술적 기대효과
▪ 인명 피해 예방으로 사회적 비용
저감에 기여
▪ 재난 대응에서 인적·물적 자원의
효율적 활용을 지원하여 사회적
비용 저감에 기여
▪ 스마터 재난대응을 위한 이종
데이터 융·복합 기술의 해외 수출
토대 마련
▪ 재난 영향 예측 및 대응을 위한 이종
데이터 융·복합 및 시각화 원천 기술
확보
▪ 자연재해 감시기술 분야의 국가
경쟁력 제고
▪ 취약인구 분포 특성이 반영된 재난
예측 모델 개발 기술 확보
▪ 특허 출원 5 건
▪ SW 등록 4 건
▪ 기술이전 1 건
▪ 정보활용도 77.5점 이상
▪ 홍보 실적 5 건
▪ 정책 활용 5 건
▪ 학술회의 개최 2 건
▪ 잠재가치 전문가 정성평가 70점 이상
▪ SCI(E) 논문 9 편
▪ KCI 논문 11 편
▪ 학술회의 발표 10 편
▪ SCI(E) mrnIF 66점 이상
▪ 과학적, 종합적 정보를 기반으로
한 정책결정자의 의사결정 지원
▪ 지역 맞춤형 재난 정보 생산으로
체감형 재난대응 정책 제공
1. 위키피디아 재난관련 페이지 자동 분류 기술 개발
- 그래프 구조 활용 : 카테고리 네트워크 구조, 상하위 개념 구조, 링크 연결 구조,
- 텍스트 내용 활용 : 정의문 영역, 본문 설명 영역
- 반정형 데이터 활용 : 인포박스, 표
2. 재난 사건정보 데이터베이스 공개
- 재난 사건정보 DB의 추출 정확도 검증
- 데이터베이스 배포를 통해 과제 성과의 확산, 학술 교류
3. 개체명 연결 및 해소 (Entity Linking & Reslution) 기술 개발
- 재난 사건정보 데이터베이스를 이용하여 각 사건 정보 간의 링크 관계를 파악
- 단순한 상대 위치를 계산 방식으로는 다중 관계 해소 불가능
- 양질의 재난 사건정보 데이터베이스 구축 방법론
- 개체명 표현과 연결할 적절한 개체가 없는 경우 (NIL 정보) 해결 방법
- 각 개체간 다중 연결 문제의 중의성 해소 방법
Thank you!
OWLNEST
Proactive discovery and insights from contexts

More Related Content

Similar to 1.3d Study for Smart Big Board System Development and Management

Big Data Analytics and Data Mining
Big Data Analytics and Data MiningBig Data Analytics and Data Mining
Big Data Analytics and Data MiningSuHyun Jeon
 
How to prevent cyber attack with big data &amp; intelligence(sfis170222)
How to prevent cyber attack with big data &amp; intelligence(sfis170222)How to prevent cyber attack with big data &amp; intelligence(sfis170222)
How to prevent cyber attack with big data &amp; intelligence(sfis170222)Yong Suk Kang 姜龙锡
 
(130608) #fitalk trends in d forensics (may, 2013)
(130608) #fitalk   trends in d forensics (may, 2013)(130608) #fitalk   trends in d forensics (may, 2013)
(130608) #fitalk trends in d forensics (may, 2013)INSIGHT FORENSIC
 
데이터분석의 길 5: “고수는 큰자료를 두려워하지 않는다” (클릭확률예측 상편)
데이터분석의 길 5:  “고수는 큰자료를 두려워하지 않는다” (클릭확률예측 상편)데이터분석의 길 5:  “고수는 큰자료를 두려워하지 않는다” (클릭확률예측 상편)
데이터분석의 길 5: “고수는 큰자료를 두려워하지 않는다” (클릭확률예측 상편)Jaimie Kwon (권재명)
 
Memento, 그 사람에 대한 모든 정보
Memento, 그 사람에 대한 모든 정보Memento, 그 사람에 대한 모든 정보
Memento, 그 사람에 대한 모든 정보Jiun Bae
 
News Big Data Analytics
News Big Data AnalyticsNews Big Data Analytics
News Big Data AnalyticsDaemin Park
 
기계학습 현재와미래 Pdf
기계학습 현재와미래 Pdf기계학습 현재와미래 Pdf
기계학습 현재와미래 Pdf효근 윤
 
Src슬라이드(3총괄1세부) 조성준
Src슬라이드(3총괄1세부) 조성준Src슬라이드(3총괄1세부) 조성준
Src슬라이드(3총괄1세부) 조성준SRCDSC
 
20171212 [ai times] 'ai' 인공지능-ai security 개발을 위한 시도 - 1 (nlp 모델 테스트 2.2.11)...
20171212 [ai times] 'ai'   인공지능-ai security 개발을 위한 시도 - 1 (nlp 모델 테스트 2.2.11)...20171212 [ai times] 'ai'   인공지능-ai security 개발을 위한 시도 - 1 (nlp 모델 테스트 2.2.11)...
20171212 [ai times] 'ai' 인공지능-ai security 개발을 위한 시도 - 1 (nlp 모델 테스트 2.2.11)...jason min
 
빅데이터 윈윈 컨퍼런스_빅데이터 기반 지능형 도시가스 배관 위험 예측 기술 개발
빅데이터 윈윈 컨퍼런스_빅데이터 기반 지능형 도시가스 배관 위험 예측 기술 개발빅데이터 윈윈 컨퍼런스_빅데이터 기반 지능형 도시가스 배관 위험 예측 기술 개발
빅데이터 윈윈 컨퍼런스_빅데이터 기반 지능형 도시가스 배관 위험 예측 기술 개발ABRC_DATA
 
융합연구포럼 2015.02 big data - engineering & convergence.
융합연구포럼 2015.02 big data - engineering & convergence.융합연구포럼 2015.02 big data - engineering & convergence.
융합연구포럼 2015.02 big data - engineering & convergence.Chanjin Park
 
공간정보 대량맞춤화 정보지원체계 연구 소개
공간정보 대량맞춤화 정보지원체계 연구 소개공간정보 대량맞춤화 정보지원체계 연구 소개
공간정보 대량맞춤화 정보지원체계 연구 소개SANGHEE SHIN
 
Realtime Big data Anaytics and Exampes of Daum (2013)
Realtime Big data Anaytics and Exampes of Daum (2013)Realtime Big data Anaytics and Exampes of Daum (2013)
Realtime Big data Anaytics and Exampes of Daum (2013)Channy Yun
 
데이터드리븐 DX 추진방안_202306.pdf
데이터드리븐 DX 추진방안_202306.pdf데이터드리븐 DX 추진방안_202306.pdf
데이터드리븐 DX 추진방안_202306.pdfYunjeong Susan Hong
 
DATA ECO와 연결의 힘 - SKT 김성우 랩장
DATA ECO와 연결의 힘 - SKT 김성우 랩장DATA ECO와 연결의 힘 - SKT 김성우 랩장
DATA ECO와 연결의 힘 - SKT 김성우 랩장eungjin cho
 
News clustering and Recommendation system using Word Embedding
News clustering and Recommendation system using Word EmbeddingNews clustering and Recommendation system using Word Embedding
News clustering and Recommendation system using Word EmbeddingJunyoung Park
 
News Big Data Analytics with 'Big Kinds'
News Big Data Analytics with 'Big Kinds'News Big Data Analytics with 'Big Kinds'
News Big Data Analytics with 'Big Kinds'Daemin Park
 
Process for Big Data Analysis
Process for Big Data AnalysisProcess for Big Data Analysis
Process for Big Data AnalysisMyunggoon Choi
 

Similar to 1.3d Study for Smart Big Board System Development and Management (20)

Big Data Analytics and Data Mining
Big Data Analytics and Data MiningBig Data Analytics and Data Mining
Big Data Analytics and Data Mining
 
How to prevent cyber attack with big data &amp; intelligence(sfis170222)
How to prevent cyber attack with big data &amp; intelligence(sfis170222)How to prevent cyber attack with big data &amp; intelligence(sfis170222)
How to prevent cyber attack with big data &amp; intelligence(sfis170222)
 
(130608) #fitalk trends in d forensics (may, 2013)
(130608) #fitalk   trends in d forensics (may, 2013)(130608) #fitalk   trends in d forensics (may, 2013)
(130608) #fitalk trends in d forensics (may, 2013)
 
데이터분석의 길 5: “고수는 큰자료를 두려워하지 않는다” (클릭확률예측 상편)
데이터분석의 길 5:  “고수는 큰자료를 두려워하지 않는다” (클릭확률예측 상편)데이터분석의 길 5:  “고수는 큰자료를 두려워하지 않는다” (클릭확률예측 상편)
데이터분석의 길 5: “고수는 큰자료를 두려워하지 않는다” (클릭확률예측 상편)
 
Memento
MementoMemento
Memento
 
Memento, 그 사람에 대한 모든 정보
Memento, 그 사람에 대한 모든 정보Memento, 그 사람에 대한 모든 정보
Memento, 그 사람에 대한 모든 정보
 
News Big Data Analytics
News Big Data AnalyticsNews Big Data Analytics
News Big Data Analytics
 
기계학습 현재와미래 Pdf
기계학습 현재와미래 Pdf기계학습 현재와미래 Pdf
기계학습 현재와미래 Pdf
 
Src슬라이드(3총괄1세부) 조성준
Src슬라이드(3총괄1세부) 조성준Src슬라이드(3총괄1세부) 조성준
Src슬라이드(3총괄1세부) 조성준
 
20171212 [ai times] 'ai' 인공지능-ai security 개발을 위한 시도 - 1 (nlp 모델 테스트 2.2.11)...
20171212 [ai times] 'ai'   인공지능-ai security 개발을 위한 시도 - 1 (nlp 모델 테스트 2.2.11)...20171212 [ai times] 'ai'   인공지능-ai security 개발을 위한 시도 - 1 (nlp 모델 테스트 2.2.11)...
20171212 [ai times] 'ai' 인공지능-ai security 개발을 위한 시도 - 1 (nlp 모델 테스트 2.2.11)...
 
빅데이터
빅데이터빅데이터
빅데이터
 
빅데이터 윈윈 컨퍼런스_빅데이터 기반 지능형 도시가스 배관 위험 예측 기술 개발
빅데이터 윈윈 컨퍼런스_빅데이터 기반 지능형 도시가스 배관 위험 예측 기술 개발빅데이터 윈윈 컨퍼런스_빅데이터 기반 지능형 도시가스 배관 위험 예측 기술 개발
빅데이터 윈윈 컨퍼런스_빅데이터 기반 지능형 도시가스 배관 위험 예측 기술 개발
 
융합연구포럼 2015.02 big data - engineering & convergence.
융합연구포럼 2015.02 big data - engineering & convergence.융합연구포럼 2015.02 big data - engineering & convergence.
융합연구포럼 2015.02 big data - engineering & convergence.
 
공간정보 대량맞춤화 정보지원체계 연구 소개
공간정보 대량맞춤화 정보지원체계 연구 소개공간정보 대량맞춤화 정보지원체계 연구 소개
공간정보 대량맞춤화 정보지원체계 연구 소개
 
Realtime Big data Anaytics and Exampes of Daum (2013)
Realtime Big data Anaytics and Exampes of Daum (2013)Realtime Big data Anaytics and Exampes of Daum (2013)
Realtime Big data Anaytics and Exampes of Daum (2013)
 
데이터드리븐 DX 추진방안_202306.pdf
데이터드리븐 DX 추진방안_202306.pdf데이터드리븐 DX 추진방안_202306.pdf
데이터드리븐 DX 추진방안_202306.pdf
 
DATA ECO와 연결의 힘 - SKT 김성우 랩장
DATA ECO와 연결의 힘 - SKT 김성우 랩장DATA ECO와 연결의 힘 - SKT 김성우 랩장
DATA ECO와 연결의 힘 - SKT 김성우 랩장
 
News clustering and Recommendation system using Word Embedding
News clustering and Recommendation system using Word EmbeddingNews clustering and Recommendation system using Word Embedding
News clustering and Recommendation system using Word Embedding
 
News Big Data Analytics with 'Big Kinds'
News Big Data Analytics with 'Big Kinds'News Big Data Analytics with 'Big Kinds'
News Big Data Analytics with 'Big Kinds'
 
Process for Big Data Analysis
Process for Big Data AnalysisProcess for Big Data Analysis
Process for Big Data Analysis
 

More from NAP Events

The PCL Framework: A strategic approach to comprehensive risk management in r...
The PCL Framework: A strategic approach to comprehensive risk management in r...The PCL Framework: A strategic approach to comprehensive risk management in r...
The PCL Framework: A strategic approach to comprehensive risk management in r...NAP Events
 
Overview of modalities
Overview of modalitiesOverview of modalities
Overview of modalitiesNAP Events
 
LDC Expert Group mandates and achievements
LDC Expert Group mandates and achievementsLDC Expert Group mandates and achievements
LDC Expert Group mandates and achievementsNAP Events
 
LDC Expert Group experiences, good practies and leasons learned
LDC Expert Group experiences, good practies and leasons learnedLDC Expert Group experiences, good practies and leasons learned
LDC Expert Group experiences, good practies and leasons learnedNAP Events
 
Future trends relevant to LDCs
Future trends relevant to LDCsFuture trends relevant to LDCs
Future trends relevant to LDCsNAP Events
 
Least Developed Countries undertakings under the convention and the paris agr...
Least Developed Countries undertakings under the convention and the paris agr...Least Developed Countries undertakings under the convention and the paris agr...
Least Developed Countries undertakings under the convention and the paris agr...NAP Events
 
6.5 Adaptation forum part 2
6.5 Adaptation forum part 26.5 Adaptation forum part 2
6.5 Adaptation forum part 2NAP Events
 
6.4 nap book at expo 10 april weds
6.4 nap book at expo 10 april weds6.4 nap book at expo 10 april weds
6.4 nap book at expo 10 april wedsNAP Events
 
6.3.2 CLIMADA model demo
6.3.2 CLIMADA model demo6.3.2 CLIMADA model demo
6.3.2 CLIMADA model demoNAP Events
 
6.3.1 CLIMADA model demo
6.3.1 CLIMADA model demo6.3.1 CLIMADA model demo
6.3.1 CLIMADA model demoNAP Events
 
6.2 Marine fisheries focus on tuna
6.2 Marine fisheries focus on tuna6.2 Marine fisheries focus on tuna
6.2 Marine fisheries focus on tunaNAP Events
 
6.1.4 Methodologies for climate rational for adaptation - GCF
6.1.4 Methodologies for climate rational for adaptation - GCF6.1.4 Methodologies for climate rational for adaptation - GCF
6.1.4 Methodologies for climate rational for adaptation - GCFNAP Events
 
6.1.3 Methodologies for climate rational for adaptation
6.1.3 Methodologies for climate rational for adaptation 6.1.3 Methodologies for climate rational for adaptation
6.1.3 Methodologies for climate rational for adaptation NAP Events
 
7.5.2 Regional TEM-A Part 1
7.5.2 Regional TEM-A Part 17.5.2 Regional TEM-A Part 1
7.5.2 Regional TEM-A Part 1NAP Events
 
7.5.1 Regional TEM-A Part 1
7.5.1 Regional TEM-A Part 17.5.1 Regional TEM-A Part 1
7.5.1 Regional TEM-A Part 1NAP Events
 
7.4.2 Synergy between UNFCCC and UNCCD
7.4.2 Synergy between UNFCCC and UNCCD7.4.2 Synergy between UNFCCC and UNCCD
7.4.2 Synergy between UNFCCC and UNCCDNAP Events
 
7.4.1 Synergy between UNFCCC and UNCCD
7.4.1 Synergy between UNFCCC and UNCCD7.4.1 Synergy between UNFCCC and UNCCD
7.4.1 Synergy between UNFCCC and UNCCDNAP Events
 
7.3.5 A system approach to the integration of the agriculture sector in the NAP
7.3.5 A system approach to the integration of the agriculture sector in the NAP7.3.5 A system approach to the integration of the agriculture sector in the NAP
7.3.5 A system approach to the integration of the agriculture sector in the NAPNAP Events
 
7.3.4 A system approach to the integration of the agriculture sector in the NAP
7.3.4 A system approach to the integration of the agriculture sector in the NAP7.3.4 A system approach to the integration of the agriculture sector in the NAP
7.3.4 A system approach to the integration of the agriculture sector in the NAPNAP Events
 
7.3.3 A system approach to the integration of the agriculture sector in the NAP
7.3.3 A system approach to the integration of the agriculture sector in the NAP7.3.3 A system approach to the integration of the agriculture sector in the NAP
7.3.3 A system approach to the integration of the agriculture sector in the NAPNAP Events
 

More from NAP Events (20)

The PCL Framework: A strategic approach to comprehensive risk management in r...
The PCL Framework: A strategic approach to comprehensive risk management in r...The PCL Framework: A strategic approach to comprehensive risk management in r...
The PCL Framework: A strategic approach to comprehensive risk management in r...
 
Overview of modalities
Overview of modalitiesOverview of modalities
Overview of modalities
 
LDC Expert Group mandates and achievements
LDC Expert Group mandates and achievementsLDC Expert Group mandates and achievements
LDC Expert Group mandates and achievements
 
LDC Expert Group experiences, good practies and leasons learned
LDC Expert Group experiences, good practies and leasons learnedLDC Expert Group experiences, good practies and leasons learned
LDC Expert Group experiences, good practies and leasons learned
 
Future trends relevant to LDCs
Future trends relevant to LDCsFuture trends relevant to LDCs
Future trends relevant to LDCs
 
Least Developed Countries undertakings under the convention and the paris agr...
Least Developed Countries undertakings under the convention and the paris agr...Least Developed Countries undertakings under the convention and the paris agr...
Least Developed Countries undertakings under the convention and the paris agr...
 
6.5 Adaptation forum part 2
6.5 Adaptation forum part 26.5 Adaptation forum part 2
6.5 Adaptation forum part 2
 
6.4 nap book at expo 10 april weds
6.4 nap book at expo 10 april weds6.4 nap book at expo 10 april weds
6.4 nap book at expo 10 april weds
 
6.3.2 CLIMADA model demo
6.3.2 CLIMADA model demo6.3.2 CLIMADA model demo
6.3.2 CLIMADA model demo
 
6.3.1 CLIMADA model demo
6.3.1 CLIMADA model demo6.3.1 CLIMADA model demo
6.3.1 CLIMADA model demo
 
6.2 Marine fisheries focus on tuna
6.2 Marine fisheries focus on tuna6.2 Marine fisheries focus on tuna
6.2 Marine fisheries focus on tuna
 
6.1.4 Methodologies for climate rational for adaptation - GCF
6.1.4 Methodologies for climate rational for adaptation - GCF6.1.4 Methodologies for climate rational for adaptation - GCF
6.1.4 Methodologies for climate rational for adaptation - GCF
 
6.1.3 Methodologies for climate rational for adaptation
6.1.3 Methodologies for climate rational for adaptation 6.1.3 Methodologies for climate rational for adaptation
6.1.3 Methodologies for climate rational for adaptation
 
7.5.2 Regional TEM-A Part 1
7.5.2 Regional TEM-A Part 17.5.2 Regional TEM-A Part 1
7.5.2 Regional TEM-A Part 1
 
7.5.1 Regional TEM-A Part 1
7.5.1 Regional TEM-A Part 17.5.1 Regional TEM-A Part 1
7.5.1 Regional TEM-A Part 1
 
7.4.2 Synergy between UNFCCC and UNCCD
7.4.2 Synergy between UNFCCC and UNCCD7.4.2 Synergy between UNFCCC and UNCCD
7.4.2 Synergy between UNFCCC and UNCCD
 
7.4.1 Synergy between UNFCCC and UNCCD
7.4.1 Synergy between UNFCCC and UNCCD7.4.1 Synergy between UNFCCC and UNCCD
7.4.1 Synergy between UNFCCC and UNCCD
 
7.3.5 A system approach to the integration of the agriculture sector in the NAP
7.3.5 A system approach to the integration of the agriculture sector in the NAP7.3.5 A system approach to the integration of the agriculture sector in the NAP
7.3.5 A system approach to the integration of the agriculture sector in the NAP
 
7.3.4 A system approach to the integration of the agriculture sector in the NAP
7.3.4 A system approach to the integration of the agriculture sector in the NAP7.3.4 A system approach to the integration of the agriculture sector in the NAP
7.3.4 A system approach to the integration of the agriculture sector in the NAP
 
7.3.3 A system approach to the integration of the agriculture sector in the NAP
7.3.3 A system approach to the integration of the agriculture sector in the NAP7.3.3 A system approach to the integration of the agriculture sector in the NAP
7.3.3 A system approach to the integration of the agriculture sector in the NAP
 

1.3d Study for Smart Big Board System Development and Management

  • 1.
  • 2. 위험요소에 대한 선제적 대응을 위해 데이터 분석가의 위험환경 탐색 및 맞춤형 기술 내재화로 재난탐지와 대응활동을 체계적인 시나리오에 기반한 국가적 거버넌스로 확립  사건 발생 사실을 기록하여 일간/사건별로 보도한 문서 집합 (중앙지, 위키)  사건 발생 사실을 지역별로 상세 보도한 문서 집합 (지방지)  국내뉴스 기사 DB 구축 : 네이버(128개 언론사), 다음(201개), 기타 지방지(76개)  사건정보DB 데이터베이스 구성 (사건, 영향 기준 개념화 작업)  폭염/한파 사건 관련 속성정보의 1, 2, 3차 시계열 순번 부여  사건 개념 단위 연관 관계 후보 추출 및 통계적 연관도 부여  폭염/한파 관련 공시적/통시적 인과관계 추출 후 확률적 경로 분석  통시적 인과관계 기준 경로 역추적 추정 분석 - 재난 관련 뉴스로부터 사건정보의 요약 정보를 반정형 데이터로 데이터베이스에 저장 가능한가? - 최소 일간 기준으로 사건 동향을 파악하고 이에 기반한 연구 및 분석이 가능한가? - 시스템 상 구문 패턴의 정확한 추출 품질을 확보를 위해 개발 프레임워크 통일 - 추출된 사건정보를 저장하기 위한 데이터베이스 테이블 설계, 사건 개념정보 저장 설계 - 폭염/한파 사건 관련 속성정보 개념 기반 시계열 순번 부여, 전체 사건정보 맵 구성 - 개념 단위 연관 관계 후보 추출 및 연관도 분석 결과 도출 - 공시적/통시적 인과관계 추출, 사건 개념 단위 확률적 모델링, 경로 추적/역추적 분석 - 데이터 테이블의 정보를 큐브 형태로 관리하여 실시간 분석, 시각화 분석
  • 3. 국제적 재난발생 증가에 따라 통합 위험관리체계를 통해, 국내외 신문 기사로부터 과학적, 통계적으로 재난의 위험요인을 프로파일링하고 비정형 빅데이터를 실시간 분석  위키피디아 재난정보 DB 구축, 영문 뉴스 수집체계 강화  재난관련 학술정보 DB 구축  구문 패턴 분석으로 재난사고의 속성정보를 추출  재난 사건정보 데이터베이스 구축  사건 속성정보 검색 기능 개발  뉴스 본문 텍스트의 통계적 요약 기술 개발  기존 분석 기능의 사용성 개선  데이터베이스 기반 사용자 주도형 시각화 분석 기능 개발 - 재난 사건의 백과사전적 요약 정보를 반정형 데이터로 활용하여 데이터베이스로 저장 - 최신 경향의 재난안전 분야의 연구 성과와 동향을 파악하고 이에 착안한 연구 개발 및 분석 능력의 향상 - 시스템 상 구문 패턴의 정확한 추출 품질을 확보위해 개발 프레임워크 통일 - 추출된 정보를 저장하기 위한 데이터베이스 테이블 설계 - 시스템 상 구문 패턴의 정확한 추출 품질을 확보위해 개발 프레임워크 통일 - 추출된 정보를 저장하기 위한 데이터베이스 테이블 설계 - 각종 차트를 위젯 형태의 시각화 프레임워크로 지원 - 데이터 테이블의 정보를 큐브 형태로 관리하여 실시간 분석
  • 4. 극한 기상현상으로 인한 피해를 최소화하기 위해서 데이터 기반으로 주요 결정요인을 귀납적으로 파악하여 대응대책의 근거 마련 1단계 2단계 3단계 재난대응 빅데이터 수집 및 지능형 의사결정지원체계 개발 재난대응 빅데이터 분석 기술 및 의사결정 표준화 방안 개발 재난 빅데이터 분석을 통한 지능형 의사결정지원 시스템 개발 절차 재난대응 체계 및 사례 분석 재난분야 빅데이터 기술 요구분석 재난분야 빅데이터 기술 활용 및 적용방안 도출 시스템 의사결정지원시스템 개발 데이터 재난유형에 따른 빅데이터 데이터베이스 구축 비정형데이터기반재난대응사례및대응패턴분석 연구 인공지능 기법 적용 빅데이터 분석 기술 개발 분석 GIS기반재난피해결정요인분석 해외 재난대응 사례 및 모델 분석 다중 재난 대응 상황에 대한 의사결정 표준화 기술 개발 매뉴얼 및 가이드라인 개발 목표 재난대응 방안 인벤토리 구축
  • 5. 현존 재난 대응 시스템 사례 현황 조사
  • 6. 현존 재난 대응 시스템 사례 현황 조사
  • 7. 현존 재난 대응 시스템 사례 현황 조사
  • 8. 재난 대응 절차와 안전관리 체계의 통합지휘체계를 위한 표준화 방안 개별재난유형에 대해 개발된 표준화 방법 적용 개별재난유형별 지휘체계에 인공지능 적용 Flow 인공지능 모델 데이터 인공지능 학습결과 인공지능 평가결과 인공지능 검증결과 인공지능 탐지결과 외부 위협정보 판단결과 표준화된 AI 데이터 저장소 클러스터 관리 모듈 클러스터 관리 저장 모듈 인덱스 저장 Pooling 인덱스 관리 파티션 관리 IndexWriter 모듈 검색 모듈 검색서버 검색 Pooling Cache 모듈 IndexReader 모듈 저장소 관리 모듈 인덱스 파일 저장소 통합지휘체계를 위한 검색 인공지능 학습/분석 시스템 검색 개별재난유형별 인공지능 시스템 적용 저장소 관리 데이터 관리 표준화 학습모델 표준화 학습결과 분석결과 위협정보
  • 9. 모델 설정, 검증 과정 반복을 통한 재난 시나리오별 대응체계 개발 모델별 대응 방법론을 기반으로 역할별 최적 대응 방안 개발 “폭염(예시)” Feature 정의 예비전력부족 에너지가격상승 농업용수부족 소비자물가 상승 수질악화 노동생산성 약화 온열질환자/사망 자 AI 전문가 재난전문가 학습모델 제공 학습모델 수정 학습모델 확정 실 데이터 모델검증 정〮오답 판단 기준확인 강화학습 모델검증 정〮오답 판단 기준확인재 검증 검증 요청 재학습 요청 재검증 요청 검증 요청 재학습 요청 모델 적용 가능 재학습 또는 추가 학습 적용 모델 강화학습 적용모델
  • 10. 재난 유형별 의사결정 시스템 운영 및 검증 프로세스 Data 수집 Data 전처리 모델 학습 모델 탐지 검증 정상-비정상 labeling 없는 원천 Data 사용 학습 모델에 적용하기 위한 유의미한 변수 선정 및 전처리 비지도 학습 방식의 다양한 알고리즘 Training 수행 사전에 분리된 Test set을 활용한 모델 성능 평가 비정상 데이터로 분류된 결과에 대한 검증 수행 Feature Selection 보안 이벤트에 대한 domain knowledge를 바탕으로 유의미한 변수 선정 차원 축소 Log 등 비정형 Text Data에 Word2Vec 알고리즘 적용 검토 비정상 데이터 정상 데이터 추가 학습 Input Data MSE KNN DB SCAN LOF Gaussian Mixture OC SVM Kernel density OC neural network Density Decoder Distance One-Class Robust Covariance Isolation Forest Auto- encoder
  • 11. 빅데이터 분석을 위한 분석 플랫폼으로써 정형+비정형 데이터를 통합 데이터 마이닝 및 통계분석 기반 선제적인 재난 예측 모형을 도출 및 검증 가능한 시스템 ▶ 재난관련 정형 / 비정형 통합 분석 개요 정형 데이터 분석 Analyze + Detect 예측 분석 모델 : (예시) Y = b0 + b1X1 + b2X2 Issue Detection 재난 이슈가 언제 발생되고, 어떤 요인이 어떤 대상에 영향을 주었는지 분석 Issues발견 Analysis 어떤 요인에 영향을 주었고 얼마나 더 영향을 줄 것인지, 피해가 클지 분석 Forecasting 시나리오 예측 확산 모델 예측 비정형 데이터 분석 (Text Analytics) 추이분석 사건정보 분석 영향도 분석 Text Analytics로 생성된 Input 변수 (예시) X3, X4 , X5 추이분석의 구간 값을 Index화해서 정량분석 모델의 변수로 활용  X4 사건정보 간의 연관관계 값을 인덱스화  X5 영향도 결과값을 인덱스화  X3 비정형 + 정형 데이터 통합 분석 통합 분석 모델 (예시) Y = b0 + b1X1 + b2X2 + b3X3 Y = b0 + b1X1 + b2X2 + b4X4 + b5X5 확산 모형 개발 재난 예측 모형 개발
  • 12. 데이터 수집, 저장 고급 분석 • 재난 유형별 추적 • 시기별 주요 주제 • 경로 역추적 분석 검색 + 분류 전처리 일반 분석 • 국내외 뉴스를 수집하여 사건정보의 원천이 되는 Data Pool 확보 • 뉴스 검색 • 사용자 인터페이스 • 시스템 자동화 • 분류체계 • 전처리 수행 • 재난 관련 개념어 인식 • 통제리스트 관리 • 토픽 분석 • 연관어 분석 • 네트워크 분석 • 인과관계 분석 후보 매체 선정 타당성 검토 데이터 원천 수집 모듈화 DB 구성 … DB 구성 검색 엔진 택소노미 관리 뉴스 분류 사용자 / 시스템 검색 인터페이스 자동 분류 형태소 분석 재난관련 개체명 인식 재난관련 개념어 인식 통제 리스트 관리 전처리 및 분석 토픽 분석 연관어 / 네트워크 분석 패러프레이즈 분석 재난 유형별 추적 재난 유형별 추적 시기별 주요 주제 추출 경로 역추적 분석 재난유형 추적관리 시스템 R-Scanner 시스템의 분석 과정 개요
  • 13. 데이터 원천 기존 버전 2018년 추가 사항 국문 뉴스 네이버, 다음, 지방지 뉴스 기존과 동일 영문 뉴스 52개 해외 통신사 구글 뉴스 (30개 재난분류 키워드셋) 국문 학술정보 해당 없음. 15개 재난관련 키워드 중심 영문 학술정보 해당 없음. 22개 재난관련 키워드 중심 국문 위키피디아 해당 없음. 재난관련 카테고리 페이지 영문 위키피디아 해당 없음. 재난관련 카테고리 페이지 1. 국내 뉴스, 국외 뉴스 - 재난관련 정보를 인포박스에서 추출 - 반정형 데이터 형태의 데이터베이스(Database, DB)로 저장 2. 학술 정보 - 재난 유형별, 시대별, 지역별 재난관련 국문, 영문 연구동향을 DB화 3. 영문 뉴스 - 구글 RSS의 검색 조건을 활용하여 영문 재난 키워드 기준으로 관련 뉴스를 아웃링크 방식으로 URL을 저장하는 형태의 수집을 진행
  • 14. 재난관련 사건정보를 다루는 페이지를 추출, 인포박스의 내용을 추출 후 데이터 저장 - 위키피디아 덤프 파일의 XML 구조를 파싱한 후 정보 저장 - 재난관련 카테고리로 분류된 데이터를 추출 대한민국의 자연재해, 대한민국의 보건재해, 대한민국의 산불, 대한민국의 산사태, 대한민국의 지진, 대한민국의 태풍, 대한민국의 홍수, 대한민국의 풍수해, 대한민국의 폭발, 대한민국의 화재, 대한민국의 인재 사고, 대한 민국의 붕괴 사고, 대한민국의 해양 사고, 대한민국의 교통 사고, 대한민국의 철도 사고, 대한민국의 인재 사고, 대한민국의 도로 사고, 대한민국에서 일어난 항공 사고, 대한민국의 수질 오염, 대한민국의 기름 유출, 기상재해, 가뭄, 모래폭풍, 번개, 설해, 안개, 열대 저기압, 토네이도, 폭염, 한파, 홍수, 기상 악화로 인한 항공 사고, 기상특보, 낙뢰, 냉해, 라니냐, 박무, 상층대기 번개, 안개, 엘니뇨, 집중호우, 태풍, 폭설, 하이퍼케인, 하향격풍, 한파, 해 수면 상승, 황사, 화이트아웃, 미세먼지, 스모그, 대기 오염, 지구 온난화
  • 15. 구글 뉴스 RSS 서비스를 활용한 영문 뉴스 탐색 체계 강화 - 30분 간격으로 228,864(149×32×48)회 RSS 크롤링을 실시 - 1,035개의 언론사가 작성한 2,312개의 기사를 수집 (2018년 10월 1일 기준) 구글 검색 국가 코드 패러미터 (149개) 재난관련 RSS 검색어 리스트 (32개) ko, de, uk, fr, af, ach, ak, am, ar, az, be, bem, bg, bh, bn, br, bs, ca, chr, ckb, co, crs, cs, cy, da, ee, el, en, eo, es, es-419, et, eu, fa, fi, fo, fy, ga, gaa, gd, gl, gn, gu, ha, haw, hi, hr, ht, hu, hy, ia, id, ig, is, it, iw, ja, jw, ka, kg, kk, km, kn, kri, ku, ky, la, lg, ln, lo, loz, lt, lua, lv, mfe, mg, mi, mk, ml, mn, mo, mr, ms, mt, ne, nl, nn, no, nso, ny, nyn, oc, om, or, pa, pcm, pl, ps, pt- BR, pt-PT, qu, rm, rn, ro, ru, rw, sd, sh, si, sk, sl, sn, so, sq, sr, sr-ME, st, su, sv, sw, ta, te, tg, th, ti, tk, tl, tn, to, tr, tt, tum, tw, ug, ur, uz, vi, wo, xh, xx-bork, xx-elmer, xx-hacker, xx- klingon, xx-pirate, yi, yo, zh-CN, zh-TW, zu earthquake, typhoon, heavy rain, flood, strong wind, high winds, high waves, tsunami, heavy snow, thunderstroke, drought, yellow dust, green tide, red tide, heat wave, cold wave, volcano, forest fire, fire, collapse, explosion, traffic accident, car crash, railroad accident, air crash, ship accident, disease, chemical accident, fine dust, pollution, radiation accident, infection 분류기준 세분화 재난관련 뉴스 수집 효율성 강화 기존방법 신규방법 일반 (18%) 일반 (89%) 재난 (11%) 재난 (82%) 분류 상세 유형 예시 재 난 핵심 (67%) • 실제 현재 재난 관련 사건 뉴스 • 현재 발생 태풍 • 현재 발생 지진 일반 (33%) • 과거 재난관련 설명 뉴스 • 재난 대책 관련 주제 뉴스 • 과거 쓰나미 • 재난시 행동요령 일 반 연관 (74%) • 재난 정책 등 연관 주제 뉴스 • 대응 체계 무관 (26%) • 키워드만 우연히 일치 • 영화 내용 등 52개 국제 통신사 크롤러 일수집 평균 4,300여건 구글 RSS, 구글 검색 일수집 평균 2,300여건
  • 16. 이벤트 속성정보 분석 - 전체 30개 재난유형으로 분류 후 시간/공간/행위자/술어/부정어 정보 등 추출 - 모듈에 각 의미 단위로 태거를 추가 형태로 이벤트 속성정보 추출 기능 확장 COLUMN_NAME DATA_TYPE DATA_LENGTH DESCRIPTION PK job_id character varying(n) 40 작업별 아이디 PK doc_uid character varying(n) 255 문서 고유 아이디(URL) PK sent_uid numeric - 문장 고유 아이디 PK business_code character varying(n) 4 NDMI PK category_code character varying(n) 16 정의 테이블 참조 PK doc_date timestamp without time zone - 문서 작성 날짜 PK disaster_code numeric - 재난 코드 timex_info text - 시간 정보 spatial_info text - 공간 정보 agent1_info text - 행위자1 정보 (피해원인) agent2_info text - 행위자2 정보 (피해대상) predicate_info text - 술어 정보 neg_info text - 부정어 정보 disaster_death_info text - 사망자 관련 수치정보 disaster_injury_info 부상자 관련 수치정보 disaster_missing_info 실종자 관련 수치정보 disaster_property_info 재산피해 규모 관련 수치정보 update_date timestamp without time zone - 데이터 업데이트 일시 TABLENAME DW.DOC_DETAIL_EVENT_INFO DESCRIPTION 문서내 출현 사건 상세 정보 테이블 /usr/lib/python2.7/dist- packages/semanticTagger.so Import semanticTagger smt = semanticTagger.semanticTagger() - smt.timex_tagger - smt.negation_tagger - smt.spatial_tagger - smt.subject_tagger - smt.object_tagger - smt.predicate_tagger Rule Set tagging disambiguation extraction 오류 케이스 분석 후 룰셋 추가
  • 17. Data 1 Row Size : 517 byte 택소노미 코드 조합 CODE = CLASS_CODE + CATEGORY_CODE + ITEM_CODE + ALIAS_CODE + PATTERN_CODE + VERSION + BRANCH 택소노미 코드 예시 D01NIC001000AC001PC001V02B00 문서분류 코드 조합 CODE = CLASS_CODE + CATEGORY_CODE + ITEM_CODE + VERSION + BRANCH 문서분류 코드 예시 D01NIC001000V02B00 Varchar (60) Varchar(60) Varchar(30) Varchar(30) Varchar(3) Varchar(3) Varchar(30) Varchar(3) Varchar(30) Varchar(1) Varchar(45) Varchar(9) Varchar(45) Varchar(5) Varchar(120) Varchar(5) DATETIME (8) Varchar(30) AUTHORITY AUTHORITY_CODE MANAGER MANAGER_CODE VERSION BRANCH CLASS CLASS_CODE CATEGORY CATEGORY_CODE ITEM ITEM_CODE ALIAS ALIAS_CODE PATTERN PATTERN_CODE DATETIME EDITOR 관리주체 관리주체_코드 관리자 관리자_코드 버전 버전상세 대분류 대분류_코드 재난유형 재난유형_코드 재난항목 재난항목_코드 항목유의어 항목유의어_코드 검색패턴 검색패턴_코드 작성일 작성자 태풍 AC001 (태풍)^(상륙, 풍속, 북상, 영향, 호우, 접근) PC001 20160825 DOW1112 타이푼 AC002 (타이푼)^(상륙, 풍속, 북상, 영향, 호우, 접근) PC001 20160825 DOW1112 … … … … … … 홍수 IC0020000 … AC001 (강우, 호우, 폭우, mm, 피해, 수위, 방류, 기후)^(홍수, 범람, 수몰, 물난리, 침수) PC001 20160825 DOW1112 호우 IC0030000 … AC001 (호우, 폭우, 장마, 국지성 호우, 집중호우) PC001 20160825 DOW1112 강풍 IC0040000 … AC001 (강풍, 돌풍) PC001 20160825 DOW1112 풍랑 IC0050000 … AC001 (풍랑) PC001 20160825 DOW1112 해일 IC0060000 … AC001 (지진해일, 쓰나미, 폭풍해일) PC001 20160825 DOW1112 대설 IC0070000 … AC001 (폭설) PC001 20160825 DOW1112 낙뢰 IC0080000 … AC001 (낙뢰, 벼락) PC001 20160825 DOW1112 가뭄 IC0090000 … AC001 (가뭄)^(#야구, #분양, #채용, #수주) PC001 20160825 DOW1112 지진 IC0100000 … AC001 (지진)^(#담배, #담뱃불, #동공) PC001 20160825 DOW1112 황사 IC0110000 … AC001 (황사, 미세먼지) PC001 20160825 DOW1112 조류 IC0120000 … AC001 (적조, 녹조) PC001 20160825 DOW1112 화산 IC0130000 … AC001 (화산,백두산, 후지산, 마그마) PC001 20160825 DOW1112 산사태 IC0140000 … AC001 (산사태) PC001 20160825 DOW1112 폭염 IC0150000 … AC001 (폭염,열대야, 이상고온, 온열질환, 불볕더위, 무더위, 열사병) PC001 20160825 DOW1112 한파 IC0160000 … AC001 (한파) PC001 20160825 DOW1112 우박 IC0170000 … AC001 (우박) PC001 20160825 DOW1112 … … … … … … … … 산불 IC0010000 … AC001 PC001 20160825 DOW1112 화재 IC0020000 … AC001 (방화)^(#삼성화재, #동부화재, #메리츠화재) PC001 20160825 DOW1112 붕괴 IC0030000 … AC001 (붕괴)^(#주식, #증시, #상하이지수, #상하이 지수, #코스피, #코스닥, #선발, #불펜, #실점, #거품, #버블, #멘탈, #달러선, #과반붕괴, #과반 붕괴, #소련 붕괴) PC001 20160825 DOW1112 폭발 IC0040000 … AC001 (폭발) PC001 20160825 DOW1112 (육상)교통사고IC0050000 … AC001 (교통, 지하철, 차량, 다중, 자동차)^(사고, 추돌) PC001 20160825 DOW1112 항공사고 IC0060000 … AC001 (항공, 항공기, 여객기, 비행)^(추락, 사고, 충돌, 이탈) PC001 20160825 DOW1112 해상사고 IC0070000 … AC001 (선박, 여객선, 어선)^(침몰, 좌초, 전복) PC001 20160825 DOW1112 화생방사고 IC0080000 … AC001 (가스, 화학물질)^(누출, 유출) PC001 20160825 DOW1112 원자력사고 IC0090000 … AC001 (방사능, 방사성, 원전)^(누출, 유출) PC001 20160825 DOW1112 환경오염사고(대기)IC0100000 … AC001 (대기)^(오염) PC001 20160825 DOW1112 환경오염사고(수질)IC0110000 … AC001 (수질^오염, 기름^유출) PC001 20160825 DOW1112 환경오염사고(토질)IC0120000 … AC001 (토질)^(오염) PC001 20160825 DOW1112 감염병 IC0130000 … AC001 (전염, 치사율, 감염, 잠복기, 방역, 격리) PC001 20160825 DOW1112 가축전염병 IC0140000 … AC001 (구제역, 조류독감, AI, 조류인플루엔자) PC001 20160825 DOW1112 국가기반시설IC0150000 … AC001 (정전, 블랙아웃, black out, 수급 부족) PC001 20160825 DOW1112 에너지 IC0160000 … AC001 (정전, 누전, 전력 부족, 순환 정전) PC001 20160825 DOW1112 통신 IC0170000 … AC001 (해킹, 통신 마비, 두절, 사이버 테러, 디도스, 통신 대란, 통신 장애, 전산마비) PC001 20160825 DOW1112 교통 IC0180000 … AC001 (기차, 열차, KTX, 무궁화, 새마을^탈선, 다중 추돌, 항만 정지, 화물연대^파업) PC001 20160825 DOW1112 금융 IC0190000 … AC001 (금융, 전산)^(마비,장애,사고) PC001 20160825 DOW1112 의료 IC0200000 … AC001 (혈액)^(부족) PC001 20160825 DOW1112 수도 IC0210000 … AC001 (단수, 제한 급수) PC001 20160825 DOW1112 … … … … … … … … 치안 IC0010000 … AC001 (폭력, 절도, 강도, 강간, 성추행, 성폭력, 살인) PC001 20160825 DOW1112 안전사고 IC0020000 … AC001 (추락, 익사, 맨홀, 승강기, 엘리베이터, 에스컬레이터, 환풍구, 감전) PC001 20160825 DOW1112 … … … … … … … … IC0010000 … AC001 부상자 PC001 20160825 DOW1112 IC0020000 … AC001 환자 PC001 20160825 DOW1112 … AC001 사망 PC001 20160825 DOW1112 … … 사망자 PC002 20160825 DOW1112 … AC001 실종 PC001 20160825 DOW1112 … … 실종자 PC002 20160825 DOW1112 IC0050000 … AC001 목숨 PC001 20160825 DOW1112 … AC001 숨지다 PC001 20160825 DOW1112 … … 숨졌다 PC002 20160825 DOW1112 … … 숨져 PC003 20160825 DOW1112 … … 죽은 PC004 20160825 DOW1112 … … 죽어가는 PC005 20160825 DOW1112 … … … … … … … … IC0010000 … AC001 (만원, 백만원, 억원, 십억원)^(피해,손실) PC001 20160825 DOW1112 IC0020000 … AC001 (재산피해, 재산 피해) PC001 20160825 DOW1112 IC0030000 … AC001 (피해, 손실) PC001 20160825 DOW1112 … … … … … … … … IC0010000 … AC001 붕괴 PC001 20160825 DOW1112 IC0020000 … AC001 파괴 PC001 20160825 DOW1112 IC0030000 … AC001 유실 PC001 20160825 DOW1112 … … … … … … … … IC0010000 … AC001 폐사 PC001 20160825 DOW1112 IC0020000 … AC001 살처분 PC001 20160825 DOW1112 IC0030000 … AC001 고사 PC001 20160825 DOW1112 … … … … … … … … 국립재난안전연구원 NDMI 김도우 DOW1112 V02 B00 재난 D01 (Disaster) 자연재난 N (Natural disaster) 피해 D02 (Damage) 인명피해 C (Casuaties) 시설피해 F (Facilities) 가축피해 A (Animals) 태풍 IC0010000 사회재난 S (Social disaster) 기타안전 O (Others) IC0030000 IC0040000 IC0060000 재산피해 P (Properties) 재난 유형별 관리 항목 체계화 - 폭염, 한파, 가뭄, 폭설 등 확장 가능
  • 18. 문서의 이벤트 속성정보 검색을 위한 기초 데이터 가공 1. 30개 재난분류(R-Scanner 키워드 기반)를 적용하여 최근 3년간 86,001건 문서 분류 2. 각 사건 정보를 문서내에서 문장단위로 semanticTagger를 이용해 추출 3. 재난관련 사건정보를 scale 태깅 후 유형 분류 - 재난유형, 피해유형을 분류 후 사망자, 부상자, 실종자, 재산피해, 발생기간, 발생지역 정보 추출 4. 추출 사건정보의 데이터베이스 적재 2018 2017 2016 추출 사건정보 수량 278152 142880 103213 추출 사건정보 총계 DC01(태풍) 3160 358 898 DC02(호우,홍수) 2357 2557 1007 DC03(강풍) 669 320 406 DC04(풍랑) 154 205 134 DC05(해일) 6 2 7 DC06(대설) 1467 742 477 DC07(낙뢰) 39 50 25 DC08(가뭄) 518 1018 110 DC09(지진) 1201 3370 1608 DC10(황사) 52 55 52 DC11(녹조) 446 298 213 DC12(적조) 120 13 40 DC13(폭염) 5617 1920 1727 DC14(한파) 2169 700 598 DC15(화산) 5 8 0 524245 DC16(산불) 1203 1467 230 DC17(화재) 9330 4284 2679 DC18(붕괴) 1086 1069 874 DC19(폭발) 357 258 204 DC20(교통사고) 3413 3450 2258 DC21(철도사고) 553 193 381 DC22(항공기사고) 74 23 83 DC23(선박사고) 879 784 279 DC24(감염병) 478 182 312 DC25(가축전염병) 749 1281 642 DC26(화학물질) 167 37 44 DC27(미세먼지) 5457 1868 1144 DC28(환경오염) 387 513 292 DC29(방사능사고) 62 21 5 DC30(전력,통신,가스단절) 34 11 6 연도별 집계 42209 27057 16735 총 집계 86001
  • 19. 재난안전 관련 기사 자동 분류 - 재난 상황 관련 기사와 재난관련 정책 기사 간 분류 - 30개 재난 분류 자동화 - 총 10년치 (2009년 10월 1일 ~ 2018년 9월 30일) - 키워드 기반 학습 데이터 기준 기계학습 (SVM) 수동 결정 키워드 기반 검출 현재(AS-IS) 개선(TO-BE) 키워드 분류의 오류, 시간에 따른 신규용어 발생 머신러닝 활용한 탐지 효율 및 탐지율 지속 개선 [오류케이스 확인] [오류케이스 확인] 수동 모니터링 결과 검증 머신 러닝 수동 모니터링 전수 검사 머신러닝에 의한 자동분류 유출여부 판별 벡터화 계산 재난 분류 자동 분류 정책 기사 자동 분류 실시간 재난 국문 뉴스 실시간 재난 영문 뉴스 과거 재난 뉴스 검출모델 선순환 개선 수동 분류 경험 축적 특정 재난 뉴스 72% 94% 97% 78% 92% 93% 77% 92% 94% 0% 20% 40% 60% 80% 100% 1차 2차 3차 재현율 정밀도 F1 Score 정답여부 분류 제목 오답 환경오염 대구시, 산업단지 주변 악취오염도 조사 정답 환경오염 '녹조라떼' 오명 대청호 상류지역 오염행위 여전 오답 환경오염 울산시, 산업단지 5곳에 수질오염방지시설 13개 설치
  • 20. 정보 분석의 활용성과 확장성을 고려한 데이터베이스 모델링을 통한 데이터베이스 구축 재난대응 의사결정 지원 시스템의 목적별 분석 특성에 따른 정의 및 설계 재난상황자료 - 주요 부처별 재난관련 문서 - 행정협조를 통한 데이터 확보 1 ETL 처리 BI/BA수집계 정형 분석 대시보드 Analytics 비정형 분석 SDW DW 재난정보 DW DM Dashboard 마트 공통 집계 정형분석마트 비정형분석마트 시계열 분석 연관성 분석 패턴 분석 사건정보분석 주제분석 본문요약분석 권역분석 수집자료 - 국내외 뉴스, 보도자료 - 공공데이터 SDW - ODS, DW, DM 으로 구성 3 대응주체 재난유형 발생시간 피해대상 피해규모 FTP/RawFi les 2 재난상황자료 상황보고 1 ETL … 일자별 분류 데이터 저장 시간, 수집기 상태 정보 ODS 수집 임시 저장 수집자료 2 3 재난 주제분석 재난 권역정보재난 사건정보 관련문서 요약 재난 유형분류 현대차 멤버십 서비스 맞춤형 혜택 현대차 멤버십 서비스 맞춤형 혜택 우리카드 영화 당갈 시사회 초청 이벤트 롯데카드 이랜드리테일 롯데카드 출시 임산부 맘 모르는 맘카드 파파존스, BC카드 고객 피자 세트 할인 매뉴얼 연속간행물 국문/영문뉴스 보도자료 공공데이터 발생지역 피해유형
  • 21. 문서의 사건 정보 추출 - 30개 재난유형으로 분류된 기사에서 사건 정보 추출 - 문서의 사건 정보 기록을 위한 상세 테이블 관리 - 9개 DW 테이블(기록), 1개 DM 테이블(화면조회) 1. 시간 정보 : DW.DOC_DETAIL_EVENT_TIMEX_INFO 문서 내 문장 별 시간 정보 기록 2. 공간 정보 : DW.DOC_DETAIL_EVENT_SPATIAL_INFO 문서 내 문장 별 공간 정보 기록 3. 주어 정보 : DW.DOC_DETAIL_EVENT_SUBJECT_INFO 문서 내 문장 별 주어 정보 기록 4. 목적어 정보 : DW.DOC_DETAIL_EVENT_OBJECT_INFO 문서 내 문장 별 목적어 정보 기록 5. 술어 정보 : DW.DOC_DETAIL_EVENT_PREDICATE_INFO 문서 내 문장 별 술어 정보 기록 6. 부정어 정보 : DW.DOC_DETAIL_EVENT_NEGATION_INFO 문서 내 문장 별 부정어 정보 기록 7. 수식어 정보 : DW.DOC_DETAIL_EVENT_MODIFIER_INFO 문서 내 문장 별 수식어 정보 기록 (mod-a : 동작성 수식어, mod-s : 상태성 수식어) 8. 규모 정보 : DW.DOC_DETAIL_EVENT_SCALE_INFO 문서 내 문장 별 규모 정보 기록 9 . 링크 정보 : DW.DOC_DETAIL_EVENT_LINK_INFO 문서 내 문장 별 링크 정보 기록 (tlink : 시간정보 링크, slink : 상태정보 링크)
  • 22. 문서의 시간 정보 추출 (예시) - 문서의 시간 정보 상세 관리 테이블 (DW.DOC_DETAIL_EVENT_TIMEX_INFO) - 문서 내 문장단위의 시간 정보를 기록하기 위해 구성된 테이블 - 주요 정보 : timex_idx, position, timex_info 2003년 9월 4일 괌 부근 해상에서 발생한 열대저기압은 느리게 발달하면서 북서쪽으로 나아가 약 이틀이 지난 9월 6일 오후 3시 무렵 제14호 태풍 매미가 되었다. <timex>2003/SN 년/NNB 9월/NNT 4/SN 일/NNBC</timex> <spatial>괌/NNG 부근/NNG 해상/NNG 에서/JKB</spatial> <mod- s>발생/NNG 한/XSA+ETM</mod-s> <object>열대저기압/NNG 은/JX</object> <predicate>느리/VA 게/EC <predicate>발달/NNG 하 /VV</predicate></predicate> 면서/EC <spatial>북서쪽/NND 으로/JKB</spatial> <predicate>나아가/VV+EC</predicate> <timex> 약/MM 이틀/NNT</timex> 이/JKS 지난/VV+ETM <timex>9월/NNT 6/SN 일/NNBC 오후/NNT 3/SN 시/NNB 무렵/NNB</timex> <subject>제/XPN 14/SN 호/NNBC 태풍/NNG 매미/NNG 가/JKS</subject> <predicate>되/VV 었/EP</predicate> 다/EF ./SF 작성일 2018.09.03 ref. table ref. field job_id PK Y 작업 아이디 character varying(n) 40 작업별 아이디 doc_uid PK Y 문서 고유 아이디 character varying(n) 255 문서 고유 아이디(URL) sent_uid PK Y 문장 고유 아이디 numeric - 문장 고유 아이디 business_code PK Y 비즈니스 코드 character varying(n) 2 NDMI category_code PK Y 카테고리 코드 character varying(n) 16 정의 테이블 참조 doc_date PK Y 문서 일자 timestamp without time zone - 문서 작성 날짜 timex_idx PK Y 시간 정보 인덱스 number 시간 정보 인덱스 position PK Y 위치 number 위치 timex_info 시간 정보 text - 시간 정보 load_date 적재일시 timestamp without time zone - 초기적재시간 update_date 데이터 업데이트 일시 timestamp without time zone - 데이터 업데이트 일시 프로젝트명 테이블 개요 No. R-SCANNER 테이블(파일) 정의서 길이/ Dec. Check Table Currency/Quantity 비고필드 ID TypeKey 작성자 고민수 테이블 명 문서내 출현 사건 상세 정보 테이블 Search Help Initia l Data Element 필드명 테이블 ID Index Key DW.DOC_DETAIL_EVENT_TIMEX_INFO 문서의 사건 정보 상세 관리 (시간 정보)
  • 23. 문서의 공간 정보 추출 (예시) - 문서의 공간 정보 상세 관리 테이블 (DW.DOC_DETAIL_EVENT_SPATIAL_INFO) - 문서 내 문장단위의 공간 정보를 기록하기 위해 구성된 테이블 - 주요 정보 : spatial_idx, position, spatial_info 2003년 9월 4일 괌 부근 해상에서 발생한 열대저기압은 느리게 발달하면서 북서쪽으로 나아가 약 이틀이 지난 9월 6일 오후 3시 무렵 제14호 태풍 매미가 되었다. <timex>2003/SN 년/NNB 9월/NNT 4/SN 일/NNBC</timex> <spatial>괌/NNG 부근/NNG 해상/NNG 에서/JKB</spatial> <mod-s> 발생/NNG 한/XSA+ETM</mod-s> <object>열대저기압/NNG 은/JX</object> <predicate>느리/VA 게/EC <predicate>발달/NNG 하 /VV</predicate></predicate> 면서/EC <spatial>북서쪽/NND 으로/JKB</spatial> <predicate>나아가/VV+EC</predicate> <timex> 약/MM 이틀/NNT</timex> 이/JKS 지난/VV+ETM <timex>9월/NNT 6/SN 일/NNBC 오후/NNT 3/SN 시/NNB 무렵/NNB</timex> <subject>제/XPN 14/SN 호/NNBC 태풍/NNG 매미/NNG 가/JKS</subject> <predicate>되/VV 었/EP</predicate> 다/EF ./SF 작성일 2018.09.03 ref. table ref. field doc_uid PK Y 문서 고유 아이디 character varying(n) 255 문서 고유 아이디(URL) sent_uid PK Y 문장 고유 아이디 numeric - 문장 고유 아이디 business_code PK Y 비즈니스 코드 character varying(n) 2 NDMI category_code PK Y 카테고리 코드 character varying(n) 16 정의 테이블 참조 doc_date PK Y 문서 일자 timestamp without time zone - 문서 작성 날짜 spatial_idx PK Y 공간 정보 인덱스 number 공간 정보 인덱스 position PK Y 위치 number 위치 spatial_info 공간 정보 text - 공간 정보 load_date 적재일시 timestamp without time zone - 초기적재시간 update_date 데이터 업데이트 일시 timestamp without time zone - 데이터 업데이트 일시 Key Initia l 테이블(파일) 정의서 R-SCANNER DW.DOC_DETAIL_EVENT_SPATIAL_INFO 문서의 사건 정보 상세 관리 (공간 정보) 문서내 출현 사건 상세 정보 테이블 고민수작성자 테이블 명 비고 테이블 ID 프로젝트명 Type Data Element 필드명 테이블 개요 필드 ID Check Table 길이/ Dec. Currency/QuantitySearch Help No. Index Key
  • 24. 문서의 규모 정보 추출 (예시) - 문서의 규모 정보 상세 관리 테이블 (DW.DOC_DETAIL_EVENT_SCALE_INFO) - 문서 내 문장단위의 규모 정보를 기록하기 위해 구성된 테이블 - 주요 정보 : spatial_idx, position, spatial_info 제25호 태풍 콩레이가 한반도를 할퀴고 지나가며 2명이 숨지고 1명이 실종됐다. 또 주택 1300여채가 침수됐고 이재민 400여명이 발생 했다. 또 주택 1365채가 침수됐다. <subject>제/XPN 25/SN 호/NNBC 태풍/NNG 콩레이/NNG 가/JKS</subject> <spatial>한반도/NNP</spatial> 를/JKO <predicate><predicate>할퀴/VV 고/EC</predicate> 지나가/VV</predicate> 며/EC <scale>2/SN 명/NNBC</scale> 이/JKS <predicate>숨지/VV 고/EC</predicate> <scale>1/SN 명/NNBC</scale> 이/JKS <predicate>실종/NNG 됐/VV</predicate>+EP 다 /EF ./SF 또/MAG 주택/NNG <scale>1300/SN 여/XSN 채/NNB</scale> 가/JKS <predicate><mod-a>침수/NNG 됐/XSV+EP</mod- a></predicate> 고/EC 이재민/NNP <scale>400/SN 여/XSN 명/NNBC</scale> 이/JKS <predicate><mod-a>발생/NNG 했 /XSV+EP</mod-a></predicate> 다/EF ./SF 또/MAG 주택/NNG <scale>1365/SN 채/NNB</scale> 가/JKS <predicate><mod-a>침수 /NNG 됐/XSV+EP</mod-a></predicate> 다/EF ./SF 작성일 2018.09.03 ref. table ref. field job_id PK Y 작업 아이디 character varying(n) 40 작업별 아이디 doc_uid PK Y 문서 고유 아이디 character varying(n) 255 문서 고유 아이디(URL) sent_uid PK Y 문장 고유 아이디 numeric - 문장 고유 아이디 business_code PK Y 비즈니스 코드 character varying(n) 2 NDMI category_code PK Y 카테고리 코드 character varying(n) 16 정의 테이블 참조 doc_date PK Y 문서 일자 timestamp without time zone - 문서 작성 날짜 scale_idx PK Y 규모 정보 인덱스 number 규모 정보 인덱스 position PK Y 위치 number 위치 scale_type 규모 정보 유형 character varying(n) 10 규모 정보 유형 scale_info 규모 정보 text - 규모 정보 load_date 적재일시 timestamp without time zone - 초기적재시간 update_date 데이터 업데이트 일시 timestamp without time zone - 데이터 업데이트 일시 Initia l Key Data Element 필드명 DW.DOC_DETAIL_EVENT_SCALE_INFO 문서의 사건 정보 상세 관리 (규모 정보) Type 테이블 명 문서내 출현 사건 상세 정보 테이블 R-SCANNER 테이블(파일) 정의서 고민수 Currency/QuantitySearch Help 작성자 길이/ Dec. Check Table 비고필드 IDNo. 테이블 개요 프로젝트명 테이블 ID Index Key
  • 25. 문서의 사건 정보 상세 관리 테이블 (DM) - 문서 단위로 문서내 문장별 사건정보를 검색 가능한 테이블로 표상 - DW의 사건정보 기록을 위한 9개 테이블을 사건 대상(Object) 기준으로 JOIN - 239,721개 레코드 (최근 3년)
  • 26. 재난 사건 검색 UI 개발 - 현재까지 구축된 데이터인 위키피디아 국문, 위키피디아 영문, 국내뉴스, 해외뉴스 대상 - 본 과업 범위 내에서는 최근 3년간 데이터에 대해서 적재 - 과거 전체 기간 데이터에 대해서 순차적으로 배치 프로세스에 의해 진행
  • 27. 인과관계 분석 - 공시적/통시적 인과관계 추출, 사건 개념 단위 확률적 모델링, 경로 추적/역추적 분석 - 데이터 테이블의 정보를 큐브 형태로 관리하여 실시간 분석, 시각화 분석
  • 29. 한국환경정책평가연구원 – 재난대응 의사결정지원시스템 예시
  • 30. 한국환경정책평가연구원 – 재난대응 의사결정지원시스템 예시
  • 31. 예방 대비 대응 복구 • 유형별재난 중장기전망 • 재난목표설정 등 예방기획 • 재난별적응대책수립 • 자연재해저감종합계획수립 • 자연재난관리에관한제도개선 • 재난노출지역의시설물점검 및 피 난소위치최적화 • 재해위험지구정비 • 재난대비종합훈련 • 재난대응지침및 의사결정지원 • 위험정보활용 및 제공 • 핫스팟지역의Shelter이동 방안제 공 • 재난구호물품(쿨매트,난방기구등 ) 지급 • 비상대응체계운영 • 안전정책실-재난경감과 • 재난협력실– 재난안전조사과 • 재난복구정책관- 복구지원과 • 재난관리실– 재난대응정책과 • 재난관리실- 자연재난대응과 • 자연재난으로인한복구지원 • 자연재난으로인한인명피해비용 및 복구비용보상 누적 피해 현황Shelter(무더위쉼터) 분포취약계층 집중 거주지역 축사 분포 실시간 이슈 과거 피해 시간대별 취약지역 Shelter network • 안정정책실– 예방안전과 • 안전정책실- 재난영향분석과 시나리오별 대응방안 제시
  • 32. 기술적 성과과학적 성과 사회적 성과 재난 영향 분석 노출 온도 기반 재난 피해 분석 맞춤형 대응절차 및 안전관리매뉴얼, 가이드라인 지능형 재난 의사결정지원 시스템 사회∙경제·산업적 기대효과 정책적 기대효과 과학∙기술적 기대효과 ▪ 인명 피해 예방으로 사회적 비용 저감에 기여 ▪ 재난 대응에서 인적·물적 자원의 효율적 활용을 지원하여 사회적 비용 저감에 기여 ▪ 스마터 재난대응을 위한 이종 데이터 융·복합 기술의 해외 수출 토대 마련 ▪ 재난 영향 예측 및 대응을 위한 이종 데이터 융·복합 및 시각화 원천 기술 확보 ▪ 자연재해 감시기술 분야의 국가 경쟁력 제고 ▪ 취약인구 분포 특성이 반영된 재난 예측 모델 개발 기술 확보 ▪ 특허 출원 5 건 ▪ SW 등록 4 건 ▪ 기술이전 1 건 ▪ 정보활용도 77.5점 이상 ▪ 홍보 실적 5 건 ▪ 정책 활용 5 건 ▪ 학술회의 개최 2 건 ▪ 잠재가치 전문가 정성평가 70점 이상 ▪ SCI(E) 논문 9 편 ▪ KCI 논문 11 편 ▪ 학술회의 발표 10 편 ▪ SCI(E) mrnIF 66점 이상 ▪ 과학적, 종합적 정보를 기반으로 한 정책결정자의 의사결정 지원 ▪ 지역 맞춤형 재난 정보 생산으로 체감형 재난대응 정책 제공
  • 33. 1. 위키피디아 재난관련 페이지 자동 분류 기술 개발 - 그래프 구조 활용 : 카테고리 네트워크 구조, 상하위 개념 구조, 링크 연결 구조, - 텍스트 내용 활용 : 정의문 영역, 본문 설명 영역 - 반정형 데이터 활용 : 인포박스, 표 2. 재난 사건정보 데이터베이스 공개 - 재난 사건정보 DB의 추출 정확도 검증 - 데이터베이스 배포를 통해 과제 성과의 확산, 학술 교류 3. 개체명 연결 및 해소 (Entity Linking & Reslution) 기술 개발 - 재난 사건정보 데이터베이스를 이용하여 각 사건 정보 간의 링크 관계를 파악 - 단순한 상대 위치를 계산 방식으로는 다중 관계 해소 불가능 - 양질의 재난 사건정보 데이터베이스 구축 방법론 - 개체명 표현과 연결할 적절한 개체가 없는 경우 (NIL 정보) 해결 방법 - 각 개체간 다중 연결 문제의 중의성 해소 방법
  • 34. Thank you! OWLNEST Proactive discovery and insights from contexts