4. The Data Deluge
Data perspective
IBM estimates that by 2020 we will have 44 zettabytes — the thousand-fold number
next up from exabytes — generated by all those devices. However, much of the data
that agencies are generating and storing isn’t even usable.
4
5. Data Should be more smarter
Data perspective
Data needs to be understood and interpreted in a specific context. Most data out there
is unstructured and only with artificial intelligence and analytics unstructured data
can be turned into smart data and actionable data.
1. Well-defined structured
2. Machine understandable
3. Contextual processing
4. Semantically interlinked
5
6. “공공데이터법 제정·시행에 따라 수립된 제1차 공공데이터 기본계획 (개방, 기반, 생태계, 역량)은
정부혁신의 핵심 어젠다로 全 국가기관이 참여하여 적극 추진” – 제2차 (17~19) 공공데이터 기본 계획
공공데이터 추진 성과
Overview
출처: http://www.etnews.com/20161220000181
6
7. 0 1 2 3 4 5 6 7 8 9 10
Extremely
unlikely
Extremely
likely
HOW LIKELY ARE YOU TO SATISFY?
7
8. 8
“공공데이터법 제정·시행에 따라 수립된 제1차 공공데이터 기본계획 (개방, 기반, 생태계, 역량)은
정부혁신의 핵심 어젠다로 全 국가기관이 참여하여 적극 추진” – 제2차 (17~19) 공공데이터 기본 계획
공공데이터 추진 성과
Overview
출처: http://www.etnews.com/20161220000181
RESPONSE
11. “A change in the world that
seems so clear you’re sure
someone else will do it. But they
won’t. You will.”
Mark Zuckerberg’s Harvard
commencement speech (2017)
12. 데이터 수집 및 분석 방법: https://brunch.co.kr/@haklaekim/
분석 데이터 및 소스코드
(GitHub)
분석 프로세스
1. 공공데이터포털 데이터 목록 (NIA 제공)
2. 데이터 수집 전처리는 공개한 소스 기준
12
13. 파일이나 데이터베이스에 있는 데이터를 소프트웨어로 읽을 수 있는 것. 공공데이터포털은 대규모
데이터를 기계 판독이 가능한 형태 - CSV, XML, JSON, XML-로 제공
기계가 판독이 가능한 공공 데이터
데이터 활용성데이터 접근성
백서
Machine-
Readable
HWP,PDF XLS CSV
Linked
Data
Data Filter Visualize Story
13
14. Problem statement
경상남도 함양군 기관현황 데이터 (2017)
일선행정기관 주소와 전화번호 데이터
(A)
(B)
판독 가능한 데이터 형식이 데이터 자체를 쉽게 처리하는 것을 의미하지 않는다.
14
15. 공공데이터포털 데이터 현황
1. 파일 (CSV) 데이터: 주기적으로 업데이트되는 파일 형태의 데이터 (예: 수출입통계, 범죄통계 등 수치, 통계 자료)
2. 개방표준 (Standard)데이터: 개방표준으로 공표된 표준 형식에 맞게 작성된 데이터 (예: 주차장 정보, 도시공원정보)
3. 오픈 API (API): 업데이트가 빈번한 대용량 데이터 (예: 버스운행데이터, 기상데이터 등)
15
18. 항목수가 많을 때 더 많은 메모리, IO 필요
CSV 개수
최대 항목 개수 233
최소 항목 개수 1
공공데이터 관리지침: 항목 3개, 데이터 (행) 5개 이상
데이터셋의 평균 항목 개수
API 28개
CSV 12개
STNADARD 19개
STANDARD 개수
최대 항목 개수 69
최소 항목 개수 9
API 개수
최대 항목 개수 1,247
최소 항목 개수 1
공공데이터 목록 등록·관리 기준 p. 28
18
19. 데이터셋에 포함된 필드명은 CSV 170,204개, STANDARD 884개, API 81,058개
데이터 유형별 필드명 현황
19