SlideShare a Scribd company logo
1 of 48
Download to read offline
공공데이터의 현재와 미래
김학래, KISTI | Open Knowledge Korea
생각의 차이
Chapter One
The Data Deluge
Data perspective
IBM estimates that by 2020 we will have 44 zettabytes — the thousand-fold number
next up from exabytes — generated by all those devices. However, much of the data
that agencies are generating and storing isn’t even usable.
4
Data Should be more smarter
Data perspective
Data needs to be understood and interpreted in a specific context. Most data out there
is unstructured and only with artificial intelligence and analytics unstructured data
can be turned into smart data and actionable data.
1. Well-defined structured
2. Machine understandable
3. Contextual processing
4. Semantically interlinked
5
“공공데이터법 제정·시행에 따라 수립된 제1차 공공데이터 기본계획 (개방, 기반, 생태계, 역량)은
정부혁신의 핵심 어젠다로 全 국가기관이 참여하여 적극 추진” – 제2차 (17~19) 공공데이터 기본 계획
공공데이터 추진 성과
Overview
출처: http://www.etnews.com/20161220000181
6
0 1 2 3 4 5 6 7 8 9 10
Extremely
unlikely
Extremely
likely
HOW LIKELY ARE YOU TO SATISFY?
7
8
“공공데이터법 제정·시행에 따라 수립된 제1차 공공데이터 기본계획 (개방, 기반, 생태계, 역량)은
정부혁신의 핵심 어젠다로 全 국가기관이 참여하여 적극 추진” – 제2차 (17~19) 공공데이터 기본 계획
공공데이터 추진 성과
Overview
출처: http://www.etnews.com/20161220000181
RESPONSE
공공 데이터
9
인공지능 사회혁신
스마트시티 자율주행차
숫자로 말하기
Chapter One
“A change in the world that
seems so clear you’re sure
someone else will do it. But they
won’t. You will.”
Mark Zuckerberg’s Harvard
commencement speech (2017)
데이터 수집 및 분석 방법: https://brunch.co.kr/@haklaekim/
분석 데이터 및 소스코드
(GitHub)
분석 프로세스
1. 공공데이터포털 데이터 목록 (NIA 제공)
2. 데이터 수집 전처리는 공개한 소스 기준
12
파일이나 데이터베이스에 있는 데이터를 소프트웨어로 읽을 수 있는 것. 공공데이터포털은 대규모
데이터를 기계 판독이 가능한 형태 - CSV,	XML,	JSON,	XML-로 제공
기계가 판독이 가능한 공공 데이터
데이터 활용성데이터 접근성
백서
Machine-
Readable
HWP,PDF XLS CSV
Linked
Data
Data Filter Visualize Story
13
Problem statement
경상남도 함양군 기관현황 데이터 (2017)
일선행정기관 주소와 전화번호 데이터
(A)
(B)
판독 가능한 데이터 형식이 데이터 자체를 쉽게 처리하는 것을 의미하지 않는다.
14
공공데이터포털 데이터 현황
1. 파일 (CSV) 데이터: 주기적으로 업데이트되는 파일 형태의 데이터 (예: 수출입통계, 범죄통계 등 수치, 통계 자료)
2. 개방표준 (Standard)데이터: 개방표준으로 공표된 표준 형식에 맞게 작성된 데이터 (예: 주차장 정보, 도시공원정보)
3. 오픈 API (API): 업데이트가 빈번한 대용량 데이터 (예: 버스운행데이터, 기상데이터 등)
15
97% CSV 데이터 파일의 특수 문자 포함 비율
16
개방표준데이터: RDF에 대한 이해 부족
17
항목수가 많을 때 더 많은 메모리, IO 필요
CSV 개수
최대 항목 개수 233
최소 항목 개수 1
공공데이터 관리지침: 항목 3개, 데이터 (행) 5개 이상
데이터셋의 평균 항목 개수
API 28개
CSV 12개
STNADARD 19개
STANDARD 개수
최대 항목 개수 69
최소 항목 개수 9
API 개수
최대 항목 개수 1,247
최소 항목 개수 1
공공데이터 목록 등록·관리 기준 p. 28
18
데이터셋에 포함된 필드명은 CSV 170,204개, STANDARD 884개, API 81,058개
데이터 유형별 필드명 현황
19
항목명에 특수문자와 공백을 함께 쓴 사례
©Stockphotonyc|Dreamstime.com
종 별 Classifi -cation 연 월 Year & Month
종 별 Classifi -cation 연 월 Year & Month
중도금 Partial payment for the apartment purchased세대수(호)
1,2-디브로모-3-클로로프로판<BR>(0.003㎎/L)
가구 내 고용활동 및 달리 분류되지 않은 자가소비 생산
활동_종사자수 (명)
1_2-디브로모-3-클로로프로판
003.*, 004.*, 005.*, 006.*, 007.*, 008.*, 009.*, 01*, 02* : Computer Science &
Information
000.* 001.* 002.*, 03*, 04*, 05*, 06*, 07*, 08*, 09* : General works
10*, 11*, 12*, 13*, 14*, 16*, 17*, 18*, 19* : Philosophy
15* : Psychology
2** : Religion
30*,
CSV
API
20
CSV 데이터의 항목명에서 공백과 특수문자를 포함 비율 39% 이상
©Stockphotonyc|Dreamstime.com
예제: 공백 문자
예제: 특수 문자
21
CSV 데이터 최고 사용 빈도 100
22
Standard 데이터 최고 빈도 100
23
API 최고 사용 빈도 100
24
데이터 유형별 공통 어휘 사용 비율
CSV-API
CSV-Standard
API-Standard
8%
2%
3%
1일주차권요금적용시간,강좌명,결제방법,경도,경도(WGS84좌표),공휴일운영
시작시각,공휴일운영종료시각,관리기관명,관리기관전화번호,대표자명,데이터
기준일자,설치년도,설치년월,설치시도명,소재지도로명주소,소재지지번주소,시
군구명,시도명,시설명,연락처,요금정보,운영기관명,운영기관전화번호,운영시
작일자,운영요일,운영종료일자,위도,위도(WGS84좌표),전화번호,점포수,주관
기관,주차장보유여부,주최기관,지정일자,토요일운영시작시각,토요일운영종료
시각,평일운영시작시각,평일운영종료시각,홈페이지주소,후원기관,휴관일,휴무
일
경도, 관리기관명, 구분, 기관명,년도,데이터기준일자, 번호,
비고, 소재지,소재지도로명주소, 소재지지번주소, 순번,
시군구명, 시도명, 시설명, 업소명, 업체명, 연락처, 위도,
일련번호, 전화번호, 주소, 홈페이지주소
경도, 관리기관명, 생성일자, 소재지도로명주소,
소재지지번주소, 시군구명, 시도명, 시설명, 연락처, 위도,
전화번호, 홈페이지주소
25
각급 행정기관에서 업무적으로 사용되는 명사형 어휘에 대해 행정정보 데이터베이스 시스템 구축 및 운용시
사용되도록 사전화한 단어들의 집합으로 14,111건 정의
행정표준용어 사용 여부
26
Network Analysis
404 nodes
924 edges
CSV
521 nodes
839 edges
2,445 nodes
3,013 edges
STANDARD API
27
Normalised CSV: 38,838 nodes & 167,451 edges
Lattice Analysis
전국 공연 또는 전통시장 주변에 주차장이 있는 곳?
항목명: 위도, 경도, 소재지도로명주소, 소재지지번주소, 연락처, 전화번호
29
5 Remedies to Set Things Right
Summary
1. 데이터 개방 체계에 대한 근본적 검토
2. 공공데이터 관리 지침의 현실화
3. 데이터 품질 개선을 현실적 전략
4. 공공데이터 개방을 위한 인력 확보
5. 공공데이터의 잠재적 가치 제고
현재, 미래에 대한 의견
Chapter Three
“The main thing that has caused
companies to fail, in my view, is
that they missed the future.”
Larry Page, TED 2014
공공데이터에 대한 핵심 전략
공공데이터에 대한 냉정한 현실
© Drx| Dreamstime.com
파편화된 공공데이터
© Phillip Minnis | Dreamstime.com
과학기술 데이터
의료 데이터 지도 데이터 교통 데이터
공공데이터의 차별화된 전략
36
공공 데이터 연계를 위한 전략 수립
©Infokus408|Dreamstime.com
수요자에 대한 명확한 정의: 시민, 정부, 기업
© Richard Thomas | Dreamstime.com
균형 있는 데이터 정책: 중점 데이터 vs 기반 데이터
전문성 기반 공공데이터 협업 네트워크 - KISTI
공공 데이터 전문가 확보 및 참여 기회 확대
데이터에 대한 체계적 접근: Data on the Web Best Practices (W3C)
시스템, 기술이 아닌 데이터 관점에서의 개선
시스템, 기술보다 데이터 중심의 전략
Data is a precious thing and will last longer
than the systems themselves.
Tim Berners-Lee
It will never happen, or it cannot happen without data.
대한민국, 잇다: 국가 데이터 고속도로 플랫폼
©SteveCukrov|Dreamstime.com
Email: haklaekim@gmail.com
Blog: http://brunch.co.kr/@haklaekim
“Drive” or prepare to “Be Driven”

More Related Content

What's hot

2015-4 혁신기술로서의 빅데이터 국내 기술수용 초기 특성연구- 김정선
2015-4 혁신기술로서의 빅데이터 국내 기술수용 초기 특성연구- 김정선2015-4 혁신기술로서의 빅데이터 국내 기술수용 초기 특성연구- 김정선
2015-4 혁신기술로서의 빅데이터 국내 기술수용 초기 특성연구- 김정선datasciencekorea
 
데이터에 포함된 동적 패턴의 탐색과 해석을 위한 협업적 탐험 플랫폼 -최진혁
데이터에 포함된 동적 패턴의 탐색과 해석을 위한 협업적 탐험 플랫폼 -최진혁데이터에 포함된 동적 패턴의 탐색과 해석을 위한 협업적 탐험 플랫폼 -최진혁
데이터에 포함된 동적 패턴의 탐색과 해석을 위한 협업적 탐험 플랫폼 -최진혁datasciencekorea
 
[2016 데이터 그랜드 컨퍼런스] 6 5(전략, 솔루션). 뉴스젤리 social innovation with data
[2016 데이터 그랜드 컨퍼런스] 6 5(전략, 솔루션). 뉴스젤리 social innovation with data[2016 데이터 그랜드 컨퍼런스] 6 5(전략, 솔루션). 뉴스젤리 social innovation with data
[2016 데이터 그랜드 컨퍼런스] 6 5(전략, 솔루션). 뉴스젤리 social innovation with dataK data
 
뉴스젤리 - 데이터저널리즘 이해하기 2
뉴스젤리 - 데이터저널리즘 이해하기 2뉴스젤리 - 데이터저널리즘 이해하기 2
뉴스젤리 - 데이터저널리즘 이해하기 2Newsjelly
 
빅데이터의 개념과 이해 그리고 활용사례 (Introduction to big data and use cases)
빅데이터의 개념과 이해 그리고 활용사례 (Introduction to big data and use cases)빅데이터의 개념과 이해 그리고 활용사례 (Introduction to big data and use cases)
빅데이터의 개념과 이해 그리고 활용사례 (Introduction to big data and use cases)Wonjin Lee
 
[2016 데이터 그랜드 컨퍼런스] 2 2(빅데이터). skt beyond big data
[2016 데이터 그랜드 컨퍼런스] 2 2(빅데이터). skt beyond big data[2016 데이터 그랜드 컨퍼런스] 2 2(빅데이터). skt beyond big data
[2016 데이터 그랜드 컨퍼런스] 2 2(빅데이터). skt beyond big dataK data
 
빅데이터 이용 사례 분석
빅데이터 이용 사례 분석빅데이터 이용 사례 분석
빅데이터 이용 사례 분석ko donghwi
 
뉴스젤리 - 데이터저널리즘 이해하기 1
뉴스젤리 - 데이터저널리즘 이해하기 1뉴스젤리 - 데이터저널리즘 이해하기 1
뉴스젤리 - 데이터저널리즘 이해하기 1Newsjelly
 
빅데이터 기술을 활용한 뉴스 큐레이션 서비스 - 온병원
빅데이터 기술을 활용한 뉴스 큐레이션 서비스 - 온병원빅데이터 기술을 활용한 뉴스 큐레이션 서비스 - 온병원
빅데이터 기술을 활용한 뉴스 큐레이션 서비스 - 온병원datasciencekorea
 
DAUM DevOn 2012 발표자료
DAUM DevOn 2012 발표자료DAUM DevOn 2012 발표자료
DAUM DevOn 2012 발표자료Hyun Namgoong
 
서울시 공공 부문 오픈데이터와 시민참여
서울시 공공 부문 오픈데이터와 시민참여서울시 공공 부문 오픈데이터와 시민참여
서울시 공공 부문 오픈데이터와 시민참여codenamu
 
4. 공공자원활용전략(28 p)
4. 공공자원활용전략(28 p)4. 공공자원활용전략(28 p)
4. 공공자원활용전략(28 p)하이퍼테크
 
CKAT (Connected Knowledge and Tools) #1 - Seoul City
CKAT (Connected Knowledge and Tools) #1 - Seoul CityCKAT (Connected Knowledge and Tools) #1 - Seoul City
CKAT (Connected Knowledge and Tools) #1 - Seoul Cityok-korea
 
빅데이터 활용사례 by GoldenWired INC.
빅데이터 활용사례 by GoldenWired INC.빅데이터 활용사례 by GoldenWired INC.
빅데이터 활용사례 by GoldenWired INC.Byounghee Kim
 
스마트 시티의 빅데이터 분석론 - 최준영
스마트 시티의 빅데이터 분석론 - 최준영스마트 시티의 빅데이터 분석론 - 최준영
스마트 시티의 빅데이터 분석론 - 최준영datasciencekorea
 
데이터시장의 트렌드와 예측 - 이영환
데이터시장의 트렌드와 예측 - 이영환 데이터시장의 트렌드와 예측 - 이영환
데이터시장의 트렌드와 예측 - 이영환 datasciencekorea
 
빅데이터 시대 새로운 신기술과 활용방향
빅데이터 시대 새로운 신기술과 활용방향빅데이터 시대 새로운 신기술과 활용방향
빅데이터 시대 새로운 신기술과 활용방향Webometrics Class
 
뉴스젤리 - 데이터 저널리즘 비즈니스 모델
뉴스젤리 - 데이터 저널리즘 비즈니스 모델뉴스젤리 - 데이터 저널리즘 비즈니스 모델
뉴스젤리 - 데이터 저널리즘 비즈니스 모델Newsjelly
 

What's hot (20)

2015-4 혁신기술로서의 빅데이터 국내 기술수용 초기 특성연구- 김정선
2015-4 혁신기술로서의 빅데이터 국내 기술수용 초기 특성연구- 김정선2015-4 혁신기술로서의 빅데이터 국내 기술수용 초기 특성연구- 김정선
2015-4 혁신기술로서의 빅데이터 국내 기술수용 초기 특성연구- 김정선
 
데이터에 포함된 동적 패턴의 탐색과 해석을 위한 협업적 탐험 플랫폼 -최진혁
데이터에 포함된 동적 패턴의 탐색과 해석을 위한 협업적 탐험 플랫폼 -최진혁데이터에 포함된 동적 패턴의 탐색과 해석을 위한 협업적 탐험 플랫폼 -최진혁
데이터에 포함된 동적 패턴의 탐색과 해석을 위한 협업적 탐험 플랫폼 -최진혁
 
[2016 데이터 그랜드 컨퍼런스] 6 5(전략, 솔루션). 뉴스젤리 social innovation with data
[2016 데이터 그랜드 컨퍼런스] 6 5(전략, 솔루션). 뉴스젤리 social innovation with data[2016 데이터 그랜드 컨퍼런스] 6 5(전략, 솔루션). 뉴스젤리 social innovation with data
[2016 데이터 그랜드 컨퍼런스] 6 5(전략, 솔루션). 뉴스젤리 social innovation with data
 
뉴스젤리 - 데이터저널리즘 이해하기 2
뉴스젤리 - 데이터저널리즘 이해하기 2뉴스젤리 - 데이터저널리즘 이해하기 2
뉴스젤리 - 데이터저널리즘 이해하기 2
 
빅데이터의 개념과 이해 그리고 활용사례 (Introduction to big data and use cases)
빅데이터의 개념과 이해 그리고 활용사례 (Introduction to big data and use cases)빅데이터의 개념과 이해 그리고 활용사례 (Introduction to big data and use cases)
빅데이터의 개념과 이해 그리고 활용사례 (Introduction to big data and use cases)
 
Bigdata
BigdataBigdata
Bigdata
 
[2016 데이터 그랜드 컨퍼런스] 2 2(빅데이터). skt beyond big data
[2016 데이터 그랜드 컨퍼런스] 2 2(빅데이터). skt beyond big data[2016 데이터 그랜드 컨퍼런스] 2 2(빅데이터). skt beyond big data
[2016 데이터 그랜드 컨퍼런스] 2 2(빅데이터). skt beyond big data
 
빅데이터 이용 사례 분석
빅데이터 이용 사례 분석빅데이터 이용 사례 분석
빅데이터 이용 사례 분석
 
뉴스젤리 - 데이터저널리즘 이해하기 1
뉴스젤리 - 데이터저널리즘 이해하기 1뉴스젤리 - 데이터저널리즘 이해하기 1
뉴스젤리 - 데이터저널리즘 이해하기 1
 
빅데이터 기술을 활용한 뉴스 큐레이션 서비스 - 온병원
빅데이터 기술을 활용한 뉴스 큐레이션 서비스 - 온병원빅데이터 기술을 활용한 뉴스 큐레이션 서비스 - 온병원
빅데이터 기술을 활용한 뉴스 큐레이션 서비스 - 온병원
 
DAUM DevOn 2012 발표자료
DAUM DevOn 2012 발표자료DAUM DevOn 2012 발표자료
DAUM DevOn 2012 발표자료
 
서울시 공공 부문 오픈데이터와 시민참여
서울시 공공 부문 오픈데이터와 시민참여서울시 공공 부문 오픈데이터와 시민참여
서울시 공공 부문 오픈데이터와 시민참여
 
4. 공공자원활용전략(28 p)
4. 공공자원활용전략(28 p)4. 공공자원활용전략(28 p)
4. 공공자원활용전략(28 p)
 
CKAT (Connected Knowledge and Tools) #1 - Seoul City
CKAT (Connected Knowledge and Tools) #1 - Seoul CityCKAT (Connected Knowledge and Tools) #1 - Seoul City
CKAT (Connected Knowledge and Tools) #1 - Seoul City
 
빅데이터 활용사례 by GoldenWired INC.
빅데이터 활용사례 by GoldenWired INC.빅데이터 활용사례 by GoldenWired INC.
빅데이터 활용사례 by GoldenWired INC.
 
스마트 시티의 빅데이터 분석론 - 최준영
스마트 시티의 빅데이터 분석론 - 최준영스마트 시티의 빅데이터 분석론 - 최준영
스마트 시티의 빅데이터 분석론 - 최준영
 
데이터시장의 트렌드와 예측 - 이영환
데이터시장의 트렌드와 예측 - 이영환 데이터시장의 트렌드와 예측 - 이영환
데이터시장의 트렌드와 예측 - 이영환
 
건설기업의 빅데이터 시대 대응방향
건설기업의 빅데이터 시대 대응방향건설기업의 빅데이터 시대 대응방향
건설기업의 빅데이터 시대 대응방향
 
빅데이터 시대 새로운 신기술과 활용방향
빅데이터 시대 새로운 신기술과 활용방향빅데이터 시대 새로운 신기술과 활용방향
빅데이터 시대 새로운 신기술과 활용방향
 
뉴스젤리 - 데이터 저널리즘 비즈니스 모델
뉴스젤리 - 데이터 저널리즘 비즈니스 모델뉴스젤리 - 데이터 저널리즘 비즈니스 모델
뉴스젤리 - 데이터 저널리즘 비즈니스 모델
 

Similar to 공공데이터 현재와 미래

G스위트 와 Office 365 기반 클라우드 그룹웨어 - 스마트워크플레이스
G스위트 와 Office 365 기반 클라우드 그룹웨어 - 스마트워크플레이스G스위트 와 Office 365 기반 클라우드 그룹웨어 - 스마트워크플레이스
G스위트 와 Office 365 기반 클라우드 그룹웨어 - 스마트워크플레이스은진 양
 
DLAB company info and big data case studies
DLAB company info and big data case studiesDLAB company info and big data case studies
DLAB company info and big data case studiesDLAB
 
[2016 데이터 그랜드 컨퍼런스] 1 3. bk3(엔코아)데이터그랜드컨퍼런스 4차산업혁명의 핵심-데이터경제-엔코아
[2016 데이터 그랜드 컨퍼런스] 1 3. bk3(엔코아)데이터그랜드컨퍼런스 4차산업혁명의 핵심-데이터경제-엔코아[2016 데이터 그랜드 컨퍼런스] 1 3. bk3(엔코아)데이터그랜드컨퍼런스 4차산업혁명의 핵심-데이터경제-엔코아
[2016 데이터 그랜드 컨퍼런스] 1 3. bk3(엔코아)데이터그랜드컨퍼런스 4차산업혁명의 핵심-데이터경제-엔코아K data
 
2015 클라우드 임팩트세미나 클라우드 오피스 발표자료
2015 클라우드 임팩트세미나 클라우드 오피스 발표자료2015 클라우드 임팩트세미나 클라우드 오피스 발표자료
2015 클라우드 임팩트세미나 클라우드 오피스 발표자료Cloud Dongbu
 
데이터 가공(DMP)와 스마트 시티 - 엔코아 김옥기 센터장
데이터 가공(DMP)와 스마트 시티 - 엔코아 김옥기 센터장데이터 가공(DMP)와 스마트 시티 - 엔코아 김옥기 센터장
데이터 가공(DMP)와 스마트 시티 - 엔코아 김옥기 센터장eungjin cho
 
[코세나, kosena] 빅데이터 구축 및 제안 가이드
[코세나, kosena] 빅데이터 구축 및 제안 가이드[코세나, kosena] 빅데이터 구축 및 제안 가이드
[코세나, kosena] 빅데이터 구축 및 제안 가이드kosena
 
빅데이터의 이해
빅데이터의 이해빅데이터의 이해
빅데이터의 이해수보 김
 
빅 데이터, 새로운 통찰력
빅 데이터, 새로운 통찰력빅 데이터, 새로운 통찰력
빅 데이터, 새로운 통찰력현주 유
 
스마티 시티에서의 빅데이터 기술 활용 Big data technologies overview in smart cities
스마티 시티에서의 빅데이터 기술 활용 Big data technologies overview in smart cities스마티 시티에서의 빅데이터 기술 활용 Big data technologies overview in smart cities
스마티 시티에서의 빅데이터 기술 활용 Big data technologies overview in smart citiesByounghee Kim
 
2014 한국 링크드 데이터 사례집
2014 한국 링크드 데이터 사례집2014 한국 링크드 데이터 사례집
2014 한국 링크드 데이터 사례집Hansung University
 
건설분야에서의 빅데이터 활용의 잠재적 가치제안
건설분야에서의 빅데이터 활용의 잠재적 가치제안건설분야에서의 빅데이터 활용의 잠재적 가치제안
건설분야에서의 빅데이터 활용의 잠재적 가치제안메가트렌드랩 megatrendlab
 
Zum인터넷 big data 활용사례 김우승연구소장
Zum인터넷 big data 활용사례 김우승연구소장Zum인터넷 big data 활용사례 김우승연구소장
Zum인터넷 big data 활용사례 김우승연구소장Jayoung Lim
 
데이터드리븐 DX 추진방안_202306.pdf
데이터드리븐 DX 추진방안_202306.pdf데이터드리븐 DX 추진방안_202306.pdf
데이터드리븐 DX 추진방안_202306.pdfYunjeong Susan Hong
 
2012.04.11 미래사회와 빅 데이터(big data) 기술 nipa
2012.04.11 미래사회와 빅 데이터(big data) 기술 nipa2012.04.11 미래사회와 빅 데이터(big data) 기술 nipa
2012.04.11 미래사회와 빅 데이터(big data) 기술 nipa영진 박
 
[Partner TechForum] 고객을 360도로 이해하고 수익으로 연결하는 글로벌 선도 금융 기업들의 데이터 플랫폼 활용 사례
[Partner TechForum] 고객을 360도로 이해하고 수익으로 연결하는 글로벌 선도 금융 기업들의 데이터 플랫폼 활용 사례[Partner TechForum] 고객을 360도로 이해하고 수익으로 연결하는 글로벌 선도 금융 기업들의 데이터 플랫폼 활용 사례
[Partner TechForum] 고객을 360도로 이해하고 수익으로 연결하는 글로벌 선도 금융 기업들의 데이터 플랫폼 활용 사례Amazon Web Services Korea
 
빅데이터 윈윈 컨퍼런스-4차 산업혁명 핵심:데이터 가공 플랫폼
빅데이터 윈윈 컨퍼런스-4차 산업혁명 핵심:데이터 가공 플랫폼빅데이터 윈윈 컨퍼런스-4차 산업혁명 핵심:데이터 가공 플랫폼
빅데이터 윈윈 컨퍼런스-4차 산업혁명 핵심:데이터 가공 플랫폼ABRC_DATA
 
Koscom report - 초(超)자동화를 선도할 프로세스 사이언티스트
Koscom report - 초(超)자동화를 선도할 프로세스 사이언티스트Koscom report - 초(超)자동화를 선도할 프로세스 사이언티스트
Koscom report - 초(超)자동화를 선도할 프로세스 사이언티스트koscom
 
빅데이터미래전략세미나발표자료 빅데이터기술현황및전망-황승구-20120410
빅데이터미래전략세미나발표자료 빅데이터기술현황및전망-황승구-20120410빅데이터미래전략세미나발표자료 빅데이터기술현황및전망-황승구-20120410
빅데이터미래전략세미나발표자료 빅데이터기술현황및전망-황승구-20120410Peter Woo
 
실리콘 밸리 데이터 사이언티스트의 하루
실리콘 밸리 데이터 사이언티스트의 하루실리콘 밸리 데이터 사이언티스트의 하루
실리콘 밸리 데이터 사이언티스트의 하루Jaimie Kwon (권재명)
 
지능정보시대를 위한 빅데이터, 이대로 좋은가
지능정보시대를 위한 빅데이터, 이대로 좋은가지능정보시대를 위한 빅데이터, 이대로 좋은가
지능정보시대를 위한 빅데이터, 이대로 좋은가r-kor
 

Similar to 공공데이터 현재와 미래 (20)

G스위트 와 Office 365 기반 클라우드 그룹웨어 - 스마트워크플레이스
G스위트 와 Office 365 기반 클라우드 그룹웨어 - 스마트워크플레이스G스위트 와 Office 365 기반 클라우드 그룹웨어 - 스마트워크플레이스
G스위트 와 Office 365 기반 클라우드 그룹웨어 - 스마트워크플레이스
 
DLAB company info and big data case studies
DLAB company info and big data case studiesDLAB company info and big data case studies
DLAB company info and big data case studies
 
[2016 데이터 그랜드 컨퍼런스] 1 3. bk3(엔코아)데이터그랜드컨퍼런스 4차산업혁명의 핵심-데이터경제-엔코아
[2016 데이터 그랜드 컨퍼런스] 1 3. bk3(엔코아)데이터그랜드컨퍼런스 4차산업혁명의 핵심-데이터경제-엔코아[2016 데이터 그랜드 컨퍼런스] 1 3. bk3(엔코아)데이터그랜드컨퍼런스 4차산업혁명의 핵심-데이터경제-엔코아
[2016 데이터 그랜드 컨퍼런스] 1 3. bk3(엔코아)데이터그랜드컨퍼런스 4차산업혁명의 핵심-데이터경제-엔코아
 
2015 클라우드 임팩트세미나 클라우드 오피스 발표자료
2015 클라우드 임팩트세미나 클라우드 오피스 발표자료2015 클라우드 임팩트세미나 클라우드 오피스 발표자료
2015 클라우드 임팩트세미나 클라우드 오피스 발표자료
 
데이터 가공(DMP)와 스마트 시티 - 엔코아 김옥기 센터장
데이터 가공(DMP)와 스마트 시티 - 엔코아 김옥기 센터장데이터 가공(DMP)와 스마트 시티 - 엔코아 김옥기 센터장
데이터 가공(DMP)와 스마트 시티 - 엔코아 김옥기 센터장
 
[코세나, kosena] 빅데이터 구축 및 제안 가이드
[코세나, kosena] 빅데이터 구축 및 제안 가이드[코세나, kosena] 빅데이터 구축 및 제안 가이드
[코세나, kosena] 빅데이터 구축 및 제안 가이드
 
빅데이터의 이해
빅데이터의 이해빅데이터의 이해
빅데이터의 이해
 
빅 데이터, 새로운 통찰력
빅 데이터, 새로운 통찰력빅 데이터, 새로운 통찰력
빅 데이터, 새로운 통찰력
 
스마티 시티에서의 빅데이터 기술 활용 Big data technologies overview in smart cities
스마티 시티에서의 빅데이터 기술 활용 Big data technologies overview in smart cities스마티 시티에서의 빅데이터 기술 활용 Big data technologies overview in smart cities
스마티 시티에서의 빅데이터 기술 활용 Big data technologies overview in smart cities
 
2014 한국 링크드 데이터 사례집
2014 한국 링크드 데이터 사례집2014 한국 링크드 데이터 사례집
2014 한국 링크드 데이터 사례집
 
건설분야에서의 빅데이터 활용의 잠재적 가치제안
건설분야에서의 빅데이터 활용의 잠재적 가치제안건설분야에서의 빅데이터 활용의 잠재적 가치제안
건설분야에서의 빅데이터 활용의 잠재적 가치제안
 
Zum인터넷 big data 활용사례 김우승연구소장
Zum인터넷 big data 활용사례 김우승연구소장Zum인터넷 big data 활용사례 김우승연구소장
Zum인터넷 big data 활용사례 김우승연구소장
 
데이터드리븐 DX 추진방안_202306.pdf
데이터드리븐 DX 추진방안_202306.pdf데이터드리븐 DX 추진방안_202306.pdf
데이터드리븐 DX 추진방안_202306.pdf
 
2012.04.11 미래사회와 빅 데이터(big data) 기술 nipa
2012.04.11 미래사회와 빅 데이터(big data) 기술 nipa2012.04.11 미래사회와 빅 데이터(big data) 기술 nipa
2012.04.11 미래사회와 빅 데이터(big data) 기술 nipa
 
[Partner TechForum] 고객을 360도로 이해하고 수익으로 연결하는 글로벌 선도 금융 기업들의 데이터 플랫폼 활용 사례
[Partner TechForum] 고객을 360도로 이해하고 수익으로 연결하는 글로벌 선도 금융 기업들의 데이터 플랫폼 활용 사례[Partner TechForum] 고객을 360도로 이해하고 수익으로 연결하는 글로벌 선도 금융 기업들의 데이터 플랫폼 활용 사례
[Partner TechForum] 고객을 360도로 이해하고 수익으로 연결하는 글로벌 선도 금융 기업들의 데이터 플랫폼 활용 사례
 
빅데이터 윈윈 컨퍼런스-4차 산업혁명 핵심:데이터 가공 플랫폼
빅데이터 윈윈 컨퍼런스-4차 산업혁명 핵심:데이터 가공 플랫폼빅데이터 윈윈 컨퍼런스-4차 산업혁명 핵심:데이터 가공 플랫폼
빅데이터 윈윈 컨퍼런스-4차 산업혁명 핵심:데이터 가공 플랫폼
 
Koscom report - 초(超)자동화를 선도할 프로세스 사이언티스트
Koscom report - 초(超)자동화를 선도할 프로세스 사이언티스트Koscom report - 초(超)자동화를 선도할 프로세스 사이언티스트
Koscom report - 초(超)자동화를 선도할 프로세스 사이언티스트
 
빅데이터미래전략세미나발표자료 빅데이터기술현황및전망-황승구-20120410
빅데이터미래전략세미나발표자료 빅데이터기술현황및전망-황승구-20120410빅데이터미래전략세미나발표자료 빅데이터기술현황및전망-황승구-20120410
빅데이터미래전략세미나발표자료 빅데이터기술현황및전망-황승구-20120410
 
실리콘 밸리 데이터 사이언티스트의 하루
실리콘 밸리 데이터 사이언티스트의 하루실리콘 밸리 데이터 사이언티스트의 하루
실리콘 밸리 데이터 사이언티스트의 하루
 
지능정보시대를 위한 빅데이터, 이대로 좋은가
지능정보시대를 위한 빅데이터, 이대로 좋은가지능정보시대를 위한 빅데이터, 이대로 좋은가
지능정보시대를 위한 빅데이터, 이대로 좋은가
 

공공데이터 현재와 미래

  • 1. 공공데이터의 현재와 미래 김학래, KISTI | Open Knowledge Korea
  • 2.
  • 4. The Data Deluge Data perspective IBM estimates that by 2020 we will have 44 zettabytes — the thousand-fold number next up from exabytes — generated by all those devices. However, much of the data that agencies are generating and storing isn’t even usable. 4
  • 5. Data Should be more smarter Data perspective Data needs to be understood and interpreted in a specific context. Most data out there is unstructured and only with artificial intelligence and analytics unstructured data can be turned into smart data and actionable data. 1. Well-defined structured 2. Machine understandable 3. Contextual processing 4. Semantically interlinked 5
  • 6. “공공데이터법 제정·시행에 따라 수립된 제1차 공공데이터 기본계획 (개방, 기반, 생태계, 역량)은 정부혁신의 핵심 어젠다로 全 국가기관이 참여하여 적극 추진” – 제2차 (17~19) 공공데이터 기본 계획 공공데이터 추진 성과 Overview 출처: http://www.etnews.com/20161220000181 6
  • 7. 0 1 2 3 4 5 6 7 8 9 10 Extremely unlikely Extremely likely HOW LIKELY ARE YOU TO SATISFY? 7
  • 8. 8 “공공데이터법 제정·시행에 따라 수립된 제1차 공공데이터 기본계획 (개방, 기반, 생태계, 역량)은 정부혁신의 핵심 어젠다로 全 국가기관이 참여하여 적극 추진” – 제2차 (17~19) 공공데이터 기본 계획 공공데이터 추진 성과 Overview 출처: http://www.etnews.com/20161220000181 RESPONSE
  • 11. “A change in the world that seems so clear you’re sure someone else will do it. But they won’t. You will.” Mark Zuckerberg’s Harvard commencement speech (2017)
  • 12. 데이터 수집 및 분석 방법: https://brunch.co.kr/@haklaekim/ 분석 데이터 및 소스코드 (GitHub) 분석 프로세스 1. 공공데이터포털 데이터 목록 (NIA 제공) 2. 데이터 수집 전처리는 공개한 소스 기준 12
  • 13. 파일이나 데이터베이스에 있는 데이터를 소프트웨어로 읽을 수 있는 것. 공공데이터포털은 대규모 데이터를 기계 판독이 가능한 형태 - CSV, XML, JSON, XML-로 제공 기계가 판독이 가능한 공공 데이터 데이터 활용성데이터 접근성 백서 Machine- Readable HWP,PDF XLS CSV Linked Data Data Filter Visualize Story 13
  • 14. Problem statement 경상남도 함양군 기관현황 데이터 (2017) 일선행정기관 주소와 전화번호 데이터 (A) (B) 판독 가능한 데이터 형식이 데이터 자체를 쉽게 처리하는 것을 의미하지 않는다. 14
  • 15. 공공데이터포털 데이터 현황 1. 파일 (CSV) 데이터: 주기적으로 업데이트되는 파일 형태의 데이터 (예: 수출입통계, 범죄통계 등 수치, 통계 자료) 2. 개방표준 (Standard)데이터: 개방표준으로 공표된 표준 형식에 맞게 작성된 데이터 (예: 주차장 정보, 도시공원정보) 3. 오픈 API (API): 업데이트가 빈번한 대용량 데이터 (예: 버스운행데이터, 기상데이터 등) 15
  • 16. 97% CSV 데이터 파일의 특수 문자 포함 비율 16
  • 18. 항목수가 많을 때 더 많은 메모리, IO 필요 CSV 개수 최대 항목 개수 233 최소 항목 개수 1 공공데이터 관리지침: 항목 3개, 데이터 (행) 5개 이상 데이터셋의 평균 항목 개수 API 28개 CSV 12개 STNADARD 19개 STANDARD 개수 최대 항목 개수 69 최소 항목 개수 9 API 개수 최대 항목 개수 1,247 최소 항목 개수 1 공공데이터 목록 등록·관리 기준 p. 28 18
  • 19. 데이터셋에 포함된 필드명은 CSV 170,204개, STANDARD 884개, API 81,058개 데이터 유형별 필드명 현황 19
  • 20. 항목명에 특수문자와 공백을 함께 쓴 사례 ©Stockphotonyc|Dreamstime.com 종 별 Classifi -cation 연 월 Year & Month 종 별 Classifi -cation 연 월 Year & Month 중도금 Partial payment for the apartment purchased세대수(호) 1,2-디브로모-3-클로로프로판<BR>(0.003㎎/L) 가구 내 고용활동 및 달리 분류되지 않은 자가소비 생산 활동_종사자수 (명) 1_2-디브로모-3-클로로프로판 003.*, 004.*, 005.*, 006.*, 007.*, 008.*, 009.*, 01*, 02* : Computer Science & Information 000.* 001.* 002.*, 03*, 04*, 05*, 06*, 07*, 08*, 09* : General works 10*, 11*, 12*, 13*, 14*, 16*, 17*, 18*, 19* : Philosophy 15* : Psychology 2** : Religion 30*, CSV API 20
  • 21. CSV 데이터의 항목명에서 공백과 특수문자를 포함 비율 39% 이상 ©Stockphotonyc|Dreamstime.com 예제: 공백 문자 예제: 특수 문자 21
  • 22. CSV 데이터 최고 사용 빈도 100 22
  • 23. Standard 데이터 최고 빈도 100 23
  • 24. API 최고 사용 빈도 100 24
  • 25. 데이터 유형별 공통 어휘 사용 비율 CSV-API CSV-Standard API-Standard 8% 2% 3% 1일주차권요금적용시간,강좌명,결제방법,경도,경도(WGS84좌표),공휴일운영 시작시각,공휴일운영종료시각,관리기관명,관리기관전화번호,대표자명,데이터 기준일자,설치년도,설치년월,설치시도명,소재지도로명주소,소재지지번주소,시 군구명,시도명,시설명,연락처,요금정보,운영기관명,운영기관전화번호,운영시 작일자,운영요일,운영종료일자,위도,위도(WGS84좌표),전화번호,점포수,주관 기관,주차장보유여부,주최기관,지정일자,토요일운영시작시각,토요일운영종료 시각,평일운영시작시각,평일운영종료시각,홈페이지주소,후원기관,휴관일,휴무 일 경도, 관리기관명, 구분, 기관명,년도,데이터기준일자, 번호, 비고, 소재지,소재지도로명주소, 소재지지번주소, 순번, 시군구명, 시도명, 시설명, 업소명, 업체명, 연락처, 위도, 일련번호, 전화번호, 주소, 홈페이지주소 경도, 관리기관명, 생성일자, 소재지도로명주소, 소재지지번주소, 시군구명, 시도명, 시설명, 연락처, 위도, 전화번호, 홈페이지주소 25
  • 26. 각급 행정기관에서 업무적으로 사용되는 명사형 어휘에 대해 행정정보 데이터베이스 시스템 구축 및 운용시 사용되도록 사전화한 단어들의 집합으로 14,111건 정의 행정표준용어 사용 여부 26
  • 27. Network Analysis 404 nodes 924 edges CSV 521 nodes 839 edges 2,445 nodes 3,013 edges STANDARD API 27
  • 28. Normalised CSV: 38,838 nodes & 167,451 edges
  • 29. Lattice Analysis 전국 공연 또는 전통시장 주변에 주차장이 있는 곳? 항목명: 위도, 경도, 소재지도로명주소, 소재지지번주소, 연락처, 전화번호 29
  • 30. 5 Remedies to Set Things Right Summary 1. 데이터 개방 체계에 대한 근본적 검토 2. 공공데이터 관리 지침의 현실화 3. 데이터 품질 개선을 현실적 전략 4. 공공데이터 개방을 위한 인력 확보 5. 공공데이터의 잠재적 가치 제고
  • 31. 현재, 미래에 대한 의견 Chapter Three
  • 32. “The main thing that has caused companies to fail, in my view, is that they missed the future.” Larry Page, TED 2014
  • 34. 공공데이터에 대한 냉정한 현실 © Drx| Dreamstime.com
  • 35. 파편화된 공공데이터 © Phillip Minnis | Dreamstime.com 과학기술 데이터 의료 데이터 지도 데이터 교통 데이터
  • 37. 공공 데이터 연계를 위한 전략 수립 ©Infokus408|Dreamstime.com
  • 38. 수요자에 대한 명확한 정의: 시민, 정부, 기업 © Richard Thomas | Dreamstime.com
  • 39. 균형 있는 데이터 정책: 중점 데이터 vs 기반 데이터
  • 40. 전문성 기반 공공데이터 협업 네트워크 - KISTI
  • 41. 공공 데이터 전문가 확보 및 참여 기회 확대
  • 42. 데이터에 대한 체계적 접근: Data on the Web Best Practices (W3C)
  • 43. 시스템, 기술이 아닌 데이터 관점에서의 개선 시스템, 기술보다 데이터 중심의 전략
  • 44. Data is a precious thing and will last longer than the systems themselves. Tim Berners-Lee
  • 45. It will never happen, or it cannot happen without data.
  • 46. 대한민국, 잇다: 국가 데이터 고속도로 플랫폼 ©SteveCukrov|Dreamstime.com
  • 48. “Drive” or prepare to “Be Driven”