Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

공공데이터 현재와 미래

528 views

Published on

오픈데이터 인사이트 - 공공데이터포털 분석

Published in: Technology
  • Be the first to comment

공공데이터 현재와 미래

  1. 1. 공공데이터의 현재와 미래 김학래, KISTI | Open Knowledge Korea
  2. 2. 생각의 차이 Chapter One
  3. 3. The Data Deluge Data perspective IBM estimates that by 2020 we will have 44 zettabytes — the thousand-fold number next up from exabytes — generated by all those devices. However, much of the data that agencies are generating and storing isn’t even usable. 4
  4. 4. Data Should be more smarter Data perspective Data needs to be understood and interpreted in a specific context. Most data out there is unstructured and only with artificial intelligence and analytics unstructured data can be turned into smart data and actionable data. 1. Well-defined structured 2. Machine understandable 3. Contextual processing 4. Semantically interlinked 5
  5. 5. “공공데이터법 제정·시행에 따라 수립된 제1차 공공데이터 기본계획 (개방, 기반, 생태계, 역량)은 정부혁신의 핵심 어젠다로 全 국가기관이 참여하여 적극 추진” – 제2차 (17~19) 공공데이터 기본 계획 공공데이터 추진 성과 Overview 출처: http://www.etnews.com/20161220000181 6
  6. 6. 0 1 2 3 4 5 6 7 8 9 10 Extremely unlikely Extremely likely HOW LIKELY ARE YOU TO SATISFY? 7
  7. 7. 8 “공공데이터법 제정·시행에 따라 수립된 제1차 공공데이터 기본계획 (개방, 기반, 생태계, 역량)은 정부혁신의 핵심 어젠다로 全 국가기관이 참여하여 적극 추진” – 제2차 (17~19) 공공데이터 기본 계획 공공데이터 추진 성과 Overview 출처: http://www.etnews.com/20161220000181 RESPONSE
  8. 8. 공공 데이터 9 인공지능 사회혁신 스마트시티 자율주행차
  9. 9. 숫자로 말하기 Chapter One
  10. 10. “A change in the world that seems so clear you’re sure someone else will do it. But they won’t. You will.” Mark Zuckerberg’s Harvard commencement speech (2017)
  11. 11. 데이터 수집 및 분석 방법: https://brunch.co.kr/@haklaekim/ 분석 데이터 및 소스코드 (GitHub) 분석 프로세스 1. 공공데이터포털 데이터 목록 (NIA 제공) 2. 데이터 수집 전처리는 공개한 소스 기준 12
  12. 12. 파일이나 데이터베이스에 있는 데이터를 소프트웨어로 읽을 수 있는 것. 공공데이터포털은 대규모 데이터를 기계 판독이 가능한 형태 - CSV, XML, JSON, XML-로 제공 기계가 판독이 가능한 공공 데이터 데이터 활용성데이터 접근성 백서 Machine- Readable HWP,PDF XLS CSV Linked Data Data Filter Visualize Story 13
  13. 13. Problem statement 경상남도 함양군 기관현황 데이터 (2017) 일선행정기관 주소와 전화번호 데이터 (A) (B) 판독 가능한 데이터 형식이 데이터 자체를 쉽게 처리하는 것을 의미하지 않는다. 14
  14. 14. 공공데이터포털 데이터 현황 1. 파일 (CSV) 데이터: 주기적으로 업데이트되는 파일 형태의 데이터 (예: 수출입통계, 범죄통계 등 수치, 통계 자료) 2. 개방표준 (Standard)데이터: 개방표준으로 공표된 표준 형식에 맞게 작성된 데이터 (예: 주차장 정보, 도시공원정보) 3. 오픈 API (API): 업데이트가 빈번한 대용량 데이터 (예: 버스운행데이터, 기상데이터 등) 15
  15. 15. 97% CSV 데이터 파일의 특수 문자 포함 비율 16
  16. 16. 개방표준데이터: RDF에 대한 이해 부족 17
  17. 17. 항목수가 많을 때 더 많은 메모리, IO 필요 CSV 개수 최대 항목 개수 233 최소 항목 개수 1 공공데이터 관리지침: 항목 3개, 데이터 (행) 5개 이상 데이터셋의 평균 항목 개수 API 28개 CSV 12개 STNADARD 19개 STANDARD 개수 최대 항목 개수 69 최소 항목 개수 9 API 개수 최대 항목 개수 1,247 최소 항목 개수 1 공공데이터 목록 등록·관리 기준 p. 28 18
  18. 18. 데이터셋에 포함된 필드명은 CSV 170,204개, STANDARD 884개, API 81,058개 데이터 유형별 필드명 현황 19
  19. 19. 항목명에 특수문자와 공백을 함께 쓴 사례 ©Stockphotonyc|Dreamstime.com 종 별 Classifi -cation 연 월 Year & Month 종 별 Classifi -cation 연 월 Year & Month 중도금 Partial payment for the apartment purchased세대수(호) 1,2-디브로모-3-클로로프로판<BR>(0.003㎎/L) 가구 내 고용활동 및 달리 분류되지 않은 자가소비 생산 활동_종사자수 (명) 1_2-디브로모-3-클로로프로판 003.*, 004.*, 005.*, 006.*, 007.*, 008.*, 009.*, 01*, 02* : Computer Science & Information 000.* 001.* 002.*, 03*, 04*, 05*, 06*, 07*, 08*, 09* : General works 10*, 11*, 12*, 13*, 14*, 16*, 17*, 18*, 19* : Philosophy 15* : Psychology 2** : Religion 30*, CSV API 20
  20. 20. CSV 데이터의 항목명에서 공백과 특수문자를 포함 비율 39% 이상 ©Stockphotonyc|Dreamstime.com 예제: 공백 문자 예제: 특수 문자 21
  21. 21. CSV 데이터 최고 사용 빈도 100 22
  22. 22. Standard 데이터 최고 빈도 100 23
  23. 23. API 최고 사용 빈도 100 24
  24. 24. 데이터 유형별 공통 어휘 사용 비율 CSV-API CSV-Standard API-Standard 8% 2% 3% 1일주차권요금적용시간,강좌명,결제방법,경도,경도(WGS84좌표),공휴일운영 시작시각,공휴일운영종료시각,관리기관명,관리기관전화번호,대표자명,데이터 기준일자,설치년도,설치년월,설치시도명,소재지도로명주소,소재지지번주소,시 군구명,시도명,시설명,연락처,요금정보,운영기관명,운영기관전화번호,운영시 작일자,운영요일,운영종료일자,위도,위도(WGS84좌표),전화번호,점포수,주관 기관,주차장보유여부,주최기관,지정일자,토요일운영시작시각,토요일운영종료 시각,평일운영시작시각,평일운영종료시각,홈페이지주소,후원기관,휴관일,휴무 일 경도, 관리기관명, 구분, 기관명,년도,데이터기준일자, 번호, 비고, 소재지,소재지도로명주소, 소재지지번주소, 순번, 시군구명, 시도명, 시설명, 업소명, 업체명, 연락처, 위도, 일련번호, 전화번호, 주소, 홈페이지주소 경도, 관리기관명, 생성일자, 소재지도로명주소, 소재지지번주소, 시군구명, 시도명, 시설명, 연락처, 위도, 전화번호, 홈페이지주소 25
  25. 25. 각급 행정기관에서 업무적으로 사용되는 명사형 어휘에 대해 행정정보 데이터베이스 시스템 구축 및 운용시 사용되도록 사전화한 단어들의 집합으로 14,111건 정의 행정표준용어 사용 여부 26
  26. 26. Network Analysis 404 nodes 924 edges CSV 521 nodes 839 edges 2,445 nodes 3,013 edges STANDARD API 27
  27. 27. Normalised CSV: 38,838 nodes & 167,451 edges
  28. 28. Lattice Analysis 전국 공연 또는 전통시장 주변에 주차장이 있는 곳? 항목명: 위도, 경도, 소재지도로명주소, 소재지지번주소, 연락처, 전화번호 29
  29. 29. 5 Remedies to Set Things Right Summary 1. 데이터 개방 체계에 대한 근본적 검토 2. 공공데이터 관리 지침의 현실화 3. 데이터 품질 개선을 현실적 전략 4. 공공데이터 개방을 위한 인력 확보 5. 공공데이터의 잠재적 가치 제고
  30. 30. 현재, 미래에 대한 의견 Chapter Three
  31. 31. “The main thing that has caused companies to fail, in my view, is that they missed the future.” Larry Page, TED 2014
  32. 32. 공공데이터에 대한 핵심 전략
  33. 33. 공공데이터에 대한 냉정한 현실 © Drx| Dreamstime.com
  34. 34. 파편화된 공공데이터 © Phillip Minnis | Dreamstime.com 과학기술 데이터 의료 데이터 지도 데이터 교통 데이터
  35. 35. 공공데이터의 차별화된 전략 36
  36. 36. 공공 데이터 연계를 위한 전략 수립 ©Infokus408|Dreamstime.com
  37. 37. 수요자에 대한 명확한 정의: 시민, 정부, 기업 © Richard Thomas | Dreamstime.com
  38. 38. 균형 있는 데이터 정책: 중점 데이터 vs 기반 데이터
  39. 39. 전문성 기반 공공데이터 협업 네트워크 - KISTI
  40. 40. 공공 데이터 전문가 확보 및 참여 기회 확대
  41. 41. 데이터에 대한 체계적 접근: Data on the Web Best Practices (W3C)
  42. 42. 시스템, 기술이 아닌 데이터 관점에서의 개선 시스템, 기술보다 데이터 중심의 전략
  43. 43. Data is a precious thing and will last longer than the systems themselves. Tim Berners-Lee
  44. 44. It will never happen, or it cannot happen without data.
  45. 45. 대한민국, 잇다: 국가 데이터 고속도로 플랫폼 ©SteveCukrov|Dreamstime.com
  46. 46. Email: haklaekim@gmail.com Blog: http://brunch.co.kr/@haklaekim
  47. 47. “Drive” or prepare to “Be Driven”

×