Statistics and linked data
Upcoming SlideShare
Loading in...5
×
 

Statistics and linked data

on

  • 2,135 views

 

Statistics

Views

Total Views
2,135
Views on SlideShare
1,498
Embed Views
637

Actions

Likes
0
Downloads
37
Comments
0

6 Embeds 637

http://www.topquadrant.co.kr 314
http://blog.topquadrant.co.kr 312
http://localhost:8080 8
http://webcache.googleusercontent.com 1
http://localhost 1
http://112.220.29.226 1

Accessibility

Categories

Upload Details

Uploaded via as Adobe PDF

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

Statistics and linked data Statistics and linked data Presentation Transcript

  • 2010년 11월 29일 탑쿼드란트 코리아 전략팀 추윤미 ymchu@topquadrant.co.kr홈페이지 : http://www.topquadrant.co.kr 블로그 : http://blog.topquadrant.co.kr
  • 목차• 통계 정보의 상호운용성• 시맨틱 웹과 링크드 데이터 – 개요 – LOD 프로젝트• 해외 사례 – US census 2000 – data.gov/semantic – OpenEI – data.gov.uk• 결론
  • 공공 데이터로서의 통계Official Statistics – “실세계(real world)”를 기술(description)하는 도구 • 다양한 도표와 수치를 통해 사회의 상황과 현상의 발달 추이를 표현 • raw data의 분석과 가공으로 새로운 지식을 얻어냄 • 통계 분석의 결과는 예측, 계획 수립, 정책의 방향 결정 등에 영향을 줌Open Government Data와 통계 – 정부 데이터 공개 운동 • 미국(data.gov), 영국(data.gov.uk)에서 시작된 공공 데이터의 공개와 공유가 전세계적으로 확산되고 있음(호주, 프랑스, 캐나다, 핀란드 등) – 정부 데이터의 많은 부분이 통계 정보임 • 통계 정보를 공공에게 제공함으로써 • 정부의 투명성 제고 및 • 다양한 컨텍스트에서 다양한 분야의 정보와 융합한 새로운 지식 생성의 효과 기대
  • 통계 정보의 특성multidimensional data – 다양한 데이터의 aggregation • Numeric • Time series • Geographical etc...dissemination의 중요성 – 기술 발전에 따라 새로운 매체를 통해 배포되어 옴 • 인쇄, 출판 • 디지털화 • 웹을 통한 정보의 배포 – raw data를 결합, 분석하여 유용한 정보로 만들기 위해 • 적절한 이용자에게 제공되어야 하고 • 다양한 정보 및 컨텍스트와 연계 가능해야 함
  • 통계 정보의 환경 변화급격한 ICT의 발전 – 데이터의 폭발적 증가 • 특히, 웹의 등장으로 – 정보 처리 성능의 향상 • 수치 정보의 분석과 다양한 시각화 • 데이터 중심의 다학제간(multidisciplinary) 연구데이터의 globalisation – 통계 정보 생산자의 다양화 • 정부, 국제 기구, 연구소, 여론 조사 기관 등 – 웹을 통한 생산과 배포 • 다양한 정보 접근 채널을 통한 자유로운 통계 정보의 생산과 배포 • 매쉬업(mash-up)과 시각화(visualisation)를 통한 통계 정보의 가공 • -> 통계 정보는 혈액과 같은 주요 역할
  • Information Interoperability통계 정보의 상호 교환(exchange)에 대한 요구– 정부 기관 내, 또는 외부 기관 과의 정보 교환 필요 • 데이터의 공유(open)와 협업(collaboration) – 정부 2.0의 주요 키워드 • 통계 정보의 상호 교환을 위한 국제 표준 제정 • SDMX(Statistical Data and Metadata eXchange) - 유럽중앙은행, Eurostat, WHO, IMF, OECD, UN,...– 웹에서의 데이터 교환과 융복합을 위한 공통의 포맷이 필요 • PDF, SpreadSheet, 또는 HTML 형태의 수치 정보는 분석과 가공이 어 려움 • SDMX는 syntactic level의 표준(XML 기반)통계 정보 간의 통합 및 다양한 정보와의 융합을 위한통계 정보의 상호운용성(interoperability) 에 대한 요구
  • 시맨틱 웹 “The Semantic Web is a vision: the idea of having data on the Web defined and linked in a way that it can be used by machines not just for display purposes, but for automation, integration and reuse of data across various applications.[W3C 2001] ” 데이터의 웹 the Web of Linked Data2010-12-07
  • 시맨틱 웹시맨틱 웹은 상호운용성에 관한 기술– 시맨틱 웹 표준인 RDF(Resource Description Framework) 로 데이터를 표현함으로써 이질적인 정보 간의 통합이 가능지식 교환을 위한 표준과 아키텍처– URI(Uniform Resource Identifier)를 이용한 웹에서의 정보 접근– RDFS, OWL, SKOS(Simple Knowledge Organization System), FOAF(Friends of a Friend), etc...– Sparql 질의 언어를 이용한 분산된 정보에 대한 통합 질의– Linked Data
  • RDF - 데이터 모델RDF(Resource Description Framework) create 마이크 샌델 정의란 무엇인가 subject predicate object 트리플 (Triple)
  • 시맨틱 웹- integrationgraph representation using RDF data model Source: Ivan Herman
  • SPARQL as a Unifying Source Application Sparql query return data SPARQL EngineDB X DB X DB X DB Source: Ivan Herman
  • 시맨틱 웹 – Linked Data Data Silos on the Web Image: Bob Jagensdorf, http://flickr.com/photos/darwinbell/, CC-BY Many common things are represented in multiple data sets Linking identifiers connects these data sets Linked data opens the doors of the silos
  • Linked Data Tim Berners-Lee, “Linked Data- Design Issues(2006)”, http://www.w3.org/DesignIssues/LinkedData.html1. Use URIs as names for things2. Use HTTP URIs so that people can look up those names3. When someone looks up a URI, provide useful RDF Information4. Include RDF statements that link to other URIs so that they can discover related things Linked data는 웹 상의 데이터들에 URI를 이용해 이름을 붙이고, RDF로 데이터를 기술할 뿐만 아니라 데이터 간의 관계를 부여하여 HTTP를 통해 웹으로 발행함으로써 데이터가 인간 뿐만 아니라 기계에 의해 사용되고 이해될 수 있도록 하는 방법
  • Linked Data – RDF Data Link Linked Data Linked Data Search Browsers Mashups EnginesThing Thing Thing Thing ThingThing Thing Thing Thing Thing typed typed typed typed links links links links A B C D E 참고 : Chris Bizer / The Emerging Web of Linked Data
  • W3C – Linking Open Data ProjectW3C SWEO Community (Semantic Web Education & Outreach Interest Group) 다양한 공개 데이터 셋을 RDF형태로 웹에 퍼블리싱하여, 다양한 데이터 소스 간의 RDF 링크를 설정함으로써, 공유 데이터(data common)를 통해 웹을 확장하고자 하는 목적  Over 500 million RDF triples  Around 120,000 RDF links between data sources
  • LOD Cloud – 2008. 2
  • LOD Cloud – 2009. 7 July 2009
  • LOD Cloud – 2010. 92010-12-07
  • LOD Cloud의 통계 데이터 셋Linked Data로 발행된 통계 데이터– US Census 2000 • http://www.rdfabout.com/demo/cens us/– Riese(RDFizing and Interlinking the EuroStat Data Set Effort) from EuroStat • http://riese.joanneum.at/data/– Statistics.data.gov.uk(data.gov.u k) • http://statistics.data.gov.uk/– TWC LOGD(data.gov) • http://data.gov/semantic
  • US Census 2000 –rdfabout.comUS Census 2000 데이터 셋– 미 통계청에서 발행한 인구 통계(2000년 기준) • states, counties, sub-counties 등의 다양한 지리적 수준에 대한 인종, 성별, 연령 등으로 조직화된 인구 통계– 10억 개의 트리플로 구성– Sparql Endpoint를 통해 데이터를 공개 • http://www.rdfabout.com/demo/census/sparql.xpd– Census Data 구조
  • 미국의 data.govdata.gov의 목적– 미국 연방정부의 고부가가치 기계가독형 데이 터셋을 대국민을 위해 개방– 국민 스스로 창조적으로 이용하도록 함.data.gov를 활용하여 국민들은– RAW DATA를 보거나 다운로드– 위젯이나 다른 툴을 이용하여 특정 데이터를 가공, 융합한 챠트나 지도, 스냅샷을 만들 수도 있음data.gov의 Linked Data화(data.gov/semantic)– 구축된 data.gov 의 일부를 시맨틱 웹 표준 포맷인 RDF(Resource Description Framework)로 변환하여 링크드 데이터로 공개– Tim Berners-Lee와 함께 시맨틱 웹의 창시자인 Jim Hendler 교수가 프로젝트 수행– 다양한 통계 데이터가 포함되어 있으며 지리 정보 등과 융합한 다수의 매쉬업 사례 포함
  • Open EI (data.gov)Open Energy Initiative– Linked Open Data Platform을 통해 에너지 데이터를 공개하고 다양한 에너지 정 보를 융합, 분석, 제공하고자 하는 목적– 궁극적으로 에너지 분야의 창조와 혁신을 유도Open EI의 데이터 셋– 215개의 데이터 셋이 LOD에 상호 연계됨– 25억개의 RDF 트리플로 구성됨Open EI와 Census 데이터 매쉬업 사례– Data.gov 의 OpenEI.org 데 이 터 및 U.S. Census 데 이 터 , SmartGrid.gov 의 데이터를 매쉬업 • 7개 도시의 전력 사용률, 소득수준, 스마트 그리드 프로그램의 에너지 관련 인센티브와 타입을 연결시켜 새로운 에너지 마켓플레이스 도입
  • 영국의 data.gov.ukdata.gov.uk의 목적 –정부의 투명성을 높이기 위해 –국민의 권리 향상(Citizen empowerment) –데이터의 공개를 통한 경제적 사회적 가치 증 대 –영국이 차세대 웹(web of data, 즉, Semantic Web)에서 세계적으로 앞서나가기 위해비전 – 정부가 수집한 데이터의 원스톱샵(one-stop- shop for data collected by the government) • 시맨틱 웹 기술을 이용하여 링크를 통해 데이터를 융합하고 검색을 확장하도 록 제공 • data.gov.uk의 이용자들은 이용가능한 정보를 이용해 자신만의 매쉬업을 만들 수 있을 것으로 기대2010년 1월 공식적으로 data.gov.uk 서비스 운영 – 현재 3,000 개 이상의 Linked Data 셋을 서비스하고 있음
  • statistic.data.gov.uk영국 정부의 통계 데이터 정책– 통계 데이터를 통계 데이터 표준인 SDMX 기반의 다른 통계와 함 께 Linked Data 표준을 이용하여 웹에 발행하고 재사용하고자 함.구현 사례– Timetric • 영국 통계청의 데이터(data.gov.uk)와 Eurostat 의 데이터를 포함, 세 계의 다양한 거시경제 데이터를 시계열을 통해 다양하게 볼 수 있는 어플리케이션
  • 결론공공 데이터의 많은 부분이 통계 정보임– 다양한 기관들이 통계 정보를 생산하고 있음– 통계 정보를 웹으로 생산하고 배포하는데 많은 예산과 노력을 소요통계 정보의 상호운용성(interoperability)이 요구됨– XML, CSV, Excel, PDF 등 다양한 형식으로 발행됨– 웹을 통한 기계간(with mashine-readable format)의 교환(exchange) 과 재사용(reuse)이 어려움Linked Data기반의 통계 정보– W3C 표준인 RDF 기반으로 데이터를 발행함으로써 다양한 데이터 간의 통합이 용이 • 통계 데이터를 외부 이용자도 쉽게 접근, 이용 가능 • 웹 표준 기반의 통계 데이터 간의 통합 및 다른 분야의 Linked Data와 융합할 수 있음통계 정보의 공개를 통한 데이터의 가치 증대– 데이터의 질(quality)적 보장 – URI를 통한 데이터의 Provenance– 데이터를 웹으로 공개(expose)함으로써 다른 컨텍스트의 데이터와 융합 (fusion)을 통해 더욱 풍부해지고,– 데이터의 활용도가 높아짐으로 인해 데이터 가치가 상승
  • 결론 - 기대효과 Global Standard를 기반으로 한 Data Integration과 Exchange Data Anaysis와 Fusion Innovation, Knowledge 지식 기반 경제 사회의 동력 better Service Creativity Transparency better Life산업, 경제, 연구 개발 정부 국민
  • 탑쿼드란트 코리아 전략팀 추윤미 ymchu@topquadrant.co.kr홈페이지 : http://www.topquadrant.co.kr 블로그 : http://blog.topquadrant.co.kr