SlideShare a Scribd company logo
1 of 28
Download to read offline
공공데이터 수집, 가공하고 활용하기
강철 <kang@cheol.net>
2014.06.27
http://tinyurl.com/codenamu140627-slide
발표자 소개
KAIST 전산학과
Team POPONG에서 개발하고 있습니다.
어제 군복무 완료했습니다.
오늘의 목표
데이터 활용을 위해 무엇이 필요한가 감 잡기
원하는 게 있을 때 직접 데이터 수집 ~ 가공 ~ 분석 ~ 시각화
공공데이터란
공공데이터:
공공기관이 생성 또는 취득하여 관리하고 있는, 전자적 방식으로 처리된 자료.
각 기관은 시민에게 적극적으로 공개할 의무가 있다.
단, 다음의 경우 공개 제한 가능
- 비공개 대상 정보 (국방/국익 위협, 기밀, 개인정보 등)
- 제3자에게(도) 권리가 있는 경우
※ CC 윤종수 리드님 강연에 자세히 설명되어 있음 http://goo.gl/FKEFlL
출처: 정보공개법, 공공데이터법
공공데이터의 활용
안심병원 ansim.me (코드나무 2012)
공공데이터의 활용
대한민국 정치의 모든 것 pokr.kr (Team POPONG)
어떤 부분이 어려운가
'...??? 뭘 어떻게 시작해야 할지 모르겠어요.'
예제 - "어렵지 않아요"
주제: 2014년 1사분기 대한민국 각 시도별 실업률을 지도에 표시해보자.
→ 10분이면 됩니다.
데이터 소스: 통계청 http://tinyurl.com/korean-unemployment
도구: Google Fusion Table
데이터 활용 프로세스
기획
기획 = "무엇을 만들 것인가"
1. 목적이 주도
2. 기술이 주도
만약 아직 목적이 없다면,
기술을 쌓아서 ‘목적을 볼 수 있는 눈’을 만드는 것도 방법.
데이터 수집
1. 공개된 데이터를 이용한다.
- 서울 열린데이터광장 http://data.seoul.go.kr/
- 공공데이터포털 http://data.go.kr/
- 국회정보시스템 http://likms.assembly.go.kr/
- 통계청 http://kostat.go.kr/
- e-나라지표 http://index.go.kr
- 팀포퐁 GitHub https://github.com/teampopong
- 다음 API http://dna.daum.net/apis/dashboard
- … Google!
2. 웹사이트를 크롤링한다.
오늘 다루진 않겠습니다.
데이터셋 vs. API
1. 데이터셋
파일로 다운로드되는 bulk 데이터
장점:
- 쉽게 사용 가능하다.
단점:
- 변화하는 데이터의 업데이트가 불가
2. API
요청시 on demand로 데이터를 제공
장점:
- 변화하는 데이터를 지속적으로 업데이트 가능하다.
단점:
- 사용하기 위해서 프로그래밍이 필요하다.
예제 - 오픈 API
팀포퐁 API를 이용해서 정치인들을 검색해 보겠습니다.
API 문서 주소: http://data.popong.com/
데이터 가공
우리가 원하는 형태로 주어지지 않는다.
1. 파싱parsing
2. 변환transform
3. 추출filtering
이런 과정들을 통해, 내가 원하는 "좋은 데이터"의 형태로 만든다.
좋은 데이터, 나쁜 데이터
사람이
이해하는
데이터
컴퓨터가
이해하는
데이터
좋은 데이터
좋은 데이터, 나쁜 데이터
사람이
이해하는
데이터
컴퓨터가
이해하는
데이터
요기는 뭐지?
hwp, doc, jpg, pdf OUT
docx, xlsx OUT
html, txt OUT
DSL OUT
좋은 데이터 후보
좋은 데이터 형식
YAML JSON
CSV
XML
진심이 담긴 농담…
‘XML은 사람과 컴퓨터, 양쪽 모두가 읽기 어렵게
만듦으로써 양쪽의 균형을 맞췄습니다.’
좋은 데이터 형식
데이터 분석
간단하게는 간단한 통계,
여러 데이터를 엮어서 연관성 분석을 할 수도 있고,
내지는 사회학에 기반한 사회망분석(Social Network Analysis),
나아가, 겉으로는 보이지 않던 숨은 정보(패턴)를 찾아내는 데이터마이닝
등등...
'기획' 단계에서 검증하고 싶었던 의도에 따라 적합한 분석을 실시한다.
데이터 시각화
엑셀도 좋은 도구입니다.
Tableau나 Spotfire, Gephi 등 전문 소프트웨어
애니메이션이 필요할 땐 processing.js
interactive 시각화에는 d3.js
수많은 도구와 수많은 레퍼런스, 수많은 방법.
좋은 걸 많이 보는 게 중요.
https://github.com/mbostock/d3/wiki/Tutorials
실습
1999년 ~ 2013년 실업률을
지도에 표시해보자!
스켈레톤 코드 다운받기:
http://tinyurl.com/codenamu140627
발행
가장 쉬운 방법:
- 스크린샷 찍어서 이미지 업로드
오늘은
동적 시각화를 배포할 수 있는
bl.ocks.org 라는 서비스를
이용해 보겠습니다.
부록
키워드
#부록 - 도구
시각화
Google Fusion Table
Google Charts
highcharts
d3.js
gephi
processing(.js)
데이터 변환
ogr2ogr
pdftotext
데이터 수집
import.io
Scrapy
wget
언어
Python
R
Matlab
데이터 분석
Tableau
Spotfire
SPSS
SAS
발행
GitHub Pages
Gist
JSFiddle
#부록 - 표준
데이터 형식
YAML, JSON, XML 등은 다 표준이 있다.
데이터 호환성은 표준을 지킴으로써 따라온다.
1. 공개 라이브러리로 데이터를 쉽게 읽고 쓸 수 있고
2. 내가 공개한 데이터를 사람들이 쉽게 사용할 수 있다.
표준을 지키는 것이 자신에게도 이득!
시맨틱
schema.org, RDF, microdata 등.
데이터에서 정보, 관계를 추출해내기 쉬워진다.
#부록 - 저작권
데이터 사용할 때 저작권 조심하세요.
오픈소스/오픈데이터는 공짜로 맘대로 가져가서 사용해도 되는 것 (x)
→ 저작권자가 허용한 범위 내에서만 사용해야 한다.
원작자를 반드시 표시하도록 합니다.
email: kang@cheol.net
twitter: @cornchz
감사합니다

More Related Content

What's hot

빅데이터와 저널리즘의 만남, 빅데이터 저널리즘
빅데이터와 저널리즘의 만남, 빅데이터 저널리즘빅데이터와 저널리즘의 만남, 빅데이터 저널리즘
빅데이터와 저널리즘의 만남, 빅데이터 저널리즘영제 임
 
뉴스젤리 - 데이터저널리즘 이해하기 1
뉴스젤리 - 데이터저널리즘 이해하기 1뉴스젤리 - 데이터저널리즘 이해하기 1
뉴스젤리 - 데이터저널리즘 이해하기 1Newsjelly
 
농업 빅데이터를 활용한 병해충 발생 예측 모형
농업 빅데이터를 활용한 병해충 발생 예측 모형농업 빅데이터를 활용한 병해충 발생 예측 모형
농업 빅데이터를 활용한 병해충 발생 예측 모형datasciencekorea
 
데이터시장의 트렌드와 예측 - 이영환
데이터시장의 트렌드와 예측 - 이영환 데이터시장의 트렌드와 예측 - 이영환
데이터시장의 트렌드와 예측 - 이영환 datasciencekorea
 
[UDIS_6_2nd] Data Journalism_20140712
[UDIS_6_2nd] Data Journalism_20140712[UDIS_6_2nd] Data Journalism_20140712
[UDIS_6_2nd] Data Journalism_20140712Sunghun Bae
 
LOD를 말하다: Europeana, BBC, LinkedUp
LOD를 말하다: Europeana, BBC, LinkedUpLOD를 말하다: Europeana, BBC, LinkedUp
LOD를 말하다: Europeana, BBC, LinkedUpHansung University
 
방송기자협회 - 데이터 저널리즘과 발로 뛴 리포팅의 환상적 결합
방송기자협회 - 데이터 저널리즘과  발로 뛴 리포팅의 환상적 결합방송기자협회 - 데이터 저널리즘과  발로 뛴 리포팅의 환상적 결합
방송기자협회 - 데이터 저널리즘과 발로 뛴 리포팅의 환상적 결합Han Woo PARK
 
빅데이터 기술을 활용한 뉴스 큐레이션 서비스 - 온병원
빅데이터 기술을 활용한 뉴스 큐레이션 서비스 - 온병원빅데이터 기술을 활용한 뉴스 큐레이션 서비스 - 온병원
빅데이터 기술을 활용한 뉴스 큐레이션 서비스 - 온병원datasciencekorea
 
서울시 Linked Data 서비스 소개-열린데이터광장
서울시 Linked Data 서비스 소개-열린데이터광장서울시 Linked Data 서비스 소개-열린데이터광장
서울시 Linked Data 서비스 소개-열린데이터광장Haklae Kim
 
LOD 해외 사례(미국,영국,독일,Etc)
LOD 해외 사례(미국,영국,독일,Etc)LOD 해외 사례(미국,영국,독일,Etc)
LOD 해외 사례(미국,영국,독일,Etc)경욱 이
 
데이터에 포함된 동적 패턴의 탐색과 해석을 위한 협업적 탐험 플랫폼 -최진혁
데이터에 포함된 동적 패턴의 탐색과 해석을 위한 협업적 탐험 플랫폼 -최진혁데이터에 포함된 동적 패턴의 탐색과 해석을 위한 협업적 탐험 플랫폼 -최진혁
데이터에 포함된 동적 패턴의 탐색과 해석을 위한 협업적 탐험 플랫폼 -최진혁datasciencekorea
 
CKAT (Connected Knowledge and Tools) #1 - Seoul City
CKAT (Connected Knowledge and Tools) #1 - Seoul CityCKAT (Connected Knowledge and Tools) #1 - Seoul City
CKAT (Connected Knowledge and Tools) #1 - Seoul Cityok-korea
 
정부 3.0 공공(빅)데이터 플랫폼거버넌스(5 sep2015)1시간
정부 3.0 공공(빅)데이터 플랫폼거버넌스(5 sep2015)1시간정부 3.0 공공(빅)데이터 플랫폼거버넌스(5 sep2015)1시간
정부 3.0 공공(빅)데이터 플랫폼거버넌스(5 sep2015)1시간Han Woo PARK
 

What's hot (14)

빅데이터와 저널리즘의 만남, 빅데이터 저널리즘
빅데이터와 저널리즘의 만남, 빅데이터 저널리즘빅데이터와 저널리즘의 만남, 빅데이터 저널리즘
빅데이터와 저널리즘의 만남, 빅데이터 저널리즘
 
뉴스젤리 - 데이터저널리즘 이해하기 1
뉴스젤리 - 데이터저널리즘 이해하기 1뉴스젤리 - 데이터저널리즘 이해하기 1
뉴스젤리 - 데이터저널리즘 이해하기 1
 
농업 빅데이터를 활용한 병해충 발생 예측 모형
농업 빅데이터를 활용한 병해충 발생 예측 모형농업 빅데이터를 활용한 병해충 발생 예측 모형
농업 빅데이터를 활용한 병해충 발생 예측 모형
 
링크드 데이터 사례
링크드 데이터 사례링크드 데이터 사례
링크드 데이터 사례
 
데이터시장의 트렌드와 예측 - 이영환
데이터시장의 트렌드와 예측 - 이영환 데이터시장의 트렌드와 예측 - 이영환
데이터시장의 트렌드와 예측 - 이영환
 
[UDIS_6_2nd] Data Journalism_20140712
[UDIS_6_2nd] Data Journalism_20140712[UDIS_6_2nd] Data Journalism_20140712
[UDIS_6_2nd] Data Journalism_20140712
 
LOD를 말하다: Europeana, BBC, LinkedUp
LOD를 말하다: Europeana, BBC, LinkedUpLOD를 말하다: Europeana, BBC, LinkedUp
LOD를 말하다: Europeana, BBC, LinkedUp
 
방송기자협회 - 데이터 저널리즘과 발로 뛴 리포팅의 환상적 결합
방송기자협회 - 데이터 저널리즘과  발로 뛴 리포팅의 환상적 결합방송기자협회 - 데이터 저널리즘과  발로 뛴 리포팅의 환상적 결합
방송기자협회 - 데이터 저널리즘과 발로 뛴 리포팅의 환상적 결합
 
빅데이터 기술을 활용한 뉴스 큐레이션 서비스 - 온병원
빅데이터 기술을 활용한 뉴스 큐레이션 서비스 - 온병원빅데이터 기술을 활용한 뉴스 큐레이션 서비스 - 온병원
빅데이터 기술을 활용한 뉴스 큐레이션 서비스 - 온병원
 
서울시 Linked Data 서비스 소개-열린데이터광장
서울시 Linked Data 서비스 소개-열린데이터광장서울시 Linked Data 서비스 소개-열린데이터광장
서울시 Linked Data 서비스 소개-열린데이터광장
 
LOD 해외 사례(미국,영국,독일,Etc)
LOD 해외 사례(미국,영국,독일,Etc)LOD 해외 사례(미국,영국,독일,Etc)
LOD 해외 사례(미국,영국,독일,Etc)
 
데이터에 포함된 동적 패턴의 탐색과 해석을 위한 협업적 탐험 플랫폼 -최진혁
데이터에 포함된 동적 패턴의 탐색과 해석을 위한 협업적 탐험 플랫폼 -최진혁데이터에 포함된 동적 패턴의 탐색과 해석을 위한 협업적 탐험 플랫폼 -최진혁
데이터에 포함된 동적 패턴의 탐색과 해석을 위한 협업적 탐험 플랫폼 -최진혁
 
CKAT (Connected Knowledge and Tools) #1 - Seoul City
CKAT (Connected Knowledge and Tools) #1 - Seoul CityCKAT (Connected Knowledge and Tools) #1 - Seoul City
CKAT (Connected Knowledge and Tools) #1 - Seoul City
 
정부 3.0 공공(빅)데이터 플랫폼거버넌스(5 sep2015)1시간
정부 3.0 공공(빅)데이터 플랫폼거버넌스(5 sep2015)1시간정부 3.0 공공(빅)데이터 플랫폼거버넌스(5 sep2015)1시간
정부 3.0 공공(빅)데이터 플랫폼거버넌스(5 sep2015)1시간
 

Viewers also liked

[PyConKR 2014] 30분만에 따라하는 동시성 스크래퍼
[PyConKR 2014] 30분만에 따라하는 동시성 스크래퍼[PyConKR 2014] 30분만에 따라하는 동시성 스크래퍼
[PyConKR 2014] 30분만에 따라하는 동시성 스크래퍼Cheol Kang
 
3장 데이터 수집, 정제에서 분석까지
3장 데이터 수집, 정제에서 분석까지3장 데이터 수집, 정제에서 분석까지
3장 데이터 수집, 정제에서 분석까지Hyochan PARK
 
딥러닝과 강화 학습으로 나보다 잘하는 쿠키런 AI 구현하기 DEVIEW 2016
딥러닝과 강화 학습으로 나보다 잘하는 쿠키런 AI 구현하기 DEVIEW 2016딥러닝과 강화 학습으로 나보다 잘하는 쿠키런 AI 구현하기 DEVIEW 2016
딥러닝과 강화 학습으로 나보다 잘하는 쿠키런 AI 구현하기 DEVIEW 2016Taehoon Kim
 
텐서플로우 설치도 했고 튜토리얼도 봤고 기초 예제도 짜봤다면 TensorFlow KR Meetup 2016
텐서플로우 설치도 했고 튜토리얼도 봤고 기초 예제도 짜봤다면 TensorFlow KR Meetup 2016텐서플로우 설치도 했고 튜토리얼도 봤고 기초 예제도 짜봤다면 TensorFlow KR Meetup 2016
텐서플로우 설치도 했고 튜토리얼도 봤고 기초 예제도 짜봤다면 TensorFlow KR Meetup 2016Taehoon Kim
 
지적 대화를 위한 깊고 넓은 딥러닝 PyCon APAC 2016
지적 대화를 위한 깊고 넓은 딥러닝 PyCon APAC 2016지적 대화를 위한 깊고 넓은 딥러닝 PyCon APAC 2016
지적 대화를 위한 깊고 넓은 딥러닝 PyCon APAC 2016Taehoon Kim
 
Do IoT Yourself! - 사물 간의 연결을 위한 Open API
Do IoT Yourself! - 사물 간의 연결을 위한 Open APIDo IoT Yourself! - 사물 간의 연결을 위한 Open API
Do IoT Yourself! - 사물 간의 연결을 위한 Open APIHyunghun Cho
 
대학원생 소셜 네트워크 & 통계 분석 서비스
대학원생 소셜 네트워크 & 통계 분석 서비스 대학원생 소셜 네트워크 & 통계 분석 서비스
대학원생 소셜 네트워크 & 통계 분석 서비스 NSGroup
 
대하드라마 '정도전' 네트워크 분석
대하드라마 '정도전' 네트워크 분석대하드라마 '정도전' 네트워크 분석
대하드라마 '정도전' 네트워크 분석Junsik Whang
 
Personalized Defect Prediction
Personalized Defect PredictionPersonalized Defect Prediction
Personalized Defect PredictionSung Kim
 
한글 언어 자원과 R: KoNLP 개선과 활용
한글 언어 자원과 R: KoNLP 개선과 활용한글 언어 자원과 R: KoNLP 개선과 활용
한글 언어 자원과 R: KoNLP 개선과 활용r-kor
 
장고로 웹서비스 만들기 기초
장고로 웹서비스 만들기   기초장고로 웹서비스 만들기   기초
장고로 웹서비스 만들기 기초Kwangyoun Jung
 
영화 서비스에 대한 생각
영화 서비스에 대한 생각영화 서비스에 대한 생각
영화 서비스에 대한 생각Taehoon Kim
 
6장 지능형 웹 크롤링
6장 지능형 웹 크롤링6장 지능형 웹 크롤링
6장 지능형 웹 크롤링Chanil Kim
 
쉽게 쓰여진 Django
쉽게 쓰여진 Django쉽게 쓰여진 Django
쉽게 쓰여진 DjangoTaehoon Kim
 
Time series classification
Time series classificationTime series classification
Time series classificationSung Kim
 
Differentiable Neural Computer
Differentiable Neural ComputerDifferentiable Neural Computer
Differentiable Neural ComputerTaehoon Kim
 
한국어와 NLTK, Gensim의 만남
한국어와 NLTK, Gensim의 만남한국어와 NLTK, Gensim의 만남
한국어와 NLTK, Gensim의 만남Eunjeong (Lucy) Park
 

Viewers also liked (20)

[PyConKR 2014] 30분만에 따라하는 동시성 스크래퍼
[PyConKR 2014] 30분만에 따라하는 동시성 스크래퍼[PyConKR 2014] 30분만에 따라하는 동시성 스크래퍼
[PyConKR 2014] 30분만에 따라하는 동시성 스크래퍼
 
3장 데이터 수집, 정제에서 분석까지
3장 데이터 수집, 정제에서 분석까지3장 데이터 수집, 정제에서 분석까지
3장 데이터 수집, 정제에서 분석까지
 
딥러닝과 강화 학습으로 나보다 잘하는 쿠키런 AI 구현하기 DEVIEW 2016
딥러닝과 강화 학습으로 나보다 잘하는 쿠키런 AI 구현하기 DEVIEW 2016딥러닝과 강화 학습으로 나보다 잘하는 쿠키런 AI 구현하기 DEVIEW 2016
딥러닝과 강화 학습으로 나보다 잘하는 쿠키런 AI 구현하기 DEVIEW 2016
 
텐서플로우 설치도 했고 튜토리얼도 봤고 기초 예제도 짜봤다면 TensorFlow KR Meetup 2016
텐서플로우 설치도 했고 튜토리얼도 봤고 기초 예제도 짜봤다면 TensorFlow KR Meetup 2016텐서플로우 설치도 했고 튜토리얼도 봤고 기초 예제도 짜봤다면 TensorFlow KR Meetup 2016
텐서플로우 설치도 했고 튜토리얼도 봤고 기초 예제도 짜봤다면 TensorFlow KR Meetup 2016
 
지적 대화를 위한 깊고 넓은 딥러닝 PyCon APAC 2016
지적 대화를 위한 깊고 넓은 딥러닝 PyCon APAC 2016지적 대화를 위한 깊고 넓은 딥러닝 PyCon APAC 2016
지적 대화를 위한 깊고 넓은 딥러닝 PyCon APAC 2016
 
Do IoT Yourself! - 사물 간의 연결을 위한 Open API
Do IoT Yourself! - 사물 간의 연결을 위한 Open APIDo IoT Yourself! - 사물 간의 연결을 위한 Open API
Do IoT Yourself! - 사물 간의 연결을 위한 Open API
 
대학원생 소셜 네트워크 & 통계 분석 서비스
대학원생 소셜 네트워크 & 통계 분석 서비스 대학원생 소셜 네트워크 & 통계 분석 서비스
대학원생 소셜 네트워크 & 통계 분석 서비스
 
대하드라마 '정도전' 네트워크 분석
대하드라마 '정도전' 네트워크 분석대하드라마 '정도전' 네트워크 분석
대하드라마 '정도전' 네트워크 분석
 
Personalized Defect Prediction
Personalized Defect PredictionPersonalized Defect Prediction
Personalized Defect Prediction
 
한글 언어 자원과 R: KoNLP 개선과 활용
한글 언어 자원과 R: KoNLP 개선과 활용한글 언어 자원과 R: KoNLP 개선과 활용
한글 언어 자원과 R: KoNLP 개선과 활용
 
python and database
python and databasepython and database
python and database
 
장고로 웹서비스 만들기 기초
장고로 웹서비스 만들기   기초장고로 웹서비스 만들기   기초
장고로 웹서비스 만들기 기초
 
Deep Reasoning
Deep ReasoningDeep Reasoning
Deep Reasoning
 
영화 서비스에 대한 생각
영화 서비스에 대한 생각영화 서비스에 대한 생각
영화 서비스에 대한 생각
 
6장 지능형 웹 크롤링
6장 지능형 웹 크롤링6장 지능형 웹 크롤링
6장 지능형 웹 크롤링
 
쉽게 쓰여진 Django
쉽게 쓰여진 Django쉽게 쓰여진 Django
쉽게 쓰여진 Django
 
Time series classification
Time series classificationTime series classification
Time series classification
 
Differentiable Neural Computer
Differentiable Neural ComputerDifferentiable Neural Computer
Differentiable Neural Computer
 
Gephi Quick Start
Gephi Quick StartGephi Quick Start
Gephi Quick Start
 
한국어와 NLTK, Gensim의 만남
한국어와 NLTK, Gensim의 만남한국어와 NLTK, Gensim의 만남
한국어와 NLTK, Gensim의 만남
 

Similar to 공공데이터 활용을 위한 "Tech 워크숍" 2회 - 공공데이터 수집, 가공하고 활용하기

[D2 CAMPUS] Tech meet-up `data science` 발표자료
[D2 CAMPUS] Tech meet-up `data science` 발표자료[D2 CAMPUS] Tech meet-up `data science` 발표자료
[D2 CAMPUS] Tech meet-up `data science` 발표자료NAVER D2
 
[Week1] 데이터의 접근과 법률
[Week1] 데이터의 접근과 법률 [Week1] 데이터의 접근과 법률
[Week1] 데이터의 접근과 법률 neuroassociates
 
[Week1] 데이터의 접근과 법률 bm
[Week1] 데이터의 접근과 법률 bm[Week1] 데이터의 접근과 법률 bm
[Week1] 데이터의 접근과 법률 bmneuroassociates
 
2013 Public Lab Research Report
2013 Public Lab Research Report2013 Public Lab Research Report
2013 Public Lab Research Reportpubliclab
 
LLG Data Journalism Module2 Review
LLG Data Journalism Module2 ReviewLLG Data Journalism Module2 Review
LLG Data Journalism Module2 Reviewneuroassociates
 
2010-11-20 kick off meeting
2010-11-20 kick off meeting2010-11-20 kick off meeting
2010-11-20 kick off meetingTeam POPONG
 
건설분야에서의 빅데이터 활용의 잠재적 가치제안
건설분야에서의 빅데이터 활용의 잠재적 가치제안건설분야에서의 빅데이터 활용의 잠재적 가치제안
건설분야에서의 빅데이터 활용의 잠재적 가치제안메가트렌드랩 megatrendlab
 
Peopleplus hr session(2) people analytics, start today
Peopleplus hr session(2) people analytics, start todayPeopleplus hr session(2) people analytics, start today
Peopleplus hr session(2) people analytics, start todayYoungchan Jo
 
언더스코어 팀 소개서 v2.0
언더스코어 팀 소개서 v2.0언더스코어 팀 소개서 v2.0
언더스코어 팀 소개서 v2.0Tae Young Kang
 
정보공개제도와 정보공개청구
정보공개제도와 정보공개청구정보공개제도와 정보공개청구
정보공개제도와 정보공개청구슬 김
 
빅데이터미래전략세미나발표자료 빅데이터기술현황및전망-황승구-20120410
빅데이터미래전략세미나발표자료 빅데이터기술현황및전망-황승구-20120410빅데이터미래전략세미나발표자료 빅데이터기술현황및전망-황승구-20120410
빅데이터미래전략세미나발표자료 빅데이터기술현황및전망-황승구-20120410Peter Woo
 
Big Data Analytics and Data Mining
Big Data Analytics and Data MiningBig Data Analytics and Data Mining
Big Data Analytics and Data MiningSuHyun Jeon
 
빅데이터와 로봇 (Big Data in Robotics)
빅데이터와 로봇 (Big Data in Robotics)빅데이터와 로봇 (Big Data in Robotics)
빅데이터와 로봇 (Big Data in Robotics)Hong-Seok Kim
 
LLG Data Journalism Module1 Review
LLG Data Journalism Module1 ReviewLLG Data Journalism Module1 Review
LLG Data Journalism Module1 Reviewneuroassociates
 
Process for Big Data Analysis
Process for Big Data AnalysisProcess for Big Data Analysis
Process for Big Data AnalysisMyunggoon Choi
 
Things Data Scientists Should Keep in Mind
Things Data Scientists Should Keep in MindThings Data Scientists Should Keep in Mind
Things Data Scientists Should Keep in MindDataya Nolja
 
법률정보의 조사 제2강
법률정보의 조사  제2강법률정보의 조사  제2강
법률정보의 조사 제2강필재 이
 
Bloter 넥스트 저널리즘 스쿨 강의자료
Bloter 넥스트 저널리즘 스쿨 강의자료Bloter 넥스트 저널리즘 스쿨 강의자료
Bloter 넥스트 저널리즘 스쿨 강의자료neuroassociates
 
언더스코어 팀 소개서 v2.1
언더스코어 팀 소개서 v2.1언더스코어 팀 소개서 v2.1
언더스코어 팀 소개서 v2.1Tae Young Kang
 
20140602 module2 presentation bm
20140602 module2 presentation bm20140602 module2 presentation bm
20140602 module2 presentation bmweowoonbae
 

Similar to 공공데이터 활용을 위한 "Tech 워크숍" 2회 - 공공데이터 수집, 가공하고 활용하기 (20)

[D2 CAMPUS] Tech meet-up `data science` 발표자료
[D2 CAMPUS] Tech meet-up `data science` 발표자료[D2 CAMPUS] Tech meet-up `data science` 발표자료
[D2 CAMPUS] Tech meet-up `data science` 발표자료
 
[Week1] 데이터의 접근과 법률
[Week1] 데이터의 접근과 법률 [Week1] 데이터의 접근과 법률
[Week1] 데이터의 접근과 법률
 
[Week1] 데이터의 접근과 법률 bm
[Week1] 데이터의 접근과 법률 bm[Week1] 데이터의 접근과 법률 bm
[Week1] 데이터의 접근과 법률 bm
 
2013 Public Lab Research Report
2013 Public Lab Research Report2013 Public Lab Research Report
2013 Public Lab Research Report
 
LLG Data Journalism Module2 Review
LLG Data Journalism Module2 ReviewLLG Data Journalism Module2 Review
LLG Data Journalism Module2 Review
 
2010-11-20 kick off meeting
2010-11-20 kick off meeting2010-11-20 kick off meeting
2010-11-20 kick off meeting
 
건설분야에서의 빅데이터 활용의 잠재적 가치제안
건설분야에서의 빅데이터 활용의 잠재적 가치제안건설분야에서의 빅데이터 활용의 잠재적 가치제안
건설분야에서의 빅데이터 활용의 잠재적 가치제안
 
Peopleplus hr session(2) people analytics, start today
Peopleplus hr session(2) people analytics, start todayPeopleplus hr session(2) people analytics, start today
Peopleplus hr session(2) people analytics, start today
 
언더스코어 팀 소개서 v2.0
언더스코어 팀 소개서 v2.0언더스코어 팀 소개서 v2.0
언더스코어 팀 소개서 v2.0
 
정보공개제도와 정보공개청구
정보공개제도와 정보공개청구정보공개제도와 정보공개청구
정보공개제도와 정보공개청구
 
빅데이터미래전략세미나발표자료 빅데이터기술현황및전망-황승구-20120410
빅데이터미래전략세미나발표자료 빅데이터기술현황및전망-황승구-20120410빅데이터미래전략세미나발표자료 빅데이터기술현황및전망-황승구-20120410
빅데이터미래전략세미나발표자료 빅데이터기술현황및전망-황승구-20120410
 
Big Data Analytics and Data Mining
Big Data Analytics and Data MiningBig Data Analytics and Data Mining
Big Data Analytics and Data Mining
 
빅데이터와 로봇 (Big Data in Robotics)
빅데이터와 로봇 (Big Data in Robotics)빅데이터와 로봇 (Big Data in Robotics)
빅데이터와 로봇 (Big Data in Robotics)
 
LLG Data Journalism Module1 Review
LLG Data Journalism Module1 ReviewLLG Data Journalism Module1 Review
LLG Data Journalism Module1 Review
 
Process for Big Data Analysis
Process for Big Data AnalysisProcess for Big Data Analysis
Process for Big Data Analysis
 
Things Data Scientists Should Keep in Mind
Things Data Scientists Should Keep in MindThings Data Scientists Should Keep in Mind
Things Data Scientists Should Keep in Mind
 
법률정보의 조사 제2강
법률정보의 조사  제2강법률정보의 조사  제2강
법률정보의 조사 제2강
 
Bloter 넥스트 저널리즘 스쿨 강의자료
Bloter 넥스트 저널리즘 스쿨 강의자료Bloter 넥스트 저널리즘 스쿨 강의자료
Bloter 넥스트 저널리즘 스쿨 강의자료
 
언더스코어 팀 소개서 v2.1
언더스코어 팀 소개서 v2.1언더스코어 팀 소개서 v2.1
언더스코어 팀 소개서 v2.1
 
20140602 module2 presentation bm
20140602 module2 presentation bm20140602 module2 presentation bm
20140602 module2 presentation bm
 

공공데이터 활용을 위한 "Tech 워크숍" 2회 - 공공데이터 수집, 가공하고 활용하기

  • 1. 공공데이터 수집, 가공하고 활용하기 강철 <kang@cheol.net> 2014.06.27 http://tinyurl.com/codenamu140627-slide
  • 2. 발표자 소개 KAIST 전산학과 Team POPONG에서 개발하고 있습니다. 어제 군복무 완료했습니다.
  • 3. 오늘의 목표 데이터 활용을 위해 무엇이 필요한가 감 잡기 원하는 게 있을 때 직접 데이터 수집 ~ 가공 ~ 분석 ~ 시각화
  • 4. 공공데이터란 공공데이터: 공공기관이 생성 또는 취득하여 관리하고 있는, 전자적 방식으로 처리된 자료. 각 기관은 시민에게 적극적으로 공개할 의무가 있다. 단, 다음의 경우 공개 제한 가능 - 비공개 대상 정보 (국방/국익 위협, 기밀, 개인정보 등) - 제3자에게(도) 권리가 있는 경우 ※ CC 윤종수 리드님 강연에 자세히 설명되어 있음 http://goo.gl/FKEFlL 출처: 정보공개법, 공공데이터법
  • 6. 공공데이터의 활용 대한민국 정치의 모든 것 pokr.kr (Team POPONG)
  • 7. 어떤 부분이 어려운가 '...??? 뭘 어떻게 시작해야 할지 모르겠어요.'
  • 8. 예제 - "어렵지 않아요" 주제: 2014년 1사분기 대한민국 각 시도별 실업률을 지도에 표시해보자. → 10분이면 됩니다. 데이터 소스: 통계청 http://tinyurl.com/korean-unemployment 도구: Google Fusion Table
  • 10. 기획 기획 = "무엇을 만들 것인가" 1. 목적이 주도 2. 기술이 주도 만약 아직 목적이 없다면, 기술을 쌓아서 ‘목적을 볼 수 있는 눈’을 만드는 것도 방법.
  • 11. 데이터 수집 1. 공개된 데이터를 이용한다. - 서울 열린데이터광장 http://data.seoul.go.kr/ - 공공데이터포털 http://data.go.kr/ - 국회정보시스템 http://likms.assembly.go.kr/ - 통계청 http://kostat.go.kr/ - e-나라지표 http://index.go.kr - 팀포퐁 GitHub https://github.com/teampopong - 다음 API http://dna.daum.net/apis/dashboard - … Google! 2. 웹사이트를 크롤링한다. 오늘 다루진 않겠습니다.
  • 12. 데이터셋 vs. API 1. 데이터셋 파일로 다운로드되는 bulk 데이터 장점: - 쉽게 사용 가능하다. 단점: - 변화하는 데이터의 업데이트가 불가 2. API 요청시 on demand로 데이터를 제공 장점: - 변화하는 데이터를 지속적으로 업데이트 가능하다. 단점: - 사용하기 위해서 프로그래밍이 필요하다.
  • 13. 예제 - 오픈 API 팀포퐁 API를 이용해서 정치인들을 검색해 보겠습니다. API 문서 주소: http://data.popong.com/
  • 14. 데이터 가공 우리가 원하는 형태로 주어지지 않는다. 1. 파싱parsing 2. 변환transform 3. 추출filtering 이런 과정들을 통해, 내가 원하는 "좋은 데이터"의 형태로 만든다.
  • 15. 좋은 데이터, 나쁜 데이터 사람이 이해하는 데이터 컴퓨터가 이해하는 데이터 좋은 데이터
  • 16. 좋은 데이터, 나쁜 데이터 사람이 이해하는 데이터 컴퓨터가 이해하는 데이터 요기는 뭐지? hwp, doc, jpg, pdf OUT docx, xlsx OUT html, txt OUT DSL OUT 좋은 데이터 후보
  • 18. 진심이 담긴 농담… ‘XML은 사람과 컴퓨터, 양쪽 모두가 읽기 어렵게 만듦으로써 양쪽의 균형을 맞췄습니다.’
  • 20. 데이터 분석 간단하게는 간단한 통계, 여러 데이터를 엮어서 연관성 분석을 할 수도 있고, 내지는 사회학에 기반한 사회망분석(Social Network Analysis), 나아가, 겉으로는 보이지 않던 숨은 정보(패턴)를 찾아내는 데이터마이닝 등등... '기획' 단계에서 검증하고 싶었던 의도에 따라 적합한 분석을 실시한다.
  • 21. 데이터 시각화 엑셀도 좋은 도구입니다. Tableau나 Spotfire, Gephi 등 전문 소프트웨어 애니메이션이 필요할 땐 processing.js interactive 시각화에는 d3.js 수많은 도구와 수많은 레퍼런스, 수많은 방법. 좋은 걸 많이 보는 게 중요. https://github.com/mbostock/d3/wiki/Tutorials
  • 22. 실습 1999년 ~ 2013년 실업률을 지도에 표시해보자! 스켈레톤 코드 다운받기: http://tinyurl.com/codenamu140627
  • 23. 발행 가장 쉬운 방법: - 스크린샷 찍어서 이미지 업로드 오늘은 동적 시각화를 배포할 수 있는 bl.ocks.org 라는 서비스를 이용해 보겠습니다.
  • 25. #부록 - 도구 시각화 Google Fusion Table Google Charts highcharts d3.js gephi processing(.js) 데이터 변환 ogr2ogr pdftotext 데이터 수집 import.io Scrapy wget 언어 Python R Matlab 데이터 분석 Tableau Spotfire SPSS SAS 발행 GitHub Pages Gist JSFiddle
  • 26. #부록 - 표준 데이터 형식 YAML, JSON, XML 등은 다 표준이 있다. 데이터 호환성은 표준을 지킴으로써 따라온다. 1. 공개 라이브러리로 데이터를 쉽게 읽고 쓸 수 있고 2. 내가 공개한 데이터를 사람들이 쉽게 사용할 수 있다. 표준을 지키는 것이 자신에게도 이득! 시맨틱 schema.org, RDF, microdata 등. 데이터에서 정보, 관계를 추출해내기 쉬워진다.
  • 27. #부록 - 저작권 데이터 사용할 때 저작권 조심하세요. 오픈소스/오픈데이터는 공짜로 맘대로 가져가서 사용해도 되는 것 (x) → 저작권자가 허용한 범위 내에서만 사용해야 한다. 원작자를 반드시 표시하도록 합니다.