SlideShare a Scribd company logo
1 of 7
Download to read offline
공공 빅데이터 분석의 확산을 위한 첫걸음
- 공공 빅데이터 표준분석모델 구축 -
빅데이터가 국내 ICT분야의 주요 트렌드로 자리 잡은 지 벌써 5년의 시간이 지나고 있다.
그 사이 민간 영역에서 뿐만 아니라 공공의 영역에서도 일부 선도적인 정부부처와 지자체를
중심으로 다양한 주제의 빅데이터 분석 사업들이 진행되어 왔다. 그리고 이를 통하여 공공 분
야의 빅데이터 분석 및 활용에 대한 우수한 사례들이 많이 만들어 지고 있으며, 또한 그 과정
에서 수반되는 여러 가지 경험을 토대로 많은 노하우들이 쌓여가고 있는 상황이다.
현재는 점점 더 많은 정부부처와 지자체에서 빅데이터 분석과 활용을 위한 노력들을 진행하고
있으며, 이를 위하여 그간에 공공 분야에서 축적된 빅데이터 사업의 경험과 노하우를 효
과적으로 전달·확산될 수 있도록 하는 지원 체계가 마련되어야 할 시점이다. 이에 한국정
보화진흥원과 행정자치부에서는 ‘2016년 공공 빅데이터 표준분석모델 구축’ 사업을 통하여 공
공 빅데이터 분석의 확산을 위한 기초를 다지는 작업을 진행하고 있다.
<그림 1> 공공 빅데이터 최근 4년간 추진 현황
공공 빅데이터 분석 확산의 출발 – 표준화
그동안 정부부처, 지자체 등에서 진행한 빅데이터 분석 사업들을 유심히 살펴보면 유사한
주제에 대하여 진행된 사업들이 많이 있음을 알 수 있다. 특히 지자체의 경우에는 민원, 관
광·축제 효과, 대중교통 이용, CCTV 취약지역 등에 대한 분석이 상당수를 차지하고 있다. 그러
나 분석의 시기, 주체, 기술, 관점 등이 서로 다름으로 인하여 실제 분석에 활용된 데이터 및
분석 방법 등에서도 많은 차이를 보이고 있으며, 이러한 것들이 우수 사례들을 확산하고 활용
하는 점에 있어서 걸림돌이 되고 혼란을 야기하고 있는 상황이다.
따라서 이번 표준분석모델 구축 사업에서는 위의 4가지 분석 주제와 2015년 공공 빅데이터
분석 사업에서 성과가 검증된 2가지 분석 주제(‘공동주택 부조리 분석’ 및 ‘근로감독 위반 사업
장 분석’)를 포함한 총 6개의 분석 주제에 대하여 표준화된 분석 모델을 정립하고, 이를 3개의
지자체를 대상으로 적용 및 검증하는 과정을 진행하고 있다. 그리고 개발된 표준분석모델을 현업의
담당자이 효과적으로 활용할 수 있도록 교육과 홍보 업무도 함께 진행하고 있다.
결과적으로는 표준분석모델 구축 사업을 통하여 유사 빅데이터 분석 사업에 대한 중복 투자를
줄이고 사업의 비용과 기간을 단축함으로서 예산 절감 효과를 가져 올 수 있고, 현장에서 빅
데이터 분석 업무를 담당하는 공무원들의 업무 편의성과 효율성을 향상시키는 효과를 얻을 수
있을 것으로 기대하고 있다.
<그림 2> 표준분석모델 구축의 필요성 및 목적
빅데이터 분석의 기초 공사 – 데이터 표준화
빅데이터 분석 결과의 품질을 높이기 위해서는 분석에 사용하는 원천 데이터의 품질이 높
아야 한다는 것은 아무리 강조해도 부족함이 없다. 하지만 빅데이터 분석 사업의 현장을 들여
다보면 필요한 데이터를 수급하는 것에서부터 어려움에 봉착하는 경우가 많다. 그 원인으로
는 사전에 필요한 데이터에 대한 조사가 부족해서 이거나 데이터를 보유하고 있는 기관과의
의사소통에 문제가 있거나 때로는 법제도적으로 수급이 원천적으로 불가능 하거나 한 경우도
있다.
따라서 표준분석모델을 구축하기 위하여 기존의 선행 분석 사례를 검토하여 각 분석 주제별로
분석에 활용된 데이터의 목록을 정리한 후, 해당 데이터가 필수 항목인지, 데이터를 누가 보
유하고 있는지, 수급에는 문제가 없는지, 수급에 문제가 있다면 다른 데이터로 대체가 가능
한지 등을 검토하여 최종적으로 분석에 사용할 표준 데이터 목록을 정리하는 것으로 출발한
다. 특히 표준분석모델을 사용할 분석 담당자들의 데이터 수급에 대한 업무 부담을 줄이고자
표준화된 데이터 목록에는 가능한 공개되어 있는 공공 데이터를 많이 포함하였고, 전국 단위
데이터 수급이 가능한 경우는 표준분석모델에 해당 데이터를 탑재하여 함께 제공되도록 하
였다.
다음으로는 표준화된 데이터 목록에 있는 각각의 데이터에 대하여, 분석에 사용하기 위해서는
어떠한 데이터 값들을 포함하고 있어야 하는지에 대한 상세한 데이터 포맷을 표준화하여 정
의한다. 이는 분석 담당자들이 해당 데이터를 표준화된 형태에 맞추어 수급 또는 가공만 하면
바로 표준분석모델의 입력 데이터로 활용할 수 있도록 하기 위해서이다.
<그림 3> 민원 분야 데이터 표준화 예시
또한, 데이터 측면에서 중요한 것은 민간 영역의 데이터에 대한 부분이다. 공공 빅데이터
분석 사업에서 자주 사용되는 민간데이터는 교통카드 데이터, 이동통신사 유동인구 데이터,
신용카드사 소비관련 데이터 등이 있으며, 이런 민간 데이터들을 데이터를 제공하는 기업에
따라 데이터의 형태나 항목들이 서로 다른 것이 일반적이다. 그러나 이런 데이터 간의 차이가
분석을 어렵게 만드는 요인이 됨으로 표준분석모델에서는 민간의 데이터 제공자에 어디라도 이와
상관없이 활용할 수 있도록 민간 수급 데이터에 대해서도 표준화 작업을 진행하였다.
<그림 4> 표준분석모델의 데이터 측면에서의 개선 내용
분석 절차와 방법의 표준화
분석 주제별로 사용할 데이터의 표준화가 완료되면, 다음으로는 분석 절차 및 방법에 대
한 표준화가 진행되어야 한다. 분석 절차나 방법은 분석 주제별 특성에 따라 서로 다른 모양
으로 표준화 될 수밖에 없으며, 주로 사용하는 분석 방법에 따라서 분석에 사용하는 도구들
또한 달라진다.
분석 절차에 있어서 공통적으로 제일 처음에는 수급한 데이터의 오류 확인 및 제거, 데이터
정합성 확인 등의 작업을 거친 후, 실제 분석에 활용할 형태로 데이터를 가공하는 데이터 전
처리 과정을 거치게 되며, 이후에 이상치 탐지 등을 위한 탐색적 데이터 분석과 기본적인 현
황 파악을 위한 기초 통계 분석 등의 과정을 거치게 된다. 그러나 그 이후의 본격적인 데이
터 분석 작업은 각 분석 주제별 특성에 따라 개별적인 절차와 방법을 사용하므로, 결과적으로
는 분석 주제별로 표준화된 분석 절차와 방법들을 정립하였다.
<그림 5> 민원분야 분석 프로세스 예시
또한 분석에 사용하는 도구에 있어서도 일반적인 Data Minning이나 Text Minning의 경우에
는 오픈소스 분석도구인 R을 기본으로 사용하며, 지도 위에 데이터를 올려놓고 분석 작업을 주
로 하는 GIS 기반의 분석에서는 오픈소스인 Q-GIS를 기본 도구로 사용하였다. 이 외에도 교
통 분석에서 대량의 데이터를 처리하기 위하여 오픈소스인 PostgreSQL 데이터베이스도
사용하였는데, 이는 분석 과정에서 가능한 많은 부분을 오픈소스 기반으로 처리함으로서 향후
표준분석모델 사용 시의 비용 부담을 최소화하기 위해서이다.
마지막으로 분석 결과를 한눈에 직관적으로 표현하는 시각화 영역에 대해서도 도표, 차트
등을 표준화하여 작성하였으며, 시각화를 위한 도구로는 상용 소프트웨어인 Tableau를 사용
하여 표준화를 진행하였다.
<그림 6> 분석 주제별 분석 방법, 도구, 시각화 요약표
표준분석모델의 실제 적용을 통한 검증 실시
이러한 과정을 거쳐서 만들어진 각 분석 주제별 표준분석모델을 검증하고 오류를 수정하기
위하여 이번 사업에서는 제주특별자치도, 김해시, 포항시 3개 지방자치단체를 대상으로 실
제 빅데이터 분석 작업을 수행하였다. 이를 위하여 지자체의 ICT 부서 및 현업 부서와 긴밀
하게 커뮤니케이션하면서 데이터 수급, 전처리, 분석 및 시각화의 전 과정을 검증하였고, 이와
더불어 각 분석 주제별 외부 전문가들의 자문을 거쳐 표준분석모델을 완성하였다.
<그림 7> 지방자치단체별 적용 분석 주제
확산을 위한 기반을 준비
이와 더불어 표준분석모델이 실질적인 효과를 발하기 위해서는 정부부처나 지자체 등의 분
석 업무 담당자들이 이를 잘 활용할 수 있도록 교육하고 지원하는 것이 가장 중요하다. 따라
서 이번 사업에서는 사업 초기 이들의 빅데이터 분석에 대한 필요성 인식과 이해도를 높이기
위한 개념형 교육과 표준분석모델 완성 이후 실제 활용을 위한 참여형 실습 교육을 전국의 5
개 권역에서 진행하였다.
또한 표준분석모델 활용 시 담당자들이 참고할 수 있도록 분석 주제별 상세 매뉴얼과 분
석에 필요한 여러 가지 프로그램이나 샘플데이터, 분석 스크립트 등을 담은 CD를 제작하여 제
공할 예정이며, 이러한 내용들을 정부 3.0 체험마당 행사 등을 통하여 적극적으로 홍보하고 있
다.
향후 지속적인 관리와 지원 및 확장 필요
향후 표준분석모델의 지속적인 확산과 활용을 위해서는 이를 활용하는 정부부처 및 지자
체들에 대한 지속적인 기술 지원과 교육 등이 필요하며, 특히 교육 후 설문조사 결과에서도 담당
자들이 도움을 가장 필요로 하는 업무 영역인 빅데이터 분석 결과의 정책 활용에 대한 부분들
을 지원할 수 있는 컨설팅 지원 체계도 필요할 것이다.
뿐만 아니라, 이번에 만들어진 표준분석모델에 대하여 향후 분석 환경과 기술의 변화에 발
맞추어 지속적인 업그레이드 작업이 동반되어야 하며, 새로운 분석 주제 영역으로의 계속적인 추
가 확대를 위한 노력도 필요할 것이다.
이를 통하여 우리 나라가 빅데이터 분석을 정부 정책의 수립과 운영 등에 효율적으로 활
용하는 빅데이터 선진국으로 발전할 수 있기를 기대해 본다.
<그림 8> 개념형 교육 실시 <그림 9> 참여형 교육 실시

More Related Content

Similar to 공공_빅데이터_분석의_확산을_위한_첫걸음-2016-12

빅데이터 분야를 위한 이미지 마이닝 기술동향 및 산업 동향 고찰
빅데이터 분야를 위한 이미지 마이닝 기술동향 및 산업 동향 고찰빅데이터 분야를 위한 이미지 마이닝 기술동향 및 산업 동향 고찰
빅데이터 분야를 위한 이미지 마이닝 기술동향 및 산업 동향 고찰JeongHeon Lee
 
빅데이터 분야를 위한 이미지 마이닝 기술동향 및 산업 동향 고찰
빅데이터 분야를 위한 이미지 마이닝 기술동향 및 산업 동향 고찰빅데이터 분야를 위한 이미지 마이닝 기술동향 및 산업 동향 고찰
빅데이터 분야를 위한 이미지 마이닝 기술동향 및 산업 동향 고찰JeongHeon Lee
 
2016 국민디자인단 - ‘통계’ 하면 통계청 ‘KOSIS!’, 내가 필요한 정보는 꼭 집어주네 !
2016 국민디자인단 - ‘통계’ 하면 통계청 ‘KOSIS!’, 내가 필요한 정보는 꼭 집어주네 !2016 국민디자인단 - ‘통계’ 하면 통계청 ‘KOSIS!’, 내가 필요한 정보는 꼭 집어주네 !
2016 국민디자인단 - ‘통계’ 하면 통계청 ‘KOSIS!’, 내가 필요한 정보는 꼭 집어주네 !한국디자인진흥원 공공서비스디자인PD
 
DLAB company info and big data case studies
DLAB company info and big data case studiesDLAB company info and big data case studies
DLAB company info and big data case studiesDLAB
 
공공빅데이터 업무적용 가이드
공공빅데이터 업무적용 가이드공공빅데이터 업무적용 가이드
공공빅데이터 업무적용 가이드sam Cyberspace
 
2018 제4회 도시빅데이터 세미나: 멜론의 셀프 서비스 분석 환경과 Next
2018 제4회 도시빅데이터 세미나: 멜론의 셀프 서비스 분석 환경과 Next2018 제4회 도시빅데이터 세미나: 멜론의 셀프 서비스 분석 환경과 Next
2018 제4회 도시빅데이터 세미나: 멜론의 셀프 서비스 분석 환경과 NextByunghwa Yoon
 
Ksdn kor1 비즈니스트랙_공공서비스디자인_정인애발표
Ksdn kor1 비즈니스트랙_공공서비스디자인_정인애발표Ksdn kor1 비즈니스트랙_공공서비스디자인_정인애발표
Ksdn kor1 비즈니스트랙_공공서비스디자인_정인애발표Inae Jung
 
Customized Big Data Report 소개(minds lab) v1.0_full
Customized Big Data Report 소개(minds lab) v1.0_fullCustomized Big Data Report 소개(minds lab) v1.0_full
Customized Big Data Report 소개(minds lab) v1.0_fullTaejoon Yoo
 
2015-4 혁신기술로서의 빅데이터 국내 기술수용 초기 특성연구- 김정선
2015-4 혁신기술로서의 빅데이터 국내 기술수용 초기 특성연구- 김정선2015-4 혁신기술로서의 빅데이터 국내 기술수용 초기 특성연구- 김정선
2015-4 혁신기술로서의 빅데이터 국내 기술수용 초기 특성연구- 김정선datasciencekorea
 
미국 기업의 오픈데이터 활용사례와 비즈니스 네트워크 분석 : “데이터와 기술” 분야를 중심으로
미국 기업의 오픈데이터 활용사례와 비즈니스 네트워크 분석 : “데이터와 기술” 분야를 중심으로미국 기업의 오픈데이터 활용사례와 비즈니스 네트워크 분석 : “데이터와 기술” 분야를 중심으로
미국 기업의 오픈데이터 활용사례와 비즈니스 네트워크 분석 : “데이터와 기술” 분야를 중심으로Han Woo PARK
 
Data Management for Digital Marketing
Data Management for Digital MarketingData Management for Digital Marketing
Data Management for Digital MarketingYoungDaeKim10
 
Personal 빅데이터 주요 이슈 및 기술적 대응 방안
Personal 빅데이터 주요 이슈 및 기술적 대응 방안Personal 빅데이터 주요 이슈 및 기술적 대응 방안
Personal 빅데이터 주요 이슈 및 기술적 대응 방안메가트렌드랩 megatrendlab
 
인공지능-빅데이터연구센터[ABRC] 산학협력사례집
인공지능-빅데이터연구센터[ABRC] 산학협력사례집인공지능-빅데이터연구센터[ABRC] 산학협력사례집
인공지능-빅데이터연구센터[ABRC] 산학협력사례집ABRC_DATA
 
빅데이터 솔루션 소개서(2013년 05월)
빅데이터 솔루션 소개서(2013년 05월)빅데이터 솔루션 소개서(2013년 05월)
빅데이터 솔루션 소개서(2013년 05월)동학 노
 
빅데이터의 활용
빅데이터의 활용빅데이터의 활용
빅데이터의 활용수보 김
 
빅데이터 기술 및 시장동향
빅데이터 기술 및 시장동향빅데이터 기술 및 시장동향
빅데이터 기술 및 시장동향atelier t*h
 
2015 디지털 사이니지 전망 및 광고 효과 측정을 필요성
2015 디지털 사이니지 전망 및 광고 효과 측정을 필요성2015 디지털 사이니지 전망 및 광고 효과 측정을 필요성
2015 디지털 사이니지 전망 및 광고 효과 측정을 필요성M&M Networks
 

Similar to 공공_빅데이터_분석의_확산을_위한_첫걸음-2016-12 (20)

빅데이터 분야를 위한 이미지 마이닝 기술동향 및 산업 동향 고찰
빅데이터 분야를 위한 이미지 마이닝 기술동향 및 산업 동향 고찰빅데이터 분야를 위한 이미지 마이닝 기술동향 및 산업 동향 고찰
빅데이터 분야를 위한 이미지 마이닝 기술동향 및 산업 동향 고찰
 
빅데이터 분야를 위한 이미지 마이닝 기술동향 및 산업 동향 고찰
빅데이터 분야를 위한 이미지 마이닝 기술동향 및 산업 동향 고찰빅데이터 분야를 위한 이미지 마이닝 기술동향 및 산업 동향 고찰
빅데이터 분야를 위한 이미지 마이닝 기술동향 및 산업 동향 고찰
 
2016 국민디자인단 - ‘통계’ 하면 통계청 ‘KOSIS!’, 내가 필요한 정보는 꼭 집어주네 !
2016 국민디자인단 - ‘통계’ 하면 통계청 ‘KOSIS!’, 내가 필요한 정보는 꼭 집어주네 !2016 국민디자인단 - ‘통계’ 하면 통계청 ‘KOSIS!’, 내가 필요한 정보는 꼭 집어주네 !
2016 국민디자인단 - ‘통계’ 하면 통계청 ‘KOSIS!’, 내가 필요한 정보는 꼭 집어주네 !
 
DLAB company info and big data case studies
DLAB company info and big data case studiesDLAB company info and big data case studies
DLAB company info and big data case studies
 
공공빅데이터 업무적용 가이드
공공빅데이터 업무적용 가이드공공빅데이터 업무적용 가이드
공공빅데이터 업무적용 가이드
 
2018 제4회 도시빅데이터 세미나: 멜론의 셀프 서비스 분석 환경과 Next
2018 제4회 도시빅데이터 세미나: 멜론의 셀프 서비스 분석 환경과 Next2018 제4회 도시빅데이터 세미나: 멜론의 셀프 서비스 분석 환경과 Next
2018 제4회 도시빅데이터 세미나: 멜론의 셀프 서비스 분석 환경과 Next
 
Ksdn kor1 비즈니스트랙_공공서비스디자인_정인애발표
Ksdn kor1 비즈니스트랙_공공서비스디자인_정인애발표Ksdn kor1 비즈니스트랙_공공서비스디자인_정인애발표
Ksdn kor1 비즈니스트랙_공공서비스디자인_정인애발표
 
Customized Big Data Report 소개(minds lab) v1.0_full
Customized Big Data Report 소개(minds lab) v1.0_fullCustomized Big Data Report 소개(minds lab) v1.0_full
Customized Big Data Report 소개(minds lab) v1.0_full
 
2015-4 혁신기술로서의 빅데이터 국내 기술수용 초기 특성연구- 김정선
2015-4 혁신기술로서의 빅데이터 국내 기술수용 초기 특성연구- 김정선2015-4 혁신기술로서의 빅데이터 국내 기술수용 초기 특성연구- 김정선
2015-4 혁신기술로서의 빅데이터 국내 기술수용 초기 특성연구- 김정선
 
미국 기업의 오픈데이터 활용사례와 비즈니스 네트워크 분석 : “데이터와 기술” 분야를 중심으로
미국 기업의 오픈데이터 활용사례와 비즈니스 네트워크 분석 : “데이터와 기술” 분야를 중심으로미국 기업의 오픈데이터 활용사례와 비즈니스 네트워크 분석 : “데이터와 기술” 분야를 중심으로
미국 기업의 오픈데이터 활용사례와 비즈니스 네트워크 분석 : “데이터와 기술” 분야를 중심으로
 
Data Management for Digital Marketing
Data Management for Digital MarketingData Management for Digital Marketing
Data Management for Digital Marketing
 
Personal 빅데이터 주요 이슈 및 기술적 대응 방안
Personal 빅데이터 주요 이슈 및 기술적 대응 방안Personal 빅데이터 주요 이슈 및 기술적 대응 방안
Personal 빅데이터 주요 이슈 및 기술적 대응 방안
 
bsk_03_02
bsk_03_02bsk_03_02
bsk_03_02
 
2017 국민디자인단 운영매뉴얼
2017 국민디자인단 운영매뉴얼2017 국민디자인단 운영매뉴얼
2017 국민디자인단 운영매뉴얼
 
인공지능-빅데이터연구센터[ABRC] 산학협력사례집
인공지능-빅데이터연구센터[ABRC] 산학협력사례집인공지능-빅데이터연구센터[ABRC] 산학협력사례집
인공지능-빅데이터연구센터[ABRC] 산학협력사례집
 
빅데이터 솔루션 소개서(2013년 05월)
빅데이터 솔루션 소개서(2013년 05월)빅데이터 솔루션 소개서(2013년 05월)
빅데이터 솔루션 소개서(2013년 05월)
 
2018년 국민디자인단 매뉴얼
2018년 국민디자인단 매뉴얼2018년 국민디자인단 매뉴얼
2018년 국민디자인단 매뉴얼
 
빅데이터의 활용
빅데이터의 활용빅데이터의 활용
빅데이터의 활용
 
빅데이터 기술 및 시장동향
빅데이터 기술 및 시장동향빅데이터 기술 및 시장동향
빅데이터 기술 및 시장동향
 
2015 디지털 사이니지 전망 및 광고 효과 측정을 필요성
2015 디지털 사이니지 전망 및 광고 효과 측정을 필요성2015 디지털 사이니지 전망 및 광고 효과 측정을 필요성
2015 디지털 사이니지 전망 및 광고 효과 측정을 필요성
 

More from Donghan Kim

안전한 활용을 위한 개인정보 비식별화 동향-IITP-2052-2022-6.pdf
안전한 활용을 위한 개인정보 비식별화 동향-IITP-2052-2022-6.pdf안전한 활용을 위한 개인정보 비식별화 동향-IITP-2052-2022-6.pdf
안전한 활용을 위한 개인정보 비식별화 동향-IITP-2052-2022-6.pdfDonghan Kim
 
개인정보 비식별화 기술 동향 및 전망
개인정보 비식별화 기술 동향 및 전망 개인정보 비식별화 기술 동향 및 전망
개인정보 비식별화 기술 동향 및 전망 Donghan Kim
 
개인정보 비식별화 이해-김동한(공유)-2017-6-15
개인정보 비식별화 이해-김동한(공유)-2017-6-15개인정보 비식별화 이해-김동한(공유)-2017-6-15
개인정보 비식별화 이해-김동한(공유)-2017-6-15Donghan Kim
 
Ai(인공지능) & ML(머신러닝) 101 Part1
Ai(인공지능) & ML(머신러닝) 101 Part1Ai(인공지능) & ML(머신러닝) 101 Part1
Ai(인공지능) & ML(머신러닝) 101 Part1Donghan Kim
 
기업 클라우드 유연성, 상호운영성 확보를 위한 해답,SDx-2015-11-11
기업 클라우드 유연성, 상호운영성 확보를 위한 해답,SDx-2015-11-11기업 클라우드 유연성, 상호운영성 확보를 위한 해답,SDx-2015-11-11
기업 클라우드 유연성, 상호운영성 확보를 위한 해답,SDx-2015-11-11Donghan Kim
 
ICT기반팩토리-FaaS
ICT기반팩토리-FaaSICT기반팩토리-FaaS
ICT기반팩토리-FaaSDonghan Kim
 
Big data infra core technology 빅데이터 전문인력-양성사업_분석과정-특강
Big data infra core technology 빅데이터 전문인력-양성사업_분석과정-특강Big data infra core technology 빅데이터 전문인력-양성사업_분석과정-특강
Big data infra core technology 빅데이터 전문인력-양성사업_분석과정-특강Donghan Kim
 
FinTech 알아보기-2015-2-24
FinTech 알아보기-2015-2-24FinTech 알아보기-2015-2-24
FinTech 알아보기-2015-2-24Donghan Kim
 
제5회 사내기술세미나-IT Compliance-김동한-2009-12-4
제5회 사내기술세미나-IT Compliance-김동한-2009-12-4제5회 사내기술세미나-IT Compliance-김동한-2009-12-4
제5회 사내기술세미나-IT Compliance-김동한-2009-12-4Donghan Kim
 
Green IT-2009-4-14
Green IT-2009-4-14Green IT-2009-4-14
Green IT-2009-4-14Donghan Kim
 
Social Commerce 2014-11
Social Commerce 2014-11Social Commerce 2014-11
Social Commerce 2014-11Donghan Kim
 
제3회 사내기술세미나-hadoop(배포용)-dh kim-2014-10-1
제3회 사내기술세미나-hadoop(배포용)-dh kim-2014-10-1제3회 사내기술세미나-hadoop(배포용)-dh kim-2014-10-1
제3회 사내기술세미나-hadoop(배포용)-dh kim-2014-10-1Donghan Kim
 
스마트폰의 모바일 서비스 현황-국회도서관보기고-2010-5
스마트폰의 모바일 서비스 현황-국회도서관보기고-2010-5스마트폰의 모바일 서비스 현황-국회도서관보기고-2010-5
스마트폰의 모바일 서비스 현황-국회도서관보기고-2010-5Donghan Kim
 
제2회 사내기술세미나-no sql(배표용)-d-hankim-2013-4-30
제2회 사내기술세미나-no sql(배표용)-d-hankim-2013-4-30제2회 사내기술세미나-no sql(배표용)-d-hankim-2013-4-30
제2회 사내기술세미나-no sql(배표용)-d-hankim-2013-4-30Donghan Kim
 
3A1P, 통합 계정 관리(IAM:Identity Access Management)-DHan-Kim-2012-11-6
3A1P, 통합 계정 관리(IAM:Identity Access Management)-DHan-Kim-2012-11-63A1P, 통합 계정 관리(IAM:Identity Access Management)-DHan-Kim-2012-11-6
3A1P, 통합 계정 관리(IAM:Identity Access Management)-DHan-Kim-2012-11-6Donghan Kim
 
제2회 i talks-세미나-openstack+openshift-2014-5-28
제2회 i talks-세미나-openstack+openshift-2014-5-28제2회 i talks-세미나-openstack+openshift-2014-5-28
제2회 i talks-세미나-openstack+openshift-2014-5-28Donghan Kim
 
IOT(사물인터넷)-제1회 iTalks 세미나-Dhankim-2014-4-2
IOT(사물인터넷)-제1회 iTalks 세미나-Dhankim-2014-4-2IOT(사물인터넷)-제1회 iTalks 세미나-Dhankim-2014-4-2
IOT(사물인터넷)-제1회 iTalks 세미나-Dhankim-2014-4-2Donghan Kim
 
2014 정보보호 트렌드-Dhan-kim-2014-3-25
2014 정보보호 트렌드-Dhan-kim-2014-3-252014 정보보호 트렌드-Dhan-kim-2014-3-25
2014 정보보호 트렌드-Dhan-kim-2014-3-25Donghan Kim
 
Hadoop 기반 빅 데이터 처리 플랫폼-NDAP소개-2012-5-30
Hadoop 기반 빅 데이터 처리 플랫폼-NDAP소개-2012-5-30Hadoop 기반 빅 데이터 처리 플랫폼-NDAP소개-2012-5-30
Hadoop 기반 빅 데이터 처리 플랫폼-NDAP소개-2012-5-30Donghan Kim
 
2013년 금융권 it 보안 핵심 트렌드-Dhan-kim-2013-12-20
2013년 금융권 it 보안 핵심 트렌드-Dhan-kim-2013-12-202013년 금융권 it 보안 핵심 트렌드-Dhan-kim-2013-12-20
2013년 금융권 it 보안 핵심 트렌드-Dhan-kim-2013-12-20Donghan Kim
 

More from Donghan Kim (20)

안전한 활용을 위한 개인정보 비식별화 동향-IITP-2052-2022-6.pdf
안전한 활용을 위한 개인정보 비식별화 동향-IITP-2052-2022-6.pdf안전한 활용을 위한 개인정보 비식별화 동향-IITP-2052-2022-6.pdf
안전한 활용을 위한 개인정보 비식별화 동향-IITP-2052-2022-6.pdf
 
개인정보 비식별화 기술 동향 및 전망
개인정보 비식별화 기술 동향 및 전망 개인정보 비식별화 기술 동향 및 전망
개인정보 비식별화 기술 동향 및 전망
 
개인정보 비식별화 이해-김동한(공유)-2017-6-15
개인정보 비식별화 이해-김동한(공유)-2017-6-15개인정보 비식별화 이해-김동한(공유)-2017-6-15
개인정보 비식별화 이해-김동한(공유)-2017-6-15
 
Ai(인공지능) & ML(머신러닝) 101 Part1
Ai(인공지능) & ML(머신러닝) 101 Part1Ai(인공지능) & ML(머신러닝) 101 Part1
Ai(인공지능) & ML(머신러닝) 101 Part1
 
기업 클라우드 유연성, 상호운영성 확보를 위한 해답,SDx-2015-11-11
기업 클라우드 유연성, 상호운영성 확보를 위한 해답,SDx-2015-11-11기업 클라우드 유연성, 상호운영성 확보를 위한 해답,SDx-2015-11-11
기업 클라우드 유연성, 상호운영성 확보를 위한 해답,SDx-2015-11-11
 
ICT기반팩토리-FaaS
ICT기반팩토리-FaaSICT기반팩토리-FaaS
ICT기반팩토리-FaaS
 
Big data infra core technology 빅데이터 전문인력-양성사업_분석과정-특강
Big data infra core technology 빅데이터 전문인력-양성사업_분석과정-특강Big data infra core technology 빅데이터 전문인력-양성사업_분석과정-특강
Big data infra core technology 빅데이터 전문인력-양성사업_분석과정-특강
 
FinTech 알아보기-2015-2-24
FinTech 알아보기-2015-2-24FinTech 알아보기-2015-2-24
FinTech 알아보기-2015-2-24
 
제5회 사내기술세미나-IT Compliance-김동한-2009-12-4
제5회 사내기술세미나-IT Compliance-김동한-2009-12-4제5회 사내기술세미나-IT Compliance-김동한-2009-12-4
제5회 사내기술세미나-IT Compliance-김동한-2009-12-4
 
Green IT-2009-4-14
Green IT-2009-4-14Green IT-2009-4-14
Green IT-2009-4-14
 
Social Commerce 2014-11
Social Commerce 2014-11Social Commerce 2014-11
Social Commerce 2014-11
 
제3회 사내기술세미나-hadoop(배포용)-dh kim-2014-10-1
제3회 사내기술세미나-hadoop(배포용)-dh kim-2014-10-1제3회 사내기술세미나-hadoop(배포용)-dh kim-2014-10-1
제3회 사내기술세미나-hadoop(배포용)-dh kim-2014-10-1
 
스마트폰의 모바일 서비스 현황-국회도서관보기고-2010-5
스마트폰의 모바일 서비스 현황-국회도서관보기고-2010-5스마트폰의 모바일 서비스 현황-국회도서관보기고-2010-5
스마트폰의 모바일 서비스 현황-국회도서관보기고-2010-5
 
제2회 사내기술세미나-no sql(배표용)-d-hankim-2013-4-30
제2회 사내기술세미나-no sql(배표용)-d-hankim-2013-4-30제2회 사내기술세미나-no sql(배표용)-d-hankim-2013-4-30
제2회 사내기술세미나-no sql(배표용)-d-hankim-2013-4-30
 
3A1P, 통합 계정 관리(IAM:Identity Access Management)-DHan-Kim-2012-11-6
3A1P, 통합 계정 관리(IAM:Identity Access Management)-DHan-Kim-2012-11-63A1P, 통합 계정 관리(IAM:Identity Access Management)-DHan-Kim-2012-11-6
3A1P, 통합 계정 관리(IAM:Identity Access Management)-DHan-Kim-2012-11-6
 
제2회 i talks-세미나-openstack+openshift-2014-5-28
제2회 i talks-세미나-openstack+openshift-2014-5-28제2회 i talks-세미나-openstack+openshift-2014-5-28
제2회 i talks-세미나-openstack+openshift-2014-5-28
 
IOT(사물인터넷)-제1회 iTalks 세미나-Dhankim-2014-4-2
IOT(사물인터넷)-제1회 iTalks 세미나-Dhankim-2014-4-2IOT(사물인터넷)-제1회 iTalks 세미나-Dhankim-2014-4-2
IOT(사물인터넷)-제1회 iTalks 세미나-Dhankim-2014-4-2
 
2014 정보보호 트렌드-Dhan-kim-2014-3-25
2014 정보보호 트렌드-Dhan-kim-2014-3-252014 정보보호 트렌드-Dhan-kim-2014-3-25
2014 정보보호 트렌드-Dhan-kim-2014-3-25
 
Hadoop 기반 빅 데이터 처리 플랫폼-NDAP소개-2012-5-30
Hadoop 기반 빅 데이터 처리 플랫폼-NDAP소개-2012-5-30Hadoop 기반 빅 데이터 처리 플랫폼-NDAP소개-2012-5-30
Hadoop 기반 빅 데이터 처리 플랫폼-NDAP소개-2012-5-30
 
2013년 금융권 it 보안 핵심 트렌드-Dhan-kim-2013-12-20
2013년 금융권 it 보안 핵심 트렌드-Dhan-kim-2013-12-202013년 금융권 it 보안 핵심 트렌드-Dhan-kim-2013-12-20
2013년 금융권 it 보안 핵심 트렌드-Dhan-kim-2013-12-20
 

공공_빅데이터_분석의_확산을_위한_첫걸음-2016-12

  • 1. 공공 빅데이터 분석의 확산을 위한 첫걸음 - 공공 빅데이터 표준분석모델 구축 - 빅데이터가 국내 ICT분야의 주요 트렌드로 자리 잡은 지 벌써 5년의 시간이 지나고 있다. 그 사이 민간 영역에서 뿐만 아니라 공공의 영역에서도 일부 선도적인 정부부처와 지자체를 중심으로 다양한 주제의 빅데이터 분석 사업들이 진행되어 왔다. 그리고 이를 통하여 공공 분 야의 빅데이터 분석 및 활용에 대한 우수한 사례들이 많이 만들어 지고 있으며, 또한 그 과정 에서 수반되는 여러 가지 경험을 토대로 많은 노하우들이 쌓여가고 있는 상황이다. 현재는 점점 더 많은 정부부처와 지자체에서 빅데이터 분석과 활용을 위한 노력들을 진행하고 있으며, 이를 위하여 그간에 공공 분야에서 축적된 빅데이터 사업의 경험과 노하우를 효 과적으로 전달·확산될 수 있도록 하는 지원 체계가 마련되어야 할 시점이다. 이에 한국정 보화진흥원과 행정자치부에서는 ‘2016년 공공 빅데이터 표준분석모델 구축’ 사업을 통하여 공 공 빅데이터 분석의 확산을 위한 기초를 다지는 작업을 진행하고 있다. <그림 1> 공공 빅데이터 최근 4년간 추진 현황 공공 빅데이터 분석 확산의 출발 – 표준화 그동안 정부부처, 지자체 등에서 진행한 빅데이터 분석 사업들을 유심히 살펴보면 유사한 주제에 대하여 진행된 사업들이 많이 있음을 알 수 있다. 특히 지자체의 경우에는 민원, 관 광·축제 효과, 대중교통 이용, CCTV 취약지역 등에 대한 분석이 상당수를 차지하고 있다. 그러 나 분석의 시기, 주체, 기술, 관점 등이 서로 다름으로 인하여 실제 분석에 활용된 데이터 및 분석 방법 등에서도 많은 차이를 보이고 있으며, 이러한 것들이 우수 사례들을 확산하고 활용 하는 점에 있어서 걸림돌이 되고 혼란을 야기하고 있는 상황이다.
  • 2. 따라서 이번 표준분석모델 구축 사업에서는 위의 4가지 분석 주제와 2015년 공공 빅데이터 분석 사업에서 성과가 검증된 2가지 분석 주제(‘공동주택 부조리 분석’ 및 ‘근로감독 위반 사업 장 분석’)를 포함한 총 6개의 분석 주제에 대하여 표준화된 분석 모델을 정립하고, 이를 3개의 지자체를 대상으로 적용 및 검증하는 과정을 진행하고 있다. 그리고 개발된 표준분석모델을 현업의 담당자이 효과적으로 활용할 수 있도록 교육과 홍보 업무도 함께 진행하고 있다. 결과적으로는 표준분석모델 구축 사업을 통하여 유사 빅데이터 분석 사업에 대한 중복 투자를 줄이고 사업의 비용과 기간을 단축함으로서 예산 절감 효과를 가져 올 수 있고, 현장에서 빅 데이터 분석 업무를 담당하는 공무원들의 업무 편의성과 효율성을 향상시키는 효과를 얻을 수 있을 것으로 기대하고 있다. <그림 2> 표준분석모델 구축의 필요성 및 목적 빅데이터 분석의 기초 공사 – 데이터 표준화 빅데이터 분석 결과의 품질을 높이기 위해서는 분석에 사용하는 원천 데이터의 품질이 높 아야 한다는 것은 아무리 강조해도 부족함이 없다. 하지만 빅데이터 분석 사업의 현장을 들여 다보면 필요한 데이터를 수급하는 것에서부터 어려움에 봉착하는 경우가 많다. 그 원인으로 는 사전에 필요한 데이터에 대한 조사가 부족해서 이거나 데이터를 보유하고 있는 기관과의 의사소통에 문제가 있거나 때로는 법제도적으로 수급이 원천적으로 불가능 하거나 한 경우도 있다. 따라서 표준분석모델을 구축하기 위하여 기존의 선행 분석 사례를 검토하여 각 분석 주제별로 분석에 활용된 데이터의 목록을 정리한 후, 해당 데이터가 필수 항목인지, 데이터를 누가 보 유하고 있는지, 수급에는 문제가 없는지, 수급에 문제가 있다면 다른 데이터로 대체가 가능
  • 3. 한지 등을 검토하여 최종적으로 분석에 사용할 표준 데이터 목록을 정리하는 것으로 출발한 다. 특히 표준분석모델을 사용할 분석 담당자들의 데이터 수급에 대한 업무 부담을 줄이고자 표준화된 데이터 목록에는 가능한 공개되어 있는 공공 데이터를 많이 포함하였고, 전국 단위 데이터 수급이 가능한 경우는 표준분석모델에 해당 데이터를 탑재하여 함께 제공되도록 하 였다. 다음으로는 표준화된 데이터 목록에 있는 각각의 데이터에 대하여, 분석에 사용하기 위해서는 어떠한 데이터 값들을 포함하고 있어야 하는지에 대한 상세한 데이터 포맷을 표준화하여 정 의한다. 이는 분석 담당자들이 해당 데이터를 표준화된 형태에 맞추어 수급 또는 가공만 하면 바로 표준분석모델의 입력 데이터로 활용할 수 있도록 하기 위해서이다. <그림 3> 민원 분야 데이터 표준화 예시 또한, 데이터 측면에서 중요한 것은 민간 영역의 데이터에 대한 부분이다. 공공 빅데이터 분석 사업에서 자주 사용되는 민간데이터는 교통카드 데이터, 이동통신사 유동인구 데이터, 신용카드사 소비관련 데이터 등이 있으며, 이런 민간 데이터들을 데이터를 제공하는 기업에 따라 데이터의 형태나 항목들이 서로 다른 것이 일반적이다. 그러나 이런 데이터 간의 차이가 분석을 어렵게 만드는 요인이 됨으로 표준분석모델에서는 민간의 데이터 제공자에 어디라도 이와 상관없이 활용할 수 있도록 민간 수급 데이터에 대해서도 표준화 작업을 진행하였다.
  • 4. <그림 4> 표준분석모델의 데이터 측면에서의 개선 내용 분석 절차와 방법의 표준화 분석 주제별로 사용할 데이터의 표준화가 완료되면, 다음으로는 분석 절차 및 방법에 대 한 표준화가 진행되어야 한다. 분석 절차나 방법은 분석 주제별 특성에 따라 서로 다른 모양 으로 표준화 될 수밖에 없으며, 주로 사용하는 분석 방법에 따라서 분석에 사용하는 도구들 또한 달라진다. 분석 절차에 있어서 공통적으로 제일 처음에는 수급한 데이터의 오류 확인 및 제거, 데이터 정합성 확인 등의 작업을 거친 후, 실제 분석에 활용할 형태로 데이터를 가공하는 데이터 전 처리 과정을 거치게 되며, 이후에 이상치 탐지 등을 위한 탐색적 데이터 분석과 기본적인 현 황 파악을 위한 기초 통계 분석 등의 과정을 거치게 된다. 그러나 그 이후의 본격적인 데이 터 분석 작업은 각 분석 주제별 특성에 따라 개별적인 절차와 방법을 사용하므로, 결과적으로 는 분석 주제별로 표준화된 분석 절차와 방법들을 정립하였다.
  • 5. <그림 5> 민원분야 분석 프로세스 예시 또한 분석에 사용하는 도구에 있어서도 일반적인 Data Minning이나 Text Minning의 경우에 는 오픈소스 분석도구인 R을 기본으로 사용하며, 지도 위에 데이터를 올려놓고 분석 작업을 주 로 하는 GIS 기반의 분석에서는 오픈소스인 Q-GIS를 기본 도구로 사용하였다. 이 외에도 교 통 분석에서 대량의 데이터를 처리하기 위하여 오픈소스인 PostgreSQL 데이터베이스도 사용하였는데, 이는 분석 과정에서 가능한 많은 부분을 오픈소스 기반으로 처리함으로서 향후 표준분석모델 사용 시의 비용 부담을 최소화하기 위해서이다. 마지막으로 분석 결과를 한눈에 직관적으로 표현하는 시각화 영역에 대해서도 도표, 차트 등을 표준화하여 작성하였으며, 시각화를 위한 도구로는 상용 소프트웨어인 Tableau를 사용 하여 표준화를 진행하였다.
  • 6. <그림 6> 분석 주제별 분석 방법, 도구, 시각화 요약표 표준분석모델의 실제 적용을 통한 검증 실시 이러한 과정을 거쳐서 만들어진 각 분석 주제별 표준분석모델을 검증하고 오류를 수정하기 위하여 이번 사업에서는 제주특별자치도, 김해시, 포항시 3개 지방자치단체를 대상으로 실 제 빅데이터 분석 작업을 수행하였다. 이를 위하여 지자체의 ICT 부서 및 현업 부서와 긴밀 하게 커뮤니케이션하면서 데이터 수급, 전처리, 분석 및 시각화의 전 과정을 검증하였고, 이와 더불어 각 분석 주제별 외부 전문가들의 자문을 거쳐 표준분석모델을 완성하였다. <그림 7> 지방자치단체별 적용 분석 주제
  • 7. 확산을 위한 기반을 준비 이와 더불어 표준분석모델이 실질적인 효과를 발하기 위해서는 정부부처나 지자체 등의 분 석 업무 담당자들이 이를 잘 활용할 수 있도록 교육하고 지원하는 것이 가장 중요하다. 따라 서 이번 사업에서는 사업 초기 이들의 빅데이터 분석에 대한 필요성 인식과 이해도를 높이기 위한 개념형 교육과 표준분석모델 완성 이후 실제 활용을 위한 참여형 실습 교육을 전국의 5 개 권역에서 진행하였다. 또한 표준분석모델 활용 시 담당자들이 참고할 수 있도록 분석 주제별 상세 매뉴얼과 분 석에 필요한 여러 가지 프로그램이나 샘플데이터, 분석 스크립트 등을 담은 CD를 제작하여 제 공할 예정이며, 이러한 내용들을 정부 3.0 체험마당 행사 등을 통하여 적극적으로 홍보하고 있 다. 향후 지속적인 관리와 지원 및 확장 필요 향후 표준분석모델의 지속적인 확산과 활용을 위해서는 이를 활용하는 정부부처 및 지자 체들에 대한 지속적인 기술 지원과 교육 등이 필요하며, 특히 교육 후 설문조사 결과에서도 담당 자들이 도움을 가장 필요로 하는 업무 영역인 빅데이터 분석 결과의 정책 활용에 대한 부분들 을 지원할 수 있는 컨설팅 지원 체계도 필요할 것이다. 뿐만 아니라, 이번에 만들어진 표준분석모델에 대하여 향후 분석 환경과 기술의 변화에 발 맞추어 지속적인 업그레이드 작업이 동반되어야 하며, 새로운 분석 주제 영역으로의 계속적인 추 가 확대를 위한 노력도 필요할 것이다. 이를 통하여 우리 나라가 빅데이터 분석을 정부 정책의 수립과 운영 등에 효율적으로 활 용하는 빅데이터 선진국으로 발전할 수 있기를 기대해 본다. <그림 8> 개념형 교육 실시 <그림 9> 참여형 교육 실시