대형 병원의 교양 세미나에서 발표한 자료입니다.
이미 기술 지식은 충분하셨고 사례를 많이 궁금해 하셨습니다. 그래서 제 경험을 통해 얻었던 인사이트를 많이 나누었습니다. 하지만 의료현장은 플랫폼이나 기술보다는 의료기기로 접근하지 않으면 사용되기 힘들다는 생각이 들었습니다.
본 자료는 빅데이터를 분석하는 전반적인 과정에 대해 정리한 자료로써 사회과학을 포함한 다양한 영역(컴퓨터 공학, 통계학, 수학 등)이 분석 과정에 참여할 수 있는지를 정리한 자료이다. 분석 과정 세부 영역에 있어선 주로 사회과학의 관점에서 기술하였다. 현재 자료는 2010년부터 사회과학의 관점에서 데이터 분석을 계속 해오면서 경험한 부분과 문헌 및 발표 자료 등을 통해 정리한 자료이다. 앞으로 여러 영역을 공부하면서 빅데이터 분석 프로세스를 더욱 발전시켜 나갈 예정이다.
빅데이터 구축 및 술루션 가이드 주요 내용
- 고객 내부 빅데이터 프로젝트 진행시 단계별 진행 가이드
- 빅데이터 프로젝트 구축 타입
- 각 산업분야별로 빅데이터 엔진을 활용한 솔루션 구축 가이드
(딥 러닝 기법 기반의 분석 포함)
코세나(kosena), 이승훈 실장 admin@kosena.kr, kosena21@naver.com
010-9338-6400
2018년 7월 5일에 있었던 한국인터넷거버넌스포럼(KrIGF)에서 발표한 "오픈 데이터와 인공지능" 발표자료입니다.
다음과 같은 내용을 담고 있습니다.
* 오픈데이터의 정의
* 오픈데이터의 중요성
* 인공지능
* 인공지능에서 데이터의 중요성
* 제한된 데이터 환경에서의 문제점
* 인공지능을 위한 오픈데이터의 중요성
* 더 나은 인공지능 시대를 위한 제언
빅 데이터 환경의 고급 분석 기법과 지원 기술 동향 (Advanced Analytics and Technologies for Big Data)Myungjin Lee
오늘날 인터넷의 보편화와 소셜 미디어 및 스마트 기기의 발전으로 인해 정보의 양이 급격히 증가함에 따라 비즈니스 영역에 있어서 새로운 기회와 도전의 시기를 맞고 있다. 빅 데이터라 불리는 이러한 수 많은 정보들은 기업이 효율적인 의사결정을 지원할 수 있도록 도와줄 수 있으며, 또한 다른 기업과의 비즈니스 경쟁에서 경쟁우위를 차지하는데 아주 중요한 역할을 한다. 이러한 의사결정을 지원하기 위해서는 빅 데이터를 효과적으로 분석할 수 있는 방법론이 필요할 뿐 아니라 이를 지원할 수 있는 다양한 인프라를 필요로 한다. 따라서 본 논문에서는 빅 데이터를 분석하기 위한 고급분석 기법과 이를 지원하기 위한 기술 요소들을 도출하고, 향후의 발전 방향에 대해 논하고자 한다. 이러한 분석 기법과 기술을 통한 정확하고 신뢰성 높으며 신속한 의사결정은 기업이 고객의 요구를 신속히 수용하고 반영함으로써 기업의 수익 창출 및 시장을 선점하는 중요한 요인으로 작용할 수 있다.
Recently, as the Internet, social-media, and smart devices have been spread and common, the amount of information increases incredibly. Nowadays, we are confronting new opportunities and challenges in every business area. Obviously, such huge amount of information which called Big Data is playing a significant role at many parts, like improvement of effective decision making. Therefore, many companies could maintain their competitiveness in the market place. In order to support firm’s decision making, we need not only the methodology for the effective analysis of Big Data, but also various infra-structure which could support the firm’s decision making. As a result, this paper discusses advanced analysis methodologies and it’s supporting technical factors. The firm’s decision which is based on such analysis and techniques is usually accurate, reliable, fast, receiving and refreshing customer’s feedback immediately, so the decision making plays an important role in the revenue creation and preempt of market share.
빅데이터 기술의 소프트웨어 공학 적용
1. 빅데이터 기술의 활용 사례 - 빅데이터 기술은 이미 많은 적용 사례를 가지고 있고, IoT 기술과 더불어 일상의 기술이 되어 가고 있다 (Pervasive & Invisible Analytics).
2. Spark 플랫폼 - 이전에 Hadoop으로 대표되는 빅데이터의 분산 처리 기술은 계속 발전하고 있고, Spark는 메모리 기반 데이터 처리로 기존 대비 성능을 10~100배 개선하였다. 특히, Spark는 Scala라는 함수형 언어로 구현되었고, 이전에 Java 기반의 빅데이터 처리 코드를 보다 명료하고 Compact하게 구현할 수 있다. 데이터 분석에는 Imperative 언어보다 함수형 언어가 보다 적합하다.
3. 소프트웨어 공학에서의 데이터 분석 사례 - 최근 Software Analytics, Repository Mining 등 데이터 분석 사례들이 있고, 최근 GitHub 이나 StackOverflow 분석과 같은 빅데이터 분석 연구들이 진행되고 있다.
4. Spark를 활용한 Word Count 예
5. Big Data Software Engineering - 큰 데이터 처리 외에도, 실시간 데이터 처리 (Velocity), 다양한 데이터 처리 (Variety) 부분에도 소프트웨어 공학 적용이 필요하다. 또한, Big Data Software를 Engineering하는 부분에도 관심이 필요하다. Big Data 분석 코드 역시 SE의 대상으로 바라보고, Test Driven Dev, Agile Methodology와 같은 개발 방법의 적용을 살펴볼 필요가 있다.
마지막으로, 현재 빅데이터 기술에 대한 진입 장벽은 많이 낮아졌고, 사용 가능한 오픈소스들이 많다. 소프트웨어 공학자라면 빅데이터 분석을 직접 시도해 볼 필요가 있고, 특히, Spark-Scala는 향 후 더욱 발전 확대될 기술이다.
[2016 데이터 그랜드 컨퍼런스] 2 2(빅데이터). skt beyond big dataK data
미래의 ICT생태계는 데이터를 중심으로 형성될 것입니다. 디지털라이제이션(digitalization)의 가속화로 우리의 일상은 빠르게 데이터 기반으로 급변하고 있습니다. 빅데이터라는 용어가 라디오 프로그램의 선곡기준으로도 등장하는 현 시점에서 다양한 관점의 빅데이터를 살펴봄으로써 실제 산업 생태계에 가져올 기술, 사회, 제도적 혁신의 조짐을 살펴보고자 합니다.
먼저 오픈소스가 가져오는 IT 생태계의 변화와 공유경제라는 키워드를 통해 함께함으로써 커지는 데이터의 가치, 그리고 그 가치를 더욱 크게 할 메타데이터의 중요성을 이야기하겠습니다. 또한 데이터 생태계의 활성화를 위한 거래 플랫폼이 가진 멀티 사이드 플랫폼의 가치와 이러한 플랫폼 활성화를 위한 공공 정책의 데이터 기반 변화 트렌드와 개인 프라이버시 보호 트렌드 및 기술을 살펴보고자합니다.
본 자료는 빅데이터를 분석하는 전반적인 과정에 대해 정리한 자료로써 사회과학을 포함한 다양한 영역(컴퓨터 공학, 통계학, 수학 등)이 분석 과정에 참여할 수 있는지를 정리한 자료이다. 분석 과정 세부 영역에 있어선 주로 사회과학의 관점에서 기술하였다. 현재 자료는 2010년부터 사회과학의 관점에서 데이터 분석을 계속 해오면서 경험한 부분과 문헌 및 발표 자료 등을 통해 정리한 자료이다. 앞으로 여러 영역을 공부하면서 빅데이터 분석 프로세스를 더욱 발전시켜 나갈 예정이다.
빅데이터 구축 및 술루션 가이드 주요 내용
- 고객 내부 빅데이터 프로젝트 진행시 단계별 진행 가이드
- 빅데이터 프로젝트 구축 타입
- 각 산업분야별로 빅데이터 엔진을 활용한 솔루션 구축 가이드
(딥 러닝 기법 기반의 분석 포함)
코세나(kosena), 이승훈 실장 admin@kosena.kr, kosena21@naver.com
010-9338-6400
2018년 7월 5일에 있었던 한국인터넷거버넌스포럼(KrIGF)에서 발표한 "오픈 데이터와 인공지능" 발표자료입니다.
다음과 같은 내용을 담고 있습니다.
* 오픈데이터의 정의
* 오픈데이터의 중요성
* 인공지능
* 인공지능에서 데이터의 중요성
* 제한된 데이터 환경에서의 문제점
* 인공지능을 위한 오픈데이터의 중요성
* 더 나은 인공지능 시대를 위한 제언
빅 데이터 환경의 고급 분석 기법과 지원 기술 동향 (Advanced Analytics and Technologies for Big Data)Myungjin Lee
오늘날 인터넷의 보편화와 소셜 미디어 및 스마트 기기의 발전으로 인해 정보의 양이 급격히 증가함에 따라 비즈니스 영역에 있어서 새로운 기회와 도전의 시기를 맞고 있다. 빅 데이터라 불리는 이러한 수 많은 정보들은 기업이 효율적인 의사결정을 지원할 수 있도록 도와줄 수 있으며, 또한 다른 기업과의 비즈니스 경쟁에서 경쟁우위를 차지하는데 아주 중요한 역할을 한다. 이러한 의사결정을 지원하기 위해서는 빅 데이터를 효과적으로 분석할 수 있는 방법론이 필요할 뿐 아니라 이를 지원할 수 있는 다양한 인프라를 필요로 한다. 따라서 본 논문에서는 빅 데이터를 분석하기 위한 고급분석 기법과 이를 지원하기 위한 기술 요소들을 도출하고, 향후의 발전 방향에 대해 논하고자 한다. 이러한 분석 기법과 기술을 통한 정확하고 신뢰성 높으며 신속한 의사결정은 기업이 고객의 요구를 신속히 수용하고 반영함으로써 기업의 수익 창출 및 시장을 선점하는 중요한 요인으로 작용할 수 있다.
Recently, as the Internet, social-media, and smart devices have been spread and common, the amount of information increases incredibly. Nowadays, we are confronting new opportunities and challenges in every business area. Obviously, such huge amount of information which called Big Data is playing a significant role at many parts, like improvement of effective decision making. Therefore, many companies could maintain their competitiveness in the market place. In order to support firm’s decision making, we need not only the methodology for the effective analysis of Big Data, but also various infra-structure which could support the firm’s decision making. As a result, this paper discusses advanced analysis methodologies and it’s supporting technical factors. The firm’s decision which is based on such analysis and techniques is usually accurate, reliable, fast, receiving and refreshing customer’s feedback immediately, so the decision making plays an important role in the revenue creation and preempt of market share.
빅데이터 기술의 소프트웨어 공학 적용
1. 빅데이터 기술의 활용 사례 - 빅데이터 기술은 이미 많은 적용 사례를 가지고 있고, IoT 기술과 더불어 일상의 기술이 되어 가고 있다 (Pervasive & Invisible Analytics).
2. Spark 플랫폼 - 이전에 Hadoop으로 대표되는 빅데이터의 분산 처리 기술은 계속 발전하고 있고, Spark는 메모리 기반 데이터 처리로 기존 대비 성능을 10~100배 개선하였다. 특히, Spark는 Scala라는 함수형 언어로 구현되었고, 이전에 Java 기반의 빅데이터 처리 코드를 보다 명료하고 Compact하게 구현할 수 있다. 데이터 분석에는 Imperative 언어보다 함수형 언어가 보다 적합하다.
3. 소프트웨어 공학에서의 데이터 분석 사례 - 최근 Software Analytics, Repository Mining 등 데이터 분석 사례들이 있고, 최근 GitHub 이나 StackOverflow 분석과 같은 빅데이터 분석 연구들이 진행되고 있다.
4. Spark를 활용한 Word Count 예
5. Big Data Software Engineering - 큰 데이터 처리 외에도, 실시간 데이터 처리 (Velocity), 다양한 데이터 처리 (Variety) 부분에도 소프트웨어 공학 적용이 필요하다. 또한, Big Data Software를 Engineering하는 부분에도 관심이 필요하다. Big Data 분석 코드 역시 SE의 대상으로 바라보고, Test Driven Dev, Agile Methodology와 같은 개발 방법의 적용을 살펴볼 필요가 있다.
마지막으로, 현재 빅데이터 기술에 대한 진입 장벽은 많이 낮아졌고, 사용 가능한 오픈소스들이 많다. 소프트웨어 공학자라면 빅데이터 분석을 직접 시도해 볼 필요가 있고, 특히, Spark-Scala는 향 후 더욱 발전 확대될 기술이다.
[2016 데이터 그랜드 컨퍼런스] 2 2(빅데이터). skt beyond big dataK data
미래의 ICT생태계는 데이터를 중심으로 형성될 것입니다. 디지털라이제이션(digitalization)의 가속화로 우리의 일상은 빠르게 데이터 기반으로 급변하고 있습니다. 빅데이터라는 용어가 라디오 프로그램의 선곡기준으로도 등장하는 현 시점에서 다양한 관점의 빅데이터를 살펴봄으로써 실제 산업 생태계에 가져올 기술, 사회, 제도적 혁신의 조짐을 살펴보고자 합니다.
먼저 오픈소스가 가져오는 IT 생태계의 변화와 공유경제라는 키워드를 통해 함께함으로써 커지는 데이터의 가치, 그리고 그 가치를 더욱 크게 할 메타데이터의 중요성을 이야기하겠습니다. 또한 데이터 생태계의 활성화를 위한 거래 플랫폼이 가진 멀티 사이드 플랫폼의 가치와 이러한 플랫폼 활성화를 위한 공공 정책의 데이터 기반 변화 트렌드와 개인 프라이버시 보호 트렌드 및 기술을 살펴보고자합니다.
1.고객을 이해하는 빅데이터 (4차산업혁명: 고객과의 소통 신기술의 진화)doo rip choi
4차 산업혁명의 기술들은 소통을 위한 진화 기술로 발전되어 가고 있다.
비즈니스 영역마다 고객과의 소통이 필요하고 신기술을 활용한
고객의 니즈에 맞는 서비스 역량을 가져야 할 것이다.
고객과의 소통을 주제로 3개의 시리즈 물로 발표 자료를 공유 합니다.
고객과의 소통 신기술의 진화
1. 고객을 이해하는 빅데이터
(The big data platform to understand customers.)
2. 고객과 소통하는 인공지능
( Artificial intelligence to communicate with customers)
3. 고객을 연결하는 블록체인
(Block chain to connect with customer)
[KERIS 이슈리포트] 요약 세미나 (Webinar) 자료
* 원문 링크: http://bit.ly/196LHBs
국내외 빅데이터 및 학습 분석 관련 기고서들과 동향 분석자료를 요약한 이슈리포트. UNESCO Policy Brief와 IMS Global의 백서를 중심으로 학습 분석 기술의 활용가능성과 쟁정들을 분석한 자료.
<주요>
1. 빅데이터 기술 및 산업 동향
2. 학습 분석 기술에 대한 이해
3. 학습 분석 기술 표준화 동향
4. 시사점
이노베이션 아카데미 멘토로서 3년 간의 혁신교육 경험을 글로 정리했습니다.
- 독자 : 개발자 학교, 부트캠프 등
- 했던 일 :
- 42 Seoul (에꼴42 서울캠퍼스) 교육지원
- 새로운 교육모델 연구개발 (집단학습모델, 학습 커뮤니티 연구)
pdf 파일로 누구나 다운로드 가능합니다.
출처명기 후 얼마든지 인용 및 활용 가능합니다. (6.5 MB, 224페이지)
좋은 후배 많이 양성해주세요.
오탈자 양해 부탁드립니다.
소개글 : https://subokim.wordpress.com/2023/03/20/3years_in_innoaca/
제가 멘토로 참여한 한 팀과제를 올려봅니다.
참여 팀원들 모두 고생하셨습니다.
---
관심 : 장애인복지시설 개선에 대한 관심으로 시작,
주제 : 평균 1시간 이상씩 걸리는 "장애인콜택시" 대기시간 분석
목표 : 어떻게 개선할 수 있을까를 도출함.
참고 : http://data.seoul.go.kr
교육과정 : SBA 빅데이터 교육과정, PBL 과제
앱서비스에서 결제를 하고 싶어하는 팀을 위한 안내서.
개념 잡기용이며 상세한 것은 링크를 참조하셔서 공부하세요.
- 독자 : 결제, 정산을 구현하고 싶은 개발자 (입문자 이상)
- 내용 : 결제를 개발할 때 내 서버에 구현해야 할 것들
- 특이사항 : 요즘은 '아임포트' 같은 걸 이용해서 쉽게 연동이 가능합니다만...
어느 해커쏜에 참여한 백엔드 개발자들을 위한 교육자료
쉽게 만든다고 했는데도, 많이 어려웠나봅니다.
제 욕심이 과했던 것 같아요. 담번엔 좀 더 쉽게 !
- 독자 : 백엔드 개발자를 희망하는 사람 (취준생, 이직 희망자), 5년차 이하
- 주요 내용 : 백엔드 개발을 할 때 일어나는 일들(개발팀의 일)
- 비상업적 목적으로 인용은 가능합니다. (출처 명기 필수)
OKJSP 'SI프리랜서 개발자들을 위한 5 Step Manual' 이라는 행사에서 발표한 내용입니다. 청중의 50%정도는 SI 개발자분들이셨고 50%정도는 프리랜서를 고민하는 분들이었습니다. 주로 미래에 대한 불안이 많으셨는데요. 스스로를 어떻게 가꾸고 알릴 것인가를 말씀드렸습니다.
OKJSP, '개발자의 삶' 행사에서 발표한 내용입니다.
개발자들이 어떻게 살아야 할지 이야기를 해주는 경우가 많지 않아 초기 취업과 이직에 실패하는 분들이 적지 않은데요.
부족하지만 제 경험들을 바탕으로 얻는 노하우를 함께 공유해드렸습니다.
- 독자 : 5년차 이하의 개발자분들
- 주제 : 취업관련 진로고민
- 주요 내용 : 내가 경험해본 회사들과 특징
- 인용시 출처명기
6. Google Big Data
6 | 00
• Hadoop은 검색소스를 모아두기 위한 용도로 개발되어, Gmail 에 가장 크게 사용되었습니다.
1인당 15GB * 2.7 억명 („12.12)
= 4.05 Exa Bytes = 4,050 Terra Bytes = 4,050,000 Giga Bytes
메일 검색, 분류, 태그
7. Hadoop
7 | 00
2008. 130년어치
(1,100만 페이지)
pdf 변환
200만원
14년
하둡은
x86서버
기반의
대용량
파일저장
시스템
8. 정의
8 | 00
• 2010년 IBM이 최초 정의, 전 세계 데이터 중 90%가 지난 3년 이내에 생성
Volume
전수 데이터를 조사할 수 있게 되다.
데이터가 누적될수록 정확해지다. (도로정체이력)
데이터를 지우지 않게 되다. (음원)
Velocity
전수 데이터 처리가 가능해지게 되다.(인구총조사)
데이터 처리가 빨라지게 되다.(1주일반나절)
Variety
주어진 분석틀을 벗어난 탐색형 발굴이 가능하다.
소급분석이 가능해지다.
Disk 1TB=6만원
Memory 1GB=1만원
분산병렬처리
기술 발달
통계분석 외
시각화 도구 활성화
빅데이터의 3요소
9. 필요로 하는 곳
9 | 00
경찰청 : 범죄자 프로파일 (DNA 정보)
인구통계: 인구 이동 및 출생,사망 정보
이통사 : 통화이력 정보
금융 : 거래 이력 정보
전수 데이터 필수
누적 데이터가 중요
경찰청 : 범죄 발생이력 정보
의료정보 : 개인별 진료기록 정보
국토부 : CCTV 감시 이력정보
기상청 : 기상 이력 정보
고가의 대용량 수집비용
지자체 : 실시간 버스 이동 정보 (경기도 1만대)
내비게이션 회사 : 도로 정체 이력 정보
Data Volume
Data Volume
+ Data Velocity
10. 빅데이터 처리의 4단계
10 | 00
Big Data Solution 은 기본적으로 아래와 같은 4단계로 이루어집니다.
일반적인 CRM의 수집 분석 흐름과 대동소이 합니다.
( Big Data Solution 의 기능 및 처리 흐름과 관리 구조 )
데이터수집(Aggregation)
Reporting
Collecting Store Analysis Visualization
Collecting Store Analysis Reporting
OpenAPI Crawling
Data Collector
Web, Social Network
System log, RDBMS 등
수집 데이터
저장
NoSQL
DBMS
DBMS
Hadoop 등을 이용한
대용량 데이터 저장
Data Query
Data Clustering
Classification
Recommendation
Hive, mahout, R 등을 통한
분산/병렬 데이터 실시간 분석
Chart/Grid
Data Export/API
Monitoring
Chart, API 등을 통한
다양한 View 생성 및 제공
Data Scientist
Management System
Managing
데이터활용(Utilization)
빅데이터 요소기술이 투입됨
11. 얼마나 빨라지나?
11 | 00
CPU Core
수를 높임
병렬처리
Disk 는
병렬로 일하지
않는다.
Data 전송은
병렬로 일하지
않는다.
추가증설
컨트롤러
CPU, Disk가
병렬로 일한다.
1대 추가,
약 1.8 배씩 성능
증가
12. 얼마나 저장할 수 있나?
12 | 00
• 페이스북 일 250 Terra Bytes 이상 데이터 처리, 25억개의 컨텐츠 공유
Google Server – Linux, 2 Disk
Google Data Center
- 컨테이너 단위로 증설
저장공간
무제한
증설가능
13. 어떻게 조사할 수 있나?
13 | 00
• 시각화 도구는 패턴을 가장 잘 인지해낼 수 있는 도구 (빅데이터 분석에 효과적)
트렌드 분석 긍부정 분석
Word CloudSocial Graph
14. 성공전략 3요소
14 | 00
Data • 어떤 데이터를 모을 것인가?
• 데이터를 어떻게 저장해둘 것인가?
Data Scientist
• Domain Knowledge +
통계적 지식 +
냉철한 분석능력
Platform
• 대용량 수집, 저장 기술
• 분석 및 가공처리 기술
• Keyword : „도메인 지식‟을 가진 사람이 „플랫폼‟을 이용해서 데이터로부터 „정보를 발
굴‟해내는 활동을 지속적으로 수행함.
15. 데이터 분석가
15 | 00
여행가형
• 무작위로 많은 데이터를 조사함
• 같은 데이터를 두 번 찾지 않음
• 요구사항이 무엇인지 알지 못함
• 메타 데이터를 많이 사용
• 정기적으로 데이터를 모니터링
• 정기적으로 대규모 데이터를 상세히 검토
• 산발적으로 데이터를 사용
• 프로파일링 툴에 의존
• 심화 탐구를 위한 영역을 이따금 조사
농부형
• 정기적으로 데이터 접속
• 무엇을 찾고 있는지 인지하고 있음
• 대규모 데이터에 접속
• 데이터에 예측가능한 접속
• 데이터에 접속한 후 예측 가능한 처리 시행
• 데이터 조회 시작 전에 요구사항을 인지하고 있음
• 정기적으로 데이터 마트에 접속
• 거의 현재 시점의 상세 데이터에 접속하지 않음
• 정기적으로 소규모의 황금조각을 발견
• 프레젠테이션 툴을 사용
탐험가형
• 데이터에 비정기적으로 접속
• 무엇을 찾는지 알지 못함
• 대량의 데이터를 조사
• 예측 불가능한 유형의 접근
• 때때로 큰 금덩어리를 발견
• 종종 아무것도 찾지 못함
• 정기적으로 현재 시점의 상세 데이터에 접근
• 데이터 발생보다 데이터 관계성을 검토
• 탐구와 통계적 분석 툴을 사용
광부형
• 통계학자
• 주장에 대한 가설을 바탕으로 수행
• 가설의 타당성을 입증
• 대량의 데이터로 수행
• 반복적으로 발생하는 독립 데이터로 수행
• 공생방식으로 탐험가와 긴밀히 협업
• 종종 새로운 가설과 주장을 발견
• 아주 큰 쿼리를 제출
• 업무에 특화된 툴을 사용
16. 어려운 점은 무엇인가?
16 | 00
플랫폼 기술이 초기
데이터 사이언티스트의 부족
학문보다 기술 리딩의 한계
• 대부분 Google 의 Hadoop 기반 기술을 사용, Hadoop은 현재 버전 0.2
• Open Source 중심으로 업체 숙련도에 품질 좌우
• CRM 기술 수준 대비 이용 편의성이 낮음
• 빅데이터는 도메인 지식을 가진 전문가의 것
• CRM, DW 와 달리 유의한 데이터 실험이 가능함
• 빅데이터 특성에 맞는 „전문 분석가‟ 별도 양성의 필요가 있음
• 빅데이터 분석 기술에 대한 학문적 연구 부족
• Open Source에는 SAS와 같은 고급 분석 모듈들이 부족함.
18. 민간시장은 기술적 접근단계
18 | 00
삼성
빅데이터
SKT
빅데이터
kth
빅데이터
NHN
빅데이터
• 검색질의 일 2,000만건
• 문서 일 130억건
• 검색로그 3TB/일
• 2008 ~
엔씨소프트
빅데이터
• 분석로그 일 1TB
• 분석대상 1.6 PB
• MS-SQL Hadoop 기반
• 2010 ~ 2013 완성
• 푸딩앱 3,000만 다운로드
• 푸딩투 글로벌 200만 Active 유저
• 올레스마트 TV, 기상청 빅데이터
• 2011 ~ 2013
• 오픈빅데이터, 2013.5.13
• ICT 개방 1조2,000억 투자(3년간)
• 2010 ~
• 무선사업부, MSC, VD사업부
• 반도체 사업부 등 글로벌 빅데이터
• Oracle, EMC, IBM 등 솔루션 PoC, ISP 수립
• 2011 ~
정부3.0
• data.go.kr, 공공정보 연계(’12년 10억 Call)
• 12.12 ~ 13.03 빅데이터 BPR/ISP 정책수립
• 13.09 미래부 빅데이터 분석 활용센터 구축
자사 내부서비스
대외 비즈니스용
정부 운영 목적 +
공공 서비스 목적
• 현재는 “빅데이터를 보유한 기업”이 자사 내부서비스 목적으로 오픈소스 기반의 빅데이터 센터 구축함
• 일반기업은 아직 효용성을 고민중이며, 정부가 선도하는 시장이 열리고 있음
19. U-Health 시장흐름
19 | 00
고령화 사회의 도래와 더불어 세계적으로, 1) 헬스케어 네트워크 구축, 2) 스마트 단말기의 활성화 3)
빅데이터 기술의 발달(DNA 정보 축적) 4) PHR(Personal Health Record)의 확충에 대한 새로운변화
의 흐름이 등장하였습니다.
Wellness Market
Illness Market
Data • 개인 건강이력정보
• 개인 생활이력정보
• 가족기록 정보
Device • 개인 모바일 기기
• 가정용 기기
분석서비스 • Device로부터 획득한 정보,
개인정보를 바탕으로 식이영
양 및 건강운동 정보 제공
처방서비스 • 분석에 따른 영양 불균형 및
건강 불균형에 대해 처방
대상 데이터 서비스 주요 기술
생체정보
모니터링기술
• 생체신호 처리기술
• 의료영상 처리기술
일상생활
모니터링 기술
• 생활센서 처리기술
• 행위정보 분류
• 생활패턴 가시화
U-Health
응용기술
• 임상결정지원기술
• 응용서비스 프로토콜
• 의료정보 보호
• 시험 및 인증
데이터
분석기술
• 빅데이터 기술
• 질병 데이터 분석 기술
• 생활건강정보 분석 기술
Data • 질병정보
• DNA 정보
• 치료이력 정보
• 진료환경 정보
• 임상 실험정보
Device • 질병 진단 기기
진료서비스 • 질병 정보와 PHR을 바탕으
로 효과적이고 개인화된 질병
진단
치료서비스 • PHR의 변화를 기반으로 한
장기적, 단기적 치료서비스
제공
예방서비스 • 데이터에 기반한 질병확률
중심의 예방 서비스 제공
임상실험 • 신약 개발 및 치료제 개발
대상 데이터 서비스
※ 참고 : TTA Journal, 2013.01
20. 사례. 국내. 해외사례
20 | 00
수행기관 프로젝트 명 주요 내용
해외 미국 국립보건원 유전자 데이터 공유를 통한 질
병치료체계 마련
75개기업과 제휴하여, 200TB의 유전자정보 수집,일반에
공개. 유전자 비교분석 서비스 제공, DNA 이상에 따른
질병 사전예측 및 대응
미국 국립보건원 Pillbox 프로젝트를 통한 의료
개혁
약검색 서비스를 통해 지역별 질병통계 분석
이 정보를 기반으로 보건정책 수립 대응
미국 퇴역군인국 미국 퇴역군인 전자의료기록
분석을 통한 맞춤형 의료서비
스 지원
2년간 25개 DW 구축, 전자의료기록(EHR) DB구축
의료서비스에 제공
캐나다 온타리오
공과대 병원
미숙아 모니터링을 통한 감염
예방 및 예측
미숙아 1명이 일9,000만건 데이터 생성
(바이털 사인을 초당 1,000번 수집)
이상징후를 통해 6~24시간 먼저 감염 확인
건강보험회사
웰포인트
슈퍼컴퓨터를 활용한 효율적
환자치료
환자 증상, 면담기록등 모든 내역을 저장, 환자치료 가이
드라인 제시 기능. 2억 페이지 검색을 3초 내 실시
구글 검색어 분석을 통한 독감예보
서비스 제공
검색어 쿼리를 조사하여, 지역별 독감동향을 신속히 감
지함.
국내 한국인체자원은행
네트워크
정보공유로 생명공학 분야 경
쟁력 제고
전국 16개 병원에서 36만명 인체 정보 획득. 특정질환별
로 연구자들에게 무료 제공
DNA Link 유전자 분석시스템으로 맞춤형
건강검진 서비스 제공
4만명 이상 질병관련 분석을 하여 국내 최대 한국인 유
전체 DB 구축
1 TB 이상 DB 구축, 기하급수적으로 늘어나는 DNA 데
이터 저장 분석 가능
연세대학교
의료원
후(HooH) 헬스케어시스템 전자진료기록부, 의료영상 전송 등에 대한 전산시스템을
클라우드 기반으로 이전
빅데이터 인프라를 적용하여 방대한 데이터 축적
21. 국내 주요 데이터 보유현황
21 | 00
기관 자료명 조사주기 조사대상 표본 수
질병관리본부
국민건강영양조사 매년 1회 가구표본
192개 조사구, 약 3,840가구의
만 1세 이상 가구원 약 11,520
명
지역사회건강조사 매년 1회 가구표본 전국 227,700명 해당
청소년건강행태
온라인조사
매년 1회 학교표본
중·고등학생 약 8만명(중학교
400개교, 고등학교 400개교)
퇴원손상심층조사 매년 1회 100병상이상병원표본
국민건강보험공단
건강검진통계 매년 1회 건강검진 대상자
대상자 : 15,249,528명
수검자 : 11,070,569명
(2011년일반건강검진 기준)
건강보험주요수술
통계
매년 1회 건강보험및의료급여가입자 전 수
건강보험통계 매년 1회 건강보험 적용인구 전 수
건강보험환자진료
비실태조사
매년 1회 요양기관표본 850개 요양기관
노인장기요양보험
통계
매년 1회 개인 전 수
지역별의료이용
통계
매년 1회 건강보험 적용인구 전 수
한국보건사회
연구원
전국출산력및
보건복지실태조사
매 3년 가구표본 약 16,380가구
장애인실태조사 매 3년 가구표본
1,000개 조사구 (가구: 41,000
가구, 시설: 736개 전 수)
한국복지패널조사 매년 1회 가구표본 7,072가구
한국의료패널조사 매년 1회 가구표본 약 8,000가구
환자조사 매년 1회 의료기관표본 57,133개 의료기관
영아모성사망조사 매 2년 전 수 전 수
노인실태조사 매 3년
(전국)가구표본
(63세이상노인)
3,086개 조사구 약 15,000명
한국고용정보원
고령화연구패널
조사
매 2년 가구표본 1,000개 조사구
기관 자료명 조사주기 조사대상 표본 수
국민연금공단 국민노후보장패널조사 매 2년
만 50세 이상
중고령자가 있는
가구표본
5,110가구 (8,689명)
통계청
사망원인통계 매년 9월 사망자
사회조사 매년 1회 가구표본
17,664가구의 만 13세
이상 가구원
보건복지부
국민구강건강
실태조사
매 3년 학교표본
초등학교(1학년, 3학년과 5학
년):6,000명
중학교: 6,000명
고등학교: 6,000명
특수학교: 300명
한국
노동연구원
한국노동패널조사 매년 1회 가구표본
1차 표본 : 5000가구
2차 표본 : 1500가구
국립암센터 암등록통계 매년 1회
새롭게 발생한
암환자
국립중앙
의료원
응급의료현황통계 매년 1회
전국응급실이용자
및응급의료자원
전 수
국세청 국세통계 매년 1회 전 수 전 수
※ 출처 : 건강보험심사평가원