빅데이터의 이해
2013.09
알앤비소프트, 빅데이터 연구소 소장
김수보 (kimsubo@gmail.com)
목차
2 | 00
빅데이터란 무엇인가?
시장이야기
3 | 00
빅데이터란 무엇인가?
Big Traffic
4 | 00
일 10억건 발송
즉, 초당 11,574건 메시지
일 12억 페이지뷰
일 1.3억 건 검색
일 26억 건 검색 (글로벌)
Big Data
5 | 00
행정 DB 공유 건수 10억건
Google Big Data
6 | 00
• Hadoop은 검색소스를 모아두기 위한 용도로 개발되어, Gmail 에 가장 크게 사용되었습니다.
1인당 15GB * 2.7 억명 („12.12)
= 4.05 Exa Bytes = 4,050 Terra Bytes = 4,050,000 Giga Bytes
메일 검색, 분류, 태그
Hadoop
7 | 00
2008. 130년어치
(1,100만 페이지)
pdf 변환
200만원
14년
하둡은
x86서버
기반의
대용량
파일저장
시스템
정의
8 | 00
• 2010년 IBM이 최초 정의, 전 세계 데이터 중 90%가 지난 3년 이내에 생성
Volume
 전수 데이터를 조사할 수 있게 되다.
 데이터가 누적될수록 정확해지다. (도로정체이력)
 데이터를 지우지 않게 되다. (음원)
Velocity
 전수 데이터 처리가 가능해지게 되다.(인구총조사)
 데이터 처리가 빨라지게 되다.(1주일반나절)
Variety
 주어진 분석틀을 벗어난 탐색형 발굴이 가능하다.
 소급분석이 가능해지다.
Disk 1TB=6만원
Memory 1GB=1만원
분산병렬처리
기술 발달
통계분석 외
시각화 도구 활성화
빅데이터의 3요소
필요로 하는 곳
9 | 00
 경찰청 : 범죄자 프로파일 (DNA 정보)
 인구통계: 인구 이동 및 출생,사망 정보
 이통사 : 통화이력 정보
 금융 : 거래 이력 정보
전수 데이터 필수
누적 데이터가 중요
 경찰청 : 범죄 발생이력 정보
 의료정보 : 개인별 진료기록 정보
 국토부 : CCTV 감시 이력정보
 기상청 : 기상 이력 정보
고가의 대용량 수집비용
 지자체 : 실시간 버스 이동 정보 (경기도 1만대)
 내비게이션 회사 : 도로 정체 이력 정보
Data Volume
Data Volume
+ Data Velocity
빅데이터 처리의 4단계
10 | 00
Big Data Solution 은 기본적으로 아래와 같은 4단계로 이루어집니다.
일반적인 CRM의 수집 분석 흐름과 대동소이 합니다.
( Big Data Solution 의 기능 및 처리 흐름과 관리 구조 )
데이터수집(Aggregation)
Reporting
Collecting Store Analysis Visualization
Collecting Store Analysis Reporting
OpenAPI Crawling
Data Collector
Web, Social Network
System log, RDBMS 등
수집 데이터
저장
NoSQL
DBMS
DBMS
Hadoop 등을 이용한
대용량 데이터 저장
Data Query
Data Clustering
Classification
Recommendation
Hive, mahout, R 등을 통한
분산/병렬 데이터 실시간 분석
Chart/Grid
Data Export/API
Monitoring
Chart, API 등을 통한
다양한 View 생성 및 제공
Data Scientist
Management System
Managing
데이터활용(Utilization)
빅데이터 요소기술이 투입됨
얼마나 빨라지나?
11 | 00
CPU Core
수를 높임 
병렬처리
Disk 는
병렬로 일하지
않는다.
Data 전송은
병렬로 일하지
않는다.
추가증설
컨트롤러
CPU, Disk가
병렬로 일한다.
 1대 추가,
약 1.8 배씩 성능
증가
얼마나 저장할 수 있나?
12 | 00
• 페이스북 일 250 Terra Bytes 이상 데이터 처리, 25억개의 컨텐츠 공유
Google Server – Linux, 2 Disk
Google Data Center
- 컨테이너 단위로 증설
저장공간
무제한
증설가능
어떻게 조사할 수 있나?
13 | 00
• 시각화 도구는 패턴을 가장 잘 인지해낼 수 있는 도구 (빅데이터 분석에 효과적)
트렌드 분석 긍부정 분석
Word CloudSocial Graph
성공전략 3요소
14 | 00
Data • 어떤 데이터를 모을 것인가?
• 데이터를 어떻게 저장해둘 것인가?
Data Scientist
• Domain Knowledge +
통계적 지식 +
냉철한 분석능력
Platform
• 대용량 수집, 저장 기술
• 분석 및 가공처리 기술
• Keyword : „도메인 지식‟을 가진 사람이 „플랫폼‟을 이용해서 데이터로부터 „정보를 발
굴‟해내는 활동을 지속적으로 수행함.
데이터 분석가
15 | 00
여행가형
• 무작위로 많은 데이터를 조사함
• 같은 데이터를 두 번 찾지 않음
• 요구사항이 무엇인지 알지 못함
• 메타 데이터를 많이 사용
• 정기적으로 데이터를 모니터링
• 정기적으로 대규모 데이터를 상세히 검토
• 산발적으로 데이터를 사용
• 프로파일링 툴에 의존
• 심화 탐구를 위한 영역을 이따금 조사
농부형
• 정기적으로 데이터 접속
• 무엇을 찾고 있는지 인지하고 있음
• 대규모 데이터에 접속
• 데이터에 예측가능한 접속
• 데이터에 접속한 후 예측 가능한 처리 시행
• 데이터 조회 시작 전에 요구사항을 인지하고 있음
• 정기적으로 데이터 마트에 접속
• 거의 현재 시점의 상세 데이터에 접속하지 않음
• 정기적으로 소규모의 황금조각을 발견
• 프레젠테이션 툴을 사용
탐험가형
• 데이터에 비정기적으로 접속
• 무엇을 찾는지 알지 못함
• 대량의 데이터를 조사
• 예측 불가능한 유형의 접근
• 때때로 큰 금덩어리를 발견
• 종종 아무것도 찾지 못함
• 정기적으로 현재 시점의 상세 데이터에 접근
• 데이터 발생보다 데이터 관계성을 검토
• 탐구와 통계적 분석 툴을 사용
광부형
• 통계학자
• 주장에 대한 가설을 바탕으로 수행
• 가설의 타당성을 입증
• 대량의 데이터로 수행
• 반복적으로 발생하는 독립 데이터로 수행
• 공생방식으로 탐험가와 긴밀히 협업
• 종종 새로운 가설과 주장을 발견
• 아주 큰 쿼리를 제출
• 업무에 특화된 툴을 사용
어려운 점은 무엇인가?
16 | 00
플랫폼 기술이 초기
데이터 사이언티스트의 부족
학문보다 기술 리딩의 한계
• 대부분 Google 의 Hadoop 기반 기술을 사용, Hadoop은 현재 버전 0.2
• Open Source 중심으로 업체 숙련도에 품질 좌우
• CRM 기술 수준 대비 이용 편의성이 낮음
• 빅데이터는 도메인 지식을 가진 전문가의 것
• CRM, DW 와 달리 유의한 데이터 실험이 가능함
• 빅데이터 특성에 맞는 „전문 분석가‟ 별도 양성의 필요가 있음
• 빅데이터 분석 기술에 대한 학문적 연구 부족
• Open Source에는 SAS와 같은 고급 분석 모듈들이 부족함.
17 | 00
시장 이야기
민간시장은 기술적 접근단계
18 | 00
삼성
빅데이터
SKT
빅데이터
kth
빅데이터
NHN
빅데이터
• 검색질의 일 2,000만건
• 문서 일 130억건
• 검색로그 3TB/일
• 2008 ~
엔씨소프트
빅데이터
• 분석로그 일 1TB
• 분석대상 1.6 PB
• MS-SQL  Hadoop 기반
• 2010 ~ 2013 완성
• 푸딩앱 3,000만 다운로드
• 푸딩투 글로벌 200만 Active 유저
• 올레스마트 TV, 기상청 빅데이터
• 2011 ~ 2013
• 오픈빅데이터, 2013.5.13
• ICT 개방 1조2,000억 투자(3년간)
• 2010 ~
• 무선사업부, MSC, VD사업부
• 반도체 사업부 등 글로벌 빅데이터
• Oracle, EMC, IBM 등 솔루션 PoC, ISP 수립
• 2011 ~
정부3.0
• data.go.kr, 공공정보 연계(’12년 10억 Call)
• 12.12 ~ 13.03 빅데이터 BPR/ISP 정책수립
• 13.09 미래부 빅데이터 분석 활용센터 구축
자사 내부서비스
대외 비즈니스용
정부 운영 목적 +
공공 서비스 목적
• 현재는 “빅데이터를 보유한 기업”이 자사 내부서비스 목적으로 오픈소스 기반의 빅데이터 센터 구축함
• 일반기업은 아직 효용성을 고민중이며, 정부가 선도하는 시장이 열리고 있음
U-Health 시장흐름
19 | 00
고령화 사회의 도래와 더불어 세계적으로, 1) 헬스케어 네트워크 구축, 2) 스마트 단말기의 활성화 3)
빅데이터 기술의 발달(DNA 정보 축적) 4) PHR(Personal Health Record)의 확충에 대한 새로운변화
의 흐름이 등장하였습니다.
Wellness Market
Illness Market
Data • 개인 건강이력정보
• 개인 생활이력정보
• 가족기록 정보
Device • 개인 모바일 기기
• 가정용 기기
분석서비스 • Device로부터 획득한 정보,
개인정보를 바탕으로 식이영
양 및 건강운동 정보 제공
처방서비스 • 분석에 따른 영양 불균형 및
건강 불균형에 대해 처방
대상 데이터 서비스 주요 기술
생체정보
모니터링기술
• 생체신호 처리기술
• 의료영상 처리기술
일상생활
모니터링 기술
• 생활센서 처리기술
• 행위정보 분류
• 생활패턴 가시화
U-Health
응용기술
• 임상결정지원기술
• 응용서비스 프로토콜
• 의료정보 보호
• 시험 및 인증
데이터
분석기술
• 빅데이터 기술
• 질병 데이터 분석 기술
• 생활건강정보 분석 기술
Data • 질병정보
• DNA 정보
• 치료이력 정보
• 진료환경 정보
• 임상 실험정보
Device • 질병 진단 기기
진료서비스 • 질병 정보와 PHR을 바탕으
로 효과적이고 개인화된 질병
진단
치료서비스 • PHR의 변화를 기반으로 한
장기적, 단기적 치료서비스
제공
예방서비스 • 데이터에 기반한 질병확률
중심의 예방 서비스 제공
임상실험 • 신약 개발 및 치료제 개발
대상 데이터 서비스
※ 참고 : TTA Journal, 2013.01
사례. 국내. 해외사례
20 | 00
수행기관 프로젝트 명 주요 내용
해외 미국 국립보건원 유전자 데이터 공유를 통한 질
병치료체계 마련
75개기업과 제휴하여, 200TB의 유전자정보 수집,일반에
공개. 유전자 비교분석 서비스 제공, DNA 이상에 따른
질병 사전예측 및 대응
미국 국립보건원 Pillbox 프로젝트를 통한 의료
개혁
약검색 서비스를 통해 지역별 질병통계 분석
이 정보를 기반으로 보건정책 수립 대응
미국 퇴역군인국 미국 퇴역군인 전자의료기록
분석을 통한 맞춤형 의료서비
스 지원
2년간 25개 DW 구축, 전자의료기록(EHR) DB구축
의료서비스에 제공
캐나다 온타리오
공과대 병원
미숙아 모니터링을 통한 감염
예방 및 예측
미숙아 1명이 일9,000만건 데이터 생성
(바이털 사인을 초당 1,000번 수집)
이상징후를 통해 6~24시간 먼저 감염 확인
건강보험회사
웰포인트
슈퍼컴퓨터를 활용한 효율적
환자치료
환자 증상, 면담기록등 모든 내역을 저장, 환자치료 가이
드라인 제시 기능. 2억 페이지 검색을 3초 내 실시
구글 검색어 분석을 통한 독감예보
서비스 제공
검색어 쿼리를 조사하여, 지역별 독감동향을 신속히 감
지함.
국내 한국인체자원은행
네트워크
정보공유로 생명공학 분야 경
쟁력 제고
전국 16개 병원에서 36만명 인체 정보 획득. 특정질환별
로 연구자들에게 무료 제공
DNA Link 유전자 분석시스템으로 맞춤형
건강검진 서비스 제공
4만명 이상 질병관련 분석을 하여 국내 최대 한국인 유
전체 DB 구축
1 TB 이상 DB 구축, 기하급수적으로 늘어나는 DNA 데
이터 저장 분석 가능
연세대학교
의료원
후(HooH) 헬스케어시스템 전자진료기록부, 의료영상 전송 등에 대한 전산시스템을
클라우드 기반으로 이전
빅데이터 인프라를 적용하여 방대한 데이터 축적
국내 주요 데이터 보유현황
21 | 00
기관 자료명 조사주기 조사대상 표본 수
질병관리본부
국민건강영양조사 매년 1회 가구표본
192개 조사구, 약 3,840가구의
만 1세 이상 가구원 약 11,520
명
지역사회건강조사 매년 1회 가구표본 전국 227,700명 해당
청소년건강행태
온라인조사
매년 1회 학교표본
중·고등학생 약 8만명(중학교
400개교, 고등학교 400개교)
퇴원손상심층조사 매년 1회 100병상이상병원표본
국민건강보험공단
건강검진통계 매년 1회 건강검진 대상자
대상자 : 15,249,528명
수검자 : 11,070,569명
(2011년일반건강검진 기준)
건강보험주요수술
통계
매년 1회 건강보험및의료급여가입자 전 수
건강보험통계 매년 1회 건강보험 적용인구 전 수
건강보험환자진료
비실태조사
매년 1회 요양기관표본 850개 요양기관
노인장기요양보험
통계
매년 1회 개인 전 수
지역별의료이용
통계
매년 1회 건강보험 적용인구 전 수
한국보건사회
연구원
전국출산력및
보건복지실태조사
매 3년 가구표본 약 16,380가구
장애인실태조사 매 3년 가구표본
1,000개 조사구 (가구: 41,000
가구, 시설: 736개 전 수)
한국복지패널조사 매년 1회 가구표본 7,072가구
한국의료패널조사 매년 1회 가구표본 약 8,000가구
환자조사 매년 1회 의료기관표본 57,133개 의료기관
영아모성사망조사 매 2년 전 수 전 수
노인실태조사 매 3년
(전국)가구표본
(63세이상노인)
3,086개 조사구 약 15,000명
한국고용정보원
고령화연구패널
조사
매 2년 가구표본 1,000개 조사구
기관 자료명 조사주기 조사대상 표본 수
국민연금공단 국민노후보장패널조사 매 2년
만 50세 이상
중고령자가 있는
가구표본
5,110가구 (8,689명)
통계청
사망원인통계 매년 9월 사망자
사회조사 매년 1회 가구표본
17,664가구의 만 13세
이상 가구원
보건복지부
국민구강건강
실태조사
매 3년 학교표본
초등학교(1학년, 3학년과 5학
년):6,000명
중학교: 6,000명
고등학교: 6,000명
특수학교: 300명
한국
노동연구원
한국노동패널조사 매년 1회 가구표본
1차 표본 : 5000가구
2차 표본 : 1500가구
국립암센터 암등록통계 매년 1회
새롭게 발생한
암환자
국립중앙
의료원
응급의료현황통계 매년 1회
전국응급실이용자
및응급의료자원
전 수
국세청 국세통계 매년 1회 전 수 전 수
※ 출처 : 건강보험심사평가원
22 | 00
감사합니다.

빅데이터의 이해

  • 1.
    빅데이터의 이해 2013.09 알앤비소프트, 빅데이터연구소 소장 김수보 (kimsubo@gmail.com)
  • 2.
    목차 2 | 00 빅데이터란무엇인가? 시장이야기
  • 3.
  • 4.
    Big Traffic 4 |00 일 10억건 발송 즉, 초당 11,574건 메시지 일 12억 페이지뷰 일 1.3억 건 검색 일 26억 건 검색 (글로벌)
  • 5.
    Big Data 5 |00 행정 DB 공유 건수 10억건
  • 6.
    Google Big Data 6| 00 • Hadoop은 검색소스를 모아두기 위한 용도로 개발되어, Gmail 에 가장 크게 사용되었습니다. 1인당 15GB * 2.7 억명 („12.12) = 4.05 Exa Bytes = 4,050 Terra Bytes = 4,050,000 Giga Bytes 메일 검색, 분류, 태그
  • 7.
    Hadoop 7 | 00 2008.130년어치 (1,100만 페이지) pdf 변환 200만원 14년 하둡은 x86서버 기반의 대용량 파일저장 시스템
  • 8.
    정의 8 | 00 •2010년 IBM이 최초 정의, 전 세계 데이터 중 90%가 지난 3년 이내에 생성 Volume  전수 데이터를 조사할 수 있게 되다.  데이터가 누적될수록 정확해지다. (도로정체이력)  데이터를 지우지 않게 되다. (음원) Velocity  전수 데이터 처리가 가능해지게 되다.(인구총조사)  데이터 처리가 빨라지게 되다.(1주일반나절) Variety  주어진 분석틀을 벗어난 탐색형 발굴이 가능하다.  소급분석이 가능해지다. Disk 1TB=6만원 Memory 1GB=1만원 분산병렬처리 기술 발달 통계분석 외 시각화 도구 활성화 빅데이터의 3요소
  • 9.
    필요로 하는 곳 9| 00  경찰청 : 범죄자 프로파일 (DNA 정보)  인구통계: 인구 이동 및 출생,사망 정보  이통사 : 통화이력 정보  금융 : 거래 이력 정보 전수 데이터 필수 누적 데이터가 중요  경찰청 : 범죄 발생이력 정보  의료정보 : 개인별 진료기록 정보  국토부 : CCTV 감시 이력정보  기상청 : 기상 이력 정보 고가의 대용량 수집비용  지자체 : 실시간 버스 이동 정보 (경기도 1만대)  내비게이션 회사 : 도로 정체 이력 정보 Data Volume Data Volume + Data Velocity
  • 10.
    빅데이터 처리의 4단계 10| 00 Big Data Solution 은 기본적으로 아래와 같은 4단계로 이루어집니다. 일반적인 CRM의 수집 분석 흐름과 대동소이 합니다. ( Big Data Solution 의 기능 및 처리 흐름과 관리 구조 ) 데이터수집(Aggregation) Reporting Collecting Store Analysis Visualization Collecting Store Analysis Reporting OpenAPI Crawling Data Collector Web, Social Network System log, RDBMS 등 수집 데이터 저장 NoSQL DBMS DBMS Hadoop 등을 이용한 대용량 데이터 저장 Data Query Data Clustering Classification Recommendation Hive, mahout, R 등을 통한 분산/병렬 데이터 실시간 분석 Chart/Grid Data Export/API Monitoring Chart, API 등을 통한 다양한 View 생성 및 제공 Data Scientist Management System Managing 데이터활용(Utilization) 빅데이터 요소기술이 투입됨
  • 11.
    얼마나 빨라지나? 11 |00 CPU Core 수를 높임  병렬처리 Disk 는 병렬로 일하지 않는다. Data 전송은 병렬로 일하지 않는다. 추가증설 컨트롤러 CPU, Disk가 병렬로 일한다.  1대 추가, 약 1.8 배씩 성능 증가
  • 12.
    얼마나 저장할 수있나? 12 | 00 • 페이스북 일 250 Terra Bytes 이상 데이터 처리, 25억개의 컨텐츠 공유 Google Server – Linux, 2 Disk Google Data Center - 컨테이너 단위로 증설 저장공간 무제한 증설가능
  • 13.
    어떻게 조사할 수있나? 13 | 00 • 시각화 도구는 패턴을 가장 잘 인지해낼 수 있는 도구 (빅데이터 분석에 효과적) 트렌드 분석 긍부정 분석 Word CloudSocial Graph
  • 14.
    성공전략 3요소 14 |00 Data • 어떤 데이터를 모을 것인가? • 데이터를 어떻게 저장해둘 것인가? Data Scientist • Domain Knowledge + 통계적 지식 + 냉철한 분석능력 Platform • 대용량 수집, 저장 기술 • 분석 및 가공처리 기술 • Keyword : „도메인 지식‟을 가진 사람이 „플랫폼‟을 이용해서 데이터로부터 „정보를 발 굴‟해내는 활동을 지속적으로 수행함.
  • 15.
    데이터 분석가 15 |00 여행가형 • 무작위로 많은 데이터를 조사함 • 같은 데이터를 두 번 찾지 않음 • 요구사항이 무엇인지 알지 못함 • 메타 데이터를 많이 사용 • 정기적으로 데이터를 모니터링 • 정기적으로 대규모 데이터를 상세히 검토 • 산발적으로 데이터를 사용 • 프로파일링 툴에 의존 • 심화 탐구를 위한 영역을 이따금 조사 농부형 • 정기적으로 데이터 접속 • 무엇을 찾고 있는지 인지하고 있음 • 대규모 데이터에 접속 • 데이터에 예측가능한 접속 • 데이터에 접속한 후 예측 가능한 처리 시행 • 데이터 조회 시작 전에 요구사항을 인지하고 있음 • 정기적으로 데이터 마트에 접속 • 거의 현재 시점의 상세 데이터에 접속하지 않음 • 정기적으로 소규모의 황금조각을 발견 • 프레젠테이션 툴을 사용 탐험가형 • 데이터에 비정기적으로 접속 • 무엇을 찾는지 알지 못함 • 대량의 데이터를 조사 • 예측 불가능한 유형의 접근 • 때때로 큰 금덩어리를 발견 • 종종 아무것도 찾지 못함 • 정기적으로 현재 시점의 상세 데이터에 접근 • 데이터 발생보다 데이터 관계성을 검토 • 탐구와 통계적 분석 툴을 사용 광부형 • 통계학자 • 주장에 대한 가설을 바탕으로 수행 • 가설의 타당성을 입증 • 대량의 데이터로 수행 • 반복적으로 발생하는 독립 데이터로 수행 • 공생방식으로 탐험가와 긴밀히 협업 • 종종 새로운 가설과 주장을 발견 • 아주 큰 쿼리를 제출 • 업무에 특화된 툴을 사용
  • 16.
    어려운 점은 무엇인가? 16| 00 플랫폼 기술이 초기 데이터 사이언티스트의 부족 학문보다 기술 리딩의 한계 • 대부분 Google 의 Hadoop 기반 기술을 사용, Hadoop은 현재 버전 0.2 • Open Source 중심으로 업체 숙련도에 품질 좌우 • CRM 기술 수준 대비 이용 편의성이 낮음 • 빅데이터는 도메인 지식을 가진 전문가의 것 • CRM, DW 와 달리 유의한 데이터 실험이 가능함 • 빅데이터 특성에 맞는 „전문 분석가‟ 별도 양성의 필요가 있음 • 빅데이터 분석 기술에 대한 학문적 연구 부족 • Open Source에는 SAS와 같은 고급 분석 모듈들이 부족함.
  • 17.
    17 | 00 시장이야기
  • 18.
    민간시장은 기술적 접근단계 18| 00 삼성 빅데이터 SKT 빅데이터 kth 빅데이터 NHN 빅데이터 • 검색질의 일 2,000만건 • 문서 일 130억건 • 검색로그 3TB/일 • 2008 ~ 엔씨소프트 빅데이터 • 분석로그 일 1TB • 분석대상 1.6 PB • MS-SQL  Hadoop 기반 • 2010 ~ 2013 완성 • 푸딩앱 3,000만 다운로드 • 푸딩투 글로벌 200만 Active 유저 • 올레스마트 TV, 기상청 빅데이터 • 2011 ~ 2013 • 오픈빅데이터, 2013.5.13 • ICT 개방 1조2,000억 투자(3년간) • 2010 ~ • 무선사업부, MSC, VD사업부 • 반도체 사업부 등 글로벌 빅데이터 • Oracle, EMC, IBM 등 솔루션 PoC, ISP 수립 • 2011 ~ 정부3.0 • data.go.kr, 공공정보 연계(’12년 10억 Call) • 12.12 ~ 13.03 빅데이터 BPR/ISP 정책수립 • 13.09 미래부 빅데이터 분석 활용센터 구축 자사 내부서비스 대외 비즈니스용 정부 운영 목적 + 공공 서비스 목적 • 현재는 “빅데이터를 보유한 기업”이 자사 내부서비스 목적으로 오픈소스 기반의 빅데이터 센터 구축함 • 일반기업은 아직 효용성을 고민중이며, 정부가 선도하는 시장이 열리고 있음
  • 19.
    U-Health 시장흐름 19 |00 고령화 사회의 도래와 더불어 세계적으로, 1) 헬스케어 네트워크 구축, 2) 스마트 단말기의 활성화 3) 빅데이터 기술의 발달(DNA 정보 축적) 4) PHR(Personal Health Record)의 확충에 대한 새로운변화 의 흐름이 등장하였습니다. Wellness Market Illness Market Data • 개인 건강이력정보 • 개인 생활이력정보 • 가족기록 정보 Device • 개인 모바일 기기 • 가정용 기기 분석서비스 • Device로부터 획득한 정보, 개인정보를 바탕으로 식이영 양 및 건강운동 정보 제공 처방서비스 • 분석에 따른 영양 불균형 및 건강 불균형에 대해 처방 대상 데이터 서비스 주요 기술 생체정보 모니터링기술 • 생체신호 처리기술 • 의료영상 처리기술 일상생활 모니터링 기술 • 생활센서 처리기술 • 행위정보 분류 • 생활패턴 가시화 U-Health 응용기술 • 임상결정지원기술 • 응용서비스 프로토콜 • 의료정보 보호 • 시험 및 인증 데이터 분석기술 • 빅데이터 기술 • 질병 데이터 분석 기술 • 생활건강정보 분석 기술 Data • 질병정보 • DNA 정보 • 치료이력 정보 • 진료환경 정보 • 임상 실험정보 Device • 질병 진단 기기 진료서비스 • 질병 정보와 PHR을 바탕으 로 효과적이고 개인화된 질병 진단 치료서비스 • PHR의 변화를 기반으로 한 장기적, 단기적 치료서비스 제공 예방서비스 • 데이터에 기반한 질병확률 중심의 예방 서비스 제공 임상실험 • 신약 개발 및 치료제 개발 대상 데이터 서비스 ※ 참고 : TTA Journal, 2013.01
  • 20.
    사례. 국내. 해외사례 20| 00 수행기관 프로젝트 명 주요 내용 해외 미국 국립보건원 유전자 데이터 공유를 통한 질 병치료체계 마련 75개기업과 제휴하여, 200TB의 유전자정보 수집,일반에 공개. 유전자 비교분석 서비스 제공, DNA 이상에 따른 질병 사전예측 및 대응 미국 국립보건원 Pillbox 프로젝트를 통한 의료 개혁 약검색 서비스를 통해 지역별 질병통계 분석 이 정보를 기반으로 보건정책 수립 대응 미국 퇴역군인국 미국 퇴역군인 전자의료기록 분석을 통한 맞춤형 의료서비 스 지원 2년간 25개 DW 구축, 전자의료기록(EHR) DB구축 의료서비스에 제공 캐나다 온타리오 공과대 병원 미숙아 모니터링을 통한 감염 예방 및 예측 미숙아 1명이 일9,000만건 데이터 생성 (바이털 사인을 초당 1,000번 수집) 이상징후를 통해 6~24시간 먼저 감염 확인 건강보험회사 웰포인트 슈퍼컴퓨터를 활용한 효율적 환자치료 환자 증상, 면담기록등 모든 내역을 저장, 환자치료 가이 드라인 제시 기능. 2억 페이지 검색을 3초 내 실시 구글 검색어 분석을 통한 독감예보 서비스 제공 검색어 쿼리를 조사하여, 지역별 독감동향을 신속히 감 지함. 국내 한국인체자원은행 네트워크 정보공유로 생명공학 분야 경 쟁력 제고 전국 16개 병원에서 36만명 인체 정보 획득. 특정질환별 로 연구자들에게 무료 제공 DNA Link 유전자 분석시스템으로 맞춤형 건강검진 서비스 제공 4만명 이상 질병관련 분석을 하여 국내 최대 한국인 유 전체 DB 구축 1 TB 이상 DB 구축, 기하급수적으로 늘어나는 DNA 데 이터 저장 분석 가능 연세대학교 의료원 후(HooH) 헬스케어시스템 전자진료기록부, 의료영상 전송 등에 대한 전산시스템을 클라우드 기반으로 이전 빅데이터 인프라를 적용하여 방대한 데이터 축적
  • 21.
    국내 주요 데이터보유현황 21 | 00 기관 자료명 조사주기 조사대상 표본 수 질병관리본부 국민건강영양조사 매년 1회 가구표본 192개 조사구, 약 3,840가구의 만 1세 이상 가구원 약 11,520 명 지역사회건강조사 매년 1회 가구표본 전국 227,700명 해당 청소년건강행태 온라인조사 매년 1회 학교표본 중·고등학생 약 8만명(중학교 400개교, 고등학교 400개교) 퇴원손상심층조사 매년 1회 100병상이상병원표본 국민건강보험공단 건강검진통계 매년 1회 건강검진 대상자 대상자 : 15,249,528명 수검자 : 11,070,569명 (2011년일반건강검진 기준) 건강보험주요수술 통계 매년 1회 건강보험및의료급여가입자 전 수 건강보험통계 매년 1회 건강보험 적용인구 전 수 건강보험환자진료 비실태조사 매년 1회 요양기관표본 850개 요양기관 노인장기요양보험 통계 매년 1회 개인 전 수 지역별의료이용 통계 매년 1회 건강보험 적용인구 전 수 한국보건사회 연구원 전국출산력및 보건복지실태조사 매 3년 가구표본 약 16,380가구 장애인실태조사 매 3년 가구표본 1,000개 조사구 (가구: 41,000 가구, 시설: 736개 전 수) 한국복지패널조사 매년 1회 가구표본 7,072가구 한국의료패널조사 매년 1회 가구표본 약 8,000가구 환자조사 매년 1회 의료기관표본 57,133개 의료기관 영아모성사망조사 매 2년 전 수 전 수 노인실태조사 매 3년 (전국)가구표본 (63세이상노인) 3,086개 조사구 약 15,000명 한국고용정보원 고령화연구패널 조사 매 2년 가구표본 1,000개 조사구 기관 자료명 조사주기 조사대상 표본 수 국민연금공단 국민노후보장패널조사 매 2년 만 50세 이상 중고령자가 있는 가구표본 5,110가구 (8,689명) 통계청 사망원인통계 매년 9월 사망자 사회조사 매년 1회 가구표본 17,664가구의 만 13세 이상 가구원 보건복지부 국민구강건강 실태조사 매 3년 학교표본 초등학교(1학년, 3학년과 5학 년):6,000명 중학교: 6,000명 고등학교: 6,000명 특수학교: 300명 한국 노동연구원 한국노동패널조사 매년 1회 가구표본 1차 표본 : 5000가구 2차 표본 : 1500가구 국립암센터 암등록통계 매년 1회 새롭게 발생한 암환자 국립중앙 의료원 응급의료현황통계 매년 1회 전국응급실이용자 및응급의료자원 전 수 국세청 국세통계 매년 1회 전 수 전 수 ※ 출처 : 건강보험심사평가원
  • 22.