빅데이터의 이해

빅데이터의 이해
2013.09
알앤비소프트, 빅데이터 연구소 소장
김수보 (kimsubo@gmail.com)

목차
2 | 00
빅데이터란 무엇인가?
시장이야기

3 | 00
빅데이터란 무엇인가?

Big Traffic
4 | 00
일 10억건 발송
즉, 초당 11,574건 메시지
일 12억 페이지뷰
일 1.3억 건 검색
일 26억 건 검색 (글로벌)

Big Data
5 | 00
행정 DB 공유 건수 10억건

Google Big Data
6 | 00
• Hadoop은 검색소스를 모아두기 위한 용도로 개발되어, Gmail 에 가장 크게 사용되었습니다.
1인당 15GB * 2.7 억명 („12.12)
= 4.05 Exa Bytes = 4,050 Terra Bytes = 4,050,000 Giga Bytes
메일 검색, 분류, 태그

Hadoop
7 | 00
2008. 130년어치
(1,100만 페이지)
pdf 변환
200만원
14년
하둡은
x86서버
기반의
대용량
파일저장
시스템

정의
8 | 00
• 2010년 IBM이 최초 정의, 전 세계 데이터 중 90%가 지난 3년 이내에 생성
Volume
 전수 데이터를 조사할 수 있게 되다.
 데이터가 누적될수록 정확해지다. (도로정체이력)
 데이터를 지우지 않게 되다. (음원)
Velocity
 전수 데이터 처리가 가능해지게 되다.(인구총조사)
 데이터 처리가 빨라지게 되다.(1주일반나절)
Variety
 주어진 분석틀을 벗어난 탐색형 발굴이 가능하다.
 소급분석이 가능해지다.
Disk 1TB=6만원
Memory 1GB=1만원
분산병렬처리
기술 발달
통계분석 외
시각화 도구 활성화
빅데이터의 3요소

필요로 하는 곳
9 | 00
 경찰청 : 범죄자 프로파일 (DNA 정보)
 인구통계: 인구 이동 및 출생,사망 정보
 이통사 : 통화이력 정보
 금융 : 거래 이력 정보
전수 데이터 필수
누적 데이터가 중요
 경찰청 : 범죄 발생이력 정보
 의료정보 : 개인별 진료기록 정보
 국토부 : CCTV 감시 이력정보
 기상청 : 기상 이력 정보
고가의 대용량 수집비용
 지자체 : 실시간 버스 이동 정보 (경기도 1만대)
 내비게이션 회사 : 도로 정체 이력 정보
Data Volume
Data Volume
+ Data Velocity

빅데이터 처리의 4단계
10 | 00
Big Data Solution 은 기본적으로 아래와 같은 4단계로 이루어집니다.
일반적인 CRM의 수집 분석 흐름과 대동소이 합니다.
( Big Data Solution 의 기능 및 처리 흐름과 관리 구조 )
데이터수집(Aggregation)
Reporting
Collecting Store Analysis Visualization
Collecting Store Analysis Reporting
OpenAPI Crawling
Data Collector
Web, Social Network
System log, RDBMS 등
수집 데이터
저장
NoSQL
DBMS
DBMS
Hadoop 등을 이용한
대용량 데이터 저장
Data Query
Data Clustering
Classification
Recommendation
Hive, mahout, R 등을 통한
분산/병렬 데이터 실시간 분석
Chart/Grid
Data Export/API
Monitoring
Chart, API 등을 통한
다양한 View 생성 및 제공
Data Scientist
Management System
Managing
데이터활용(Utilization)
빅데이터 요소기술이 투입됨

얼마나 빨라지나?
11 | 00
CPU Core
수를 높임 
병렬처리
Disk 는
병렬로 일하지
않는다.
Data 전송은
병렬로 일하지
않는다.
추가증설
컨트롤러
CPU, Disk가
병렬로 일한다.
 1대 추가,
약 1.8 배씩 성능
증가

얼마나 저장할 수 있나?
12 | 00
• 페이스북 일 250 Terra Bytes 이상 데이터 처리, 25억개의 컨텐츠 공유
Google Server – Linux, 2 Disk
Google Data Center
- 컨테이너 단위로 증설
저장공간
무제한
증설가능

어떻게 조사할 수 있나?
13 | 00
• 시각화 도구는 패턴을 가장 잘 인지해낼 수 있는 도구 (빅데이터 분석에 효과적)
트렌드 분석 긍부정 분석
Word CloudSocial Graph

성공전략 3요소
14 | 00
Data • 어떤 데이터를 모을 것인가?
• 데이터를 어떻게 저장해둘 것인가?
Data Scientist
• Domain Knowledge +
통계적 지식 +
냉철한 분석능력
Platform
• 대용량 수집, 저장 기술
• 분석 및 가공처리 기술
• Keyword : „도메인 지식‟을 가진 사람이 „플랫폼‟을 이용해서 데이터로부터 „정보를 발
굴‟해내는 활동을 지속적으로 수행함.

데이터 분석가
15 | 00
여행가형
• 무작위로 많은 데이터를 조사함
• 같은 데이터를 두 번 찾지 않음
• 요구사항이 무엇인지 알지 못함
• 메타 데이터를 많이 사용
• 정기적으로 데이터를 모니터링
• 정기적으로 대규모 데이터를 상세히 검토
• 산발적으로 데이터를 사용
• 프로파일링 툴에 의존
• 심화 탐구를 위한 영역을 이따금 조사
농부형
• 정기적으로 데이터 접속
• 무엇을 찾고 있는지 인지하고 있음
• 대규모 데이터에 접속
• 데이터에 예측가능한 접속
• 데이터에 접속한 후 예측 가능한 처리 시행
• 데이터 조회 시작 전에 요구사항을 인지하고 있음
• 정기적으로 데이터 마트에 접속
• 거의 현재 시점의 상세 데이터에 접속하지 않음
• 정기적으로 소규모의 황금조각을 발견
• 프레젠테이션 툴을 사용
탐험가형
• 데이터에 비정기적으로 접속
• 무엇을 찾는지 알지 못함
• 대량의 데이터를 조사
• 예측 불가능한 유형의 접근
• 때때로 큰 금덩어리를 발견
• 종종 아무것도 찾지 못함
• 정기적으로 현재 시점의 상세 데이터에 접근
• 데이터 발생보다 데이터 관계성을 검토
• 탐구와 통계적 분석 툴을 사용
광부형
• 통계학자
• 주장에 대한 가설을 바탕으로 수행
• 가설의 타당성을 입증
• 대량의 데이터로 수행
• 반복적으로 발생하는 독립 데이터로 수행
• 공생방식으로 탐험가와 긴밀히 협업
• 종종 새로운 가설과 주장을 발견
• 아주 큰 쿼리를 제출
• 업무에 특화된 툴을 사용

어려운 점은 무엇인가?
16 | 00
플랫폼 기술이 초기
데이터 사이언티스트의 부족
학문보다 기술 리딩의 한계
• 대부분 Google 의 Hadoop 기반 기술을 사용, Hadoop은 현재 버전 0.2
• Open Source 중심으로 업체 숙련도에 품질 좌우
• CRM 기술 수준 대비 이용 편의성이 낮음
• 빅데이터는 도메인 지식을 가진 전문가의 것
• CRM, DW 와 달리 유의한 데이터 실험이 가능함
• 빅데이터 특성에 맞는 „전문 분석가‟ 별도 양성의 필요가 있음
• 빅데이터 분석 기술에 대한 학문적 연구 부족
• Open Source에는 SAS와 같은 고급 분석 모듈들이 부족함.

민간시장은 기술적 접근단계
18 | 00
삼성
빅데이터
SKT
빅데이터
kth
빅데이터
NHN
빅데이터
• 검색질의 일 2,000만건
• 문서 일 130억건
• 검색로그 3TB/일
• 2008 ~
엔씨소프트
빅데이터
• 분석로그 일 1TB
• 분석대상 1.6 PB
• MS-SQL  Hadoop 기반
• 2010 ~ 2013 완성
• 푸딩앱 3,000만 다운로드
• 푸딩투 글로벌 200만 Active 유저
• 올레스마트 TV, 기상청 빅데이터
• 2011 ~ 2013
• 오픈빅데이터, 2013.5.13
• ICT 개방 1조2,000억 투자(3년간)
• 2010 ~
• 무선사업부, MSC, VD사업부
• 반도체 사업부 등 글로벌 빅데이터
• Oracle, EMC, IBM 등 솔루션 PoC, ISP 수립
• 2011 ~
정부3.0
• data.go.kr, 공공정보 연계(’12년 10억 Call)
• 12.12 ~ 13.03 빅데이터 BPR/ISP 정책수립
• 13.09 미래부 빅데이터 분석 활용센터 구축
자사 내부서비스
대외 비즈니스용
정부 운영 목적 +
공공 서비스 목적
• 현재는 “빅데이터를 보유한 기업”이 자사 내부서비스 목적으로 오픈소스 기반의 빅데이터 센터 구축함
• 일반기업은 아직 효용성을 고민중이며, 정부가 선도하는 시장이 열리고 있음

U-Health 시장흐름
19 | 00
고령화 사회의 도래와 더불어 세계적으로, 1) 헬스케어 네트워크 구축, 2) 스마트 단말기의 활성화 3)
빅데이터 기술의 발달(DNA 정보 축적) 4) PHR(Personal Health Record)의 확충에 대한 새로운변화
의 흐름이 등장하였습니다.
Wellness Market
Illness Market
Data • 개인 건강이력정보
• 개인 생활이력정보
• 가족기록 정보
Device • 개인 모바일 기기
• 가정용 기기
분석서비스 • Device로부터 획득한 정보,
개인정보를 바탕으로 식이영
양 및 건강운동 정보 제공
처방서비스 • 분석에 따른 영양 불균형 및
건강 불균형에 대해 처방
대상 데이터 서비스 주요 기술
생체정보
모니터링기술
• 생체신호 처리기술
• 의료영상 처리기술
일상생활
모니터링 기술
• 생활센서 처리기술
• 행위정보 분류
• 생활패턴 가시화
U-Health
응용기술
• 임상결정지원기술
• 응용서비스 프로토콜
• 의료정보 보호
• 시험 및 인증
데이터
분석기술
• 빅데이터 기술
• 질병 데이터 분석 기술
• 생활건강정보 분석 기술
Data • 질병정보
• DNA 정보
• 치료이력 정보
• 진료환경 정보
• 임상 실험정보
Device • 질병 진단 기기
진료서비스 • 질병 정보와 PHR을 바탕으
로 효과적이고 개인화된 질병
진단
치료서비스 • PHR의 변화를 기반으로 한
장기적, 단기적 치료서비스
제공
예방서비스 • 데이터에 기반한 질병확률
중심의 예방 서비스 제공
임상실험 • 신약 개발 및 치료제 개발
대상 데이터 서비스
※ 참고 : TTA Journal, 2013.01

사례. 국내. 해외사례
20 | 00
수행기관 프로젝트 명 주요 내용
해외 미국 국립보건원 유전자 데이터 공유를 통한 질
병치료체계 마련
75개기업과 제휴하여, 200TB의 유전자정보 수집,일반에
공개. 유전자 비교분석 서비스 제공, DNA 이상에 따른
질병 사전예측 및 대응
미국 국립보건원 Pillbox 프로젝트를 통한 의료
개혁
약검색 서비스를 통해 지역별 질병통계 분석
이 정보를 기반으로 보건정책 수립 대응
미국 퇴역군인국 미국 퇴역군인 전자의료기록
분석을 통한 맞춤형 의료서비
스 지원
2년간 25개 DW 구축, 전자의료기록(EHR) DB구축
의료서비스에 제공
캐나다 온타리오
공과대 병원
미숙아 모니터링을 통한 감염
예방 및 예측
미숙아 1명이 일9,000만건 데이터 생성
(바이털 사인을 초당 1,000번 수집)
이상징후를 통해 6~24시간 먼저 감염 확인
건강보험회사
웰포인트
슈퍼컴퓨터를 활용한 효율적
환자치료
환자 증상, 면담기록등 모든 내역을 저장, 환자치료 가이
드라인 제시 기능. 2억 페이지 검색을 3초 내 실시
구글 검색어 분석을 통한 독감예보
서비스 제공
검색어 쿼리를 조사하여, 지역별 독감동향을 신속히 감
지함.
국내 한국인체자원은행
네트워크
정보공유로 생명공학 분야 경
쟁력 제고
전국 16개 병원에서 36만명 인체 정보 획득. 특정질환별
로 연구자들에게 무료 제공
DNA Link 유전자 분석시스템으로 맞춤형
건강검진 서비스 제공
4만명 이상 질병관련 분석을 하여 국내 최대 한국인 유
전체 DB 구축
1 TB 이상 DB 구축, 기하급수적으로 늘어나는 DNA 데
이터 저장 분석 가능
연세대학교
의료원
후(HooH) 헬스케어시스템 전자진료기록부, 의료영상 전송 등에 대한 전산시스템을
클라우드 기반으로 이전
빅데이터 인프라를 적용하여 방대한 데이터 축적

국내 주요 데이터 보유현황
21 | 00
기관 자료명 조사주기 조사대상 표본 수
질병관리본부
국민건강영양조사 매년 1회 가구표본
192개 조사구, 약 3,840가구의
만 1세 이상 가구원 약 11,520
명
지역사회건강조사 매년 1회 가구표본 전국 227,700명 해당
청소년건강행태
온라인조사
매년 1회 학교표본
중·고등학생 약 8만명(중학교
400개교, 고등학교 400개교)
퇴원손상심층조사 매년 1회 100병상이상병원표본
국민건강보험공단
건강검진통계 매년 1회 건강검진 대상자
대상자 : 15,249,528명
수검자 : 11,070,569명
(2011년일반건강검진 기준)
건강보험주요수술
통계
매년 1회 건강보험및의료급여가입자 전 수
건강보험통계 매년 1회 건강보험 적용인구 전 수
건강보험환자진료
비실태조사
매년 1회 요양기관표본 850개 요양기관
노인장기요양보험
통계
매년 1회 개인 전 수
지역별의료이용
통계
매년 1회 건강보험 적용인구 전 수
한국보건사회
연구원
전국출산력및
보건복지실태조사
매 3년 가구표본 약 16,380가구
장애인실태조사 매 3년 가구표본
1,000개 조사구 (가구: 41,000
가구, 시설: 736개 전 수)
한국복지패널조사 매년 1회 가구표본 7,072가구
한국의료패널조사 매년 1회 가구표본 약 8,000가구
환자조사 매년 1회 의료기관표본 57,133개 의료기관
영아모성사망조사 매 2년 전 수 전 수
노인실태조사 매 3년
(전국)가구표본
(63세이상노인)
3,086개 조사구 약 15,000명
한국고용정보원
고령화연구패널
조사
매 2년 가구표본 1,000개 조사구
기관 자료명 조사주기 조사대상 표본 수
국민연금공단 국민노후보장패널조사 매 2년
만 50세 이상
중고령자가 있는
가구표본
5,110가구 (8,689명)
통계청
사망원인통계 매년 9월 사망자
사회조사 매년 1회 가구표본
17,664가구의 만 13세
이상 가구원
보건복지부
국민구강건강
실태조사
매 3년 학교표본
초등학교(1학년, 3학년과 5학
년):6,000명
중학교: 6,000명
고등학교: 6,000명
특수학교: 300명
한국
노동연구원
한국노동패널조사 매년 1회 가구표본
1차 표본 : 5000가구
2차 표본 : 1500가구
국립암센터 암등록통계 매년 1회
새롭게 발생한
암환자
국립중앙
의료원
응급의료현황통계 매년 1회
전국응급실이용자
및응급의료자원
전 수
국세청 국세통계 매년 1회 전 수 전 수
※ 출처 : 건강보험심사평가원

빅데이터의 이해

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to 빅데이터의 이해

Similar to 빅데이터의 이해 (20)

More from 수보 김

More from 수보 김 (18)

빅데이터의 이해