빅데이터의 이해
2013.09
알앤비소프트, 빅데이터 연구소 소장
김수보 (kimsubo@gmail.com)
목차
2 | 00
빅데이터란 무엇인가?
시장이야기
3 | 00
빅데이터란 무엇인가?
Big Traffic
4 | 00
일 10억건 발송
즉, 초당 11,574건 메시지
일 12억 페이지뷰
일 1.3억 건 검색
일 26억 건 검색 (글로벌)
Big Data
5 | 00
행정 DB 공유 건수 10억건
Google Big Data
6 | 00
• Hadoop은 검색소스를 모아두기 위한 용도로 개발되어, Gmail 에 가장 크게 사용되었습니다.
1인당 15GB * 2.7 억명 („12.12)
= 4.05 Exa Byte...
Hadoop
7 | 00
2008. 130년어치
(1,100만 페이지)
pdf 변환
200만원
14년
하둡은
x86서버
기반의
대용량
파일저장
시스템
정의
8 | 00
• 2010년 IBM이 최초 정의, 전 세계 데이터 중 90%가 지난 3년 이내에 생성
Volume
 전수 데이터를 조사할 수 있게 되다.
 데이터가 누적될수록 정확해지다. (도로정체이력)
 데이...
필요로 하는 곳
9 | 00
 경찰청 : 범죄자 프로파일 (DNA 정보)
 인구통계: 인구 이동 및 출생,사망 정보
 이통사 : 통화이력 정보
 금융 : 거래 이력 정보
전수 데이터 필수
누적 데이터가 중요
 ...
빅데이터 처리의 4단계
10 | 00
Big Data Solution 은 기본적으로 아래와 같은 4단계로 이루어집니다.
일반적인 CRM의 수집 분석 흐름과 대동소이 합니다.
( Big Data Solution 의 기능 ...
얼마나 빨라지나?
11 | 00
CPU Core
수를 높임 
병렬처리
Disk 는
병렬로 일하지
않는다.
Data 전송은
병렬로 일하지
않는다.
추가증설
컨트롤러
CPU, Disk가
병렬로 일한다.
 1대 추가,
약...
얼마나 저장할 수 있나?
12 | 00
• 페이스북 일 250 Terra Bytes 이상 데이터 처리, 25억개의 컨텐츠 공유
Google Server – Linux, 2 Disk
Google Data Center
- ...
어떻게 조사할 수 있나?
13 | 00
• 시각화 도구는 패턴을 가장 잘 인지해낼 수 있는 도구 (빅데이터 분석에 효과적)
트렌드 분석 긍부정 분석
Word CloudSocial Graph
성공전략 3요소
14 | 00
Data • 어떤 데이터를 모을 것인가?
• 데이터를 어떻게 저장해둘 것인가?
Data Scientist
• Domain Knowledge +
통계적 지식 +
냉철한 분석능력
Platfor...
데이터 분석가
15 | 00
여행가형
• 무작위로 많은 데이터를 조사함
• 같은 데이터를 두 번 찾지 않음
• 요구사항이 무엇인지 알지 못함
• 메타 데이터를 많이 사용
• 정기적으로 데이터를 모니터링
• 정기적으로 대...
어려운 점은 무엇인가?
16 | 00
플랫폼 기술이 초기
데이터 사이언티스트의 부족
학문보다 기술 리딩의 한계
• 대부분 Google 의 Hadoop 기반 기술을 사용, Hadoop은 현재 버전 0.2
• Open So...
17 | 00
시장 이야기
민간시장은 기술적 접근단계
18 | 00
삼성
빅데이터
SKT
빅데이터
kth
빅데이터
NHN
빅데이터
• 검색질의 일 2,000만건
• 문서 일 130억건
• 검색로그 3TB/일
• 2008 ~
엔씨소프트
빅데이터
•...
U-Health 시장흐름
19 | 00
고령화 사회의 도래와 더불어 세계적으로, 1) 헬스케어 네트워크 구축, 2) 스마트 단말기의 활성화 3)
빅데이터 기술의 발달(DNA 정보 축적) 4) PHR(Personal He...
사례. 국내. 해외사례
20 | 00
수행기관 프로젝트 명 주요 내용
해외 미국 국립보건원 유전자 데이터 공유를 통한 질
병치료체계 마련
75개기업과 제휴하여, 200TB의 유전자정보 수집,일반에
공개. 유전자 비교분석...
국내 주요 데이터 보유현황
21 | 00
기관 자료명 조사주기 조사대상 표본 수
질병관리본부
국민건강영양조사 매년 1회 가구표본
192개 조사구, 약 3,840가구의
만 1세 이상 가구원 약 11,520
명
지역사회건강...
22 | 00
감사합니다.
Upcoming SlideShare
Loading in …5
×

빅데이터의 이해

21,504 views

Published on

대형 병원의 교양 세미나에서 발표한 자료입니다.
이미 기술 지식은 충분하셨고 사례를 많이 궁금해 하셨습니다. 그래서 제 경험을 통해 얻었던 인사이트를 많이 나누었습니다. 하지만 의료현장은 플랫폼이나 기술보다는 의료기기로 접근하지 않으면 사용되기 힘들다는 생각이 들었습니다.

Published in: Health & Medicine

빅데이터의 이해

  1. 1. 빅데이터의 이해 2013.09 알앤비소프트, 빅데이터 연구소 소장 김수보 (kimsubo@gmail.com)
  2. 2. 목차 2 | 00 빅데이터란 무엇인가? 시장이야기
  3. 3. 3 | 00 빅데이터란 무엇인가?
  4. 4. Big Traffic 4 | 00 일 10억건 발송 즉, 초당 11,574건 메시지 일 12억 페이지뷰 일 1.3억 건 검색 일 26억 건 검색 (글로벌)
  5. 5. Big Data 5 | 00 행정 DB 공유 건수 10억건
  6. 6. Google Big Data 6 | 00 • Hadoop은 검색소스를 모아두기 위한 용도로 개발되어, Gmail 에 가장 크게 사용되었습니다. 1인당 15GB * 2.7 억명 („12.12) = 4.05 Exa Bytes = 4,050 Terra Bytes = 4,050,000 Giga Bytes 메일 검색, 분류, 태그
  7. 7. Hadoop 7 | 00 2008. 130년어치 (1,100만 페이지) pdf 변환 200만원 14년 하둡은 x86서버 기반의 대용량 파일저장 시스템
  8. 8. 정의 8 | 00 • 2010년 IBM이 최초 정의, 전 세계 데이터 중 90%가 지난 3년 이내에 생성 Volume  전수 데이터를 조사할 수 있게 되다.  데이터가 누적될수록 정확해지다. (도로정체이력)  데이터를 지우지 않게 되다. (음원) Velocity  전수 데이터 처리가 가능해지게 되다.(인구총조사)  데이터 처리가 빨라지게 되다.(1주일반나절) Variety  주어진 분석틀을 벗어난 탐색형 발굴이 가능하다.  소급분석이 가능해지다. Disk 1TB=6만원 Memory 1GB=1만원 분산병렬처리 기술 발달 통계분석 외 시각화 도구 활성화 빅데이터의 3요소
  9. 9. 필요로 하는 곳 9 | 00  경찰청 : 범죄자 프로파일 (DNA 정보)  인구통계: 인구 이동 및 출생,사망 정보  이통사 : 통화이력 정보  금융 : 거래 이력 정보 전수 데이터 필수 누적 데이터가 중요  경찰청 : 범죄 발생이력 정보  의료정보 : 개인별 진료기록 정보  국토부 : CCTV 감시 이력정보  기상청 : 기상 이력 정보 고가의 대용량 수집비용  지자체 : 실시간 버스 이동 정보 (경기도 1만대)  내비게이션 회사 : 도로 정체 이력 정보 Data Volume Data Volume + Data Velocity
  10. 10. 빅데이터 처리의 4단계 10 | 00 Big Data Solution 은 기본적으로 아래와 같은 4단계로 이루어집니다. 일반적인 CRM의 수집 분석 흐름과 대동소이 합니다. ( Big Data Solution 의 기능 및 처리 흐름과 관리 구조 ) 데이터수집(Aggregation) Reporting Collecting Store Analysis Visualization Collecting Store Analysis Reporting OpenAPI Crawling Data Collector Web, Social Network System log, RDBMS 등 수집 데이터 저장 NoSQL DBMS DBMS Hadoop 등을 이용한 대용량 데이터 저장 Data Query Data Clustering Classification Recommendation Hive, mahout, R 등을 통한 분산/병렬 데이터 실시간 분석 Chart/Grid Data Export/API Monitoring Chart, API 등을 통한 다양한 View 생성 및 제공 Data Scientist Management System Managing 데이터활용(Utilization) 빅데이터 요소기술이 투입됨
  11. 11. 얼마나 빨라지나? 11 | 00 CPU Core 수를 높임  병렬처리 Disk 는 병렬로 일하지 않는다. Data 전송은 병렬로 일하지 않는다. 추가증설 컨트롤러 CPU, Disk가 병렬로 일한다.  1대 추가, 약 1.8 배씩 성능 증가
  12. 12. 얼마나 저장할 수 있나? 12 | 00 • 페이스북 일 250 Terra Bytes 이상 데이터 처리, 25억개의 컨텐츠 공유 Google Server – Linux, 2 Disk Google Data Center - 컨테이너 단위로 증설 저장공간 무제한 증설가능
  13. 13. 어떻게 조사할 수 있나? 13 | 00 • 시각화 도구는 패턴을 가장 잘 인지해낼 수 있는 도구 (빅데이터 분석에 효과적) 트렌드 분석 긍부정 분석 Word CloudSocial Graph
  14. 14. 성공전략 3요소 14 | 00 Data • 어떤 데이터를 모을 것인가? • 데이터를 어떻게 저장해둘 것인가? Data Scientist • Domain Knowledge + 통계적 지식 + 냉철한 분석능력 Platform • 대용량 수집, 저장 기술 • 분석 및 가공처리 기술 • Keyword : „도메인 지식‟을 가진 사람이 „플랫폼‟을 이용해서 데이터로부터 „정보를 발 굴‟해내는 활동을 지속적으로 수행함.
  15. 15. 데이터 분석가 15 | 00 여행가형 • 무작위로 많은 데이터를 조사함 • 같은 데이터를 두 번 찾지 않음 • 요구사항이 무엇인지 알지 못함 • 메타 데이터를 많이 사용 • 정기적으로 데이터를 모니터링 • 정기적으로 대규모 데이터를 상세히 검토 • 산발적으로 데이터를 사용 • 프로파일링 툴에 의존 • 심화 탐구를 위한 영역을 이따금 조사 농부형 • 정기적으로 데이터 접속 • 무엇을 찾고 있는지 인지하고 있음 • 대규모 데이터에 접속 • 데이터에 예측가능한 접속 • 데이터에 접속한 후 예측 가능한 처리 시행 • 데이터 조회 시작 전에 요구사항을 인지하고 있음 • 정기적으로 데이터 마트에 접속 • 거의 현재 시점의 상세 데이터에 접속하지 않음 • 정기적으로 소규모의 황금조각을 발견 • 프레젠테이션 툴을 사용 탐험가형 • 데이터에 비정기적으로 접속 • 무엇을 찾는지 알지 못함 • 대량의 데이터를 조사 • 예측 불가능한 유형의 접근 • 때때로 큰 금덩어리를 발견 • 종종 아무것도 찾지 못함 • 정기적으로 현재 시점의 상세 데이터에 접근 • 데이터 발생보다 데이터 관계성을 검토 • 탐구와 통계적 분석 툴을 사용 광부형 • 통계학자 • 주장에 대한 가설을 바탕으로 수행 • 가설의 타당성을 입증 • 대량의 데이터로 수행 • 반복적으로 발생하는 독립 데이터로 수행 • 공생방식으로 탐험가와 긴밀히 협업 • 종종 새로운 가설과 주장을 발견 • 아주 큰 쿼리를 제출 • 업무에 특화된 툴을 사용
  16. 16. 어려운 점은 무엇인가? 16 | 00 플랫폼 기술이 초기 데이터 사이언티스트의 부족 학문보다 기술 리딩의 한계 • 대부분 Google 의 Hadoop 기반 기술을 사용, Hadoop은 현재 버전 0.2 • Open Source 중심으로 업체 숙련도에 품질 좌우 • CRM 기술 수준 대비 이용 편의성이 낮음 • 빅데이터는 도메인 지식을 가진 전문가의 것 • CRM, DW 와 달리 유의한 데이터 실험이 가능함 • 빅데이터 특성에 맞는 „전문 분석가‟ 별도 양성의 필요가 있음 • 빅데이터 분석 기술에 대한 학문적 연구 부족 • Open Source에는 SAS와 같은 고급 분석 모듈들이 부족함.
  17. 17. 17 | 00 시장 이야기
  18. 18. 민간시장은 기술적 접근단계 18 | 00 삼성 빅데이터 SKT 빅데이터 kth 빅데이터 NHN 빅데이터 • 검색질의 일 2,000만건 • 문서 일 130억건 • 검색로그 3TB/일 • 2008 ~ 엔씨소프트 빅데이터 • 분석로그 일 1TB • 분석대상 1.6 PB • MS-SQL  Hadoop 기반 • 2010 ~ 2013 완성 • 푸딩앱 3,000만 다운로드 • 푸딩투 글로벌 200만 Active 유저 • 올레스마트 TV, 기상청 빅데이터 • 2011 ~ 2013 • 오픈빅데이터, 2013.5.13 • ICT 개방 1조2,000억 투자(3년간) • 2010 ~ • 무선사업부, MSC, VD사업부 • 반도체 사업부 등 글로벌 빅데이터 • Oracle, EMC, IBM 등 솔루션 PoC, ISP 수립 • 2011 ~ 정부3.0 • data.go.kr, 공공정보 연계(’12년 10억 Call) • 12.12 ~ 13.03 빅데이터 BPR/ISP 정책수립 • 13.09 미래부 빅데이터 분석 활용센터 구축 자사 내부서비스 대외 비즈니스용 정부 운영 목적 + 공공 서비스 목적 • 현재는 “빅데이터를 보유한 기업”이 자사 내부서비스 목적으로 오픈소스 기반의 빅데이터 센터 구축함 • 일반기업은 아직 효용성을 고민중이며, 정부가 선도하는 시장이 열리고 있음
  19. 19. U-Health 시장흐름 19 | 00 고령화 사회의 도래와 더불어 세계적으로, 1) 헬스케어 네트워크 구축, 2) 스마트 단말기의 활성화 3) 빅데이터 기술의 발달(DNA 정보 축적) 4) PHR(Personal Health Record)의 확충에 대한 새로운변화 의 흐름이 등장하였습니다. Wellness Market Illness Market Data • 개인 건강이력정보 • 개인 생활이력정보 • 가족기록 정보 Device • 개인 모바일 기기 • 가정용 기기 분석서비스 • Device로부터 획득한 정보, 개인정보를 바탕으로 식이영 양 및 건강운동 정보 제공 처방서비스 • 분석에 따른 영양 불균형 및 건강 불균형에 대해 처방 대상 데이터 서비스 주요 기술 생체정보 모니터링기술 • 생체신호 처리기술 • 의료영상 처리기술 일상생활 모니터링 기술 • 생활센서 처리기술 • 행위정보 분류 • 생활패턴 가시화 U-Health 응용기술 • 임상결정지원기술 • 응용서비스 프로토콜 • 의료정보 보호 • 시험 및 인증 데이터 분석기술 • 빅데이터 기술 • 질병 데이터 분석 기술 • 생활건강정보 분석 기술 Data • 질병정보 • DNA 정보 • 치료이력 정보 • 진료환경 정보 • 임상 실험정보 Device • 질병 진단 기기 진료서비스 • 질병 정보와 PHR을 바탕으 로 효과적이고 개인화된 질병 진단 치료서비스 • PHR의 변화를 기반으로 한 장기적, 단기적 치료서비스 제공 예방서비스 • 데이터에 기반한 질병확률 중심의 예방 서비스 제공 임상실험 • 신약 개발 및 치료제 개발 대상 데이터 서비스 ※ 참고 : TTA Journal, 2013.01
  20. 20. 사례. 국내. 해외사례 20 | 00 수행기관 프로젝트 명 주요 내용 해외 미국 국립보건원 유전자 데이터 공유를 통한 질 병치료체계 마련 75개기업과 제휴하여, 200TB의 유전자정보 수집,일반에 공개. 유전자 비교분석 서비스 제공, DNA 이상에 따른 질병 사전예측 및 대응 미국 국립보건원 Pillbox 프로젝트를 통한 의료 개혁 약검색 서비스를 통해 지역별 질병통계 분석 이 정보를 기반으로 보건정책 수립 대응 미국 퇴역군인국 미국 퇴역군인 전자의료기록 분석을 통한 맞춤형 의료서비 스 지원 2년간 25개 DW 구축, 전자의료기록(EHR) DB구축 의료서비스에 제공 캐나다 온타리오 공과대 병원 미숙아 모니터링을 통한 감염 예방 및 예측 미숙아 1명이 일9,000만건 데이터 생성 (바이털 사인을 초당 1,000번 수집) 이상징후를 통해 6~24시간 먼저 감염 확인 건강보험회사 웰포인트 슈퍼컴퓨터를 활용한 효율적 환자치료 환자 증상, 면담기록등 모든 내역을 저장, 환자치료 가이 드라인 제시 기능. 2억 페이지 검색을 3초 내 실시 구글 검색어 분석을 통한 독감예보 서비스 제공 검색어 쿼리를 조사하여, 지역별 독감동향을 신속히 감 지함. 국내 한국인체자원은행 네트워크 정보공유로 생명공학 분야 경 쟁력 제고 전국 16개 병원에서 36만명 인체 정보 획득. 특정질환별 로 연구자들에게 무료 제공 DNA Link 유전자 분석시스템으로 맞춤형 건강검진 서비스 제공 4만명 이상 질병관련 분석을 하여 국내 최대 한국인 유 전체 DB 구축 1 TB 이상 DB 구축, 기하급수적으로 늘어나는 DNA 데 이터 저장 분석 가능 연세대학교 의료원 후(HooH) 헬스케어시스템 전자진료기록부, 의료영상 전송 등에 대한 전산시스템을 클라우드 기반으로 이전 빅데이터 인프라를 적용하여 방대한 데이터 축적
  21. 21. 국내 주요 데이터 보유현황 21 | 00 기관 자료명 조사주기 조사대상 표본 수 질병관리본부 국민건강영양조사 매년 1회 가구표본 192개 조사구, 약 3,840가구의 만 1세 이상 가구원 약 11,520 명 지역사회건강조사 매년 1회 가구표본 전국 227,700명 해당 청소년건강행태 온라인조사 매년 1회 학교표본 중·고등학생 약 8만명(중학교 400개교, 고등학교 400개교) 퇴원손상심층조사 매년 1회 100병상이상병원표본 국민건강보험공단 건강검진통계 매년 1회 건강검진 대상자 대상자 : 15,249,528명 수검자 : 11,070,569명 (2011년일반건강검진 기준) 건강보험주요수술 통계 매년 1회 건강보험및의료급여가입자 전 수 건강보험통계 매년 1회 건강보험 적용인구 전 수 건강보험환자진료 비실태조사 매년 1회 요양기관표본 850개 요양기관 노인장기요양보험 통계 매년 1회 개인 전 수 지역별의료이용 통계 매년 1회 건강보험 적용인구 전 수 한국보건사회 연구원 전국출산력및 보건복지실태조사 매 3년 가구표본 약 16,380가구 장애인실태조사 매 3년 가구표본 1,000개 조사구 (가구: 41,000 가구, 시설: 736개 전 수) 한국복지패널조사 매년 1회 가구표본 7,072가구 한국의료패널조사 매년 1회 가구표본 약 8,000가구 환자조사 매년 1회 의료기관표본 57,133개 의료기관 영아모성사망조사 매 2년 전 수 전 수 노인실태조사 매 3년 (전국)가구표본 (63세이상노인) 3,086개 조사구 약 15,000명 한국고용정보원 고령화연구패널 조사 매 2년 가구표본 1,000개 조사구 기관 자료명 조사주기 조사대상 표본 수 국민연금공단 국민노후보장패널조사 매 2년 만 50세 이상 중고령자가 있는 가구표본 5,110가구 (8,689명) 통계청 사망원인통계 매년 9월 사망자 사회조사 매년 1회 가구표본 17,664가구의 만 13세 이상 가구원 보건복지부 국민구강건강 실태조사 매 3년 학교표본 초등학교(1학년, 3학년과 5학 년):6,000명 중학교: 6,000명 고등학교: 6,000명 특수학교: 300명 한국 노동연구원 한국노동패널조사 매년 1회 가구표본 1차 표본 : 5000가구 2차 표본 : 1500가구 국립암센터 암등록통계 매년 1회 새롭게 발생한 암환자 국립중앙 의료원 응급의료현황통계 매년 1회 전국응급실이용자 및응급의료자원 전 수 국세청 국세통계 매년 1회 전 수 전 수 ※ 출처 : 건강보험심사평가원
  22. 22. 22 | 00 감사합니다.

×