빅데이터의 활용
빅데이터
• 시장조사기관 IDC에 따르면 지난해 전 세계에서 인
  터넷을 이용해 만들어진 정보의 양은 총 1.8제타바
  이트에 이른다고 한다.

• 1제타바이트의 정보양은 1조 기가바이트(GB)와 같
  다. 1.8제타바이트는 1조8,000억기가바이트로, 이
  는 우리나라 모든 사람(약 4875만 명, 2010년 기준)
  이 무려 18만 년 동안 쉬지 않고 1분마다 트위터에
  3개의 글을 게시하는 양과 맞먹는다.

• 2시간짜리 HD 영화 2천억 개와 맞먹는다고 하니
  실로 엄청난 양의 정보인 셈이다.
빅데이터의 미래
• 지금 IT업계는 이 빅데이터를 어떻게 분석·
  활용하느냐에 골몰하고 있다. 빅데이터 경
  쟁력이 기업은 물론 국가의 경쟁력마저 좌
  우할 것이란 전망이 지배적이다
현시
미국의 헬스케어 빅데이터
• 세계적 컨설팅사인 매킨지가 2010년 분석한
  자료에 따르면 미국의 의료산업은 빅데이터를
  이용할 경우 직간접적 비용 개선 효과가 약
  3300억 달러에 이를 것으로 전망했다.
• 3월 말 백악관에서 개최된 빅데이터 서밋(Big
  Data Submit) 행사에서 오바마 행정부는 보건
  IT를 포함한 다양한 산업의 빅데이터 지원 정
  책에 대해 2억 달러를 투자한다는 계획을 발
  표.
• 이미 오바마 정부는 '헬스 2.0' 정책의 일환으
  로 '필박스(Pillbox) 프로젝트'를 추진 중이다.
왜
• 미국의 의료산업은 효과적인 빅데이터 활용을 통해
  연간 약 3,300억 달러의 직간접적인 비용 개선 효과
  를 달성할 수 있을 것으로 평가
• OECD국가의 1인당 평균 GDP와 평균 의료비용 지
  출을 비교해보면, 미국은 GDP수준에 비해 의료비
  용 지출이 높게 나타나 있으며, 이는 국민 전체의
  건강 지수를 악화시키는 요인
• 이러한 배경에서 미국은 과감한 빅데이터 지원 정
  책을 통해 질병을 미리 예방하고, 새로운 치료방법
  을 발견함으로써 국가 전체적으로 의료 비용을 낮
  추면서 치료효과를 높일 수 있는 방안을 마련하고
  자 하는 것.
한국 의료시장의 빅데이터
• 한편 건보공단도 빅데이터 활용에 관심을 갖고 있
  다.

• 공단은 지난달 28일 데이터베이스(DB) 전문가 포
  럼 회원과 DB 전문가가 참석한 가운데 'DB 역량 강
  화 세미나'를 개최했다.

• 건보공단 이순근 정보관리실 과장은 이 세미나에서
  "의료를 강조하는 미국 오바마 정부는 건강, 의료
  빅데이터 분석 및 활용을 통해 350조원의 효과를
  예상하고 있다"고 소개하며 DB 역량 강화의 필요성
  을 강조했다.
적용사례
• 의료기술
 – 유전자 프로젝트
   • 1700명 이상의 인간 DNA 염기서열 분석 자료 약 200TB
   • 누구나 접근, 열람, 활용 가능.
 – 당뇨
   • 잦은 혈당 측정(1명당 1년에 10만 건 이상)
 – 고혈압, 고지혈증, 심장질환 환자
   • 혈압, 심박수의 지속적 측정과 분석
 – 가상 부검
   • CT 촬영 데이터가 방대(부분만 활용 => 전체 활용 가능)
 – EHR
   • 전자의무기록(EHR) 도입은 여전히 미국 의료 기관들에게 당분간 최우선
     순위 IT프로젝트다. 하지만 EHR 시스템의 강력한 데이터 분석이 요구된
     다. 이를 위해서 필요한 것은 BI, ERP, 재무회계 애플리케이션이 아닌 빅
     데이터 분석이며 가트너는 빅 데이터가 중장기 의료 IT투자를 주도할 것
     으로 전망했다.(Hype Cycle for Healthcare Provider Applications and
     Systems)
적용사례2
• 기타
 – 상호 연관관계가 불분명했던 팩트들의 인과관계를
   규명
 – 예측
 – 질병, 사고 예방
• Ex) 졸음 운전과 자동차 사고를 유발할 수 있
  는 잘못된 수면 패턴에 관한 정보를 제공해주
  는 웹사이트 ‘노 슬립 킬(No Sleep Kills)’
 – 수면 중 일시적으로 호흡이 멈추는 수면 무호흡증
   (sleep apnea)과 자동차 사고 사이의 상관 관계를
   분석하여 제시
현재 서비스중
• 구글이 지난 2008년 11월 선보인 '독감동향
  (flu trends)' 서비스
 – 특정 지역에서 발열이나 기침 등에 대한 검색
   이 늘어나면 지도상에서 해당 지역의 독감 유
   행 수준 등급이 올라가는 방식
   • 질병통제예방센터(CDC)보다 2주 먼저 예측
 – Ex)식웨더(Sickweather)
미국에서 시도중
• 질병 자체에 대한 데이터와 함께 환자의 생
  활방식과 행동 습관 등 질병에 영향을 미치
  는 다양한 요인들의 분석 결과를 의료에 반
  영하려는 시도
미국 헬스케어 빅데이터의 어려움

       제약 R&D 데이터                                임상/병상 데이터

       - 소유자 : 제약회사, 학계                         - 소유자 : 의료기관
       - 데이터 사례 : 임상실험,                  -   데이터 사례 : 전자의료기록,
       고속대량스크리닝(HTS)                                   의료이미지
                          거대한 사업 기회를
       라이브러리              위해서는 데이터 풀의
                            통합이 필요

                                             환자 행동 및 감정 데이터
   사고, 보험, 비용 데이터
                                   -    소유자 : 소비자 및 헬스케어 외부
                                        의 이해관계자(소매, 의류 등) 다수
   -    소유자 : 보험회사, 의료기관
                                   -    데이터 사례 : 환자 행동과 선호도,
   -    데이터 사례 : 요양기관, 비용 추정
                                         소매 구매 이력, 운동화에 기록된
                                                     운동 데이터



현재 미국 헬스케어 산업에는 상호 구분되는 4개의 빅데이터 풀이 존재하나, 이
        들 소유자가 모두 다르며 거의 통합되지 않고 있음
빅데이터를 활용한
자살 요인 다변량 분석
심평원 빅데이터
• 심평원 '빅데이터' 학자·제약 등에 '맞춤형' 원격 제공
  – 내년 통계분석 시스템 구축…2015년 '통계마트'형 포털 목표
    • 우리나라 건강보험의 '빅데이터'를 보유한 심사평가원이 이를 학계와 제
      약산업, 공중보건 정책에 적극 활용할 수 있도록 시스템을 전면 개편한다.
    • 방대한 자료를 보유하고 있음에도 개인정보보호 문제와 인력난을 이유로
      정보공개를 폐쇄적이고 소극적으로 해왔던 그간의 정책을 완전히 바꿔,
      맞춤형 원격 제공을 목표로 순차적으로 시스템 구축에 나설 계획이다.
    • 이번 계획은 지난달 심평원 미래전략위원회 정책개발분과가 발표한 향
      후 계획의 일환으로, 전국민이 가입된 건강보험 자료를 다각적으로 산출,
      타 기관 자료와도 연계해 학계와 산업 전반에 시너지 효과를 내는 것이
      근본목적이다.
    • 개인정보 반출을 막고 연구자의 연구 공간에서 직접 자료를 받을 수 있도
      록 통계 DB 서버를 별도로 구축하고 '통계마트'에서 원하는 변수로 자유
      롭게 지표를 산출해주는 통계 포털도 새롭게 구축할 계획이다.
건보공단의 빅데이터 도입
• 건보공단, 340만 건강정보 담긴 빅데이터 구축
  – 국민건강보험공단은 우리나라 국민 340만명 이상의 진료내역·검진결과·
    거주지·보험료 등 건강정보를 데이터베이스로 구축해 연구용으로 제공한
    다고 밝혔다.
  – 이번에 완성된 DB는 성별·연령별·소득분위별 표준화를 거친 약 100만명
    의 건강정보 표본 DB(2002~2010년), 5차례 이상 건강검진을 받은 240만
    명의 검진결과 DB(2001~2010년), 크론병 등 희귀질환자 DB 등 세 가지
    다.
  – 앞서 공단은 연구용역을 통해 약 100만명의 모집단을 구성한 뒤, 2002년
    부터 2010년까지 이들의 건강상태와 발병·의료이용·사망 등을 포괄하는
    9개년 표본 자료를 구성했다.
  – 이 자료를 활용할 경우 대단위 국민 표본의 건강실태를 파악하는 것은 물
    론, 시간대별로 달라지는 건강상태를 추적 관찰하는 것도 가능하다.
  – 건보공단은 해당 DB를 앞으로 관련 학회와 함께 검증한 뒤 연구 등에 활
    용할 수 있도록 공개할 방침이다.
  – 우선 약 100만명의 표본 DB가 검증절차를 거친 뒤 공익연구목적에 한해
    제공될 예정이며, 건강검진 DB도 단계적으로 제공이 검토된다.
병원의 빅데이터 도입
• 분당서울대병원은 현행 DW의 문제점을 개선하기 위해
  서 빅 데이터 도입을 결정했다. 이 병원이 보유한 진료
  기록은 현재 60TB 규모로, 현행 시스템으로는 처리 속
  도가 더디다. 병원은 빅데이터 분석을 통해 시간 단축
  및 자연어처리 기능을 강화할 수 있을 것으로 기대하고
  있다. 실제 병원이 빅데이터 도입을 위해 총 8개 업체를
  대상으로 PoC(기술검증)를 진행한 결과 기존 DW 시스
  템에서 10분 이상 걸리던 작업이 10∼20초 내로, 100배
  이상 빨라졌다.
  – 한편, 분당서울대병원은 지난 2003년 종이ㆍ차트ㆍ필름ㆍ
    슬립이 없는 4리스(Less) 병원을 국내에 처음 도입한 이후
    IT를 적극적으로 도입해 왔다. 이에 2010년 미국보건의료정
    보관리 및 시스템학회 애널리틱스에서 부여하는 의료정보
    화 단계 중 최고 수준인 7단계 레벨을 획득한 바 있다.
한국 의료시장 빅데이터 움직임
• 국내 의과학지식정보를 체계적으로 관리해
  신지식으로 창출할 수 있도록 지원하는 국
  립의과학지식센터가 내년 8월 완공된다.
 – 보건의료R&D, 의과학분야 '빅데이터'
한국 의료시장 빅데이터 움직임2
•   내달 7일까지 보건의료연구개발사업 기획과제 공모
•   복지부, 보건의료분야 미래기술예측조사 등 10개



•   보건복지부는 2013년도 제1차 보건의료연구개발사업 기획과제를 내달 7일
    까지 공모한다.

•   보건의료 R&D 포탈 표준과제관리시스템 전산사항 입력과 연구계획서 업로
    드는 내달 7일 오후 6시까지다. 연구계획서 10부와 공무도 같은 날 같은 시간
    까지 제출해야 한다.

•   과제는 보건의료분야 미래기술예측조사, 보건의료 빅데이터 R&D 사업 기획
    연구, 신의료기술평가 효율화를 위한 R&D 기획연구 등 10개 과제다.

•   기타 자세한 사항은 복지부 홈페이지, 보건의료 R&D 포탈 표준과제관리시스
    템 등을 참고하면 된다.
주의 & 앞으로의 과제
• 건강 및 의료 관련 데이터들은 매우 민감하
  고 위험하여 보호가 필요하지만
• 매우 유용하며, 더 많은 데이터를 분석 할
  수록 실험과 테스트에서 시간과 자원을 보
  다 덜 소모 할 수 있다.
•  새로운 질병 발견, 새로운 치료법 발견
Reference
• 빅데이터 활용범위를 넓혀가는 헬스케어 IT
  – http://www.kipa.or.kr/know/periodicalView.it?code
    =B_ITA_01&identifier=02-001-120612-
    000020&menuNo=28
• 빅데이터(BIG DATA)로 보는 세상!!
  – http://blog.naver.com/cheryperfume/14017829576
    9
• News
  – http://m.nocutnews.co.kr/view.aspx?news=23820
    75

Big data2

  • 1.
  • 2.
    빅데이터 • 시장조사기관 IDC에따르면 지난해 전 세계에서 인 터넷을 이용해 만들어진 정보의 양은 총 1.8제타바 이트에 이른다고 한다. • 1제타바이트의 정보양은 1조 기가바이트(GB)와 같 다. 1.8제타바이트는 1조8,000억기가바이트로, 이 는 우리나라 모든 사람(약 4875만 명, 2010년 기준) 이 무려 18만 년 동안 쉬지 않고 1분마다 트위터에 3개의 글을 게시하는 양과 맞먹는다. • 2시간짜리 HD 영화 2천억 개와 맞먹는다고 하니 실로 엄청난 양의 정보인 셈이다.
  • 3.
    빅데이터의 미래 • 지금IT업계는 이 빅데이터를 어떻게 분석· 활용하느냐에 골몰하고 있다. 빅데이터 경 쟁력이 기업은 물론 국가의 경쟁력마저 좌 우할 것이란 전망이 지배적이다
  • 4.
  • 5.
    미국의 헬스케어 빅데이터 •세계적 컨설팅사인 매킨지가 2010년 분석한 자료에 따르면 미국의 의료산업은 빅데이터를 이용할 경우 직간접적 비용 개선 효과가 약 3300억 달러에 이를 것으로 전망했다. • 3월 말 백악관에서 개최된 빅데이터 서밋(Big Data Submit) 행사에서 오바마 행정부는 보건 IT를 포함한 다양한 산업의 빅데이터 지원 정 책에 대해 2억 달러를 투자한다는 계획을 발 표. • 이미 오바마 정부는 '헬스 2.0' 정책의 일환으 로 '필박스(Pillbox) 프로젝트'를 추진 중이다.
  • 6.
    왜 • 미국의 의료산업은효과적인 빅데이터 활용을 통해 연간 약 3,300억 달러의 직간접적인 비용 개선 효과 를 달성할 수 있을 것으로 평가 • OECD국가의 1인당 평균 GDP와 평균 의료비용 지 출을 비교해보면, 미국은 GDP수준에 비해 의료비 용 지출이 높게 나타나 있으며, 이는 국민 전체의 건강 지수를 악화시키는 요인 • 이러한 배경에서 미국은 과감한 빅데이터 지원 정 책을 통해 질병을 미리 예방하고, 새로운 치료방법 을 발견함으로써 국가 전체적으로 의료 비용을 낮 추면서 치료효과를 높일 수 있는 방안을 마련하고 자 하는 것.
  • 8.
    한국 의료시장의 빅데이터 •한편 건보공단도 빅데이터 활용에 관심을 갖고 있 다. • 공단은 지난달 28일 데이터베이스(DB) 전문가 포 럼 회원과 DB 전문가가 참석한 가운데 'DB 역량 강 화 세미나'를 개최했다. • 건보공단 이순근 정보관리실 과장은 이 세미나에서 "의료를 강조하는 미국 오바마 정부는 건강, 의료 빅데이터 분석 및 활용을 통해 350조원의 효과를 예상하고 있다"고 소개하며 DB 역량 강화의 필요성 을 강조했다.
  • 9.
    적용사례 • 의료기술 –유전자 프로젝트 • 1700명 이상의 인간 DNA 염기서열 분석 자료 약 200TB • 누구나 접근, 열람, 활용 가능. – 당뇨 • 잦은 혈당 측정(1명당 1년에 10만 건 이상) – 고혈압, 고지혈증, 심장질환 환자 • 혈압, 심박수의 지속적 측정과 분석 – 가상 부검 • CT 촬영 데이터가 방대(부분만 활용 => 전체 활용 가능) – EHR • 전자의무기록(EHR) 도입은 여전히 미국 의료 기관들에게 당분간 최우선 순위 IT프로젝트다. 하지만 EHR 시스템의 강력한 데이터 분석이 요구된 다. 이를 위해서 필요한 것은 BI, ERP, 재무회계 애플리케이션이 아닌 빅 데이터 분석이며 가트너는 빅 데이터가 중장기 의료 IT투자를 주도할 것 으로 전망했다.(Hype Cycle for Healthcare Provider Applications and Systems)
  • 10.
    적용사례2 • 기타 –상호 연관관계가 불분명했던 팩트들의 인과관계를 규명 – 예측 – 질병, 사고 예방 • Ex) 졸음 운전과 자동차 사고를 유발할 수 있 는 잘못된 수면 패턴에 관한 정보를 제공해주 는 웹사이트 ‘노 슬립 킬(No Sleep Kills)’ – 수면 중 일시적으로 호흡이 멈추는 수면 무호흡증 (sleep apnea)과 자동차 사고 사이의 상관 관계를 분석하여 제시
  • 11.
    현재 서비스중 • 구글이지난 2008년 11월 선보인 '독감동향 (flu trends)' 서비스 – 특정 지역에서 발열이나 기침 등에 대한 검색 이 늘어나면 지도상에서 해당 지역의 독감 유 행 수준 등급이 올라가는 방식 • 질병통제예방센터(CDC)보다 2주 먼저 예측 – Ex)식웨더(Sickweather)
  • 12.
    미국에서 시도중 • 질병자체에 대한 데이터와 함께 환자의 생 활방식과 행동 습관 등 질병에 영향을 미치 는 다양한 요인들의 분석 결과를 의료에 반 영하려는 시도
  • 13.
    미국 헬스케어 빅데이터의어려움 제약 R&D 데이터 임상/병상 데이터 - 소유자 : 제약회사, 학계 - 소유자 : 의료기관 - 데이터 사례 : 임상실험, - 데이터 사례 : 전자의료기록, 고속대량스크리닝(HTS) 의료이미지 거대한 사업 기회를 라이브러리 위해서는 데이터 풀의 통합이 필요 환자 행동 및 감정 데이터 사고, 보험, 비용 데이터 - 소유자 : 소비자 및 헬스케어 외부 의 이해관계자(소매, 의류 등) 다수 - 소유자 : 보험회사, 의료기관 - 데이터 사례 : 환자 행동과 선호도, - 데이터 사례 : 요양기관, 비용 추정 소매 구매 이력, 운동화에 기록된 운동 데이터 현재 미국 헬스케어 산업에는 상호 구분되는 4개의 빅데이터 풀이 존재하나, 이 들 소유자가 모두 다르며 거의 통합되지 않고 있음
  • 14.
  • 15.
    심평원 빅데이터 • 심평원'빅데이터' 학자·제약 등에 '맞춤형' 원격 제공 – 내년 통계분석 시스템 구축…2015년 '통계마트'형 포털 목표 • 우리나라 건강보험의 '빅데이터'를 보유한 심사평가원이 이를 학계와 제 약산업, 공중보건 정책에 적극 활용할 수 있도록 시스템을 전면 개편한다. • 방대한 자료를 보유하고 있음에도 개인정보보호 문제와 인력난을 이유로 정보공개를 폐쇄적이고 소극적으로 해왔던 그간의 정책을 완전히 바꿔, 맞춤형 원격 제공을 목표로 순차적으로 시스템 구축에 나설 계획이다. • 이번 계획은 지난달 심평원 미래전략위원회 정책개발분과가 발표한 향 후 계획의 일환으로, 전국민이 가입된 건강보험 자료를 다각적으로 산출, 타 기관 자료와도 연계해 학계와 산업 전반에 시너지 효과를 내는 것이 근본목적이다. • 개인정보 반출을 막고 연구자의 연구 공간에서 직접 자료를 받을 수 있도 록 통계 DB 서버를 별도로 구축하고 '통계마트'에서 원하는 변수로 자유 롭게 지표를 산출해주는 통계 포털도 새롭게 구축할 계획이다.
  • 16.
    건보공단의 빅데이터 도입 •건보공단, 340만 건강정보 담긴 빅데이터 구축 – 국민건강보험공단은 우리나라 국민 340만명 이상의 진료내역·검진결과· 거주지·보험료 등 건강정보를 데이터베이스로 구축해 연구용으로 제공한 다고 밝혔다. – 이번에 완성된 DB는 성별·연령별·소득분위별 표준화를 거친 약 100만명 의 건강정보 표본 DB(2002~2010년), 5차례 이상 건강검진을 받은 240만 명의 검진결과 DB(2001~2010년), 크론병 등 희귀질환자 DB 등 세 가지 다. – 앞서 공단은 연구용역을 통해 약 100만명의 모집단을 구성한 뒤, 2002년 부터 2010년까지 이들의 건강상태와 발병·의료이용·사망 등을 포괄하는 9개년 표본 자료를 구성했다. – 이 자료를 활용할 경우 대단위 국민 표본의 건강실태를 파악하는 것은 물 론, 시간대별로 달라지는 건강상태를 추적 관찰하는 것도 가능하다. – 건보공단은 해당 DB를 앞으로 관련 학회와 함께 검증한 뒤 연구 등에 활 용할 수 있도록 공개할 방침이다. – 우선 약 100만명의 표본 DB가 검증절차를 거친 뒤 공익연구목적에 한해 제공될 예정이며, 건강검진 DB도 단계적으로 제공이 검토된다.
  • 17.
    병원의 빅데이터 도입 •분당서울대병원은 현행 DW의 문제점을 개선하기 위해 서 빅 데이터 도입을 결정했다. 이 병원이 보유한 진료 기록은 현재 60TB 규모로, 현행 시스템으로는 처리 속 도가 더디다. 병원은 빅데이터 분석을 통해 시간 단축 및 자연어처리 기능을 강화할 수 있을 것으로 기대하고 있다. 실제 병원이 빅데이터 도입을 위해 총 8개 업체를 대상으로 PoC(기술검증)를 진행한 결과 기존 DW 시스 템에서 10분 이상 걸리던 작업이 10∼20초 내로, 100배 이상 빨라졌다. – 한편, 분당서울대병원은 지난 2003년 종이ㆍ차트ㆍ필름ㆍ 슬립이 없는 4리스(Less) 병원을 국내에 처음 도입한 이후 IT를 적극적으로 도입해 왔다. 이에 2010년 미국보건의료정 보관리 및 시스템학회 애널리틱스에서 부여하는 의료정보 화 단계 중 최고 수준인 7단계 레벨을 획득한 바 있다.
  • 18.
    한국 의료시장 빅데이터움직임 • 국내 의과학지식정보를 체계적으로 관리해 신지식으로 창출할 수 있도록 지원하는 국 립의과학지식센터가 내년 8월 완공된다. – 보건의료R&D, 의과학분야 '빅데이터'
  • 19.
    한국 의료시장 빅데이터움직임2 • 내달 7일까지 보건의료연구개발사업 기획과제 공모 • 복지부, 보건의료분야 미래기술예측조사 등 10개 • 보건복지부는 2013년도 제1차 보건의료연구개발사업 기획과제를 내달 7일 까지 공모한다. • 보건의료 R&D 포탈 표준과제관리시스템 전산사항 입력과 연구계획서 업로 드는 내달 7일 오후 6시까지다. 연구계획서 10부와 공무도 같은 날 같은 시간 까지 제출해야 한다. • 과제는 보건의료분야 미래기술예측조사, 보건의료 빅데이터 R&D 사업 기획 연구, 신의료기술평가 효율화를 위한 R&D 기획연구 등 10개 과제다. • 기타 자세한 사항은 복지부 홈페이지, 보건의료 R&D 포탈 표준과제관리시스 템 등을 참고하면 된다.
  • 20.
    주의 & 앞으로의과제 • 건강 및 의료 관련 데이터들은 매우 민감하 고 위험하여 보호가 필요하지만 • 매우 유용하며, 더 많은 데이터를 분석 할 수록 실험과 테스트에서 시간과 자원을 보 다 덜 소모 할 수 있다. •  새로운 질병 발견, 새로운 치료법 발견
  • 22.
    Reference • 빅데이터 활용범위를넓혀가는 헬스케어 IT – http://www.kipa.or.kr/know/periodicalView.it?code =B_ITA_01&identifier=02-001-120612- 000020&menuNo=28 • 빅데이터(BIG DATA)로 보는 세상!! – http://blog.naver.com/cheryperfume/14017829576 9 • News – http://m.nocutnews.co.kr/view.aspx?news=23820 75