SlideShare a Scribd company logo
1 of 16
Download to read offline
헬스케어 빅데이터의 가치 1-3
건양대학교 정보의학과 김효진
2020-03-19
한현욱 저서 이것이 헬스케어 빅데이터다
1. 헬스케어 빅데이터에 대한 편견-연구기생충
저자는 분자생물학과 동물실험을 통해 세포신호 경로를 연구하는 실
험실에 참여했다.
같은 연구실에 박사과정 대학원생이 생물학자는 파이펫을 잡고 일해
야 하는데 옆 연구실에서는 컴퓨터 잡고 일을 했다
알아보니 옆 연구실은 단일염기다형성SNP를 연구하고 있었다. 이후
차세대유전체 분석NGS로 업종 전환하는 연구실이었다.
단일염기다형성SNP 연구가 있었기에 유전체학이 꽃을 피웠다고 한
다.
수천 개의 단일염기다형성SNP 프루브가 있는 칩을 이용해 질병이 있
는 사람과 정상인의 단일염기다형성SNP 차이를 통계학으로 분석한
다.
이를 위해 피링크와 같은 프로그램을 이용해 통계적으로 검증한다.
전장유전체 연관분석GWAS이라고 불린다.
1. 헬스케어 빅데이터에 대한 편견-연구기생충
위키피디아가 알려주듯 생물학은 모든 살아있는 생명체를 탐
구하는 학문이다.
동물 관찰학부터 인간이 원숭이과 임을 밝힌 생물분류학에 이
르기까지 넓은 스펙트럼으로 다룬다. 의학도 인간을 대상으로
연구하는 생물학의 한 하위분야이다.
워런 워버가 분자생물학이라고 했다. 분자생물학 방법에 따른
생물학 연구는 물리학자들에 제기된 개념이다.
왓슨과 클릭이 DNA이중나선 구조를 밝혀냄으로써 유전 현상
의 기전을 분자 수준으로 끌어올림으로써 분자생물학이 시작
되었다.
1. 헬스케어 빅데이터에 대한 편견-연구기생충
가장 저명한 임상의학 연구지 중 하나인 “뉴 잉글랜드 저널 오
브 메디슨”에 논란 거리가 된 한 편의 글
하버드 대학의 Jaffrey M Drazen 교수와 Dan L Longo 교수가
쓴 짧은글 “데이터 공유”이다.
이 글에서 빅데이터를 이용한 의학 연구의 문제점을 집중적으
로 이야기하면서
다른 사람이 이미 출판한 데이터를 활용해 연구하는 것은 그것
이 어떻게 수집된 것인지 전혀 알지 못하기 때문에
해석 과정에서 오류를 범할 수 있을 뿐만 아니라 자료를 수집
한 사람의 생산성을 빼앗는 행위라며 깊은 우려를 나타냈다.
이런 데이터를 이용해 연구하는 자들을 일컬어 “연구기생충이
란 말을 썼다.
1. 헬스케어 빅데이터에 대한 편견-연구기생충
이 사설 발표되고 전세계 데이터 과학자가 SNS를 통해
“IamResearchParasite”라고 제프 드레이즌 교수와 댄 론
고 교수에 대한 반감을 표시했다.
연구자료의 공유를 통해 연구의 타당성을 밝히는 것이
의학 연구를 활성화 하는 가장 좋은 방법이라고 의견을
냄.
헬스케어 빅데이터를 이용한 생명과학연구는 새로운 기
술이 등장함에 따라 생명현상을 이해하기 위한 또하나
의 방법으로 등장했을뿐이다.
파이펫이 생명 현상 이해하기 위한 하나의 방법이듯 정
보통신 기술을 이용한 데이터 분석 또한 같은 맥락에서
해석해야 한다.
2. 펍메드로 헬스케어 연구의 민주화를 이루어내다
데이터 과학면에서 펍메드는 대단히 중요한 의미를 가진다.
저널 사이트는 엄밀한 의미에서 출판사의 개념으로 출판된
논문지는 대학이나 연구자들에게 돈을 주고 판매를 한다.
지구상에 존재하는 거의 모든 의학과 생명과학 논문의 초록
을 담고 있으므로 그 양이 많아 데이터 유지보수에 엄청난 예
산이 들어갔다.
의학과 생명과학 분야에서 데이터베이스 작업이 되었다는 점
과 개방형 검색 시스템을 만들었다는점이 놀라운 일이다.
Harold eliot vamus 박사 덕택에 가능해진 일이다. 그는 논문
의 개방형 정책이야 말로 의생명과학 분야 연구의 혁신을 이
룰 가장 강력한 방법이란 신념을 가졌다.
2. 펍메드로 헬스케어 연구의 민주화를 이루어내다
메쉬용어란 미국 국립의학도서관에서 의생명과학 분야 문
헌의 색인, 목록, 검색을 위해 사용하는 통제 어휘를 말한
다.
쉽게 말해 해당 논문이 어떤 질병을 다루는지, 인체 해부
학적으로는 어떤 장기와 관련됐는지, 연구 주제와 관련된
약물은 무엇인지 등에 대해 일목요연하게 정리한 용어의
리스트이다.
메쉬 용어는 개념 간의 상하위 관계에 관한 계층 구조를
취하고 있으며 현재까지 총 16개의 출판 유형을 따르고
있다.
각 범주의 최상위개념을 나타내는 용어는 다음 표와 같다.
2. 펍메드로 헬스케어 연구의 민주화를 이루어내다
메쉬 브라우저를 사용하여 유방암(breast neoplasm)을 검
색한 결과
유방암의 메쉬 번호는 [c04.588.180]이고 바로 상위개념
은 위치별 암(Neoplasms by site)[C04.588]이다.
그리고 다시 상위개념은 암(neoplasm)[C04]이 된다.
유방암의 하위개념들은 상피 내 유방암(Breast Car-
cinoma In Situ)[C04.588.180.130]을 비롯해 8개의 메쉬
용어가 있음을 알 수 있다.
+ 표 부분을 누르면 해당 논문의 메쉬용어를 일목요연하
게 정리해서 보여준다.
메쉬 용어는 펍메드의 기본적인 검색 용어로 사용된다.
3. 생물학적 객체지향 구조와 온톨로지가 중요하다
인간의 신체는 기관으로 나누고 기관은 조직으로 나누며 조직을 다시 세포로 나누고 세포는 분자로 나눈다.
이처럼 구조화가 프로그래밍 방법론 중 객체지향 프로그램oop과 많은 면에서 유사한 것으로 보인다.
객체 지향 프로그램의 의미는 어떠한 구체적인 ‘대상’으로 ‘향하는’의 의미를 가지며 좀더 정확히 말하면 객체
를 선호하는 프로그램 기법을 말한다. 객체 지향의 개념을 설명하기 위해서는 클래스class 오브젝트object 캡
슐화encapulation 상속성inheritance와 다형성polymorphism 과 같은 다섯가지 핵심 키워드가 존재한다.
클래스는 추상화의 개념으로 아직 틀만 존재할 뿐 생명력을 갖지 못한 프로그램을 말하며 오브젝트는 이 클래
스가 컴퓨터 프로그램으로써 생명력을 가질 수 있도록 해주는 클래스의 인스턴스를 말한다.
클래스는 오직 한 개 일지라도 오브젝트는 여러 개 일 수 있다. 가령 ‘고양이’라는 클래스를 만들면 고양이는 ’
척추동물’이면서 ‘항온동물’이고 ‘고양이과’에 속한다. 이것은 고양이가 모든 속성을 대변하기에 충분하다.
이러한 고양이 클래스를 사용하여 우리 집 고양이 ‘나비’를 정의해보면 고양이 클래스가 정의한 모든 고양이
속성을 따르게 된다.
3. 생물학적 객체지향 구조와 온톨로지가 중요하다
캡슐화란 클래스에 정의된 ‘데이터와 데이터를 조작하는 방법’을 의미하며 ‘나비’ 오브젝트는 고양이의 모든
속성을 따르지만 나이가 세 살인 반면 ‘톰’ 오브젝트는 고양이의 모든 속성을 따르지만 나이가 다섯 살로 ‘나
비’와는 다른 나이 변수를 가질 수 있다.
이와 같은 변수를 오브젝트 단에서 변경, 제거 및, 초기화 등을 할 수 있는 조작 명령어를 캡슐화라는 개념으
로 설명한다.
객체 지향 프로그램의 가장 강력한 속성 중의 하나가 바로 ‘상속성’이라는 개념이다. 이는 하나의 클래스가
가진 특징들을 그대로 다른 클래스가 물려받는다는 개념이다. 예로 든 고양이 클래스를 가지고 사자의 클래
스를 만들 수 있다.
사자 또한 ‘척추동물’이면서 ‘항온동물‘이고 ‘고양이과’에 속하니 고양이 클래스를 상속해서 사자 클래스를 아
주 쉽게 만들 수 있을 것이다. 하지만 고양이 클래스와 사자 클래스는 같지만 울음소리가 다르다.
이렇게 같은 클래스에 속하더라도 각 클래스에 서로 다른 부분을 기술해줄 수 있는 것을 ‘다형성’이라는 개념
으로 설명한다.
헬스케어 분야 용어와 관계에 잘 알고 있어야 한다. 이런 용어들의 상하위 관계를 정의한 수많은 온톨로지
Ontology에 대한 개념을 알고 있어야 한다.
4. 헬스케어 빅데이터가 지식체계들을 연결한다
철학에서 환원주의란 복잡하고 높은 단계의 사상이나 개념을 하위 단계의 요소로 세분화해 명확하게 정의
할 수 있다고 주장하는 견해를 말한다. 즉 전체를 잘게 쪼개서 각 부분의 메커니즘을 밝혀내면 전체를 이해
할 수 있다고 믿는 과학적 패러다임을 말한다. 다시 말해 부분을 모두 합하면 전체가 되고 전체는 다시 부
분으로 ‘환원’ 될 수 있다는 믿음이다.
이 사상의 기본 개념은 1+1은 언제나 2이여야지 그 이상도 이하일 수 없다는 것이다. 사실 세상을 살아가
다 보면 전체가 부분의 합보다 훨씬 높을 확률이 매우 높다. 환원주의 사상을 따를 때 서로 다른 분야의 두
전문가가 모이면 무조건 두 가치의 합으로 귀결된다. 하지만 실상은 두 가치의 합이 마이너스가 될 수도 있
고 때로는 버스트Burst가 일어나 그 가치를 점치기조차 어려울 정도로 막대할 수도 있다.
지금까지의 생명과학과 의학의 연구 패러다임 주류가 이러한 환원주의 사상을 따르고 있다. 생명체를 단백
질 수준까지 잘게 나눠서 특정 단백질의 현상을 관찰해 질환 발병의 원리를 규명할 수 있다거나 쥐 실험에
서 특정 단백질의 활성이 질환 치료에 효과가 있었으니 인간에게도 똑같이 적용할 수 있다고 생각한다.
하지만 단백질 하나의 기능을 이해했다고 해서 생명 현장 전체 메커니즘을 이해했다고 보기는 어렵다. 그
럼에도 불구하고 기존 생명과학 연구의 패러다임은 특정 단백질과 상호작용하는 소수의 단백질만을 밝히
는 것에 주목해왔다.
그런데 문제는 여기서 ‘다른 단백질’이 세포 안에 존재하는 모든 단백질을 대상으로 하는 연구가 아니라 연구자가 보고자
하는 단백질과의 상호작용 여부만을 보기 때문에 그외 다른 단백질과의 상호작용은 전혀 고려의 대상이 되지 않는다는
데 있다. 더 큰 문제점은 세포는 환경, 유전, 나이 등 여러 가지 조건에 따라 단백질의 3차원 구조가 바뀔 수도 있기 때문
에 최적의 작용점에 대한 조건이 무엇인지 찾는데 주목하고 있다.
더군다나 분자생물학 실험을 위한 특정 환경은 이체 환경과는 많은 면에서 다를 수 있다. 인체의 복잡한 상호작용을 반영
하지 못할뿐 아니라 설사 새로운 어떤 발견을 하고 나서도 인체 환경으로까지 끌어올려 실험하기는 사실상 쉽지 않은 일
이다.
특정 단백질에 대해서는 분명 작용점이 있어 상호작용은 하지만 많은 경우에 기대하지 않은 다른 단백질과도 상호작용하
는 경우가 있기 때문이다. 즉 새롭게 개발된 약물이 분명 치료 효과가 있지만 치료 효과보다 훨씬 더 고약한 부작용이 발
생한다면 가치가 전혀 없을 수 있다.
이처럼 환원주의는 전체를 기술하고 깨닫는데 부적절한 패러다임이다. 하지만 그동안 생명과학 연구의 주류를 이뤄왔다.
생명과학 발전 초기에는 환원주의적 연구방식으로 연구를 거듭할 수 있었으나 인간게놈프로젝트HGP에 의해 인간 유전
체가 모두가 해독되었고 지구상에 존재하는 수많은 연구자에 의해 생명체 안에 존재하는 다양한 물질 간 상호작용이 속
속 밝혀져 무수한 생명체 데이터베이스가 만들어지는 시점에서 환원주의적 사고방식은 결국 한계를 가질 수 밖에 없다.
4. 헬스케어 빅데이터가 지식체계들을 연결한다
여러 연구 분야 중 이러한 환원주의 연구 방법이 오랫동안 통용되는 분야가 바로 생명과학 분야가 아닐까
생각한다. 이러한 연구 결과물들은 대부분 설정된 가설 내에서 연구를 진행한 과학자가 자신이 보고 싶어하
는 것만 집중적으로 관찰했을 가능성이 높기 때문이다. 수많은 서로 다른 조건들과 수많은 다른 요인들과의
상호작용을 배제한 채 철저히 ‘환원주의’에 따른 연구를 해왔기 때문이다.
환원주의는 과학적 진보를 이루는 데 사실상 엄청나게 지대한 공헌을 해왔다. 이제는 하나의 퍼즐생김새에
관한 연구도 중요하지만 여러 퍼즐을 모아 전체론적으로 좀 더 거시적 관점에서 과학적 현상을 해석할 수
있는 사람이 필요하다. 그리고 생명과학과 의학에서 객체지향 구조의 상하위 관계뿐만 아니라 서로 다른 객
체들 사이에 관계성을 탐구하는 사람이 필요하다.
매일 수천 편씩 쏟아져 나오는 헬스케어 관련 논문들로부터 지식의 체계를 합리적으로 통합해주는 역할을
하며 기존에 지식의 체계에서 미처 찾아내지 못했던 새로운 지식을 제공해줄 것이다. 이를 통해야 생명체의
가장 최상위 클래스의 실체가 과연 무엇인지 명확히 밝혀낼 수 있다.
4. 헬스케어 빅데이터가 지식체계들을 연결한다
5. 이제 환자 개인 맞춤 치료가 시작된다
수학적으로는 산술평균 외에 기하평균과 조화평균이 있는데 통계학에서는 산술평균 혹은 중간값에 더 집중
하는 듯 하다. 어찌 되었든 평균은 그동안 인간이 만들어낸 수많은 학문을 진보시키기 위해 어떤 것을 비교
하기 위해 사용된 방법이며 우월함이나 열등함을 가치 평가할 수 있게 한다.
하지만 숫자의 연속성을 허용하지 않는 0과 1로 구성된 2진수 체계에서는 사실 ‘평균’이란 존재하지 않는다.
과학에서도 어떤 데이터 값의 가치를 평가하는 기준으로 전통적으로 ‘평균’을 사용했다. 특히 생명과학 및
의학 분야에서 ‘평균’값은 새로운 치료법을 사용할 것인지 혹은 사용하지 말아야하는 결정하는 절대적 가치
로 평가되었다.
고혈압의 기준도 점점 보수적으로 잡혀 현재는 수축기 혈압 140밀리미터수은주와 이완기 혈압 90밀리미터
수은주를 고혈압의 기준으로 보고 있으며 수축기나 이완기 혈압 중 어느 하나라도 기준보다 높으면 고혈압
으로 진단하고 있다.
5. 이제 환자 개인 맞춤 치료가 시작된다
현재까지의 의료는 이렇게 모든 환자의 증상 개선을 목적
으로 이루어지는 것이 아니라 통계학에 기반을 둔 ‘평균을
위한 의료’를 행하고 있다.
특정 치료제에 효과가 있는 환자와 없는 환자를 구분해 가
장 적합한 약을 처방해줄 것이다. 이러한 정보는 이미 여러
분의 헬스케어 데이터 속에 모두 들어있다.
단지 아직 어떤 치료제가 효과가 있을지 없을지에 대한 지
식 데이터가 완벽하게 구축되지 않았을 뿐이다.
Than ou!

More Related Content

Similar to Healthcare bigdata value_hyojinkim

The concept of translational research and the role of hospital 2013-09-12 b...
The concept of translational research and the role of hospital   2013-09-12 b...The concept of translational research and the role of hospital   2013-09-12 b...
The concept of translational research and the role of hospital 2013-09-12 b...석관 김
 
여성의 몸으로 생각한 생명공학의 문제 (2004)
여성의 몸으로 생각한 생명공학의 문제 (2004)여성의 몸으로 생각한 생명공학의 문제 (2004)
여성의 몸으로 생각한 생명공학의 문제 (2004)여성환경연대
 
12 역학
12 역학12 역학
12 역학Nam-young Lee
 
Perceptions of fear appeal and preference for feedback in tailored health com...
Perceptions of fear appeal and preference for feedback in tailored health com...Perceptions of fear appeal and preference for feedback in tailored health com...
Perceptions of fear appeal and preference for feedback in tailored health com...Hyunjeong Lee
 
메타분석 소개
메타분석 소개메타분석 소개
메타분석 소개Youngjun Na
 
20221001 KAFM 의학 형의상학(Medical Ontology) v5 -clean.pptx
20221001 KAFM 의학 형의상학(Medical Ontology) v5 -clean.pptx20221001 KAFM 의학 형의상학(Medical Ontology) v5 -clean.pptx
20221001 KAFM 의학 형의상학(Medical Ontology) v5 -clean.pptxMin-hyung Kim
 
2009 생명공학백서 4장
2009 생명공학백서 4장2009 생명공학백서 4장
2009 생명공학백서 4장Soo-Ik Chang
 
미국의대체의학아유르베다
미국의대체의학아유르베다미국의대체의학아유르베다
미국의대체의학아유르베다chunbyunghoon
 
New attempts to explore the study(학문을 대하는 새로운 시도)
New attempts to explore the study(학문을 대하는 새로운 시도)New attempts to explore the study(학문을 대하는 새로운 시도)
New attempts to explore the study(학문을 대하는 새로운 시도)jihoon jung
 
Wisdom Notebook (subtitle: recipe of enlightenment)
Wisdom Notebook (subtitle: recipe of enlightenment)Wisdom Notebook (subtitle: recipe of enlightenment)
Wisdom Notebook (subtitle: recipe of enlightenment)jihoon jung
 
정리되는 지혜노트(부제: 깨달음의 레시피)』, 삶에 대한 가치실현의 길잡이
 정리되는 지혜노트(부제: 깨달음의 레시피)』, 삶에 대한 가치실현의 길잡이 정리되는 지혜노트(부제: 깨달음의 레시피)』, 삶에 대한 가치실현의 길잡이
정리되는 지혜노트(부제: 깨달음의 레시피)』, 삶에 대한 가치실현의 길잡이jihoon jung
 
21세기 유전자의학과 뉴스타트
21세기 유전자의학과 뉴스타트21세기 유전자의학과 뉴스타트
21세기 유전자의학과 뉴스타트gracesong0225
 
21세기 유전자의학과 뉴스타트
21세기 유전자의학과 뉴스타트21세기 유전자의학과 뉴스타트
21세기 유전자의학과 뉴스타트gracesong0225
 
21세기 유전자의학과 뉴스타트
21세기 유전자의학과 뉴스타트21세기 유전자의학과 뉴스타트
21세기 유전자의학과 뉴스타트gracesong0225
 
21세기 유전자의학과 뉴스타트
21세기 유전자의학과 뉴스타트21세기 유전자의학과 뉴스타트
21세기 유전자의학과 뉴스타트gracesong0225
 
21세기 유전자의학과 뉴스타트
21세기 유전자의학과 뉴스타트21세기 유전자의학과 뉴스타트
21세기 유전자의학과 뉴스타트gracesong0225
 
21세기 유전자의학과 뉴스타트
21세기 유전자의학과 뉴스타트21세기 유전자의학과 뉴스타트
21세기 유전자의학과 뉴스타트gracesong0225
 
21세기 유전자의학과 뉴스타트
21세기 유전자의학과 뉴스타트21세기 유전자의학과 뉴스타트
21세기 유전자의학과 뉴스타트gracesong0225
 

Similar to Healthcare bigdata value_hyojinkim (20)

The concept of translational research and the role of hospital 2013-09-12 b...
The concept of translational research and the role of hospital   2013-09-12 b...The concept of translational research and the role of hospital   2013-09-12 b...
The concept of translational research and the role of hospital 2013-09-12 b...
 
여성의 몸으로 생각한 생명공학의 문제 (2004)
여성의 몸으로 생각한 생명공학의 문제 (2004)여성의 몸으로 생각한 생명공학의 문제 (2004)
여성의 몸으로 생각한 생명공학의 문제 (2004)
 
12 역학
12 역학12 역학
12 역학
 
Perceptions of fear appeal and preference for feedback in tailored health com...
Perceptions of fear appeal and preference for feedback in tailored health com...Perceptions of fear appeal and preference for feedback in tailored health com...
Perceptions of fear appeal and preference for feedback in tailored health com...
 
Aa
AaAa
Aa
 
Aa
AaAa
Aa
 
메타분석 소개
메타분석 소개메타분석 소개
메타분석 소개
 
20221001 KAFM 의학 형의상학(Medical Ontology) v5 -clean.pptx
20221001 KAFM 의학 형의상학(Medical Ontology) v5 -clean.pptx20221001 KAFM 의학 형의상학(Medical Ontology) v5 -clean.pptx
20221001 KAFM 의학 형의상학(Medical Ontology) v5 -clean.pptx
 
2009 생명공학백서 4장
2009 생명공학백서 4장2009 생명공학백서 4장
2009 생명공학백서 4장
 
미국의대체의학아유르베다
미국의대체의학아유르베다미국의대체의학아유르베다
미국의대체의학아유르베다
 
New attempts to explore the study(학문을 대하는 새로운 시도)
New attempts to explore the study(학문을 대하는 새로운 시도)New attempts to explore the study(학문을 대하는 새로운 시도)
New attempts to explore the study(학문을 대하는 새로운 시도)
 
Wisdom Notebook (subtitle: recipe of enlightenment)
Wisdom Notebook (subtitle: recipe of enlightenment)Wisdom Notebook (subtitle: recipe of enlightenment)
Wisdom Notebook (subtitle: recipe of enlightenment)
 
정리되는 지혜노트(부제: 깨달음의 레시피)』, 삶에 대한 가치실현의 길잡이
 정리되는 지혜노트(부제: 깨달음의 레시피)』, 삶에 대한 가치실현의 길잡이 정리되는 지혜노트(부제: 깨달음의 레시피)』, 삶에 대한 가치실현의 길잡이
정리되는 지혜노트(부제: 깨달음의 레시피)』, 삶에 대한 가치실현의 길잡이
 
21세기 유전자의학과 뉴스타트
21세기 유전자의학과 뉴스타트21세기 유전자의학과 뉴스타트
21세기 유전자의학과 뉴스타트
 
21세기 유전자의학과 뉴스타트
21세기 유전자의학과 뉴스타트21세기 유전자의학과 뉴스타트
21세기 유전자의학과 뉴스타트
 
21세기 유전자의학과 뉴스타트
21세기 유전자의학과 뉴스타트21세기 유전자의학과 뉴스타트
21세기 유전자의학과 뉴스타트
 
21세기 유전자의학과 뉴스타트
21세기 유전자의학과 뉴스타트21세기 유전자의학과 뉴스타트
21세기 유전자의학과 뉴스타트
 
21세기 유전자의학과 뉴스타트
21세기 유전자의학과 뉴스타트21세기 유전자의학과 뉴스타트
21세기 유전자의학과 뉴스타트
 
21세기 유전자의학과 뉴스타트
21세기 유전자의학과 뉴스타트21세기 유전자의학과 뉴스타트
21세기 유전자의학과 뉴스타트
 
21세기 유전자의학과 뉴스타트
21세기 유전자의학과 뉴스타트21세기 유전자의학과 뉴스타트
21세기 유전자의학과 뉴스타트
 

Healthcare bigdata value_hyojinkim

  • 1. 헬스케어 빅데이터의 가치 1-3 건양대학교 정보의학과 김효진 2020-03-19 한현욱 저서 이것이 헬스케어 빅데이터다
  • 2. 1. 헬스케어 빅데이터에 대한 편견-연구기생충 저자는 분자생물학과 동물실험을 통해 세포신호 경로를 연구하는 실 험실에 참여했다. 같은 연구실에 박사과정 대학원생이 생물학자는 파이펫을 잡고 일해 야 하는데 옆 연구실에서는 컴퓨터 잡고 일을 했다 알아보니 옆 연구실은 단일염기다형성SNP를 연구하고 있었다. 이후 차세대유전체 분석NGS로 업종 전환하는 연구실이었다. 단일염기다형성SNP 연구가 있었기에 유전체학이 꽃을 피웠다고 한 다. 수천 개의 단일염기다형성SNP 프루브가 있는 칩을 이용해 질병이 있 는 사람과 정상인의 단일염기다형성SNP 차이를 통계학으로 분석한 다. 이를 위해 피링크와 같은 프로그램을 이용해 통계적으로 검증한다. 전장유전체 연관분석GWAS이라고 불린다.
  • 3. 1. 헬스케어 빅데이터에 대한 편견-연구기생충 위키피디아가 알려주듯 생물학은 모든 살아있는 생명체를 탐 구하는 학문이다. 동물 관찰학부터 인간이 원숭이과 임을 밝힌 생물분류학에 이 르기까지 넓은 스펙트럼으로 다룬다. 의학도 인간을 대상으로 연구하는 생물학의 한 하위분야이다. 워런 워버가 분자생물학이라고 했다. 분자생물학 방법에 따른 생물학 연구는 물리학자들에 제기된 개념이다. 왓슨과 클릭이 DNA이중나선 구조를 밝혀냄으로써 유전 현상 의 기전을 분자 수준으로 끌어올림으로써 분자생물학이 시작 되었다.
  • 4. 1. 헬스케어 빅데이터에 대한 편견-연구기생충 가장 저명한 임상의학 연구지 중 하나인 “뉴 잉글랜드 저널 오 브 메디슨”에 논란 거리가 된 한 편의 글 하버드 대학의 Jaffrey M Drazen 교수와 Dan L Longo 교수가 쓴 짧은글 “데이터 공유”이다. 이 글에서 빅데이터를 이용한 의학 연구의 문제점을 집중적으 로 이야기하면서 다른 사람이 이미 출판한 데이터를 활용해 연구하는 것은 그것 이 어떻게 수집된 것인지 전혀 알지 못하기 때문에 해석 과정에서 오류를 범할 수 있을 뿐만 아니라 자료를 수집 한 사람의 생산성을 빼앗는 행위라며 깊은 우려를 나타냈다. 이런 데이터를 이용해 연구하는 자들을 일컬어 “연구기생충이 란 말을 썼다.
  • 5. 1. 헬스케어 빅데이터에 대한 편견-연구기생충 이 사설 발표되고 전세계 데이터 과학자가 SNS를 통해 “IamResearchParasite”라고 제프 드레이즌 교수와 댄 론 고 교수에 대한 반감을 표시했다. 연구자료의 공유를 통해 연구의 타당성을 밝히는 것이 의학 연구를 활성화 하는 가장 좋은 방법이라고 의견을 냄. 헬스케어 빅데이터를 이용한 생명과학연구는 새로운 기 술이 등장함에 따라 생명현상을 이해하기 위한 또하나 의 방법으로 등장했을뿐이다. 파이펫이 생명 현상 이해하기 위한 하나의 방법이듯 정 보통신 기술을 이용한 데이터 분석 또한 같은 맥락에서 해석해야 한다.
  • 6. 2. 펍메드로 헬스케어 연구의 민주화를 이루어내다 데이터 과학면에서 펍메드는 대단히 중요한 의미를 가진다. 저널 사이트는 엄밀한 의미에서 출판사의 개념으로 출판된 논문지는 대학이나 연구자들에게 돈을 주고 판매를 한다. 지구상에 존재하는 거의 모든 의학과 생명과학 논문의 초록 을 담고 있으므로 그 양이 많아 데이터 유지보수에 엄청난 예 산이 들어갔다. 의학과 생명과학 분야에서 데이터베이스 작업이 되었다는 점 과 개방형 검색 시스템을 만들었다는점이 놀라운 일이다. Harold eliot vamus 박사 덕택에 가능해진 일이다. 그는 논문 의 개방형 정책이야 말로 의생명과학 분야 연구의 혁신을 이 룰 가장 강력한 방법이란 신념을 가졌다.
  • 7. 2. 펍메드로 헬스케어 연구의 민주화를 이루어내다 메쉬용어란 미국 국립의학도서관에서 의생명과학 분야 문 헌의 색인, 목록, 검색을 위해 사용하는 통제 어휘를 말한 다. 쉽게 말해 해당 논문이 어떤 질병을 다루는지, 인체 해부 학적으로는 어떤 장기와 관련됐는지, 연구 주제와 관련된 약물은 무엇인지 등에 대해 일목요연하게 정리한 용어의 리스트이다. 메쉬 용어는 개념 간의 상하위 관계에 관한 계층 구조를 취하고 있으며 현재까지 총 16개의 출판 유형을 따르고 있다. 각 범주의 최상위개념을 나타내는 용어는 다음 표와 같다.
  • 8. 2. 펍메드로 헬스케어 연구의 민주화를 이루어내다 메쉬 브라우저를 사용하여 유방암(breast neoplasm)을 검 색한 결과 유방암의 메쉬 번호는 [c04.588.180]이고 바로 상위개념 은 위치별 암(Neoplasms by site)[C04.588]이다. 그리고 다시 상위개념은 암(neoplasm)[C04]이 된다. 유방암의 하위개념들은 상피 내 유방암(Breast Car- cinoma In Situ)[C04.588.180.130]을 비롯해 8개의 메쉬 용어가 있음을 알 수 있다. + 표 부분을 누르면 해당 논문의 메쉬용어를 일목요연하 게 정리해서 보여준다. 메쉬 용어는 펍메드의 기본적인 검색 용어로 사용된다.
  • 9. 3. 생물학적 객체지향 구조와 온톨로지가 중요하다 인간의 신체는 기관으로 나누고 기관은 조직으로 나누며 조직을 다시 세포로 나누고 세포는 분자로 나눈다. 이처럼 구조화가 프로그래밍 방법론 중 객체지향 프로그램oop과 많은 면에서 유사한 것으로 보인다. 객체 지향 프로그램의 의미는 어떠한 구체적인 ‘대상’으로 ‘향하는’의 의미를 가지며 좀더 정확히 말하면 객체 를 선호하는 프로그램 기법을 말한다. 객체 지향의 개념을 설명하기 위해서는 클래스class 오브젝트object 캡 슐화encapulation 상속성inheritance와 다형성polymorphism 과 같은 다섯가지 핵심 키워드가 존재한다. 클래스는 추상화의 개념으로 아직 틀만 존재할 뿐 생명력을 갖지 못한 프로그램을 말하며 오브젝트는 이 클래 스가 컴퓨터 프로그램으로써 생명력을 가질 수 있도록 해주는 클래스의 인스턴스를 말한다. 클래스는 오직 한 개 일지라도 오브젝트는 여러 개 일 수 있다. 가령 ‘고양이’라는 클래스를 만들면 고양이는 ’ 척추동물’이면서 ‘항온동물’이고 ‘고양이과’에 속한다. 이것은 고양이가 모든 속성을 대변하기에 충분하다. 이러한 고양이 클래스를 사용하여 우리 집 고양이 ‘나비’를 정의해보면 고양이 클래스가 정의한 모든 고양이 속성을 따르게 된다.
  • 10. 3. 생물학적 객체지향 구조와 온톨로지가 중요하다 캡슐화란 클래스에 정의된 ‘데이터와 데이터를 조작하는 방법’을 의미하며 ‘나비’ 오브젝트는 고양이의 모든 속성을 따르지만 나이가 세 살인 반면 ‘톰’ 오브젝트는 고양이의 모든 속성을 따르지만 나이가 다섯 살로 ‘나 비’와는 다른 나이 변수를 가질 수 있다. 이와 같은 변수를 오브젝트 단에서 변경, 제거 및, 초기화 등을 할 수 있는 조작 명령어를 캡슐화라는 개념으 로 설명한다. 객체 지향 프로그램의 가장 강력한 속성 중의 하나가 바로 ‘상속성’이라는 개념이다. 이는 하나의 클래스가 가진 특징들을 그대로 다른 클래스가 물려받는다는 개념이다. 예로 든 고양이 클래스를 가지고 사자의 클래 스를 만들 수 있다. 사자 또한 ‘척추동물’이면서 ‘항온동물‘이고 ‘고양이과’에 속하니 고양이 클래스를 상속해서 사자 클래스를 아 주 쉽게 만들 수 있을 것이다. 하지만 고양이 클래스와 사자 클래스는 같지만 울음소리가 다르다. 이렇게 같은 클래스에 속하더라도 각 클래스에 서로 다른 부분을 기술해줄 수 있는 것을 ‘다형성’이라는 개념 으로 설명한다. 헬스케어 분야 용어와 관계에 잘 알고 있어야 한다. 이런 용어들의 상하위 관계를 정의한 수많은 온톨로지 Ontology에 대한 개념을 알고 있어야 한다.
  • 11. 4. 헬스케어 빅데이터가 지식체계들을 연결한다 철학에서 환원주의란 복잡하고 높은 단계의 사상이나 개념을 하위 단계의 요소로 세분화해 명확하게 정의 할 수 있다고 주장하는 견해를 말한다. 즉 전체를 잘게 쪼개서 각 부분의 메커니즘을 밝혀내면 전체를 이해 할 수 있다고 믿는 과학적 패러다임을 말한다. 다시 말해 부분을 모두 합하면 전체가 되고 전체는 다시 부 분으로 ‘환원’ 될 수 있다는 믿음이다. 이 사상의 기본 개념은 1+1은 언제나 2이여야지 그 이상도 이하일 수 없다는 것이다. 사실 세상을 살아가 다 보면 전체가 부분의 합보다 훨씬 높을 확률이 매우 높다. 환원주의 사상을 따를 때 서로 다른 분야의 두 전문가가 모이면 무조건 두 가치의 합으로 귀결된다. 하지만 실상은 두 가치의 합이 마이너스가 될 수도 있 고 때로는 버스트Burst가 일어나 그 가치를 점치기조차 어려울 정도로 막대할 수도 있다. 지금까지의 생명과학과 의학의 연구 패러다임 주류가 이러한 환원주의 사상을 따르고 있다. 생명체를 단백 질 수준까지 잘게 나눠서 특정 단백질의 현상을 관찰해 질환 발병의 원리를 규명할 수 있다거나 쥐 실험에 서 특정 단백질의 활성이 질환 치료에 효과가 있었으니 인간에게도 똑같이 적용할 수 있다고 생각한다. 하지만 단백질 하나의 기능을 이해했다고 해서 생명 현장 전체 메커니즘을 이해했다고 보기는 어렵다. 그 럼에도 불구하고 기존 생명과학 연구의 패러다임은 특정 단백질과 상호작용하는 소수의 단백질만을 밝히 는 것에 주목해왔다.
  • 12. 그런데 문제는 여기서 ‘다른 단백질’이 세포 안에 존재하는 모든 단백질을 대상으로 하는 연구가 아니라 연구자가 보고자 하는 단백질과의 상호작용 여부만을 보기 때문에 그외 다른 단백질과의 상호작용은 전혀 고려의 대상이 되지 않는다는 데 있다. 더 큰 문제점은 세포는 환경, 유전, 나이 등 여러 가지 조건에 따라 단백질의 3차원 구조가 바뀔 수도 있기 때문 에 최적의 작용점에 대한 조건이 무엇인지 찾는데 주목하고 있다. 더군다나 분자생물학 실험을 위한 특정 환경은 이체 환경과는 많은 면에서 다를 수 있다. 인체의 복잡한 상호작용을 반영 하지 못할뿐 아니라 설사 새로운 어떤 발견을 하고 나서도 인체 환경으로까지 끌어올려 실험하기는 사실상 쉽지 않은 일 이다. 특정 단백질에 대해서는 분명 작용점이 있어 상호작용은 하지만 많은 경우에 기대하지 않은 다른 단백질과도 상호작용하 는 경우가 있기 때문이다. 즉 새롭게 개발된 약물이 분명 치료 효과가 있지만 치료 효과보다 훨씬 더 고약한 부작용이 발 생한다면 가치가 전혀 없을 수 있다. 이처럼 환원주의는 전체를 기술하고 깨닫는데 부적절한 패러다임이다. 하지만 그동안 생명과학 연구의 주류를 이뤄왔다. 생명과학 발전 초기에는 환원주의적 연구방식으로 연구를 거듭할 수 있었으나 인간게놈프로젝트HGP에 의해 인간 유전 체가 모두가 해독되었고 지구상에 존재하는 수많은 연구자에 의해 생명체 안에 존재하는 다양한 물질 간 상호작용이 속 속 밝혀져 무수한 생명체 데이터베이스가 만들어지는 시점에서 환원주의적 사고방식은 결국 한계를 가질 수 밖에 없다. 4. 헬스케어 빅데이터가 지식체계들을 연결한다
  • 13. 여러 연구 분야 중 이러한 환원주의 연구 방법이 오랫동안 통용되는 분야가 바로 생명과학 분야가 아닐까 생각한다. 이러한 연구 결과물들은 대부분 설정된 가설 내에서 연구를 진행한 과학자가 자신이 보고 싶어하 는 것만 집중적으로 관찰했을 가능성이 높기 때문이다. 수많은 서로 다른 조건들과 수많은 다른 요인들과의 상호작용을 배제한 채 철저히 ‘환원주의’에 따른 연구를 해왔기 때문이다. 환원주의는 과학적 진보를 이루는 데 사실상 엄청나게 지대한 공헌을 해왔다. 이제는 하나의 퍼즐생김새에 관한 연구도 중요하지만 여러 퍼즐을 모아 전체론적으로 좀 더 거시적 관점에서 과학적 현상을 해석할 수 있는 사람이 필요하다. 그리고 생명과학과 의학에서 객체지향 구조의 상하위 관계뿐만 아니라 서로 다른 객 체들 사이에 관계성을 탐구하는 사람이 필요하다. 매일 수천 편씩 쏟아져 나오는 헬스케어 관련 논문들로부터 지식의 체계를 합리적으로 통합해주는 역할을 하며 기존에 지식의 체계에서 미처 찾아내지 못했던 새로운 지식을 제공해줄 것이다. 이를 통해야 생명체의 가장 최상위 클래스의 실체가 과연 무엇인지 명확히 밝혀낼 수 있다. 4. 헬스케어 빅데이터가 지식체계들을 연결한다
  • 14. 5. 이제 환자 개인 맞춤 치료가 시작된다 수학적으로는 산술평균 외에 기하평균과 조화평균이 있는데 통계학에서는 산술평균 혹은 중간값에 더 집중 하는 듯 하다. 어찌 되었든 평균은 그동안 인간이 만들어낸 수많은 학문을 진보시키기 위해 어떤 것을 비교 하기 위해 사용된 방법이며 우월함이나 열등함을 가치 평가할 수 있게 한다. 하지만 숫자의 연속성을 허용하지 않는 0과 1로 구성된 2진수 체계에서는 사실 ‘평균’이란 존재하지 않는다. 과학에서도 어떤 데이터 값의 가치를 평가하는 기준으로 전통적으로 ‘평균’을 사용했다. 특히 생명과학 및 의학 분야에서 ‘평균’값은 새로운 치료법을 사용할 것인지 혹은 사용하지 말아야하는 결정하는 절대적 가치 로 평가되었다. 고혈압의 기준도 점점 보수적으로 잡혀 현재는 수축기 혈압 140밀리미터수은주와 이완기 혈압 90밀리미터 수은주를 고혈압의 기준으로 보고 있으며 수축기나 이완기 혈압 중 어느 하나라도 기준보다 높으면 고혈압 으로 진단하고 있다.
  • 15. 5. 이제 환자 개인 맞춤 치료가 시작된다 현재까지의 의료는 이렇게 모든 환자의 증상 개선을 목적 으로 이루어지는 것이 아니라 통계학에 기반을 둔 ‘평균을 위한 의료’를 행하고 있다. 특정 치료제에 효과가 있는 환자와 없는 환자를 구분해 가 장 적합한 약을 처방해줄 것이다. 이러한 정보는 이미 여러 분의 헬스케어 데이터 속에 모두 들어있다. 단지 아직 어떤 치료제가 효과가 있을지 없을지에 대한 지 식 데이터가 완벽하게 구축되지 않았을 뿐이다.