전 게놈 관련 분석으로 배우는 유전 통계학 R users conference in Korea 2014

2,693 views

Published on

R과 Plink로 분석하는 Genome-wide association study에 대한 개요

Published in: Data & Analytics
0 Comments
5 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
2,693
On SlideShare
0
From Embeds
0
Number of Embeds
5
Actions
Shares
0
Downloads
99
Comments
0
Likes
5
Embeds 0
No embeds

No notes for slide

전 게놈 관련 분석으로 배우는 유전 통계학 R users conference in Korea 2014

  1. 1. 전 게놈 관련 분석으로 배우는 ! 유전 통계학 양 우성! (wyang@stagen.co.jp)! StaGen Co., Ltd! 유전통계분석사업부
  2. 2. My Medical Choice http://www.nytimes.com/2013/05/14/opinion/my-medical-choice.html?_r=1& “My doctors estimated that I had an 87 percent risk of breast cancer and a 50 percent risk of ovarian cancer, although the risk is different in the case of each woman. Only a fraction of breast cancers result from an inherited gene mutation. Those with a defect in BRCA1 have a 65 percent risk of getting it, on average”. - ANGELINA JOLIE
  3. 3. “Genetics is the science of 
 heredity and variation in 
 living organisms.” Wikipedia (http://en.wikipedia.org/wiki/Genetics)
  4. 4. 4 DOE Human Genome Project (http://genomics.energy.gov)
  5. 5. Genome 
 = Gene + Ome Genome 
 = Whole DNA
  6. 6. Human Genome Project 2003년 99.99% 정확도의 
 인간유전체지도 완성 " "
  7. 7. Variation
  8. 8. 유전체의 0.1% 가
 개인의 차이를 결정
  9. 9. 다형성의 종류
 Polymorphism • SNP (Single-nucleotide polymorphism)" • STRP (short tandem repeat polymorphism, Microsatellite)" • VNTR(variable number of tandem repeat)" • Insertion / Deletion" • CNV (Copy number variation)
  10. 10. SNP
  11. 11. (유전자좌) (우성 대립형질) (열성 대립형질) (유전자형)
  12. 12. 유전자형의 다름 때문에 발생하는 결과: ! 유전형질(trait) 질적형질
 (qualitative trait) 양적형질
 (quantitative trait) 병의 발병유무 발병 비발병 검사치 2.1 6.4 9.7 표현형 (phenotype)
  13. 13. 분리의 법칙 우열의 법칙 독립의 법칙 연쇄(linkage)의 법칙 유전자형
 A/a A a B b A or a B or b A or a 멘델의 법칙 A a B b 유전 계승의 법칙 = ! 멘델의 법칙 + 연쇄의 법칙
  14. 14. Genome-Wide Association Study 전 게놈 관련성 분석
  15. 15. 관측된 유전자 좌의 ! 유전자형과 형질과의 관련성을 ! 전 게놈 영역에 걸쳐 ! 탐색적으로 조사하는 방법
  16. 16. 가계의 상세한 정보를 알 수 있다면
 연쇄분석(linkage analysis)에 의해 정확한 분석이 가능
  17. 17. 가계 정보가 없는 집단은 ! 코호트 연구나 ! 비교 대조 연구를 이용
  18. 18. 위험인자(+) 위험인자(-) 발병(+) 비발병(-) 발병집단 비발병집단 위험인자 (+) 집단 위험인자 (-) 집단 Case  집단 Control 집단 랜덤 추출 추적 조사 Case-control! study Cohort study
  19. 19. 코호트 연구에서 관련성의 크기는! 상대 위험도로 평가 Relative Risk, RR
  20. 20. 20 비교 대조 연구에서 관련성의 크기는! 오즈비로 평가 Odds Ratio, OR
  21. 21. 게놈 관련성 연구에는 ! 원인 유전자 좌의 장소에 대한 가정과! 우열의 법칙 가정이 필요
  22. 22. 원인 유전자 좌는 주목하고 있는 ! SNP 좌와 매우 ! 가까운 곳에 위치한다 SNP  좌원인 유전자 좌
  23. 23. 표현형은 우열의 법칙에 의해 결정된다 (1)우성 (2)열성 (3)유전자형 (4) Risk allele의 수
  24. 24. 형질과 SNP 좌의 ! 관련성 유무에 대한 검정
  25. 25. Case 집단의 대립형질 X 보유율과 ! Control 집단의 보유율에 차이가 있는가? 우성 양식 가정 XX+NX NN 계 Case 집단 48 52 100 Control 집단 32 68 100 계 80 120 200
  26. 26. P=0.15,  OR=1.2 P=0.71,  OR=1.1 P=3e-­‐4,  OR=2.3 P=0.81,  OR=1.2 P=0.36,  OR=1.1 P=0.01,  OR=1.7 P=0.55,  OR=1.2 P=0.91,  OR=1.1 P=2e-­‐6,  OR=2.3 P=0.15,  OR=1.2 P=0.71,  OR=1.1 P=3e-­‐4,  OR=2.3 P=0.15,  OR=1.2 P=0.71,  OR=1.1 P=0.19,  OR=0.9 Genome-wide association study 50만 ~ 250만 SNP 좌를 이용한 검토
  27. 27. plink output RMySQL Shiny ggplot2 NCBI2R ...
  28. 28. SJS/TEN 환자와 건강인의
 유전적 요인 차를 비교 검토 GWAS연구 사례
  29. 29. Stevens-Johnson Syndrome (SJS) Toxic Epidermal Necrolysis (TEN) 약물 부작용으로 발생하는 질환으로 화상과 증상이 유사
  30. 30. 119 명991 명 595 396 69 50 VS A 복용 후 발병일반 건강인
  31. 31. illumina Human1M-Duo DNA Analysis Kit 1,163,218 SNPs " • 미토콘드리아 : 138 SNPs • 성염색체 : 42,822 SNPs
 (X : 40,949 Y : 1,294 XY : 579)
  32. 32. • 다형 데이터의 품질평가! • 관련성 분석 대상 개체 및 SNP의 선택" • 관련성 분석! • 분석결과의 고찰 분석순서
  33. 33. 개체 데이터 품질평가
  34. 34. X염색체의 이형접합체 빈도와 성별 A A A T G C A/A T C A/T G/C A T/T C/G A/A X X X Y 여성 남성 오류
  35. 35. Control SJS/TEN Female FemaleMale Male 이형접합체빈도 성별 기록 평가 정상
  36. 36. XXY 남성 여성 Missing 성별 기록 평가 정상
  37. 37. 각 개체에 대해 SNP들이 정상적으로 관측된 비율을 ! 개인의 Call Rate라 하며! 이 값이 99% 미만인 개체는 분석에서 제외한다 개체 CR = " 정상관측 SNP 수 / 모든 SNP 수
  38. 38. SNP 데이터 품질평가
  39. 39. 각 SNP에 대해 개체가 정상적으로 관측된 비율을 ! SNP의 Call Rate라 하며! 이 값이 95% 미만인 SNP는 분석에서 제외한다 SNP CR = " 정상관측 개체 수 / 모든 개체 수
  40. 40. SNP에 대한 Call Rate 분포 32.6K 
 SNP 제외
  41. 41. 하나의 SNP에서 수가 작은 쪽의 대립형질의 ! 빈도를 Minor Allele Frequency라 하며 ! MAF 비율이 5% 미만의 SNP는 분석에서 제외한다 * Control 집단에 대해서만 평가
  42. 42. 273.7K SNPs 제외" (CR≧0.95 SNP의 23.5%) Mono-morphism SNP(MAF=0) : 225,169 SNPs
  43. 43. 대를 거듭하더라도 집단에서 ! 대립 유전자의 빈도가 변하지 않고 ! 평형상태를 유지할 때 ! 하디-바인베르그 평형상태에 있다고 하며! 적합도 검정결과 유의확률이 0.001 미만인 ! SNP는 분석에서 제외한다
  44. 44. Hardy-Weinberg 평형법칙
 Law of Hardy-Weinberg Equilibrium 세대 t+1 세대 t = = random mating
  45. 45. )1()( )( paf pAf −= = Hardy-Weinberg 평형법칙
 Law of Hardy-Weinberg Equilibrium Genotype 계 AA Aa aa 41 38 21 100 Allele 계 A a 120 80 200 Allele 계 A a 0.6 0.4 1 Genotype 계 AA Aa aa 0.41 0.38 0.21 1 2 2 )1()( )1(2)( )( paaf ppAaf pAAf −= −= = if then 적합도 검정 유의확률 = 0.037
  46. 46. Q-Q plot을 이용한 시각적 평가 Control 집단만 평가 2.3K
 SNP 제외
  47. 47. 집단의 균질성 평가
  48. 48. 혈연관계의 정도를 나타내는 " IBD(Identity by decent)의 추정값이 " 0.8 이상인 개체는 분석에서 제외한다 1/2 1/21/2 3/41/3 3/4 1/2 1/3 1/2 1/4 2/3 2/3 IBD = 0 IBD = 1 IBD = 2
  49. 49. 정상
  50. 50. 집단의 구조화 문제 AA Aa+aa 계 + 120 40 160 − 30 10 40 계 150 50 200 AA Aa+aa 계 + 10 30 40 − 40 120 160 계 50 150 200 AA Aa+aa 계 + 130 70 200 − 70 130 200 계 200 200 400 + = p-­‐value=1 p-­‐value=1 p-­‐value=3.6×10-­‐9
  51. 51. 주성분 분석을 이용한 집단 구조화 평가
  52. 52. 1,110 선택된 개체 수
  53. 53. 854,556 선택된 SNP 수
  54. 54. 관련성 분석
  55. 55. Case-control 연구를 대상으로 한 
 전 게놈 관련성 분석 유전계승형식 검정법 추정 경향성 Wald 통계량 (로지스틱 회귀모형) 오즈비 및 95%신뢰구간 유전자형 카이제곱 검정, Fisher’s exact 검정 오즈비 및 95%신뢰구간 우성 카이제곱 검정, Fisher’s exact 검정 오즈비 및 95%신뢰구간 열성 카이제곱 검정, Fisher’s exact 검정 오즈비 및 95%신뢰구간
  56. 56. 분석결과의 고찰
  57. 57. 각 SNP에 대한 관련성 검정의 " 유의 수준을 0.05로 설정 하면" 분석 전체에서 제 I 종 오류는 반드시 일어난다 1−(1−α)500K ≈1
  58. 58. 제 Ⅰ 종의 오류 다중성 검토 • Bonferroni의 수정" • False Discovery Rate 법을 이용한 수정" • Quantile-Quantile Plot을 이용한 시각적 판단
  59. 59. Q-Q Plot을 이용한 시각적 판단
  60. 60. OR  7~8  (95%CI  3~18)
 HLA  region Manhattan Plot
  61. 61. Shiny package를 이용한 " Web 어플리케이션 개발
  62. 62. 감사합니다

×