전 게놈 관련 분석으로 배우는 유전 통계학 R users conference in Korea 2014
Upcoming SlideShare
Loading in...5
×
 

Like this? Share it with your network

Share

전 게놈 관련 분석으로 배우는 유전 통계학 R users conference in Korea 2014

on

  • 653 views

R과 Plink로 분석하는 Genome-wide association study에 대한 개요

R과 Plink로 분석하는 Genome-wide association study에 대한 개요

Statistics

Views

Total Views
653
Views on SlideShare
653
Embed Views
0

Actions

Likes
3
Downloads
21
Comments
0

0 Embeds 0

No embeds

Accessibility

Categories

Upload Details

Uploaded via as Adobe PDF

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

전 게놈 관련 분석으로 배우는 유전 통계학 R users conference in Korea 2014 Presentation Transcript

  • 1. 전 게놈 관련 분석으로 배우는 ! 유전 통계학 양 우성! (wyang@stagen.co.jp)! StaGen Co., Ltd! 유전통계분석사업부
  • 2. My Medical Choice http://www.nytimes.com/2013/05/14/opinion/my-medical-choice.html?_r=1& “My doctors estimated that I had an 87 percent risk of breast cancer and a 50 percent risk of ovarian cancer, although the risk is different in the case of each woman. Only a fraction of breast cancers result from an inherited gene mutation. Those with a defect in BRCA1 have a 65 percent risk of getting it, on average”. - ANGELINA JOLIE
  • 3. “Genetics is the science of 
 heredity and variation in 
 living organisms.” Wikipedia (http://en.wikipedia.org/wiki/Genetics)
  • 4. 4 DOE Human Genome Project (http://genomics.energy.gov)
  • 5. Genome 
 = Gene + Ome Genome 
 = Whole DNA
  • 6. Human Genome Project 2003년 99.99% 정확도의 
 인간유전체지도 완성 " "
  • 7. Variation
  • 8. 유전체의 0.1% 가
 개인의 차이를 결정
  • 9. 다형성의 종류
 Polymorphism • SNP (Single-nucleotide polymorphism)" • STRP (short tandem repeat polymorphism, Microsatellite)" • VNTR(variable number of tandem repeat)" • Insertion / Deletion" • CNV (Copy number variation)
  • 10. SNP
  • 11. (유전자좌) (우성 대립형질) (열성 대립형질) (유전자형)
  • 12. 유전자형의 다름 때문에 발생하는 결과: ! 유전형질(trait) 질적형질
 (qualitative trait) 양적형질
 (quantitative trait) 병의 발병유무 발병 비발병 검사치 2.1 6.4 9.7 표현형 (phenotype)
  • 13. 분리의 법칙 우열의 법칙 독립의 법칙 연쇄(linkage)의 법칙 유전자형
 A/a A a B b A or a B or b A or a 멘델의 법칙 A a B b 유전 계승의 법칙 = ! 멘델의 법칙 + 연쇄의 법칙
  • 14. Genome-Wide Association Study 전 게놈 관련성 분석
  • 15. 관측된 유전자 좌의 ! 유전자형과 형질과의 관련성을 ! 전 게놈 영역에 걸쳐 ! 탐색적으로 조사하는 방법
  • 16. 가계의 상세한 정보를 알 수 있다면
 연쇄분석(linkage analysis)에 의해 정확한 분석이 가능
  • 17. 가계 정보가 없는 집단은 ! 코호트 연구나 ! 비교 대조 연구를 이용
  • 18. 위험인자(+) 위험인자(-) 발병(+) 비발병(-) 발병집단 비발병집단 위험인자 (+) 집단 위험인자 (-) 집단 Case  집단 Control 집단 랜덤 추출 추적 조사 Case-control! study Cohort study
  • 19. 코호트 연구에서 관련성의 크기는! 상대 위험도로 평가 Relative Risk, RR
  • 20. 20 비교 대조 연구에서 관련성의 크기는! 오즈비로 평가 Odds Ratio, OR
  • 21. 게놈 관련성 연구에는 ! 원인 유전자 좌의 장소에 대한 가정과! 우열의 법칙 가정이 필요
  • 22. 원인 유전자 좌는 주목하고 있는 ! SNP 좌와 매우 ! 가까운 곳에 위치한다 SNP  좌원인 유전자 좌
  • 23. 표현형은 우열의 법칙에 의해 결정된다 (1)우성 (2)열성 (3)유전자형 (4) Risk allele의 수
  • 24. 형질과 SNP 좌의 ! 관련성 유무에 대한 검정
  • 25. Case 집단의 대립형질 X 보유율과 ! Control 집단의 보유율에 차이가 있는가? 우성 양식 가정 XX+NX NN 계 Case 집단 48 52 100 Control 집단 32 68 100 계 80 120 200
  • 26. P=0.15,  OR=1.2 P=0.71,  OR=1.1 P=3e-­‐4,  OR=2.3 P=0.81,  OR=1.2 P=0.36,  OR=1.1 P=0.01,  OR=1.7 P=0.55,  OR=1.2 P=0.91,  OR=1.1 P=2e-­‐6,  OR=2.3 P=0.15,  OR=1.2 P=0.71,  OR=1.1 P=3e-­‐4,  OR=2.3 P=0.15,  OR=1.2 P=0.71,  OR=1.1 P=0.19,  OR=0.9 Genome-wide association study 50만 ~ 250만 SNP 좌를 이용한 검토
  • 27. plink output RMySQL Shiny ggplot2 NCBI2R ...
  • 28. SJS/TEN 환자와 건강인의
 유전적 요인 차를 비교 검토 GWAS연구 사례
  • 29. Stevens-Johnson Syndrome (SJS) Toxic Epidermal Necrolysis (TEN) 약물 부작용으로 발생하는 질환으로 화상과 증상이 유사
  • 30. 119 명991 명 595 396 69 50 VS A 복용 후 발병일반 건강인
  • 31. illumina Human1M-Duo DNA Analysis Kit 1,163,218 SNPs " • 미토콘드리아 : 138 SNPs • 성염색체 : 42,822 SNPs
 (X : 40,949 Y : 1,294 XY : 579)
  • 32. • 다형 데이터의 품질평가! • 관련성 분석 대상 개체 및 SNP의 선택" • 관련성 분석! • 분석결과의 고찰 분석순서
  • 33. 개체 데이터 품질평가
  • 34. X염색체의 이형접합체 빈도와 성별 A A A T G C A/A T C A/T G/C A T/T C/G A/A X X X Y 여성 남성 오류
  • 35. Control SJS/TEN Female FemaleMale Male 이형접합체빈도 성별 기록 평가 정상
  • 36. XXY 남성 여성 Missing 성별 기록 평가 정상
  • 37. 각 개체에 대해 SNP들이 정상적으로 관측된 비율을 ! 개인의 Call Rate라 하며! 이 값이 99% 미만인 개체는 분석에서 제외한다 개체 CR = " 정상관측 SNP 수 / 모든 SNP 수
  • 38. SNP 데이터 품질평가
  • 39. 각 SNP에 대해 개체가 정상적으로 관측된 비율을 ! SNP의 Call Rate라 하며! 이 값이 95% 미만인 SNP는 분석에서 제외한다 SNP CR = " 정상관측 개체 수 / 모든 개체 수
  • 40. SNP에 대한 Call Rate 분포 32.6K 
 SNP 제외
  • 41. 하나의 SNP에서 수가 작은 쪽의 대립형질의 ! 빈도를 Minor Allele Frequency라 하며 ! MAF 비율이 5% 미만의 SNP는 분석에서 제외한다 * Control 집단에 대해서만 평가
  • 42. 273.7K SNPs 제외" (CR≧0.95 SNP의 23.5%) Mono-morphism SNP(MAF=0) : 225,169 SNPs
  • 43. 대를 거듭하더라도 집단에서 ! 대립 유전자의 빈도가 변하지 않고 ! 평형상태를 유지할 때 ! 하디-바인베르그 평형상태에 있다고 하며! 적합도 검정결과 유의확률이 0.001 미만인 ! SNP는 분석에서 제외한다
  • 44. Hardy-Weinberg 평형법칙
 Law of Hardy-Weinberg Equilibrium 세대 t+1 세대 t = = random mating
  • 45. )1()( )( paf pAf −= = Hardy-Weinberg 평형법칙
 Law of Hardy-Weinberg Equilibrium Genotype 계 AA Aa aa 41 38 21 100 Allele 계 A a 120 80 200 Allele 계 A a 0.6 0.4 1 Genotype 계 AA Aa aa 0.41 0.38 0.21 1 2 2 )1()( )1(2)( )( paaf ppAaf pAAf −= −= = if then 적합도 검정 유의확률 = 0.037
  • 46. Q-Q plot을 이용한 시각적 평가 Control 집단만 평가 2.3K
 SNP 제외
  • 47. 집단의 균질성 평가
  • 48. 혈연관계의 정도를 나타내는 " IBD(Identity by decent)의 추정값이 " 0.8 이상인 개체는 분석에서 제외한다 1/2 1/21/2 3/41/3 3/4 1/2 1/3 1/2 1/4 2/3 2/3 IBD = 0 IBD = 1 IBD = 2
  • 49. 정상
  • 50. 집단의 구조화 문제 AA Aa+aa 계 + 120 40 160 − 30 10 40 계 150 50 200 AA Aa+aa 계 + 10 30 40 − 40 120 160 계 50 150 200 AA Aa+aa 계 + 130 70 200 − 70 130 200 계 200 200 400 + = p-­‐value=1 p-­‐value=1 p-­‐value=3.6×10-­‐9
  • 51. 주성분 분석을 이용한 집단 구조화 평가
  • 52. 1,110 선택된 개체 수
  • 53. 854,556 선택된 SNP 수
  • 54. 관련성 분석
  • 55. Case-control 연구를 대상으로 한 
 전 게놈 관련성 분석 유전계승형식 검정법 추정 경향성 Wald 통계량 (로지스틱 회귀모형) 오즈비 및 95%신뢰구간 유전자형 카이제곱 검정, Fisher’s exact 검정 오즈비 및 95%신뢰구간 우성 카이제곱 검정, Fisher’s exact 검정 오즈비 및 95%신뢰구간 열성 카이제곱 검정, Fisher’s exact 검정 오즈비 및 95%신뢰구간
  • 56. 분석결과의 고찰
  • 57. 각 SNP에 대한 관련성 검정의 " 유의 수준을 0.05로 설정 하면" 분석 전체에서 제 I 종 오류는 반드시 일어난다 1−(1−α)500K ≈1
  • 58. 제 Ⅰ 종의 오류 다중성 검토 • Bonferroni의 수정" • False Discovery Rate 법을 이용한 수정" • Quantile-Quantile Plot을 이용한 시각적 판단
  • 59. Q-Q Plot을 이용한 시각적 판단
  • 60. OR  7~8  (95%CI  3~18)
 HLA  region Manhattan Plot
  • 61. Shiny package를 이용한 " Web 어플리케이션 개발
  • 62. 감사합니다