8. QV
• QV = 10 은 10%의 에러 확률
• QV = 20 은 1%의 에러 확률
• QV = 30 은 0.1%의 에러 확률
• 시퀀싱 장비에 따라 다를 수 있다.
9. 서열정렬 또는 매핑
• 각 단편서열이 참조 유전체의 어디쯤에 있는 지 찾는 과정
• 대부분의 고속 알고리즘은 인덱스을 생성
• 인덱스의 자료구조: 해쉬 테이블 / 서픽스 트리
10. 해쉬 테이블 기발의 서열정리
• Banana의 4-tuple 집합 = {“bana”, “anan”, “nana”}
• 씨앗서열: 위치를 확인하고 싶은 단편서열 == 참조 유전체의
염기서열의 일부분
• “actgact” 가중치가 6인 서열 모형 1110111: “acttact”도 씨앗
서열이 될 수 있다.
• 씨앗서열을 출발점으로 서열정렬을 수행(seed and extend)
11. 서픽스 트리 기반의 서열정렬
• 문자열의 모든 서피스(suffix)를 소유하는 트리구조
12. program website platform
Aligned Gbp per
CPU day
Maq maq.sourceforge.net Illumina, SOLID ~0.2
Bowtie bowtie-bio.sourceforge.net Illumina ~7
SSAHA2
www.sanger.ac.uk/
resources/software/ssaha2
Illumina, SOLID,
454
~0.5
BWA
bio-bwa.sourceforge.net/
bwa.shtml
Illumina, SOLID,
454
~7
SOAP2
www.sanger.ac.uk/
resources/software/ssaha2
Illumina ~7
단편서열을 위한 서열정렬 도구
13. SNP와 INDEL 검출
• SNP: 염기서열에서 하나의 염기만 차이를 보이는 유전적 변
화 또는 변이
• INDEL: Insertion or Deletion
• SNP와 INDEL을 검출해보는 것은 개인 유전체 중 변이를 확
인할 때 필수적인 과정
14. 개인 유전체 데이터의 활용
1. 흔한변이의 주석달기와 의학적 해석
2. 희귀변이의 주석달기와 의학적 해석
3. KEGG DISEASE Pathway mapping
4. 약물유전체학
5. 인구집단 유전체 변이 분포 구하기
15. 흔한변이의 주석달기와 의학적 해석
• 한 사람당 300만~400만 개의 변이가 발견된다.
• 흔한변이들, 나이, 성별, 건강상태 등의 정보를 활용해 질병
별 위험률 산출이 가능하다.
16. 희귀변이의 주석달기와 의학적 해석
• case가 적기 때문에 역학적 연구가 어렵다.
• SIFT: 각 변이가 해당 단백질의 기능을 얼마나 손상시킬 지 순수 계산
을 통해 추론한다.
• PolyPhen: SIFT처럼 단백질의 기능 및 구조 변화를 예측하지만 분자
의 물리적 특성과 진화론적 비교분석을 통해 추론한다.
• PhD-SNP: 단백질 서열과 프로필 정보를 기반으로 질병과의 관련 여
부를 판단한다.
• VAAST: 손상 유전자와 발병원인 변이를 추출하는 프로그램. 비코딩
영역의 변이에 대한 점수산출이 가능
17. KEGG DISEASE Pathway mapping
• 질병 분류: 단일 유전자 질환 / 다중요인 질환 / 감염성질환
• 유전적 흔들림과 환경적 흔들림에 관한 지식을 질병별 정리
• 각 질병에 대한 진단지표, 치료약물, 유전체 바이오마커를 묶
어서 표기한다.
• KEGG DISEASE Pathway map을 활용하면 유전체 변이와
질병의 다양한 요소들을 연관 지어 분석할 수 있다.
18.
19. 약물유전체학
• 유전체 변이와 약물 사이의 상관관계는 급수적으로 증가한
다.
• 제 3장에서 개인 유전체 변이 해석도구인 Interpretome을
사용해보면 상세한 논의를 할 예정
20. 인구집단 유전체 변이 분포 구하기
• 2008년 “1000명 유전체 사업”이 시작.
• 인구집단별 유전체 변이 분포 분석
• 반수체 정보, 변이 대립유전자의 연관불균형 분석