NGS(Next-Generation Sequencing) Introduction

차세대 시퀀싱 기술과
개인 유전체 시대의 개막

들어가기에 앞서..
• DNA: 뉴클레오타이드가 중합된 이중나선 구조의 유전물질
• 뉴클레오타이드 = 인산 + 디옥시리보스 + 염기(A,T,G,C)
• DNA 시퀀싱: DNA 내 염기들의 정확한 순서를 결정하는 과
정
• Sanger 시퀀싱 -> 차세대 시퀀싱

차세대 시퀀싱의 특징
• DNA를 잘게 쪼개서 작은 단편서열로 나눈 후 읽는다
• 단편 서열들 다시 정렬하고 조립하는 알고리즘이 중요

Chapter 2의 내용
• 서열 데이터 포맷
• 서열정렬 및 서열조립 알고리즘
• 서열변이의 분석과정 개괄
• 개인 유전체 데이터의 활용

서열 데이터 포맷
• FASTQ: 염기정보와 QV가 하나의 파일에 통합
• CSFATA: 염기정보와 QV가 각각의 파일에 분리
• QV: 서열 정보의 신뢰도 점수

FASTQ
• 서열id|서술>서열id|서술>서열id|서술
• QV는 ASCII 코드를 사용 한 문자로 나타냄

CSFASTA
• AACG = 013(0->AA, 1 -> AC, 3 -> CG)
• 색상코드로 염기서열을 표현

QV
• QV = 10 은 10%의 에러 확률
• QV = 20 은 1%의 에러 확률
• QV = 30 은 0.1%의 에러 확률
• 시퀀싱 장비에 따라 다를 수 있다.

서열정렬 또는 매핑
• 각 단편서열이 참조 유전체의 어디쯤에 있는 지 찾는 과정
• 대부분의 고속 알고리즘은 인덱스을 생성
• 인덱스의 자료구조: 해쉬 테이블 / 서픽스 트리

해쉬 테이블 기발의 서열정리
• Banana의 4-tuple 집합 = {“bana”, “anan”, “nana”}
• 씨앗서열: 위치를 확인하고 싶은 단편서열 == 참조 유전체의
염기서열의 일부분
• “actgact” 가중치가 6인 서열 모형 1110111: “acttact”도 씨앗
서열이 될 수 있다.
• 씨앗서열을 출발점으로 서열정렬을 수행(seed and extend)

서픽스 트리 기반의 서열정렬
• 문자열의 모든 서피스(suffix)를 소유하는 트리구조

program website platform
Aligned Gbp per
CPU day
Maq maq.sourceforge.net Illumina, SOLID ~0.2
Bowtie bowtie-bio.sourceforge.net Illumina ~7
SSAHA2
www.sanger.ac.uk/
resources/software/ssaha2
Illumina, SOLID,
454
~0.5
BWA
bio-bwa.sourceforge.net/
bwa.shtml
Illumina, SOLID,
454
~7
SOAP2
www.sanger.ac.uk/
resources/software/ssaha2
Illumina ~7
단편서열을 위한 서열정렬 도구

SNP와 INDEL 검출
• SNP: 염기서열에서 하나의 염기만 차이를 보이는 유전적 변
화 또는 변이
• INDEL: Insertion or Deletion
• SNP와 INDEL을 검출해보는 것은 개인 유전체 중 변이를 확
인할 때 필수적인 과정

개인 유전체 데이터의 활용
1. 흔한변이의 주석달기와 의학적 해석
2. 희귀변이의 주석달기와 의학적 해석
3. KEGG DISEASE Pathway mapping
4. 약물유전체학
5. 인구집단 유전체 변이 분포 구하기

흔한변이의 주석달기와 의학적 해석
• 한 사람당 300만~400만 개의 변이가 발견된다.
• 흔한변이들, 나이, 성별, 건강상태 등의 정보를 활용해 질병
별 위험률 산출이 가능하다.

희귀변이의 주석달기와 의학적 해석
• case가 적기 때문에 역학적 연구가 어렵다.
• SIFT: 각 변이가 해당 단백질의 기능을 얼마나 손상시킬 지 순수 계산
을 통해 추론한다.
• PolyPhen: SIFT처럼 단백질의 기능 및 구조 변화를 예측하지만 분자
의 물리적 특성과 진화론적 비교분석을 통해 추론한다.
• PhD-SNP: 단백질 서열과 프로필 정보를 기반으로 질병과의 관련 여
부를 판단한다.
• VAAST: 손상 유전자와 발병원인 변이를 추출하는 프로그램. 비코딩
영역의 변이에 대한 점수산출이 가능

KEGG DISEASE Pathway mapping
• 질병 분류: 단일 유전자 질환 / 다중요인 질환 / 감염성질환
• 유전적 흔들림과 환경적 흔들림에 관한 지식을 질병별 정리
• 각 질병에 대한 진단지표, 치료약물, 유전체 바이오마커를 묶
어서 표기한다.
• KEGG DISEASE Pathway map을 활용하면 유전체 변이와
질병의 다양한 요소들을 연관 지어 분석할 수 있다.

약물유전체학
• 유전체 변이와 약물 사이의 상관관계는 급수적으로 증가한
다.
• 제 3장에서 개인 유전체 변이 해석도구인 Interpretome을
사용해보면 상세한 논의를 할 예정

인구집단 유전체 변이 분포 구하기
• 2008년 “1000명 유전체 사업”이 시작.
• 인구집단별 유전체 변이 분포 분석
• 반수체 정보, 변이 대립유전자의 연관불균형 분석

NGS(Next-Generation Sequencing) Introduction

Recommended

Recommended

More Related Content

What's hot

What's hot (6)

More from Shin Kim

More from Shin Kim (8)

NGS(Next-Generation Sequencing) Introduction