2013_08_30_Bioinformatics1_yes

3,257 views

Published on

기본적인 BioInformatics 소개 첫시간

Published in: Career
0 Comments
1 Like
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
3,257
On SlideShare
0
From Embeds
0
Number of Embeds
2,026
Actions
Shares
0
Downloads
20
Comments
0
Likes
1
Embeds 0
No embeds

No notes for slide

2013_08_30_Bioinformatics1_yes

  1. 1. BioInformatics 2013.08. 윤은실
  2. 2. Contents  Sequence Homology Analysis (서열 상동성 분석) – 기본 용어 설명 – Gibbs sampling을 이용한 multiple alignment – Sequence Homology Analysis 사이트 – HMMs를 이용한 pairwise sequence alignment  대용량 바이오 데이터 생산기술과 연구 프로젝트
  3. 3. Protein function • 단백질 기능은 삼차원 구조에 의해 결정됨 • 삼차원 구조는 일차구조에 의해 결정된 • 즉, 단백질 일차구조(아미노산 서열)을 분석하여 삼차원 구조에 관한 정보를 알아내고 어떤 family에 속하는지 알 수 있으면 단백질의 기능 목표를 유추 할 수 있음 • 이때, 서열에 기능상 특징적인 부분이 있거나, 혹은 기능이 알려진 기존 단 백질과의 상동성이 있을 경우에 한해 적용됨 – 서열의 상동성보다는 구조의 상동성이 기능의 연관성을 보다 효율적으로 나타냄 – 서열의 상동성이 매우 낮은데 삼차원 구조가 매우 유사하여 기능의 연관성을 나타내는 경우 가 있음. 하지만 지금까지 알려진 삼차원 구조가 적기 때문에 서열을 이용한 모티프 분석이 더 널리 활용됨
  4. 4. Protein function • 모티프 분석하기 위해 필요한 세가지 과정 1. 모티프에 해당하는 서열을 정의하는 방법 2. 모티프에 대하여 서열을 비교하는 알고리즘이 3. 결과가 얼마나 신뢰성이 있는지 검증할 수 있는 과정 • 모티프 분석방법 – Gibbs sampling – PROSITE – HMM (BLOCKS, PRINTS) – concensus sequence(PRODOM)
  5. 5. Gibbs Sampling을 이용한 Multiple Alignment 구현 • DNA Alignment – DNA들을 정렬하여 비슷한 인자들을 찾아 유전학적으로 유용한 DNA서열을 뽑아내는 작업 – 기본적으로 N개의 유전자 정보(A, C, G, T 4가지 염기)가 있다고 가정했을 때 N by N Matrix를 만들어 유전 자 서열이 일치하는 부분을 찾아내는 방법을 사용함 (일반적으로 Waterman 알고리즘) • Multiple Alignment – 3가지 이상의 DNA를 정렬하여 유전정보를 찾아내는 작업 – DNA가 3개 이상 들어가게 되면 O(n^3) 알고리즘을 갖게 되어 엄청나게 긴 시간이 요구됨 – 이러한 문제점을 해결하기 위한 방법 중 하나가 gibbs sampling임 • Motif – DNA, RNA, Protein 에서 반복적으로 나타나는 짧은 패턴(서열 조각) – 100% 일치하진 않더라도 비슷한 반복서열은 DNA의 Multiple alignment를 하기 위한 중요한 key임
  6. 6. Gibbs Sampling을 이용한 Multiple Alignment 구현 • Gibbs Sampling – Stochastic algorithm – Motif를 탐색하는 방법 – 100% 정확한 해답을 찾아내진 않지만 빠르고 쉽게 다중 DNA의 반복서열을 찾아낼 수 있음 – 전체 서열을 탐색하는 게 아닌 임의로 선택한 위치의 가장 적절한 모티프를 탐색 • Gibbs Sampling의 동작 1) 요구 Data 1. Multiple DNA / RNA / Protein sequence 2. Motif width 3. The number of Motif 2) Input으로 주어진 DNA / RNA / Protein sequence에서 각 단위체들이 몇 % 포함되어 있는지 측정해야함 • DNA에서 AAGTC / 5개의 짧은 서열에서 A는 40%, G, T, C는 각 20%만큼 포함되어 있음 3) 무작위적으로 sequence에서 motif의 시작위치를 선택 • 100개의 염기가 존재하는 DNA서열에서 motif의 길이가 10이라고 사정한다면 1~91, 총 90개의 위치에 해당되는 경우의 수가 존재함 4) PSSM(Position Specific Score Matrix)를 구성
  7. 7. Gibbs Sampling을 이용한 Multiple Alignment 구현 [ PSSM(Position Specific Score Matrix) 구성 ] • 5개의 sequence를 준비하여 gibbs sampling을 이용해서 pssm 구성 • 1)-3 에서 The number of Motif = 8로 설정 • 3) 에서 motif의 위치를 {s1, s2, s3, s4, s5 | 7, 11, 9, 4, 1} 로 가정 • 각 5개의 sequence에서 무작위적으로 선택된 빨간부분이 motif임 • 이들 중 단 하나의 문장을 choosed sequence로 지정하여 PSSM 테이블에 포 함시키지 않음 • 예를 들어 Seq 2번을 choosed sequence로 선택한다고 가정 Seq 1. GTAAACAATATTTATAGC Seq 2. AAAATTTACCTTAGAAGG Seq 3. CCGTACTGTCAAGCGTGG Seq 4. TGAGTAAACGACGTCCCA Seq 5. TACTTAACACCCTGTCAA Seq 1. GTAAACAATATTTATAGC Seq 2. AAAATTTACCTTAGAAGG Seq 3. CCGTACTGTCAAGCGTGG Seq 4. TGAGTAAACGACGTCCCA Seq 5. TACTTAACACCCTGTCAA
  8. 8. Gibbs Sampling을 이용한 Multiple Alignment 구현 • Gibbs Sampling – Stochastic algorithm – 100% 정확한 해답을 찾아내진 않지만 빠르고 쉽게 다중 DNA의 반복서열을 찾아낼 수 있음(전체 탐색이 아 닌 확률을 사용한 부분 탐색임) • Gibbs Sampling의 동작 1) 요구 Data 1. Multiple DNA / RNA / Protein sequence 2. Motif width 3. The number of Motif 2) Input으로 주어진 DNA / RNA / Protein sequence에서 각 단위체들이 몇 % 포함되어 있는지 측정해야함 • DNA에서 AAGTC / 5개의 짧은 서열에서 A는 40%, G, T, C는 각 20%만큼 포함되어 있음 3) 무작위적으로 sequence에서 motif의 시작위치를 선택 • 100개의 염기가 존재하는 DNA서열에서 motif의 길이가 10이라고 사정한다면 1~91, 총 90개의 위치에 해당되는 경우의 수가 존재함 4) PSSM(Position Specific Score Matrix)를 구성 5) PSSM에서 주어진 결과의 score 측정
  9. 9. Gibbs Sampling을 이용한 Multiple Alignment 구현 [ PSSM에서 주어진 결과의 score 측정 ] Seq 2. AAAATTTACCTTAGAAGG 0.25 * 0.5 * 0.5 * 0.75 * 0.5 * 0.25 * 0.25 * 0.5 = 0.000732421875 • Seq 2의 가장 안정적인 시작위 치는 1이므로 기존 시작위치인 { 7, 11, 9, 4, 1}을 { 7, 1, 9, 4, 1} 로 바꾸어 앞 과정을 시작 위치 가 더 이상 변화가 없을 때까지 반복함
  10. 10. motif, pattern, profile, signature, domain • Motif : 서열에서 ‘보존된 서열의 부분(conserved “blocks” of sequences)’의 의미를 갖고, 구조에 서는 ‘몇 개의 이차 구조가 특정한 모양으로 배열되어 이룬 구조(combination of a few secondary structure with a specific geometric arrangement)’로 여러 단백질에서 공통적으로 발 견되고 기능 혹은 구조적 역할을 수행함 • Pattern : 모티프보다는 약간 넓은 의미 • Profile : 다중서열 정렬에서 유도된 결과를 나타낼 때, 어느 한 서열이나 구조적 모티프로 나타내 는 다중서열의 모델을 의미 • Signature : 주로 PROSITE에서 사용하는 용어, 전체 패턴의 한 부분으로, 이 부분만으로도 단백질 의 특성(구조 혹은 기능)을 알아낼 수 있는 ‘short diagnostic pattern’을 의미함, 단백질간 상동성 을 찾아내고 family를 정의할 때 활용됨 • Domain : 하나 혹은 그 이상의(구조적 의미의) 모티프가 모여 이루어진 독립적인 단위체로 일반 적으로 고유의 기능을 가짐 • Family : 유전적으로 확실한 관계가 있다고 판단되는 단백질들의 집합 – Pairwise sequence alignment에서 상동성이 약 30% 이상 되는 관계 • SuperFamily: 한 개 혹은 그 이상의 family가 속하게 되며, 구성 단백질 사이의 상동성이 낮아 유 전적으로 명확한 관계가 나타나지는 않지만 아마도 같은 조상으로부터 진화했을 것으로 판단되 는 단백질들의 집합을 뜻함
  11. 11. Sequence Homology Analysis 사이트 • PROSITE (http://prosite.expasy.org/prosite) • 상동성이 있는 여러 서열로부터 regular expression을 이용하여 모티프를 얻음 • 단백질 family & 도메인의 데이터베이스로, 지금까지 밝혀진 모티프를 이용하여 새 로운 단백질이 속하는 family를 찾아냄 • PROSITE와 같이 서열간 상동성 비교, 모티프 발견 등의 서비스를 제공하는 사이트가 많이 존재함(HMMs를 활용하여 모티프 분석하는 사이트도 많이 있음)
  12. 12. 대용량 바이오 데이터 생산기술과 연구 프로젝트 1. 유전체 분야 거대 프로젝트 A. Human Genome Project • 1993-2003 / 미국 에너지부와 국립보건원에서 주도 / 영국, 일본, 프란스, 독일, 중국에서 협력 / 인간 DNA안에 존재하는 약 20,000개 의 유전자를 증명, 인간 DNA의 30억 개의 염기서열을 결정, 데이터베이스화, 분석도구 개발 등을 목표로 함 B. International HapMap Project • 일본, 영국, 캐나다, 중국, 나이지리아, 미국의 지원자들의 유전체를 집중 분석하여 인간의 질병을 야기시키는 유전적 변이나 유사성을 증명하고 카탈로그화 함 / HapMap 정보로 건강, 질병, 후천적 요인에 의해 반응하는 개인차에 관련된 유전자들을 손쉽게 찾고 연구할 수 있음 C. 1,000 Genomes Project • 대규모 사람의(약 1,200명) 유전체를 해독하는 첫 번째 프로젝트임 / 게놈 분석을 통해 인간의 병을 야기시키는 유의미한 유전적 변이 를 찾는 프로젝트 / 2010-2011에 걸쳐 총 2,500 샘플의 변이 정보를 제공 D. International Human Epigenome Consortium(IHEC) • 후성유전체연구 / 인간의 세포 타입, 분화 단계마다 1,000개 이상의 참조 후성유전체를 만드는 것 / 인간 질병의 후성학적 메커니즘을 연구하는데 발판을 마련할 프로젝트임 E. ENCyclopedia of DNA Elements(ENCODE) • 염기서열의 기능 및 각 조절인자의 역할을 규명 / 유전자, 프로모터, 발현 조절 인자, 전사 조절 인자, methylation 부위 등 요소들이 유전 자 발현과정에 관여하는 분자적 기전을 설명할 수 있는 정보를 얻기 위해 연구 F. Beijing Genome Institute(BGI) • 1999년 설립 / 세계 3대 유전체 분석 기관(미국 Broad Institute, 영국 Sanger Sequencing Center) / 많은 프로젝트 수행 후성유전체유전체를 뛰어넘는, 유전체 이후의, DNA 유전정보외에 유전자 발현에 영향을 주는 요인을 연구
  13. 13. 대용량 바이오 데이터 생산기술과 연구 프로젝트 2. 대용량 유전체 분석기술 동향 A. Whole-Genome Seq • 한 생명체가 가지고 있는 유전체의 전체 DNA 서열을 결정하는 기술 / 서로 다른 개체들간 개체특이적인 변이, 질환 특이적 변이를 찾 는데 매우 유용함 / reference 데이터가 없는 생물 종의 경우 유전체 초안지도 작성을 위해 WGS기술이 쓰임 B. RNA-Seq • 기존 마이크로어레이 기술에서 측정하던 세포에서의 expression level 측정을 더욱 정확하게 할 수 있는 새로운 기술 / 전체 전사체 (transcriptome)의 정량을 정확히 측정하는 것과 구조적인 분석이 가능함 / 정상 세포와 암 세포 간에 발현양이 차이가 나는 유전자를 선택하고 이에 대한 치료법을 연구하는 것이 활발히 진행되고 있음 C. Exome-Seq • 다양한 유전 질병의 원인 유전자를 발굴하는데 사용됨 / 지정된 exon 영역에 한하여 서열 결정된 데이터들을 사용하기 때문에 질병의 원인이 유전자에 국한되지 않거나 다른 영역에서의 유의한 variation 등에 기인할 경우 제대로 포착 해내지 못함 D. ChIP-Seq • Chromatin Immunoprecipitation / DNA와 단백질 간의 상호작용을 분석하기 위하여 특정 단백질과 binding하는 DNA 서열을 알아내 기 위해 사용됨 / antibody를 통해 관심 있는 단백질과 물리적으로 연결된 특정 DNA위치는 ChIP 실험에 의해 분리됨 / 이를 확인하 는 방법으로 마이크로어레이를 사용하면 ChIP-chip, NGS 기술을 이용하면 ChIP-Seq가 됨 E. FAIRE-Seq • Formaldehyde-Assisted Isolation of Regulatory Elements Sequencing / regulatory activity와 연관된 유전체의 DNA region을 밝히기 위해 사용함 / 기존의 GWAS(Genome-Wide Association Study) 연구로 밝혀내지 못한 다양한 만성질환 및 복합질환들의 원인을 보완 하기 위한 후성연구체(Epigenetic) 연구가 진행 중임 / 복합질환에서의 Epigenetic 변화를 찾아내고 임상 정보와 연계하여 질병의 진단 치료에 활용할 수 있는 유전체 연구 기반이 구축되어 있음 GWAS(Genome-Wide Association Study) = 환자와 정상인에 해당하는 여러 개체의 DNA 정보를 생성한 뒤, Dna 서열의 차 이를 분석하면 질병과 관련된 DNA 서열에 대한 정보를 얻어내는 방법
  14. 14. DigSee: Disease gene search engine with evidence sentences(version cancer) • 암과 관련된 MEDLINE abstracts에서 1,391,019 evidence sentences를 수집 하였음 – Evidence sentences는 최소한 하나의 gene name(Entrez gene ID가 붙어있는)이 포함되고 있고 하나의 event(Turku event extraction system에서 추출된)가 있어야 함 – 본 연구에서, gene과 protein 을 찾기 위해 ABNER라는 시스템이 사용되었음 – Gene과 protein의 표현은 Moara를 이용해 normalization했음
  15. 15. DigSee: Disease gene search engine with evidence sentences(version cancer) • Gold-standard data 생성을 위해 일부 evidence sentences를 사용하여 positive or negative evidence로 분류함 – Positive : 문장에서 추출된 gene이 어떠한 event를 갖고 있고, 암 발생에 관련된 것이라는 정보를 담고있을 경우 • Ex) Significantly, down-regulation of SOX9 by siRNA in prostate cancer cells reduced endogenous AR protein levels, and cell growth indicating that SOX9 contributes to AR regulation and decreased cellular proliferation. – Negative: 문장에서 추출된 gene이 암 발생에 관련이 없는 경우, 혹은 추출된 event가 gene 혹은 cancer와 관련이 없는 경우 • Ex) To determine the role of CD147 in the invasiveness properties of prostate cancer, we success- fully down- regulated CD147 by RNA interference (RNAi) technology, in PC-3 cell line at high level of CD147 expression. • Event types – 유전자 발현(gene expression), 조절(regulation), 인산화(phosphorylation), 단백질의 세포 내 위치 확인(localization), 단백질 이화(protein catabolism), 단백질 상호 작용(binding), 전사 (transcription) 등 유전자의 상태 변화에 대한 내용을 추출함
  16. 16. 1. Kim J, So S, Lee H-J, Park JC, Kim J-J, Lee H. DigSee: disease gene search engine with evidence sentences (version cancer). Nucleic acids research. 2013;41(Web Server issue):W510–7. 2. 고건환, 구남진, 박성진, 박기정. 대용량 유전체처리 기술 전망. 정보과학회지 2013.8
  17. 17. link • 후성유전체 – http://hongiiv.tistory.com/669 (DNA methylation) – http://hongiiv.tistory.com/670 (histone modification) • 1,000 genome project – http://hongiiv.tistory.com/761 • Gibbs Sampling – http://celdee.tistory.com/372 – http://sosal.tistory.com/432 • 전국 대학생 Biocomputing 경진대회 – http://biosoft.kisti.re.kr/bcc2011/index.html

×