Calkan tubitak-yazokulu

Yeni Nesil DNA Dizileme
Analizi
Can Alkan
Bilgisayar Mühendisliği Bölümü,
Bilkent Üniversitesi

Kavramlar
 Gen: kalıtsal bilgiyi taşıyan, kromozomlar içinde bulunan
ve DNA’dan oluşan diziler.
 Genetik: kalıtım ile geçen fenotiplerin incelenmesi
 Genotip: bir organizmanın genetik yapısı
 Fenotip: bir organizmanın fiziksel özelikleri
 Genom: bir organizmadaki tüm kalıtsal bilgilerin tamamı
 Genomiks: tüm genomun analizi (çoğu canlı için DNA,
retrovirüsler için RNA)
 Trankriptom: tüm RNA moleküllerinin kümesi
 Proteom: tüm protein moleküllerinin kümesi

Yaşam 3 moleküle dayalıdır
 DNA  ‘sabit disk’
 Hücrenin nasıl çalıştığına dair bilgileri tutar
 RNA  ‘RAM’
 Protein sentezi için şablon
 Kısa bilgi parçalarını (DNA’dan) hücrenin değişik kısımlarına taşır
 Protein  ‘robot kolu, anakart bus, vs.’
 Vücudun temel yapıtaşları
 Diğer hücrelere sinyal yollayan ve gen aktivitesini düzenleyen
enzimleri oluşturur
 Bilgisayar mühendisleri açısından bu moleküller üç
alfabeden üretilmiş karakter dizileridir

Alfabeler
DNA: (bazlar)
Σ = {A, C, G, T}
A ve T; G ve C eşleşir
RNA: (bazlar)
Σ = {A, C, G, U}
A ve U; G ve C eşleşir
Protein: (amino asitler)
Σ = {A,C,D,E,F,G,H,I,K,L,M,N,P,Q,R,S,T,V,W,Y}
B = N | D
Z = Q | E
X = herhangi

Biyolojinin temel dogması
DNA pre-mRNA mRNA
protein
 Baz çiftleşme kuralı: A ve T veya U 2 hidrojen bağı ile, and G ve C is
3 hidrojen bağı ile tutulur.
 Not: Bazı RNA molekülleri RNA olarak kalır (örn tRNA,rRNA,
miRNA, snoRNA, vb.).
Splicing
Spliceosome
Translasyon
Transkripsiyon
Çekirdek
Ribozom

Genom
 Bir canlının tüm DNA’sındaki kalıtımsal
şifrelerin tamamı
 İnsan genomu 6 milyar baz çiftinden oluşur, anne
ve babadan 3’er milyar baz çifti gelir
 4 çeşit baz: adenin (A), sitozin (C), guanin (G),
timin (T)

Genom büyüklükleri
Organism Genom Uzunluğu
(Baz)
Tahmini gen
sayısı
İnsan (Homo sapiens) 3.2 milyar 25,000
Fare (M. musculus) 2.6 milyar 25,000
Hardal otu(A. thaliana) 100 milyon 18,000
Solucan (C. elegans) 97 milyon 16,000
Sirke sineği (D.
137 milyon 12,000
melanogaster)
Maya (S. cerevisiae) 12.1 milyon 5,000
Bakteri (E. coli) 4.6 milyon 3,200
HIV 9700 9

Referans genomu
 Uluslararası İnsan Genomu Projesi (ABD, İngiltere, Çin, Japonya,
Almanya, Fransa)
 4 bireyden oluşturulan 3.2 milyar baz çiftlik “referans genomu”
 Son versiyon: “NCBI GRCh37” = “hg19”
http://genome.ucsc.edu

İnsan genomu “içeriği”
 Genler (~%35; ama sadece %1’lik kısmı protein
kodlayan ekzonlar)
 Pseudogenler: kodlama/anlatım özelliğini yitirmiş genler
 Evrimsel kayıplar
 “İşlenmiş” pseudogenler (processed pseudogenes)
 Tekrarlar (~%50)
 Mobil DNA (Transposable elements): kendi kendilerini kopyalayıp
yapıştırabilen DNA dizileri. Genelde virüs temelli.
 Satelitler (short tandem repeats [STR]; variable number of
tandem repeats [VNTR]). 2-171 baz arasında ardışık tekrar eden
DNA dizileri
 Büyük duplikasyonlar (Segmental duplications) (%5)
 İçlerinde gen ve tekrarlar barındırabilirler

Gen
 DNA dizisinin RNA’ya kopyalanabilen (transkripsiyon) kısımları
 Düzenleyici bölgeler: 50 kb’ye kadar başlangıçtan önceki bölüm
 Ekzon: protein kodlayan kısımlar
genlerde 1 - 178 ekzon (ortalama 8.8)
ekzon uzunluğu 8 – 17000 baz (ortalama145 baz)
 Intron: ekzonlar arasında kalan kısım; translasyon öncesinde
kesilir (splicing)
uzunluk 1 kb – 50 kb arası
 Gen uzunluğu: en uzunu – 2.4 Mb (Dystrophin). Ortalama – 27 kb.

Genom - Gen
atgaccgggatactgatagaagaaaggttgggggcgtacacattagataaacgtatgaagtacgttagactcggcgccgccg
acccctattttttgagcagatttagtgacctggaaaaaaaatttgagtacaaaacttttccgaatacaataaaacggcggga
tgagtatccctgggatgacttaaaataatggagtggtgctctcccgatttttgaatatgtaggatcattcgccagggtccga
gctgagaattggatgcaaaaaaagggattgtccacgcaatcgcgaaccaacgcggacccaaaggcaagaccgataaaggaga
tcccttttgcggtaatgtgccgggaggctggttacgtagggaagccctaacggacttaatataataaaggaagggcttatag
gtcaatcatgttcttgtgaatggatttaacaataagggctgggaccgcttggcgcacccaaattcagtgtgggcgagcgcaa
cggttttggcccttgttagaggcccccgtataaacaaggagggccaattatgagagagctaatctatcgcgtgcgtgttcat
aacttgagttaaaaaatagggagccctggggcacatacaagaggagtcttccttatcagttaatgctgtatgacactatgta
ttggcccattggctaaaagcccaacttgacaaatggaagatagaatccttgcatactaaaaaggagcggaccgaaagggaag
ctggtgagcaacgacagattcttacgtgcattagctcgcttccggggatctaatagcacgaagcttactaaaaaggagcgga

chr22:41,295,343-42,660,744
http://genome.ucsc.edu

İnsan genom çeşitliliği
Sıklık
Genetik farklılık türleri
Tek Nükleotid Polimorfizm (TNP [SNP])
Kopya Sayısı Varyasyonu (KSV [CNV])
ve Yapısal Varyasyon (YV [SV])
Kromozomal
(trizomi/monozomi)
1 bp 1 kbp 1 Mbp
1 kromozom
Değişken büyüklüğü
Nasıl bulunur?
SNP genotipleme/Sanger dizileme
Array-CGH
Karyotipleme
Yeni nesil dizileme
Verimlilik
1 bp
1 kbp 1 Mbp
1 kromozom
Değişken büyüklüğü

Tek nükleotidlik ve kısa değişimler
TNP: İnsanlar arasında tek nükleotidin değişimi ile oluşan farklar
Kısa indel: 1-50 baz uzunluğunda silinme ve eklenmeler
referans: C A C A G T G C G C - T
birey: C A C C G T G - G C A T
substitüsyon silinme eklenme
(TNP / SNP) (indel)
 Kişi başına 3-4.5 milyon arası TNP, yaklaşık 500 bin kısa indel
 Birçoğu etkisizdir, bazıları genlerin ifade ettiği proteinleri etkiler
 Nonsense mutasyon: Genin ifadesini durdurur (örn: Akdeniz anemisi)
 Missense mutasyon: İfade edilen proteini değiştirir (örn: ALS)
 Frameshift (indel): DNA kodunda kaymaya neden olup proteini değiştirir (örn:
hiperkolesterol)

Kısa tekrar (mikrosatelit) polimorfizmi
Tekrar eden ardışık tekrarlardaki değişim
referans: C A G C A G C A G C A G
birey: C A G C A G C A G C A G C A G
 Adli tıpta ve babalık testlerinde kullanılır
 Bazı hastalıklara yol açabilir:
 Kırılgan X Sendromu (Fragile X Syndrome)
 Huntington hastalığı

Yapısal ve Kopya Sayısı Varyasyonu
SİLİNME YENİ DİZİ EKLEME TRANSPOZON EKLEME
(deletion) (novel sequence ins.) (transposon insertion)
Alu/L1/SVA
ARDARDA KOPYA AYRIŞIK KOPYA
(tandem duplication) (interspersed duplication)
İNVERSİYON TAŞINMA
(inversion) (translocation)
Kopya sayısı
Varyasyonu
(copy number
variation)
Dengeli
Varyasyon
(balanced
rearrangement)

Yapısal ve Kopya Sayısı Çeşitlilikleri
Eklenme
Silinme
Çevrilme (inversion)
 ‘Bireysel olarak ender, toplu
olarak yaygın’
 Kişi başına yaklaşık 15-20
milyon baz çiftini etkiler
 Çoğunun etkisi yok ya da
azdır, genlerin silinmesi ya da
kesintiye uğraması
durumunda hastalığa yol
açabilir:
 Silinme: otizm, zeka geriliği,
Crohn hastalığı
 Kopyalanma: şizofreni, sedef
hastalığı
 Taşınma: CLL (lösemi)
 Transpozon: hemofili
Kidd et al., Nature, 2008

Genomik farklılık keşif projeleri
 Uluslararası HapMap Projesi
 4 toplumdan 270 birey
 İnsan Genomu Çeşitlilik Projesi (HGDP)
 52 toplumdan 1050 birey
 Dizileme projeleri:
 1000 Genom Projesi
 29 toplumdan 2500 birey (planlanan)
 Analizi amamlanan: 14 toplumdan 1092 birey (Kasım
2012)
 2500 birey dizilenmesi tamamlandı, analiz sürüyor
 Bağımsız projeler:
 Güney Afrika, Kore, Hindistan, Japonya, İngiltere, Suudi
Arabistan, İran, İrlanda, Hollanda, vs.

Genom dizileme maliyeti
$1,000
$10,000
$100,000
$1,000,000
$10,000,000
$100,000,000
01/09/01
01/12/01
01/03/02
01/06/02
01/09/02
01/12/02
01/03/03
01/06/03
01/09/03
01/12/03
01/03/04
01/06/04
01/09/04
01/12/04
01/03/05
01/06/05
01/09/05
01/12/05
01/03/06
01/06/06
01/09/06
01/12/06
01/03/07
01/06/07
01/09/07
01/12/07
01/03/08
01/06/08
01/09/08
01/12/08
01/03/09
01/06/09
01/09/09
01/12/09
01/03/10
01/06/10
01/09/10
01/12/10
01/03/11
01/06/11
http://www.genome.gov/SequencingCosts/
Tarih
Maliyet

Dizileme: eski ve yeni nesil
Cihaz Nesil Yöntem
Dizi parça
uzunlugu Hata oranı (%) Cihaz fiyatı ($)
Dizileme (Mb)
maliyeti ($)
AB 3730xl 1 Sanger 1000 0.1 376,000 1,500
454 FLX 2 Sentez 700 1 500,000 7
Illumina HiSeq2000 2 Sentez 100 0.1 690,000 0.04
SOLiD 5500 2 Ligasyon 75 0.1 595,000 0.07
Pacific Biosciences 3 Sentez 1500 15 695,000 11
Ion Torrent 3 Sentez 200 1 50,000 0.95
Beklenen teknolojiler: Oxford Nanopore, Starlight, Halcyon, v.d.
2011 ortası itibarıyla

Genom dizileme
Varyasyon
Örneklenen
genom Rastgele parçalama
Eşli dizileme (paired-end seq.)
Referans Dizi parçacığı (read) hizalama
Genomu
(İGP) Biyoenformatik analiz
Bulunan farklılıklar
Sonuçlar
Deneysel doğrulama
Dizileme
hataları

Kapsama (coverage)
Genom uzunluğu: L
Parçacık sayısı: n
Ortalama parçacık uzunluğu: l
Kapsama / dizileme derinliği (coverage / sequencing depth):
Genomdaki her baza denk gelen ortalama parçacık sayısı
Kapsama K = n l / L
30X kapsama = baz başına ortalama 30 parçacık
Lander-Waterman modeli:
Tekbiçim dağılım (uniform distribution) varsayımı ile, K=10 ise her 1
milyon nükleotidde 1 boş bölge kalır
K

Ekzom ya da tüm genom
 Ekzom dizileme sadece protein kodlayan kısımları
inceler
 Genomun %1’i
 Tek gen hastalıkları ve Mendel kalıtımına uyan hastalıklar için
genelde iyi sonuç verir
 > 60X kapsama gerekir
 Tüm genom dizileme ile intronlar, UTR’lar,
promotörlerdeki hastalık nedeni mutasyonlar da
bulunabilir
 Crohn hastalığı: McCarroll 2008, Bekpen 2009
 ALS-FTD: Renton, 2011
 > 30X kapsama gerekir

Biyoenformatik analizler
 Tekrar dizileme (resequencing): elde bir
referans genomu varsa karşılaştırılma yapılır
(örn. İnsan, fare, şempanze, vs.)
 Parçacık hizalama (read mapping): Her
parçacığın referans genomuna mümkün olan en
az değişiklik ile eşleştirilmesi
 Yeni dizileme (de novo sequencing): referans
genomu olmayan türlerin analizinde (örn: inci
kefali)

Tekrar dizileme analizi
Dizileme
parçacıklar
BWA, Bowtie, mrFAST, vb.
parçacık hizalama
(read mapping)
TNP/indel keşfi Yapısal farklılık keşfi
GATK,
SOAPsnp, vb.
VariationHunter,
GenomeSTRiP, Delly, vb.
Annovar, snpEff, SIFT, vb. Ingeniuty, DADA, vb.
Yorumlama, veritabanı karşılaştırma, gen
önceliklendirme
Protein etkileşimi ve yolak analizi

Hizalama algoritmaları
 İki ana ‘tip’
 Hash tabanlı ‘seed-and-extend’ (hash table, suffix array, suffix
tree)
 Genomdaki kısa k-mer’ları indeksle
 Dizi parçasının yerini ararken, parçanın içinden kısa bir k-mer’in
yerini indeksten bul, hizalamaya oradan devam et
 Tüm genom için yüksek miktarda bellek gerekir, ama hız feda
edilerek bellek gereksinimi azaltılabilir
 Hassas ancak yavaş
 Burrows-Wheeler Transform & Ferragina-Manzini Index
 BWT algoritması ile genom sıkıştırır ve FM ile sıkışmış genom
indekslenir
 Arama ‘binary search’ benzeri bir yöntemle yapılır. Hatasız
hizalamalar çabuk bulunur.
 Hassaslığı azdır

BWT-FM
 Tüm referans genomu
sıkıştırarak indeksle
 Dizi parçasını sondan
başa doğru karakter
karakter hizala
 Her karakter için bütün
olası koordinatlar
hesaplanır
 Uyumlu hizalama
bulunmadığında bir
karakter geriye gidip,
değişik karakter aranır

YÇD ile TNP/indel keşfi
 Database: dbSNP
http://www.ncbi.nlm.nih.gov/projects/SNP/
 Girdi: Dizileme verileri ve referans genomu
 Çıktı: TNP ve indeller ve genotipleri
(homozigot/heterozigot)
 TNP/indel keşif algoritmaları istatiksel analize dayanır
 Birden fazla lokasyona eşlenen dizi parçaları (parçacık,
read) genelde elenir
 Sıklıkla hata görülür, filtreleme gerekir

Tekrar dizileme ile TNP keşfi
referans genomu
parçacık yerleştirme
parçacık
hizalama
Paralog tespidi
TNP keşfi

Amaç
 Referans genomuna hizalanmış kısa parçacıklar
incelendiğinde görülen farklılıklardan gerçek
TNP ve dizileme hatalarının ayırılması
TCTCCTCTTCCAGTGGCGACGGAAC
CTCCTCTTCCAGTGGCGACAGAACG
CTCTTCCAGTGGCGACGGAACGACC
CTTCCAGTGGCGACGGAACGACCC
TNP?
CCAGTGGCGACTGAACGACCCTGGA
CAGTGGCGACAGAACGACCCTGGAG
Dizileme
hatası
Referans TCTCCTCTTCCAGTGGCGACGGAACGACCCTGGAGCCAAGT

Zorluklar
 Dizileme hataları
 Tekrar ve duplikasyonlardaki paralog dizi
varyanları
 Hizalama hataları
 TNP ve indellerin yanlış hizalanması
 Kısa ardışık tekrarlar
 Düzeltmek için Çoklu Dizi Hizalaması (ÇDH)
gerekir

Başlıca TNP/indel tahmin programları
 Genome Analysis Tool Kit (GATK; Broad
Inst.)
 Samtools (Sanger Centre)
 PolyBayes (Boston College)
 SOAPsnp (BGI)
 VARiD (U. Toronto)

TNP tahmin hataları ve filtreleme
 TNP tahminlerinde çok sayıda hata bulunur
 Sistematik okuma hataları, parçacık yerleştirme ve hizalama
hataları
 Ham TNP tahminlerinde %5‐%20 arası yanlış pozitif olabilir
 “Sert” filtreler:
 Okuma derinliği (çok az ve çok fazla kapsama)
 Alel dengesi
 Baz kalitesi
 İplik meyli (strand bias)
 Küçük bölgelerde TNP sayısının fazlalığı
 İstatistiksel filtreler:
 dbSNP, HapMap, mikrodizin verileri ile istatiksel skorlama
 VQSR: Variant Quality Score Recalibration (GATK programında)

YAPISAL VE KOPYA SAYISI
VARYASYONU

Yapısal ve Kopya Sayısı Varyasyonu
SİLİNME YENİ DİZİ EKLEME TRANSPOZON EKLEME
(deletion) (novel sequence ins.) (transposon insertion)
Alu/L1/SVA
ARDARDA KOPYA AYRIŞIK KOPYA
(tandem duplication) (interspersed duplication)
İNVERSİYON TAŞINMA
(inversion) (translocation)
Kopya sayısı
Varyasyonu
(copy number
variation)
Dengeli
Varyasyon
(balanced
rearrangement)
Otizm, Crohn’s
Hemofili
Şizofreni, sedef
Lösemi (CLL)

Keşifteki zorluklar
Silinme ve duplikasyonlar > 5 Kbp; aynı 5 kişinin genonumda
790
283
128
5
634
278
132 84
25
76
130
5
Fosmid klonu
eşli dizileme
End-sequence pair
(N = 1,206)
42 milyon oligolu
arrayCGH
Conrad et al., 2010
(N = 1,128)
Affymetrix 6.0 TNP microdizin
McCarroll et al., 2008 (N = 236)

Sorunlar
 Çoğu YV duplikasyonlar ve uzun tekrarların içinde ya da yakınında
bulunur
 Okunan dizileri kısa olduğundan çok sayıda farklı yere hizalanabilir, bu
da yanlış pozitifleri artırır
 Sadece tek bir yere hizalanan diziler dikkate alınırsa hassaslık azalır
 Referans genomu da tam değildir, eksik kalan duplike paraloglarından
gelen diziler hem yanlış pozitifleri hem de yanlış negatifleri artırır
 YV’lerin çoğu karmaşıktır, aynı lokasyonda bir çok YV bulunabilir
 KSV keşfi üzerine çok çalışılmıştır ancak hala mükemmellik
yakalanamamıştır
 Dengeli YV’lerin (inversiyon, translokasyon) keşfi daha zordur ve iyi
çalışılmamıştır

YV için dizi sinyalleri
 Eşli dizi analizi (read pair – RP)
 Tüm YV türleri
 Bulunan YV’lerin büyüklüğü ve yerlerinin kesinliği
eşler arasındaki mesafeye bağlı
 Dizileme derinliği analizi (read depth – RD)
 Sadece silinme ve duplikasyonlar (KSV)
 Bulunan KSV’lerin başlangıç/bitiş yerleri yaklaşık
bulunur
 Ayrık dizi analizi (split read – SR)
 Tekrarsız genomik bölgelerdeki tüm YV türleri
 Bulunan YV’lerin yerleri kesindir
 Yerel ve genel de novo birleştirme
 Tekrarsız genomik bölgelerdeki tüm YV türleri
 Bulunan YV’lerin yerleri kesindir

Bazı YV algoritmaları
Silinme Eklenme İnversiyon Transpozon Duplikasyon Mikrosatelit
RP
VariationHunter X Kısa X X X
BreakDancer X Kısa
HYDRA X Kısa X X
Tangram X
RD
CNVnator X X
RDXplorer X X
SR
Pindel X Kısa
SPLITREAD X Kısa X X X X
lobSTR X
RP+SR
Delly X Kısa
Invy X
GenomeSTRiP X Kısa X
AS
Cortex X X
NovelSeq X

1000 Genomes Projesinde YV
Approach Algorithm name Platform Genomes
SV types discovered (size-range of
validated SVs in basepairs)
SV
calls
valid
ated
FDR
(PCR)
FDR
(array)
FDR
(hierar
ch.)
Event-wise testing Illumina 6 DEL (200 - 221,800); DUP (200 - 415,700) 5,762 1,952 0 0.230 0.230
CNVnator Illumina 6 DEL (100 - 412,475) 17,036 2,361 - 0.142 0.142
AB large indel tool SOLiD 1 DEL (67 - 83,391) 1,138 480 0.188 0.084 0.143
AB large indel tool SOLiD 1 INS (448 - 2,213) 632 42 0.176 - 0.176
Spanner Illumina 6 TEINS (51 - 6,012) 2,013 179 0.022 - 0.022
Spanner Illumina 6 DEL (50-192,167) 4,718 3,619 0.100 0.033 0.087
PEMer 454 1 DEL (941 - 960,004) 1,062 483 0.095 0.363 0.363
VariationHunter Illumina 6 DEL (52 - 498,738) 11,028 4,231 0.103 0.419 0.190
BreakDancer Illumina 6 DEL (51 - 1,035,808) 5,973 3,587 0.115 0.145 0.121
N/A Illumina 6 DEL (276 - 959,518) 3,419 2,584 0.136 0.085 0.121
Mosaik 454 2 TEINS (300 - 6,000) 1,463 172 0.055 - 0.055
Pindel Illumina 6 DEL (51 - 46,384) 3,879 2,960 0.201 0.127 0.189
N/A 454 1 DEL (51 - 703,404); INS (52 - 295) 32,187 3,845 0.545 0.519 0.543
SOAPdenovo Illumina 6 DEL (64 - 3,907) 160 55 0.531 0.531 0.497
SOAPdenovo Illumina 6 INS (55 – 4,116) 3,894 22 0.810 - 0.810
Cortex Illumina 1 DEL(52-39,512);DUP(83-2,090) 2,787 896 0.415 0.415 0.410
Cortex Illumina 1 INS(50-828) 389 84 0.398 - 0.398
NovelSeq Illumina 6 INS (200 - 8,224) 657 30 0.791 - 0.791
IN
Spanner Illumina 6 TANDUP (55-64,230) 256 88 0.049 - 0.049
AS SR PE RD
1000 Genomes Consortium, Nature, 2010

1000 Genomes Projesinde YV:
hassaslık
Mills et al., Nature, 2011

Kapsamlı bir metot yok
486
4
3250
303
6855 (63%)
3223 (80%)
1772 (33%)
RP
N=6
RD
N=4
SR
N=4
1000 Genomes Projesi’ndeki
doğrulanmış silinmeler
Kidd et al., Cell, 2010

486
4
3250
303
6855 (63%)
3223 (80%)
1772 (33%)
RP
N=6
RD
N=4
SR
N=4
Tavsiyeler:
• Birden çok metot kullanmak

486
4
3250
303
6855 (63%)
3223 (80%)
1772 (33%)
RP
N=6
RD
N=4
SR
N=4
Tavsiyeler:
• Birden çok metot kullanmak
• Kullanılan metotların hassaslık
(sensitivity), hatalı keşif oranı
(false discovery rate) ve hangi
tür varyasyonları nasıl bir genomik
altyapıda bulabileceğini bilmek

Varyasyon keşfi – özet
 Parçaçık hizalama: BWA, mrFAST, Bowtie
 TNP ve indel: GATK, samtools, SOAPsnp
 Yapısal:
 Silinme, eklenme: VariationHunter, Delly,
BreakDancer, GenomeSTRiP, Pindel, HYDRA...
 İnversiyon: VariationHunter, Invy
 Transpozon: VariationHunter, Tangram
 Mikrosatelit: lobSTR, SPLITREAD, Pindel
http://seqanswers.com/wiki/SEQanswers

Keşif sonrası
 Yorumlama
 Annovar
 snpEff
 VAAST
 Etkiler
 PolyPhen2
 SIFT
 SNAP
 MutationTaster
 Evrimsel korunum
 GERP
 phastCons
 Protein etkileşimi ve
yolaklar
 DADA, VAVIEN, vb.
 Protein yolakları
 Ingeniuty, vb.
Fonksiyonal analiz; hayvan modelleri, vb.
Cooper & Shendure, Nature Reviews Genetics, 12(9):628-40, 2011

GENOM BİRLEŞTİRME
(ASSEMBLY)

Genom Birleştirme
Test genomu
Rastgele parçalama
Dizileme
Contig /
scaffold
Birleştirme (assembly)

Zorluklar
 DNA ikili sarmal olduğundan birleştirme
algoritmaları her dizi için 2 versiyona
dikkat etmeli
 Dizileme hataları
 Tekrarlar ve duplikasyonlar
 Heterozigosite
 Diploid genomlar: Her pozisyon için 2 alternatif
 Polyploid bitki genomlarını birleştirmesi daha
zor (>2 alternatif)

Zorluklar
 Büyük genomlar için gereken:
 Daha yüksek hesaplama gücü
 Daha çok bellek (>300 GB)
 Kontaminasyon / karışım:
 DNA dizilenirken başka kaynaklardan DNA da birlikte
okunur
 Örn: maya, E. coli, diğer bakteriler, vb.
 ‘Big data’
 Milyarlarca kısa dizi parçacığı ile çalışılır

56
Birleştirme algoritmaları
 Overlap-layout-consensus
 greedy (TIGRA, phrap, CAP3...)
 graph-based (Celera Assembler, Arachne, SGA)
 de Bruijn çizgeleri
 EULER, Velvet, ABySS, ALLPATHS-LG, Cortex,
etc.

OLC
TAGTCGAGGCTTTAGATCCGATGAGGCTTTAGAGACAG
AGTCGAG CTTTAGA CGATGAG CTTTAGA
GTCGAGG TTAGATC ATGAGGC GAGACAG
GAGGCTC ATCCGAT AGGCTTT GAGACAG
AGTCGAG TAGATCC ATGAGGC TAGAGAA
TAGTCGA CTTTAGA CCGATGA TTAGAGA
CGAGGCT AGATCCG TGAGGCT AGAGACA
TAGTCGA GCTTTAG TCCGATG GCTCTAG
TCGACGC GATCCGA GAGGCTT AGAGACA
TAGTCGA TTAGATC GATGAGG TTTAGAG
GTCGAGG TCTAGAT ATGAGGC TAGAGAC
AGGCTTT ATCCGAT AGGCTTT GAGACAG
AGTCGAG TTAGATT ATGAGGC AGAGACA
GGCTTTA TCCGATG TTTAGAG
CGAGGCT TAGATCC TGAGGCT GAGACAG
AGTCGAG TTTAGATC ATGAGGC TTAGAGA
GAGGCTT GATCCGA GAGGCTT GAGACAG

OLC

OLC
AGTCGAG CTTTAGA CGATGAG
GAGGCTC ATCCGAT
TAGAGAA
TAGTCGA CCGATGA TTAGAGA
GCTTTAG TCCGATG
TCGACGC GATCCGA
GATGAGG
TCTAGAT
AGGCTTT
GGCTTTA
TAGATCC

OLC
TAGTCGA
AGTCGAG
GTCGAGG
CGAGGCT
GAGGCTC
AGGCTTT TCTAGAT
GGCTTTA TTAGATC
GCTTTAG TAGATCC
CTTTAGA AGATCCG
GATCCGA
ATCCGAT
TCCGATG
CCGATGA
TTAGAGA CGATGAG
TAGAGAA GATGAGG
AGAGACA ATGAGGC
GAGACAG TGAGGCT

de Bruijn
TAGTCGAGGCTTTAGATCCGATGAGGCTTTAGAGACAG
Slide courtesy of Dan Zerbino

de Bruijn

İlk dizi: GTCGAGG
GTCG
(1x)
TCGA
(1x)
CGAG
(1x)
GAGG
(1x)
de Bruijn

İkinci dizi: AGTCGAG
GTCG
(2x)
TCGA
(2x)
CGAG
(2x)
GAGG
(1x)
de Bruijn
İlk dizi: GTCGAGG
AGTC
(1x)
ekle sayacı arttır

AGAT
(8x)
ATCC
(7x)
TCCG
(7x)
CCGA
(7x)
CGAT
(6x)
GATG
(5x)
ATGA
(8x)
TGAG
(9x)
GATT
(1x)
GATC
(8x)
de Bruijn
TAGT
(3x)
AGTC
(7x)
GTCG
(9x)
TCGA
(10x)
GGCT
(11x)
TAGA
(16x)
AGAG
(9x)
GAGA
(12x)
GACA
(8x)
ACAG
(5x)
GCTC
(2x)
GCTT
(8x)
CTCT
(1x)
CTTT
(8x)
TCTA
(2x)
TTTA
(8x)
CTAG
(2x)
TTAG
(12x)
AGAA
(1x)
AGAC
(9x)
CGAG
(8x)
CGAC
(1x)
GAGG
(16x)
GACG
(1x)
AGGC
(16x)
ACGC
(1x)
Diğerleri

AGAT
(8x)
ATCC
(7x)
TCCG
(7x)
CCGA
(7x)
CGAT
(6x)
GATG
(5x)
ATGA
(8x)
TGAG
(9x)
GATT
(1x)
GATC
(8x)
de Bruijn
TAGT
(3x)
AGTC
(7x)
GTCG
(9x)
TCGA
(10x)
GGCT
(11x)
TAGA
(16x)
AGAG
(9x)
GAGA
(12x)
GACA
(8x)
ACAG
(5x)
GCTC
(2x)
GCTT
(8x)
CTCT
(1x)
CTTT
(8x)
TCTA
(2x)
TTTA
(8x)
CTAG
(2x)
TTAG
(12x)
AGAA
(1x)
AGAC
(9x)
CGAG
(8x)
CGAC
(1x)
GAGG
(16x)
GACG
(1x)
AGGC
(16x)
ACGC
(1x)
Diğerleri...

de Bruijn
TAGTCGA
TAGA AGAGA
AGAT
GATCCGATGAG
GCTCTAG
GCTTTAG
AGAA
AGACAG
CGAG
CGACGC
GAGGCT
GATT
Sadeleştirme sonrası

TAGTCGA
TAGA AGAGA
AGAT
GATCCGATGAG
GCTCTAG
GCTTTAG
AGAA
AGACAG
CGAG
CGACGC
GAGGCT
GATT
Uçlar

Hata onarımı
TAGTCGA
TAGA AGAGA
AGAT
GATCCGATGAG
GCTCTAG
GCTTTAG
AGACAG
CGAG
GAGGCT
Uçlar silindi...

TAGTCGA
TAGA AGAGA
AGAT
GATCCGATGAG
GCTCTAG
GCTTTAG
AGACAG
CGAG
GAGGCT
Kabarcıklar

Hata onarımı
Kabarcıklar kaldırıldı
TAGTCGA
TAGA AGAGA
AGAT
GATCCGATGAG
GCTTTAG AGACAG
CGAG
GAGGCT

AGATCCGATGAG
Hata onarımı
TAGTCGAG AGAGACAG
GAGGCTTTAGA
Son sadeleştirme

AGATCCGATGAG
TAGTCGAG AGAGACAG
GAGGCTTTAGA
Eulerian path
TAGTCGAG GAGGCTTTAGA AGATCCGATGAG GAGGCTTTAGA AGAGACAG

Ek bilgiler
 Bilkent CS681 dersi slaytları:
 http://www.cs.bilkent.edu.tr/~calkan/teaching/cs681
 Araçlar, programlar:
 http://seqanswers.com/wiki/SEQanswers
 Başlangıç için makaleler:
 http://www.cs.bilkent.edu.tr/~calkan/teaching/genomics/reading
 Dergiler:
 Nature Reviews Genetics (Article series: Next-generation sequencing)
 Bioinformatics, BMC Bioinformatics, Nature Methods, vb.
 Konferanslar
 RECOMB (2014: Pittsburgh), ISMB (2014: Boston), APBC (2014:
Shanghai), HIBIT (ODTÜ), PSB (Hawaii), vb.

Calkan tubitak-yazokulu

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to Calkan tubitak-yazokulu

Similar to Calkan tubitak-yazokulu (20)

Calkan tubitak-yazokulu