SlideShare a Scribd company logo
1 of 75
Yeni Nesil DNA Dizileme 
Analizi 
Can Alkan 
Bilgisayar Mühendisliği Bölümü, 
Bilkent Üniversitesi
Kavramlar 
 Gen: kalıtsal bilgiyi taşıyan, kromozomlar içinde bulunan 
ve DNA’dan oluşan diziler. 
 Genetik: kalıtım ile geçen fenotiplerin incelenmesi 
 Genotip: bir organizmanın genetik yapısı 
 Fenotip: bir organizmanın fiziksel özelikleri 
 Genom: bir organizmadaki tüm kalıtsal bilgilerin tamamı 
 Genomiks: tüm genomun analizi (çoğu canlı için DNA, 
retrovirüsler için RNA) 
 Trankriptom: tüm RNA moleküllerinin kümesi 
 Proteom: tüm protein moleküllerinin kümesi
Yaşam 3 moleküle dayalıdır 
 DNA  ‘sabit disk’ 
 Hücrenin nasıl çalıştığına dair bilgileri tutar 
 RNA  ‘RAM’ 
 Protein sentezi için şablon 
 Kısa bilgi parçalarını (DNA’dan) hücrenin değişik kısımlarına taşır 
 Protein  ‘robot kolu, anakart bus, vs.’ 
 Vücudun temel yapıtaşları 
 Diğer hücrelere sinyal yollayan ve gen aktivitesini düzenleyen 
enzimleri oluşturur 
 Bilgisayar mühendisleri açısından bu moleküller üç 
alfabeden üretilmiş karakter dizileridir
Alfabeler 
DNA: (bazlar) 
Σ = {A, C, G, T} 
A ve T; G ve C eşleşir 
RNA: (bazlar) 
Σ = {A, C, G, U} 
A ve U; G ve C eşleşir 
Protein: (amino asitler) 
Σ = {A,C,D,E,F,G,H,I,K,L,M,N,P,Q,R,S,T,V,W,Y} 
B = N | D 
Z = Q | E 
X = herhangi
Biyolojinin temel dogması 
DNA pre-mRNA mRNA 
protein 
 Baz çiftleşme kuralı: A ve T veya U 2 hidrojen bağı ile, and G ve C is 
3 hidrojen bağı ile tutulur. 
 Not: Bazı RNA molekülleri RNA olarak kalır (örn tRNA,rRNA, 
miRNA, snoRNA, vb.). 
Splicing 
Spliceosome 
Translasyon 
Transkripsiyon 
Çekirdek 
Ribozom
Genom 
 Bir canlının tüm DNA’sındaki kalıtımsal 
şifrelerin tamamı 
 İnsan genomu 6 milyar baz çiftinden oluşur, anne 
ve babadan 3’er milyar baz çifti gelir 
 4 çeşit baz: adenin (A), sitozin (C), guanin (G), 
timin (T)
Genom büyüklükleri 
Organism Genom Uzunluğu 
(Baz) 
Tahmini gen 
sayısı 
İnsan (Homo sapiens) 3.2 milyar 25,000 
Fare (M. musculus) 2.6 milyar 25,000 
Hardal otu(A. thaliana) 100 milyon 18,000 
Solucan (C. elegans) 97 milyon 16,000 
Sirke sineği (D. 
137 milyon 12,000 
melanogaster) 
Maya (S. cerevisiae) 12.1 milyon 5,000 
Bakteri (E. coli) 4.6 milyon 3,200 
HIV 9700 9
Referans genomu 
 Uluslararası İnsan Genomu Projesi (ABD, İngiltere, Çin, Japonya, 
Almanya, Fransa) 
 4 bireyden oluşturulan 3.2 milyar baz çiftlik “referans genomu” 
 Son versiyon: “NCBI GRCh37” = “hg19” 
http://genome.ucsc.edu
İnsan genomu “içeriği” 
 Genler (~%35; ama sadece %1’lik kısmı protein 
kodlayan ekzonlar) 
 Pseudogenler: kodlama/anlatım özelliğini yitirmiş genler 
 Evrimsel kayıplar 
 “İşlenmiş” pseudogenler (processed pseudogenes) 
 Tekrarlar (~%50) 
 Mobil DNA (Transposable elements): kendi kendilerini kopyalayıp 
yapıştırabilen DNA dizileri. Genelde virüs temelli. 
 Satelitler (short tandem repeats [STR]; variable number of 
tandem repeats [VNTR]). 2-171 baz arasında ardışık tekrar eden 
DNA dizileri 
 Büyük duplikasyonlar (Segmental duplications) (%5) 
 İçlerinde gen ve tekrarlar barındırabilirler
Gen 
 DNA dizisinin RNA’ya kopyalanabilen (transkripsiyon) kısımları 
 Düzenleyici bölgeler: 50 kb’ye kadar başlangıçtan önceki bölüm 
 Ekzon: protein kodlayan kısımlar 
genlerde 1 - 178 ekzon (ortalama 8.8) 
ekzon uzunluğu 8 – 17000 baz (ortalama145 baz) 
 Intron: ekzonlar arasında kalan kısım; translasyon öncesinde 
kesilir (splicing) 
uzunluk 1 kb – 50 kb arası 
 Gen uzunluğu: en uzunu – 2.4 Mb (Dystrophin). Ortalama – 27 kb.
Genom - Gen 
atgaccgggatactgatagaagaaaggttgggggcgtacacattagataaacgtatgaagtacgttagactcggcgccgccg 
acccctattttttgagcagatttagtgacctggaaaaaaaatttgagtacaaaacttttccgaatacaataaaacggcggga 
tgagtatccctgggatgacttaaaataatggagtggtgctctcccgatttttgaatatgtaggatcattcgccagggtccga 
gctgagaattggatgcaaaaaaagggattgtccacgcaatcgcgaaccaacgcggacccaaaggcaagaccgataaaggaga 
tcccttttgcggtaatgtgccgggaggctggttacgtagggaagccctaacggacttaatataataaaggaagggcttatag 
gtcaatcatgttcttgtgaatggatttaacaataagggctgggaccgcttggcgcacccaaattcagtgtgggcgagcgcaa 
cggttttggcccttgttagaggcccccgtataaacaaggagggccaattatgagagagctaatctatcgcgtgcgtgttcat 
aacttgagttaaaaaatagggagccctggggcacatacaagaggagtcttccttatcagttaatgctgtatgacactatgta 
ttggcccattggctaaaagcccaacttgacaaatggaagatagaatccttgcatactaaaaaggagcggaccgaaagggaag 
ctggtgagcaacgacagattcttacgtgcattagctcgcttccggggatctaatagcacgaagcttactaaaaaggagcgga
chr22:41,295,343-42,660,744 
http://genome.ucsc.edu
İnsan genom çeşitliliği 
Sıklık 
Genetik farklılık türleri 
Tek Nükleotid Polimorfizm (TNP [SNP]) 
Kopya Sayısı Varyasyonu (KSV [CNV]) 
ve Yapısal Varyasyon (YV [SV]) 
Kromozomal 
(trizomi/monozomi) 
1 bp 1 kbp 1 Mbp 
1 kromozom 
Değişken büyüklüğü 
Nasıl bulunur? 
SNP genotipleme/Sanger dizileme 
Array-CGH 
Karyotipleme 
Yeni nesil dizileme 
Verimlilik 
1 bp 
1 kbp 1 Mbp 
1 kromozom 
Değişken büyüklüğü
Tek nükleotidlik ve kısa değişimler 
TNP: İnsanlar arasında tek nükleotidin değişimi ile oluşan farklar 
Kısa indel: 1-50 baz uzunluğunda silinme ve eklenmeler 
referans: C A C A G T G C G C - T 
birey: C A C C G T G - G C A T 
substitüsyon silinme eklenme 
(TNP / SNP) (indel) 
 Kişi başına 3-4.5 milyon arası TNP, yaklaşık 500 bin kısa indel 
 Birçoğu etkisizdir, bazıları genlerin ifade ettiği proteinleri etkiler 
 Nonsense mutasyon: Genin ifadesini durdurur (örn: Akdeniz anemisi) 
 Missense mutasyon: İfade edilen proteini değiştirir (örn: ALS) 
 Frameshift (indel): DNA kodunda kaymaya neden olup proteini değiştirir (örn: 
hiperkolesterol)
Kısa tekrar (mikrosatelit) polimorfizmi 
Tekrar eden ardışık tekrarlardaki değişim 
referans: C A G C A G C A G C A G 
birey: C A G C A G C A G C A G C A G 
 Adli tıpta ve babalık testlerinde kullanılır 
 Bazı hastalıklara yol açabilir: 
 Kırılgan X Sendromu (Fragile X Syndrome) 
 Huntington hastalığı
Yapısal ve Kopya Sayısı Varyasyonu 
SİLİNME YENİ DİZİ EKLEME TRANSPOZON EKLEME 
(deletion) (novel sequence ins.) (transposon insertion) 
Alu/L1/SVA 
ARDARDA KOPYA AYRIŞIK KOPYA 
(tandem duplication) (interspersed duplication) 
İNVERSİYON TAŞINMA 
(inversion) (translocation) 
Kopya sayısı 
Varyasyonu 
(copy number 
variation) 
Dengeli 
Varyasyon 
(balanced 
rearrangement)
Yapısal ve Kopya Sayısı Çeşitlilikleri 
Eklenme 
Silinme 
Çevrilme (inversion) 
 ‘Bireysel olarak ender, toplu 
olarak yaygın’ 
 Kişi başına yaklaşık 15-20 
milyon baz çiftini etkiler 
 Çoğunun etkisi yok ya da 
azdır, genlerin silinmesi ya da 
kesintiye uğraması 
durumunda hastalığa yol 
açabilir: 
 Silinme: otizm, zeka geriliği, 
Crohn hastalığı 
 Kopyalanma: şizofreni, sedef 
hastalığı 
 Taşınma: CLL (lösemi) 
 Transpozon: hemofili 
Kidd et al., Nature, 2008
Genomik farklılık keşif projeleri 
 Uluslararası HapMap Projesi 
 4 toplumdan 270 birey 
 İnsan Genomu Çeşitlilik Projesi (HGDP) 
 52 toplumdan 1050 birey 
 Dizileme projeleri: 
 1000 Genom Projesi 
 29 toplumdan 2500 birey (planlanan) 
 Analizi amamlanan: 14 toplumdan 1092 birey (Kasım 
2012) 
 2500 birey dizilenmesi tamamlandı, analiz sürüyor 
 Bağımsız projeler: 
 Güney Afrika, Kore, Hindistan, Japonya, İngiltere, Suudi 
Arabistan, İran, İrlanda, Hollanda, vs.
Genom dizileme maliyeti 
$1,000 
$10,000 
$100,000 
$1,000,000 
$10,000,000 
$100,000,000 
01/09/01 
01/12/01 
01/03/02 
01/06/02 
01/09/02 
01/12/02 
01/03/03 
01/06/03 
01/09/03 
01/12/03 
01/03/04 
01/06/04 
01/09/04 
01/12/04 
01/03/05 
01/06/05 
01/09/05 
01/12/05 
01/03/06 
01/06/06 
01/09/06 
01/12/06 
01/03/07 
01/06/07 
01/09/07 
01/12/07 
01/03/08 
01/06/08 
01/09/08 
01/12/08 
01/03/09 
01/06/09 
01/09/09 
01/12/09 
01/03/10 
01/06/10 
01/09/10 
01/12/10 
01/03/11 
01/06/11 
http://www.genome.gov/SequencingCosts/ 
Tarih 
Maliyet
Dizileme: eski ve yeni nesil 
Cihaz Nesil Yöntem 
Dizi parça 
uzunlugu Hata oranı (%) Cihaz fiyatı ($) 
Dizileme (Mb) 
maliyeti ($) 
AB 3730xl 1 Sanger 1000 0.1 376,000 1,500 
454 FLX 2 Sentez 700 1 500,000 7 
Illumina HiSeq2000 2 Sentez 100 0.1 690,000 0.04 
SOLiD 5500 2 Ligasyon 75 0.1 595,000 0.07 
Pacific Biosciences 3 Sentez 1500 15 695,000 11 
Ion Torrent 3 Sentez 200 1 50,000 0.95 
Beklenen teknolojiler: Oxford Nanopore, Starlight, Halcyon, v.d. 
2011 ortası itibarıyla
Genom dizileme 
Varyasyon 
Örneklenen 
genom Rastgele parçalama 
Eşli dizileme (paired-end seq.) 
Referans Dizi parçacığı (read) hizalama 
Genomu 
(İGP) Biyoenformatik analiz 
Bulunan farklılıklar 
Sonuçlar 
Deneysel doğrulama 
Dizileme 
hataları
Kapsama (coverage) 
Genom uzunluğu: L 
Parçacık sayısı: n 
Ortalama parçacık uzunluğu: l 
Kapsama / dizileme derinliği (coverage / sequencing depth): 
Genomdaki her baza denk gelen ortalama parçacık sayısı 
Kapsama K = n l / L 
30X kapsama = baz başına ortalama 30 parçacık 
Lander-Waterman modeli: 
Tekbiçim dağılım (uniform distribution) varsayımı ile, K=10 ise her 1 
milyon nükleotidde 1 boş bölge kalır 
K
Ekzom ya da tüm genom 
 Ekzom dizileme sadece protein kodlayan kısımları 
inceler 
 Genomun %1’i 
 Tek gen hastalıkları ve Mendel kalıtımına uyan hastalıklar için 
genelde iyi sonuç verir 
 > 60X kapsama gerekir 
 Tüm genom dizileme ile intronlar, UTR’lar, 
promotörlerdeki hastalık nedeni mutasyonlar da 
bulunabilir 
 Crohn hastalığı: McCarroll 2008, Bekpen 2009 
 ALS-FTD: Renton, 2011 
 > 30X kapsama gerekir
Biyoenformatik analizler 
 Tekrar dizileme (resequencing): elde bir 
referans genomu varsa karşılaştırılma yapılır 
(örn. İnsan, fare, şempanze, vs.) 
 Parçacık hizalama (read mapping): Her 
parçacığın referans genomuna mümkün olan en 
az değişiklik ile eşleştirilmesi 
 Yeni dizileme (de novo sequencing): referans 
genomu olmayan türlerin analizinde (örn: inci 
kefali)
Tekrar dizileme analizi 
Dizileme 
parçacıklar 
BWA, Bowtie, mrFAST, vb. 
parçacık hizalama 
(read mapping) 
TNP/indel keşfi Yapısal farklılık keşfi 
GATK, 
SOAPsnp, vb. 
VariationHunter, 
GenomeSTRiP, Delly, vb. 
Annovar, snpEff, SIFT, vb. Ingeniuty, DADA, vb. 
Yorumlama, veritabanı karşılaştırma, gen 
önceliklendirme 
Protein etkileşimi ve yolak analizi
DİZİ HİZALAMA
Hizalama algoritmaları 
 İki ana ‘tip’ 
 Hash tabanlı ‘seed-and-extend’ (hash table, suffix array, suffix 
tree) 
 Genomdaki kısa k-mer’ları indeksle 
 Dizi parçasının yerini ararken, parçanın içinden kısa bir k-mer’in 
yerini indeksten bul, hizalamaya oradan devam et 
 Tüm genom için yüksek miktarda bellek gerekir, ama hız feda 
edilerek bellek gereksinimi azaltılabilir 
 Hassas ancak yavaş 
 Burrows-Wheeler Transform & Ferragina-Manzini Index 
 BWT algoritması ile genom sıkıştırır ve FM ile sıkışmış genom 
indekslenir 
 Arama ‘binary search’ benzeri bir yöntemle yapılır. Hatasız 
hizalamalar çabuk bulunur. 
 Hassaslığı azdır
Hash Tabanlı Hizalama
BWT-FM 
 Tüm referans genomu 
sıkıştırarak indeksle 
 Dizi parçasını sondan 
başa doğru karakter 
karakter hizala 
 Her karakter için bütün 
olası koordinatlar 
hesaplanır 
 Uyumlu hizalama 
bulunmadığında bir 
karakter geriye gidip, 
değişik karakter aranır
TNP VE KISA INDELLER
YÇD ile TNP/indel keşfi 
 Database: dbSNP 
http://www.ncbi.nlm.nih.gov/projects/SNP/ 
 Girdi: Dizileme verileri ve referans genomu 
 Çıktı: TNP ve indeller ve genotipleri 
(homozigot/heterozigot) 
 TNP/indel keşif algoritmaları istatiksel analize dayanır 
 Birden fazla lokasyona eşlenen dizi parçaları (parçacık, 
read) genelde elenir 
 Sıklıkla hata görülür, filtreleme gerekir
Tekrar dizileme ile TNP keşfi 
referans genomu 
parçacık yerleştirme 
parçacık 
hizalama 
Paralog tespidi 
TNP keşfi
Amaç 
 Referans genomuna hizalanmış kısa parçacıklar 
incelendiğinde görülen farklılıklardan gerçek 
TNP ve dizileme hatalarının ayırılması 
TCTCCTCTTCCAGTGGCGACGGAAC 
CTCCTCTTCCAGTGGCGACAGAACG 
CTCTTCCAGTGGCGACGGAACGACC 
CTTCCAGTGGCGACGGAACGACCC 
TNP? 
CCAGTGGCGACTGAACGACCCTGGA 
CAGTGGCGACAGAACGACCCTGGAG 
Dizileme 
hatası 
Referans TCTCCTCTTCCAGTGGCGACGGAACGACCCTGGAGCCAAGT
Zorluklar 
 Dizileme hataları 
 Tekrar ve duplikasyonlardaki paralog dizi 
varyanları 
 Hizalama hataları 
 TNP ve indellerin yanlış hizalanması 
 Kısa ardışık tekrarlar 
 Düzeltmek için Çoklu Dizi Hizalaması (ÇDH) 
gerekir
Hizalama hatası
ÇDH sonrası
Başlıca TNP/indel tahmin programları 
 Genome Analysis Tool Kit (GATK; Broad 
Inst.) 
 Samtools (Sanger Centre) 
 PolyBayes (Boston College) 
 SOAPsnp (BGI) 
 VARiD (U. Toronto)
TNP tahmin hataları ve filtreleme 
 TNP tahminlerinde çok sayıda hata bulunur 
 Sistematik okuma hataları, parçacık yerleştirme ve hizalama 
hataları 
 Ham TNP tahminlerinde %5‐%20 arası yanlış pozitif olabilir 
 “Sert” filtreler: 
 Okuma derinliği (çok az ve çok fazla kapsama) 
 Alel dengesi 
 Baz kalitesi 
 İplik meyli (strand bias) 
 Küçük bölgelerde TNP sayısının fazlalığı 
 İstatistiksel filtreler: 
 dbSNP, HapMap, mikrodizin verileri ile istatiksel skorlama 
 VQSR: Variant Quality Score Recalibration (GATK programında)
YAPISAL VE KOPYA SAYISI 
VARYASYONU
Yapısal ve Kopya Sayısı Varyasyonu 
SİLİNME YENİ DİZİ EKLEME TRANSPOZON EKLEME 
(deletion) (novel sequence ins.) (transposon insertion) 
Alu/L1/SVA 
ARDARDA KOPYA AYRIŞIK KOPYA 
(tandem duplication) (interspersed duplication) 
İNVERSİYON TAŞINMA 
(inversion) (translocation) 
Kopya sayısı 
Varyasyonu 
(copy number 
variation) 
Dengeli 
Varyasyon 
(balanced 
rearrangement) 
Otizm, Crohn’s 
Hemofili 
Şizofreni, sedef 
Lösemi (CLL)
Keşifteki zorluklar 
Silinme ve duplikasyonlar > 5 Kbp; aynı 5 kişinin genonumda 
790 
283 
128 
5 
634 
278 
132 84 
25 
76 
130 
5 
Fosmid klonu 
eşli dizileme 
End-sequence pair 
(N = 1,206) 
42 milyon oligolu 
arrayCGH 
Conrad et al., 2010 
(N = 1,128) 
Affymetrix 6.0 TNP microdizin 
McCarroll et al., 2008 (N = 236)
Sorunlar 
 Çoğu YV duplikasyonlar ve uzun tekrarların içinde ya da yakınında 
bulunur 
 Okunan dizileri kısa olduğundan çok sayıda farklı yere hizalanabilir, bu 
da yanlış pozitifleri artırır 
 Sadece tek bir yere hizalanan diziler dikkate alınırsa hassaslık azalır 
 Referans genomu da tam değildir, eksik kalan duplike paraloglarından 
gelen diziler hem yanlış pozitifleri hem de yanlış negatifleri artırır 
 YV’lerin çoğu karmaşıktır, aynı lokasyonda bir çok YV bulunabilir 
 KSV keşfi üzerine çok çalışılmıştır ancak hala mükemmellik 
yakalanamamıştır 
 Dengeli YV’lerin (inversiyon, translokasyon) keşfi daha zordur ve iyi 
çalışılmamıştır
YV için dizi sinyalleri 
 Eşli dizi analizi (read pair – RP) 
 Tüm YV türleri 
 Bulunan YV’lerin büyüklüğü ve yerlerinin kesinliği 
eşler arasındaki mesafeye bağlı 
 Dizileme derinliği analizi (read depth – RD) 
 Sadece silinme ve duplikasyonlar (KSV) 
 Bulunan KSV’lerin başlangıç/bitiş yerleri yaklaşık 
bulunur 
 Ayrık dizi analizi (split read – SR) 
 Tekrarsız genomik bölgelerdeki tüm YV türleri 
 Bulunan YV’lerin yerleri kesindir 
 Yerel ve genel de novo birleştirme 
 Tekrarsız genomik bölgelerdeki tüm YV türleri 
 Bulunan YV’lerin yerleri kesindir
Bazı YV algoritmaları 
Silinme Eklenme İnversiyon Transpozon Duplikasyon Mikrosatelit 
RP 
VariationHunter X Kısa X X X 
BreakDancer X Kısa 
HYDRA X Kısa X X 
Tangram X 
RD 
CNVnator X X 
RDXplorer X X 
SR 
Pindel X Kısa 
SPLITREAD X Kısa X X X X 
lobSTR X 
RP+SR 
Delly X Kısa 
Invy X 
GenomeSTRiP X Kısa X 
AS 
Cortex X X 
NovelSeq X
1000 Genomes Projesinde YV 
Approach Algorithm name Platform Genomes 
SV types discovered (size-range of 
validated SVs in basepairs) 
SV 
calls 
valid 
ated 
FDR 
(PCR) 
FDR 
(array) 
FDR 
(hierar 
ch.) 
Event-wise testing Illumina 6 DEL (200 - 221,800); DUP (200 - 415,700) 5,762 1,952 0 0.230 0.230 
CNVnator Illumina 6 DEL (100 - 412,475) 17,036 2,361 - 0.142 0.142 
AB large indel tool SOLiD 1 DEL (67 - 83,391) 1,138 480 0.188 0.084 0.143 
AB large indel tool SOLiD 1 INS (448 - 2,213) 632 42 0.176 - 0.176 
Spanner Illumina 6 TEINS (51 - 6,012) 2,013 179 0.022 - 0.022 
Spanner Illumina 6 DEL (50-192,167) 4,718 3,619 0.100 0.033 0.087 
PEMer 454 1 DEL (941 - 960,004) 1,062 483 0.095 0.363 0.363 
VariationHunter Illumina 6 DEL (52 - 498,738) 11,028 4,231 0.103 0.419 0.190 
BreakDancer Illumina 6 DEL (51 - 1,035,808) 5,973 3,587 0.115 0.145 0.121 
N/A Illumina 6 DEL (276 - 959,518) 3,419 2,584 0.136 0.085 0.121 
Mosaik 454 2 TEINS (300 - 6,000) 1,463 172 0.055 - 0.055 
Pindel Illumina 6 DEL (51 - 46,384) 3,879 2,960 0.201 0.127 0.189 
N/A 454 1 DEL (51 - 703,404); INS (52 - 295) 32,187 3,845 0.545 0.519 0.543 
SOAPdenovo Illumina 6 DEL (64 - 3,907) 160 55 0.531 0.531 0.497 
SOAPdenovo Illumina 6 INS (55 – 4,116) 3,894 22 0.810 - 0.810 
Cortex Illumina 1 DEL(52-39,512);DUP(83-2,090) 2,787 896 0.415 0.415 0.410 
Cortex Illumina 1 INS(50-828) 389 84 0.398 - 0.398 
NovelSeq Illumina 6 INS (200 - 8,224) 657 30 0.791 - 0.791 
IN 
Spanner Illumina 6 TANDUP (55-64,230) 256 88 0.049 - 0.049 
AS SR PE RD 
1000 Genomes Consortium, Nature, 2010
1000 Genomes Projesinde YV: 
hassaslık 
Mills et al., Nature, 2011
Kapsamlı bir metot yok 
486 
4 
3250 
303 
6855 (63%) 
3223 (80%) 
1772 (33%) 
RP 
N=6 
RD 
N=4 
SR 
N=4 
1000 Genomes Projesi’ndeki 
doğrulanmış silinmeler 
Kidd et al., Cell, 2010
Kapsamlı bir metot yok 
486 
4 
3250 
303 
6855 (63%) 
3223 (80%) 
1772 (33%) 
RP 
N=6 
RD 
N=4 
SR 
N=4 
1000 Genomes Projesi’ndeki 
doğrulanmış silinmeler 
Kidd et al., Cell, 2010 
Tavsiyeler: 
• Birden çok metot kullanmak
Kapsamlı bir metot yok 
486 
4 
3250 
303 
6855 (63%) 
3223 (80%) 
1772 (33%) 
RP 
N=6 
RD 
N=4 
SR 
N=4 
1000 Genomes Projesi’ndeki 
doğrulanmış silinmeler 
Kidd et al., Cell, 2010 
Tavsiyeler: 
• Birden çok metot kullanmak 
• Kullanılan metotların hassaslık 
(sensitivity), hatalı keşif oranı 
(false discovery rate) ve hangi 
tür varyasyonları nasıl bir genomik 
altyapıda bulabileceğini bilmek
Varyasyon keşfi – özet 
 Parçaçık hizalama: BWA, mrFAST, Bowtie 
 TNP ve indel: GATK, samtools, SOAPsnp 
 Yapısal: 
 Silinme, eklenme: VariationHunter, Delly, 
BreakDancer, GenomeSTRiP, Pindel, HYDRA... 
 İnversiyon: VariationHunter, Invy 
 Transpozon: VariationHunter, Tangram 
 Mikrosatelit: lobSTR, SPLITREAD, Pindel 
http://seqanswers.com/wiki/SEQanswers
Keşif sonrası 
 Yorumlama 
 Annovar 
 snpEff 
 VAAST 
 Etkiler 
 PolyPhen2 
 SIFT 
 SNAP 
 MutationTaster 
 Evrimsel korunum 
 GERP 
 phastCons 
 Protein etkileşimi ve 
yolaklar 
 DADA, VAVIEN, vb. 
 Protein yolakları 
 Ingeniuty, vb. 
Fonksiyonal analiz; hayvan modelleri, vb. 
Cooper & Shendure, Nature Reviews Genetics, 12(9):628-40, 2011
GENOM BİRLEŞTİRME 
(ASSEMBLY)
Genom Birleştirme 
Test genomu 
Rastgele parçalama 
Dizileme 
Contig / 
scaffold 
Birleştirme (assembly)
Zorluklar 
 DNA ikili sarmal olduğundan birleştirme 
algoritmaları her dizi için 2 versiyona 
dikkat etmeli 
 Dizileme hataları 
 Tekrarlar ve duplikasyonlar 
 Heterozigosite 
 Diploid genomlar: Her pozisyon için 2 alternatif 
 Polyploid bitki genomlarını birleştirmesi daha 
zor (>2 alternatif)
Zorluklar 
 Büyük genomlar için gereken: 
 Daha yüksek hesaplama gücü 
 Daha çok bellek (>300 GB) 
 Kontaminasyon / karışım: 
 DNA dizilenirken başka kaynaklardan DNA da birlikte 
okunur 
 Örn: maya, E. coli, diğer bakteriler, vb. 
 ‘Big data’ 
 Milyarlarca kısa dizi parçacığı ile çalışılır
56 
Birleştirme algoritmaları 
 Overlap-layout-consensus 
 greedy (TIGRA, phrap, CAP3...) 
 graph-based (Celera Assembler, Arachne, SGA) 
 de Bruijn çizgeleri 
 EULER, Velvet, ABySS, ALLPATHS-LG, Cortex, 
etc.
OLC 
TAGTCGAGGCTTTAGATCCGATGAGGCTTTAGAGACAG 
AGTCGAG CTTTAGA CGATGAG CTTTAGA 
GTCGAGG TTAGATC ATGAGGC GAGACAG 
GAGGCTC ATCCGAT AGGCTTT GAGACAG 
AGTCGAG TAGATCC ATGAGGC TAGAGAA 
TAGTCGA CTTTAGA CCGATGA TTAGAGA 
CGAGGCT AGATCCG TGAGGCT AGAGACA 
TAGTCGA GCTTTAG TCCGATG GCTCTAG 
TCGACGC GATCCGA GAGGCTT AGAGACA 
TAGTCGA TTAGATC GATGAGG TTTAGAG 
GTCGAGG TCTAGAT ATGAGGC TAGAGAC 
AGGCTTT ATCCGAT AGGCTTT GAGACAG 
AGTCGAG TTAGATT ATGAGGC AGAGACA 
GGCTTTA TCCGATG TTTAGAG 
CGAGGCT TAGATCC TGAGGCT GAGACAG 
AGTCGAG TTTAGATC ATGAGGC TTAGAGA 
GAGGCTT GATCCGA GAGGCTT GAGACAG
OLC 
AGTCGAG CTTTAGA CGATGAG CTTTAGA 
GTCGAGG TTAGATC ATGAGGC GAGACAG 
GAGGCTC ATCCGAT AGGCTTT GAGACAG 
AGTCGAG TAGATCC ATGAGGC TAGAGAA 
TAGTCGA CTTTAGA CCGATGA TTAGAGA 
CGAGGCT AGATCCG TGAGGCT AGAGACA 
TAGTCGA GCTTTAG TCCGATG GCTCTAG 
TCGACGC GATCCGA GAGGCTT AGAGACA 
TAGTCGA TTAGATC GATGAGG TTTAGAG 
GTCGAGG TCTAGAT ATGAGGC TAGAGAC 
AGGCTTT ATCCGAT AGGCTTT GAGACAG 
AGTCGAG TTAGATT ATGAGGC AGAGACA 
GGCTTTA TCCGATG TTTAGAG 
CGAGGCT TAGATCC TGAGGCT GAGACAG 
AGTCGAG TTTAGATC ATGAGGC TTAGAGA 
GAGGCTT GATCCGA GAGGCTT GAGACAG
OLC 
AGTCGAG CTTTAGA CGATGAG 
GTCGAGG TTAGATC ATGAGGC GAGACAG 
GAGGCTC ATCCGAT 
TAGAGAA 
TAGTCGA CCGATGA TTAGAGA 
CGAGGCT AGATCCG TGAGGCT AGAGACA 
GCTTTAG TCCGATG 
TCGACGC GATCCGA 
GATGAGG 
TCTAGAT 
AGGCTTT 
GGCTTTA 
TAGATCC
OLC 
AGTCGAG CTTTAGA CGATGAG 
GTCGAGG TTAGATC ATGAGGC GAGACAG 
GAGGCTC ATCCGAT 
TAGAGAA 
TAGTCGA CCGATGA TTAGAGA 
CGAGGCT AGATCCG TGAGGCT AGAGACA 
GCTTTAG TCCGATG 
TCGACGC GATCCGA 
GATGAGG 
TCTAGAT 
AGGCTTT 
GGCTTTA 
TAGATCC
OLC 
TAGTCGA 
AGTCGAG 
GTCGAGG 
CGAGGCT 
GAGGCTC 
AGGCTTT TCTAGAT 
GGCTTTA TTAGATC 
GCTTTAG TAGATCC 
CTTTAGA AGATCCG 
GATCCGA 
ATCCGAT 
TCCGATG 
CCGATGA 
TTAGAGA CGATGAG 
TAGAGAA GATGAGG 
AGAGACA ATGAGGC 
GAGACAG TGAGGCT
de Bruijn 
TAGTCGAGGCTTTAGATCCGATGAGGCTTTAGAGACAG 
AGTCGAG CTTTAGA CGATGAG CTTTAGA 
GTCGAGG TTAGATC ATGAGGC GAGACAG 
GAGGCTC ATCCGAT AGGCTTT GAGACAG 
AGTCGAG TAGATCC ATGAGGC TAGAGAA 
TAGTCGA CTTTAGA CCGATGA TTAGAGA 
CGAGGCT AGATCCG TGAGGCT AGAGACA 
TAGTCGA GCTTTAG TCCGATG GCTCTAG 
TCGACGC GATCCGA GAGGCTT AGAGACA 
TAGTCGA TTAGATC GATGAGG TTTAGAG 
GTCGAGG TCTAGAT ATGAGGC TAGAGAC 
AGGCTTT ATCCGAT AGGCTTT GAGACAG 
AGTCGAG TTAGATT ATGAGGC AGAGACA 
GGCTTTA TCCGATG TTTAGAG 
CGAGGCT TAGATCC TGAGGCT GAGACAG 
AGTCGAG TTTAGATC ATGAGGC TTAGAGA 
GAGGCTT GATCCGA GAGGCTT GAGACAG 
Slide courtesy of Dan Zerbino
AGTCGAG CTTTAGA CGATGAG CTTTAGA 
GTCGAGG TTAGATC ATGAGGC GAGACAG 
GAGGCTC ATCCGAT AGGCTTT GAGACAG 
AGTCGAG TAGATCC ATGAGGC TAGAGAA 
TAGTCGA CTTTAGA CCGATGA TTAGAGA 
CGAGGCT AGATCCG TGAGGCT AGAGACA 
TAGTCGA GCTTTAG TCCGATG GCTCTAG 
TCGACGC GATCCGA GAGGCTT AGAGACA 
TAGTCGA TTAGATC GATGAGG TTTAGAG 
GTCGAGG TCTAGAT ATGAGGC TAGAGAC 
AGGCTTT ATCCGAT AGGCTTT GAGACAG 
AGTCGAG TTAGATT ATGAGGC AGAGACA 
GGCTTTA TCCGATG TTTAGAG 
CGAGGCT TAGATCC TGAGGCT GAGACAG 
AGTCGAG TTTAGATC ATGAGGC TTAGAGA 
GAGGCTT GATCCGA GAGGCTT GAGACAG 
Slide courtesy of Dan Zerbino 
de Bruijn
İlk dizi: GTCGAGG 
GTCG 
(1x) 
TCGA 
(1x) 
CGAG 
(1x) 
GAGG 
(1x) 
Slide courtesy of Dan Zerbino 
de Bruijn
İkinci dizi: AGTCGAG 
GTCG 
(2x) 
TCGA 
(2x) 
CGAG 
(2x) 
GAGG 
(1x) 
de Bruijn 
İlk dizi: GTCGAGG 
AGTC 
(1x) 
ekle sayacı arttır 
Slide courtesy of Dan Zerbino
AGAT 
(8x) 
ATCC 
(7x) 
TCCG 
(7x) 
CCGA 
(7x) 
CGAT 
(6x) 
GATG 
(5x) 
ATGA 
(8x) 
TGAG 
(9x) 
GATT 
(1x) 
GATC 
(8x) 
de Bruijn 
TAGT 
(3x) 
AGTC 
(7x) 
GTCG 
(9x) 
TCGA 
(10x) 
GGCT 
(11x) 
TAGA 
(16x) 
AGAG 
(9x) 
GAGA 
(12x) 
GACA 
(8x) 
ACAG 
(5x) 
GCTC 
(2x) 
GCTT 
(8x) 
CTCT 
(1x) 
CTTT 
(8x) 
TCTA 
(2x) 
TTTA 
(8x) 
CTAG 
(2x) 
TTAG 
(12x) 
AGAA 
(1x) 
AGAC 
(9x) 
CGAG 
(8x) 
CGAC 
(1x) 
GAGG 
(16x) 
GACG 
(1x) 
AGGC 
(16x) 
ACGC 
(1x) 
Diğerleri 
Slide courtesy of Dan Zerbino
AGAT 
(8x) 
ATCC 
(7x) 
TCCG 
(7x) 
CCGA 
(7x) 
CGAT 
(6x) 
GATG 
(5x) 
ATGA 
(8x) 
TGAG 
(9x) 
GATT 
(1x) 
GATC 
(8x) 
de Bruijn 
TAGT 
(3x) 
AGTC 
(7x) 
GTCG 
(9x) 
TCGA 
(10x) 
GGCT 
(11x) 
TAGA 
(16x) 
AGAG 
(9x) 
GAGA 
(12x) 
GACA 
(8x) 
ACAG 
(5x) 
GCTC 
(2x) 
GCTT 
(8x) 
CTCT 
(1x) 
CTTT 
(8x) 
TCTA 
(2x) 
TTTA 
(8x) 
CTAG 
(2x) 
TTAG 
(12x) 
AGAA 
(1x) 
AGAC 
(9x) 
CGAG 
(8x) 
CGAC 
(1x) 
GAGG 
(16x) 
GACG 
(1x) 
AGGC 
(16x) 
ACGC 
(1x) 
Diğerleri... 
Slide courtesy of Dan Zerbino
de Bruijn 
TAGTCGA 
TAGA AGAGA 
AGAT 
GATCCGATGAG 
GCTCTAG 
GCTTTAG 
AGAA 
AGACAG 
CGAG 
CGACGC 
GAGGCT 
GATT 
Sadeleştirme sonrası 
Slide courtesy of Dan Zerbino
TAGTCGA 
TAGA AGAGA 
AGAT 
GATCCGATGAG 
GCTCTAG 
GCTTTAG 
AGAA 
AGACAG 
CGAG 
CGACGC 
GAGGCT 
GATT 
Uçlar 
Slide courtesy of Dan Zerbino
Hata onarımı 
TAGTCGA 
TAGA AGAGA 
AGAT 
GATCCGATGAG 
GCTCTAG 
GCTTTAG 
AGACAG 
CGAG 
GAGGCT 
Uçlar silindi... 
Slide courtesy of Dan Zerbino
TAGTCGA 
TAGA AGAGA 
AGAT 
GATCCGATGAG 
GCTCTAG 
GCTTTAG 
AGACAG 
CGAG 
GAGGCT 
Kabarcıklar 
Slide courtesy of Dan Zerbino
Hata onarımı 
Kabarcıklar kaldırıldı 
TAGTCGA 
TAGA AGAGA 
AGAT 
GATCCGATGAG 
GCTTTAG AGACAG 
CGAG 
GAGGCT 
Slide courtesy of Dan Zerbino
AGATCCGATGAG 
Hata onarımı 
TAGTCGAG AGAGACAG 
GAGGCTTTAGA 
Son sadeleştirme 
Slide courtesy of Dan Zerbino
AGATCCGATGAG 
TAGTCGAG AGAGACAG 
GAGGCTTTAGA 
Eulerian path 
TAGTCGAG GAGGCTTTAGA AGATCCGATGAG GAGGCTTTAGA AGAGACAG 
Slide courtesy of Dan Zerbino
Ek bilgiler 
 Bilkent CS681 dersi slaytları: 
 http://www.cs.bilkent.edu.tr/~calkan/teaching/cs681 
 Araçlar, programlar: 
 http://seqanswers.com/wiki/SEQanswers 
 Başlangıç için makaleler: 
 http://www.cs.bilkent.edu.tr/~calkan/teaching/genomics/reading 
 Dergiler: 
 Nature Reviews Genetics (Article series: Next-generation sequencing) 
 Bioinformatics, BMC Bioinformatics, Nature Methods, vb. 
 Konferanslar 
 RECOMB (2014: Pittsburgh), ISMB (2014: Boston), APBC (2014: 
Shanghai), HIBIT (ODTÜ), PSB (Hawaii), vb.

More Related Content

What's hot

Mutasyonlar ve mutajenler (fazlası için www.tipfakultesi.org )
Mutasyonlar ve mutajenler (fazlası için www.tipfakultesi.org )Mutasyonlar ve mutajenler (fazlası için www.tipfakultesi.org )
Mutasyonlar ve mutajenler (fazlası için www.tipfakultesi.org )www.tipfakultesi. org
 
SIK GÖRÜLEN TEK GEN HASTALIKLARININ PRENATAL TANISI
SIK GÖRÜLEN TEK GEN HASTALIKLARININ PRENATAL TANISI SIK GÖRÜLEN TEK GEN HASTALIKLARININ PRENATAL TANISI
SIK GÖRÜLEN TEK GEN HASTALIKLARININ PRENATAL TANISI www.tipfakultesi. org
 
Genetik 1.hafta ders notları
Genetik 1.hafta ders notlarıGenetik 1.hafta ders notları
Genetik 1.hafta ders notlarıSenin Biyolojin
 
Hapmap veritabanı
Hapmap veritabanıHapmap veritabanı
Hapmap veritabanıRecep Turan
 
Salon a 18 kasim 2011 09.40 10.00 figen esen
Salon a 18 kasim 2011 09.40 10.00 figen esenSalon a 18 kasim 2011 09.40 10.00 figen esen
Salon a 18 kasim 2011 09.40 10.00 figen esentyfngnc
 
Anöploi̇di̇
Anöploi̇di̇Anöploi̇di̇
Anöploi̇di̇06AYDIN
 
Crispr tekniğinn etiklik tartışmaları melike şeyma kadayıfçı
Crispr tekniğinn etiklik tartışmaları melike şeyma kadayıfçıCrispr tekniğinn etiklik tartışmaları melike şeyma kadayıfçı
Crispr tekniğinn etiklik tartışmaları melike şeyma kadayıfçıMelike Şeyma Kadayıfçı
 
Akciger Kanseri Yenilikler
Akciger Kanseri YeniliklerAkciger Kanseri Yenilikler
Akciger Kanseri YeniliklerZafer Akçalı
 
KİSTİK FİBROZİSİN PRENATAL TANISI
KİSTİK FİBROZİSİN PRENATAL TANISI KİSTİK FİBROZİSİN PRENATAL TANISI
KİSTİK FİBROZİSİN PRENATAL TANISI www.tipfakultesi. org
 
Duktal-lobüler dışı kanserler ve sarkomlarda adjuvan tedavi - mutlu doğan
Duktal-lobüler dışı kanserler ve sarkomlarda adjuvan tedavi - mutlu doğanDuktal-lobüler dışı kanserler ve sarkomlarda adjuvan tedavi - mutlu doğan
Duktal-lobüler dışı kanserler ve sarkomlarda adjuvan tedavi - mutlu doğanankaramhd
 

What's hot (20)

Mutasyonlar ve mutajenler (fazlası için www.tipfakultesi.org )
Mutasyonlar ve mutajenler (fazlası için www.tipfakultesi.org )Mutasyonlar ve mutajenler (fazlası için www.tipfakultesi.org )
Mutasyonlar ve mutajenler (fazlası için www.tipfakultesi.org )
 
SIK GÖRÜLEN TEK GEN HASTALIKLARININ PRENATAL TANISI
SIK GÖRÜLEN TEK GEN HASTALIKLARININ PRENATAL TANISI SIK GÖRÜLEN TEK GEN HASTALIKLARININ PRENATAL TANISI
SIK GÖRÜLEN TEK GEN HASTALIKLARININ PRENATAL TANISI
 
Seher başaran
Seher başaranSeher başaran
Seher başaran
 
Maternal Kanda Serbest fetal DNA
Maternal Kanda Serbest fetal DNAMaternal Kanda Serbest fetal DNA
Maternal Kanda Serbest fetal DNA
 
Recep has (1)
Recep has (1)Recep has (1)
Recep has (1)
 
Genetik 1.hafta ders notları
Genetik 1.hafta ders notlarıGenetik 1.hafta ders notları
Genetik 1.hafta ders notları
 
Hapmap veritabanı
Hapmap veritabanıHapmap veritabanı
Hapmap veritabanı
 
Salon a 18 kasim 2011 09.40 10.00 figen esen
Salon a 18 kasim 2011 09.40 10.00 figen esenSalon a 18 kasim 2011 09.40 10.00 figen esen
Salon a 18 kasim 2011 09.40 10.00 figen esen
 
Tissue Engineering(Tr)
Tissue Engineering(Tr)Tissue Engineering(Tr)
Tissue Engineering(Tr)
 
Tb yeni tanı yönemleri
Tb yeni tanı yönemleri Tb yeni tanı yönemleri
Tb yeni tanı yönemleri
 
Epigenetik
EpigenetikEpigenetik
Epigenetik
 
Anöploi̇di̇
Anöploi̇di̇Anöploi̇di̇
Anöploi̇di̇
 
Crispr tekniğinn etiklik tartışmaları melike şeyma kadayıfçı
Crispr tekniğinn etiklik tartışmaları melike şeyma kadayıfçıCrispr tekniğinn etiklik tartışmaları melike şeyma kadayıfçı
Crispr tekniğinn etiklik tartışmaları melike şeyma kadayıfçı
 
Epigenetik
EpigenetikEpigenetik
Epigenetik
 
Akciger Kanseri Yenilikler
Akciger Kanseri YeniliklerAkciger Kanseri Yenilikler
Akciger Kanseri Yenilikler
 
GK-Kiss nkb
GK-Kiss nkbGK-Kiss nkb
GK-Kiss nkb
 
Mendel Genetiği
Mendel GenetiğiMendel Genetiği
Mendel Genetiği
 
Trpm8 kolit
Trpm8 kolitTrpm8 kolit
Trpm8 kolit
 
KİSTİK FİBROZİSİN PRENATAL TANISI
KİSTİK FİBROZİSİN PRENATAL TANISI KİSTİK FİBROZİSİN PRENATAL TANISI
KİSTİK FİBROZİSİN PRENATAL TANISI
 
Duktal-lobüler dışı kanserler ve sarkomlarda adjuvan tedavi - mutlu doğan
Duktal-lobüler dışı kanserler ve sarkomlarda adjuvan tedavi - mutlu doğanDuktal-lobüler dışı kanserler ve sarkomlarda adjuvan tedavi - mutlu doğan
Duktal-lobüler dışı kanserler ve sarkomlarda adjuvan tedavi - mutlu doğan
 

Similar to Calkan tubitak-yazokulu

1. GENOM ORGANİZASYONU revised.ppt version
1. GENOM ORGANİZASYONU revised.ppt version1. GENOM ORGANİZASYONU revised.ppt version
1. GENOM ORGANİZASYONU revised.ppt versionaytagl3
 
Bioinformatics-4-yildiz_teknik_universitesi
Bioinformatics-4-yildiz_teknik_universitesiBioinformatics-4-yildiz_teknik_universitesi
Bioinformatics-4-yildiz_teknik_universitesiBkesNar
 
Çocukluk Çağı Böbrek Tümörleri
Çocukluk Çağı Böbrek TümörleriÇocukluk Çağı Böbrek Tümörleri
Çocukluk Çağı Böbrek TümörleriBarış Yılmaz
 
2013 3 4 genetik bilgi- dna yapısı ve i̇şlevi
2013 3 4 genetik bilgi- dna yapısı ve i̇şlevi2013 3 4 genetik bilgi- dna yapısı ve i̇şlevi
2013 3 4 genetik bilgi- dna yapısı ve i̇şleviMuhammed Arvasi
 
TROD Radyofizik Kursu - TBI-TSEI-Endokaviter rektal ışınlama, Y.Anacak
TROD Radyofizik Kursu - TBI-TSEI-Endokaviter rektal ışınlama, Y.AnacakTROD Radyofizik Kursu - TBI-TSEI-Endokaviter rektal ışınlama, Y.Anacak
TROD Radyofizik Kursu - TBI-TSEI-Endokaviter rektal ışınlama, Y.Anacakyavuz anacak
 
Ara (fazlası için www.tipfakultesi.org)
Ara (fazlası için www.tipfakultesi.org)Ara (fazlası için www.tipfakultesi.org)
Ara (fazlası için www.tipfakultesi.org)www.tipfakultesi. org
 
1_Giriş_genetik.pdf
1_Giriş_genetik.pdf1_Giriş_genetik.pdf
1_Giriş_genetik.pdfZeynepK9
 
1_Giriş_genetik.pdf
1_Giriş_genetik.pdf1_Giriş_genetik.pdf
1_Giriş_genetik.pdfZeynepK9
 
Tip fakültesi̇ öğrenci̇ dersleri̇ (mb, nöro onkoloji-1.01)
Tip fakültesi̇ öğrenci̇ dersleri̇ (mb, nöro onkoloji-1.01)Tip fakültesi̇ öğrenci̇ dersleri̇ (mb, nöro onkoloji-1.01)
Tip fakültesi̇ öğrenci̇ dersleri̇ (mb, nöro onkoloji-1.01)Abdurrahman Şimşek
 
Tibbi biyolojiye giris
Tibbi biyolojiye girisTibbi biyolojiye giris
Tibbi biyolojiye girisSema Atasever
 
Böbrek transplantasyonu(fazlası için www.tipfakultesi.org)
Böbrek transplantasyonu(fazlası için www.tipfakultesi.org)Böbrek transplantasyonu(fazlası için www.tipfakultesi.org)
Böbrek transplantasyonu(fazlası için www.tipfakultesi.org)www.tipfakultesi. org
 
beyin metastazlarında sistemik tedavi
beyin metastazlarında sistemik tedavibeyin metastazlarında sistemik tedavi
beyin metastazlarında sistemik tedaviankaramhd
 
NüKleotitler ,NüKleik Asitler ,YapıLarı Ve Fonksiyonları
NüKleotitler ,NüKleik Asitler ,YapıLarı Ve FonksiyonlarıNüKleotitler ,NüKleik Asitler ,YapıLarı Ve Fonksiyonları
NüKleotitler ,NüKleik Asitler ,YapıLarı Ve FonksiyonlarıMuhammed
 
Hormon reseptörlerinin karsinogenezdeki rolü - Ediz Demirpençe
Hormon reseptörlerinin karsinogenezdeki rolü  - Ediz DemirpençeHormon reseptörlerinin karsinogenezdeki rolü  - Ediz Demirpençe
Hormon reseptörlerinin karsinogenezdeki rolü - Ediz Demirpençeankaramhd
 

Similar to Calkan tubitak-yazokulu (20)

1. GENOM ORGANİZASYONU revised.ppt version
1. GENOM ORGANİZASYONU revised.ppt version1. GENOM ORGANİZASYONU revised.ppt version
1. GENOM ORGANİZASYONU revised.ppt version
 
Dna ve Genetik Kod
Dna ve Genetik KodDna ve Genetik Kod
Dna ve Genetik Kod
 
Bioinformatics-4-yildiz_teknik_universitesi
Bioinformatics-4-yildiz_teknik_universitesiBioinformatics-4-yildiz_teknik_universitesi
Bioinformatics-4-yildiz_teknik_universitesi
 
Mb 06 genetik
Mb 06 genetikMb 06 genetik
Mb 06 genetik
 
Çocukluk Çağı Böbrek Tümörleri
Çocukluk Çağı Böbrek TümörleriÇocukluk Çağı Böbrek Tümörleri
Çocukluk Çağı Böbrek Tümörleri
 
2013 3 4 genetik bilgi- dna yapısı ve i̇şlevi
2013 3 4 genetik bilgi- dna yapısı ve i̇şlevi2013 3 4 genetik bilgi- dna yapısı ve i̇şlevi
2013 3 4 genetik bilgi- dna yapısı ve i̇şlevi
 
TROD Radyofizik Kursu - TBI-TSEI-Endokaviter rektal ışınlama, Y.Anacak
TROD Radyofizik Kursu - TBI-TSEI-Endokaviter rektal ışınlama, Y.AnacakTROD Radyofizik Kursu - TBI-TSEI-Endokaviter rektal ışınlama, Y.Anacak
TROD Radyofizik Kursu - TBI-TSEI-Endokaviter rektal ışınlama, Y.Anacak
 
DNA Microarray
DNA MicroarrayDNA Microarray
DNA Microarray
 
Ara (fazlası için www.tipfakultesi.org)
Ara (fazlası için www.tipfakultesi.org)Ara (fazlası için www.tipfakultesi.org)
Ara (fazlası için www.tipfakultesi.org)
 
1_Giriş_genetik.pdf
1_Giriş_genetik.pdf1_Giriş_genetik.pdf
1_Giriş_genetik.pdf
 
1_Giriş_genetik.pdf
1_Giriş_genetik.pdf1_Giriş_genetik.pdf
1_Giriş_genetik.pdf
 
Tip fakültesi̇ öğrenci̇ dersleri̇ (mb, nöro onkoloji-1.01)
Tip fakültesi̇ öğrenci̇ dersleri̇ (mb, nöro onkoloji-1.01)Tip fakültesi̇ öğrenci̇ dersleri̇ (mb, nöro onkoloji-1.01)
Tip fakültesi̇ öğrenci̇ dersleri̇ (mb, nöro onkoloji-1.01)
 
Dna ve Evrim
Dna ve EvrimDna ve Evrim
Dna ve Evrim
 
Tibbi biyolojiye giris
Tibbi biyolojiye girisTibbi biyolojiye giris
Tibbi biyolojiye giris
 
Böbrek transplantasyonu(fazlası için www.tipfakultesi.org)
Böbrek transplantasyonu(fazlası için www.tipfakultesi.org)Böbrek transplantasyonu(fazlası için www.tipfakultesi.org)
Böbrek transplantasyonu(fazlası için www.tipfakultesi.org)
 
12 sinif biyoloji dersi 1. dönem 2 yazili
12 sinif biyoloji dersi  1. dönem 2 yazili12 sinif biyoloji dersi  1. dönem 2 yazili
12 sinif biyoloji dersi 1. dönem 2 yazili
 
beyin metastazlarında sistemik tedavi
beyin metastazlarında sistemik tedavibeyin metastazlarında sistemik tedavi
beyin metastazlarında sistemik tedavi
 
NüKleotitler ,NüKleik Asitler ,YapıLarı Ve Fonksiyonları
NüKleotitler ,NüKleik Asitler ,YapıLarı Ve FonksiyonlarıNüKleotitler ,NüKleik Asitler ,YapıLarı Ve Fonksiyonları
NüKleotitler ,NüKleik Asitler ,YapıLarı Ve Fonksiyonları
 
Hormon reseptörlerinin karsinogenezdeki rolü - Ediz Demirpençe
Hormon reseptörlerinin karsinogenezdeki rolü  - Ediz DemirpençeHormon reseptörlerinin karsinogenezdeki rolü  - Ediz Demirpençe
Hormon reseptörlerinin karsinogenezdeki rolü - Ediz Demirpençe
 
Transposable turkce
Transposable  turkceTransposable  turkce
Transposable turkce
 

Calkan tubitak-yazokulu

  • 1. Yeni Nesil DNA Dizileme Analizi Can Alkan Bilgisayar Mühendisliği Bölümü, Bilkent Üniversitesi
  • 2. Kavramlar  Gen: kalıtsal bilgiyi taşıyan, kromozomlar içinde bulunan ve DNA’dan oluşan diziler.  Genetik: kalıtım ile geçen fenotiplerin incelenmesi  Genotip: bir organizmanın genetik yapısı  Fenotip: bir organizmanın fiziksel özelikleri  Genom: bir organizmadaki tüm kalıtsal bilgilerin tamamı  Genomiks: tüm genomun analizi (çoğu canlı için DNA, retrovirüsler için RNA)  Trankriptom: tüm RNA moleküllerinin kümesi  Proteom: tüm protein moleküllerinin kümesi
  • 3. Yaşam 3 moleküle dayalıdır  DNA  ‘sabit disk’  Hücrenin nasıl çalıştığına dair bilgileri tutar  RNA  ‘RAM’  Protein sentezi için şablon  Kısa bilgi parçalarını (DNA’dan) hücrenin değişik kısımlarına taşır  Protein  ‘robot kolu, anakart bus, vs.’  Vücudun temel yapıtaşları  Diğer hücrelere sinyal yollayan ve gen aktivitesini düzenleyen enzimleri oluşturur  Bilgisayar mühendisleri açısından bu moleküller üç alfabeden üretilmiş karakter dizileridir
  • 4. Alfabeler DNA: (bazlar) Σ = {A, C, G, T} A ve T; G ve C eşleşir RNA: (bazlar) Σ = {A, C, G, U} A ve U; G ve C eşleşir Protein: (amino asitler) Σ = {A,C,D,E,F,G,H,I,K,L,M,N,P,Q,R,S,T,V,W,Y} B = N | D Z = Q | E X = herhangi
  • 5. Biyolojinin temel dogması DNA pre-mRNA mRNA protein  Baz çiftleşme kuralı: A ve T veya U 2 hidrojen bağı ile, and G ve C is 3 hidrojen bağı ile tutulur.  Not: Bazı RNA molekülleri RNA olarak kalır (örn tRNA,rRNA, miRNA, snoRNA, vb.). Splicing Spliceosome Translasyon Transkripsiyon Çekirdek Ribozom
  • 6. Genom  Bir canlının tüm DNA’sındaki kalıtımsal şifrelerin tamamı  İnsan genomu 6 milyar baz çiftinden oluşur, anne ve babadan 3’er milyar baz çifti gelir  4 çeşit baz: adenin (A), sitozin (C), guanin (G), timin (T)
  • 7. Genom büyüklükleri Organism Genom Uzunluğu (Baz) Tahmini gen sayısı İnsan (Homo sapiens) 3.2 milyar 25,000 Fare (M. musculus) 2.6 milyar 25,000 Hardal otu(A. thaliana) 100 milyon 18,000 Solucan (C. elegans) 97 milyon 16,000 Sirke sineği (D. 137 milyon 12,000 melanogaster) Maya (S. cerevisiae) 12.1 milyon 5,000 Bakteri (E. coli) 4.6 milyon 3,200 HIV 9700 9
  • 8. Referans genomu  Uluslararası İnsan Genomu Projesi (ABD, İngiltere, Çin, Japonya, Almanya, Fransa)  4 bireyden oluşturulan 3.2 milyar baz çiftlik “referans genomu”  Son versiyon: “NCBI GRCh37” = “hg19” http://genome.ucsc.edu
  • 9. İnsan genomu “içeriği”  Genler (~%35; ama sadece %1’lik kısmı protein kodlayan ekzonlar)  Pseudogenler: kodlama/anlatım özelliğini yitirmiş genler  Evrimsel kayıplar  “İşlenmiş” pseudogenler (processed pseudogenes)  Tekrarlar (~%50)  Mobil DNA (Transposable elements): kendi kendilerini kopyalayıp yapıştırabilen DNA dizileri. Genelde virüs temelli.  Satelitler (short tandem repeats [STR]; variable number of tandem repeats [VNTR]). 2-171 baz arasında ardışık tekrar eden DNA dizileri  Büyük duplikasyonlar (Segmental duplications) (%5)  İçlerinde gen ve tekrarlar barındırabilirler
  • 10. Gen  DNA dizisinin RNA’ya kopyalanabilen (transkripsiyon) kısımları  Düzenleyici bölgeler: 50 kb’ye kadar başlangıçtan önceki bölüm  Ekzon: protein kodlayan kısımlar genlerde 1 - 178 ekzon (ortalama 8.8) ekzon uzunluğu 8 – 17000 baz (ortalama145 baz)  Intron: ekzonlar arasında kalan kısım; translasyon öncesinde kesilir (splicing) uzunluk 1 kb – 50 kb arası  Gen uzunluğu: en uzunu – 2.4 Mb (Dystrophin). Ortalama – 27 kb.
  • 11. Genom - Gen atgaccgggatactgatagaagaaaggttgggggcgtacacattagataaacgtatgaagtacgttagactcggcgccgccg acccctattttttgagcagatttagtgacctggaaaaaaaatttgagtacaaaacttttccgaatacaataaaacggcggga tgagtatccctgggatgacttaaaataatggagtggtgctctcccgatttttgaatatgtaggatcattcgccagggtccga gctgagaattggatgcaaaaaaagggattgtccacgcaatcgcgaaccaacgcggacccaaaggcaagaccgataaaggaga tcccttttgcggtaatgtgccgggaggctggttacgtagggaagccctaacggacttaatataataaaggaagggcttatag gtcaatcatgttcttgtgaatggatttaacaataagggctgggaccgcttggcgcacccaaattcagtgtgggcgagcgcaa cggttttggcccttgttagaggcccccgtataaacaaggagggccaattatgagagagctaatctatcgcgtgcgtgttcat aacttgagttaaaaaatagggagccctggggcacatacaagaggagtcttccttatcagttaatgctgtatgacactatgta ttggcccattggctaaaagcccaacttgacaaatggaagatagaatccttgcatactaaaaaggagcggaccgaaagggaag ctggtgagcaacgacagattcttacgtgcattagctcgcttccggggatctaatagcacgaagcttactaaaaaggagcgga
  • 13. İnsan genom çeşitliliği Sıklık Genetik farklılık türleri Tek Nükleotid Polimorfizm (TNP [SNP]) Kopya Sayısı Varyasyonu (KSV [CNV]) ve Yapısal Varyasyon (YV [SV]) Kromozomal (trizomi/monozomi) 1 bp 1 kbp 1 Mbp 1 kromozom Değişken büyüklüğü Nasıl bulunur? SNP genotipleme/Sanger dizileme Array-CGH Karyotipleme Yeni nesil dizileme Verimlilik 1 bp 1 kbp 1 Mbp 1 kromozom Değişken büyüklüğü
  • 14. Tek nükleotidlik ve kısa değişimler TNP: İnsanlar arasında tek nükleotidin değişimi ile oluşan farklar Kısa indel: 1-50 baz uzunluğunda silinme ve eklenmeler referans: C A C A G T G C G C - T birey: C A C C G T G - G C A T substitüsyon silinme eklenme (TNP / SNP) (indel)  Kişi başına 3-4.5 milyon arası TNP, yaklaşık 500 bin kısa indel  Birçoğu etkisizdir, bazıları genlerin ifade ettiği proteinleri etkiler  Nonsense mutasyon: Genin ifadesini durdurur (örn: Akdeniz anemisi)  Missense mutasyon: İfade edilen proteini değiştirir (örn: ALS)  Frameshift (indel): DNA kodunda kaymaya neden olup proteini değiştirir (örn: hiperkolesterol)
  • 15. Kısa tekrar (mikrosatelit) polimorfizmi Tekrar eden ardışık tekrarlardaki değişim referans: C A G C A G C A G C A G birey: C A G C A G C A G C A G C A G  Adli tıpta ve babalık testlerinde kullanılır  Bazı hastalıklara yol açabilir:  Kırılgan X Sendromu (Fragile X Syndrome)  Huntington hastalığı
  • 16. Yapısal ve Kopya Sayısı Varyasyonu SİLİNME YENİ DİZİ EKLEME TRANSPOZON EKLEME (deletion) (novel sequence ins.) (transposon insertion) Alu/L1/SVA ARDARDA KOPYA AYRIŞIK KOPYA (tandem duplication) (interspersed duplication) İNVERSİYON TAŞINMA (inversion) (translocation) Kopya sayısı Varyasyonu (copy number variation) Dengeli Varyasyon (balanced rearrangement)
  • 17. Yapısal ve Kopya Sayısı Çeşitlilikleri Eklenme Silinme Çevrilme (inversion)  ‘Bireysel olarak ender, toplu olarak yaygın’  Kişi başına yaklaşık 15-20 milyon baz çiftini etkiler  Çoğunun etkisi yok ya da azdır, genlerin silinmesi ya da kesintiye uğraması durumunda hastalığa yol açabilir:  Silinme: otizm, zeka geriliği, Crohn hastalığı  Kopyalanma: şizofreni, sedef hastalığı  Taşınma: CLL (lösemi)  Transpozon: hemofili Kidd et al., Nature, 2008
  • 18. Genomik farklılık keşif projeleri  Uluslararası HapMap Projesi  4 toplumdan 270 birey  İnsan Genomu Çeşitlilik Projesi (HGDP)  52 toplumdan 1050 birey  Dizileme projeleri:  1000 Genom Projesi  29 toplumdan 2500 birey (planlanan)  Analizi amamlanan: 14 toplumdan 1092 birey (Kasım 2012)  2500 birey dizilenmesi tamamlandı, analiz sürüyor  Bağımsız projeler:  Güney Afrika, Kore, Hindistan, Japonya, İngiltere, Suudi Arabistan, İran, İrlanda, Hollanda, vs.
  • 19. Genom dizileme maliyeti $1,000 $10,000 $100,000 $1,000,000 $10,000,000 $100,000,000 01/09/01 01/12/01 01/03/02 01/06/02 01/09/02 01/12/02 01/03/03 01/06/03 01/09/03 01/12/03 01/03/04 01/06/04 01/09/04 01/12/04 01/03/05 01/06/05 01/09/05 01/12/05 01/03/06 01/06/06 01/09/06 01/12/06 01/03/07 01/06/07 01/09/07 01/12/07 01/03/08 01/06/08 01/09/08 01/12/08 01/03/09 01/06/09 01/09/09 01/12/09 01/03/10 01/06/10 01/09/10 01/12/10 01/03/11 01/06/11 http://www.genome.gov/SequencingCosts/ Tarih Maliyet
  • 20. Dizileme: eski ve yeni nesil Cihaz Nesil Yöntem Dizi parça uzunlugu Hata oranı (%) Cihaz fiyatı ($) Dizileme (Mb) maliyeti ($) AB 3730xl 1 Sanger 1000 0.1 376,000 1,500 454 FLX 2 Sentez 700 1 500,000 7 Illumina HiSeq2000 2 Sentez 100 0.1 690,000 0.04 SOLiD 5500 2 Ligasyon 75 0.1 595,000 0.07 Pacific Biosciences 3 Sentez 1500 15 695,000 11 Ion Torrent 3 Sentez 200 1 50,000 0.95 Beklenen teknolojiler: Oxford Nanopore, Starlight, Halcyon, v.d. 2011 ortası itibarıyla
  • 21. Genom dizileme Varyasyon Örneklenen genom Rastgele parçalama Eşli dizileme (paired-end seq.) Referans Dizi parçacığı (read) hizalama Genomu (İGP) Biyoenformatik analiz Bulunan farklılıklar Sonuçlar Deneysel doğrulama Dizileme hataları
  • 22. Kapsama (coverage) Genom uzunluğu: L Parçacık sayısı: n Ortalama parçacık uzunluğu: l Kapsama / dizileme derinliği (coverage / sequencing depth): Genomdaki her baza denk gelen ortalama parçacık sayısı Kapsama K = n l / L 30X kapsama = baz başına ortalama 30 parçacık Lander-Waterman modeli: Tekbiçim dağılım (uniform distribution) varsayımı ile, K=10 ise her 1 milyon nükleotidde 1 boş bölge kalır K
  • 23. Ekzom ya da tüm genom  Ekzom dizileme sadece protein kodlayan kısımları inceler  Genomun %1’i  Tek gen hastalıkları ve Mendel kalıtımına uyan hastalıklar için genelde iyi sonuç verir  > 60X kapsama gerekir  Tüm genom dizileme ile intronlar, UTR’lar, promotörlerdeki hastalık nedeni mutasyonlar da bulunabilir  Crohn hastalığı: McCarroll 2008, Bekpen 2009  ALS-FTD: Renton, 2011  > 30X kapsama gerekir
  • 24. Biyoenformatik analizler  Tekrar dizileme (resequencing): elde bir referans genomu varsa karşılaştırılma yapılır (örn. İnsan, fare, şempanze, vs.)  Parçacık hizalama (read mapping): Her parçacığın referans genomuna mümkün olan en az değişiklik ile eşleştirilmesi  Yeni dizileme (de novo sequencing): referans genomu olmayan türlerin analizinde (örn: inci kefali)
  • 25. Tekrar dizileme analizi Dizileme parçacıklar BWA, Bowtie, mrFAST, vb. parçacık hizalama (read mapping) TNP/indel keşfi Yapısal farklılık keşfi GATK, SOAPsnp, vb. VariationHunter, GenomeSTRiP, Delly, vb. Annovar, snpEff, SIFT, vb. Ingeniuty, DADA, vb. Yorumlama, veritabanı karşılaştırma, gen önceliklendirme Protein etkileşimi ve yolak analizi
  • 27. Hizalama algoritmaları  İki ana ‘tip’  Hash tabanlı ‘seed-and-extend’ (hash table, suffix array, suffix tree)  Genomdaki kısa k-mer’ları indeksle  Dizi parçasının yerini ararken, parçanın içinden kısa bir k-mer’in yerini indeksten bul, hizalamaya oradan devam et  Tüm genom için yüksek miktarda bellek gerekir, ama hız feda edilerek bellek gereksinimi azaltılabilir  Hassas ancak yavaş  Burrows-Wheeler Transform & Ferragina-Manzini Index  BWT algoritması ile genom sıkıştırır ve FM ile sıkışmış genom indekslenir  Arama ‘binary search’ benzeri bir yöntemle yapılır. Hatasız hizalamalar çabuk bulunur.  Hassaslığı azdır
  • 29. BWT-FM  Tüm referans genomu sıkıştırarak indeksle  Dizi parçasını sondan başa doğru karakter karakter hizala  Her karakter için bütün olası koordinatlar hesaplanır  Uyumlu hizalama bulunmadığında bir karakter geriye gidip, değişik karakter aranır
  • 30. TNP VE KISA INDELLER
  • 31. YÇD ile TNP/indel keşfi  Database: dbSNP http://www.ncbi.nlm.nih.gov/projects/SNP/  Girdi: Dizileme verileri ve referans genomu  Çıktı: TNP ve indeller ve genotipleri (homozigot/heterozigot)  TNP/indel keşif algoritmaları istatiksel analize dayanır  Birden fazla lokasyona eşlenen dizi parçaları (parçacık, read) genelde elenir  Sıklıkla hata görülür, filtreleme gerekir
  • 32. Tekrar dizileme ile TNP keşfi referans genomu parçacık yerleştirme parçacık hizalama Paralog tespidi TNP keşfi
  • 33. Amaç  Referans genomuna hizalanmış kısa parçacıklar incelendiğinde görülen farklılıklardan gerçek TNP ve dizileme hatalarının ayırılması TCTCCTCTTCCAGTGGCGACGGAAC CTCCTCTTCCAGTGGCGACAGAACG CTCTTCCAGTGGCGACGGAACGACC CTTCCAGTGGCGACGGAACGACCC TNP? CCAGTGGCGACTGAACGACCCTGGA CAGTGGCGACAGAACGACCCTGGAG Dizileme hatası Referans TCTCCTCTTCCAGTGGCGACGGAACGACCCTGGAGCCAAGT
  • 34. Zorluklar  Dizileme hataları  Tekrar ve duplikasyonlardaki paralog dizi varyanları  Hizalama hataları  TNP ve indellerin yanlış hizalanması  Kısa ardışık tekrarlar  Düzeltmek için Çoklu Dizi Hizalaması (ÇDH) gerekir
  • 37. Başlıca TNP/indel tahmin programları  Genome Analysis Tool Kit (GATK; Broad Inst.)  Samtools (Sanger Centre)  PolyBayes (Boston College)  SOAPsnp (BGI)  VARiD (U. Toronto)
  • 38. TNP tahmin hataları ve filtreleme  TNP tahminlerinde çok sayıda hata bulunur  Sistematik okuma hataları, parçacık yerleştirme ve hizalama hataları  Ham TNP tahminlerinde %5‐%20 arası yanlış pozitif olabilir  “Sert” filtreler:  Okuma derinliği (çok az ve çok fazla kapsama)  Alel dengesi  Baz kalitesi  İplik meyli (strand bias)  Küçük bölgelerde TNP sayısının fazlalığı  İstatistiksel filtreler:  dbSNP, HapMap, mikrodizin verileri ile istatiksel skorlama  VQSR: Variant Quality Score Recalibration (GATK programında)
  • 39. YAPISAL VE KOPYA SAYISI VARYASYONU
  • 40. Yapısal ve Kopya Sayısı Varyasyonu SİLİNME YENİ DİZİ EKLEME TRANSPOZON EKLEME (deletion) (novel sequence ins.) (transposon insertion) Alu/L1/SVA ARDARDA KOPYA AYRIŞIK KOPYA (tandem duplication) (interspersed duplication) İNVERSİYON TAŞINMA (inversion) (translocation) Kopya sayısı Varyasyonu (copy number variation) Dengeli Varyasyon (balanced rearrangement) Otizm, Crohn’s Hemofili Şizofreni, sedef Lösemi (CLL)
  • 41. Keşifteki zorluklar Silinme ve duplikasyonlar > 5 Kbp; aynı 5 kişinin genonumda 790 283 128 5 634 278 132 84 25 76 130 5 Fosmid klonu eşli dizileme End-sequence pair (N = 1,206) 42 milyon oligolu arrayCGH Conrad et al., 2010 (N = 1,128) Affymetrix 6.0 TNP microdizin McCarroll et al., 2008 (N = 236)
  • 42. Sorunlar  Çoğu YV duplikasyonlar ve uzun tekrarların içinde ya da yakınında bulunur  Okunan dizileri kısa olduğundan çok sayıda farklı yere hizalanabilir, bu da yanlış pozitifleri artırır  Sadece tek bir yere hizalanan diziler dikkate alınırsa hassaslık azalır  Referans genomu da tam değildir, eksik kalan duplike paraloglarından gelen diziler hem yanlış pozitifleri hem de yanlış negatifleri artırır  YV’lerin çoğu karmaşıktır, aynı lokasyonda bir çok YV bulunabilir  KSV keşfi üzerine çok çalışılmıştır ancak hala mükemmellik yakalanamamıştır  Dengeli YV’lerin (inversiyon, translokasyon) keşfi daha zordur ve iyi çalışılmamıştır
  • 43. YV için dizi sinyalleri  Eşli dizi analizi (read pair – RP)  Tüm YV türleri  Bulunan YV’lerin büyüklüğü ve yerlerinin kesinliği eşler arasındaki mesafeye bağlı  Dizileme derinliği analizi (read depth – RD)  Sadece silinme ve duplikasyonlar (KSV)  Bulunan KSV’lerin başlangıç/bitiş yerleri yaklaşık bulunur  Ayrık dizi analizi (split read – SR)  Tekrarsız genomik bölgelerdeki tüm YV türleri  Bulunan YV’lerin yerleri kesindir  Yerel ve genel de novo birleştirme  Tekrarsız genomik bölgelerdeki tüm YV türleri  Bulunan YV’lerin yerleri kesindir
  • 44. Bazı YV algoritmaları Silinme Eklenme İnversiyon Transpozon Duplikasyon Mikrosatelit RP VariationHunter X Kısa X X X BreakDancer X Kısa HYDRA X Kısa X X Tangram X RD CNVnator X X RDXplorer X X SR Pindel X Kısa SPLITREAD X Kısa X X X X lobSTR X RP+SR Delly X Kısa Invy X GenomeSTRiP X Kısa X AS Cortex X X NovelSeq X
  • 45. 1000 Genomes Projesinde YV Approach Algorithm name Platform Genomes SV types discovered (size-range of validated SVs in basepairs) SV calls valid ated FDR (PCR) FDR (array) FDR (hierar ch.) Event-wise testing Illumina 6 DEL (200 - 221,800); DUP (200 - 415,700) 5,762 1,952 0 0.230 0.230 CNVnator Illumina 6 DEL (100 - 412,475) 17,036 2,361 - 0.142 0.142 AB large indel tool SOLiD 1 DEL (67 - 83,391) 1,138 480 0.188 0.084 0.143 AB large indel tool SOLiD 1 INS (448 - 2,213) 632 42 0.176 - 0.176 Spanner Illumina 6 TEINS (51 - 6,012) 2,013 179 0.022 - 0.022 Spanner Illumina 6 DEL (50-192,167) 4,718 3,619 0.100 0.033 0.087 PEMer 454 1 DEL (941 - 960,004) 1,062 483 0.095 0.363 0.363 VariationHunter Illumina 6 DEL (52 - 498,738) 11,028 4,231 0.103 0.419 0.190 BreakDancer Illumina 6 DEL (51 - 1,035,808) 5,973 3,587 0.115 0.145 0.121 N/A Illumina 6 DEL (276 - 959,518) 3,419 2,584 0.136 0.085 0.121 Mosaik 454 2 TEINS (300 - 6,000) 1,463 172 0.055 - 0.055 Pindel Illumina 6 DEL (51 - 46,384) 3,879 2,960 0.201 0.127 0.189 N/A 454 1 DEL (51 - 703,404); INS (52 - 295) 32,187 3,845 0.545 0.519 0.543 SOAPdenovo Illumina 6 DEL (64 - 3,907) 160 55 0.531 0.531 0.497 SOAPdenovo Illumina 6 INS (55 – 4,116) 3,894 22 0.810 - 0.810 Cortex Illumina 1 DEL(52-39,512);DUP(83-2,090) 2,787 896 0.415 0.415 0.410 Cortex Illumina 1 INS(50-828) 389 84 0.398 - 0.398 NovelSeq Illumina 6 INS (200 - 8,224) 657 30 0.791 - 0.791 IN Spanner Illumina 6 TANDUP (55-64,230) 256 88 0.049 - 0.049 AS SR PE RD 1000 Genomes Consortium, Nature, 2010
  • 46. 1000 Genomes Projesinde YV: hassaslık Mills et al., Nature, 2011
  • 47. Kapsamlı bir metot yok 486 4 3250 303 6855 (63%) 3223 (80%) 1772 (33%) RP N=6 RD N=4 SR N=4 1000 Genomes Projesi’ndeki doğrulanmış silinmeler Kidd et al., Cell, 2010
  • 48. Kapsamlı bir metot yok 486 4 3250 303 6855 (63%) 3223 (80%) 1772 (33%) RP N=6 RD N=4 SR N=4 1000 Genomes Projesi’ndeki doğrulanmış silinmeler Kidd et al., Cell, 2010 Tavsiyeler: • Birden çok metot kullanmak
  • 49. Kapsamlı bir metot yok 486 4 3250 303 6855 (63%) 3223 (80%) 1772 (33%) RP N=6 RD N=4 SR N=4 1000 Genomes Projesi’ndeki doğrulanmış silinmeler Kidd et al., Cell, 2010 Tavsiyeler: • Birden çok metot kullanmak • Kullanılan metotların hassaslık (sensitivity), hatalı keşif oranı (false discovery rate) ve hangi tür varyasyonları nasıl bir genomik altyapıda bulabileceğini bilmek
  • 50. Varyasyon keşfi – özet  Parçaçık hizalama: BWA, mrFAST, Bowtie  TNP ve indel: GATK, samtools, SOAPsnp  Yapısal:  Silinme, eklenme: VariationHunter, Delly, BreakDancer, GenomeSTRiP, Pindel, HYDRA...  İnversiyon: VariationHunter, Invy  Transpozon: VariationHunter, Tangram  Mikrosatelit: lobSTR, SPLITREAD, Pindel http://seqanswers.com/wiki/SEQanswers
  • 51. Keşif sonrası  Yorumlama  Annovar  snpEff  VAAST  Etkiler  PolyPhen2  SIFT  SNAP  MutationTaster  Evrimsel korunum  GERP  phastCons  Protein etkileşimi ve yolaklar  DADA, VAVIEN, vb.  Protein yolakları  Ingeniuty, vb. Fonksiyonal analiz; hayvan modelleri, vb. Cooper & Shendure, Nature Reviews Genetics, 12(9):628-40, 2011
  • 53. Genom Birleştirme Test genomu Rastgele parçalama Dizileme Contig / scaffold Birleştirme (assembly)
  • 54. Zorluklar  DNA ikili sarmal olduğundan birleştirme algoritmaları her dizi için 2 versiyona dikkat etmeli  Dizileme hataları  Tekrarlar ve duplikasyonlar  Heterozigosite  Diploid genomlar: Her pozisyon için 2 alternatif  Polyploid bitki genomlarını birleştirmesi daha zor (>2 alternatif)
  • 55. Zorluklar  Büyük genomlar için gereken:  Daha yüksek hesaplama gücü  Daha çok bellek (>300 GB)  Kontaminasyon / karışım:  DNA dizilenirken başka kaynaklardan DNA da birlikte okunur  Örn: maya, E. coli, diğer bakteriler, vb.  ‘Big data’  Milyarlarca kısa dizi parçacığı ile çalışılır
  • 56. 56 Birleştirme algoritmaları  Overlap-layout-consensus  greedy (TIGRA, phrap, CAP3...)  graph-based (Celera Assembler, Arachne, SGA)  de Bruijn çizgeleri  EULER, Velvet, ABySS, ALLPATHS-LG, Cortex, etc.
  • 57. OLC TAGTCGAGGCTTTAGATCCGATGAGGCTTTAGAGACAG AGTCGAG CTTTAGA CGATGAG CTTTAGA GTCGAGG TTAGATC ATGAGGC GAGACAG GAGGCTC ATCCGAT AGGCTTT GAGACAG AGTCGAG TAGATCC ATGAGGC TAGAGAA TAGTCGA CTTTAGA CCGATGA TTAGAGA CGAGGCT AGATCCG TGAGGCT AGAGACA TAGTCGA GCTTTAG TCCGATG GCTCTAG TCGACGC GATCCGA GAGGCTT AGAGACA TAGTCGA TTAGATC GATGAGG TTTAGAG GTCGAGG TCTAGAT ATGAGGC TAGAGAC AGGCTTT ATCCGAT AGGCTTT GAGACAG AGTCGAG TTAGATT ATGAGGC AGAGACA GGCTTTA TCCGATG TTTAGAG CGAGGCT TAGATCC TGAGGCT GAGACAG AGTCGAG TTTAGATC ATGAGGC TTAGAGA GAGGCTT GATCCGA GAGGCTT GAGACAG
  • 58. OLC AGTCGAG CTTTAGA CGATGAG CTTTAGA GTCGAGG TTAGATC ATGAGGC GAGACAG GAGGCTC ATCCGAT AGGCTTT GAGACAG AGTCGAG TAGATCC ATGAGGC TAGAGAA TAGTCGA CTTTAGA CCGATGA TTAGAGA CGAGGCT AGATCCG TGAGGCT AGAGACA TAGTCGA GCTTTAG TCCGATG GCTCTAG TCGACGC GATCCGA GAGGCTT AGAGACA TAGTCGA TTAGATC GATGAGG TTTAGAG GTCGAGG TCTAGAT ATGAGGC TAGAGAC AGGCTTT ATCCGAT AGGCTTT GAGACAG AGTCGAG TTAGATT ATGAGGC AGAGACA GGCTTTA TCCGATG TTTAGAG CGAGGCT TAGATCC TGAGGCT GAGACAG AGTCGAG TTTAGATC ATGAGGC TTAGAGA GAGGCTT GATCCGA GAGGCTT GAGACAG
  • 59. OLC AGTCGAG CTTTAGA CGATGAG GTCGAGG TTAGATC ATGAGGC GAGACAG GAGGCTC ATCCGAT TAGAGAA TAGTCGA CCGATGA TTAGAGA CGAGGCT AGATCCG TGAGGCT AGAGACA GCTTTAG TCCGATG TCGACGC GATCCGA GATGAGG TCTAGAT AGGCTTT GGCTTTA TAGATCC
  • 60. OLC AGTCGAG CTTTAGA CGATGAG GTCGAGG TTAGATC ATGAGGC GAGACAG GAGGCTC ATCCGAT TAGAGAA TAGTCGA CCGATGA TTAGAGA CGAGGCT AGATCCG TGAGGCT AGAGACA GCTTTAG TCCGATG TCGACGC GATCCGA GATGAGG TCTAGAT AGGCTTT GGCTTTA TAGATCC
  • 61. OLC TAGTCGA AGTCGAG GTCGAGG CGAGGCT GAGGCTC AGGCTTT TCTAGAT GGCTTTA TTAGATC GCTTTAG TAGATCC CTTTAGA AGATCCG GATCCGA ATCCGAT TCCGATG CCGATGA TTAGAGA CGATGAG TAGAGAA GATGAGG AGAGACA ATGAGGC GAGACAG TGAGGCT
  • 62. de Bruijn TAGTCGAGGCTTTAGATCCGATGAGGCTTTAGAGACAG AGTCGAG CTTTAGA CGATGAG CTTTAGA GTCGAGG TTAGATC ATGAGGC GAGACAG GAGGCTC ATCCGAT AGGCTTT GAGACAG AGTCGAG TAGATCC ATGAGGC TAGAGAA TAGTCGA CTTTAGA CCGATGA TTAGAGA CGAGGCT AGATCCG TGAGGCT AGAGACA TAGTCGA GCTTTAG TCCGATG GCTCTAG TCGACGC GATCCGA GAGGCTT AGAGACA TAGTCGA TTAGATC GATGAGG TTTAGAG GTCGAGG TCTAGAT ATGAGGC TAGAGAC AGGCTTT ATCCGAT AGGCTTT GAGACAG AGTCGAG TTAGATT ATGAGGC AGAGACA GGCTTTA TCCGATG TTTAGAG CGAGGCT TAGATCC TGAGGCT GAGACAG AGTCGAG TTTAGATC ATGAGGC TTAGAGA GAGGCTT GATCCGA GAGGCTT GAGACAG Slide courtesy of Dan Zerbino
  • 63. AGTCGAG CTTTAGA CGATGAG CTTTAGA GTCGAGG TTAGATC ATGAGGC GAGACAG GAGGCTC ATCCGAT AGGCTTT GAGACAG AGTCGAG TAGATCC ATGAGGC TAGAGAA TAGTCGA CTTTAGA CCGATGA TTAGAGA CGAGGCT AGATCCG TGAGGCT AGAGACA TAGTCGA GCTTTAG TCCGATG GCTCTAG TCGACGC GATCCGA GAGGCTT AGAGACA TAGTCGA TTAGATC GATGAGG TTTAGAG GTCGAGG TCTAGAT ATGAGGC TAGAGAC AGGCTTT ATCCGAT AGGCTTT GAGACAG AGTCGAG TTAGATT ATGAGGC AGAGACA GGCTTTA TCCGATG TTTAGAG CGAGGCT TAGATCC TGAGGCT GAGACAG AGTCGAG TTTAGATC ATGAGGC TTAGAGA GAGGCTT GATCCGA GAGGCTT GAGACAG Slide courtesy of Dan Zerbino de Bruijn
  • 64. İlk dizi: GTCGAGG GTCG (1x) TCGA (1x) CGAG (1x) GAGG (1x) Slide courtesy of Dan Zerbino de Bruijn
  • 65. İkinci dizi: AGTCGAG GTCG (2x) TCGA (2x) CGAG (2x) GAGG (1x) de Bruijn İlk dizi: GTCGAGG AGTC (1x) ekle sayacı arttır Slide courtesy of Dan Zerbino
  • 66. AGAT (8x) ATCC (7x) TCCG (7x) CCGA (7x) CGAT (6x) GATG (5x) ATGA (8x) TGAG (9x) GATT (1x) GATC (8x) de Bruijn TAGT (3x) AGTC (7x) GTCG (9x) TCGA (10x) GGCT (11x) TAGA (16x) AGAG (9x) GAGA (12x) GACA (8x) ACAG (5x) GCTC (2x) GCTT (8x) CTCT (1x) CTTT (8x) TCTA (2x) TTTA (8x) CTAG (2x) TTAG (12x) AGAA (1x) AGAC (9x) CGAG (8x) CGAC (1x) GAGG (16x) GACG (1x) AGGC (16x) ACGC (1x) Diğerleri Slide courtesy of Dan Zerbino
  • 67. AGAT (8x) ATCC (7x) TCCG (7x) CCGA (7x) CGAT (6x) GATG (5x) ATGA (8x) TGAG (9x) GATT (1x) GATC (8x) de Bruijn TAGT (3x) AGTC (7x) GTCG (9x) TCGA (10x) GGCT (11x) TAGA (16x) AGAG (9x) GAGA (12x) GACA (8x) ACAG (5x) GCTC (2x) GCTT (8x) CTCT (1x) CTTT (8x) TCTA (2x) TTTA (8x) CTAG (2x) TTAG (12x) AGAA (1x) AGAC (9x) CGAG (8x) CGAC (1x) GAGG (16x) GACG (1x) AGGC (16x) ACGC (1x) Diğerleri... Slide courtesy of Dan Zerbino
  • 68. de Bruijn TAGTCGA TAGA AGAGA AGAT GATCCGATGAG GCTCTAG GCTTTAG AGAA AGACAG CGAG CGACGC GAGGCT GATT Sadeleştirme sonrası Slide courtesy of Dan Zerbino
  • 69. TAGTCGA TAGA AGAGA AGAT GATCCGATGAG GCTCTAG GCTTTAG AGAA AGACAG CGAG CGACGC GAGGCT GATT Uçlar Slide courtesy of Dan Zerbino
  • 70. Hata onarımı TAGTCGA TAGA AGAGA AGAT GATCCGATGAG GCTCTAG GCTTTAG AGACAG CGAG GAGGCT Uçlar silindi... Slide courtesy of Dan Zerbino
  • 71. TAGTCGA TAGA AGAGA AGAT GATCCGATGAG GCTCTAG GCTTTAG AGACAG CGAG GAGGCT Kabarcıklar Slide courtesy of Dan Zerbino
  • 72. Hata onarımı Kabarcıklar kaldırıldı TAGTCGA TAGA AGAGA AGAT GATCCGATGAG GCTTTAG AGACAG CGAG GAGGCT Slide courtesy of Dan Zerbino
  • 73. AGATCCGATGAG Hata onarımı TAGTCGAG AGAGACAG GAGGCTTTAGA Son sadeleştirme Slide courtesy of Dan Zerbino
  • 74. AGATCCGATGAG TAGTCGAG AGAGACAG GAGGCTTTAGA Eulerian path TAGTCGAG GAGGCTTTAGA AGATCCGATGAG GAGGCTTTAGA AGAGACAG Slide courtesy of Dan Zerbino
  • 75. Ek bilgiler  Bilkent CS681 dersi slaytları:  http://www.cs.bilkent.edu.tr/~calkan/teaching/cs681  Araçlar, programlar:  http://seqanswers.com/wiki/SEQanswers  Başlangıç için makaleler:  http://www.cs.bilkent.edu.tr/~calkan/teaching/genomics/reading  Dergiler:  Nature Reviews Genetics (Article series: Next-generation sequencing)  Bioinformatics, BMC Bioinformatics, Nature Methods, vb.  Konferanslar  RECOMB (2014: Pittsburgh), ISMB (2014: Boston), APBC (2014: Shanghai), HIBIT (ODTÜ), PSB (Hawaii), vb.