1. Yeni Nesil DNA Dizileme
Analizi
Can Alkan
Bilgisayar Mühendisliği Bölümü,
Bilkent Üniversitesi
2. Kavramlar
Gen: kalıtsal bilgiyi taşıyan, kromozomlar içinde bulunan
ve DNA’dan oluşan diziler.
Genetik: kalıtım ile geçen fenotiplerin incelenmesi
Genotip: bir organizmanın genetik yapısı
Fenotip: bir organizmanın fiziksel özelikleri
Genom: bir organizmadaki tüm kalıtsal bilgilerin tamamı
Genomiks: tüm genomun analizi (çoğu canlı için DNA,
retrovirüsler için RNA)
Trankriptom: tüm RNA moleküllerinin kümesi
Proteom: tüm protein moleküllerinin kümesi
3. Yaşam 3 moleküle dayalıdır
DNA ‘sabit disk’
Hücrenin nasıl çalıştığına dair bilgileri tutar
RNA ‘RAM’
Protein sentezi için şablon
Kısa bilgi parçalarını (DNA’dan) hücrenin değişik kısımlarına taşır
Protein ‘robot kolu, anakart bus, vs.’
Vücudun temel yapıtaşları
Diğer hücrelere sinyal yollayan ve gen aktivitesini düzenleyen
enzimleri oluşturur
Bilgisayar mühendisleri açısından bu moleküller üç
alfabeden üretilmiş karakter dizileridir
4. Alfabeler
DNA: (bazlar)
Σ = {A, C, G, T}
A ve T; G ve C eşleşir
RNA: (bazlar)
Σ = {A, C, G, U}
A ve U; G ve C eşleşir
Protein: (amino asitler)
Σ = {A,C,D,E,F,G,H,I,K,L,M,N,P,Q,R,S,T,V,W,Y}
B = N | D
Z = Q | E
X = herhangi
5. Biyolojinin temel dogması
DNA pre-mRNA mRNA
protein
Baz çiftleşme kuralı: A ve T veya U 2 hidrojen bağı ile, and G ve C is
3 hidrojen bağı ile tutulur.
Not: Bazı RNA molekülleri RNA olarak kalır (örn tRNA,rRNA,
miRNA, snoRNA, vb.).
Splicing
Spliceosome
Translasyon
Transkripsiyon
Çekirdek
Ribozom
6. Genom
Bir canlının tüm DNA’sındaki kalıtımsal
şifrelerin tamamı
İnsan genomu 6 milyar baz çiftinden oluşur, anne
ve babadan 3’er milyar baz çifti gelir
4 çeşit baz: adenin (A), sitozin (C), guanin (G),
timin (T)
7. Genom büyüklükleri
Organism Genom Uzunluğu
(Baz)
Tahmini gen
sayısı
İnsan (Homo sapiens) 3.2 milyar 25,000
Fare (M. musculus) 2.6 milyar 25,000
Hardal otu(A. thaliana) 100 milyon 18,000
Solucan (C. elegans) 97 milyon 16,000
Sirke sineği (D.
137 milyon 12,000
melanogaster)
Maya (S. cerevisiae) 12.1 milyon 5,000
Bakteri (E. coli) 4.6 milyon 3,200
HIV 9700 9
8. Referans genomu
Uluslararası İnsan Genomu Projesi (ABD, İngiltere, Çin, Japonya,
Almanya, Fransa)
4 bireyden oluşturulan 3.2 milyar baz çiftlik “referans genomu”
Son versiyon: “NCBI GRCh37” = “hg19”
http://genome.ucsc.edu
9. İnsan genomu “içeriği”
Genler (~%35; ama sadece %1’lik kısmı protein
kodlayan ekzonlar)
Pseudogenler: kodlama/anlatım özelliğini yitirmiş genler
Evrimsel kayıplar
“İşlenmiş” pseudogenler (processed pseudogenes)
Tekrarlar (~%50)
Mobil DNA (Transposable elements): kendi kendilerini kopyalayıp
yapıştırabilen DNA dizileri. Genelde virüs temelli.
Satelitler (short tandem repeats [STR]; variable number of
tandem repeats [VNTR]). 2-171 baz arasında ardışık tekrar eden
DNA dizileri
Büyük duplikasyonlar (Segmental duplications) (%5)
İçlerinde gen ve tekrarlar barındırabilirler
10. Gen
DNA dizisinin RNA’ya kopyalanabilen (transkripsiyon) kısımları
Düzenleyici bölgeler: 50 kb’ye kadar başlangıçtan önceki bölüm
Ekzon: protein kodlayan kısımlar
genlerde 1 - 178 ekzon (ortalama 8.8)
ekzon uzunluğu 8 – 17000 baz (ortalama145 baz)
Intron: ekzonlar arasında kalan kısım; translasyon öncesinde
kesilir (splicing)
uzunluk 1 kb – 50 kb arası
Gen uzunluğu: en uzunu – 2.4 Mb (Dystrophin). Ortalama – 27 kb.
11. Genom - Gen
atgaccgggatactgatagaagaaaggttgggggcgtacacattagataaacgtatgaagtacgttagactcggcgccgccg
acccctattttttgagcagatttagtgacctggaaaaaaaatttgagtacaaaacttttccgaatacaataaaacggcggga
tgagtatccctgggatgacttaaaataatggagtggtgctctcccgatttttgaatatgtaggatcattcgccagggtccga
gctgagaattggatgcaaaaaaagggattgtccacgcaatcgcgaaccaacgcggacccaaaggcaagaccgataaaggaga
tcccttttgcggtaatgtgccgggaggctggttacgtagggaagccctaacggacttaatataataaaggaagggcttatag
gtcaatcatgttcttgtgaatggatttaacaataagggctgggaccgcttggcgcacccaaattcagtgtgggcgagcgcaa
cggttttggcccttgttagaggcccccgtataaacaaggagggccaattatgagagagctaatctatcgcgtgcgtgttcat
aacttgagttaaaaaatagggagccctggggcacatacaagaggagtcttccttatcagttaatgctgtatgacactatgta
ttggcccattggctaaaagcccaacttgacaaatggaagatagaatccttgcatactaaaaaggagcggaccgaaagggaag
ctggtgagcaacgacagattcttacgtgcattagctcgcttccggggatctaatagcacgaagcttactaaaaaggagcgga
13. İnsan genom çeşitliliği
Sıklık
Genetik farklılık türleri
Tek Nükleotid Polimorfizm (TNP [SNP])
Kopya Sayısı Varyasyonu (KSV [CNV])
ve Yapısal Varyasyon (YV [SV])
Kromozomal
(trizomi/monozomi)
1 bp 1 kbp 1 Mbp
1 kromozom
Değişken büyüklüğü
Nasıl bulunur?
SNP genotipleme/Sanger dizileme
Array-CGH
Karyotipleme
Yeni nesil dizileme
Verimlilik
1 bp
1 kbp 1 Mbp
1 kromozom
Değişken büyüklüğü
14. Tek nükleotidlik ve kısa değişimler
TNP: İnsanlar arasında tek nükleotidin değişimi ile oluşan farklar
Kısa indel: 1-50 baz uzunluğunda silinme ve eklenmeler
referans: C A C A G T G C G C - T
birey: C A C C G T G - G C A T
substitüsyon silinme eklenme
(TNP / SNP) (indel)
Kişi başına 3-4.5 milyon arası TNP, yaklaşık 500 bin kısa indel
Birçoğu etkisizdir, bazıları genlerin ifade ettiği proteinleri etkiler
Nonsense mutasyon: Genin ifadesini durdurur (örn: Akdeniz anemisi)
Missense mutasyon: İfade edilen proteini değiştirir (örn: ALS)
Frameshift (indel): DNA kodunda kaymaya neden olup proteini değiştirir (örn:
hiperkolesterol)
15. Kısa tekrar (mikrosatelit) polimorfizmi
Tekrar eden ardışık tekrarlardaki değişim
referans: C A G C A G C A G C A G
birey: C A G C A G C A G C A G C A G
Adli tıpta ve babalık testlerinde kullanılır
Bazı hastalıklara yol açabilir:
Kırılgan X Sendromu (Fragile X Syndrome)
Huntington hastalığı
17. Yapısal ve Kopya Sayısı Çeşitlilikleri
Eklenme
Silinme
Çevrilme (inversion)
‘Bireysel olarak ender, toplu
olarak yaygın’
Kişi başına yaklaşık 15-20
milyon baz çiftini etkiler
Çoğunun etkisi yok ya da
azdır, genlerin silinmesi ya da
kesintiye uğraması
durumunda hastalığa yol
açabilir:
Silinme: otizm, zeka geriliği,
Crohn hastalığı
Kopyalanma: şizofreni, sedef
hastalığı
Taşınma: CLL (lösemi)
Transpozon: hemofili
Kidd et al., Nature, 2008
18. Genomik farklılık keşif projeleri
Uluslararası HapMap Projesi
4 toplumdan 270 birey
İnsan Genomu Çeşitlilik Projesi (HGDP)
52 toplumdan 1050 birey
Dizileme projeleri:
1000 Genom Projesi
29 toplumdan 2500 birey (planlanan)
Analizi amamlanan: 14 toplumdan 1092 birey (Kasım
2012)
2500 birey dizilenmesi tamamlandı, analiz sürüyor
Bağımsız projeler:
Güney Afrika, Kore, Hindistan, Japonya, İngiltere, Suudi
Arabistan, İran, İrlanda, Hollanda, vs.
20. Dizileme: eski ve yeni nesil
Cihaz Nesil Yöntem
Dizi parça
uzunlugu Hata oranı (%) Cihaz fiyatı ($)
Dizileme (Mb)
maliyeti ($)
AB 3730xl 1 Sanger 1000 0.1 376,000 1,500
454 FLX 2 Sentez 700 1 500,000 7
Illumina HiSeq2000 2 Sentez 100 0.1 690,000 0.04
SOLiD 5500 2 Ligasyon 75 0.1 595,000 0.07
Pacific Biosciences 3 Sentez 1500 15 695,000 11
Ion Torrent 3 Sentez 200 1 50,000 0.95
Beklenen teknolojiler: Oxford Nanopore, Starlight, Halcyon, v.d.
2011 ortası itibarıyla
21. Genom dizileme
Varyasyon
Örneklenen
genom Rastgele parçalama
Eşli dizileme (paired-end seq.)
Referans Dizi parçacığı (read) hizalama
Genomu
(İGP) Biyoenformatik analiz
Bulunan farklılıklar
Sonuçlar
Deneysel doğrulama
Dizileme
hataları
22. Kapsama (coverage)
Genom uzunluğu: L
Parçacık sayısı: n
Ortalama parçacık uzunluğu: l
Kapsama / dizileme derinliği (coverage / sequencing depth):
Genomdaki her baza denk gelen ortalama parçacık sayısı
Kapsama K = n l / L
30X kapsama = baz başına ortalama 30 parçacık
Lander-Waterman modeli:
Tekbiçim dağılım (uniform distribution) varsayımı ile, K=10 ise her 1
milyon nükleotidde 1 boş bölge kalır
K
23. Ekzom ya da tüm genom
Ekzom dizileme sadece protein kodlayan kısımları
inceler
Genomun %1’i
Tek gen hastalıkları ve Mendel kalıtımına uyan hastalıklar için
genelde iyi sonuç verir
> 60X kapsama gerekir
Tüm genom dizileme ile intronlar, UTR’lar,
promotörlerdeki hastalık nedeni mutasyonlar da
bulunabilir
Crohn hastalığı: McCarroll 2008, Bekpen 2009
ALS-FTD: Renton, 2011
> 30X kapsama gerekir
24. Biyoenformatik analizler
Tekrar dizileme (resequencing): elde bir
referans genomu varsa karşılaştırılma yapılır
(örn. İnsan, fare, şempanze, vs.)
Parçacık hizalama (read mapping): Her
parçacığın referans genomuna mümkün olan en
az değişiklik ile eşleştirilmesi
Yeni dizileme (de novo sequencing): referans
genomu olmayan türlerin analizinde (örn: inci
kefali)
25. Tekrar dizileme analizi
Dizileme
parçacıklar
BWA, Bowtie, mrFAST, vb.
parçacık hizalama
(read mapping)
TNP/indel keşfi Yapısal farklılık keşfi
GATK,
SOAPsnp, vb.
VariationHunter,
GenomeSTRiP, Delly, vb.
Annovar, snpEff, SIFT, vb. Ingeniuty, DADA, vb.
Yorumlama, veritabanı karşılaştırma, gen
önceliklendirme
Protein etkileşimi ve yolak analizi
27. Hizalama algoritmaları
İki ana ‘tip’
Hash tabanlı ‘seed-and-extend’ (hash table, suffix array, suffix
tree)
Genomdaki kısa k-mer’ları indeksle
Dizi parçasının yerini ararken, parçanın içinden kısa bir k-mer’in
yerini indeksten bul, hizalamaya oradan devam et
Tüm genom için yüksek miktarda bellek gerekir, ama hız feda
edilerek bellek gereksinimi azaltılabilir
Hassas ancak yavaş
Burrows-Wheeler Transform & Ferragina-Manzini Index
BWT algoritması ile genom sıkıştırır ve FM ile sıkışmış genom
indekslenir
Arama ‘binary search’ benzeri bir yöntemle yapılır. Hatasız
hizalamalar çabuk bulunur.
Hassaslığı azdır
29. BWT-FM
Tüm referans genomu
sıkıştırarak indeksle
Dizi parçasını sondan
başa doğru karakter
karakter hizala
Her karakter için bütün
olası koordinatlar
hesaplanır
Uyumlu hizalama
bulunmadığında bir
karakter geriye gidip,
değişik karakter aranır
31. YÇD ile TNP/indel keşfi
Database: dbSNP
http://www.ncbi.nlm.nih.gov/projects/SNP/
Girdi: Dizileme verileri ve referans genomu
Çıktı: TNP ve indeller ve genotipleri
(homozigot/heterozigot)
TNP/indel keşif algoritmaları istatiksel analize dayanır
Birden fazla lokasyona eşlenen dizi parçaları (parçacık,
read) genelde elenir
Sıklıkla hata görülür, filtreleme gerekir
32. Tekrar dizileme ile TNP keşfi
referans genomu
parçacık yerleştirme
parçacık
hizalama
Paralog tespidi
TNP keşfi
33. Amaç
Referans genomuna hizalanmış kısa parçacıklar
incelendiğinde görülen farklılıklardan gerçek
TNP ve dizileme hatalarının ayırılması
TCTCCTCTTCCAGTGGCGACGGAAC
CTCCTCTTCCAGTGGCGACAGAACG
CTCTTCCAGTGGCGACGGAACGACC
CTTCCAGTGGCGACGGAACGACCC
TNP?
CCAGTGGCGACTGAACGACCCTGGA
CAGTGGCGACAGAACGACCCTGGAG
Dizileme
hatası
Referans TCTCCTCTTCCAGTGGCGACGGAACGACCCTGGAGCCAAGT
34. Zorluklar
Dizileme hataları
Tekrar ve duplikasyonlardaki paralog dizi
varyanları
Hizalama hataları
TNP ve indellerin yanlış hizalanması
Kısa ardışık tekrarlar
Düzeltmek için Çoklu Dizi Hizalaması (ÇDH)
gerekir
38. TNP tahmin hataları ve filtreleme
TNP tahminlerinde çok sayıda hata bulunur
Sistematik okuma hataları, parçacık yerleştirme ve hizalama
hataları
Ham TNP tahminlerinde %5‐%20 arası yanlış pozitif olabilir
“Sert” filtreler:
Okuma derinliği (çok az ve çok fazla kapsama)
Alel dengesi
Baz kalitesi
İplik meyli (strand bias)
Küçük bölgelerde TNP sayısının fazlalığı
İstatistiksel filtreler:
dbSNP, HapMap, mikrodizin verileri ile istatiksel skorlama
VQSR: Variant Quality Score Recalibration (GATK programında)
41. Keşifteki zorluklar
Silinme ve duplikasyonlar > 5 Kbp; aynı 5 kişinin genonumda
790
283
128
5
634
278
132 84
25
76
130
5
Fosmid klonu
eşli dizileme
End-sequence pair
(N = 1,206)
42 milyon oligolu
arrayCGH
Conrad et al., 2010
(N = 1,128)
Affymetrix 6.0 TNP microdizin
McCarroll et al., 2008 (N = 236)
42. Sorunlar
Çoğu YV duplikasyonlar ve uzun tekrarların içinde ya da yakınında
bulunur
Okunan dizileri kısa olduğundan çok sayıda farklı yere hizalanabilir, bu
da yanlış pozitifleri artırır
Sadece tek bir yere hizalanan diziler dikkate alınırsa hassaslık azalır
Referans genomu da tam değildir, eksik kalan duplike paraloglarından
gelen diziler hem yanlış pozitifleri hem de yanlış negatifleri artırır
YV’lerin çoğu karmaşıktır, aynı lokasyonda bir çok YV bulunabilir
KSV keşfi üzerine çok çalışılmıştır ancak hala mükemmellik
yakalanamamıştır
Dengeli YV’lerin (inversiyon, translokasyon) keşfi daha zordur ve iyi
çalışılmamıştır
43. YV için dizi sinyalleri
Eşli dizi analizi (read pair – RP)
Tüm YV türleri
Bulunan YV’lerin büyüklüğü ve yerlerinin kesinliği
eşler arasındaki mesafeye bağlı
Dizileme derinliği analizi (read depth – RD)
Sadece silinme ve duplikasyonlar (KSV)
Bulunan KSV’lerin başlangıç/bitiş yerleri yaklaşık
bulunur
Ayrık dizi analizi (split read – SR)
Tekrarsız genomik bölgelerdeki tüm YV türleri
Bulunan YV’lerin yerleri kesindir
Yerel ve genel de novo birleştirme
Tekrarsız genomik bölgelerdeki tüm YV türleri
Bulunan YV’lerin yerleri kesindir
44. Bazı YV algoritmaları
Silinme Eklenme İnversiyon Transpozon Duplikasyon Mikrosatelit
RP
VariationHunter X Kısa X X X
BreakDancer X Kısa
HYDRA X Kısa X X
Tangram X
RD
CNVnator X X
RDXplorer X X
SR
Pindel X Kısa
SPLITREAD X Kısa X X X X
lobSTR X
RP+SR
Delly X Kısa
Invy X
GenomeSTRiP X Kısa X
AS
Cortex X X
NovelSeq X
47. Kapsamlı bir metot yok
486
4
3250
303
6855 (63%)
3223 (80%)
1772 (33%)
RP
N=6
RD
N=4
SR
N=4
1000 Genomes Projesi’ndeki
doğrulanmış silinmeler
Kidd et al., Cell, 2010
48. Kapsamlı bir metot yok
486
4
3250
303
6855 (63%)
3223 (80%)
1772 (33%)
RP
N=6
RD
N=4
SR
N=4
1000 Genomes Projesi’ndeki
doğrulanmış silinmeler
Kidd et al., Cell, 2010
Tavsiyeler:
• Birden çok metot kullanmak
49. Kapsamlı bir metot yok
486
4
3250
303
6855 (63%)
3223 (80%)
1772 (33%)
RP
N=6
RD
N=4
SR
N=4
1000 Genomes Projesi’ndeki
doğrulanmış silinmeler
Kidd et al., Cell, 2010
Tavsiyeler:
• Birden çok metot kullanmak
• Kullanılan metotların hassaslık
(sensitivity), hatalı keşif oranı
(false discovery rate) ve hangi
tür varyasyonları nasıl bir genomik
altyapıda bulabileceğini bilmek
53. Genom Birleştirme
Test genomu
Rastgele parçalama
Dizileme
Contig /
scaffold
Birleştirme (assembly)
54. Zorluklar
DNA ikili sarmal olduğundan birleştirme
algoritmaları her dizi için 2 versiyona
dikkat etmeli
Dizileme hataları
Tekrarlar ve duplikasyonlar
Heterozigosite
Diploid genomlar: Her pozisyon için 2 alternatif
Polyploid bitki genomlarını birleştirmesi daha
zor (>2 alternatif)
55. Zorluklar
Büyük genomlar için gereken:
Daha yüksek hesaplama gücü
Daha çok bellek (>300 GB)
Kontaminasyon / karışım:
DNA dizilenirken başka kaynaklardan DNA da birlikte
okunur
Örn: maya, E. coli, diğer bakteriler, vb.
‘Big data’
Milyarlarca kısa dizi parçacığı ile çalışılır
68. de Bruijn
TAGTCGA
TAGA AGAGA
AGAT
GATCCGATGAG
GCTCTAG
GCTTTAG
AGAA
AGACAG
CGAG
CGACGC
GAGGCT
GATT
Sadeleştirme sonrası
Slide courtesy of Dan Zerbino
69. TAGTCGA
TAGA AGAGA
AGAT
GATCCGATGAG
GCTCTAG
GCTTTAG
AGAA
AGACAG
CGAG
CGACGC
GAGGCT
GATT
Uçlar
Slide courtesy of Dan Zerbino
70. Hata onarımı
TAGTCGA
TAGA AGAGA
AGAT
GATCCGATGAG
GCTCTAG
GCTTTAG
AGACAG
CGAG
GAGGCT
Uçlar silindi...
Slide courtesy of Dan Zerbino
71. TAGTCGA
TAGA AGAGA
AGAT
GATCCGATGAG
GCTCTAG
GCTTTAG
AGACAG
CGAG
GAGGCT
Kabarcıklar
Slide courtesy of Dan Zerbino
72. Hata onarımı
Kabarcıklar kaldırıldı
TAGTCGA
TAGA AGAGA
AGAT
GATCCGATGAG
GCTTTAG AGACAG
CGAG
GAGGCT
Slide courtesy of Dan Zerbino
73. AGATCCGATGAG
Hata onarımı
TAGTCGAG AGAGACAG
GAGGCTTTAGA
Son sadeleştirme
Slide courtesy of Dan Zerbino
74. AGATCCGATGAG
TAGTCGAG AGAGACAG
GAGGCTTTAGA
Eulerian path
TAGTCGAG GAGGCTTTAGA AGATCCGATGAG GAGGCTTTAGA AGAGACAG
Slide courtesy of Dan Zerbino
75. Ek bilgiler
Bilkent CS681 dersi slaytları:
http://www.cs.bilkent.edu.tr/~calkan/teaching/cs681
Araçlar, programlar:
http://seqanswers.com/wiki/SEQanswers
Başlangıç için makaleler:
http://www.cs.bilkent.edu.tr/~calkan/teaching/genomics/reading
Dergiler:
Nature Reviews Genetics (Article series: Next-generation sequencing)
Bioinformatics, BMC Bioinformatics, Nature Methods, vb.
Konferanslar
RECOMB (2014: Pittsburgh), ISMB (2014: Boston), APBC (2014:
Shanghai), HIBIT (ODTÜ), PSB (Hawaii), vb.