DNA Mikroarray 'DNA çip', 'gen çip', 'genom çip', veya gen-dizi olarak da bilinen, genellikle her biri bir geni temsil eden, ayrı ayrı küçük katı yüzeye kovalent bağlarla sabitlenmiş binlerce DNA parçacıkları toplusudur.
Her DNA spotlarda 10-12 mol spesifik DNA sekansları bulunur ki “probe” yada oligo olarak bilinirler.
Bilinen her gen veya probe çip üzerinde belirli bir noktada oturup ve değişen seviyelerde floresan aktivitesi, dahil edilen genetik materyalde değişen seviyelerde gen aktivitesi gösterir.
Prob sekanslara bağlanan floresan etiketli hedef diziler bir sinyal üretir.
2. Genom nedir?
Bir canlının tüm DNA’sındaki kalıtımsal
şifrelerin tamamı
İnsan genomu 6 milyar baz çiftinden oluşur, anne
ve babadan 3’er milyar baz çifti gelir
4 çeşit baz: adenin (A), sitozin (C), guanin (G),
timin (T)
3. Referans genomu
Uluslararası İnsan Genomu Projesi (ABD, İngiltere, Çin, Japonya,
Almanya, Fransa)
8 bireyden oluşturulan 3 milyar baz çiftlik “referans genomu”
4. İnsan genom çeşitliliği
Sıklık
Genetik farklılık türleri
Tek Nükleotid Polimorfizm (TNP [SNP])
Kopya Sayısı Varyasyonu (KSV [CNV])
ve Yapısal Varyasyon (YV [SV])
Kromozomal
(trizomi/monozomi)
1 bp 1 kbp 1 Mbp
1 kromozom
Değişken büyüklüğü
Nasıl bulunur?
SNP genotipleme/Sanger dizileme
Array-CGH
Karyotipleme
Yeni nesil dizileme
Verimlilik
1 bp
1 kbp 1 Mbp
1 kromozom
Değişken büyüklüğü
5. Tek nükleotidlik ve kısa değişimler
TNP: İnsanlar arasında tek nükleotidin değişimi ile oluşan farklar
Kısa indel: 1-50 baz uzunluğunda silinme ve eklenmeler
referans: C A C A G T G C G C - T
birey: C A C C G T G - G C A T
substitüsyon silinme eklenme
(TNP / SNP) (indel)
Kişi başına 3-4.5 milyon arası TNP, yaklaşık 500 bin kısa indel
Birçoğu etkisizdir, bazıları genlerin ifade ettiği proteinleri etkiler
Nonsense mutasyon: Genin ifadesini durdurur (örn: Akdeniz anemisi)
Missense mutasyon: İfade edilen proteini değiştirir (örn: ALS)
Frameshift (indel): DNA kodunda kaymaya neden olup proteini değiştirir (örn:
hiperkolesterol)
6. Kısa tekrar (mikrosatelit) polimorfizmi
Tekrar eden ardışık tekrarlardaki değişim
referans: C A G C A G C A G C A G
birey: C A G C A G C A G C A G C A G
Adli tıpta ve babalık testlerinde kullanılır
Bazı hastalıklara yol açabilir:
Kırılgan X Sendromu (Fragile X Syndrome)
Huntington hastalığı
8. Yapısal ve Kopya Sayısı Çeşitlilikleri
Eklenme
Silinme
Çevrilme (inversion)
‘Bireysel olarak ender, toplu
olarak yaygın’
Kişi başına yaklaşık 15-20
milyon baz çiftini etkiler
Çoğunun etkisi yok ya da
azdır, genlerin silinmesi ya da
kesintiye uğraması
durumunda hastalığa yol
açabilir:
Silinme: otizm, zeka geriliği,
Crohn hastalığı
Kopyalanma: şizofreni, sedef
hastalığı
Taşınma: CLL (lösemi)
Transpozon: hemofili
Kidd et al., Nature, 2008
9. Genomik farklılık keşif projeleri
Uluslararası HapMap Projesi
4 toplumdan 270 birey
İnsan Genomu Çeşitlilik Projesi (HGDP)
52 toplumdan 1050 birey
Dizileme projeleri:
1000 Genom Projesi
26 toplumdan 2500 birey (planlanan)
İngiltere:
UK100K (kontrol + nadir hastalık +yaygın hastalık)
Diğer bağımsız projeler:
Güney Afrika, Kore, Hindistan, Japonya, İrlanda, Hollanda,
vb.
10. Genom dizileme
Örneklenen
genom Rastgele parçalama
Eşli dizileme (paired-end seq.)
Referans Dizi okuma (read) yerleştirme
Genomu
(İGP) Biyoenformatik analiz
Bulunan farklılıklar
Sonuçlar
Deneysel doğrulama
Baz başına
10-100
molekül
11. Ekzom ya da tüm genom
Ekzom dizileme sadece protein kodlayan kısımları
inceler
Genomun %1.5’u
Tek gen hastalıkları ve Mendel kalıtımına uyan hastalıklar için
genelde iyi sonuç verir
> 80X kapsama gerekir (~40 milyon “read”)
Tüm genom dizileme ile intronlar, UTR’lar,
promotörlerdeki hastalık nedeni mutasyonlar da
bulunabilir
Crohn hastalığı: McCarroll 2008, Bekpen 2009
ALS-FTD: Renton, 2011
> 30X kapsama gerekir (~1 milyar “read”)
12. Biyoenformatik analizler
Tekrar dizileme (resequencing): elde bir referans
genomu varsa karşılaştırılma yapılır (örn. insan,
fare, şempanze, vs.)
Parçacık yerleştirme (read mapping): Her parçacığın
referans genomuna mümkün olan en az değişiklik ile
eşleştirilmesi
Yeni dizileme (de novo sequencing): referans
genomu olmayan türlerin referans genomunun
oluşturulmasında (örn: inci kefali, gibbon, pirinç,
vb.)
13. Tekrar dizileme analizi
Dizileme
parçacıklar
BWA, Bowtie, mrFAST, vb.
parçacık yerleştirme
(read mapping)
TNP/indel keşfi Yapısal farklılık keşfi
GATK, samtools,
vb.
VariationHunter,
GenomeSTRiP, Delly, vb.
Annovar, snpEff, SIFT, vb. Ingenuity, DADA, vb.
Yorumlama, veritabanı karşılaştırma, gen
önceliklendirme
Protein etkileşimi ve yolak analizi
15. Amaç
Referans genomuna hizalanmış kısa parçacıklar
incelendiğinde görülen farklılıklardan gerçek
TNP ve dizileme hatalarının ayırılması
TCTCCTCTTCCAGTGGCGACGGAAC
CTCCTCTTCCAGTGGCGACAGAACG
CTCTTCCAGTGGCGACGGAACGACC
CTTCCAGTGGCGACGGAACGACCC
TNP?
CCAGTGGCGACTGAACGACCCTGGA
CAGTGGCGACAGAACGACCCTGGAG
Dizileme
hatası
Referans TCTCCTCTTCCAGTGGCGACGGAACGACCCTGGAGCCAAGT
16. Zorluklar
Dizileme hataları
Tekrar ve duplikasyonlardaki paralog dizi
varyanları
Hizalama hataları
TNP ve indellerin yanlış hizalanması
Kısa ardışık tekrarlar
Düzeltmek için Çoklu Dizi Hizalaması (ÇDH)
gerekir
18. TNP tahmin hataları ve filtreleme
TNP tahminlerinde çok sayıda hata bulunur
Sistematik okuma hataları, parçacık yerleştirme ve hizalama
hataları
Ham TNP tahminlerinde %5‐%20 arası yanlış bulgu olabilir
“Sert” filtreler:
Okuma derinliği (çok az ve çok fazla derinlik)
Alel dengesi
Baz okuma kalitesi
İplik meyli (strand bias)
Kısa bölgelerde TNP sayısının fazlalığı
İstatistiksel filtreler:
dbSNP, HapMap, mikrodizin verileri ile istatiksel skorlama
VQSR: Variant Quality Score Recalibration (GATK programında)
21. Keşifteki zorluklar
Silinme ve duplikasyonlar > 5 Kbp; aynı 5 kişinin genonumda
790
283
128
5
634
278
132 84
25
76
130
5
Fosmid klonu
eşli dizileme
End-sequence pair
(N = 1,206)
42 milyon oligolu
arrayCGH
Conrad et al., 2010
(N = 1,128)
Affymetrix 6.0 TNP microdizin
McCarroll et al., 2008 (N = 236)
22. YV için dizi sinyalleri
Eşli dizi analizi (read pair – RP)
Tüm YV türleri
Bulunan YV’lerin büyüklüğü ve yerlerinin kesinliği
eşler arasındaki mesafeye bağlı
Dizileme derinliği analizi (read depth – RD)
Sadece silinme ve duplikasyonlar (KSV)
Bulunan KSV’lerin başlangıç/bitiş yerleri yaklaşık
bulunur
Ayrık dizi analizi (split read – SR)
Tekrarsız genomik bölgelerdeki tüm YV türleri
Bulunan YV’lerin yerleri kesindir
Yerel ve genel de novo birleştirme
Tekrarsız genomik bölgelerdeki tüm YV türleri
Bulunan YV’lerin yerleri kesindir
23. Bazı YV algoritmaları
Silinme Eklenme İnversiyon Transpozon Duplikasyon Mikrosatelit
RP
VariationHunter X Kısa X X X
BreakDancer X Kısa
HYDRA X Kısa X X
Tangram X
RD
WSSD X X
CNVnator X X
RDXplorer X X
SR
Pindel X Kısa
SPLITREAD X Kısa X X X X
lobSTR X
RP+SR
Delly X Kısa
Invy X
GenomeSTRiP X Kısa X
AS
Cortex X X
NovelSeq X
27. Analiz yükü
Tüm genom:
100 GB ham (sıkışmış), 150 GB işlenmiş veri
BWA hizalama: 30 CPU günü
GATK ile SNP/indel (çok aşamalı): 10 CPU günü
Yapısal varyasyon: 1 – 20 CPU günü
Ekzom:
50 GB ham (sıkışmış), 15 GB işlenmiş veri
BWA hizalama: 1 CPU günü
GATK ile SNP/indel (çok aşamalı): 15 CPU saati
Yapısal varyasyon: 1-2 CPU günü
28. Keşif sonrası
Yorumlama ve etkiler
snpEff
VAAST & pVAAST
PolyPhen2
Annovar
SIFT
SNAP
MutationTaster
Evrimsel korunum
GERP
phastCons
Protein etkileşimi ve
yolaklar
DADA, VAVIEN, vb.
Protein yolakları
Ingeniuty, vb.
Cooper & Shendure, Nature Reviews Genetics, 12(9):628-40, 2011
30. Özet
DNA dizileme ucuzlamakta: tüm genom ($1,500-$5,000),
tüm ekzom ($800-$900).
Analiz için güçlü ve pahalı bilgisayar sistemleri gerekli
Örn: 32 çekirdekli sistem ~$25,000; 90 TB depolama sistemi ~$25,000
Hemen her tür genetik varyasyon bulunabilir:
Translokasyon ve inversiyon en zorları
KSV tüm genom ile nispeten kolay, ekzom ile sınırlı
Varyant etkisi, haplotipleme (fazlama), akraba
evliliklerinde homozigosite haritalama gibi ek analizler
yapılabilir
Hastalık için nedensel varyantların bulunması “bilimden
çok sanat”
Editor's Notes
Four main signatures in sequencing data to discover SVs.
Just to reiterate I want to emphasize, even in the 1000 genomes project with 19 algorithms, nothing is comprehensive