Přednáška v rámci specializační odborné stáže v molekulární genetice, pondělí 5. listopadu 2012, Ústav biologie a lékařské genetiky 2. LF UK a FN Motol, Praha
1. Využití internetových databází v
DNA diagnostice
MUDr. Marek Turnovec
Ústav biologie a lékařské genetiky
UK 2. LF a FN Motol
Pondělí 5. listopadu 2012
Specializační odborná stáž v molekulární genetice
2. Osnova
● základní pojmy, historie
● databázové modely, relační databáze, SQL
● klient-server, web
● sekvenční a genomové databáze, variace, NGS
● lokus-specifické databáze, proteinové databáze
● OMIM, PubMed, Entrez, API, toolkity
● cytogenetické databáze
● klinicko-genetické databáze, Orphanet
● databáze laboratoří v ČR
3. Definice pojmu „databáze“
● uspořádaná množina informací na paměťovém
médiu
● dnes obvykle v elektronické/digitální podobě
● systém pro správu dat
● ukládání
● Create
● Read
● získávání ● Update
● Delete
● vyhledávání
● (odstraňování)
● filtrování, sestavy, výpočty, statistika, etc.
4. „Analogové“ databáze
● Různé seznamy – např. soupis adres, telefonní
seznam
● Katalogy
● Kartotéka („lístkovnice“) - 18. století, Carl Linné
● Děrné štítky, děrné pásky
obrázky: sxc.hu
5. Elektronické/digitální databáze
● Elektromechanické stroje zpracovávaly děrné štítky již na
konci 19. století
● 1890 – sčítání lidu v USA
● Další rozvoj od poloviny 20. století společně s vývojem
počítačů
● 1960 – COBOL
● 1965 – síťové databáze pro sálové počítače
● 1970 – E. F. Codd – relační databáze
● 1975 – SQL
SŘBD? Univac 1108, rok 1964
(Zdroj Wikipedia)
6. Databázové modely
● „plochý“ - flat
● hierarchický
● síťový
● relační
● objektový
SŘBD = systém řízení báze dat
DBMS = database management system
7. Flat file
vzorek jméno mutace1 mutace2
1 Jan N. F508del nenalezena
2 Petr V. F508del F508del
3 Eva M. nenalezena nenalezena
4 Josef P. CFTR del2,3 nenalezena
Relační model
vzorek jméno mutace1 mutace2 mutace_id mutace_nazev
1 Jan N. 2 1 1 nenalezena
2 Petr V. 2 2 2 F508del
3 Eva M. 1 1 3 CFTR del2,3
4 Josef P. 3 1
9. Příklady relačních
databázových systémů
● DB2 (IBM)
● Informix
● Oracle
● Sybase SQL Server
● MySQL / MariaDB
● PostgreSQL
● Microsoft SQL Server
● JET Engine (Microsoft Office Access)
10. SQL - Structured Query Language
tabulka "vysledky" vzorek jméno mutace1 mutace2
1 Jan N. F508del nenalezena
2 Petr V. F508del F508del
3 Eva M. nenalezena nenalezena
4 Josef P. CFTR del2,3 nenalezena
SELECT * FROM vysledky WHERE vzorek=1;
SELECT * FROM vysledky WHERE
mutace1="nenalezena" AND mutace2="nenalezena";
SELECT vzorek FROM vysledky WHERE
mutace1="F508del" OR mutace2="F508del";
INSERT INTO vysledky (vzorek, jmeno, mutace1, mutace2)
VALUES ("5", "Tereza M.", "nenalezena", "nenalezena")
11. NoSQL databáze
● pro dotazy se nepoužívá jazyk SQL
● pro uchování velkých objemů dat, kde relace
nejsou tak důležité
● každý záznam může mít různou strukturu
● dobře škálovatelné (replikace na více strojů)
● kde se používají: Google, Amazon, Facebook,
Twitter...
● CouchDB, MongoDB
13. Architektura klient-server
● Databáze běží centrálně na serveru
● jednodušší správa (např. zálohování)
● menší nároky na klientské počítače
● Přístup možný z více míst současně
14. Online a webové databáze
● architektura klient-server
● možnost přístupu odkudkoliv
● obvykle stačí obyčejný prohlížeč
● API pro přístup z jiných systémů
15.
16. Genomové databáze
● databáze tzv. referenčních sekvencí
● data z laboratoří z celého světa jsou zasílána
do jedné ze 3 databází:
● EMBL-Bank (Cambridge) - www.ebi.ac.uk/embl
● GeneBank (USA) - www.ncbi.nlm.nih.gov/genbank
● DDBJ (Japonsko) - www.ddbj.nig.ac.jp
● dohoda na společném/kompatibilním formátu
● obsah databází se každý den synchronizuje
17. International Nucleotide Sequence
Database Collaboration
www.insdc.org
● ENA/EMBL/EBI
● European Nucleotide Archive
● European Molecular Biology Laboratory
● European Bioinformatics Institute
● GeneBank / NCBI / NIH
● National Center for Biotechnology Information
● National Institute of Health
● DDNJ
● DNA Databank of Japan
18. „Genome browsers“
● slouží k prohlížení dat z genomových databází
● „stand-alone“ aplikace
● „web-based“
● Ensembl (Sanger Institute a EBI)
www.ensembl.org
● NCBI Map Viewer
www.ncbi.nlm.nih.gov/projects/mapview
● UCSC Genome Browser
genome.ucsc.edu
30. Human Genome Project
● mezinárodní projekt pro určení sekvence
celého lidského genomu a mapování všech asi
20000 genů
● 1990 zahájení projektu, plán byl na 15 let
● rozpočet 3 miliardy USD
● 2000 první pracovní verze lidského genomu
● 2003 „konečná“ verze
● 2006 sekvence posledního chromosomu (1)
publikována v Nature
31. www.ncbi.nlm.nih.gov/snp
● spuštěno 1998, jako doplněk k GenBank
● databáze variací:
● SNP (single nucleotide polymorphism)
● short indels (insertion/deletion)
● STR (short tandem repeat)
● MNP (multinucleotide polymorphism)
● heterozygotní sekvence
● pojmenované varianty
● přes 50 různých druhů
● pro člověka více než 187 miliónů záznamů
● data je možné stáhnout pomocí FTP
32. www.hapmap.org
● 2002 zahájení projektu
● USA, Kanada, VB, Čína, Japonsko, Nigérie
● 269 jedinců:
● 30x dítě + oba rodiče z Nigérie
● 30x dítě + oba rodiče z Evropy
● 44 nepříbuzných Japonců (Tokyo)
● 45 nepříbuzných Chanů
● SNP s frekvencí vyšší než 1 %
● možnost data stáhnout,
prohlížeč na stránkách projektu
obrázky: Wikimedia Commons
35. www.1000genomes.org
● 2008 – zahájení
● cíle:
● nejpodrobnější databáze genetických variací
● do 3 let osekvenovat celý genom alespoň 1000
jedinců
● současný stav: osekvenovat 2000 genomů
45. Mendelian Inheritance in Men (MIM)
● katalog všech známých
genetických onemocnění
● odkazy na geny (jsou-li známé)
● Victor A. McKusick
Victor A. McKusick
● 1. vydání – 1966 Foto: Wikipedia
● 12. vydání – 1998
● fenotypy i geny
● až na pár výjimek neobsahuje
chromosomální aberace
46. MIM kódy
1. číslice Rozsah Dědičnost
1 100000–199999 AD (před 1994)
2 200000–299999 AR (před 1994)
3 300000–399999 X-vázaná
4 400000–499999 Y-vázaná
5 500000–599999 mitochontriální
6 600000– AD (po 1994)
Symbol Význam
* gen o známé sekvenci
# fenotyp
+ gen + fenotyp
% fenotyp, lokus, ale ne sekvence
žádný symbol mendelovská dedičnost nejistá
^ odstraněný či přesunutý záznam
47. Online Mendelian Inheritance in Men
● online verze spravovaná NCBI
● časté aktualizace
● oproti tištěné verzi více odkazů (do jiných
databází, literatura...)
● těsné propojení na další služby NCBI (PubMed,
MapViewer...)
www.ncbi.nlm.nih.gov/omim
48.
49. PubMed
● online přístup do databáze MEDLINE
(Medical Literature Analysis and Retrieval System Online)
● články od roku 1950
● asi 5000 časopisů (i některé české)
● pro lepší výsledky hledání nutné jisté znalosti:
● MeSH slovník, limitování a kombinování
dotazů, etc.
www.ncbi.nlm.nih.gov/pubmed
50.
51. Entrez
● portál pro vyhledávání v mnoha
biomedicínských databázích
● sekvence (DNA, RNA), geny, varianty
● proteiny a jejich struktura
● OMIM, OMIA
● články v odborných časopisech
● monografie
www.ncbi.nlm.nih.gov/Entrez
56. POSSUM Web
● dysmorfologická databáze
● >3000 syndromů
● metabolické, chromosomální, skeletální i
vícečetné vady
● aktualizace každý měsíc
● fotografie, rtg
● přístup přes web, nutný hardwarový klíč
● roční předplatné $300
www.possum.net.au
57.
58.
59.
60. London Medical Databases
● The Winter-Baraitser Dysmorphology Database (WBDD)
● více než 4450 syndromů – dysmorfologie, vícečetné vrozené
vady, monogenní choroby, mikrodeleční syndromy, mentální
retardace
● fotografie, možnost vyhledávání dle příznaků
● The Baraitser-Winter Neurogenetics Database (BWND)
● přes 4000 neurogenetických syndromů
● kromě fotografií i CT, MRI, EEG
● The London Ophthalmic Genetics Database (GENEEYE)
● 2750 oftalmologických stavů s genetickým pozadím
● £600 za 1 databázi, další updaty £200 ročně
67. Orphanet
● mezinárodní portál pro vzácná onemocnění
(rare diseases) a „léčivé přípravky pro léčbu
vzácných onemocnění“ (orphan drugs)
● vzácné onemocnění – prevalence < 1:2000
● původně vznikl ve Francii, dnes projekt na
Evropské úrovni
● chtějí se připojit další země – Kanada,
Japonsko, Maroko...
● spolupráce na nové revizi MKN
www.orpha.net
68. Co Orphanet nabízí?
● 5954 vzácných onemocnění (k dubnu 2012)
● ≈ polovina encyklopedicky zpracovaných
● klasifikace
● léčiva pro vzácná onemocnění – ve všech
fázích vývoje/výroby
● adresáře:
● expertní klinická pracoviště
● diagnostické a genetické laboratoře
● pacientské organizace
73. Cytogenetické databáze
● ECARUCA - European Cytogeneticists Association
Register of Unbalanced Chromosome Aberrations
cytogenetické nálezy + klinické příznaky
http://umcecaruca01.extern.umcn.nl:8080/ecaruca/
● DECIPHER - Database of Chromosomal Imbalance
and Phenotype in Humans Using Ensembl Resources
získává data z různých bioinformatických zdrojů v
souvislosti s nerovnováhou nalezenou u konkrétního
pacienta
http://decipher.sanger.ac.uk/
74. Databáze laboratoří v ČR
● cytogenetické laboratoře
● kontaktní údaje, prováděná vyšetření
● molekulárně-genetické laboratoře
● kontaktní údaje
● vyšetřované geny, včetně OMIM kódu
● informace o akreditaci/certifikaci, kontrole kvality
● pracoviště klinické genetiky
www.slg.cz/pracoviste