Your SlideShare is downloading. ×
Využití internetových databází v DNA diagnostice
Upcoming SlideShare
Loading in...5
×

Thanks for flagging this SlideShare!

Oops! An error has occurred.

×

Saving this for later?

Get the SlideShare app to save on your phone or tablet. Read anywhere, anytime - even offline.

Text the download link to your phone

Standard text messaging rates apply

Využití internetových databází v DNA diagnostice

373
views

Published on

Přednáška v rámci specializační odborné stáže v molekulární genetice, pondělí 5. listopadu 2012, Ústav biologie a lékařské genetiky 2. LF UK a FN Motol, Praha

Přednáška v rámci specializační odborné stáže v molekulární genetice, pondělí 5. listopadu 2012, Ústav biologie a lékařské genetiky 2. LF UK a FN Motol, Praha

Published in: Health & Medicine

0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total Views
373
On Slideshare
0
From Embeds
0
Number of Embeds
0
Actions
Shares
0
Downloads
3
Comments
0
Likes
0
Embeds 0
No embeds

Report content
Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
No notes for slide

Transcript

  • 1. Využití internetových databází v DNA diagnostice MUDr. Marek Turnovec Ústav biologie a lékařské genetiky UK 2. LF a FN Motol Pondělí 5. listopadu 2012Specializační odborná stáž v molekulární genetice
  • 2. Osnova● základní pojmy, historie● databázové modely, relační databáze, SQL● klient-server, web● sekvenční a genomové databáze, variace, NGS● lokus-specifické databáze, proteinové databáze● OMIM, PubMed, Entrez, API, toolkity● cytogenetické databáze● klinicko-genetické databáze, Orphanet● databáze laboratoří v ČR
  • 3. Definice pojmu „databáze“● uspořádaná množina informací na paměťovém médiu● dnes obvykle v elektronické/digitální podobě● systém pro správu dat ● ukládání ● Create ● Read ● získávání ● Update ● Delete ● vyhledávání ● (odstraňování) ● filtrování, sestavy, výpočty, statistika, etc.
  • 4. „Analogové“ databáze● Různé seznamy – např. soupis adres, telefonní seznam● Katalogy● Kartotéka („lístkovnice“) - 18. století, Carl Linné● Děrné štítky, děrné pásky obrázky: sxc.hu
  • 5. Elektronické/digitální databáze● Elektromechanické stroje zpracovávaly děrné štítky již na konci 19. století ● 1890 – sčítání lidu v USA● Další rozvoj od poloviny 20. století společně s vývojem počítačů ● 1960 – COBOL ● 1965 – síťové databáze pro sálové počítače ● 1970 – E. F. Codd – relační databáze ● 1975 – SQL SŘBD? Univac 1108, rok 1964 (Zdroj Wikipedia)
  • 6. Databázové modely● „plochý“ - flat● hierarchický● síťový● relační● objektový SŘBD = systém řízení báze dat DBMS = database management system
  • 7. Flat file vzorek jméno mutace1 mutace2 1 Jan N. F508del nenalezena 2 Petr V. F508del F508del 3 Eva M. nenalezena nenalezena 4 Josef P. CFTR del2,3 nenalezena Relační modelvzorek jméno mutace1 mutace2 mutace_id mutace_nazev1 Jan N. 2 1 1 nenalezena2 Petr V. 2 2 2 F508del3 Eva M. 1 1 3 CFTR del2,34 Josef P. 3 1
  • 8. CSV – comma separated values
  • 9. Příklady relačních databázových systémů● DB2 (IBM)● Informix● Oracle● Sybase SQL Server● MySQL / MariaDB● PostgreSQL● Microsoft SQL Server● JET Engine (Microsoft Office Access)
  • 10. SQL - Structured Query Language tabulka "vysledky" vzorek jméno mutace1 mutace2 1 Jan N. F508del nenalezena 2 Petr V. F508del F508del 3 Eva M. nenalezena nenalezena 4 Josef P. CFTR del2,3 nenalezenaSELECT * FROM vysledky WHERE vzorek=1;SELECT * FROM vysledky WHERE mutace1="nenalezena" AND mutace2="nenalezena";SELECT vzorek FROM vysledky WHERE mutace1="F508del" OR mutace2="F508del";INSERT INTO vysledky (vzorek, jmeno, mutace1, mutace2) VALUES ("5", "Tereza M.", "nenalezena", "nenalezena")
  • 11. NoSQL databáze● pro dotazy se nepoužívá jazyk SQL● pro uchování velkých objemů dat, kde relace nejsou tak důležité● každý záznam může mít různou strukturu● dobře škálovatelné (replikace na více strojů)● kde se používají: Google, Amazon, Facebook, Twitter...● CouchDB, MongoDB
  • 12. Nejrozšířenější databáze na světě... MS Excel :-)● nějaký pěkný obrázek Excelu?
  • 13. Architektura klient-server● Databáze běží centrálně na serveru ● jednodušší správa (např. zálohování) ● menší nároky na klientské počítače● Přístup možný z více míst současně
  • 14. Online a webové databáze● architektura klient-server● možnost přístupu odkudkoliv● obvykle stačí obyčejný prohlížeč● API pro přístup z jiných systémů
  • 15. Genomové databáze● databáze tzv. referenčních sekvencí● data z laboratoří z celého světa jsou zasílána do jedné ze 3 databází: ● EMBL-Bank (Cambridge) - www.ebi.ac.uk/embl ● GeneBank (USA) - www.ncbi.nlm.nih.gov/genbank ● DDBJ (Japonsko) - www.ddbj.nig.ac.jp● dohoda na společném/kompatibilním formátu● obsah databází se každý den synchronizuje
  • 16. International Nucleotide Sequence Database Collaboration www.insdc.org● ENA/EMBL/EBI ● European Nucleotide Archive ● European Molecular Biology Laboratory ● European Bioinformatics Institute● GeneBank / NCBI / NIH ● National Center for Biotechnology Information ● National Institute of Health● DDNJ ● DNA Databank of Japan
  • 17. „Genome browsers“● slouží k prohlížení dat z genomových databází● „stand-alone“ aplikace● „web-based“ ● Ensembl (Sanger Institute a EBI) www.ensembl.org ● NCBI Map Viewer www.ncbi.nlm.nih.gov/projects/mapview ● UCSC Genome Browser genome.ucsc.edu
  • 18. Argowww.broadinstitute.org/annotation/argo/
  • 19. Ensembl
  • 20. Ensembl – Homo Sapiens
  • 21. Ensemble Genomes (2009)
  • 22. BioMart
  • 23. Download dat
  • 24. Human Genome Project● mezinárodní projekt pro určení sekvence celého lidského genomu a mapování všech asi 20000 genů● 1990 zahájení projektu, plán byl na 15 let● rozpočet 3 miliardy USD● 2000 první pracovní verze lidského genomu● 2003 „konečná“ verze● 2006 sekvence posledního chromosomu (1) publikována v Nature
  • 25. www.ncbi.nlm.nih.gov/snp● spuštěno 1998, jako doplněk k GenBank● databáze variací: ● SNP (single nucleotide polymorphism) ● short indels (insertion/deletion) ● STR (short tandem repeat) ● MNP (multinucleotide polymorphism) ● heterozygotní sekvence ● pojmenované varianty● přes 50 různých druhů● pro člověka více než 187 miliónů záznamů● data je možné stáhnout pomocí FTP
  • 26. www.hapmap.org● 2002 zahájení projektu● USA, Kanada, VB, Čína, Japonsko, Nigérie● 269 jedinců: ● 30x dítě + oba rodiče z Nigérie ● 30x dítě + oba rodiče z Evropy ● 44 nepříbuzných Japonců (Tokyo) ● 45 nepříbuzných Chanů● SNP s frekvencí vyšší než 1 %● možnost data stáhnout, prohlížeč na stránkách projektu obrázky: Wikimedia Commons
  • 27. Win/Mac/ /Linux (Java)http://www.broadinstitute.org/scientific-community/science/programs/medical-and-population-genetics/haploview/haploview
  • 28. www.1000genomes.org● 2008 – zahájení● cíle: ● nejpodrobnější databáze genetických variací ● do 3 let osekvenovat celý genom alespoň 1000 jedinců● současný stav: osekvenovat 2000 genomů
  • 29. Next-generation sequencing (NGS)● Sanger („old generation“) - dideoxynukleotidy● pyrosekvenování (454)● Solexa/Illumina – reverzibilní ukončující báze● SOLiD Sequencing – ligace● polovodičové sekvenování (Ion Torrent, Ion Proton)
  • 30. Genetický kódPrvní báze Druhá báze Třetí báze U C A G U UUU - fenylalanin UCU - serin UAU - tyrozin UGU - cystein U UUC - fenylalanin UCC - serin UAC - tyrozin UGC - cystein C UUA - leucin UCA - serin UAA - stop kodön UGA - stop kodón A UUG - leucin UCG - serin UAG - stop kodón UGG - tryptofan G C CUU - leucin CCU - prolin CAU - histidin CGU - arginin U CUC - leucin CCC - prolin CAC - histidin CGC - arginin C CUA - leucin CCA - prolin CAA - glutamin CGA - arginin A CUG - leucin CCG - prolin CAG - glutamin CGG - arginin G A AUU - isoleucin ACU - threonin AAU - kys. asparagová AGU - serin U AUC - isoleucin ACC - threonin AAC - kys. asparagová AGC - serin C AUA - isoleucin ACA - threonin AAA - lysin AGA - arginin A AUG - methionin ACG - threonin AAG - lysin AGG - arginin G G GUU - valin GCU - alanin GAU - kys. asparagová GGU - glycin U GUC - valin GCC - alanin GAC - kys. asparagová GGC - glycin C GUA - valin GCA - alanin GAA - kys. glutamová GGA - glycin A GUG - valin GCG - alanin GAG - kys. glutamová GGG - glycin G
  • 31. UniProt● Universal Protein resource● Konsorcium: ● EBI ● Swiss Institute of Bioinformatics ● Protein Information Resource www.uniprot.org
  • 32. Specifické databáze● Cystic Fibrosis Mutation Database genet.sickkids.on.ca
  • 33. http://www.cftr2.org/
  • 34. Z českých luhů a hájů
  • 35. Mendelian Inheritance in Men (MIM)● katalog všech známých genetických onemocnění● odkazy na geny (jsou-li známé)● Victor A. McKusick Victor A. McKusick● 1. vydání – 1966 Foto: Wikipedia● 12. vydání – 1998● fenotypy i geny● až na pár výjimek neobsahuje chromosomální aberace
  • 36. MIM kódy 1. číslice Rozsah Dědičnost 1 100000–199999 AD (před 1994) 2 200000–299999 AR (před 1994) 3 300000–399999 X-vázaná 4 400000–499999 Y-vázaná 5 500000–599999 mitochontriální 6 600000– AD (po 1994) Symbol Význam* gen o známé sekvenci# fenotyp+ gen + fenotyp% fenotyp, lokus, ale ne sekvencežádný symbol mendelovská dedičnost nejistá^ odstraněný či přesunutý záznam
  • 37. Online Mendelian Inheritance in Men● online verze spravovaná NCBI● časté aktualizace● oproti tištěné verzi více odkazů (do jiných databází, literatura...)● těsné propojení na další služby NCBI (PubMed, MapViewer...) www.ncbi.nlm.nih.gov/omim
  • 38. PubMed● online přístup do databáze MEDLINE (Medical Literature Analysis and Retrieval System Online)● články od roku 1950● asi 5000 časopisů (i některé české)● pro lepší výsledky hledání nutné jisté znalosti: ● MeSH slovník, limitování a kombinování dotazů, etc. www.ncbi.nlm.nih.gov/pubmed
  • 39. Entrez● portál pro vyhledávání v mnoha biomedicínských databázích● sekvence (DNA, RNA), geny, varianty● proteiny a jejich struktura● OMIM, OMIA● články v odborných časopisech● monografie www.ncbi.nlm.nih.gov/Entrez
  • 40. Bio* toolkity● BioPerl (1995)● BioPython (1999)● BioJava (1999)
  • 41. POSSUM Web● dysmorfologická databáze● >3000 syndromů● metabolické, chromosomální, skeletální i vícečetné vady● aktualizace každý měsíc● fotografie, rtg● přístup přes web, nutný hardwarový klíč● roční předplatné $300 www.possum.net.au
  • 42. London Medical Databases● The Winter-Baraitser Dysmorphology Database (WBDD) ● více než 4450 syndromů – dysmorfologie, vícečetné vrozené vady, monogenní choroby, mikrodeleční syndromy, mentální retardace ● fotografie, možnost vyhledávání dle příznaků● The Baraitser-Winter Neurogenetics Database (BWND) ● přes 4000 neurogenetických syndromů ● kromě fotografií i CT, MRI, EEG● The London Ophthalmic Genetics Database (GENEEYE) ● 2750 oftalmologických stavů s genetickým pozadím● £600 za 1 databázi, další updaty £200 ročně
  • 43. Seznam syndromů
  • 44. Popis syndromu
  • 45. Příznaky
  • 46. Vyhledávání podle příznaků
  • 47. Literatura
  • 48. Obrazová dokumentace asi 20000 obrázků: fotografie, RTG, CT, MRI, EEG, mikrofotografie...
  • 49. Orphanet● mezinárodní portál pro vzácná onemocnění (rare diseases) a „léčivé přípravky pro léčbu vzácných onemocnění“ (orphan drugs)● vzácné onemocnění – prevalence < 1:2000● původně vznikl ve Francii, dnes projekt na Evropské úrovni● chtějí se připojit další země – Kanada, Japonsko, Maroko...● spolupráce na nové revizi MKN www.orpha.net
  • 50. Co Orphanet nabízí?● 5954 vzácných onemocnění (k dubnu 2012) ● ≈ polovina encyklopedicky zpracovaných● klasifikace● léčiva pro vzácná onemocnění – ve všech fázích vývoje/výroby● adresáře: ● expertní klinická pracoviště ● diagnostické a genetické laboratoře ● pacientské organizace
  • 51. www.orphanet.cz
  • 52. Cytogenetické databáze● ECARUCA - European Cytogeneticists Association Register of Unbalanced Chromosome Aberrations cytogenetické nálezy + klinické příznaky http://umcecaruca01.extern.umcn.nl:8080/ecaruca/● DECIPHER - Database of Chromosomal Imbalance and Phenotype in Humans Using Ensembl Resources získává data z různých bioinformatických zdrojů v souvislosti s nerovnováhou nalezenou u konkrétního pacienta http://decipher.sanger.ac.uk/
  • 53. Databáze laboratoří v ČR● cytogenetické laboratoře ● kontaktní údaje, prováděná vyšetření● molekulárně-genetické laboratoře ● kontaktní údaje ● vyšetřované geny, včetně OMIM kódu ● informace o akreditaci/certifikaci, kontrole kvality● pracoviště klinické genetiky www.slg.cz/pracoviste
  • 54. www.eddnal.com
  • 55. GeneTests● GeneReviews● Laboratory Directory● Clinic directory● Educational materials http://www.ncbi.nlm.nih.gov/sites/GeneTests/
  • 56. Děkuji za pozornost.marek.turnovec@lfmotol.cuni.cz marek@turnovec.cz