Využití internetových databází v          DNA diagnostice             MUDr. Marek Turnovec       Ústav biologie a lékařské...
Osnova●   základní pojmy, historie●   databázové modely, relační databáze, SQL●   klient-server, web●   sekvenční a genomo...
Definice pojmu „databáze“●   uspořádaná množina informací na paměťovém    médiu●   dnes obvykle v elektronické/digitální p...
„Analogové“ databáze●   Různé seznamy – např. soupis adres, telefonní    seznam●   Katalogy●   Kartotéka („lístkovnice“) -...
Elektronické/digitální databáze●   Elektromechanické stroje zpracovávaly děrné štítky již na    konci 19. století    ●   1...
Databázové modely●   „plochý“ - flat●   hierarchický●   síťový●   relační●   objektový             SŘBD = systém řízení bá...
Flat file               vzorek      jméno      mutace1       mutace2               1           Jan N.     F508del       ne...
CSV – comma separated values
Příklady relačních             databázových systémů●   DB2 (IBM)●   Informix●   Oracle●   Sybase SQL Server●   MySQL / Mar...
SQL - Structured Query Language     tabulka "vysledky"   vzorek   jméno      mutace1       mutace2                        ...
NoSQL databáze●   pro dotazy se nepoužívá jazyk SQL●   pro uchování velkých objemů dat, kde relace    nejsou tak důležité●...
Nejrozšířenější databáze na světě... MS Excel :-)●   nějaký pěkný obrázek Excelu?
Architektura klient-server●   Databáze běží centrálně na serveru     ● jednodušší správa (např. zálohování)     ● menší ná...
Online a webové databáze●   architektura klient-server●   možnost přístupu odkudkoliv●   obvykle stačí obyčejný prohlížeč●...
Genomové databáze●   databáze tzv. referenčních sekvencí●   data z laboratoří z celého světa jsou zasílána    do jedné ze ...
International Nucleotide Sequence          Database Collaboration              www.insdc.org●   ENA/EMBL/EBI     ●   Europ...
„Genome browsers“●   slouží k prohlížení dat z genomových databází●   „stand-alone“ aplikace●   „web-based“    ●   Ensembl...
Argowww.broadinstitute.org/annotation/argo/
Ensembl
Ensembl – Homo Sapiens
Ensemble Genomes (2009)
BioMart
Download dat
Human Genome Project●   mezinárodní projekt pro určení sekvence    celého lidského genomu a mapování všech asi    20000 ge...
www.ncbi.nlm.nih.gov/snp●   spuštěno 1998, jako doplněk k GenBank●   databáze variací:    ●   SNP (single nucleotide polym...
www.hapmap.org●   2002 zahájení projektu●   USA, Kanada, VB, Čína, Japonsko, Nigérie●   269 jedinců:    ●   30x dítě + oba...
Win/Mac/                                                                                                          /Linux (...
www.1000genomes.org●   2008 – zahájení●   cíle:    ●   nejpodrobnější databáze genetických variací    ●   do 3 let osekven...
Next-generation sequencing (NGS)●   Sanger („old generation“) - dideoxynukleotidy●   pyrosekvenování (454)●   Solexa/Illum...
Genetický kódPrvní báze                                        Druhá báze                                       Třetí báze...
UniProt●   Universal Protein resource●   Konsorcium:    ●   EBI    ●   Swiss Institute of Bioinformatics    ●   Protein In...
Specifické databáze●   Cystic Fibrosis Mutation Database    genet.sickkids.on.ca
http://www.cftr2.org/
Z českých luhů a hájů
Mendelian Inheritance in Men (MIM)●   katalog všech známých    genetických onemocnění●   odkazy na geny (jsou-li známé)●  ...
MIM kódy      1. číslice       Rozsah                Dědičnost          1        100000–199999       AD (před 1994)       ...
Online Mendelian Inheritance in Men●   online verze spravovaná NCBI●   časté aktualizace●   oproti tištěné verzi více odka...
PubMed●   online přístup do databáze MEDLINE    (Medical Literature Analysis and Retrieval System Online)●   články od rok...
Entrez●   portál pro vyhledávání v mnoha    biomedicínských databázích●   sekvence (DNA, RNA), geny, varianty●   proteiny ...
Bio* toolkity●   BioPerl (1995)●   BioPython (1999)●   BioJava (1999)
POSSUM Web●   dysmorfologická databáze●   >3000 syndromů●   metabolické, chromosomální, skeletální i    vícečetné vady●   ...
London Medical Databases●   The Winter-Baraitser Dysmorphology Database (WBDD)    ●   více než 4450 syndromů – dysmorfolog...
Seznam syndromů
Popis syndromu
Příznaky
Vyhledávání podle příznaků
Literatura
Obrazová dokumentace                   asi 20000 obrázků:                   fotografie, RTG,                   CT, MRI, EE...
Orphanet●   mezinárodní portál pro vzácná onemocnění    (rare diseases) a „léčivé přípravky pro léčbu    vzácných onemocně...
Co Orphanet nabízí?●   5954 vzácných onemocnění (k dubnu 2012)    ●   ≈ polovina encyklopedicky zpracovaných●   klasifikac...
www.orphanet.cz
Cytogenetické databáze●   ECARUCA - European Cytogeneticists Association    Register of Unbalanced Chromosome Aberrations ...
Databáze laboratoří v ČR●   cytogenetické laboratoře    ●   kontaktní údaje, prováděná vyšetření●   molekulárně-genetické ...
www.eddnal.com
GeneTests●   GeneReviews●   Laboratory Directory●   Clinic directory●   Educational materials      http://www.ncbi.nlm.nih...
Děkuji za pozornost.marek.turnovec@lfmotol.cuni.cz     marek@turnovec.cz
Využití internetových databází v DNA diagnostice
Využití internetových databází v DNA diagnostice
Využití internetových databází v DNA diagnostice
Využití internetových databází v DNA diagnostice
Využití internetových databází v DNA diagnostice
Využití internetových databází v DNA diagnostice
Využití internetových databází v DNA diagnostice
Využití internetových databází v DNA diagnostice
Využití internetových databází v DNA diagnostice
Využití internetových databází v DNA diagnostice
Využití internetových databází v DNA diagnostice
Využití internetových databází v DNA diagnostice
Využití internetových databází v DNA diagnostice
Využití internetových databází v DNA diagnostice
Využití internetových databází v DNA diagnostice
Využití internetových databází v DNA diagnostice
Využití internetových databází v DNA diagnostice
Využití internetových databází v DNA diagnostice
Využití internetových databází v DNA diagnostice
Využití internetových databází v DNA diagnostice
Využití internetových databází v DNA diagnostice
Využití internetových databází v DNA diagnostice
Využití internetových databází v DNA diagnostice
Využití internetových databází v DNA diagnostice
Upcoming SlideShare
Loading in...5
×

Využití internetových databází v DNA diagnostice

413

Published on

Přednáška v rámci specializační odborné stáže v molekulární genetice, pondělí 5. listopadu 2012, Ústav biologie a lékařské genetiky 2. LF UK a FN Motol, Praha

Published in: Health & Medicine
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total Views
413
On Slideshare
0
From Embeds
0
Number of Embeds
0
Actions
Shares
0
Downloads
4
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Využití internetových databází v DNA diagnostice

  1. 1. Využití internetových databází v DNA diagnostice MUDr. Marek Turnovec Ústav biologie a lékařské genetiky UK 2. LF a FN Motol Pondělí 5. listopadu 2012Specializační odborná stáž v molekulární genetice
  2. 2. Osnova● základní pojmy, historie● databázové modely, relační databáze, SQL● klient-server, web● sekvenční a genomové databáze, variace, NGS● lokus-specifické databáze, proteinové databáze● OMIM, PubMed, Entrez, API, toolkity● cytogenetické databáze● klinicko-genetické databáze, Orphanet● databáze laboratoří v ČR
  3. 3. Definice pojmu „databáze“● uspořádaná množina informací na paměťovém médiu● dnes obvykle v elektronické/digitální podobě● systém pro správu dat ● ukládání ● Create ● Read ● získávání ● Update ● Delete ● vyhledávání ● (odstraňování) ● filtrování, sestavy, výpočty, statistika, etc.
  4. 4. „Analogové“ databáze● Různé seznamy – např. soupis adres, telefonní seznam● Katalogy● Kartotéka („lístkovnice“) - 18. století, Carl Linné● Děrné štítky, děrné pásky obrázky: sxc.hu
  5. 5. Elektronické/digitální databáze● Elektromechanické stroje zpracovávaly děrné štítky již na konci 19. století ● 1890 – sčítání lidu v USA● Další rozvoj od poloviny 20. století společně s vývojem počítačů ● 1960 – COBOL ● 1965 – síťové databáze pro sálové počítače ● 1970 – E. F. Codd – relační databáze ● 1975 – SQL SŘBD? Univac 1108, rok 1964 (Zdroj Wikipedia)
  6. 6. Databázové modely● „plochý“ - flat● hierarchický● síťový● relační● objektový SŘBD = systém řízení báze dat DBMS = database management system
  7. 7. Flat file vzorek jméno mutace1 mutace2 1 Jan N. F508del nenalezena 2 Petr V. F508del F508del 3 Eva M. nenalezena nenalezena 4 Josef P. CFTR del2,3 nenalezena Relační modelvzorek jméno mutace1 mutace2 mutace_id mutace_nazev1 Jan N. 2 1 1 nenalezena2 Petr V. 2 2 2 F508del3 Eva M. 1 1 3 CFTR del2,34 Josef P. 3 1
  8. 8. CSV – comma separated values
  9. 9. Příklady relačních databázových systémů● DB2 (IBM)● Informix● Oracle● Sybase SQL Server● MySQL / MariaDB● PostgreSQL● Microsoft SQL Server● JET Engine (Microsoft Office Access)
  10. 10. SQL - Structured Query Language tabulka "vysledky" vzorek jméno mutace1 mutace2 1 Jan N. F508del nenalezena 2 Petr V. F508del F508del 3 Eva M. nenalezena nenalezena 4 Josef P. CFTR del2,3 nenalezenaSELECT * FROM vysledky WHERE vzorek=1;SELECT * FROM vysledky WHERE mutace1="nenalezena" AND mutace2="nenalezena";SELECT vzorek FROM vysledky WHERE mutace1="F508del" OR mutace2="F508del";INSERT INTO vysledky (vzorek, jmeno, mutace1, mutace2) VALUES ("5", "Tereza M.", "nenalezena", "nenalezena")
  11. 11. NoSQL databáze● pro dotazy se nepoužívá jazyk SQL● pro uchování velkých objemů dat, kde relace nejsou tak důležité● každý záznam může mít různou strukturu● dobře škálovatelné (replikace na více strojů)● kde se používají: Google, Amazon, Facebook, Twitter...● CouchDB, MongoDB
  12. 12. Nejrozšířenější databáze na světě... MS Excel :-)● nějaký pěkný obrázek Excelu?
  13. 13. Architektura klient-server● Databáze běží centrálně na serveru ● jednodušší správa (např. zálohování) ● menší nároky na klientské počítače● Přístup možný z více míst současně
  14. 14. Online a webové databáze● architektura klient-server● možnost přístupu odkudkoliv● obvykle stačí obyčejný prohlížeč● API pro přístup z jiných systémů
  15. 15. Genomové databáze● databáze tzv. referenčních sekvencí● data z laboratoří z celého světa jsou zasílána do jedné ze 3 databází: ● EMBL-Bank (Cambridge) - www.ebi.ac.uk/embl ● GeneBank (USA) - www.ncbi.nlm.nih.gov/genbank ● DDBJ (Japonsko) - www.ddbj.nig.ac.jp● dohoda na společném/kompatibilním formátu● obsah databází se každý den synchronizuje
  16. 16. International Nucleotide Sequence Database Collaboration www.insdc.org● ENA/EMBL/EBI ● European Nucleotide Archive ● European Molecular Biology Laboratory ● European Bioinformatics Institute● GeneBank / NCBI / NIH ● National Center for Biotechnology Information ● National Institute of Health● DDNJ ● DNA Databank of Japan
  17. 17. „Genome browsers“● slouží k prohlížení dat z genomových databází● „stand-alone“ aplikace● „web-based“ ● Ensembl (Sanger Institute a EBI) www.ensembl.org ● NCBI Map Viewer www.ncbi.nlm.nih.gov/projects/mapview ● UCSC Genome Browser genome.ucsc.edu
  18. 18. Argowww.broadinstitute.org/annotation/argo/
  19. 19. Ensembl
  20. 20. Ensembl – Homo Sapiens
  21. 21. Ensemble Genomes (2009)
  22. 22. BioMart
  23. 23. Download dat
  24. 24. Human Genome Project● mezinárodní projekt pro určení sekvence celého lidského genomu a mapování všech asi 20000 genů● 1990 zahájení projektu, plán byl na 15 let● rozpočet 3 miliardy USD● 2000 první pracovní verze lidského genomu● 2003 „konečná“ verze● 2006 sekvence posledního chromosomu (1) publikována v Nature
  25. 25. www.ncbi.nlm.nih.gov/snp● spuštěno 1998, jako doplněk k GenBank● databáze variací: ● SNP (single nucleotide polymorphism) ● short indels (insertion/deletion) ● STR (short tandem repeat) ● MNP (multinucleotide polymorphism) ● heterozygotní sekvence ● pojmenované varianty● přes 50 různých druhů● pro člověka více než 187 miliónů záznamů● data je možné stáhnout pomocí FTP
  26. 26. www.hapmap.org● 2002 zahájení projektu● USA, Kanada, VB, Čína, Japonsko, Nigérie● 269 jedinců: ● 30x dítě + oba rodiče z Nigérie ● 30x dítě + oba rodiče z Evropy ● 44 nepříbuzných Japonců (Tokyo) ● 45 nepříbuzných Chanů● SNP s frekvencí vyšší než 1 %● možnost data stáhnout, prohlížeč na stránkách projektu obrázky: Wikimedia Commons
  27. 27. Win/Mac/ /Linux (Java)http://www.broadinstitute.org/scientific-community/science/programs/medical-and-population-genetics/haploview/haploview
  28. 28. www.1000genomes.org● 2008 – zahájení● cíle: ● nejpodrobnější databáze genetických variací ● do 3 let osekvenovat celý genom alespoň 1000 jedinců● současný stav: osekvenovat 2000 genomů
  29. 29. Next-generation sequencing (NGS)● Sanger („old generation“) - dideoxynukleotidy● pyrosekvenování (454)● Solexa/Illumina – reverzibilní ukončující báze● SOLiD Sequencing – ligace● polovodičové sekvenování (Ion Torrent, Ion Proton)
  30. 30. Genetický kódPrvní báze Druhá báze Třetí báze U C A G U UUU - fenylalanin UCU - serin UAU - tyrozin UGU - cystein U UUC - fenylalanin UCC - serin UAC - tyrozin UGC - cystein C UUA - leucin UCA - serin UAA - stop kodön UGA - stop kodón A UUG - leucin UCG - serin UAG - stop kodón UGG - tryptofan G C CUU - leucin CCU - prolin CAU - histidin CGU - arginin U CUC - leucin CCC - prolin CAC - histidin CGC - arginin C CUA - leucin CCA - prolin CAA - glutamin CGA - arginin A CUG - leucin CCG - prolin CAG - glutamin CGG - arginin G A AUU - isoleucin ACU - threonin AAU - kys. asparagová AGU - serin U AUC - isoleucin ACC - threonin AAC - kys. asparagová AGC - serin C AUA - isoleucin ACA - threonin AAA - lysin AGA - arginin A AUG - methionin ACG - threonin AAG - lysin AGG - arginin G G GUU - valin GCU - alanin GAU - kys. asparagová GGU - glycin U GUC - valin GCC - alanin GAC - kys. asparagová GGC - glycin C GUA - valin GCA - alanin GAA - kys. glutamová GGA - glycin A GUG - valin GCG - alanin GAG - kys. glutamová GGG - glycin G
  31. 31. UniProt● Universal Protein resource● Konsorcium: ● EBI ● Swiss Institute of Bioinformatics ● Protein Information Resource www.uniprot.org
  32. 32. Specifické databáze● Cystic Fibrosis Mutation Database genet.sickkids.on.ca
  33. 33. http://www.cftr2.org/
  34. 34. Z českých luhů a hájů
  35. 35. Mendelian Inheritance in Men (MIM)● katalog všech známých genetických onemocnění● odkazy na geny (jsou-li známé)● Victor A. McKusick Victor A. McKusick● 1. vydání – 1966 Foto: Wikipedia● 12. vydání – 1998● fenotypy i geny● až na pár výjimek neobsahuje chromosomální aberace
  36. 36. MIM kódy 1. číslice Rozsah Dědičnost 1 100000–199999 AD (před 1994) 2 200000–299999 AR (před 1994) 3 300000–399999 X-vázaná 4 400000–499999 Y-vázaná 5 500000–599999 mitochontriální 6 600000– AD (po 1994) Symbol Význam* gen o známé sekvenci# fenotyp+ gen + fenotyp% fenotyp, lokus, ale ne sekvencežádný symbol mendelovská dedičnost nejistá^ odstraněný či přesunutý záznam
  37. 37. Online Mendelian Inheritance in Men● online verze spravovaná NCBI● časté aktualizace● oproti tištěné verzi více odkazů (do jiných databází, literatura...)● těsné propojení na další služby NCBI (PubMed, MapViewer...) www.ncbi.nlm.nih.gov/omim
  38. 38. PubMed● online přístup do databáze MEDLINE (Medical Literature Analysis and Retrieval System Online)● články od roku 1950● asi 5000 časopisů (i některé české)● pro lepší výsledky hledání nutné jisté znalosti: ● MeSH slovník, limitování a kombinování dotazů, etc. www.ncbi.nlm.nih.gov/pubmed
  39. 39. Entrez● portál pro vyhledávání v mnoha biomedicínských databázích● sekvence (DNA, RNA), geny, varianty● proteiny a jejich struktura● OMIM, OMIA● články v odborných časopisech● monografie www.ncbi.nlm.nih.gov/Entrez
  40. 40. Bio* toolkity● BioPerl (1995)● BioPython (1999)● BioJava (1999)
  41. 41. POSSUM Web● dysmorfologická databáze● >3000 syndromů● metabolické, chromosomální, skeletální i vícečetné vady● aktualizace každý měsíc● fotografie, rtg● přístup přes web, nutný hardwarový klíč● roční předplatné $300 www.possum.net.au
  42. 42. London Medical Databases● The Winter-Baraitser Dysmorphology Database (WBDD) ● více než 4450 syndromů – dysmorfologie, vícečetné vrozené vady, monogenní choroby, mikrodeleční syndromy, mentální retardace ● fotografie, možnost vyhledávání dle příznaků● The Baraitser-Winter Neurogenetics Database (BWND) ● přes 4000 neurogenetických syndromů ● kromě fotografií i CT, MRI, EEG● The London Ophthalmic Genetics Database (GENEEYE) ● 2750 oftalmologických stavů s genetickým pozadím● £600 za 1 databázi, další updaty £200 ročně
  43. 43. Seznam syndromů
  44. 44. Popis syndromu
  45. 45. Příznaky
  46. 46. Vyhledávání podle příznaků
  47. 47. Literatura
  48. 48. Obrazová dokumentace asi 20000 obrázků: fotografie, RTG, CT, MRI, EEG, mikrofotografie...
  49. 49. Orphanet● mezinárodní portál pro vzácná onemocnění (rare diseases) a „léčivé přípravky pro léčbu vzácných onemocnění“ (orphan drugs)● vzácné onemocnění – prevalence < 1:2000● původně vznikl ve Francii, dnes projekt na Evropské úrovni● chtějí se připojit další země – Kanada, Japonsko, Maroko...● spolupráce na nové revizi MKN www.orpha.net
  50. 50. Co Orphanet nabízí?● 5954 vzácných onemocnění (k dubnu 2012) ● ≈ polovina encyklopedicky zpracovaných● klasifikace● léčiva pro vzácná onemocnění – ve všech fázích vývoje/výroby● adresáře: ● expertní klinická pracoviště ● diagnostické a genetické laboratoře ● pacientské organizace
  51. 51. www.orphanet.cz
  52. 52. Cytogenetické databáze● ECARUCA - European Cytogeneticists Association Register of Unbalanced Chromosome Aberrations cytogenetické nálezy + klinické příznaky http://umcecaruca01.extern.umcn.nl:8080/ecaruca/● DECIPHER - Database of Chromosomal Imbalance and Phenotype in Humans Using Ensembl Resources získává data z různých bioinformatických zdrojů v souvislosti s nerovnováhou nalezenou u konkrétního pacienta http://decipher.sanger.ac.uk/
  53. 53. Databáze laboratoří v ČR● cytogenetické laboratoře ● kontaktní údaje, prováděná vyšetření● molekulárně-genetické laboratoře ● kontaktní údaje ● vyšetřované geny, včetně OMIM kódu ● informace o akreditaci/certifikaci, kontrole kvality● pracoviště klinické genetiky www.slg.cz/pracoviste
  54. 54. www.eddnal.com
  55. 55. GeneTests● GeneReviews● Laboratory Directory● Clinic directory● Educational materials http://www.ncbi.nlm.nih.gov/sites/GeneTests/
  56. 56. Děkuji za pozornost.marek.turnovec@lfmotol.cuni.cz marek@turnovec.cz
  1. A particular slide catching your eye?

    Clipping is a handy way to collect important slides you want to go back to later.

×