SlideShare a Scribd company logo
1 of 80
Download to read offline
Využití internetových databází v
          DNA diagnostice

             MUDr. Marek Turnovec

       Ústav biologie a lékařské genetiky
             UK 2. LF a FN Motol


            Pondělí 5. listopadu 2012

Specializační odborná stáž v molekulární genetice
Osnova
●   základní pojmy, historie
●   databázové modely, relační databáze, SQL
●   klient-server, web
●   sekvenční a genomové databáze, variace, NGS
●   lokus-specifické databáze, proteinové databáze
●   OMIM, PubMed, Entrez, API, toolkity
●   cytogenetické databáze
●   klinicko-genetické databáze, Orphanet
●   databáze laboratoří v ČR
Definice pojmu „databáze“
●   uspořádaná množina informací na paměťovém
    médiu
●   dnes obvykle v elektronické/digitální podobě
●   systém pro správu dat
    ●   ukládání
                                             ● Create
                                             ● Read
    ●   získávání                            ● Update

                                             ● Delete
    ●   vyhledávání
    ●   (odstraňování)
    ●   filtrování, sestavy, výpočty, statistika, etc.
„Analogové“ databáze
●   Různé seznamy – např. soupis adres, telefonní
    seznam
●   Katalogy
●   Kartotéka („lístkovnice“) - 18. století, Carl Linné
●   Děrné štítky, děrné pásky
                                              obrázky: sxc.hu
Elektronické/digitální databáze
●   Elektromechanické stroje zpracovávaly děrné štítky již na
    konci 19. století
    ●   1890 – sčítání lidu v USA
●   Další rozvoj od poloviny 20. století společně s vývojem
    počítačů
    ●   1960 – COBOL
    ●   1965 – síťové databáze pro sálové počítače
    ●   1970 – E. F. Codd – relační databáze
    ●   1975 – SQL


        SŘBD?             Univac 1108, rok 1964
                               (Zdroj Wikipedia)
Databázové modely
●   „plochý“ - flat
●   hierarchický
●   síťový
●   relační
●   objektový


             SŘBD = systém řízení báze dat

             DBMS = database management system
Flat file
               vzorek      jméno      mutace1       mutace2
               1           Jan N.     F508del       nenalezena
               2           Petr V.    F508del       F508del
               3           Eva M.     nenalezena    nenalezena
               4           Josef P.   CFTR del2,3   nenalezena




                        Relační model
vzorek   jméno     mutace1 mutace2          mutace_id    mutace_nazev
1        Jan N.    2       1                1            nenalezena
2        Petr V.   2       2                2            F508del
3        Eva M.    1       1                3            CFTR del2,3
4        Josef P. 3        1
CSV – comma separated values
Příklady relačních
             databázových systémů
●   DB2 (IBM)
●   Informix
●   Oracle
●   Sybase SQL Server
●   MySQL / MariaDB
●   PostgreSQL
●   Microsoft SQL Server
●   JET Engine (Microsoft Office Access)
SQL - Structured Query Language
     tabulka "vysledky"   vzorek   jméno      mutace1       mutace2
                          1        Jan N.     F508del       nenalezena
                          2        Petr V.    F508del       F508del
                          3        Eva M.     nenalezena    nenalezena
                          4        Josef P.   CFTR del2,3   nenalezena

SELECT * FROM vysledky WHERE vzorek=1;
SELECT * FROM vysledky WHERE
          mutace1="nenalezena" AND mutace2="nenalezena";
SELECT vzorek FROM vysledky WHERE
           mutace1="F508del" OR mutace2="F508del";
INSERT INTO vysledky (vzorek, jmeno, mutace1, mutace2)
      VALUES ("5", "Tereza M.", "nenalezena", "nenalezena")
NoSQL databáze
●   pro dotazy se nepoužívá jazyk SQL
●   pro uchování velkých objemů dat, kde relace
    nejsou tak důležité
●   každý záznam může mít různou strukturu
●   dobře škálovatelné (replikace na více strojů)
●   kde se používají: Google, Amazon, Facebook,
    Twitter...
●   CouchDB, MongoDB
Nejrozšířenější databáze na světě... MS Excel :-)

●   nějaký pěkný obrázek Excelu?
Architektura klient-server
●   Databáze běží centrálně na serveru
     ● jednodušší správa (např. zálohování)

     ● menší nároky na klientské počítače

●   Přístup možný z více míst současně
Online a webové databáze
●   architektura klient-server
●   možnost přístupu odkudkoliv
●   obvykle stačí obyčejný prohlížeč
●   API pro přístup z jiných systémů
Genomové databáze
●   databáze tzv. referenčních sekvencí
●   data z laboratoří z celého světa jsou zasílána
    do jedné ze 3 databází:
    ●   EMBL-Bank (Cambridge) - www.ebi.ac.uk/embl
    ●   GeneBank (USA) - www.ncbi.nlm.nih.gov/genbank
    ●   DDBJ (Japonsko) - www.ddbj.nig.ac.jp
●   dohoda na společném/kompatibilním formátu
●   obsah databází se každý den synchronizuje
International Nucleotide Sequence
          Database Collaboration
              www.insdc.org
●   ENA/EMBL/EBI
     ●   European Nucleotide Archive
     ●   European Molecular Biology Laboratory
     ●   European Bioinformatics Institute
●   GeneBank / NCBI / NIH
     ●   National Center for Biotechnology Information
     ●   National Institute of Health
●   DDNJ
     ●   DNA Databank of Japan
„Genome browsers“
●   slouží k prohlížení dat z genomových databází
●   „stand-alone“ aplikace
●   „web-based“
    ●   Ensembl (Sanger Institute a EBI)
        www.ensembl.org
    ●   NCBI Map Viewer
        www.ncbi.nlm.nih.gov/projects/mapview
    ●   UCSC Genome Browser
        genome.ucsc.edu
Argo




www.broadinstitute.org/annotation/argo/
Ensembl
Ensembl – Homo Sapiens
Ensemble Genomes (2009)
BioMart
Download dat
Human Genome Project
●   mezinárodní projekt pro určení sekvence
    celého lidského genomu a mapování všech asi
    20000 genů
●   1990 zahájení projektu, plán byl na 15 let
●   rozpočet 3 miliardy USD
●   2000 první pracovní verze lidského genomu
●   2003 „konečná“ verze
●   2006 sekvence posledního chromosomu (1)
    publikována v Nature
www.ncbi.nlm.nih.gov/snp


●   spuštěno 1998, jako doplněk k GenBank
●   databáze variací:
    ●   SNP (single nucleotide polymorphism)
    ●   short indels (insertion/deletion)
    ●   STR (short tandem repeat)
    ●   MNP (multinucleotide polymorphism)
    ●   heterozygotní sekvence
    ●   pojmenované varianty
●   přes 50 různých druhů
●   pro člověka více než 187 miliónů záznamů
●   data je možné stáhnout pomocí FTP
www.hapmap.org
●   2002 zahájení projektu
●   USA, Kanada, VB, Čína, Japonsko, Nigérie
●   269 jedinců:
    ●   30x dítě + oba rodiče z Nigérie
    ●   30x dítě + oba rodiče z Evropy
    ●   44 nepříbuzných Japonců (Tokyo)
    ●   45 nepříbuzných Chanů
●   SNP s frekvencí vyšší než 1 %
●   možnost data stáhnout,
    prohlížeč na stránkách projektu
                                          obrázky: Wikimedia Commons
Win/Mac/
                                                                                                          /Linux (Java)




http://www.broadinstitute.org/scientific-community/science/programs/medical-and-population-genetics/haploview/haploview
www.1000genomes.org


●   2008 – zahájení
●   cíle:
    ●   nejpodrobnější databáze genetických variací
    ●   do 3 let osekvenovat celý genom alespoň 1000
        jedinců
●   současný stav: osekvenovat 2000 genomů
Next-generation sequencing (NGS)
●   Sanger („old generation“) - dideoxynukleotidy
●   pyrosekvenování (454)
●   Solexa/Illumina – reverzibilní ukončující báze
●   SOLiD Sequencing – ligace
●   polovodičové sekvenování (Ion Torrent, Ion
    Proton)
Genetický kód
První báze                                        Druhá báze                                       Třetí báze
                        U                   C                     A                       G
    U        UUU - fenylalanin   UCU - serin            UAU - tyrozin           UGU - cystein          U
             UUC - fenylalanin   UCC - serin            UAC - tyrozin           UGC - cystein          C
             UUA - leucin        UCA - serin            UAA - stop kodön        UGA - stop kodón       A
             UUG - leucin        UCG - serin            UAG - stop kodón        UGG - tryptofan        G
    C        CUU - leucin        CCU - prolin           CAU - histidin          CGU - arginin          U
             CUC - leucin        CCC - prolin           CAC - histidin          CGC - arginin          C
             CUA - leucin        CCA - prolin           CAA - glutamin          CGA - arginin          A
             CUG - leucin        CCG - prolin           CAG - glutamin          CGG - arginin          G
    A        AUU - isoleucin     ACU - threonin         AAU - kys. asparagová   AGU - serin            U
             AUC - isoleucin     ACC - threonin         AAC - kys. asparagová   AGC - serin            C
             AUA - isoleucin     ACA - threonin         AAA - lysin             AGA - arginin          A
             AUG - methionin     ACG - threonin         AAG - lysin             AGG - arginin          G
    G        GUU - valin         GCU - alanin           GAU - kys. asparagová   GGU - glycin           U
             GUC - valin         GCC - alanin           GAC - kys. asparagová   GGC - glycin           C
             GUA - valin         GCA - alanin           GAA - kys. glutamová    GGA - glycin           A
             GUG - valin         GCG - alanin           GAG - kys. glutamová    GGG - glycin           G
UniProt
●   Universal Protein resource
●   Konsorcium:
    ●   EBI
    ●   Swiss Institute of Bioinformatics
    ●   Protein Information Resource




    www.uniprot.org
Specifické databáze
●   Cystic Fibrosis Mutation Database
    genet.sickkids.on.ca
http://www.cftr2.org/
Z českých luhů a hájů
Mendelian Inheritance in Men (MIM)
●   katalog všech známých
    genetických onemocnění
●   odkazy na geny (jsou-li známé)
●   Victor A. McKusick
                                     Victor A. McKusick
●   1. vydání – 1966                    Foto: Wikipedia

●   12. vydání – 1998
●   fenotypy i geny
●   až na pár výjimek neobsahuje
    chromosomální aberace
MIM kódy
      1. číslice       Rozsah                Dědičnost
          1        100000–199999       AD (před 1994)
          2        200000–299999       AR (před 1994)
          3        300000–399999       X-vázaná
          4        400000–499999       Y-vázaná
          5        500000–599999       mitochontriální
          6        600000–             AD (po 1994)


        Symbol                            Význam
*                            gen o známé sekvenci
#                            fenotyp
+                            gen + fenotyp
%                            fenotyp, lokus, ale ne sekvence
žádný symbol                 mendelovská dedičnost nejistá
^                            odstraněný či přesunutý záznam
Online Mendelian Inheritance in Men
●   online verze spravovaná NCBI
●   časté aktualizace
●   oproti tištěné verzi více odkazů (do jiných
    databází, literatura...)
●   těsné propojení na další služby NCBI (PubMed,
     MapViewer...)


    www.ncbi.nlm.nih.gov/omim
PubMed
●   online přístup do databáze MEDLINE
    (Medical Literature Analysis and Retrieval System Online)
●   články od roku 1950
●   asi 5000 časopisů (i některé české)
●   pro lepší výsledky hledání nutné jisté znalosti:
    ●   MeSH slovník, limitování a kombinování
        dotazů, etc.


    www.ncbi.nlm.nih.gov/pubmed
Entrez
●   portál pro vyhledávání v mnoha
    biomedicínských databázích
●   sekvence (DNA, RNA), geny, varianty
●   proteiny a jejich struktura
●   OMIM, OMIA
●   články v odborných časopisech
●   monografie


                 www.ncbi.nlm.nih.gov/Entrez
Bio* toolkity
●   BioPerl (1995)
●   BioPython (1999)
●   BioJava (1999)
POSSUM Web
●   dysmorfologická databáze
●   >3000 syndromů
●   metabolické, chromosomální, skeletální i
    vícečetné vady
●   aktualizace každý měsíc
●   fotografie, rtg
●   přístup přes web, nutný hardwarový klíč
●   roční předplatné $300
                      www.possum.net.au
London Medical Databases
●   The Winter-Baraitser Dysmorphology Database (WBDD)
    ●   více než 4450 syndromů – dysmorfologie, vícečetné vrozené
        vady, monogenní choroby, mikrodeleční syndromy, mentální
        retardace
    ●   fotografie, možnost vyhledávání dle příznaků
●   The Baraitser-Winter Neurogenetics Database (BWND)
    ●   přes 4000 neurogenetických syndromů
    ●   kromě fotografií i CT, MRI, EEG
●   The London Ophthalmic Genetics Database (GENEEYE)
    ●   2750 oftalmologických stavů s genetickým pozadím
●   £600 za 1 databázi, další updaty £200 ročně
Seznam syndromů
Popis syndromu
Příznaky
Vyhledávání podle příznaků
Literatura
Obrazová dokumentace



                   asi 20000 obrázků:
                   fotografie, RTG,
                   CT, MRI, EEG,
                   mikrofotografie...
Orphanet
●   mezinárodní portál pro vzácná onemocnění
    (rare diseases) a „léčivé přípravky pro léčbu
    vzácných onemocnění“ (orphan drugs)
●   vzácné onemocnění – prevalence < 1:2000
●   původně vznikl ve Francii, dnes projekt na
    Evropské úrovni
●   chtějí se připojit další země – Kanada,
    Japonsko, Maroko...
●   spolupráce na nové revizi MKN
                     www.orpha.net
Co Orphanet nabízí?
●   5954 vzácných onemocnění (k dubnu 2012)
    ●   ≈ polovina encyklopedicky zpracovaných
●   klasifikace
●   léčiva pro vzácná onemocnění – ve všech
    fázích vývoje/výroby
●   adresáře:
    ●   expertní klinická pracoviště
    ●   diagnostické a genetické laboratoře
    ●   pacientské organizace
www.orphanet.cz
Cytogenetické databáze
●   ECARUCA - European Cytogeneticists Association
    Register of Unbalanced Chromosome Aberrations
    cytogenetické nálezy + klinické příznaky
    http://umcecaruca01.extern.umcn.nl:8080/ecaruca/


●   DECIPHER - Database of Chromosomal Imbalance
    and Phenotype in Humans Using Ensembl Resources
    získává data z různých bioinformatických zdrojů v
    souvislosti s nerovnováhou nalezenou u konkrétního
    pacienta
    http://decipher.sanger.ac.uk/
Databáze laboratoří v ČR
●   cytogenetické laboratoře
    ●   kontaktní údaje, prováděná vyšetření
●   molekulárně-genetické laboratoře
    ●   kontaktní údaje
    ●   vyšetřované geny, včetně OMIM kódu
    ●   informace o akreditaci/certifikaci, kontrole kvality
●   pracoviště klinické genetiky


        www.slg.cz/pracoviste
www.eddnal.com
GeneTests

●   GeneReviews
●   Laboratory Directory
●   Clinic directory
●   Educational materials

      http://www.ncbi.nlm.nih.gov/sites/GeneTests/
Děkuji za pozornost.




marek.turnovec@lfmotol.cuni.cz

     marek@turnovec.cz

More Related Content

Featured

How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthThinkNow
 
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfmarketingartwork
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024Neil Kimberley
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)contently
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024Albert Qian
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsKurio // The Social Media Age(ncy)
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Search Engine Journal
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summarySpeakerHub
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next Tessa Mero
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentLily Ray
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best PracticesVit Horky
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project managementMindGenius
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...RachelPearson36
 
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Applitools
 
12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at WorkGetSmarter
 

Featured (20)

How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental Health
 
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
 
Skeleton Culture Code
Skeleton Culture CodeSkeleton Culture Code
Skeleton Culture Code
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
 
How to have difficult conversations
How to have difficult conversations How to have difficult conversations
How to have difficult conversations
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best Practices
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project management
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
 
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
 
12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work
 
ChatGPT webinar slides
ChatGPT webinar slidesChatGPT webinar slides
ChatGPT webinar slides
 

Využití internetových databází v DNA diagnostice

  • 1. Využití internetových databází v DNA diagnostice MUDr. Marek Turnovec Ústav biologie a lékařské genetiky UK 2. LF a FN Motol Pondělí 5. listopadu 2012 Specializační odborná stáž v molekulární genetice
  • 2. Osnova ● základní pojmy, historie ● databázové modely, relační databáze, SQL ● klient-server, web ● sekvenční a genomové databáze, variace, NGS ● lokus-specifické databáze, proteinové databáze ● OMIM, PubMed, Entrez, API, toolkity ● cytogenetické databáze ● klinicko-genetické databáze, Orphanet ● databáze laboratoří v ČR
  • 3. Definice pojmu „databáze“ ● uspořádaná množina informací na paměťovém médiu ● dnes obvykle v elektronické/digitální podobě ● systém pro správu dat ● ukládání ● Create ● Read ● získávání ● Update ● Delete ● vyhledávání ● (odstraňování) ● filtrování, sestavy, výpočty, statistika, etc.
  • 4. „Analogové“ databáze ● Různé seznamy – např. soupis adres, telefonní seznam ● Katalogy ● Kartotéka („lístkovnice“) - 18. století, Carl Linné ● Děrné štítky, děrné pásky obrázky: sxc.hu
  • 5. Elektronické/digitální databáze ● Elektromechanické stroje zpracovávaly děrné štítky již na konci 19. století ● 1890 – sčítání lidu v USA ● Další rozvoj od poloviny 20. století společně s vývojem počítačů ● 1960 – COBOL ● 1965 – síťové databáze pro sálové počítače ● 1970 – E. F. Codd – relační databáze ● 1975 – SQL SŘBD? Univac 1108, rok 1964 (Zdroj Wikipedia)
  • 6. Databázové modely ● „plochý“ - flat ● hierarchický ● síťový ● relační ● objektový SŘBD = systém řízení báze dat DBMS = database management system
  • 7. Flat file vzorek jméno mutace1 mutace2 1 Jan N. F508del nenalezena 2 Petr V. F508del F508del 3 Eva M. nenalezena nenalezena 4 Josef P. CFTR del2,3 nenalezena Relační model vzorek jméno mutace1 mutace2 mutace_id mutace_nazev 1 Jan N. 2 1 1 nenalezena 2 Petr V. 2 2 2 F508del 3 Eva M. 1 1 3 CFTR del2,3 4 Josef P. 3 1
  • 8. CSV – comma separated values
  • 9. Příklady relačních databázových systémů ● DB2 (IBM) ● Informix ● Oracle ● Sybase SQL Server ● MySQL / MariaDB ● PostgreSQL ● Microsoft SQL Server ● JET Engine (Microsoft Office Access)
  • 10. SQL - Structured Query Language tabulka "vysledky" vzorek jméno mutace1 mutace2 1 Jan N. F508del nenalezena 2 Petr V. F508del F508del 3 Eva M. nenalezena nenalezena 4 Josef P. CFTR del2,3 nenalezena SELECT * FROM vysledky WHERE vzorek=1; SELECT * FROM vysledky WHERE mutace1="nenalezena" AND mutace2="nenalezena"; SELECT vzorek FROM vysledky WHERE mutace1="F508del" OR mutace2="F508del"; INSERT INTO vysledky (vzorek, jmeno, mutace1, mutace2) VALUES ("5", "Tereza M.", "nenalezena", "nenalezena")
  • 11. NoSQL databáze ● pro dotazy se nepoužívá jazyk SQL ● pro uchování velkých objemů dat, kde relace nejsou tak důležité ● každý záznam může mít různou strukturu ● dobře škálovatelné (replikace na více strojů) ● kde se používají: Google, Amazon, Facebook, Twitter... ● CouchDB, MongoDB
  • 12. Nejrozšířenější databáze na světě... MS Excel :-) ● nějaký pěkný obrázek Excelu?
  • 13. Architektura klient-server ● Databáze běží centrálně na serveru ● jednodušší správa (např. zálohování) ● menší nároky na klientské počítače ● Přístup možný z více míst současně
  • 14. Online a webové databáze ● architektura klient-server ● možnost přístupu odkudkoliv ● obvykle stačí obyčejný prohlížeč ● API pro přístup z jiných systémů
  • 15.
  • 16. Genomové databáze ● databáze tzv. referenčních sekvencí ● data z laboratoří z celého světa jsou zasílána do jedné ze 3 databází: ● EMBL-Bank (Cambridge) - www.ebi.ac.uk/embl ● GeneBank (USA) - www.ncbi.nlm.nih.gov/genbank ● DDBJ (Japonsko) - www.ddbj.nig.ac.jp ● dohoda na společném/kompatibilním formátu ● obsah databází se každý den synchronizuje
  • 17. International Nucleotide Sequence Database Collaboration www.insdc.org ● ENA/EMBL/EBI ● European Nucleotide Archive ● European Molecular Biology Laboratory ● European Bioinformatics Institute ● GeneBank / NCBI / NIH ● National Center for Biotechnology Information ● National Institute of Health ● DDNJ ● DNA Databank of Japan
  • 18. „Genome browsers“ ● slouží k prohlížení dat z genomových databází ● „stand-alone“ aplikace ● „web-based“ ● Ensembl (Sanger Institute a EBI) www.ensembl.org ● NCBI Map Viewer www.ncbi.nlm.nih.gov/projects/mapview ● UCSC Genome Browser genome.ucsc.edu
  • 20.
  • 22. Ensembl – Homo Sapiens
  • 23.
  • 24.
  • 26.
  • 27.
  • 30. Human Genome Project ● mezinárodní projekt pro určení sekvence celého lidského genomu a mapování všech asi 20000 genů ● 1990 zahájení projektu, plán byl na 15 let ● rozpočet 3 miliardy USD ● 2000 první pracovní verze lidského genomu ● 2003 „konečná“ verze ● 2006 sekvence posledního chromosomu (1) publikována v Nature
  • 31. www.ncbi.nlm.nih.gov/snp ● spuštěno 1998, jako doplněk k GenBank ● databáze variací: ● SNP (single nucleotide polymorphism) ● short indels (insertion/deletion) ● STR (short tandem repeat) ● MNP (multinucleotide polymorphism) ● heterozygotní sekvence ● pojmenované varianty ● přes 50 různých druhů ● pro člověka více než 187 miliónů záznamů ● data je možné stáhnout pomocí FTP
  • 32. www.hapmap.org ● 2002 zahájení projektu ● USA, Kanada, VB, Čína, Japonsko, Nigérie ● 269 jedinců: ● 30x dítě + oba rodiče z Nigérie ● 30x dítě + oba rodiče z Evropy ● 44 nepříbuzných Japonců (Tokyo) ● 45 nepříbuzných Chanů ● SNP s frekvencí vyšší než 1 % ● možnost data stáhnout, prohlížeč na stránkách projektu obrázky: Wikimedia Commons
  • 33. Win/Mac/ /Linux (Java) http://www.broadinstitute.org/scientific-community/science/programs/medical-and-population-genetics/haploview/haploview
  • 34.
  • 35. www.1000genomes.org ● 2008 – zahájení ● cíle: ● nejpodrobnější databáze genetických variací ● do 3 let osekvenovat celý genom alespoň 1000 jedinců ● současný stav: osekvenovat 2000 genomů
  • 36. Next-generation sequencing (NGS) ● Sanger („old generation“) - dideoxynukleotidy ● pyrosekvenování (454) ● Solexa/Illumina – reverzibilní ukončující báze ● SOLiD Sequencing – ligace ● polovodičové sekvenování (Ion Torrent, Ion Proton)
  • 37. Genetický kód První báze Druhá báze Třetí báze U C A G U UUU - fenylalanin UCU - serin UAU - tyrozin UGU - cystein U UUC - fenylalanin UCC - serin UAC - tyrozin UGC - cystein C UUA - leucin UCA - serin UAA - stop kodön UGA - stop kodón A UUG - leucin UCG - serin UAG - stop kodón UGG - tryptofan G C CUU - leucin CCU - prolin CAU - histidin CGU - arginin U CUC - leucin CCC - prolin CAC - histidin CGC - arginin C CUA - leucin CCA - prolin CAA - glutamin CGA - arginin A CUG - leucin CCG - prolin CAG - glutamin CGG - arginin G A AUU - isoleucin ACU - threonin AAU - kys. asparagová AGU - serin U AUC - isoleucin ACC - threonin AAC - kys. asparagová AGC - serin C AUA - isoleucin ACA - threonin AAA - lysin AGA - arginin A AUG - methionin ACG - threonin AAG - lysin AGG - arginin G G GUU - valin GCU - alanin GAU - kys. asparagová GGU - glycin U GUC - valin GCC - alanin GAC - kys. asparagová GGC - glycin C GUA - valin GCA - alanin GAA - kys. glutamová GGA - glycin A GUG - valin GCG - alanin GAG - kys. glutamová GGG - glycin G
  • 38. UniProt ● Universal Protein resource ● Konsorcium: ● EBI ● Swiss Institute of Bioinformatics ● Protein Information Resource www.uniprot.org
  • 39.
  • 40.
  • 41. Specifické databáze ● Cystic Fibrosis Mutation Database genet.sickkids.on.ca
  • 42.
  • 44. Z českých luhů a hájů
  • 45. Mendelian Inheritance in Men (MIM) ● katalog všech známých genetických onemocnění ● odkazy na geny (jsou-li známé) ● Victor A. McKusick Victor A. McKusick ● 1. vydání – 1966 Foto: Wikipedia ● 12. vydání – 1998 ● fenotypy i geny ● až na pár výjimek neobsahuje chromosomální aberace
  • 46. MIM kódy 1. číslice Rozsah Dědičnost 1 100000–199999 AD (před 1994) 2 200000–299999 AR (před 1994) 3 300000–399999 X-vázaná 4 400000–499999 Y-vázaná 5 500000–599999 mitochontriální 6 600000– AD (po 1994) Symbol Význam * gen o známé sekvenci # fenotyp + gen + fenotyp % fenotyp, lokus, ale ne sekvence žádný symbol mendelovská dedičnost nejistá ^ odstraněný či přesunutý záznam
  • 47. Online Mendelian Inheritance in Men ● online verze spravovaná NCBI ● časté aktualizace ● oproti tištěné verzi více odkazů (do jiných databází, literatura...) ● těsné propojení na další služby NCBI (PubMed, MapViewer...) www.ncbi.nlm.nih.gov/omim
  • 48.
  • 49. PubMed ● online přístup do databáze MEDLINE (Medical Literature Analysis and Retrieval System Online) ● články od roku 1950 ● asi 5000 časopisů (i některé české) ● pro lepší výsledky hledání nutné jisté znalosti: ● MeSH slovník, limitování a kombinování dotazů, etc. www.ncbi.nlm.nih.gov/pubmed
  • 50.
  • 51. Entrez ● portál pro vyhledávání v mnoha biomedicínských databázích ● sekvence (DNA, RNA), geny, varianty ● proteiny a jejich struktura ● OMIM, OMIA ● články v odborných časopisech ● monografie www.ncbi.nlm.nih.gov/Entrez
  • 52.
  • 53.
  • 54. Bio* toolkity ● BioPerl (1995) ● BioPython (1999) ● BioJava (1999)
  • 55.
  • 56. POSSUM Web ● dysmorfologická databáze ● >3000 syndromů ● metabolické, chromosomální, skeletální i vícečetné vady ● aktualizace každý měsíc ● fotografie, rtg ● přístup přes web, nutný hardwarový klíč ● roční předplatné $300 www.possum.net.au
  • 57.
  • 58.
  • 59.
  • 60. London Medical Databases ● The Winter-Baraitser Dysmorphology Database (WBDD) ● více než 4450 syndromů – dysmorfologie, vícečetné vrozené vady, monogenní choroby, mikrodeleční syndromy, mentální retardace ● fotografie, možnost vyhledávání dle příznaků ● The Baraitser-Winter Neurogenetics Database (BWND) ● přes 4000 neurogenetických syndromů ● kromě fotografií i CT, MRI, EEG ● The London Ophthalmic Genetics Database (GENEEYE) ● 2750 oftalmologických stavů s genetickým pozadím ● £600 za 1 databázi, další updaty £200 ročně
  • 66. Obrazová dokumentace asi 20000 obrázků: fotografie, RTG, CT, MRI, EEG, mikrofotografie...
  • 67. Orphanet ● mezinárodní portál pro vzácná onemocnění (rare diseases) a „léčivé přípravky pro léčbu vzácných onemocnění“ (orphan drugs) ● vzácné onemocnění – prevalence < 1:2000 ● původně vznikl ve Francii, dnes projekt na Evropské úrovni ● chtějí se připojit další země – Kanada, Japonsko, Maroko... ● spolupráce na nové revizi MKN www.orpha.net
  • 68. Co Orphanet nabízí? ● 5954 vzácných onemocnění (k dubnu 2012) ● ≈ polovina encyklopedicky zpracovaných ● klasifikace ● léčiva pro vzácná onemocnění – ve všech fázích vývoje/výroby ● adresáře: ● expertní klinická pracoviště ● diagnostické a genetické laboratoře ● pacientské organizace
  • 69.
  • 70.
  • 71.
  • 73. Cytogenetické databáze ● ECARUCA - European Cytogeneticists Association Register of Unbalanced Chromosome Aberrations cytogenetické nálezy + klinické příznaky http://umcecaruca01.extern.umcn.nl:8080/ecaruca/ ● DECIPHER - Database of Chromosomal Imbalance and Phenotype in Humans Using Ensembl Resources získává data z různých bioinformatických zdrojů v souvislosti s nerovnováhou nalezenou u konkrétního pacienta http://decipher.sanger.ac.uk/
  • 74. Databáze laboratoří v ČR ● cytogenetické laboratoře ● kontaktní údaje, prováděná vyšetření ● molekulárně-genetické laboratoře ● kontaktní údaje ● vyšetřované geny, včetně OMIM kódu ● informace o akreditaci/certifikaci, kontrole kvality ● pracoviště klinické genetiky www.slg.cz/pracoviste
  • 75.
  • 76.
  • 77.
  • 79. GeneTests ● GeneReviews ● Laboratory Directory ● Clinic directory ● Educational materials http://www.ncbi.nlm.nih.gov/sites/GeneTests/