Zkušenosti z Opendoor Workshop „Working with Human Genome Sequence“

Loading...

Flash Player 9 (or above) is needed to view presentations.
We have detected that you do not have it on your computer. To install it, go here.

0 comments

Post a comment

    Post a comment
    Embed Video
    Edit your comment Cancel

    Favorites, Groups & Events

    Zkušenosti z Opendoor Workshop „Working with Human Genome Sequence“ - Presentation Transcript

    1. Zkušenosti z Opendoor Workshop „ Working with Human Genome Sequence “ Hinxton, Cambridge, UK 23.-25. ledna 2006 MUDr. Marek Turnovec Ústav biologie a lékařské genetiky 2. LF UK a FN Motol 11. dubna 2006
    2. Hinxton Genome Campus
    3. Working with Human Genome Sequence
        • Module 1: Sequence Formats and Retriaval
        • Module 2: de novo Analysis of Sequence
        • Module 3: Genome Browsing
        • Module 4: Exploring Function and Disease
        • Module 5: Sequence Variation
        • Module 6: Comparative Sequence Analysis
    4. Modul 1: Sequences Formats and Retrieval
      • přehled o tom, jak jsou sekvence získávány
      • seznámení se s používanými formáty
      • představení různých dostupných databází
      • ukázka databází s dalšími souvisejícími informacemi
    5. Přístup k sekvencím
      • sekvence z laboratoří po celém světe jsou zasílány do veřejně přístupných databází
        • EMBL (Evropa)
        • GeneBank (USA)
        • DDBJ (Japonsko)
      • tyto databáze se vzájemně synchronizují (každý den)
    6. Formát dat
      • záznamy v databázích jako tzv. „ flatfiles “
      • výhody „plain text“ formátu:
        • snadné úpravy, kopírování a ukládání (stačí libovolný textový editor, v MS Windows stačí i „Poznámkový blok“)
        • snadný přenos mezi různými webovými aplikacemi (vyhledávání, alignment) stačí jen „cut & paste“
    7. Rozdíly ve formátech EMBL a GenBank/DDBJ
      • ve formátu GenBank/DDBJ jsou jednotlivé části označené celým slovem (KEYWORDS, AUTHOR, REFERENCES, FEATURES...)
      • formát EMBL namísto toho používá systém dvoupísmených zkratek
        • jednotlivé části jsou od sebe odděleny tzv. „spacer“ řádky (XX)
        • jednodušší strojové zpracování
    8. Zkratky použité ve formátu EMBL
      • ID – identification
      • AC – accession number
      • SV – sequence version
      • DT – date
      • DE – description
      • KW – keywords
      • OS – organism species
      • OC – organism classification
      • OG – organelle
      • RN – reference number
      • RC – reference comment
      • RP – reference position
      • RX – reference cross-reference
      • RG – reference group
      • RA – reference author
      • RT – reference title
      • RL – reference location
      • DR – database cross-reference
      • AH – third party annotation
      • AS – assembly information
      • CO – contig sequences (constructed seq.)
      • FH – feature header
      • FT – feature table
      • SQ – sequence header
      • CC – comments
      • XX – spacer
      • // - terminator
    9. EMBL 1/3
      • ID SC49845 standard; genomic DNA; FUN; 5028 BP.
      • XX
      • AC U49845;
      • XX
      • SV U49845.1
      • XX
      • DT 07-MAY-1996 (Rel. 47, Created)
      • DT 17-APR-2005 (Rel. 83, Last updated, Version 4)
      • XX
      • DE Saccharomyces cerevisiae TCP1-beta gene, partial cds; and Axl2p (AXL2) and
      • DE Rev7p (REV7) genes, complete cds.
      • XX
      • KW .
      • XX
      • OS Saccharomyces cerevisiae (baker's yeast)
      • OC Eukaryota; Fungi; Ascomycota; Saccharomycotina; Saccharomycetes;
      • OC Saccharomycetales; Saccharomycetaceae; Saccharomyces.
      • XX
      • RN [1]
      • RP 1-5028
      • RX PUBMED; 7871890.
      • RA Torpey L.E., Gibbs P.E., Nelson J., Lawrence C.W.;
      • RT "Cloning and sequence of REV7, a gene whose function is required for DNA
      • RT damage-induced mutagenesis in Saccharomyces cerevisiae";
      • RL Yeast 10(11):1503-1509(1994).
      • XX
      • RN [2]
      • RP 1-5028
      • RX PUBMED; 8846915.
      • RA Roemer T., Madden K., Chang J., Snyder M.;
      • RT "Selection of axial growth sites in yeast requires Axl2p, a novel plasma
      • RT membrane glycoprotein";
      • RL Genes Dev. 10(7):777-793(1996).
      • XX
      • RN [3]
      • RP 1-5028
      • RA Roemer T.;
      • RT ;
      • RL Submitted (22-FEB-1996) to the EMBL/GenBank/DDBJ databases.
      • RL Terry Roemer, Biology, Yale University, New Haven, CT, USA
      • XX
      • FH Key Location/Qualifiers
      • FH
      • FT source 1..5028
      • FT /chromosome="IX"
      • FT /db_xref="taxon:4932"
      • FT /mol_type="genomic DNA"
      • FT /organism="Saccharomyces cerevisiae"
      • FT /map="9"
    10. EMBL 2/3
      • FT CDS <1..206
      • FT /codon_start=3
      • FT /db_xref=&quot;GOA:P39076&quot;
      • FT /db_xref=&quot;HSSP:1A6D&quot;
      • FT /db_xref=&quot;UniProtKB/Swiss-Prot:P39076&quot;
      • FT /product=&quot;TCP1-beta&quot;
      • FT /protein_id=&quot;AAA98665&quot;
      • FT /translation=&quot;SSIYNGISTSGLDLNNGTIADMRQLGIVESYKLKRAVVSSASEAA
      • FT EVLLRVDNIIRARPRTANRQHM&quot;
      • FT CDS 687..3158
      • FT /codon_start=1
      • FT /db_xref=&quot;GOA:P38928&quot;
      • FT /db_xref=&quot;InterPro:IPR006644&quot;
      • FT /db_xref=&quot;InterPro:IPR008009&quot;
      • FT /db_xref=&quot;SGD:S000001402&quot;
      • FT /db_xref=&quot;UniProtKB/Swiss-Prot:P38928&quot;
      • FT /note=&quot;plasma membrane glycoprotein&quot;
      • FT /gene=&quot;AXL2&quot;
      • FT /product=&quot;Axl2p&quot;
      • FT /protein_id=&quot;AAA98666&quot;
      • FT /translation=&quot;MTQLQISLLLTATISLLHLVVATPYEAYPIGKQYPPVARVNESFT
      • FT FQISNDTYKSSVDKTAQITYNCFDLPSWLSFDSSSRTFSGEPSSDLLSDANTTLYFNVI
      • FT LEGTDSADSTSLNNTYQFVVTNRPSISLSSDFNLLALLKNYGYTNGKNALKLDPNEVFN
      • FT VTFDRSMFTNEESIVSYYGRSQLYNAPLPNWLFFDSGELKFTGTAPVINSAIAPETSYS
      • FT FVIIATDIEGFSAVEVEFELVIGAHQLTTSIQNSLIINVTDTGNVSYDLPLNYVYLDDD
      • FT PISSDKLGSINLLDAPDWVALDNATISGSVPDELLGKNSNPANFSVSIYDTYGDVIYFN
      • FT FEVVSTTDLFAISSLPNINATRGEWFSYYFLPSQFTDYVNTNVSLEFTNSSQDHDWVKF
      • FT QSSNLTLAGEVPKNFDKLSLGLKANQGSQSQELYFNIIGMDSKITHSNHSANATSTRSS
      • FT HHSTSTSSYTSSTYTAKISSTSAAATSSAPAALPAANKTSSHNKKAVAIACGVAIPLGV
      • FT ILVALICFLIFWRRRRENPDDENLPHAISGPDLNNPANKPNQENATPLNNPFDDDASSY
      • FT DDTSIARRLAALNTLKLDNHSATESDISSVDEKRDSLSGMNTYNDQFQSQSKEELLAKP
      • FT PVQPPESPFFDPQNRSSSVYMDSEPAVNKSWRYTGNLSPVSDIVRDSYGSQKTVDTEKL
      • FT FDLEAPEKEKRTSRDVTMSSLDPWNSNISPSPVRKSVTPSPYNVTKHRNRHLQNIQDSQ
      • FT SGKNGITPTTMSTSSSDDFVPVKDGENFCWVHSMEPDRRPSKKRLVDFSNKSNVNVGQV
      • FT KDIHGRIPEML&quot;
      • FT CDS complement(3300..4037)
      • FT /codon_start=1
      • FT /db_xref=&quot;GOA:P38927&quot;
      • FT /db_xref=&quot;InterPro:IPR003511&quot;
      • FT /db_xref=&quot;SGD:S000001401&quot;
      • FT /db_xref=&quot;UniProtKB/Swiss-Prot:P38927&quot;
      • FT /gene=&quot;REV7&quot;
      • FT /product=&quot;Rev7p&quot;
      • FT /protein_id=&quot;AAA98667&quot;
      • FT /translation=&quot;MNRWVEKWLRVYLKCYINLILFYRNVYPPQSFDYTTYQSFNLPQF
      • FT VPINRHPALIDYIEELILDVLSKLTHVYRFSICIINKKNDLCIEKYVLDFSELQHVDKD
      • FT DQIITETEVFDEFRSSLNSLIMHLEKLPKVNDDTITFEAVINAIELELGHKLDRNRRVD
      • FT SLEEKAEIERDSNWVKCQEDENLPDNNGFQPPKIKLTSLVGSDVGPLIIHQFSEKLISG
      • FT DDKILNGVYSQYEEGESIFGSLF&quot;
      • XX
    11. EMBL 3/3
      • SQ Sequence 5028 BP; 1510 A; 1074 C; 835 G; 1609 T; 0 other;
      • gatcctccat atacaacggt atctccacct caggtttaga tctcaacaac ggaaccattg 60
      • ccgacatgag acagttaggt atcgtcgaga gttacaagct aaaacgagca gtagtcagct 120
      • ctgcatctga agccgctgaa gttctactaa gggtggataa catcatccgt gcaagaccaa 180
      • gaaccgccaa tagacaacat atgtaacata tttaggatat acctcgaaaa taataaaccg 240
      • ccacactgtc attattataa ttagaaacag aacgcaaaaa ttatccacta tataattcaa 300
      • agacgcgaaa aaaaaagaac aacgcgtcat agaacttttg gcaattcgcg tcacaaataa 360
      • attttggcaa cttatgtttc ctcttcgagc agtactcgag ccctgtctca agaatgtaat 420
      • aatacccatc gtaggtatgg ttaaagatag catctccaca acctcaaagc tccttgccga 480
      • gagtcgccct cctttgtcga gtaattttca cttttcatat gagaacttat tttcttattc 540
      • tttactctca catcctgtag tgattgacac tgcaacagcc accatcacta gaagaacaga 600
      • acaattactt aatagaaaaa ttatatcttc ctcgaaacga tttcctgctt ccaacatcta 660
      • cgtatatcaa gaagcattca cttaccatga cacagcttca gatttcatta ttgctgacag 720
      • ctactatatc actactccat ctagtagtgg ccacgcccta tgaggcatat cctatcggaa 780
      • aacaataccc cccagtggca agagtcaatg aatcgtttac atttcaaatt tccaatgata 840
      • cctataaatc gtctgtagac aagacagctc aaataacata caattgcttc gacttaccga 900
      • gctggctttc gtttgactct agttctagaa cgttctcagg tgaaccttct tctgacttac 960
      • tatctgatgc gaacaccacg ttgtatttca atgtaatact cgagggtacg gactctgccg 1020
      • acagcacgtc tttgaacaat acataccaat ttgttgttac aaaccgtcca tccatctcgc 1080
      • tatcgtcaga tttcaatcta ttggcgttgt taaaaaacta tggttatact aacggcaaaa 1140
      • acgctctgaa actagatcct aatgaagtct tcaacgtgac ttttgaccgt tcaatgttca 1200
      • ctaacgaaga atccattgtg tcgtattacg gacgttctca gttgtataat gcgccgttac 1260
      • ccaattggct gttcttcgat tctggcgagt tgaagtttac tgggacggca ccggtgataa 1320
      • actcggcgat tgctccagaa acaagctaca gttttgtcat catcgctaca gacattgaag 1380
      • gattttctgc cgttgaggta gaattcgaat tagtcatcgg ggctcaccag ttaactacct 1440
      • ctattcaaaa tagtttgata atcaacgtta ctgacacagg taacgtttca tatgacttac 1500
      • ctctaaacta tgtttatctc gatgacgatc ctatttcttc tgataaattg ggttctataa 1560
      • acttattgga tgctccagac tgggtggcat tagataatgc taccatttcc gggtctgtcc 1620
      • cagatgaatt actcggtaag aactccaatc ctgccaattt ttctgtgtcc atttatgata 1680
      • cttatggtga tgtgatttat ttcaacttcg aagttgtctc cacaacggat ttgtttgcca 1740
      • ttagttctct tcccaatatt aacgctacaa ggggtgaatg gttctcctac tattttttgc 1800
      • cttctcagtt tacagactac gtgaatacaa acgtttcatt agagtttact aattcaagcc 1860
      • aagaccatga ctgggtgaaa ttccaatcat ctaatttaac attagctgga gaagtgccca 1920
      • agaatttcga caagctttca ttaggtttga aagcgaacca aggttcacaa tctcaagagc 1980
      • tatattttaa catcattggc atggattcaa agataactca ctcaaaccac agtgcgaatg 2040
      • caacgtccac aagaagttct caccactcca cctcaacaag ttcttacaca tcttctactt 2100
      • acactgcaaa aatttcttct acctccgctg ctgctacttc ttctgctcca gcagcgctgc 2160
      • cagcagccaa taaaacttca tctcacaata aaaaagcagt agcaattgcg tgcggtgttg 2220
      • ctatcccatt aggcgttatc ctagtagctc tcatttgctt cctaatattc tggagacgca 2280
      • gaagggaaaa tccagacgat gaaaacttac cgcatgctat tagtggacct gatttgaata 2340
      • atcctgcaaa taaaccaaat caagaaaacg ctacaccttt gaacaacccc tttgatgatg 2400
      • atgcttcctc gtacgatgat acttcaatag caagaagatt ggctgctttg aacactttga 2460
      • aattggataa ccactctgcc actgaatctg atatttccag cgtggatgaa aagagagatt 2520
      • ctctatcagg tatgaataca tacaatgatc agttccaatc ccaaagtaaa gaagaattat 2580
      • tagcaaaacc cccagtacag cctccagaga gcccgttctt tgacccacag aataggtctt 2640
      • cttctgtgta tatggatagt gaaccagcag taaataaatc ctggcgatat actggcaacc 2700
      • ...
      • atttgctcag agttcaaatc ggcctctttc agtttatcca ttgcttcctt cagtttggct 4740
      • tcactgtctt ctagctgttg ttctagatcc tggtttttct tggtgtagtt ctcattatta 4800
      • gatctcaagt tattggagtc ttcagccaat tgctttgtat cagacaattg actctctaac 4860
      • ttctccactt cactgtcgag ttgctcgttt ttagcggaca aagatttaat ctcgttttct 4920
      • ttttcagtgt tagattgctc taattctttg agctgttctc tcagctcctc atatttttct 4980
      • tgccatgact cagattctaa ttttaagcta ttcaatttct ctttgatc 5028
      • //
    12. GenBank/DDBJ 1/3
      • LOCUS SCU49845 5028 bp DNA linear PLN 21-JUN-1999
      • DEFINITION Saccharomyces cerevisiae TCP1-beta gene, partial cds; and Axl2p
      • (AXL2) and Rev7p (REV7) genes, complete cds.
      • ACCESSION U49845
      • VERSION U49845.1 GI:1293613
      • KEYWORDS .
      • SOURCE Saccharomyces cerevisiae (baker's yeast)
      • ORGANISM Saccharomyces cerevisiae
      • Eukaryota; Fungi; Ascomycota; Saccharomycotina; Saccharomycetes;
      • Saccharomycetales; Saccharomycetaceae; Saccharomyces.
      • REFERENCE 1 (bases 1 to 5028)
      • AUTHORS Torpey,L.E., Gibbs,P.E., Nelson,J. and Lawrence,C.W.
      • TITLE Cloning and sequence of REV7, a gene whose function is required for
      • DNA damage-induced mutagenesis in Saccharomyces cerevisiae
      • JOURNAL Yeast 10 (11), 1503-1509 (1994)
      • PUBMED 7871890
      • REFERENCE 2 (bases 1 to 5028)
      • AUTHORS Roemer,T., Madden,K., Chang,J. and Snyder,M.
      • TITLE Selection of axial growth sites in yeast requires Axl2p, a novel
      • plasma membrane glycoprotein
      • JOURNAL Genes Dev. 10 (7), 777-793 (1996)
      • PUBMED 8846915
      • REFERENCE 3 (bases 1 to 5028)
      • AUTHORS Roemer,T.
      • TITLE Direct Submission
      • JOURNAL Submitted (22-FEB-1996) Terry Roemer, Biology, Yale University, New
      • Haven, CT, USA
    13. GenBank/DDBJ 2/3
      • FEATURES Location/Qualifiers
      • source 1..5028
      • /organism=&quot;Saccharomyces cerevisiae&quot;
      • /mol_type=&quot;genomic DNA&quot;
      • /db_xref=&quot;taxon:4932&quot;
      • /chromosome=&quot;IX&quot;
      • /map=&quot;9&quot;
      • CDS <1..206
      • /codon_start=3
      • /product=&quot;TCP1-beta&quot;
      • /protein_id=&quot;AAA98665.1&quot;
      • /db_xref=&quot;GI:1293614&quot;
      • /translation=&quot;SSIYNGISTSGLDLNNGTIADMRQLGIVESYKLKRAVVSSASEA
      • AEVLLRVDNIIRARPRTANRQHM&quot;
      • gene 687..3158
      • /gene=&quot;AXL2&quot;
      • CDS 687..3158
      • /gene=&quot;AXL2&quot;
      • /note=&quot;plasma membrane glycoprotein&quot;
      • /codon_start=1
      • /product=&quot;Axl2p&quot;
      • /protein_id=&quot;AAA98666.1&quot;
      • /db_xref=&quot;GI:1293615&quot;
      • /translation=&quot;MTQLQISLLLTATISLLHLVVATPYEAYPIGKQYPPVARVNESF
      • TFQISNDTYKSSVDKTAQITYNCFDLPSWLSFDSSSRTFSGEPSSDLLSDANTTLYFN
      • VILEGTDSADSTSLNNTYQFVVTNRPSISLSSDFNLLALLKNYGYTNGKNALKLDPNE
      • VFNVTFDRSMFTNEESIVSYYGRSQLYNAPLPNWLFFDSGELKFTGTAPVINSAIAPE
      • TSYSFVIIATDIEGFSAVEVEFELVIGAHQLTTSIQNSLIINVTDTGNVSYDLPLNYV
      • YLDDDPISSDKLGSINLLDAPDWVALDNATISGSVPDELLGKNSNPANFSVSIYDTYG
      • DVIYFNFEVVSTTDLFAISSLPNINATRGEWFSYYFLPSQFTDYVNTNVSLEFTNSSQ
      • DHDWVKFQSSNLTLAGEVPKNFDKLSLGLKANQGSQSQELYFNIIGMDSKITHSNHSA
      • NATSTRSSHHSTSTSSYTSSTYTAKISSTSAAATSSAPAALPAANKTSSHNKKAVAIA
      • CGVAIPLGVILVALICFLIFWRRRRENPDDENLPHAISGPDLNNPANKPNQENATPLN
      • NPFDDDASSYDDTSIARRLAALNTLKLDNHSATESDISSVDEKRDSLSGMNTYNDQFQ
      • SQSKEELLAKPPVQPPESPFFDPQNRSSSVYMDSEPAVNKSWRYTGNLSPVSDIVRDS
      • YGSQKTVDTEKLFDLEAPEKEKRTSRDVTMSSLDPWNSNISPSPVRKSVTPSPYNVTK
      • HRNRHLQNIQDSQSGKNGITPTTMSTSSSDDFVPVKDGENFCWVHSMEPDRRPSKKRL
      • VDFSNKSNVNVGQVKDIHGRIPEML&quot;
      • gene complement(3300..4037)
      • /gene=&quot;REV7&quot;
      • CDS complement(3300..4037)
      • /gene=&quot;REV7&quot;
      • /codon_start=1
      • /product=&quot;Rev7p&quot;
      • /protein_id=&quot;AAA98667.1&quot;
      • /db_xref=&quot;GI:1293616&quot;
      • /translation=&quot;MNRWVEKWLRVYLKCYINLILFYRNVYPPQSFDYTTYQSFNLPQ
      • FVPINRHPALIDYIEELILDVLSKLTHVYRFSICIINKKNDLCIEKYVLDFSELQHVD
      • KDDQIITETEVFDEFRSSLNSLIMHLEKLPKVNDDTITFEAVINAIELELGHKLDRNR
      • RVDSLEEKAEIERDSNWVKCQEDENLPDNNGFQPPKIKLTSLVGSDVGPLIIHQFSEK
      • LISGDDKILNGVYSQYEEGESIFGSLF&quot;
    14. GenBank/DDBJ 3/3
      • ORIGIN
      • 1 gatcctccat atacaacggt atctccacct caggtttaga tctcaacaac ggaaccattg
      • 61 ccgacatgag acagttaggt atcgtcgaga gttacaagct aaaacgagca gtagtcagct
      • 121 ctgcatctga agccgctgaa gttctactaa gggtggataa catcatccgt gcaagaccaa
      • 181 gaaccgccaa tagacaacat atgtaacata tttaggatat acctcgaaaa taataaaccg
      • 241 ccacactgtc attattataa ttagaaacag aacgcaaaaa ttatccacta tataattcaa
      • 301 agacgcgaaa aaaaaagaac aacgcgtcat agaacttttg gcaattcgcg tcacaaataa
      • 361 attttggcaa cttatgtttc ctcttcgagc agtactcgag ccctgtctca agaatgtaat
      • 421 aatacccatc gtaggtatgg ttaaagatag catctccaca acctcaaagc tccttgccga
      • 481 gagtcgccct cctttgtcga gtaattttca cttttcatat gagaacttat tttcttattc
      • 541 tttactctca catcctgtag tgattgacac tgcaacagcc accatcacta gaagaacaga
      • 601 acaattactt aatagaaaaa ttatatcttc ctcgaaacga tttcctgctt ccaacatcta
      • 661 cgtatatcaa gaagcattca cttaccatga cacagcttca gatttcatta ttgctgacag
      • 721 ctactatatc actactccat ctagtagtgg ccacgcccta tgaggcatat cctatcggaa
      • 781 aacaataccc cccagtggca agagtcaatg aatcgtttac atttcaaatt tccaatgata
      • 841 cctataaatc gtctgtagac aagacagctc aaataacata caattgcttc gacttaccga
      • 901 gctggctttc gtttgactct agttctagaa cgttctcagg tgaaccttct tctgacttac
      • 961 tatctgatgc gaacaccacg ttgtatttca atgtaatact cgagggtacg gactctgccg
      • 1021 acagcacgtc tttgaacaat acataccaat ttgttgttac aaaccgtcca tccatctcgc
      • 1081 tatcgtcaga tttcaatcta ttggcgttgt taaaaaacta tggttatact aacggcaaaa
      • 1141 acgctctgaa actagatcct aatgaagtct tcaacgtgac ttttgaccgt tcaatgttca
      • 1201 ctaacgaaga atccattgtg tcgtattacg gacgttctca gttgtataat gcgccgttac
      • 1261 ccaattggct gttcttcgat tctggcgagt tgaagtttac tgggacggca ccggtgataa
      • 1321 actcggcgat tgctccagaa acaagctaca gttttgtcat catcgctaca gacattgaag
      • 1381 gattttctgc cgttgaggta gaattcgaat tagtcatcgg ggctcaccag ttaactacct
      • 1441 ctattcaaaa tagtttgata atcaacgtta ctgacacagg taacgtttca tatgacttac
      • 1501 ctctaaacta tgtttatctc gatgacgatc ctatttcttc tgataaattg ggttctataa
      • 1561 acttattgga tgctccagac tgggtggcat tagataatgc taccatttcc gggtctgtcc
      • 1621 cagatgaatt actcggtaag aactccaatc ctgccaattt ttctgtgtcc atttatgata
      • 1681 cttatggtga tgtgatttat ttcaacttcg aagttgtctc cacaacggat ttgtttgcca
      • 1741 ttagttctct tcccaatatt aacgctacaa ggggtgaatg gttctcctac tattttttgc
      • 1801 cttctcagtt tacagactac gtgaatacaa acgtttcatt agagtttact aattcaagcc
      • 1861 aagaccatga ctgggtgaaa ttccaatcat ctaatttaac attagctgga gaagtgccca
      • 1921 agaatttcga caagctttca ttaggtttga aagcgaacca aggttcacaa tctcaagagc
      • 1981 tatattttaa catcattggc atggattcaa agataactca ctcaaaccac agtgcgaatg
      • ...
      • 4261 ctgtttatgt ttctacgtac ttttgattta tagcaagggg aaaagaaata catactattt
      • 4321 tttggtaaag gtgaaagcat aatgtaaaag ctagaataaa atggacgaaa taaagagagg
      • 4381 cttagttcat cttttttcca aaaagcaccc aatgataata actaaaatga aaaggatttg
      • 4441 ccatctgtca gcaacatcag ttgtgtgagc aataataaaa tcatcacctc cgttgccttt
      • 4501 agcgcgtttg tcgtttgtat cttccgtaat tttagtctta tcaatgggaa tcataaattt
      • 4561 tccaatgaat tagcaatttc gtccaattct ttttgagctt cttcatattt gctttggaat
      • 4621 tcttcgcact tcttttccca ttcatctctt tcttcttcca aagcaacgat ccttctaccc
      • 4681 atttgctcag agttcaaatc ggcctctttc agtttatcca ttgcttcctt cagtttggct
      • 4741 tcactgtctt ctagctgttg ttctagatcc tggtttttct tggtgtagtt ctcattatta
      • 4801 gatctcaagt tattggagtc ttcagccaat tgctttgtat cagacaattg actctctaac
      • 4861 ttctccactt cactgtcgag ttgctcgttt ttagcggaca aagatttaat ctcgttttct
      • 4921 ttttcagtgt tagattgctc taattctttg agctgttctc tcagctcctc atatttttct
      • 4981 tgccatgact cagattctaa ttttaagcta ttcaatttct ctttgatc
      • //
    15. FASTA >gi|5524211|gb|AAD44166.1| cytochrome b [Elephas maximus maximus] LCLYTHIGRNIYYGSYLYSETWNTGIMLLLITMATAFMGYVLPWGQMSFWGATVITNLFSAIPYIGTNLV EWIWGGFSVDKATLNRFFAFHFILPFTMVALAGVHLTFLHETGSNNPLGLTSDSDKIPFHPYYTIKDFLG LLILILLLLLLALLSPDMLGDPDNHMPADPLNTPLHIKPEWYFLFAYAILRSVPNKLGGVLALFLSIVIL GLMPFLHTSKHRSMMLRPLSQALFWTLTMDLLTLTWIGSQPVEYPYTIIGQMASILYFSIILAFLPIAGX IENY >embl|AA961746|AA961746 or60c12.s1 NCI_CGAP_GC3 Homo sapiens cDNA clone IMAGE:1600246 3' similar to gb:M17885 60S ACIDIC RIBOSOMAL PROTEIN P0 (HUMAN);, mRNA sequence. ... actttttaaagaagtaagcctttatttccttgttttgcaaataaaactggctaagttggt tgctttttggtgattagtcaaagagaccaaatcccatatcctcgtccgactcctccgact cttccttggcttcaaccttagctggggctgcagcagcacgaggagcagctgtggtggcag cagcataggggcagcagcacaaaggcagatggatcagccaagaaggccttgaccttttca gcaagtgggaaggtgtaatccgtctccacagacaaggccaggactcgtttgtacccgttg atgatagaatggggtactgatgcaacagttgggtagccaatctgcagacagacactggca acattgcggacaccctccaggaagcgagaatgcagagtttcctctgtgatatcaagcact tcagggttgtagatgctgccattgtcgaacacctgctggatgaccagcccaaaggagaag ggggagatgttgagcatgttcagcagcgtggctttcgctggctccactttgtctccagtc ttgatcagctgcacatcactcaggatttcaatggtgcccttggagattttagtggtgata cctaaagctggaaaaaggaggtcttctcgggcccgagaccagtgttctgggctggcacag tgacttcacat popis sekvence
    16.  
    17. DDBJ screenshot
    18.  
    19.  
    20.  
    21. UniProt
      • asi nejúplnější databáze informací o proteinech
      • vychází z:
        • Swiss-Prot
          • manuálně anotované informace o proteinech
        • TrEMBL
          • strojové anotace všech kódujících sekvencí v EMBL
        • PIR
          • Protein Information Resource
      • sekvence, odkazy do jiných databází, etc.
    22. UniProt
    23. Komplexnější databáze
      • pro vlastní vyhledávání sekvencí, data mining, porovnávání s vlastními sekvencemi etc. jsou často vhodnější komplexnější systémy, např.:
        • The Sequence Retrievel System
          • projekt Sanger Institute, European Bioinformatics Institute (EBI) a DDBJ
        • Entrez
          • projekt National Center for Biotechnology Information (NCBI) při National Library of Medicine (NLM) a National Institut of Health v USA
    24.  
    25.  
    26. Reference Sequence Project
      • databáze NCBI shromažďující tzv. referenční sekvence
      • jedna sekvence = jedna molekula (DNA, mRNA, protein...)
      • obvykle založeno na sekvenci z GenBank
      • na rozdíl od GenBank nejde o primární data, ale o syntézu různých více informací
      • analogie k „review“ článkům
    27. InterPro
      • Integrated Resource of Protein Families
      • rozhraní pro vyhledávání (textové, podle sekvencí) v nejrůznějších dostupných proteinových databázích
        • Superfamily, PIR SuperFamily, UniProt , PROSITE, Pfam, PRINTS, ProDom, SMART, TIGRFAMs, SCOP, CATH, MSD
    28. Expasy
      • Ex pert P rotein A nalysis Sy stem
      • server specializovaný na proteomiku
      • odkazy na nejrůznější další zdroje (databáze, metabolické dráhy) a nástroje (alignment, fylogenetické analýzy, predikce, BLAST etc.)
    29. Expasy
    30. Module 2: de novo Analysis of Sequence
      • analýza de novo získaných sekvencí
      • porovnávání získané sekvence s obsahem genomových databází
      • „alignment“ a prezentace výsledků
    31. Používané nástroje
      • BLAST – hledání podobností
      • PSI-BLAST (position specific iterative BLAST)
      • ORF Finder – vyhledávání čtecích rámců
      • SPIDEY – srovnání cDNA a genomové DNA
      • CLUSTALW – alignment podobných sekvencí
      • JALVIEW, GENEDOC – zobrazení výsledků alignmentu
    32. B asic L ocal A lignment S earch T ool
      • heuristické určení podobnosti mezi dvěma sekvencemi
      • obvykle jedna kratší „target sequence“ a nějaká větší databáze
      • podobné Smith-Watermanově algoritmu, ale optimalizováno na rychlost (asi 50× rychlejší)
        • Altschul, SF, W Gish, W Miller, EW Myers, and DJ Lipman. Basic local alignment search tool. J Mol Biol 215(3):403-10, 1990.
    33. B asic L ocal A lignment S earch T ool
      • blastn – nukleotidy
      • blastb – proteiny
      • PSI-BLAST – příbuzné proteiny
      • blastx – přeložené nukleotidy proti databázi proteinů
      • blastn – přeložené nukleotidy proti přeložené databázi nukleotidů
      • Megablast – více vstupních sekvencí, rychlejší
    34. PSI -BLAST
      • P osition- S pecific I terative BLAST
      • 1. nalezení sekvencí podobných (evolučně příbuzných) proteinů
      • 2. „zprůměrování“
      • 3. hledání proteinů podobných tomuto „průměru“ („vzdálenější příbuzní“)
      • další iterace
    35. http://www.ncbi.nlm.nih.gov/blast/
    36. BLAST
    37.  
    38.  
    39. http://www.ncbi.nlm.nih.gov/gorf/
    40. http://www.ncbi.nlm.nih.gov/spidey/
      • genom vs. cDNA
    41. Clustal W
    42. JalView
    43. GeneDoc
    44. Module 3: Genome Browsing
      • Představení „genomových prohlížečů“ volně dostupných na webu
      • BioMart – nástroj pro datamining
    45. Genome browsers – co nabízí?
      • informace o struktuře a umístění genů
      • informace o okolí genů
      • mapy jednotlivých oblastí chromosomů
      • porovnávání genomů různých organismů
      • vyhledávání a získávání sekvencí
      • odkazy na spoustu další zdrojů (funkce genu, transkripty...)
    46. Genome browsers
      • Map Viewer
        • www.ncbi.nlm.nih.gov/mapview
      • UCSC Genome Browser
        • genome.ucsc.edu
      • G-integra Genome Browser
        • www.h-invitational.jp
      • Ensembl
        • www.ensembl.org
    47. + dobrá provázanost s ostatními službami NCBI (PubMed)
    48. + přímočaré ovládání + dostupnost i starších sestavení
    49. + databáze genů potvrzených cDNA klony plné délky
    50. + různé pohledy + k dispozici i archiv (starší sestavení) + snadné získávání dat + „evidence“
    51. VEGA – Ve rtebrate G enome A nnotated
    52. BioMart
      • pouhé zveřejnění všech informací o genomu na webu není vše
      • informací je ohromné množství – nutnost nástrojů pro efektivní získávání jen těch dat, která nás zajímají
      • BioMart je právě jedním z těchto nástrojů
      • jednoduché a přehledné uživatelské rozhraní
    53. 1 Co chceme prohledávát? (sestavení, organismus)
    54. 22 2
    55. 3
    56.  
    57. Module 4: Exploring Function and Disease
      • zjištění možných funkcí genu (jeho produktu)
      • známé mendelovsky dědičné choroby asociované s genem
      • protienové domény a ostatní proteiny se stejnými doménami
      • struktura proteinu
    58.  
    59.  
    60. Exprese ve tkáních Podobné proteiny
    61.  
    62. Module 5: Sequence Variation
      • SNP (single nucleotide polymorphisms)
        • nejčastější
        • frekvence > 1% (pokud méně – mutace; cave CFTR: 2%)
        • SNP u dvou lidských genomů: každých asi 1000 bp
      • INDEL (inserce – delece)
        • VNTR (variable number tandem repeats)
        • STR (simple tandem repeats – mikrosatelity – <6bp)
    63. SNP Ensembl -> Gene variation info
    64.  
    65. NCBI: dbSNP
    66. Další zdroje
      • SRS (Sequence Retrieval systém – Sanger, EBI...)
      • Glovar (www.glovar.org) – na stejném engine jako Ensembl
      • JSNP (http://snp.ims.u-tokyo.ac.jp/)
      • HGVBase (http://hgvbase.cgb.ki.se/)
      • HapMap (www.hapmap.org)
      • ...
    67. Module 6: Comparative Sequence Analysis
      • Identifikace homologních genových sekvencí
      • Využití komparativní genomiky k určení evolučne konzervovaných oblastí
    68. Homologní geny
      • ortologní geny
        • geny u různých druhů, vznikly z původně jednoho genu u společného předka
        • obvykle stejná funkce
      • paralogní geny
        • gen prošel duplikací, na kopii pak nemusí být takový tlak pro zachování funkce, další kopie si mohly „jít svou vlastní cestou“
    69. Nástroje
      • využití různých nástrojů z předchozích modulů:
        • Ensembl (Multicontig view, Synteny view)
        • NCBI – BLAST
        • UCSC Genome Browser
    70. Děkuji za pozornost

    + MaTMaT, 3 years ago

    custom

    501 views, 0 favs, 0 embeds more stats

    Seminář 11. dubna 2006 na Ústavu biologie a lék more

    More info about this document

    © All Rights Reserved

    Go to text version

    • Total Views 501
      • 501 on SlideShare
      • 0 from embeds
    • Comments 0
    • Favorites 0
    • Downloads 14
    Most viewed embeds

    more

    All embeds

    less

    Flagged as inappropriate Flag as inappropriate
    Flag as inappropriate

    Select your reason for flagging this presentation as inappropriate. If needed, use the feedback form to let us know more details.

    Cancel
    File a copyright complaint
    Having problems? Go to our helpdesk?

    Categories