Your SlideShare is downloading. ×
Zkušenosti z Opendoor Workshop „Working with Human Genome Sequence“
Upcoming SlideShare
Loading in...5
×

Thanks for flagging this SlideShare!

Oops! An error has occurred.

×
Saving this for later? Get the SlideShare app to save on your phone or tablet. Read anywhere, anytime – even offline.
Text the download link to your phone
Standard text messaging rates apply

Zkušenosti z Opendoor Workshop „Working with Human Genome Sequence“

662

Published on

Seminář 11. dubna 2006 na Ústavu biologie a lékařské genetiky 2. LF UK a FN Motol

Seminář 11. dubna 2006 na Ústavu biologie a lékařské genetiky 2. LF UK a FN Motol

Published in: Technology
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total Views
662
On Slideshare
0
From Embeds
0
Number of Embeds
0
Actions
Shares
0
Downloads
19
Comments
0
Likes
0
Embeds 0
No embeds

Report content
Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
No notes for slide

Transcript

  • 1. Zkušenosti z Opendoor Workshop „ Working with Human Genome Sequence “ Hinxton, Cambridge, UK 23.-25. ledna 2006 MUDr. Marek Turnovec Ústav biologie a lékařské genetiky 2. LF UK a FN Motol 11. dubna 2006
  • 2. Hinxton Genome Campus
  • 3. Working with Human Genome Sequence
      • Module 1: Sequence Formats and Retriaval
      • Module 2: de novo Analysis of Sequence
      • Module 3: Genome Browsing
      • Module 4: Exploring Function and Disease
      • Module 5: Sequence Variation
      • Module 6: Comparative Sequence Analysis
  • 4. Modul 1: Sequences Formats and Retrieval
    • přehled o tom, jak jsou sekvence získávány
    • seznámení se s používanými formáty
    • představení různých dostupných databází
    • ukázka databází s dalšími souvisejícími informacemi
  • 5. Přístup k sekvencím
    • sekvence z laboratoří po celém světe jsou zasílány do veřejně přístupných databází
      • EMBL (Evropa)
      • GeneBank (USA)
      • DDBJ (Japonsko)
    • tyto databáze se vzájemně synchronizují (každý den)
  • 6. Formát dat
    • záznamy v databázích jako tzv. „ flatfiles “
    • výhody „plain text“ formátu:
      • snadné úpravy, kopírování a ukládání (stačí libovolný textový editor, v MS Windows stačí i „Poznámkový blok“)
      • snadný přenos mezi různými webovými aplikacemi (vyhledávání, alignment) stačí jen „cut & paste“
  • 7. Rozdíly ve formátech EMBL a GenBank/DDBJ
    • ve formátu GenBank/DDBJ jsou jednotlivé části označené celým slovem (KEYWORDS, AUTHOR, REFERENCES, FEATURES...)
    • formát EMBL namísto toho používá systém dvoupísmených zkratek
      • jednotlivé části jsou od sebe odděleny tzv. „spacer“ řádky (XX)
      • jednodušší strojové zpracování
  • 8. Zkratky použité ve formátu EMBL
    • ID – identification
    • AC – accession number
    • SV – sequence version
    • DT – date
    • DE – description
    • KW – keywords
    • OS – organism species
    • OC – organism classification
    • OG – organelle
    • RN – reference number
    • RC – reference comment
    • RP – reference position
    • RX – reference cross-reference
    • RG – reference group
    • RA – reference author
    • RT – reference title
    • RL – reference location
    • DR – database cross-reference
    • AH – third party annotation
    • AS – assembly information
    • CO – contig sequences (constructed seq.)
    • FH – feature header
    • FT – feature table
    • SQ – sequence header
    • CC – comments
    • XX – spacer
    • // - terminator
  • 9. EMBL 1/3
    • ID SC49845 standard; genomic DNA; FUN; 5028 BP.
    • XX
    • AC U49845;
    • XX
    • SV U49845.1
    • XX
    • DT 07-MAY-1996 (Rel. 47, Created)
    • DT 17-APR-2005 (Rel. 83, Last updated, Version 4)
    • XX
    • DE Saccharomyces cerevisiae TCP1-beta gene, partial cds; and Axl2p (AXL2) and
    • DE Rev7p (REV7) genes, complete cds.
    • XX
    • KW .
    • XX
    • OS Saccharomyces cerevisiae (baker's yeast)
    • OC Eukaryota; Fungi; Ascomycota; Saccharomycotina; Saccharomycetes;
    • OC Saccharomycetales; Saccharomycetaceae; Saccharomyces.
    • XX
    • RN [1]
    • RP 1-5028
    • RX PUBMED; 7871890.
    • RA Torpey L.E., Gibbs P.E., Nelson J., Lawrence C.W.;
    • RT "Cloning and sequence of REV7, a gene whose function is required for DNA
    • RT damage-induced mutagenesis in Saccharomyces cerevisiae";
    • RL Yeast 10(11):1503-1509(1994).
    • XX
    • RN [2]
    • RP 1-5028
    • RX PUBMED; 8846915.
    • RA Roemer T., Madden K., Chang J., Snyder M.;
    • RT "Selection of axial growth sites in yeast requires Axl2p, a novel plasma
    • RT membrane glycoprotein";
    • RL Genes Dev. 10(7):777-793(1996).
    • XX
    • RN [3]
    • RP 1-5028
    • RA Roemer T.;
    • RT ;
    • RL Submitted (22-FEB-1996) to the EMBL/GenBank/DDBJ databases.
    • RL Terry Roemer, Biology, Yale University, New Haven, CT, USA
    • XX
    • FH Key Location/Qualifiers
    • FH
    • FT source 1..5028
    • FT /chromosome="IX"
    • FT /db_xref="taxon:4932"
    • FT /mol_type="genomic DNA"
    • FT /organism="Saccharomyces cerevisiae"
    • FT /map="9"
  • 10. EMBL 2/3
    • FT CDS <1..206
    • FT /codon_start=3
    • FT /db_xref=&quot;GOA:P39076&quot;
    • FT /db_xref=&quot;HSSP:1A6D&quot;
    • FT /db_xref=&quot;UniProtKB/Swiss-Prot:P39076&quot;
    • FT /product=&quot;TCP1-beta&quot;
    • FT /protein_id=&quot;AAA98665&quot;
    • FT /translation=&quot;SSIYNGISTSGLDLNNGTIADMRQLGIVESYKLKRAVVSSASEAA
    • FT EVLLRVDNIIRARPRTANRQHM&quot;
    • FT CDS 687..3158
    • FT /codon_start=1
    • FT /db_xref=&quot;GOA:P38928&quot;
    • FT /db_xref=&quot;InterPro:IPR006644&quot;
    • FT /db_xref=&quot;InterPro:IPR008009&quot;
    • FT /db_xref=&quot;SGD:S000001402&quot;
    • FT /db_xref=&quot;UniProtKB/Swiss-Prot:P38928&quot;
    • FT /note=&quot;plasma membrane glycoprotein&quot;
    • FT /gene=&quot;AXL2&quot;
    • FT /product=&quot;Axl2p&quot;
    • FT /protein_id=&quot;AAA98666&quot;
    • FT /translation=&quot;MTQLQISLLLTATISLLHLVVATPYEAYPIGKQYPPVARVNESFT
    • FT FQISNDTYKSSVDKTAQITYNCFDLPSWLSFDSSSRTFSGEPSSDLLSDANTTLYFNVI
    • FT LEGTDSADSTSLNNTYQFVVTNRPSISLSSDFNLLALLKNYGYTNGKNALKLDPNEVFN
    • FT VTFDRSMFTNEESIVSYYGRSQLYNAPLPNWLFFDSGELKFTGTAPVINSAIAPETSYS
    • FT FVIIATDIEGFSAVEVEFELVIGAHQLTTSIQNSLIINVTDTGNVSYDLPLNYVYLDDD
    • FT PISSDKLGSINLLDAPDWVALDNATISGSVPDELLGKNSNPANFSVSIYDTYGDVIYFN
    • FT FEVVSTTDLFAISSLPNINATRGEWFSYYFLPSQFTDYVNTNVSLEFTNSSQDHDWVKF
    • FT QSSNLTLAGEVPKNFDKLSLGLKANQGSQSQELYFNIIGMDSKITHSNHSANATSTRSS
    • FT HHSTSTSSYTSSTYTAKISSTSAAATSSAPAALPAANKTSSHNKKAVAIACGVAIPLGV
    • FT ILVALICFLIFWRRRRENPDDENLPHAISGPDLNNPANKPNQENATPLNNPFDDDASSY
    • FT DDTSIARRLAALNTLKLDNHSATESDISSVDEKRDSLSGMNTYNDQFQSQSKEELLAKP
    • FT PVQPPESPFFDPQNRSSSVYMDSEPAVNKSWRYTGNLSPVSDIVRDSYGSQKTVDTEKL
    • FT FDLEAPEKEKRTSRDVTMSSLDPWNSNISPSPVRKSVTPSPYNVTKHRNRHLQNIQDSQ
    • FT SGKNGITPTTMSTSSSDDFVPVKDGENFCWVHSMEPDRRPSKKRLVDFSNKSNVNVGQV
    • FT KDIHGRIPEML&quot;
    • FT CDS complement(3300..4037)
    • FT /codon_start=1
    • FT /db_xref=&quot;GOA:P38927&quot;
    • FT /db_xref=&quot;InterPro:IPR003511&quot;
    • FT /db_xref=&quot;SGD:S000001401&quot;
    • FT /db_xref=&quot;UniProtKB/Swiss-Prot:P38927&quot;
    • FT /gene=&quot;REV7&quot;
    • FT /product=&quot;Rev7p&quot;
    • FT /protein_id=&quot;AAA98667&quot;
    • FT /translation=&quot;MNRWVEKWLRVYLKCYINLILFYRNVYPPQSFDYTTYQSFNLPQF
    • FT VPINRHPALIDYIEELILDVLSKLTHVYRFSICIINKKNDLCIEKYVLDFSELQHVDKD
    • FT DQIITETEVFDEFRSSLNSLIMHLEKLPKVNDDTITFEAVINAIELELGHKLDRNRRVD
    • FT SLEEKAEIERDSNWVKCQEDENLPDNNGFQPPKIKLTSLVGSDVGPLIIHQFSEKLISG
    • FT DDKILNGVYSQYEEGESIFGSLF&quot;
    • XX
  • 11. EMBL 3/3
    • SQ Sequence 5028 BP; 1510 A; 1074 C; 835 G; 1609 T; 0 other;
    • gatcctccat atacaacggt atctccacct caggtttaga tctcaacaac ggaaccattg 60
    • ccgacatgag acagttaggt atcgtcgaga gttacaagct aaaacgagca gtagtcagct 120
    • ctgcatctga agccgctgaa gttctactaa gggtggataa catcatccgt gcaagaccaa 180
    • gaaccgccaa tagacaacat atgtaacata tttaggatat acctcgaaaa taataaaccg 240
    • ccacactgtc attattataa ttagaaacag aacgcaaaaa ttatccacta tataattcaa 300
    • agacgcgaaa aaaaaagaac aacgcgtcat agaacttttg gcaattcgcg tcacaaataa 360
    • attttggcaa cttatgtttc ctcttcgagc agtactcgag ccctgtctca agaatgtaat 420
    • aatacccatc gtaggtatgg ttaaagatag catctccaca acctcaaagc tccttgccga 480
    • gagtcgccct cctttgtcga gtaattttca cttttcatat gagaacttat tttcttattc 540
    • tttactctca catcctgtag tgattgacac tgcaacagcc accatcacta gaagaacaga 600
    • acaattactt aatagaaaaa ttatatcttc ctcgaaacga tttcctgctt ccaacatcta 660
    • cgtatatcaa gaagcattca cttaccatga cacagcttca gatttcatta ttgctgacag 720
    • ctactatatc actactccat ctagtagtgg ccacgcccta tgaggcatat cctatcggaa 780
    • aacaataccc cccagtggca agagtcaatg aatcgtttac atttcaaatt tccaatgata 840
    • cctataaatc gtctgtagac aagacagctc aaataacata caattgcttc gacttaccga 900
    • gctggctttc gtttgactct agttctagaa cgttctcagg tgaaccttct tctgacttac 960
    • tatctgatgc gaacaccacg ttgtatttca atgtaatact cgagggtacg gactctgccg 1020
    • acagcacgtc tttgaacaat acataccaat ttgttgttac aaaccgtcca tccatctcgc 1080
    • tatcgtcaga tttcaatcta ttggcgttgt taaaaaacta tggttatact aacggcaaaa 1140
    • acgctctgaa actagatcct aatgaagtct tcaacgtgac ttttgaccgt tcaatgttca 1200
    • ctaacgaaga atccattgtg tcgtattacg gacgttctca gttgtataat gcgccgttac 1260
    • ccaattggct gttcttcgat tctggcgagt tgaagtttac tgggacggca ccggtgataa 1320
    • actcggcgat tgctccagaa acaagctaca gttttgtcat catcgctaca gacattgaag 1380
    • gattttctgc cgttgaggta gaattcgaat tagtcatcgg ggctcaccag ttaactacct 1440
    • ctattcaaaa tagtttgata atcaacgtta ctgacacagg taacgtttca tatgacttac 1500
    • ctctaaacta tgtttatctc gatgacgatc ctatttcttc tgataaattg ggttctataa 1560
    • acttattgga tgctccagac tgggtggcat tagataatgc taccatttcc gggtctgtcc 1620
    • cagatgaatt actcggtaag aactccaatc ctgccaattt ttctgtgtcc atttatgata 1680
    • cttatggtga tgtgatttat ttcaacttcg aagttgtctc cacaacggat ttgtttgcca 1740
    • ttagttctct tcccaatatt aacgctacaa ggggtgaatg gttctcctac tattttttgc 1800
    • cttctcagtt tacagactac gtgaatacaa acgtttcatt agagtttact aattcaagcc 1860
    • aagaccatga ctgggtgaaa ttccaatcat ctaatttaac attagctgga gaagtgccca 1920
    • agaatttcga caagctttca ttaggtttga aagcgaacca aggttcacaa tctcaagagc 1980
    • tatattttaa catcattggc atggattcaa agataactca ctcaaaccac agtgcgaatg 2040
    • caacgtccac aagaagttct caccactcca cctcaacaag ttcttacaca tcttctactt 2100
    • acactgcaaa aatttcttct acctccgctg ctgctacttc ttctgctcca gcagcgctgc 2160
    • cagcagccaa taaaacttca tctcacaata aaaaagcagt agcaattgcg tgcggtgttg 2220
    • ctatcccatt aggcgttatc ctagtagctc tcatttgctt cctaatattc tggagacgca 2280
    • gaagggaaaa tccagacgat gaaaacttac cgcatgctat tagtggacct gatttgaata 2340
    • atcctgcaaa taaaccaaat caagaaaacg ctacaccttt gaacaacccc tttgatgatg 2400
    • atgcttcctc gtacgatgat acttcaatag caagaagatt ggctgctttg aacactttga 2460
    • aattggataa ccactctgcc actgaatctg atatttccag cgtggatgaa aagagagatt 2520
    • ctctatcagg tatgaataca tacaatgatc agttccaatc ccaaagtaaa gaagaattat 2580
    • tagcaaaacc cccagtacag cctccagaga gcccgttctt tgacccacag aataggtctt 2640
    • cttctgtgta tatggatagt gaaccagcag taaataaatc ctggcgatat actggcaacc 2700
    • ...
    • atttgctcag agttcaaatc ggcctctttc agtttatcca ttgcttcctt cagtttggct 4740
    • tcactgtctt ctagctgttg ttctagatcc tggtttttct tggtgtagtt ctcattatta 4800
    • gatctcaagt tattggagtc ttcagccaat tgctttgtat cagacaattg actctctaac 4860
    • ttctccactt cactgtcgag ttgctcgttt ttagcggaca aagatttaat ctcgttttct 4920
    • ttttcagtgt tagattgctc taattctttg agctgttctc tcagctcctc atatttttct 4980
    • tgccatgact cagattctaa ttttaagcta ttcaatttct ctttgatc 5028
    • //
  • 12. GenBank/DDBJ 1/3
    • LOCUS SCU49845 5028 bp DNA linear PLN 21-JUN-1999
    • DEFINITION Saccharomyces cerevisiae TCP1-beta gene, partial cds; and Axl2p
    • (AXL2) and Rev7p (REV7) genes, complete cds.
    • ACCESSION U49845
    • VERSION U49845.1 GI:1293613
    • KEYWORDS .
    • SOURCE Saccharomyces cerevisiae (baker's yeast)
    • ORGANISM Saccharomyces cerevisiae
    • Eukaryota; Fungi; Ascomycota; Saccharomycotina; Saccharomycetes;
    • Saccharomycetales; Saccharomycetaceae; Saccharomyces.
    • REFERENCE 1 (bases 1 to 5028)
    • AUTHORS Torpey,L.E., Gibbs,P.E., Nelson,J. and Lawrence,C.W.
    • TITLE Cloning and sequence of REV7, a gene whose function is required for
    • DNA damage-induced mutagenesis in Saccharomyces cerevisiae
    • JOURNAL Yeast 10 (11), 1503-1509 (1994)
    • PUBMED 7871890
    • REFERENCE 2 (bases 1 to 5028)
    • AUTHORS Roemer,T., Madden,K., Chang,J. and Snyder,M.
    • TITLE Selection of axial growth sites in yeast requires Axl2p, a novel
    • plasma membrane glycoprotein
    • JOURNAL Genes Dev. 10 (7), 777-793 (1996)
    • PUBMED 8846915
    • REFERENCE 3 (bases 1 to 5028)
    • AUTHORS Roemer,T.
    • TITLE Direct Submission
    • JOURNAL Submitted (22-FEB-1996) Terry Roemer, Biology, Yale University, New
    • Haven, CT, USA
  • 13. GenBank/DDBJ 2/3
    • FEATURES Location/Qualifiers
    • source 1..5028
    • /organism=&quot;Saccharomyces cerevisiae&quot;
    • /mol_type=&quot;genomic DNA&quot;
    • /db_xref=&quot;taxon:4932&quot;
    • /chromosome=&quot;IX&quot;
    • /map=&quot;9&quot;
    • CDS <1..206
    • /codon_start=3
    • /product=&quot;TCP1-beta&quot;
    • /protein_id=&quot;AAA98665.1&quot;
    • /db_xref=&quot;GI:1293614&quot;
    • /translation=&quot;SSIYNGISTSGLDLNNGTIADMRQLGIVESYKLKRAVVSSASEA
    • AEVLLRVDNIIRARPRTANRQHM&quot;
    • gene 687..3158
    • /gene=&quot;AXL2&quot;
    • CDS 687..3158
    • /gene=&quot;AXL2&quot;
    • /note=&quot;plasma membrane glycoprotein&quot;
    • /codon_start=1
    • /product=&quot;Axl2p&quot;
    • /protein_id=&quot;AAA98666.1&quot;
    • /db_xref=&quot;GI:1293615&quot;
    • /translation=&quot;MTQLQISLLLTATISLLHLVVATPYEAYPIGKQYPPVARVNESF
    • TFQISNDTYKSSVDKTAQITYNCFDLPSWLSFDSSSRTFSGEPSSDLLSDANTTLYFN
    • VILEGTDSADSTSLNNTYQFVVTNRPSISLSSDFNLLALLKNYGYTNGKNALKLDPNE
    • VFNVTFDRSMFTNEESIVSYYGRSQLYNAPLPNWLFFDSGELKFTGTAPVINSAIAPE
    • TSYSFVIIATDIEGFSAVEVEFELVIGAHQLTTSIQNSLIINVTDTGNVSYDLPLNYV
    • YLDDDPISSDKLGSINLLDAPDWVALDNATISGSVPDELLGKNSNPANFSVSIYDTYG
    • DVIYFNFEVVSTTDLFAISSLPNINATRGEWFSYYFLPSQFTDYVNTNVSLEFTNSSQ
    • DHDWVKFQSSNLTLAGEVPKNFDKLSLGLKANQGSQSQELYFNIIGMDSKITHSNHSA
    • NATSTRSSHHSTSTSSYTSSTYTAKISSTSAAATSSAPAALPAANKTSSHNKKAVAIA
    • CGVAIPLGVILVALICFLIFWRRRRENPDDENLPHAISGPDLNNPANKPNQENATPLN
    • NPFDDDASSYDDTSIARRLAALNTLKLDNHSATESDISSVDEKRDSLSGMNTYNDQFQ
    • SQSKEELLAKPPVQPPESPFFDPQNRSSSVYMDSEPAVNKSWRYTGNLSPVSDIVRDS
    • YGSQKTVDTEKLFDLEAPEKEKRTSRDVTMSSLDPWNSNISPSPVRKSVTPSPYNVTK
    • HRNRHLQNIQDSQSGKNGITPTTMSTSSSDDFVPVKDGENFCWVHSMEPDRRPSKKRL
    • VDFSNKSNVNVGQVKDIHGRIPEML&quot;
    • gene complement(3300..4037)
    • /gene=&quot;REV7&quot;
    • CDS complement(3300..4037)
    • /gene=&quot;REV7&quot;
    • /codon_start=1
    • /product=&quot;Rev7p&quot;
    • /protein_id=&quot;AAA98667.1&quot;
    • /db_xref=&quot;GI:1293616&quot;
    • /translation=&quot;MNRWVEKWLRVYLKCYINLILFYRNVYPPQSFDYTTYQSFNLPQ
    • FVPINRHPALIDYIEELILDVLSKLTHVYRFSICIINKKNDLCIEKYVLDFSELQHVD
    • KDDQIITETEVFDEFRSSLNSLIMHLEKLPKVNDDTITFEAVINAIELELGHKLDRNR
    • RVDSLEEKAEIERDSNWVKCQEDENLPDNNGFQPPKIKLTSLVGSDVGPLIIHQFSEK
    • LISGDDKILNGVYSQYEEGESIFGSLF&quot;
  • 14. GenBank/DDBJ 3/3
    • ORIGIN
    • 1 gatcctccat atacaacggt atctccacct caggtttaga tctcaacaac ggaaccattg
    • 61 ccgacatgag acagttaggt atcgtcgaga gttacaagct aaaacgagca gtagtcagct
    • 121 ctgcatctga agccgctgaa gttctactaa gggtggataa catcatccgt gcaagaccaa
    • 181 gaaccgccaa tagacaacat atgtaacata tttaggatat acctcgaaaa taataaaccg
    • 241 ccacactgtc attattataa ttagaaacag aacgcaaaaa ttatccacta tataattcaa
    • 301 agacgcgaaa aaaaaagaac aacgcgtcat agaacttttg gcaattcgcg tcacaaataa
    • 361 attttggcaa cttatgtttc ctcttcgagc agtactcgag ccctgtctca agaatgtaat
    • 421 aatacccatc gtaggtatgg ttaaagatag catctccaca acctcaaagc tccttgccga
    • 481 gagtcgccct cctttgtcga gtaattttca cttttcatat gagaacttat tttcttattc
    • 541 tttactctca catcctgtag tgattgacac tgcaacagcc accatcacta gaagaacaga
    • 601 acaattactt aatagaaaaa ttatatcttc ctcgaaacga tttcctgctt ccaacatcta
    • 661 cgtatatcaa gaagcattca cttaccatga cacagcttca gatttcatta ttgctgacag
    • 721 ctactatatc actactccat ctagtagtgg ccacgcccta tgaggcatat cctatcggaa
    • 781 aacaataccc cccagtggca agagtcaatg aatcgtttac atttcaaatt tccaatgata
    • 841 cctataaatc gtctgtagac aagacagctc aaataacata caattgcttc gacttaccga
    • 901 gctggctttc gtttgactct agttctagaa cgttctcagg tgaaccttct tctgacttac
    • 961 tatctgatgc gaacaccacg ttgtatttca atgtaatact cgagggtacg gactctgccg
    • 1021 acagcacgtc tttgaacaat acataccaat ttgttgttac aaaccgtcca tccatctcgc
    • 1081 tatcgtcaga tttcaatcta ttggcgttgt taaaaaacta tggttatact aacggcaaaa
    • 1141 acgctctgaa actagatcct aatgaagtct tcaacgtgac ttttgaccgt tcaatgttca
    • 1201 ctaacgaaga atccattgtg tcgtattacg gacgttctca gttgtataat gcgccgttac
    • 1261 ccaattggct gttcttcgat tctggcgagt tgaagtttac tgggacggca ccggtgataa
    • 1321 actcggcgat tgctccagaa acaagctaca gttttgtcat catcgctaca gacattgaag
    • 1381 gattttctgc cgttgaggta gaattcgaat tagtcatcgg ggctcaccag ttaactacct
    • 1441 ctattcaaaa tagtttgata atcaacgtta ctgacacagg taacgtttca tatgacttac
    • 1501 ctctaaacta tgtttatctc gatgacgatc ctatttcttc tgataaattg ggttctataa
    • 1561 acttattgga tgctccagac tgggtggcat tagataatgc taccatttcc gggtctgtcc
    • 1621 cagatgaatt actcggtaag aactccaatc ctgccaattt ttctgtgtcc atttatgata
    • 1681 cttatggtga tgtgatttat ttcaacttcg aagttgtctc cacaacggat ttgtttgcca
    • 1741 ttagttctct tcccaatatt aacgctacaa ggggtgaatg gttctcctac tattttttgc
    • 1801 cttctcagtt tacagactac gtgaatacaa acgtttcatt agagtttact aattcaagcc
    • 1861 aagaccatga ctgggtgaaa ttccaatcat ctaatttaac attagctgga gaagtgccca
    • 1921 agaatttcga caagctttca ttaggtttga aagcgaacca aggttcacaa tctcaagagc
    • 1981 tatattttaa catcattggc atggattcaa agataactca ctcaaaccac agtgcgaatg
    • ...
    • 4261 ctgtttatgt ttctacgtac ttttgattta tagcaagggg aaaagaaata catactattt
    • 4321 tttggtaaag gtgaaagcat aatgtaaaag ctagaataaa atggacgaaa taaagagagg
    • 4381 cttagttcat cttttttcca aaaagcaccc aatgataata actaaaatga aaaggatttg
    • 4441 ccatctgtca gcaacatcag ttgtgtgagc aataataaaa tcatcacctc cgttgccttt
    • 4501 agcgcgtttg tcgtttgtat cttccgtaat tttagtctta tcaatgggaa tcataaattt
    • 4561 tccaatgaat tagcaatttc gtccaattct ttttgagctt cttcatattt gctttggaat
    • 4621 tcttcgcact tcttttccca ttcatctctt tcttcttcca aagcaacgat ccttctaccc
    • 4681 atttgctcag agttcaaatc ggcctctttc agtttatcca ttgcttcctt cagtttggct
    • 4741 tcactgtctt ctagctgttg ttctagatcc tggtttttct tggtgtagtt ctcattatta
    • 4801 gatctcaagt tattggagtc ttcagccaat tgctttgtat cagacaattg actctctaac
    • 4861 ttctccactt cactgtcgag ttgctcgttt ttagcggaca aagatttaat ctcgttttct
    • 4921 ttttcagtgt tagattgctc taattctttg agctgttctc tcagctcctc atatttttct
    • 4981 tgccatgact cagattctaa ttttaagcta ttcaatttct ctttgatc
    • //
  • 15. FASTA >gi|5524211|gb|AAD44166.1| cytochrome b [Elephas maximus maximus] LCLYTHIGRNIYYGSYLYSETWNTGIMLLLITMATAFMGYVLPWGQMSFWGATVITNLFSAIPYIGTNLV EWIWGGFSVDKATLNRFFAFHFILPFTMVALAGVHLTFLHETGSNNPLGLTSDSDKIPFHPYYTIKDFLG LLILILLLLLLALLSPDMLGDPDNHMPADPLNTPLHIKPEWYFLFAYAILRSVPNKLGGVLALFLSIVIL GLMPFLHTSKHRSMMLRPLSQALFWTLTMDLLTLTWIGSQPVEYPYTIIGQMASILYFSIILAFLPIAGX IENY >embl|AA961746|AA961746 or60c12.s1 NCI_CGAP_GC3 Homo sapiens cDNA clone IMAGE:1600246 3' similar to gb:M17885 60S ACIDIC RIBOSOMAL PROTEIN P0 (HUMAN);, mRNA sequence. ... actttttaaagaagtaagcctttatttccttgttttgcaaataaaactggctaagttggt tgctttttggtgattagtcaaagagaccaaatcccatatcctcgtccgactcctccgact cttccttggcttcaaccttagctggggctgcagcagcacgaggagcagctgtggtggcag cagcataggggcagcagcacaaaggcagatggatcagccaagaaggccttgaccttttca gcaagtgggaaggtgtaatccgtctccacagacaaggccaggactcgtttgtacccgttg atgatagaatggggtactgatgcaacagttgggtagccaatctgcagacagacactggca acattgcggacaccctccaggaagcgagaatgcagagtttcctctgtgatatcaagcact tcagggttgtagatgctgccattgtcgaacacctgctggatgaccagcccaaaggagaag ggggagatgttgagcatgttcagcagcgtggctttcgctggctccactttgtctccagtc ttgatcagctgcacatcactcaggatttcaatggtgcccttggagattttagtggtgata cctaaagctggaaaaaggaggtcttctcgggcccgagaccagtgttctgggctggcacag tgacttcacat popis sekvence
  • 16.  
  • 17. DDBJ screenshot
  • 18.  
  • 19.  
  • 20.  
  • 21. UniProt
    • asi nejúplnější databáze informací o proteinech
    • vychází z:
      • Swiss-Prot
        • manuálně anotované informace o proteinech
      • TrEMBL
        • strojové anotace všech kódujících sekvencí v EMBL
      • PIR
        • Protein Information Resource
    • sekvence, odkazy do jiných databází, etc.
  • 22. UniProt
  • 23. Komplexnější databáze
    • pro vlastní vyhledávání sekvencí, data mining, porovnávání s vlastními sekvencemi etc. jsou často vhodnější komplexnější systémy, např.:
      • The Sequence Retrievel System
        • projekt Sanger Institute, European Bioinformatics Institute (EBI) a DDBJ
      • Entrez
        • projekt National Center for Biotechnology Information (NCBI) při National Library of Medicine (NLM) a National Institut of Health v USA
  • 24.  
  • 25.  
  • 26. Reference Sequence Project
    • databáze NCBI shromažďující tzv. referenční sekvence
    • jedna sekvence = jedna molekula (DNA, mRNA, protein...)
    • obvykle založeno na sekvenci z GenBank
    • na rozdíl od GenBank nejde o primární data, ale o syntézu různých více informací
    • analogie k „review“ článkům
  • 27. InterPro
    • Integrated Resource of Protein Families
    • rozhraní pro vyhledávání (textové, podle sekvencí) v nejrůznějších dostupných proteinových databázích
      • Superfamily, PIR SuperFamily, UniProt , PROSITE, Pfam, PRINTS, ProDom, SMART, TIGRFAMs, SCOP, CATH, MSD
  • 28. Expasy
    • Ex pert P rotein A nalysis Sy stem
    • server specializovaný na proteomiku
    • odkazy na nejrůznější další zdroje (databáze, metabolické dráhy) a nástroje (alignment, fylogenetické analýzy, predikce, BLAST etc.)
  • 29. Expasy
  • 30. Module 2: de novo Analysis of Sequence
    • analýza de novo získaných sekvencí
    • porovnávání získané sekvence s obsahem genomových databází
    • „alignment“ a prezentace výsledků
  • 31. Používané nástroje
    • BLAST – hledání podobností
    • PSI-BLAST (position specific iterative BLAST)
    • ORF Finder – vyhledávání čtecích rámců
    • SPIDEY – srovnání cDNA a genomové DNA
    • CLUSTALW – alignment podobných sekvencí
    • JALVIEW, GENEDOC – zobrazení výsledků alignmentu
  • 32. B asic L ocal A lignment S earch T ool
    • heuristické určení podobnosti mezi dvěma sekvencemi
    • obvykle jedna kratší „target sequence“ a nějaká větší databáze
    • podobné Smith-Watermanově algoritmu, ale optimalizováno na rychlost (asi 50× rychlejší)
      • Altschul, SF, W Gish, W Miller, EW Myers, and DJ Lipman. Basic local alignment search tool. J Mol Biol 215(3):403-10, 1990.
  • 33. B asic L ocal A lignment S earch T ool
    • blastn – nukleotidy
    • blastb – proteiny
    • PSI-BLAST – příbuzné proteiny
    • blastx – přeložené nukleotidy proti databázi proteinů
    • blastn – přeložené nukleotidy proti přeložené databázi nukleotidů
    • Megablast – více vstupních sekvencí, rychlejší
  • 34. PSI -BLAST
    • P osition- S pecific I terative BLAST
    • 1. nalezení sekvencí podobných (evolučně příbuzných) proteinů
    • 2. „zprůměrování“
    • 3. hledání proteinů podobných tomuto „průměru“ („vzdálenější příbuzní“)
    • další iterace
  • 35. http://www.ncbi.nlm.nih.gov/blast/
  • 36. BLAST
  • 37.  
  • 38.  
  • 39. http://www.ncbi.nlm.nih.gov/gorf/
  • 40. http://www.ncbi.nlm.nih.gov/spidey/
    • genom vs. cDNA
  • 41. Clustal W
  • 42. JalView
  • 43. GeneDoc
  • 44. Module 3: Genome Browsing
    • Představení „genomových prohlížečů“ volně dostupných na webu
    • BioMart – nástroj pro datamining
  • 45. Genome browsers – co nabízí?
    • informace o struktuře a umístění genů
    • informace o okolí genů
    • mapy jednotlivých oblastí chromosomů
    • porovnávání genomů různých organismů
    • vyhledávání a získávání sekvencí
    • odkazy na spoustu další zdrojů (funkce genu, transkripty...)
  • 46. Genome browsers
    • Map Viewer
      • www.ncbi.nlm.nih.gov/mapview
    • UCSC Genome Browser
      • genome.ucsc.edu
    • G-integra Genome Browser
      • www.h-invitational.jp
    • Ensembl
      • www.ensembl.org
  • 47. + dobrá provázanost s ostatními službami NCBI (PubMed)
  • 48. + přímočaré ovládání + dostupnost i starších sestavení
  • 49. + databáze genů potvrzených cDNA klony plné délky
  • 50. + různé pohledy + k dispozici i archiv (starší sestavení) + snadné získávání dat + „evidence“
  • 51. VEGA – Ve rtebrate G enome A nnotated
  • 52. BioMart
    • pouhé zveřejnění všech informací o genomu na webu není vše
    • informací je ohromné množství – nutnost nástrojů pro efektivní získávání jen těch dat, která nás zajímají
    • BioMart je právě jedním z těchto nástrojů
    • jednoduché a přehledné uživatelské rozhraní
  • 53. 1 Co chceme prohledávát? (sestavení, organismus)
  • 54. 22 2
  • 55. 3
  • 56.  
  • 57. Module 4: Exploring Function and Disease
    • zjištění možných funkcí genu (jeho produktu)
    • známé mendelovsky dědičné choroby asociované s genem
    • protienové domény a ostatní proteiny se stejnými doménami
    • struktura proteinu
  • 58.  
  • 59.  
  • 60. Exprese ve tkáních Podobné proteiny
  • 61.  
  • 62. Module 5: Sequence Variation
    • SNP (single nucleotide polymorphisms)
      • nejčastější
      • frekvence > 1% (pokud méně – mutace; cave CFTR: 2%)
      • SNP u dvou lidských genomů: každých asi 1000 bp
    • INDEL (inserce – delece)
      • VNTR (variable number tandem repeats)
      • STR (simple tandem repeats – mikrosatelity – <6bp)
  • 63. SNP Ensembl -> Gene variation info
  • 64.  
  • 65. NCBI: dbSNP
  • 66. Další zdroje
    • SRS (Sequence Retrieval systém – Sanger, EBI...)
    • Glovar (www.glovar.org) – na stejném engine jako Ensembl
    • JSNP (http://snp.ims.u-tokyo.ac.jp/)
    • HGVBase (http://hgvbase.cgb.ki.se/)
    • HapMap (www.hapmap.org)
    • ...
  • 67. Module 6: Comparative Sequence Analysis
    • Identifikace homologních genových sekvencí
    • Využití komparativní genomiky k určení evolučne konzervovaných oblastí
  • 68. Homologní geny
    • ortologní geny
      • geny u různých druhů, vznikly z původně jednoho genu u společného předka
      • obvykle stejná funkce
    • paralogní geny
      • gen prošel duplikací, na kopii pak nemusí být takový tlak pro zachování funkce, další kopie si mohly „jít svou vlastní cestou“
  • 69. Nástroje
    • využití různých nástrojů z předchozích modulů:
      • Ensembl (Multicontig view, Synteny view)
      • NCBI – BLAST
      • UCSC Genome Browser
  • 70. Děkuji za pozornost

×