Zkušenosti z Opendoor Workshop „ Working with Human Genome Sequence “ Hinxton, Cambridge, UK 23.-25. ledna 2006 MUDr. Mare...
Hinxton Genome Campus
Working with Human Genome Sequence <ul><ul><li>Module 1:  Sequence Formats and Retriaval </li></ul></ul><ul><ul><li>Module...
Modul 1: Sequences Formats and Retrieval <ul><li>přehled o tom, jak jsou sekvence  získávány </li></ul><ul><li>seznámení s...
Přístup k sekvencím <ul><li>sekvence z laboratoří po celém světe jsou zasílány do  veřejně přístupných  databází </li></ul...
Formát dat <ul><li>záznamy v databázích jako tzv. „ flatfiles “ </li></ul><ul><li>výhody „plain text“ formátu: </li></ul><...
Rozdíly ve formátech EMBL a GenBank/DDBJ <ul><li>ve formátu GenBank/DDBJ jsou jednotlivé části označené  celým slovem  (KE...
Zkratky použité ve formátu EMBL <ul><li>ID – identification </li></ul><ul><li>AC – accession number </li></ul><ul><li>SV –...
EMBL 1/3 <ul><li>ID  SC49845  standard; genomic DNA; FUN; 5028 BP. </li></ul><ul><li>XX </li></ul><ul><li>AC  U49845; </li...
EMBL 2/3 <ul><li>FT  CDS  <1..206 </li></ul><ul><li>FT  /codon_start=3 </li></ul><ul><li>FT  /db_xref=&quot;GOA:P39076&quo...
EMBL 3/3 <ul><li>SQ  Sequence 5028 BP; 1510 A; 1074 C; 835 G; 1609 T; 0 other; </li></ul><ul><li>gatcctccat atacaacggt atc...
GenBank/DDBJ  1/3 <ul><li>LOCUS  SCU49845  5028 bp  DNA  linear  PLN 21-JUN-1999 </li></ul><ul><li>DEFINITION  Saccharomyc...
GenBank/DDBJ 2/3 <ul><li>FEATURES  Location/Qualifiers </li></ul><ul><li>source  1..5028 </li></ul><ul><li>/organism=&quot...
GenBank/DDBJ 3/3 <ul><li>ORIGIN  </li></ul><ul><li>1 gatcctccat atacaacggt atctccacct caggtttaga tctcaacaac ggaaccattg </l...
FASTA >gi|5524211|gb|AAD44166.1| cytochrome b [Elephas maximus maximus] LCLYTHIGRNIYYGSYLYSETWNTGIMLLLITMATAFMGYVLPWGQMSFW...
 
DDBJ screenshot
 
 
 
UniProt <ul><li>asi nejúplnější databáze informací o proteinech </li></ul><ul><li>vychází z: </li></ul><ul><ul><li>Swiss-P...
UniProt
Komplexnější databáze <ul><li>pro vlastní vyhledávání sekvencí, data mining, porovnávání s vlastními sekvencemi etc. jsou ...
 
 
Reference Sequence Project <ul><li>databáze NCBI shromažďující tzv.  referenční sekvence </li></ul><ul><li>jedna sekvence ...
InterPro <ul><li>Integrated Resource of Protein Families </li></ul><ul><li>rozhraní pro vyhledávání (textové, podle sekven...
Expasy <ul><li>Ex pert  P rotein  A nalysis  Sy stem </li></ul><ul><li>server specializovaný na proteomiku </li></ul><ul><...
Expasy
Module 2: de novo  Analysis of Sequence <ul><li>analýza de novo získaných sekvencí </li></ul><ul><li>porovnávání získané s...
Používané nástroje <ul><li>BLAST – hledání podobností </li></ul><ul><li>PSI-BLAST (position specific iterative BLAST) </li...
B asic  L ocal  A lignment  S earch  T ool <ul><li>heuristické určení podobnosti mezi dvěma sekvencemi </li></ul><ul><li>o...
B asic  L ocal  A lignment  S earch  T ool <ul><li>blastn – nukleotidy </li></ul><ul><li>blastb – proteiny </li></ul><ul><...
PSI -BLAST <ul><li>P osition- S pecific  I terative BLAST </li></ul><ul><li>1. nalezení sekvencí podobných (evolučně příbu...
http://www.ncbi.nlm.nih.gov/blast/
BLAST
 
 
http://www.ncbi.nlm.nih.gov/gorf/
http://www.ncbi.nlm.nih.gov/spidey/ <ul><li>genom   vs.   cDNA </li></ul>
Clustal W
JalView
GeneDoc
Module 3: Genome Browsing <ul><li>Představení „genomových prohlížečů“ volně dostupných na webu </li></ul><ul><li>BioMart –...
Genome browsers – co nabízí? <ul><li>informace o struktuře a umístění genů </li></ul><ul><li>informace o okolí genů </li><...
Genome browsers <ul><li>Map Viewer </li></ul><ul><ul><li>www.ncbi.nlm.nih.gov/mapview </li></ul></ul><ul><li>UCSC Genome B...
+ dobrá provázanost s ostatními službami NCBI (PubMed)
+ přímočaré ovládání  + dostupnost i starších sestavení
+ databáze genů potvrzených cDNA klony plné délky
+ různé pohledy  + k dispozici i archiv (starší sestavení)  + snadné získávání dat  + „evidence“
VEGA –  Ve rtebrate  G enome  A nnotated
BioMart <ul><li>pouhé zveřejnění všech informací o genomu na webu není vše </li></ul><ul><li>informací je ohromné množství...
1 Co chceme prohledávát? (sestavení, organismus)
22 2
3
 
Module 4: Exploring Function and Disease <ul><li>zjištění možných funkcí genu (jeho produktu) </li></ul><ul><li>známé mend...
 
 
Exprese ve tkáních Podobné proteiny
 
Module 5: Sequence Variation <ul><li>SNP (single nucleotide polymorphisms) </li></ul><ul><ul><li>nejčastější </li></ul></u...
SNP Ensembl ->   Gene variation info
 
NCBI: dbSNP
Další zdroje <ul><li>SRS (Sequence Retrieval systém – Sanger, EBI...) </li></ul><ul><li>Glovar (www.glovar.org) – na stejn...
Module 6: Comparative Sequence Analysis <ul><li>Identifikace homologních genových sekvencí </li></ul><ul><li>Využití kompa...
Homologní geny <ul><li>ortologní geny </li></ul><ul><ul><li>geny u různých druhů, vznikly z původně jednoho genu u společn...
Nástroje <ul><li>využití různých nástrojů z předchozích modulů: </li></ul><ul><ul><li>Ensembl (Multicontig view, Synteny v...
Děkuji za pozornost
Upcoming SlideShare
Loading in...5
×

Zkušenosti z Opendoor Workshop „Working with Human Genome Sequence“

689

Published on

Seminář 11. dubna 2006 na Ústavu biologie a lékařské genetiky 2. LF UK a FN Motol

Published in: Technology
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total Views
689
On Slideshare
0
From Embeds
0
Number of Embeds
0
Actions
Shares
0
Downloads
19
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Zkušenosti z Opendoor Workshop „Working with Human Genome Sequence“

  1. 1. Zkušenosti z Opendoor Workshop „ Working with Human Genome Sequence “ Hinxton, Cambridge, UK 23.-25. ledna 2006 MUDr. Marek Turnovec Ústav biologie a lékařské genetiky 2. LF UK a FN Motol 11. dubna 2006
  2. 2. Hinxton Genome Campus
  3. 3. Working with Human Genome Sequence <ul><ul><li>Module 1: Sequence Formats and Retriaval </li></ul></ul><ul><ul><li>Module 2: de novo Analysis of Sequence </li></ul></ul><ul><ul><li>Module 3: Genome Browsing </li></ul></ul><ul><ul><li>Module 4: Exploring Function and Disease </li></ul></ul><ul><ul><li>Module 5: Sequence Variation </li></ul></ul><ul><ul><li>Module 6: Comparative Sequence Analysis </li></ul></ul>
  4. 4. Modul 1: Sequences Formats and Retrieval <ul><li>přehled o tom, jak jsou sekvence získávány </li></ul><ul><li>seznámení se s používanými formáty </li></ul><ul><li>představení různých dostupných databází </li></ul><ul><li>ukázka databází s dalšími souvisejícími informacemi </li></ul>
  5. 5. Přístup k sekvencím <ul><li>sekvence z laboratoří po celém světe jsou zasílány do veřejně přístupných databází </li></ul><ul><ul><li>EMBL (Evropa) </li></ul></ul><ul><ul><li>GeneBank (USA) </li></ul></ul><ul><ul><li>DDBJ (Japonsko) </li></ul></ul><ul><li>tyto databáze se vzájemně synchronizují (každý den) </li></ul>
  6. 6. Formát dat <ul><li>záznamy v databázích jako tzv. „ flatfiles “ </li></ul><ul><li>výhody „plain text“ formátu: </li></ul><ul><ul><li>snadné úpravy, kopírování a ukládání (stačí libovolný textový editor, v MS Windows stačí i „Poznámkový blok“) </li></ul></ul><ul><ul><li>snadný přenos mezi různými webovými aplikacemi (vyhledávání, alignment) stačí jen „cut & paste“ </li></ul></ul>
  7. 7. Rozdíly ve formátech EMBL a GenBank/DDBJ <ul><li>ve formátu GenBank/DDBJ jsou jednotlivé části označené celým slovem (KEYWORDS, AUTHOR, REFERENCES, FEATURES...) </li></ul><ul><li>formát EMBL namísto toho používá systém dvoupísmených zkratek </li></ul><ul><ul><li>jednotlivé části jsou od sebe odděleny tzv. „spacer“ řádky (XX) </li></ul></ul><ul><ul><li>jednodušší strojové zpracování </li></ul></ul>
  8. 8. Zkratky použité ve formátu EMBL <ul><li>ID – identification </li></ul><ul><li>AC – accession number </li></ul><ul><li>SV – sequence version </li></ul><ul><li>DT – date </li></ul><ul><li>DE – description </li></ul><ul><li>KW – keywords </li></ul><ul><li>OS – organism species </li></ul><ul><li>OC – organism classification </li></ul><ul><li>OG – organelle </li></ul><ul><li>RN – reference number </li></ul><ul><li>RC – reference comment </li></ul><ul><li>RP – reference position </li></ul><ul><li>RX – reference cross-reference </li></ul><ul><li>RG – reference group </li></ul><ul><li>RA – reference author </li></ul><ul><li>RT – reference title </li></ul><ul><li>RL – reference location </li></ul><ul><li>DR – database cross-reference </li></ul><ul><li>AH – third party annotation </li></ul><ul><li>AS – assembly information </li></ul><ul><li>CO – contig sequences (constructed seq.) </li></ul><ul><li>FH – feature header </li></ul><ul><li>FT – feature table </li></ul><ul><li>SQ – sequence header </li></ul><ul><li>CC – comments </li></ul><ul><li>XX – spacer </li></ul><ul><li>// - terminator </li></ul>
  9. 9. EMBL 1/3 <ul><li>ID SC49845 standard; genomic DNA; FUN; 5028 BP. </li></ul><ul><li>XX </li></ul><ul><li>AC U49845; </li></ul><ul><li>XX </li></ul><ul><li>SV U49845.1 </li></ul><ul><li>XX </li></ul><ul><li>DT 07-MAY-1996 (Rel. 47, Created) </li></ul><ul><li>DT 17-APR-2005 (Rel. 83, Last updated, Version 4) </li></ul><ul><li>XX </li></ul><ul><li>DE Saccharomyces cerevisiae TCP1-beta gene, partial cds; and Axl2p (AXL2) and </li></ul><ul><li>DE Rev7p (REV7) genes, complete cds. </li></ul><ul><li>XX </li></ul><ul><li>KW . </li></ul><ul><li>XX </li></ul><ul><li>OS Saccharomyces cerevisiae (baker's yeast) </li></ul><ul><li>OC Eukaryota; Fungi; Ascomycota; Saccharomycotina; Saccharomycetes; </li></ul><ul><li>OC Saccharomycetales; Saccharomycetaceae; Saccharomyces. </li></ul><ul><li>XX </li></ul><ul><li>RN [1] </li></ul><ul><li>RP 1-5028 </li></ul><ul><li>RX PUBMED; 7871890. </li></ul><ul><li>RA Torpey L.E., Gibbs P.E., Nelson J., Lawrence C.W.; </li></ul><ul><li>RT &quot;Cloning and sequence of REV7, a gene whose function is required for DNA </li></ul><ul><li>RT damage-induced mutagenesis in Saccharomyces cerevisiae&quot;; </li></ul><ul><li>RL Yeast 10(11):1503-1509(1994). </li></ul><ul><li>XX </li></ul><ul><li>RN [2] </li></ul><ul><li>RP 1-5028 </li></ul><ul><li>RX PUBMED; 8846915. </li></ul><ul><li>RA Roemer T., Madden K., Chang J., Snyder M.; </li></ul><ul><li>RT &quot;Selection of axial growth sites in yeast requires Axl2p, a novel plasma </li></ul><ul><li>RT membrane glycoprotein&quot;; </li></ul><ul><li>RL Genes Dev. 10(7):777-793(1996). </li></ul><ul><li>XX </li></ul><ul><li>RN [3] </li></ul><ul><li>RP 1-5028 </li></ul><ul><li>RA Roemer T.; </li></ul><ul><li>RT ; </li></ul><ul><li>RL Submitted (22-FEB-1996) to the EMBL/GenBank/DDBJ databases. </li></ul><ul><li>RL Terry Roemer, Biology, Yale University, New Haven, CT, USA </li></ul><ul><li>XX </li></ul><ul><li>FH Key Location/Qualifiers </li></ul><ul><li>FH </li></ul><ul><li>FT source 1..5028 </li></ul><ul><li>FT /chromosome=&quot;IX&quot; </li></ul><ul><li>FT /db_xref=&quot;taxon:4932&quot; </li></ul><ul><li>FT /mol_type=&quot;genomic DNA&quot; </li></ul><ul><li>FT /organism=&quot;Saccharomyces cerevisiae&quot; </li></ul><ul><li>FT /map=&quot;9&quot; </li></ul>
  10. 10. EMBL 2/3 <ul><li>FT CDS <1..206 </li></ul><ul><li>FT /codon_start=3 </li></ul><ul><li>FT /db_xref=&quot;GOA:P39076&quot; </li></ul><ul><li>FT /db_xref=&quot;HSSP:1A6D&quot; </li></ul><ul><li>FT /db_xref=&quot;UniProtKB/Swiss-Prot:P39076&quot; </li></ul><ul><li>FT /product=&quot;TCP1-beta&quot; </li></ul><ul><li>FT /protein_id=&quot;AAA98665&quot; </li></ul><ul><li>FT /translation=&quot;SSIYNGISTSGLDLNNGTIADMRQLGIVESYKLKRAVVSSASEAA </li></ul><ul><li>FT EVLLRVDNIIRARPRTANRQHM&quot; </li></ul><ul><li>FT CDS 687..3158 </li></ul><ul><li>FT /codon_start=1 </li></ul><ul><li>FT /db_xref=&quot;GOA:P38928&quot; </li></ul><ul><li>FT /db_xref=&quot;InterPro:IPR006644&quot; </li></ul><ul><li>FT /db_xref=&quot;InterPro:IPR008009&quot; </li></ul><ul><li>FT /db_xref=&quot;SGD:S000001402&quot; </li></ul><ul><li>FT /db_xref=&quot;UniProtKB/Swiss-Prot:P38928&quot; </li></ul><ul><li>FT /note=&quot;plasma membrane glycoprotein&quot; </li></ul><ul><li>FT /gene=&quot;AXL2&quot; </li></ul><ul><li>FT /product=&quot;Axl2p&quot; </li></ul><ul><li>FT /protein_id=&quot;AAA98666&quot; </li></ul><ul><li>FT /translation=&quot;MTQLQISLLLTATISLLHLVVATPYEAYPIGKQYPPVARVNESFT </li></ul><ul><li>FT FQISNDTYKSSVDKTAQITYNCFDLPSWLSFDSSSRTFSGEPSSDLLSDANTTLYFNVI </li></ul><ul><li>FT LEGTDSADSTSLNNTYQFVVTNRPSISLSSDFNLLALLKNYGYTNGKNALKLDPNEVFN </li></ul><ul><li>FT VTFDRSMFTNEESIVSYYGRSQLYNAPLPNWLFFDSGELKFTGTAPVINSAIAPETSYS </li></ul><ul><li>FT FVIIATDIEGFSAVEVEFELVIGAHQLTTSIQNSLIINVTDTGNVSYDLPLNYVYLDDD </li></ul><ul><li>FT PISSDKLGSINLLDAPDWVALDNATISGSVPDELLGKNSNPANFSVSIYDTYGDVIYFN </li></ul><ul><li>FT FEVVSTTDLFAISSLPNINATRGEWFSYYFLPSQFTDYVNTNVSLEFTNSSQDHDWVKF </li></ul><ul><li>FT QSSNLTLAGEVPKNFDKLSLGLKANQGSQSQELYFNIIGMDSKITHSNHSANATSTRSS </li></ul><ul><li>FT HHSTSTSSYTSSTYTAKISSTSAAATSSAPAALPAANKTSSHNKKAVAIACGVAIPLGV </li></ul><ul><li>FT ILVALICFLIFWRRRRENPDDENLPHAISGPDLNNPANKPNQENATPLNNPFDDDASSY </li></ul><ul><li>FT DDTSIARRLAALNTLKLDNHSATESDISSVDEKRDSLSGMNTYNDQFQSQSKEELLAKP </li></ul><ul><li>FT PVQPPESPFFDPQNRSSSVYMDSEPAVNKSWRYTGNLSPVSDIVRDSYGSQKTVDTEKL </li></ul><ul><li>FT FDLEAPEKEKRTSRDVTMSSLDPWNSNISPSPVRKSVTPSPYNVTKHRNRHLQNIQDSQ </li></ul><ul><li>FT SGKNGITPTTMSTSSSDDFVPVKDGENFCWVHSMEPDRRPSKKRLVDFSNKSNVNVGQV </li></ul><ul><li>FT KDIHGRIPEML&quot; </li></ul><ul><li>FT CDS complement(3300..4037) </li></ul><ul><li>FT /codon_start=1 </li></ul><ul><li>FT /db_xref=&quot;GOA:P38927&quot; </li></ul><ul><li>FT /db_xref=&quot;InterPro:IPR003511&quot; </li></ul><ul><li>FT /db_xref=&quot;SGD:S000001401&quot; </li></ul><ul><li>FT /db_xref=&quot;UniProtKB/Swiss-Prot:P38927&quot; </li></ul><ul><li>FT /gene=&quot;REV7&quot; </li></ul><ul><li>FT /product=&quot;Rev7p&quot; </li></ul><ul><li>FT /protein_id=&quot;AAA98667&quot; </li></ul><ul><li>FT /translation=&quot;MNRWVEKWLRVYLKCYINLILFYRNVYPPQSFDYTTYQSFNLPQF </li></ul><ul><li>FT VPINRHPALIDYIEELILDVLSKLTHVYRFSICIINKKNDLCIEKYVLDFSELQHVDKD </li></ul><ul><li>FT DQIITETEVFDEFRSSLNSLIMHLEKLPKVNDDTITFEAVINAIELELGHKLDRNRRVD </li></ul><ul><li>FT SLEEKAEIERDSNWVKCQEDENLPDNNGFQPPKIKLTSLVGSDVGPLIIHQFSEKLISG </li></ul><ul><li>FT DDKILNGVYSQYEEGESIFGSLF&quot; </li></ul><ul><li>XX </li></ul>
  11. 11. EMBL 3/3 <ul><li>SQ Sequence 5028 BP; 1510 A; 1074 C; 835 G; 1609 T; 0 other; </li></ul><ul><li>gatcctccat atacaacggt atctccacct caggtttaga tctcaacaac ggaaccattg 60 </li></ul><ul><li>ccgacatgag acagttaggt atcgtcgaga gttacaagct aaaacgagca gtagtcagct 120 </li></ul><ul><li>ctgcatctga agccgctgaa gttctactaa gggtggataa catcatccgt gcaagaccaa 180 </li></ul><ul><li>gaaccgccaa tagacaacat atgtaacata tttaggatat acctcgaaaa taataaaccg 240 </li></ul><ul><li>ccacactgtc attattataa ttagaaacag aacgcaaaaa ttatccacta tataattcaa 300 </li></ul><ul><li>agacgcgaaa aaaaaagaac aacgcgtcat agaacttttg gcaattcgcg tcacaaataa 360 </li></ul><ul><li>attttggcaa cttatgtttc ctcttcgagc agtactcgag ccctgtctca agaatgtaat 420 </li></ul><ul><li>aatacccatc gtaggtatgg ttaaagatag catctccaca acctcaaagc tccttgccga 480 </li></ul><ul><li>gagtcgccct cctttgtcga gtaattttca cttttcatat gagaacttat tttcttattc 540 </li></ul><ul><li>tttactctca catcctgtag tgattgacac tgcaacagcc accatcacta gaagaacaga 600 </li></ul><ul><li>acaattactt aatagaaaaa ttatatcttc ctcgaaacga tttcctgctt ccaacatcta 660 </li></ul><ul><li>cgtatatcaa gaagcattca cttaccatga cacagcttca gatttcatta ttgctgacag 720 </li></ul><ul><li>ctactatatc actactccat ctagtagtgg ccacgcccta tgaggcatat cctatcggaa 780 </li></ul><ul><li>aacaataccc cccagtggca agagtcaatg aatcgtttac atttcaaatt tccaatgata 840 </li></ul><ul><li>cctataaatc gtctgtagac aagacagctc aaataacata caattgcttc gacttaccga 900 </li></ul><ul><li>gctggctttc gtttgactct agttctagaa cgttctcagg tgaaccttct tctgacttac 960 </li></ul><ul><li>tatctgatgc gaacaccacg ttgtatttca atgtaatact cgagggtacg gactctgccg 1020 </li></ul><ul><li>acagcacgtc tttgaacaat acataccaat ttgttgttac aaaccgtcca tccatctcgc 1080 </li></ul><ul><li>tatcgtcaga tttcaatcta ttggcgttgt taaaaaacta tggttatact aacggcaaaa 1140 </li></ul><ul><li>acgctctgaa actagatcct aatgaagtct tcaacgtgac ttttgaccgt tcaatgttca 1200 </li></ul><ul><li>ctaacgaaga atccattgtg tcgtattacg gacgttctca gttgtataat gcgccgttac 1260 </li></ul><ul><li>ccaattggct gttcttcgat tctggcgagt tgaagtttac tgggacggca ccggtgataa 1320 </li></ul><ul><li>actcggcgat tgctccagaa acaagctaca gttttgtcat catcgctaca gacattgaag 1380 </li></ul><ul><li>gattttctgc cgttgaggta gaattcgaat tagtcatcgg ggctcaccag ttaactacct 1440 </li></ul><ul><li>ctattcaaaa tagtttgata atcaacgtta ctgacacagg taacgtttca tatgacttac 1500 </li></ul><ul><li>ctctaaacta tgtttatctc gatgacgatc ctatttcttc tgataaattg ggttctataa 1560 </li></ul><ul><li>acttattgga tgctccagac tgggtggcat tagataatgc taccatttcc gggtctgtcc 1620 </li></ul><ul><li>cagatgaatt actcggtaag aactccaatc ctgccaattt ttctgtgtcc atttatgata 1680 </li></ul><ul><li>cttatggtga tgtgatttat ttcaacttcg aagttgtctc cacaacggat ttgtttgcca 1740 </li></ul><ul><li>ttagttctct tcccaatatt aacgctacaa ggggtgaatg gttctcctac tattttttgc 1800 </li></ul><ul><li>cttctcagtt tacagactac gtgaatacaa acgtttcatt agagtttact aattcaagcc 1860 </li></ul><ul><li>aagaccatga ctgggtgaaa ttccaatcat ctaatttaac attagctgga gaagtgccca 1920 </li></ul><ul><li>agaatttcga caagctttca ttaggtttga aagcgaacca aggttcacaa tctcaagagc 1980 </li></ul><ul><li>tatattttaa catcattggc atggattcaa agataactca ctcaaaccac agtgcgaatg 2040 </li></ul><ul><li>caacgtccac aagaagttct caccactcca cctcaacaag ttcttacaca tcttctactt 2100 </li></ul><ul><li>acactgcaaa aatttcttct acctccgctg ctgctacttc ttctgctcca gcagcgctgc 2160 </li></ul><ul><li>cagcagccaa taaaacttca tctcacaata aaaaagcagt agcaattgcg tgcggtgttg 2220 </li></ul><ul><li>ctatcccatt aggcgttatc ctagtagctc tcatttgctt cctaatattc tggagacgca 2280 </li></ul><ul><li>gaagggaaaa tccagacgat gaaaacttac cgcatgctat tagtggacct gatttgaata 2340 </li></ul><ul><li>atcctgcaaa taaaccaaat caagaaaacg ctacaccttt gaacaacccc tttgatgatg 2400 </li></ul><ul><li>atgcttcctc gtacgatgat acttcaatag caagaagatt ggctgctttg aacactttga 2460 </li></ul><ul><li>aattggataa ccactctgcc actgaatctg atatttccag cgtggatgaa aagagagatt 2520 </li></ul><ul><li>ctctatcagg tatgaataca tacaatgatc agttccaatc ccaaagtaaa gaagaattat 2580 </li></ul><ul><li>tagcaaaacc cccagtacag cctccagaga gcccgttctt tgacccacag aataggtctt 2640 </li></ul><ul><li>cttctgtgta tatggatagt gaaccagcag taaataaatc ctggcgatat actggcaacc 2700 </li></ul><ul><li>... </li></ul><ul><li>atttgctcag agttcaaatc ggcctctttc agtttatcca ttgcttcctt cagtttggct 4740 </li></ul><ul><li>tcactgtctt ctagctgttg ttctagatcc tggtttttct tggtgtagtt ctcattatta 4800 </li></ul><ul><li>gatctcaagt tattggagtc ttcagccaat tgctttgtat cagacaattg actctctaac 4860 </li></ul><ul><li>ttctccactt cactgtcgag ttgctcgttt ttagcggaca aagatttaat ctcgttttct 4920 </li></ul><ul><li>ttttcagtgt tagattgctc taattctttg agctgttctc tcagctcctc atatttttct 4980 </li></ul><ul><li>tgccatgact cagattctaa ttttaagcta ttcaatttct ctttgatc 5028 </li></ul><ul><li>// </li></ul>
  12. 12. GenBank/DDBJ 1/3 <ul><li>LOCUS SCU49845 5028 bp DNA linear PLN 21-JUN-1999 </li></ul><ul><li>DEFINITION Saccharomyces cerevisiae TCP1-beta gene, partial cds; and Axl2p </li></ul><ul><li>(AXL2) and Rev7p (REV7) genes, complete cds. </li></ul><ul><li>ACCESSION U49845 </li></ul><ul><li>VERSION U49845.1 GI:1293613 </li></ul><ul><li>KEYWORDS . </li></ul><ul><li>SOURCE Saccharomyces cerevisiae (baker's yeast) </li></ul><ul><li>ORGANISM Saccharomyces cerevisiae </li></ul><ul><li>Eukaryota; Fungi; Ascomycota; Saccharomycotina; Saccharomycetes; </li></ul><ul><li>Saccharomycetales; Saccharomycetaceae; Saccharomyces. </li></ul><ul><li>REFERENCE 1 (bases 1 to 5028) </li></ul><ul><li>AUTHORS Torpey,L.E., Gibbs,P.E., Nelson,J. and Lawrence,C.W. </li></ul><ul><li>TITLE Cloning and sequence of REV7, a gene whose function is required for </li></ul><ul><li>DNA damage-induced mutagenesis in Saccharomyces cerevisiae </li></ul><ul><li>JOURNAL Yeast 10 (11), 1503-1509 (1994) </li></ul><ul><li>PUBMED 7871890 </li></ul><ul><li>REFERENCE 2 (bases 1 to 5028) </li></ul><ul><li>AUTHORS Roemer,T., Madden,K., Chang,J. and Snyder,M. </li></ul><ul><li>TITLE Selection of axial growth sites in yeast requires Axl2p, a novel </li></ul><ul><li>plasma membrane glycoprotein </li></ul><ul><li>JOURNAL Genes Dev. 10 (7), 777-793 (1996) </li></ul><ul><li>PUBMED 8846915 </li></ul><ul><li>REFERENCE 3 (bases 1 to 5028) </li></ul><ul><li>AUTHORS Roemer,T. </li></ul><ul><li>TITLE Direct Submission </li></ul><ul><li>JOURNAL Submitted (22-FEB-1996) Terry Roemer, Biology, Yale University, New </li></ul><ul><li>Haven, CT, USA </li></ul>
  13. 13. GenBank/DDBJ 2/3 <ul><li>FEATURES Location/Qualifiers </li></ul><ul><li>source 1..5028 </li></ul><ul><li>/organism=&quot;Saccharomyces cerevisiae&quot; </li></ul><ul><li>/mol_type=&quot;genomic DNA&quot; </li></ul><ul><li>/db_xref=&quot;taxon:4932&quot; </li></ul><ul><li>/chromosome=&quot;IX&quot; </li></ul><ul><li>/map=&quot;9&quot; </li></ul><ul><li>CDS <1..206 </li></ul><ul><li>/codon_start=3 </li></ul><ul><li>/product=&quot;TCP1-beta&quot; </li></ul><ul><li>/protein_id=&quot;AAA98665.1&quot; </li></ul><ul><li>/db_xref=&quot;GI:1293614&quot; </li></ul><ul><li>/translation=&quot;SSIYNGISTSGLDLNNGTIADMRQLGIVESYKLKRAVVSSASEA </li></ul><ul><li>AEVLLRVDNIIRARPRTANRQHM&quot; </li></ul><ul><li>gene 687..3158 </li></ul><ul><li>/gene=&quot;AXL2&quot; </li></ul><ul><li>CDS 687..3158 </li></ul><ul><li>/gene=&quot;AXL2&quot; </li></ul><ul><li>/note=&quot;plasma membrane glycoprotein&quot; </li></ul><ul><li>/codon_start=1 </li></ul><ul><li>/product=&quot;Axl2p&quot; </li></ul><ul><li>/protein_id=&quot;AAA98666.1&quot; </li></ul><ul><li>/db_xref=&quot;GI:1293615&quot; </li></ul><ul><li>/translation=&quot;MTQLQISLLLTATISLLHLVVATPYEAYPIGKQYPPVARVNESF </li></ul><ul><li>TFQISNDTYKSSVDKTAQITYNCFDLPSWLSFDSSSRTFSGEPSSDLLSDANTTLYFN </li></ul><ul><li>VILEGTDSADSTSLNNTYQFVVTNRPSISLSSDFNLLALLKNYGYTNGKNALKLDPNE </li></ul><ul><li>VFNVTFDRSMFTNEESIVSYYGRSQLYNAPLPNWLFFDSGELKFTGTAPVINSAIAPE </li></ul><ul><li>TSYSFVIIATDIEGFSAVEVEFELVIGAHQLTTSIQNSLIINVTDTGNVSYDLPLNYV </li></ul><ul><li>YLDDDPISSDKLGSINLLDAPDWVALDNATISGSVPDELLGKNSNPANFSVSIYDTYG </li></ul><ul><li>DVIYFNFEVVSTTDLFAISSLPNINATRGEWFSYYFLPSQFTDYVNTNVSLEFTNSSQ </li></ul><ul><li>DHDWVKFQSSNLTLAGEVPKNFDKLSLGLKANQGSQSQELYFNIIGMDSKITHSNHSA </li></ul><ul><li>NATSTRSSHHSTSTSSYTSSTYTAKISSTSAAATSSAPAALPAANKTSSHNKKAVAIA </li></ul><ul><li>CGVAIPLGVILVALICFLIFWRRRRENPDDENLPHAISGPDLNNPANKPNQENATPLN </li></ul><ul><li>NPFDDDASSYDDTSIARRLAALNTLKLDNHSATESDISSVDEKRDSLSGMNTYNDQFQ </li></ul><ul><li>SQSKEELLAKPPVQPPESPFFDPQNRSSSVYMDSEPAVNKSWRYTGNLSPVSDIVRDS </li></ul><ul><li>YGSQKTVDTEKLFDLEAPEKEKRTSRDVTMSSLDPWNSNISPSPVRKSVTPSPYNVTK </li></ul><ul><li>HRNRHLQNIQDSQSGKNGITPTTMSTSSSDDFVPVKDGENFCWVHSMEPDRRPSKKRL </li></ul><ul><li>VDFSNKSNVNVGQVKDIHGRIPEML&quot; </li></ul><ul><li>gene complement(3300..4037) </li></ul><ul><li>/gene=&quot;REV7&quot; </li></ul><ul><li>CDS complement(3300..4037) </li></ul><ul><li>/gene=&quot;REV7&quot; </li></ul><ul><li>/codon_start=1 </li></ul><ul><li>/product=&quot;Rev7p&quot; </li></ul><ul><li>/protein_id=&quot;AAA98667.1&quot; </li></ul><ul><li>/db_xref=&quot;GI:1293616&quot; </li></ul><ul><li>/translation=&quot;MNRWVEKWLRVYLKCYINLILFYRNVYPPQSFDYTTYQSFNLPQ </li></ul><ul><li>FVPINRHPALIDYIEELILDVLSKLTHVYRFSICIINKKNDLCIEKYVLDFSELQHVD </li></ul><ul><li>KDDQIITETEVFDEFRSSLNSLIMHLEKLPKVNDDTITFEAVINAIELELGHKLDRNR </li></ul><ul><li>RVDSLEEKAEIERDSNWVKCQEDENLPDNNGFQPPKIKLTSLVGSDVGPLIIHQFSEK </li></ul><ul><li>LISGDDKILNGVYSQYEEGESIFGSLF&quot; </li></ul>
  14. 14. GenBank/DDBJ 3/3 <ul><li>ORIGIN </li></ul><ul><li>1 gatcctccat atacaacggt atctccacct caggtttaga tctcaacaac ggaaccattg </li></ul><ul><li>61 ccgacatgag acagttaggt atcgtcgaga gttacaagct aaaacgagca gtagtcagct </li></ul><ul><li>121 ctgcatctga agccgctgaa gttctactaa gggtggataa catcatccgt gcaagaccaa </li></ul><ul><li>181 gaaccgccaa tagacaacat atgtaacata tttaggatat acctcgaaaa taataaaccg </li></ul><ul><li>241 ccacactgtc attattataa ttagaaacag aacgcaaaaa ttatccacta tataattcaa </li></ul><ul><li>301 agacgcgaaa aaaaaagaac aacgcgtcat agaacttttg gcaattcgcg tcacaaataa </li></ul><ul><li>361 attttggcaa cttatgtttc ctcttcgagc agtactcgag ccctgtctca agaatgtaat </li></ul><ul><li>421 aatacccatc gtaggtatgg ttaaagatag catctccaca acctcaaagc tccttgccga </li></ul><ul><li>481 gagtcgccct cctttgtcga gtaattttca cttttcatat gagaacttat tttcttattc </li></ul><ul><li>541 tttactctca catcctgtag tgattgacac tgcaacagcc accatcacta gaagaacaga </li></ul><ul><li>601 acaattactt aatagaaaaa ttatatcttc ctcgaaacga tttcctgctt ccaacatcta </li></ul><ul><li>661 cgtatatcaa gaagcattca cttaccatga cacagcttca gatttcatta ttgctgacag </li></ul><ul><li>721 ctactatatc actactccat ctagtagtgg ccacgcccta tgaggcatat cctatcggaa </li></ul><ul><li>781 aacaataccc cccagtggca agagtcaatg aatcgtttac atttcaaatt tccaatgata </li></ul><ul><li>841 cctataaatc gtctgtagac aagacagctc aaataacata caattgcttc gacttaccga </li></ul><ul><li>901 gctggctttc gtttgactct agttctagaa cgttctcagg tgaaccttct tctgacttac </li></ul><ul><li>961 tatctgatgc gaacaccacg ttgtatttca atgtaatact cgagggtacg gactctgccg </li></ul><ul><li>1021 acagcacgtc tttgaacaat acataccaat ttgttgttac aaaccgtcca tccatctcgc </li></ul><ul><li>1081 tatcgtcaga tttcaatcta ttggcgttgt taaaaaacta tggttatact aacggcaaaa </li></ul><ul><li>1141 acgctctgaa actagatcct aatgaagtct tcaacgtgac ttttgaccgt tcaatgttca </li></ul><ul><li>1201 ctaacgaaga atccattgtg tcgtattacg gacgttctca gttgtataat gcgccgttac </li></ul><ul><li>1261 ccaattggct gttcttcgat tctggcgagt tgaagtttac tgggacggca ccggtgataa </li></ul><ul><li>1321 actcggcgat tgctccagaa acaagctaca gttttgtcat catcgctaca gacattgaag </li></ul><ul><li>1381 gattttctgc cgttgaggta gaattcgaat tagtcatcgg ggctcaccag ttaactacct </li></ul><ul><li>1441 ctattcaaaa tagtttgata atcaacgtta ctgacacagg taacgtttca tatgacttac </li></ul><ul><li>1501 ctctaaacta tgtttatctc gatgacgatc ctatttcttc tgataaattg ggttctataa </li></ul><ul><li>1561 acttattgga tgctccagac tgggtggcat tagataatgc taccatttcc gggtctgtcc </li></ul><ul><li>1621 cagatgaatt actcggtaag aactccaatc ctgccaattt ttctgtgtcc atttatgata </li></ul><ul><li>1681 cttatggtga tgtgatttat ttcaacttcg aagttgtctc cacaacggat ttgtttgcca </li></ul><ul><li>1741 ttagttctct tcccaatatt aacgctacaa ggggtgaatg gttctcctac tattttttgc </li></ul><ul><li>1801 cttctcagtt tacagactac gtgaatacaa acgtttcatt agagtttact aattcaagcc </li></ul><ul><li>1861 aagaccatga ctgggtgaaa ttccaatcat ctaatttaac attagctgga gaagtgccca </li></ul><ul><li>1921 agaatttcga caagctttca ttaggtttga aagcgaacca aggttcacaa tctcaagagc </li></ul><ul><li>1981 tatattttaa catcattggc atggattcaa agataactca ctcaaaccac agtgcgaatg </li></ul><ul><li>... </li></ul><ul><li>4261 ctgtttatgt ttctacgtac ttttgattta tagcaagggg aaaagaaata catactattt </li></ul><ul><li>4321 tttggtaaag gtgaaagcat aatgtaaaag ctagaataaa atggacgaaa taaagagagg </li></ul><ul><li>4381 cttagttcat cttttttcca aaaagcaccc aatgataata actaaaatga aaaggatttg </li></ul><ul><li>4441 ccatctgtca gcaacatcag ttgtgtgagc aataataaaa tcatcacctc cgttgccttt </li></ul><ul><li>4501 agcgcgtttg tcgtttgtat cttccgtaat tttagtctta tcaatgggaa tcataaattt </li></ul><ul><li>4561 tccaatgaat tagcaatttc gtccaattct ttttgagctt cttcatattt gctttggaat </li></ul><ul><li>4621 tcttcgcact tcttttccca ttcatctctt tcttcttcca aagcaacgat ccttctaccc </li></ul><ul><li>4681 atttgctcag agttcaaatc ggcctctttc agtttatcca ttgcttcctt cagtttggct </li></ul><ul><li>4741 tcactgtctt ctagctgttg ttctagatcc tggtttttct tggtgtagtt ctcattatta </li></ul><ul><li>4801 gatctcaagt tattggagtc ttcagccaat tgctttgtat cagacaattg actctctaac </li></ul><ul><li>4861 ttctccactt cactgtcgag ttgctcgttt ttagcggaca aagatttaat ctcgttttct </li></ul><ul><li>4921 ttttcagtgt tagattgctc taattctttg agctgttctc tcagctcctc atatttttct </li></ul><ul><li>4981 tgccatgact cagattctaa ttttaagcta ttcaatttct ctttgatc </li></ul><ul><li>// </li></ul>
  15. 15. FASTA >gi|5524211|gb|AAD44166.1| cytochrome b [Elephas maximus maximus] LCLYTHIGRNIYYGSYLYSETWNTGIMLLLITMATAFMGYVLPWGQMSFWGATVITNLFSAIPYIGTNLV EWIWGGFSVDKATLNRFFAFHFILPFTMVALAGVHLTFLHETGSNNPLGLTSDSDKIPFHPYYTIKDFLG LLILILLLLLLALLSPDMLGDPDNHMPADPLNTPLHIKPEWYFLFAYAILRSVPNKLGGVLALFLSIVIL GLMPFLHTSKHRSMMLRPLSQALFWTLTMDLLTLTWIGSQPVEYPYTIIGQMASILYFSIILAFLPIAGX IENY >embl|AA961746|AA961746 or60c12.s1 NCI_CGAP_GC3 Homo sapiens cDNA clone IMAGE:1600246 3' similar to gb:M17885 60S ACIDIC RIBOSOMAL PROTEIN P0 (HUMAN);, mRNA sequence. ... actttttaaagaagtaagcctttatttccttgttttgcaaataaaactggctaagttggt tgctttttggtgattagtcaaagagaccaaatcccatatcctcgtccgactcctccgact cttccttggcttcaaccttagctggggctgcagcagcacgaggagcagctgtggtggcag cagcataggggcagcagcacaaaggcagatggatcagccaagaaggccttgaccttttca gcaagtgggaaggtgtaatccgtctccacagacaaggccaggactcgtttgtacccgttg atgatagaatggggtactgatgcaacagttgggtagccaatctgcagacagacactggca acattgcggacaccctccaggaagcgagaatgcagagtttcctctgtgatatcaagcact tcagggttgtagatgctgccattgtcgaacacctgctggatgaccagcccaaaggagaag ggggagatgttgagcatgttcagcagcgtggctttcgctggctccactttgtctccagtc ttgatcagctgcacatcactcaggatttcaatggtgcccttggagattttagtggtgata cctaaagctggaaaaaggaggtcttctcgggcccgagaccagtgttctgggctggcacag tgacttcacat popis sekvence
  16. 17. DDBJ screenshot
  17. 21. UniProt <ul><li>asi nejúplnější databáze informací o proteinech </li></ul><ul><li>vychází z: </li></ul><ul><ul><li>Swiss-Prot </li></ul></ul><ul><ul><ul><li>manuálně anotované informace o proteinech </li></ul></ul></ul><ul><ul><li>TrEMBL </li></ul></ul><ul><ul><ul><li>strojové anotace všech kódujících sekvencí v EMBL </li></ul></ul></ul><ul><ul><li>PIR </li></ul></ul><ul><ul><ul><li>Protein Information Resource </li></ul></ul></ul><ul><li>sekvence, odkazy do jiných databází, etc. </li></ul>
  18. 22. UniProt
  19. 23. Komplexnější databáze <ul><li>pro vlastní vyhledávání sekvencí, data mining, porovnávání s vlastními sekvencemi etc. jsou často vhodnější komplexnější systémy, např.: </li></ul><ul><ul><li>The Sequence Retrievel System </li></ul></ul><ul><ul><ul><li>projekt Sanger Institute, European Bioinformatics Institute (EBI) a DDBJ </li></ul></ul></ul><ul><ul><li>Entrez </li></ul></ul><ul><ul><ul><li>projekt National Center for Biotechnology Information (NCBI) při National Library of Medicine (NLM) a National Institut of Health v USA </li></ul></ul></ul>
  20. 26. Reference Sequence Project <ul><li>databáze NCBI shromažďující tzv. referenční sekvence </li></ul><ul><li>jedna sekvence = jedna molekula (DNA, mRNA, protein...) </li></ul><ul><li>obvykle založeno na sekvenci z GenBank </li></ul><ul><li>na rozdíl od GenBank nejde o primární data, ale o syntézu různých více informací </li></ul><ul><li>analogie k „review“ článkům </li></ul>
  21. 27. InterPro <ul><li>Integrated Resource of Protein Families </li></ul><ul><li>rozhraní pro vyhledávání (textové, podle sekvencí) v nejrůznějších dostupných proteinových databázích </li></ul><ul><ul><li>Superfamily, PIR SuperFamily, UniProt , PROSITE, Pfam, PRINTS, ProDom, SMART, TIGRFAMs, SCOP, CATH, MSD </li></ul></ul>
  22. 28. Expasy <ul><li>Ex pert P rotein A nalysis Sy stem </li></ul><ul><li>server specializovaný na proteomiku </li></ul><ul><li>odkazy na nejrůznější další zdroje (databáze, metabolické dráhy) a nástroje (alignment, fylogenetické analýzy, predikce, BLAST etc.) </li></ul>
  23. 29. Expasy
  24. 30. Module 2: de novo Analysis of Sequence <ul><li>analýza de novo získaných sekvencí </li></ul><ul><li>porovnávání získané sekvence s obsahem genomových databází </li></ul><ul><li>„alignment“ a prezentace výsledků </li></ul>
  25. 31. Používané nástroje <ul><li>BLAST – hledání podobností </li></ul><ul><li>PSI-BLAST (position specific iterative BLAST) </li></ul><ul><li>ORF Finder – vyhledávání čtecích rámců </li></ul><ul><li>SPIDEY – srovnání cDNA a genomové DNA </li></ul><ul><li>CLUSTALW – alignment podobných sekvencí </li></ul><ul><li>JALVIEW, GENEDOC – zobrazení výsledků alignmentu </li></ul>
  26. 32. B asic L ocal A lignment S earch T ool <ul><li>heuristické určení podobnosti mezi dvěma sekvencemi </li></ul><ul><li>obvykle jedna kratší „target sequence“ a nějaká větší databáze </li></ul><ul><li>podobné Smith-Watermanově algoritmu, ale optimalizováno na rychlost (asi 50× rychlejší) </li></ul><ul><ul><li>Altschul, SF, W Gish, W Miller, EW Myers, and DJ Lipman. Basic local alignment search tool. J Mol Biol 215(3):403-10, 1990. </li></ul></ul>
  27. 33. B asic L ocal A lignment S earch T ool <ul><li>blastn – nukleotidy </li></ul><ul><li>blastb – proteiny </li></ul><ul><li>PSI-BLAST – příbuzné proteiny </li></ul><ul><li>blastx – přeložené nukleotidy proti databázi proteinů </li></ul><ul><li>blastn – přeložené nukleotidy proti přeložené databázi nukleotidů </li></ul><ul><li>Megablast – více vstupních sekvencí, rychlejší </li></ul>
  28. 34. PSI -BLAST <ul><li>P osition- S pecific I terative BLAST </li></ul><ul><li>1. nalezení sekvencí podobných (evolučně příbuzných) proteinů </li></ul><ul><li>2. „zprůměrování“ </li></ul><ul><li>3. hledání proteinů podobných tomuto „průměru“ („vzdálenější příbuzní“) </li></ul><ul><li>další iterace </li></ul>
  29. 35. http://www.ncbi.nlm.nih.gov/blast/
  30. 36. BLAST
  31. 39. http://www.ncbi.nlm.nih.gov/gorf/
  32. 40. http://www.ncbi.nlm.nih.gov/spidey/ <ul><li>genom vs. cDNA </li></ul>
  33. 41. Clustal W
  34. 42. JalView
  35. 43. GeneDoc
  36. 44. Module 3: Genome Browsing <ul><li>Představení „genomových prohlížečů“ volně dostupných na webu </li></ul><ul><li>BioMart – nástroj pro datamining </li></ul>
  37. 45. Genome browsers – co nabízí? <ul><li>informace o struktuře a umístění genů </li></ul><ul><li>informace o okolí genů </li></ul><ul><li>mapy jednotlivých oblastí chromosomů </li></ul><ul><li>porovnávání genomů různých organismů </li></ul><ul><li>vyhledávání a získávání sekvencí </li></ul><ul><li>odkazy na spoustu další zdrojů (funkce genu, transkripty...) </li></ul>
  38. 46. Genome browsers <ul><li>Map Viewer </li></ul><ul><ul><li>www.ncbi.nlm.nih.gov/mapview </li></ul></ul><ul><li>UCSC Genome Browser </li></ul><ul><ul><li>genome.ucsc.edu </li></ul></ul><ul><li>G-integra Genome Browser </li></ul><ul><ul><li>www.h-invitational.jp </li></ul></ul><ul><li>Ensembl </li></ul><ul><ul><li>www.ensembl.org </li></ul></ul>
  39. 47. + dobrá provázanost s ostatními službami NCBI (PubMed)
  40. 48. + přímočaré ovládání + dostupnost i starších sestavení
  41. 49. + databáze genů potvrzených cDNA klony plné délky
  42. 50. + různé pohledy + k dispozici i archiv (starší sestavení) + snadné získávání dat + „evidence“
  43. 51. VEGA – Ve rtebrate G enome A nnotated
  44. 52. BioMart <ul><li>pouhé zveřejnění všech informací o genomu na webu není vše </li></ul><ul><li>informací je ohromné množství – nutnost nástrojů pro efektivní získávání jen těch dat, která nás zajímají </li></ul><ul><li>BioMart je právě jedním z těchto nástrojů </li></ul><ul><li>jednoduché a přehledné uživatelské rozhraní </li></ul>
  45. 53. 1 Co chceme prohledávát? (sestavení, organismus)
  46. 54. 22 2
  47. 55. 3
  48. 57. Module 4: Exploring Function and Disease <ul><li>zjištění možných funkcí genu (jeho produktu) </li></ul><ul><li>známé mendelovsky dědičné choroby asociované s genem </li></ul><ul><li>protienové domény a ostatní proteiny se stejnými doménami </li></ul><ul><li>struktura proteinu </li></ul>
  49. 60. Exprese ve tkáních Podobné proteiny
  50. 62. Module 5: Sequence Variation <ul><li>SNP (single nucleotide polymorphisms) </li></ul><ul><ul><li>nejčastější </li></ul></ul><ul><ul><li>frekvence > 1% (pokud méně – mutace; cave CFTR: 2%) </li></ul></ul><ul><ul><li>SNP u dvou lidských genomů: každých asi 1000 bp </li></ul></ul><ul><li>INDEL (inserce – delece) </li></ul><ul><ul><li>VNTR (variable number tandem repeats) </li></ul></ul><ul><ul><li>STR (simple tandem repeats – mikrosatelity – <6bp) </li></ul></ul>
  51. 63. SNP Ensembl -> Gene variation info
  52. 65. NCBI: dbSNP
  53. 66. Další zdroje <ul><li>SRS (Sequence Retrieval systém – Sanger, EBI...) </li></ul><ul><li>Glovar (www.glovar.org) – na stejném engine jako Ensembl </li></ul><ul><li>JSNP (http://snp.ims.u-tokyo.ac.jp/) </li></ul><ul><li>HGVBase (http://hgvbase.cgb.ki.se/) </li></ul><ul><li>HapMap (www.hapmap.org) </li></ul><ul><li>... </li></ul>
  54. 67. Module 6: Comparative Sequence Analysis <ul><li>Identifikace homologních genových sekvencí </li></ul><ul><li>Využití komparativní genomiky k určení evolučne konzervovaných oblastí </li></ul>
  55. 68. Homologní geny <ul><li>ortologní geny </li></ul><ul><ul><li>geny u různých druhů, vznikly z původně jednoho genu u společného předka </li></ul></ul><ul><ul><li>obvykle stejná funkce </li></ul></ul><ul><li>paralogní geny </li></ul><ul><ul><li>gen prošel duplikací, na kopii pak nemusí být takový tlak pro zachování funkce, další kopie si mohly „jít svou vlastní cestou“ </li></ul></ul>
  56. 69. Nástroje <ul><li>využití různých nástrojů z předchozích modulů: </li></ul><ul><ul><li>Ensembl (Multicontig view, Synteny view) </li></ul></ul><ul><ul><li>NCBI – BLAST </li></ul></ul><ul><ul><li>UCSC Genome Browser </li></ul></ul>
  57. 70. Děkuji za pozornost

×