BIOL335: How to annotate a genome

Genome annotation
Paul Gardner
March 3, 2015
Paul Gardner Genome annotation

Medical genomics
Vicky Cameron & Anna Pilbrow at Otago are
identifying genetic variation and genes associated
with an increased risk of heart disease.
Mike Stratton at the Sanger Institute is hunting
for genetic variation that is associated with an
increased risk of cancer.
Rob Knight at UC Boulder is sequencing the
microbes that live on us. Finding associations
between our health and microbial communities.
See Rob’s TEDTalk.

Agricultural genomics
Graeme Attwood at AgResearch is trying to stop
cows & sheep from emitting greenhouse gases by
studying their gut microbes. He has sequenced
two methanogenic Archaeal genomes of
Methanobrevibacter sp.
Honour McCann at Massey University is trying
to determine how Pseudomonas syringae pv.
actinidiae (PSA) is killing kiwifruit.
Rebecca Ganley at SCION is investigating how
Phytophthora Taxon Agathis (PTA) is causing
kauri die-back disease and killing kauri trees.

Academic interest genomics
Tom Gilbert at the University of Copenhagen is
sequencing bird and giant squid genomes.
Elizabeth Murchison is sequencing tasmanian
devils (and their transmissible cancers). See
Liz’s TEDTalk.
Neil Gemmel at Otago University is sequencing
the tuatara genome.

Annotate me!
TTACAGAGTACACAACATCCATGAAACGCATTAGCACCACCATTACCACCACCATCACCATTACCACAGGTAACGGTGCGGGCTGACGCGTACAGGAAA
CACAGAAAAAAGCCCGCACCTGACAGTGCGGGCTTTTTTTTTCGACCAAAGGTAACGAGGTAACAACCATGCGAGTGTTGAAGTTCGGCGGTACATCAG
TGGCAAATGCAGAACGTTTTCTGCGTGTTGCCGATATTCTGGAAAGCAATGCCAGGCAGGGGCAGGTGGCCACCGTCCTCTCTGCCCCCGCCAAAATCA
CCAACCACCTGGTGGCGATGATTGAAAAAACCATTAGCGGCCAGGATGCTTTACCCAATATCAGCGATGCCGAACGTATTTTTGCCGAACTTTTGACGG
GACTCGCCGCCGCCCAGCCGGGGTTCCCGCTGGCGCAATTGAAAACTTTCGTCGATCAGGAATTTGCCCAAATAAAACATGTCCTGCATGGCATTAGTT
TGTTGGGGCAGTGCCCGGATAGCATCAACGCTGCGCTGATTTGCCGTGGCGAGAAAATGTCGATCGCCATTATGGCCGGCGTATTAGAAGCGCGCGGTC
ACAACGTTACTGTTATCGATCCGGTCGAAAAACTGCTGGCAGTGGGGCATTACCTCGAATCTACCGTCGATATTGCTGAGTCCACCCGCCGTATTGCGG
CAAGCCGCATTCCGGCTGATCACATGGTGCTGATGGCAGGTTTCACCGCCGGTAATGAAAAAGGCGAACTGGTGGTGCTTGGACGCAACGGTTCCGACT
ACTCTGCTGCGGTGCTGGCTGCCTGTTTACGCGCCGATTGTTGCGAGATTTGGACGGACGTTGACGGGGTCTATACCTGCGACCCGCGTCAGGTGCCCG
ATGCGAGGTTGTTGAAGTCGATGTCCTACCAGGAAGCGATGGAGCTTTCCTACTTCGGCGCTAAAGTTCTTCACCCCCGCACCATTACCCCCATCGCCC
AGTTCCAGATCCCTTGCCTGATTAAAAATACCGGAAATCCTCAAGCACCAGGTACGCTCATTGGTGCCAGCCGTGATGAAGACGAATTACCGGTCAAGG
GCATTTCCAATCTGAATAACATGGCAATGTTCAGCGTTTCTGGTCCGGGGATGAAAGGGATGGTCGGCATGGCGGCGCGCGTCTTTGCAGCGATGTCAC
GCGCCCGTATTTCCGTGGTGCTGATTACGCAATCATCTTCCGAATACAGCATCAGTTTCTGCGTTCCACAAAGCGACTGTGTGCGAGCTGAACGGGCAA
TGCAGGAAGAGTTCTACCTGGAACTGAAAGAAGGCTTACTGGAGCCGCTGGCAGTGACGGAACGGCTGGCCATTATCTCGGTGGTAGGTGATGGTATGC
GCACCTTGCGTGGGATCTCGGCGAAATTCTTTGCCGCACTGGCCCGCGCCAATATCAACATTGTCGCCATTGCTCAGGGATCTTCTGAACGCTCAATCT
CTGTCGTGGTAAATAACGATGATGCGACCACTGGCGTGCGCGTTACTCATCAGATGCTGTTCAATACCGATCAGGTTATCGAAGTGTTTGTGATTGGCG
TCGGTGGCGTTGGCGGTGCGCTGCTGGAGCAACTGAAGCGTCAGCAAAGCTGGCTGAAGAATAAACATATCGACTTACGTGTCTGCGGTGTTGCCAACT
CGAAGGCTCTGCTCACCAATGTACATGGCCTTAATCTGGAAAACTGGCAGGAAGAACTGGCGCAAGCCAAAGAGCCGTTTAATCTCGGGCGCTTAATTC
GCCTCGTGAAAGAATATCATCTGCTGAACCCGGTCATTGTTGACTGCACTTCCAGCCAGGCAGTGGCGGATCAATATGCCGACTTCCTGCGCGAAGGTT
TCCACGTTGTCACGCCGAACAAAAAGGCCAACACCTCGTCGATGGATTACTACCATCAGTTGCGTTATGCGGCGGAAAAATCGCGGCGTAAATTCCTCT
ATGACACCAACGTTGGGGCTGGATTACCGGTTATTGAGAACCTGCAAAATCTGCTCAATGCAGGTGATGAATTGATGAAGTTCTCCGGCATTCTTTCTG
GTTCGCTTTCTTATATCTTCGGCAAGTTAGACGAAGGCATGAGTTTCTCCGAGGCGACCACGCTGGCGCGGGAAATGGGTTATACCGAACCGGACCCGC
GAGATGATCTTTCTGGTATGGATGTGGCGCGTAAACTATTGATTCTCGCTCGTGAAACGGGACGTGAACTGGAGCTGGCGGATATTGAAATTGAACCTG
TGCTGCCCGCAGAGTTTAACGCCGAGGGTGATGTTGCCGCTTTTATGGCGAATCTGTCACAACTCGACGATCTCTTTGCCGCGCGCGTGGCGAAGGCCC
GTGATGAAGGAAAAGTTTTGCGCTATGTTGGCAATATTGATGAAGATGGCGTCTGCCGCGTGAAGATTGCCGAAGTGGATGGTAATGATCCGCTGTTCA
AAGTGAAAAATGGCGAAAACGCCCTGGCCTTCTATAGCCACTATTATCAGCCGCTGCCGTTGGTACTGCGCGGATATGGTGCGGGCAATGACGTTACAG
CTGCCGGTGTCTTTGCTGATCTGCTACGTACCCTCTCATGGAAGTTAGGAGTCTGACATGGTTAAAGTTTATGCCCCCATGGTTAAAGTTTATGCCCCG
GCTTCCAGTGCCAATATGAGCGTCGGGTTTGATGTGCTCGGGGCGGCGGTGACACCTGTTGATGGTGCATTGCTCGGAGATGTAGTCACGGTTGAGGCG
GCAGAGACATTCAGTCTCAACAACCTCGGACGCTTTGCCGATAAGCTGCCGTCAGAACCACGGGAAAATATCGTTTATCA

Discussion
How should these researchers annotate their genomes (after
they have sequenced and assembled them)?
What are the fast and cheap methods?
What are the most accurate methods?

The data tsunami
Thanks to new sequencing technologies (recall Ant’s
teeny-tiny little sequencer).
Biologists no longer spend years acquiring data.
The bottle-neck for research is now in the analysis phase of
research.
Biologists with good mathematics skills and mathematicians
with an interest in biology are in high demand.
Gather data
Analyze-Classify
Hypotheses-
Predictions
Experiment GCGAGCAGACGCA
CCGAACAGACACA
GUGAGCAGGCGCC
CCGAGCAGUCAUA
ACACUGAGACGCA
GCGAGCGU-AACG
R
A
A
A
A
R
C
Y
Y R
R
G
Y
U
U
U
U
U
U U5'
0.0
1.0
2.0
A
C
GU
CC
A
GA5
A
GA
U
CAGG
U
A10
CA
GU
CU
G
A

We can use sequence analysis...
Genes leave a statistical signal in the genome...
Example: identify promotors, ribosome binding sites,
open-reading frames (ORFs), terminators
In eukaryotes CpG islands, splicing signals and poly-A tails may
be incorporated
How reliable are these approaches? What are the main
weaknesses & strengths?
Figure from: http://zerocool.is-a-geek.net/?p=630

Sequence analysis: strengths and weaknesses
ORF prediction: Prodigal, GLIMMER
Strengths:
very fast
cheap
Weaknesses:
false positives (see AntiFam)
misses short peptides (e.g. toxins-antitoxin systems)
No ncRNAs, pseudogenes, recoding elements, ...

We can use homology...
Evolution tends to preserve functional genomic regions...
Example 1: Use an existing set of genes from related species
and map these onto your genome (e.g. RATT)
Example 2: Align two or more related genomes, look for
conserved regions, patterns of variation can be indicative of
function (e.g. QRNA, RNAz & RNAcode)
How reliable are these approaches? What are the main
weaknesses & strengths?

The QRNA approach...
Rivas et al. (2001) Computational identiﬁcation of noncoding RNAs in E. coli by comparative genomics. Current
Biology.

DNA encodes Protein
# STOCKHOLM 1.0
#33 unique RNA sequences, 1 peptide sequence
#=GR PR1 G..A..D..V..T..H..P..P..A..G..D..
#=GR PR3 GlyAlaAspValThrHisProProAlaGlyAsp
platypus GGAGCAGACGTCACTCACCCCCCAGCCGGAGAT
opossum GGAGCAGATGTTACTCACCCTCCTGCTGGAGAT
sloth GGAGCAGACGTCACACACCCTCCCGCGGGGGAT
armadillo GGAGCAGACGTCACGCACCCTCCGGCAGGGGAT
tenrec GGGGCCGACGTCACGCACCCCCCTGCGGGCGAT
elephant GGAGCGGATGTCACACACCCGCCTGCGGGGGAT
shrew GGCGCAGATGTCACGCATCCTCCAGCAGGGGAC
hedgehog GGAGCAGATGTCACACACCCCCCAGCAGGAGAT
megabat GGAGCAGATGTCACACACCCTCCTGCAGGAGAT
microbat GGAGCAGATGTCACCCACCCCCCTGCAGGGGAC
dog GGAGCGGATGTCACACACCCCCCAGCCGGGGAC
cat GGAGCCGATGTCACGCACCCCCCAGCAGGGGAT
horse GGAGCGGATGTCACACACCCTCCGGCAGGGGAT
pika GGAGCAGATGTCACTCACCCTCCAGCTGGGGAT
rabbit GGTGCAGATGTCACACACCCCCCAGCTGGAGAT
squirrel GGAGCAGATGTCACTCACCCTCCAGCGGGAGAT
guinea_pig GGAGCAGATGTCACACACCCACCAGCGGGAGAT
mouse GGAGCAGATGTCACTCATCCGCCTGCTGGGGAC
rat GGAGCAGATGTCACTCATCCACCTGCTGGGGAT
kangaroo_rat GGAGCAGATGTTACACACCCTCCAGCAGGGGAT
tree_shrew GGCGCAGACGTCACGCACCCCCCGGCCGGGGAT
human GGAGCGGATGTCACACACCCCCCAGCAGGGGAT
tarsier GGTGCTGATGTCACACACCCCCCTGCAGGGGAT
marmoset GGAGCAGATGTCACACACCCACCAGCAGGGGAT
zebrafinch GGAGCAGATGTCACTCACCCTCCCGCCGGGGAT
green_anole GGGGCAGACGTCACTCACCCGCCAGCCGGGGAC
xenopus GGAGCAGATGTTACACACCCACCTGCTGGTGAT
pufferfish GGTGCGGATGTTACTCATCCTCCTGCTGGTGAT
fugu GGGGCTGATGTTACTCACCCTCCAGCTGGTGAT
stickleback GGTGCAGACGTCACACATCCTCCAGCGGGTGAT
medaka GGTGCCGATGTCACTCATCCTCCTGCCGGGGAC
zebrafish GGGGCAGATGTTACACACCCGCCGGCTGGTGAT
lamprey GGTGCCGATGTGACACACCCTCCAGCGGGAGAC
//
G
A
A
A
A
A
G
G
G
G
C
C
C
C
U
U
U
U
UC AG UCA
G
U
C
A
G
U
C
A
G
U
C
A
G
U
C
A
G
UC
AGUCAGUCAGUC
AG
U
C
A
G
U
C
A
G
U
C
A
G
U
C
AG
U
C
AG UCAG
P
S
U
nG
nG
oG
oG
oG
G
P
P
P
P
P
nM
nM
M
M
nM
nM
nM
Phenylalanine
Phe
Leucine
Leu
Leucine
Leu
Proline
Pro
Histidine
His
Glutamine
Gln
Isoleucine
Ile
Methionine
Met
Threonine
Thr
Asparagine
Asn
Lysine
Lys
Arginine
Arg
Arginine
Arg
Valine
Val
Alanine
Ala
Glutamic acid
Glu
Aspartic acid
Asp
Glycine
Gly
Serine
Ser
Serine
Ser
Tyrosine
Tyr
Cysteine
Cys
Tryptophan
Trp
Stops
Stop
E
G F L
S
S
Y
C
W
L
P
H
R
R
Q
IM
T
N
K
V
A
D
89.09
75.07
174.20
174.20
146.19
165.19
133.11
117.15
147.13
146.15
155.16
115.13
105.09
105.09
131.18
132.12
MW
=149.21Da
131.18
119.12
204.23
131.18
181.19
121.16
HN
NH2
NH
H2N
OH
O
H2N
CH3 OH
O
H2N
O
H2N
OH
O
O
HO
H2N
OH
O
HS
H2N
OH
O
H2N
O
NH2
OH
O
O
OH
H2N
OH
O
H2N
OH
O
NH
H2N
OH
O
N
CH3 CH3
H2N
OH
O
CH3
CH3
H2N
OH
O
CH3
CH3
H2N
OH
O
H2N
H2N
OH
O
CH3 S
H2N
OH
O
H2N
OH
O
NH
OH
O
H2N
HO OH
O
H2N
HO OH
O
H2N
HO
CH3
OH
O
NH
H2N
OH
O
HO
H2N
OH
O
H2N
CH3
CH3
OH
O
Basic
Acidic
Polar
Nonpolar
(hydrophobic)
S -
M -
P -
U -
nM -
oG -
nG -
Sumo
Methyl
Phospho
Ubiquitin
N-Methyl
O-glycosyl
N-glycosyl
Modiﬁcation
aminoacid
2nd1st position 3rd
U
C
Image source: http://upload.wikimedia.org/wikipedia/en/d/d6/GeneticCode21-version-2.svgPaul Gardner Genome annotation

DNA encodes RNA
G
C
G
G
A
U
UU
A
GCUC
AGD
D
G
G G A
G A G C
G
C
C
A
GA
C
U
G
A A
.
A
.
C
U
G
GAGG
U
C
C U G U G
T . C
G
A
UC
CACAG
A
A
U
U
C
G
C
A
C
CA
Variable
LoopAnticodon
Loop
T ΨC
Loop
10 15 20 25 30 355 40 45 50 55 60 65 70 75
Anticodon
Loop
Acceptor
Stem
GCGGAUUUAGCUCAGDDGGGAGAGCGCCAGACUGAAYA.CUGGAGGUCCUGUGT.CGAUCCACAGAAUUCGCACCA5’ 3’
Secondary Structure Tertiary StructureB C
Primary StructureA
Acceptor
Stem
T ΨC
Loop
ΨΨ
Ψ
Ψ
Y
65
60
55
40
10
20
15
5
70
75
25
30
35
45
50
D Loop
3’
5’
5’
3’
D Loop

Homology-based annotation: strengths and weaknesses
Example 1: map known genes onto genomes
Strengths: fast, cheap, ...
Weaknesses:
Inaccurate for divergent species (e.g. Graeme’s
Methanobrevibacter or GEBA genomes)
Requires manual correction of border-line results
Errors are propagated throughout the databases
Example 2: aligning genomes
Strengths:
“cheap” if genomes already exist
fast for small genomes
evolutionary support for all discoveries
Weaknesses:
Requires lots of powerful computers for large genomes
Inaccurate for divergent species (e.g. Neil’s tuatara or
Graeme’s Methanobrevibacter)
Requires manual correction of border-line results

Homology annotation: nucleotides are diﬃcult to align
0
20
40
60
80
100
Conservation of Xfam families in bacterial genomes
Conservedfamilies(%)
Freq.
RNA−seq species
0
10
Pfam (N=6671)
Rfam (N=331)
0.0 0.1 0.2 0.3 0.4 0.5 0.6
Phylogenetic distance
Lindgreen et al. (2014) Robust identiﬁcation of noncoding RNA from transcriptomes requires
phylogenetically-informed sampling. PLOS Computational Biology.

We can use RNA detection methods...
Remember the central dogma of molecular biology
Example: sequence RNAs from multiple tissues,
developmental stages and environmental conditions
How reliable is this approach? What are the main weaknesses
& strengths?
Wang, Gerstein & Snyder (2009) RNA-Seq: a revolutionary tool for transcriptomics. Nature Reviews Genetics.

RNA-seq: strengths and weaknesses
RNA-seq
Strengths:
Experimental support for transcribed regions
Identifies untranslated regions (UTRs), ncRNAs, antisense
RNAs, ...
Identifies alternatively spliced and edited RNAs
Weaknesses:
Expensive & lots of work
RNA degradation and genomic contamination
Transcription does not prove translation
Will miss genes transcribed in specific developmental stages,
tissues & environmental conditions E.g. lsy-6 microRNA

We can use protein detection methods...
Central dogma of molecular biology
Example: Protein mass spectrometry
How reliable is this approach? What are the main weaknesses
& strengths?
Figure from: http://en.wikipedia.org/wiki/Protein mass spectrometry

Protein mass spectrometry: strengths and weaknesses
Protein mass spectrometry
Strengths:
Experimental support for translated regions
Identifies alternative isoforms and post-translational
modifications (Ezkurdia et al. 2012)
Weaknesses:
Expensive & lots of work
Misses genes transcribed in specific developmental stages,
tissues & environmental conditions
Currently technology generally only detects the most
abundant proteins
Ezkurdia et al. (2012) Comparative proteomics reveals a significant bias toward alternative protein isoforms with
conserved structure and function. Mol Biol Evol.

How cool is this?!
Schwanh¨ausser et al. (2011) Global quantiﬁcation of mammalian gene expression control. Nature

This is also kinda neat...
Lu et al. (2007) Absolute protein expression proﬁling estimates the relative contributions of transcriptional and
translational regulation. Nature Biotechnology

Relevant reading
Reviews:
Stein L (2001) Genome annotation: from sequence to biology.
Nature Reviews Genetics.
Reed JL et al. (2006) Towards multidimensional genome
annotation. Nature Reviews Genetics.
ORF finding:
Delcher AL et al. (2007) Identifying bacterial genes and
endosymbiont DNA with Glimmer. Bioinformatics.
Hyatt D et al. (2010) Prodigal: prokaryotic gene recognition
and translation initiation site identification. BMC
Bioinformatics.
RNA-seq (Ant’s lectures)
Wang, Gerstein & Snyder (2009) RNA-Seq: a revolutionary
tool for transcriptomics. Nature Reviews Genetics.
Proteomics (Sarah’s lectures)
Ezkurdia et al. (2012) Comparative proteomics reveals a
significant bias toward alternative protein isoforms with
conserved structure and function. Mol Biol Evol.

Homework: How to make a sequence alignment?
Play: http://phylo.cs.mcgill.ca
or even better, play Ribo: http://ribo.cs.mcgill.ca/

The End

BIOL335: How to annotate a genome

More Related Content

What's hot

Viewers also liked

Similar to BIOL335: How to annotate a genome

More from Paul Gardner

Recently uploaded

BIOL335: How to annotate a genome